Как технологии находят пропаганду в текстах

Интерес к изучению пропаганды вырос после начала полномасштабного вторжения России в Украину. Исследователи и противники войны пытались понять, почему она работает, хотя в открытом доступе есть доказательства ее неправоты, и как ей противостоять. Но качественную пропаганду очень сложно заметить и в информационной войне почти каждый стал ее жертвой. Читайте в новом материале «‎Теплицы», могут ли технологии помочь с пониманием того, что автор текста вами манипулирует.

Пропагандистские приемы

Чаще всего авторы пропагандистских текстов используют такие приемы, как искажение информации или недоговаривание, давление на эмоции, чрезмерное упрощение, деление на своих и чужих, конспирология, логические уловки*. Эти методы эффективны, поскольку воздействуют на инстинкты: снижают неопределенность, чувство ответственности и канализируют недовольство ситуацией. При беглом чтении тезисы таких текстов кажутся вполне обоснованными, к тому же, люди считают, что пропаганде подвержены все остальные, но не они сами.

Например, в фильме «‎Иноагенты» интервью с Леонидом Гозманом перемежается с кадрами очередей и пустых магазинов из 90-х. Закадровый голос рассказывает про связь Гозмана, признанного иноагентом, с РАО ЕЭС. У большинства россиян плохие воспоминания о том времени, и в тяжелой ситуации они обвиняют олигархов, Анатолия Чубайса, в том числе. Таким образом, проводится параллель между разбогатевшими тогда людьми и современными иноагентами, которые якобы ненавидят свою страну и не разделяют боль ее граждан.

Чтобы автоматически выявлять пропаганду в тексте, надо сначала определиться, что считать пропагандой. Здесь у исследователей нет консенсуса: им нужно определять, является ли текст ангажированным или просто рассказывает о конфликте, что считать объективной подачей, будет ли текст пропагандистским, если он цитирует цитаты пропагандистов и тд. А в случае с комментариями — разжигает ли владелец аккаунта спор намеренно или просто высказывает своё мнение. А разбить пропагандистские приемы по категориям и показать модели, как вычленять их из текста, еще сложнее. Поэтому мало размеченных, то есть классифицированных и аннотированных данных, на которых можно обучить модель. Для русского языка их еще меньше. Один из немногих датасетов с выделенными манипулятивными приемами — подготовленный для семинаров по семантическому анализу SemEval.

*Логические уловки, или ошибки (англ. logical fallacies) — некорректные умозаключения, которые люди иногда допускают в процессе мышления, а пропаганда использует намеренно. Есть известный список логических заблуждений в оригинале на английском, а здесь на русском.

Инструменты

Программы, которые обнаруживают пропагандистские обороты в тексте, как правило, распознают одну или несколько манипулятивных техник: использование эмоционально окрашенных слов, переход на личности и тп. Наиболее популярный способ выявления «‎нечестной игры» — детекция аккаунтов троллей, распространяющих проплаченную информацию.

Но фейки необязательно означают, что текст пропагандистский. «‎Хорошая» пропаганда не договаривает, утрирует, выдергивает из контекста, но далеко не всегда выдает ложь за правду. Например, прогосударственные СМИ или боты обвиняют неугодного человека в чем-то, вызывающем общественное осуждение, например, распутстве. Как правило, эти утверждения не имеют ничего общего с реальностью, но пробуждают негативную реакцию и активные дискуссии среди сторонников и противников версии. Пока жертва доказывает свою невиновность, неприятные ассоциации всплывают каждый раз при упоминании имени этого человека. Этот прием называется «‎метод гнилой селедки».

Из-за ореола манипуляций на выборах 2016 года в США стали набирать популярность инструменты для разоблачения фейков. Особенно высокая активность по выявлению ненастоящих новостей и аккаунтов развернулась в X (Twitter). Среди соответствующих инструментов — Botometer X, который показывает вероятность того, что пользователь — бот, Bot Sentinel, который помечает аккаунты как проблемные, достоверные и удовлетворительные.

Для Telegram тоже есть такой инструмент: Бот-антипровокатор. Он распознает в чатах провоцирующие и агрессивные комментарии, отмечает их для модераторов и удаляет. Чтобы получить к нему доступ и установить, нужно написать создателям на почту [email protected].

Если вы хотите проверить нейтральность какого-то одного текста, то можно скормить его онлайн-сервисам, таким как ClaimBuster или Factiverse. Они допускают погрешности, но подчеркивают речевые приемы, которые могут формировать мнение читателя под нужным углом. ClaimBuster выделяет в тексте утверждения, которые выглядят голословно и требуют проверки, у него также есть API. Например, в материале РИА Новостей про интервью Маргариты Симоньян ClaimBuster выделил такие тезисы, как «‎Америка привыкла в силу своей истории зарабатывать на войнах огромные деньги: зарабатывают определенные круги, определенные элиты, определенные финансовые воротилы, да и вся страна тоже», «Россия не захочет «демократию», как на Украине‎» и др.

Есть продукты для анализа общей картины. Full Fact дает доступ по запросу к своим инструментам автоматического фактчекинга, Google Fact Check Tools собирает материалы разных фактчекинговых СМИ. Perspective, построенный на моделях машинного обучения, определяет токсичность и оскорбительность комментариев по шкале от 0 до 100. У него есть API для разработчиков и авторов контента. Hamilton 2.0 может пригодиться для сводной аналитики, он показывает сводку активности и самых популярных тем в пропагандистских каналах.

Исследование пропаганды

Помимо прикладных инструментов, существуют исследовательские проекты, которые занимаются семантическим анализом пропагандистских текстов. Среди таких — Propaganda Analysis Project, Edit Wars, «‎Оплот», Ground News и др. Ground News агрегирует новости и разбивает их источники по надежности, владельцу и политическому спектру. Эти разбивки организация составляет вручную. «‎Оплот» — сообщество русскоговорящих специалистов по ИИ, изучающих пропаганду. «‎У нас три направления: определение наличия и типов манипуляций в текстах, нахождение провокационных комментариев в чатах и выделение основных тем в новостях» — рассказывает К., разработчица «‎Оплота». — «‎В работе есть четыре этапа – это 1) анализ запросов потенциальной аудитории, 2) анализ, сбор и разметка данных, 3) разработка моделей машинного обучения, 4) подача этих моделей через API или ботов, чтобы ими могли пользоваться другие разработчики, исследователи и обычные люди. Разработка идет чисто волонтёрскими усилиями».

Хотя стопроцентно надежных инструментов выделения пропаганды нет, можно применять инструменты детекции ботов и обращать внимание на проверяемость тезисов, выдвигаемых в тексте. Проверить, насколько хорошо у вас получается определять дезинформацию, можно в коротком тесте Кембриджского университета. У авторки этого материала получилось верно ответить на 13 из 16 вопросов.