Какой ИИ — самый правдивый? Мы проверили 5 моделей

Наше исследование показало, какой искусственный интеллект лучше других делает фактчекинг

Мы сравнили пять LLM-моделей на 500 реальных русскоязычных запросах к нашему телеграм-боту для фактчекинга “Докопался!”. Задача состояла в том, чтобы выявить на практике, какая модель лучше всего справляется с выявлением дезинформации среди заявлений из соцсетей и медиа. Это лишь первая фаза исследований, но она уже показала, какой из тестируемых ИИ — самый слабый, и какой — самый сильный в плане проверки фейков из интернета.

Что еще за “Докопался”?

Telegram-бот «Докопался!» — это онлайн-инструмент для быстрой проверки информации, который помогает выявлять правду среди множества фейков и недостоверных утверждений. Он разработан «Теплицей социальных технологий» на основе нейросетей. Этот бот анализирует текст, выделяет ключевые утверждения и проверяет их на основе актуальных и надежных источников.

Как работает бот:

  • Выделяет утверждения: бот самостоятельно находит до трех ключевых утверждений в тексте, чтобы сосредоточиться на самых важных фактах.
  • Проверяет информацию: для каждого утверждения бот ищет проверенные источники и предоставляет краткое резюме с ссылками на надежные ресурсы.
  • Отвечает на русском языке: несмотря на возможность обработки текста на разных языках, бот ориентирован на русскоязычные запросы, предоставляя наиболее релевантную информацию на русском.

Анна Кулешова, независимый исследователь, доктор социологических наук, магистр журналистики:

— “Докопался!” — это бот, который обучен распознавать манипуляции и фабрикации. Очень интересная получилась штуковина: просто вставляете любой текст, бот проанализирует его (и сделает это бесплатно). Подробности и ссылку положу в первый комментарий. Тот случай, когда наконец-то можно перекинуть нагрузку на ИИ в части противодействия фейкам и манипуляциям. Единственное, как и со всеми остальными технологиями, снимая шляпу, не снимаем голову, — контроль остается за человеком. Бот — это лишь развивающийся инструмент, полезный, но пока не идеальный.

Зачем вообще нужен ИИ-бот для проверки утверждений? Согласно “Digital News Report 2025” от Reuters Institute, 58% людей в мире говорят, что им все труднее отличать правду от фейка в онлайне.

Как мы проводили исследование?

Первое, с чем мы столкнулись — отсутствие надежных русскоязычных датасетов для независимого бенчмарка. Поэтому мы взяли 500 реальных утверждений от пользователей. Темы запросов были разные — здоровье, история, политика, свежие новости. 

Для тестирования мы взяли пять ИИ-провайдеров с веб-поиском:

  1. Perplexity — Sonar (то, что в боте сейчас)
  2. OpenAI — GPT-4o
  3. Perplexity — Sonar Reasoning
  4. Perplexity — Sonar Reasoning Pro
  5. Gemini Flash 2.5

Нейросети выдавали три возможных вердикта: ПРАВДА / ЛОЖЬ / НЕОПРЕДЕЛЕННО. Кроме того, мы вручную разобрали 74 спорных случая (в основном там, где вердикты моделей расходились) и использовали эту выборку как «золотой стандарт». 

Для оценки точности использовались две метрики:

  • LLM-консенсус: какой вердикт выбрало большинство моделей (минимум 3 из 5) на наборе из 500 утверждений. Эта метрика показывает, насколько модель согласуется с коллективным мнением нескольких ИИ.
  • Оценка против человека: насколько ответы каждой модели совпадали с ручными проверками «золотого стандарта» (74 случая).

Примеры ПРАВДА:

  • Сыр полезней колбасы (4 из 5 моделей согласны с вердиктом)
  • Познер не раз раскаивался в том, что занимался пропагандой (все модели согласны с вердиктом)

Примеры ЛОЖЬ:

  • Леонардо Ди Каприо поддерживает Палестину. (3 из 5 моделей согласны с вердиктом)
  • Огромная часть населения Саудовской Аравии не знает алфавита. (все модели согласны с вердиктом)

Примеры НЕОПРЕДЕЛЁННО:

  • Правительство России не предпринимает достаточных мер для контроля инфляции. (4 из 5 моделей согласны с вердиктом)
  • Женщины любят негодяев. (3 из 5 моделей согласны с вердиктом)

Что показали цифры?

Модель Совпадение с человеком
(74 кейса)
Согласие с LLM-консенсусом
(500 кейсов)
OpenAI Search 79 % 58 %
LLM-консенсус 70 %
Perplexity Reason Pro 61 % 71 %
Perplexity Reason 55 % 69 %
Perplexity-base (бот) 54 % 61 %
Gemini Flash 46 % 50 %

Почему мнения ИИ и людей расходятся?

  • Общие источники = общие ошибки. Скорее всего, Perplexity-модели часто цитируют одни и те же страницы; если страница неточна, все ошибаются одинаково.
  • Нечеткие вопросы. «Правительство не контролирует инфляцию» или «структурные диспропорции растут» — здесь многое зависит от того, какие метрики считать важными.
  • Маленький human-набор. 74 кейса — это старт, но не финальная истина; статистика пока «шумная».

Какой же ИИ меньше других “врет”? Теперь мы знаем ответ

  • OpenAI Search оказался самым близким к человеческому решению в нашей мини-выборке, но сравнительно часто расходится с другими ИИ.
  • Важно, что Пара Perplexity Reason / Reason Pro хорошо согласуется между собой, поэтому обе часто совпадают с «коллективным мнением» моделей, хотя и не лидируют в сравнении с человеком.
  • Gemini Flash показал наименьшее совпадение и с людьми, и с другими ИИ.
  • Текущая модель бота (Perplexity-base) держится в середине: лучше Gemini, но слабее продвинутых вариантов и OpenAI Search.

Итак, наш промежуточный вердикт:

  • Пока лучшую точность по отношению к человеческой проверке показал OpenAI Search.
  • Худшую точность фактчекинга по сравнению с живым человеком показал Gemini.

Вы можете нам помочь в продолжении исследования

Всего три простых шага:

  1. Откройте бота 👉 t.me/dokopalsya_bot.
  2. Отправьте утверждение, которое сами хотели бы проверить.
  3. Поставьте оценку ответу, и, если ответ кажется сомнительным — нажмите кнопку «✍️ Оставить комментарий» и коротко напишите, почему.

Чем больше живых примеров с фидбеком, тем точнее мы поймём, какая модель реально полезнее. Спасибо, что вместе с нами «докапываетесь» до фактов!