Мы сравнили пять LLM-моделей на 500 реальных русскоязычных запросах к нашему телеграм-боту для фактчекинга “Докопался!”. Задача состояла в том, чтобы выявить на практике, какая модель лучше всего справляется с выявлением дезинформации среди заявлений из соцсетей и медиа. Это лишь первая фаза исследований, но она уже показала, какой из тестируемых ИИ — самый слабый, и какой — самый сильный в плане проверки фейков из интернета.
Что еще за “Докопался”?
Telegram-бот «Докопался!» — это онлайн-инструмент для быстрой проверки информации, который помогает выявлять правду среди множества фейков и недостоверных утверждений. Он разработан «Теплицей социальных технологий» на основе нейросетей. Этот бот анализирует текст, выделяет ключевые утверждения и проверяет их на основе актуальных и надежных источников.
Как работает бот:
- Выделяет утверждения: бот самостоятельно находит до трех ключевых утверждений в тексте, чтобы сосредоточиться на самых важных фактах.
- Проверяет информацию: для каждого утверждения бот ищет проверенные источники и предоставляет краткое резюме с ссылками на надежные ресурсы.
- Отвечает на русском языке: несмотря на возможность обработки текста на разных языках, бот ориентирован на русскоязычные запросы, предоставляя наиболее релевантную информацию на русском.

Анна Кулешова, независимый исследователь, доктор социологических наук, магистр журналистики:
— “Докопался!” — это бот, который обучен распознавать манипуляции и фабрикации. Очень интересная получилась штуковина: просто вставляете любой текст, бот проанализирует его (и сделает это бесплатно). Подробности и ссылку положу в первый комментарий. Тот случай, когда наконец-то можно перекинуть нагрузку на ИИ в части противодействия фейкам и манипуляциям. Единственное, как и со всеми остальными технологиями, снимая шляпу, не снимаем голову, — контроль остается за человеком. Бот — это лишь развивающийся инструмент, полезный, но пока не идеальный.
Зачем вообще нужен ИИ-бот для проверки утверждений? Согласно “Digital News Report 2025” от Reuters Institute, 58% людей в мире говорят, что им все труднее отличать правду от фейка в онлайне.
Как мы проводили исследование?
Первое, с чем мы столкнулись — отсутствие надежных русскоязычных датасетов для независимого бенчмарка. Поэтому мы взяли 500 реальных утверждений от пользователей. Темы запросов были разные — здоровье, история, политика, свежие новости.
Для тестирования мы взяли пять ИИ-провайдеров с веб-поиском:
- Perplexity — Sonar (то, что в боте сейчас)
- OpenAI — GPT-4o
- Perplexity — Sonar Reasoning
- Perplexity — Sonar Reasoning Pro
- Gemini Flash 2.5
Нейросети выдавали три возможных вердикта: ПРАВДА / ЛОЖЬ / НЕОПРЕДЕЛЕННО. Кроме того, мы вручную разобрали 74 спорных случая (в основном там, где вердикты моделей расходились) и использовали эту выборку как «золотой стандарт».
Для оценки точности использовались две метрики:
- LLM-консенсус: какой вердикт выбрало большинство моделей (минимум 3 из 5) на наборе из 500 утверждений. Эта метрика показывает, насколько модель согласуется с коллективным мнением нескольких ИИ.
- Оценка против человека: насколько ответы каждой модели совпадали с ручными проверками «золотого стандарта» (74 случая).
Примеры ПРАВДА:
- Сыр полезней колбасы (4 из 5 моделей согласны с вердиктом)
- Познер не раз раскаивался в том, что занимался пропагандой (все модели согласны с вердиктом)
Примеры ЛОЖЬ:
- Леонардо Ди Каприо поддерживает Палестину. (3 из 5 моделей согласны с вердиктом)
- Огромная часть населения Саудовской Аравии не знает алфавита. (все модели согласны с вердиктом)
Примеры НЕОПРЕДЕЛЁННО:
- Правительство России не предпринимает достаточных мер для контроля инфляции. (4 из 5 моделей согласны с вердиктом)
- Женщины любят негодяев. (3 из 5 моделей согласны с вердиктом)
Что показали цифры?
Модель | Совпадение с человеком (74 кейса) |
Согласие с LLM-консенсусом (500 кейсов) |
OpenAI Search | 79 % | 58 % |
LLM-консенсус | 70 % | — |
Perplexity Reason Pro | 61 % | 71 % |
Perplexity Reason | 55 % | 69 % |
Perplexity-base (бот) | 54 % | 61 % |
Gemini Flash | 46 % | 50 % |
Почему мнения ИИ и людей расходятся?
- Общие источники = общие ошибки. Скорее всего, Perplexity-модели часто цитируют одни и те же страницы; если страница неточна, все ошибаются одинаково.
- Нечеткие вопросы. «Правительство не контролирует инфляцию» или «структурные диспропорции растут» — здесь многое зависит от того, какие метрики считать важными.
- Маленький human-набор. 74 кейса — это старт, но не финальная истина; статистика пока «шумная».
Какой же ИИ меньше других “врет”? Теперь мы знаем ответ
- OpenAI Search оказался самым близким к человеческому решению в нашей мини-выборке, но сравнительно часто расходится с другими ИИ.
- Важно, что Пара Perplexity Reason / Reason Pro хорошо согласуется между собой, поэтому обе часто совпадают с «коллективным мнением» моделей, хотя и не лидируют в сравнении с человеком.
- Gemini Flash показал наименьшее совпадение и с людьми, и с другими ИИ.
- Текущая модель бота (Perplexity-base) держится в середине: лучше Gemini, но слабее продвинутых вариантов и OpenAI Search.
Итак, наш промежуточный вердикт:
- Пока лучшую точность по отношению к человеческой проверке показал OpenAI Search.
- Худшую точность фактчекинга по сравнению с живым человеком показал Gemini.
Вы можете нам помочь в продолжении исследования
Всего три простых шага:
- Откройте бота 👉 t.me/dokopalsya_bot.
- Отправьте утверждение, которое сами хотели бы проверить.
- Поставьте оценку ответу, и, если ответ кажется сомнительным — нажмите кнопку «✍️ Оставить комментарий» и коротко напишите, почему.
Чем больше живых примеров с фидбеком, тем точнее мы поймём, какая модель реально полезнее. Спасибо, что вместе с нами «докапываетесь» до фактов!