CSRL Sentiment: инструмент анализа отношения к войне в Украине для исследователей, журналистов и активистов

Теплица анонсирует запуск нового сервиса для верифицированных пользователей — CSRL Sentiment. Этот инструмент разработан совместными усилиями Лаборатории Теплицы и волонтеров закрытого сообщества исследователей пропаганды (o)plot, которое образовалось на хакатоне Прожектор. Сервис предназначен для автоматической оценки отношения авторов опубликованных в интернете текстов к войне в Украине.

Для кого создан CSRL Sentiment и кто может им пользоваться?

Нашей целью было создать инструмент, который поможет исследователям и представителям гражданского общества автоматически анализировать большой поток сообщений. Также этот сервис можно использовать для верификации волонтеров или организаций. Лаборатория уже использовала эту модель при подготовке исследования о коммуникациях гражданского общества в Telegram. Мы приглашаем к сотрудничеству исследователей, медиа, активистские проекты и всех, кто разделяет ценности Теплицы.

Мы осознаем, что алгоритмы и данные могут быть использованы в целях, противоречащих принципам гуманизма и демократии. Именно поэтому код CSRL Sentiment закрыт и доступ к нему ограничен. Для доступа к сервису необходим индивидуальный токен, который можно запросить, написав на почту [email protected]. Если же у вас есть запросы на создание других языковых моделей или дополнительные вопросы, пожалуйста, свяжитесь с нами по этой же электронной почте. Мы всегда рады сотрудничеству и обратной связи.

Как работает CSRL Sentiment?

Сервис CSRL Sentiment основан на машинном обучении для классификации текстов. Этот алгоритм позволяет с высокой точностью оценивать, каково отношение автора текста к войне в Украине.

Модель обучена на выборке из более чем 270 000 сообщений, полученных из 200 русскоязычных телеграм-каналов. Эта большая и разнообразная база данных позволила нам обучить алгоритм так, чтобы он мог точно анализировать и интерпретировать семантику текста.

Модель анализирует предложенный текст и выдает его классификацию по отношению к войне в Украине — текст поддердиает войну или против войны. Важно отметить, что для достижения наилучшей точности анализа, рекомендуется использовать короткие тексты (не более 50 слов). Максимально допустимый размер сообщения составляет 65 536 символов, но учтите, что при увеличении объема текста точность его анализа значительно снижается.

Мы дали вам доступ, что дальше?

Вы можете попросить у нас минимальный код для обкачивания телеграм каналов и использования модели на постах канала. Для примера обкачаем последние 100 сообщений из двух интересующих нас каналов и сравним их. Например, возьмем канал Захара Прилепина и канал Медиапартизан. Это можно легко сделать с помощью библиотеки Telethon следующим образом:

Картинка 1. Обкачивание телеграма с помощью библиотеки Telethon.

Теперь воспользуемся моделью, отправив запрос к нашему API со своим личным токеном доступа, и сохраним результаты в переменную. Затем сравниваем упомянутые телеграм-каналы:

Картинка 2. Посты канала @zakharprilepin скорее милитаристские.

Картинка 3. Посты канала @mpartisans скорее антивоенные.

Результат получился ожидаемый, а у вас теперь есть возможность масштабировать это решение на большое количество текстов из любых источников.

Что потребуется для работы с CSRL Sentiment

Понимание основных принципов программирования и умение работать с кодом могут быть полезными для более глубокой интеграции с вашими текущими системами.
Умение запускать код в jupyter notebook или онлайн в google colab. Второй вариант проще для начинающих.
Если у вас есть сомнения, обращайтесь к нам, мы постараемся вам помочь!