Лаборатория данных Теплицы изучает, как российское гражданское общество ведет коммуникацию в интернете, в том числе на сайтах и в социальных сетях. Все данные мы собираем в датасет, который назвали «Грядка». Недавно мы дополнили «Грядку» новыми данными из ВКонтакте, увеличив количество представителей гражданского общества до 875, и посмотрели внимательнее, как живет российское гражданское общество в этой социальной сети.
Дополненные данные показывают, что посты представителей гражданского общества во ВКонтакте очень похожи друг на друга лексически, во ВКонтакте часто пишут отчеты о мероприятиях и анонсы, а сами посты в среднем имеют длину около 5 предложений. Мы узнали, что публикации с позитивной эмоциональной окраской популярнее среди пользователей и что больше всего постов публикуется по понедельникам. Это только первая описательная часть анализа этих данных, во второй мы больше расскажем про параметры, влияющие на коэффициенты охвата и вовлеченности.
Сбор данных
Всего мы выгрузили и проанализировали 267 010 постов ВКонтакте из нашей выборки за период с января 2022 года по ноябрь 2023 года. Мы собрали эти группы на основе нашего датасета с сайтами организаций, которые зарегистрированы в Минюсте. Всего у нас собрано 9541 сайтов. Со страниц этих сайтов мы считали ссылки на соцсети (если они были). Потом мы удалили те, которые не имеют отношения к НКО, и у нас получилось 875 групп и пабликов НКО во ВКонтакте. То есть все эти организации так или иначе обязаны действовать в нынешнем легальном поле России, часть из них зависит от государственного финансирования. В этой выборке нет антивоенных организаций, т.к. они практически не представлены в этой социальной сети из-за цензуры и репрессивных законов.
Картинка 1. Распределение групп ВКонтакте по количеству постов.
Большинство групп имеют до 500 постов, среднее количество по группам – 274. Самое большое количество — у группы «АНО «Продюсерский центр «Северный Характер»».
Затем мы изучили, какие есть особенности у постов ВКонтакте групп НКО по разным параметрам: количество эмодзи в постах, день недели и время постинга, длина постов и эмоциональная окраска постов.
Понедельник — самый частый день постинга Вконтакте
Стратегии СММ основаны на активности пользователей в разных соцсетях по дням недели и по времени. Например, в Instagram пользователи наиболее активны в пятницу, а во Вконтакте в понедельник (подробнее здесь).
Картинка 2. Частота постинга ВКонтакте у НКО.
Наша выборка групп НКО показывает, что эти группы следуют рекомендации постить по понедельникам. На втором месте по частоте постинга в нашей выборке среда. А по выходным появляется меньше всего постов, что тоже совпадает со статистикой пользования ВКонтакте пользователями.
Длина текстов
30607 постов, или 9.8% нашей выборки, не содержат текста, а состоят, например, только из фотографий или видео. Если не учитывать посты без текста, то медианная длина — 566 символов. При этом бывают посты с текстом на картинке, но мы не учитывали их в нашем анализе.
Картинка 3. Распределение групп по их средней длине постов, включая посты без текста.
Если посмотреть среднюю длину постов отдельно для каждой группы, то распределение групп не будет нормальным, у него есть хвост с группами, у которых большая средняя длина поста. В среднем самые длинные посты у групп «Санкт-Петербургский Союз учёных», «Ростовская областная организация ВОИ» и «Нижегородский областной центр реабилитации инвалидов по зрению “Камерата”» (по убыванию средней длины поста).
Группы ВКонтакте не склонны использовать много эмодзи в тексте
Картинка 4. Распределение групп НКО по среднему количеству эмодзи в их постах.
Нам интересно было посмотреть, как в группах и пабликах из нашей выборки используют такую окраску постов как эмодзи. Это довольно просто проанализировать и все мы так или иначе используем эмодзи в нашем общении. Распределение групп по среднему количеству эмодзи отображено гистограммой справа от графика. По нему видно, что большая часть групп НКО ВКонтакте вообще не используют эмодзи в своих постах.
Картинка 5. Длина постов по дням недели с выделением сильно отклоняющихся от медианы значений (иначе говоря выбросов). Длина постов отсортирована по возрастанию медианного значения.
Медианная длина постов по дням недели отличается несильно. Единственный заметный тренд – это то, что по выходным посты короче, чем в будни, но разница незначительная.
Картинка 6. Проценты постов с разными видами приложений.
Большинство групп ВКонтакте по нашей выборке выкладывают посты с иллюстрацими – 65%. 15% постов не имеют никаких приложений. На втором месте по видам приложений видео, на третьем ссылка.
Эмоциональная окраска постов Вконтакте
Картинка 7. Распределение постов по эмоциональной окраске в выборке.
Как и в предыдущих исследованиях соцсетей Telegram и Instagram, эмоционально нейтральных постов в выборке больше всего и категории распределены неравномерно. При этом постов типа «дискурсивный акт» (то есть таких, в которых содержаться призывы или обращения) больше, чем позитивно и негативно окрашенных постов вместе взятых.
От чего зависят коэффициент охвата и коэффициент вовлеченности?
То, каким образом считается коэффициент вовлеченности пользователей и коэффициент охвата постов, может отличаться по разным соцсетям в зависимости от того, какие виды взаимодействия с аудиторией там доступны. Проще всего с коэффициентом охвата постов, так как количество просмотров поста и количество подписчиков доступно практически везде и ВКонтакте не исключение. Тогда коэффициент охвата – это количество просмотров, деленное на количество подписчиков. Эта цифра показывает нам, насколько эффективно группа работает со своими подписчиками, а не только эффективность конкретного поста, которая обычно оценивается просто как количество просмотров, без деления на количество подписчиков. Если этот коэффициент от 0 до 1, значит, посты группы смотрят меньше людей, чем количество их подписчиков, то есть посты мало репостят и аудитория не слишком активная. Если коэффициент охвата больше 1, значит, посты просматривают не только подписчики группы, их репостят/лайкают, они попадают в ленту к другим аудиториям. Но при этом, если у группы очень мало подписчиков, то коэффициент охвата может быть высоким, а на практике это будет значить, что посты просматривают, например, только 5 человек. Поэтому мы исключили из анализа группы, у которых меньше, чем 100 подписчиков, как для анализа коэффициента охвата, так и для анализа второй метрики – коэффициента вовлеченности.
Что касается коэффициента вовлеченности пользователей, то мы считали эту метрику следующим образом:
Коэффициент вовлеченности для каждого поста = (это его количество просмотров + репостов + комментариев + лайков) / количество подписчиков
Какие параметры наиболее важны для повышения коэффициента вовлеченности пользователей и коэффициента охватов постов?
Сначала мы посчитали с помощью языковой модели RuBERT, какая эмоциональная окраска у каждого из постов в нашей выборке. В обработке естественного языка эмоциональную окраску текста еще называют термином «сентимент». Это связано с тем, что технически бывают еще и тексты без эмоциональной окраски, но содержащие какие-то призывы или обращения, иначе говоря, дискурсивные акты, поэтому термин «сентимент» более точный.
![](https://te-st.org/wp-content/uploads/2024/01/image-2.png)
Картинка 8. Вовлеченность по постам Вконтакте в зависимости от эмоциональной окраски.
![](https://te-st.org/wp-content/uploads/2024/01/image.png)
Картинка 9. Коэффициент охвата по постам Вконтакте в зависимости от эмоциональной окраски.
Что касается сентимента, коэффициенты вовлеченности и охвата постов ВКонтакте наиболее высокие для позитивно-окрашенных постов. На втором месте по коэффициентам вовлеченности и охвата посты типа «дискурсивный акт», то есть такие посты, которые могут содержать призывы, обращения и т.д. Потом идут нейтральные посты. Негативно-окрашенные посты имеют наименьшие коэффициенты охвата и вовлеченности, что ожидаемо.
Мы решили создать топы групп по вовлеченности и посмотреть, какие имеют наибольшую популярность среди пользователей. Но для начала мы убрали группы с количеством подписчиков меньше ста, потому что они показывают высокие коэффициенты вовлеченности и охвата на своей аудитории из-за маленького количества подписчиков.
Название сообщества ВКонтакте | Длина поста | Коэффициент вовлеченности | Коэффициент охвата | Количество подписчиков |
lingvouchaly | 301.9 | 4.3 | 4.3 | 1723 |
tdom_izhevsk | 773.8 | 4.0 | 4.0 | 240 |
tmh_profsoyuz | 241.3 | 3.5 | 3.4 | 234 |
ty.v.igre | 837.6 | 3.2 | 3.2 | 5128 |
rzhev_dobro | 969.7 | 2.8 | 2.8 | 409 |
ufa.hospice | 926.7 | 2.7 | 2.6 | 2318 |
pravoporydokrm | 675.6 | 2.5 | 2.4 | 226 |
worldtreecamp | 893.3 | 2.4 | 2.3 | 796 |
fond_ya_est | 1785.2 | 2.4 | 2.3 | 6537 |
nasmalahit | 1755.0 | 2.4 | 2.2 | 221 |
На первом месте ЦДО «Лингвоклуб» в городе Учалы. На втором месте организация «Теплый дом», которая помогает женщинам и парам на пути к родительству). На третьем и четвертых местах ТМХ Профсоюз и всероссийский конкурс проектов в сфере любительского спорта «Ты в игре». Следом идут организации Благотворительный фонд «Добро» в Ржеве, Уфимский хоспис, МРОО «Отряд Правопорядка», «Волонтёрский кампус» от центра «Вторая школа», Благотворительный фонд «Я есть!», и замыкает этот топ АНО СОН «Наш Малахит».
Посты с высоким и низким коэффициентом охвата лексически почти не отличаются, тема помощи детям в топе среди всех групп
Мы узнали, что посты с высокими коэффициентами вовлеченности и охвата склонны иметь положительную эмоциональную окраску. А как коэффициенты охвата и вовлеченности связаны с лексическим содержанием постов? Мы поделили посты по коэффициенту охвата (он скоррелирован с коэффициентом вовлеченности, поэтому тут смотрели только коэффициент охвата) на посты с высокой эффективностью (2 998 486 символов текста в сумме по постам) и с низкой (5 178 882 символов текста), по условной границе 0.5, и построили для каждой группы облако слов. Мы взяли именно такую границу, потому что коэффициент охвата равен одному, когда пост посмотрело столько же человек, сколько у группы есть подписчиков. Это значит, что при коэффициенте 0.5 и ниже посты группы смотрят минимум в два раза меньше людей, чем у группы есть подписчиков, и эффективность постов этой группы низкая.
![](https://te-st.org/wp-content/uploads/2024/01/image-3.png)
Картинка 10. Облако слов для постов с высоким коэффициентом охвата.
В обеих группах очень часто фигурируют слова «проект» и «ребенок», и облака слов в целом довольно-таки похожи друг на друга. И в той, и в другой группах много слов, похожих на слова из отчетов о мероприятиях или из анонсов – «мероприятие», «проходить», «участник», «принимать», «проводить», «состояться», «участие» и т.д. В постах с низким коэффициентом охвата чаще встречается слово «фонд». Это, возможно, потому, что с со словом «фонд» чаще делают отчетные или обязательные материалы, которые не так вдохновляют их авторов, как искренние рассказы об успехах или проблемах подопечных, но это только наша гипотеза.
![](https://te-st.org/wp-content/uploads/2024/01/image-5.png)
Картинка 11. Облако слов для постов с низким коэффициентом охвата.
Также в облака слов попали «фестиваль», «конкурс», «игра», «праздник», что дает нам некоторое представление о том, про какие мероприятия пишут эти организации. Посты с самыми высокими коэффициентами охвата не только про помощь детям, но и про помощь пенсионерам.
Мы учли распределение постов по коэффициенту охвата/вовлеченности (смотреть Картинку 12) и решили посмотреть облако слов только для самых эффективных постов, потому что деление постов по границе 0.5 на две большие группы (больше миллиона постов в каждой) не показывает большой разницы в лексическом содержании постов и не дает нам новой информации.
![](https://te-st.org/wp-content/uploads/2024/01/image-1.png)
Картинка 12. Распределение постов по коэффициентам охвата и вовлеченности.
Для следующего облака слов мы взяли посты с коэффициентами охвата больше 6. Всего таких постов в выборке 155. Это 78 000 символов текста, что в 39 раз меньше, чем символов в выборке постов с коэффициентами охвата больше единицы (2 998 486 символов текста), но все равно очень много текста, достаточно для анализа облаком слов.
![](https://te-st.org/wp-content/uploads/2024/01/image-4.png)
Картинка 13. Облако слов для постов с коэффициентом охвата больше 6.
В самых эффективных по коэффициенту охвата постам всё ещё много постов про помощь детям. Выше поднялось слово «спорт». Судя по всему, в этой группе постов больше позитивной лексики в топе – «любовь», «вместе», «хороший», «друг», «мир». При этом внезапно на этом облаке есть слово «война», несмотря на то, что в этой выборке нет антивоенных или явно милитаристских организаций. Еще заметно, что в этих облаках немало канцелярской лексики, но в последнем облаке слов с самыми высокоэффективными постами, такой лексики немного меньше. Интересно, что посты со словами «Россия» и «РФ» в среднем имеют коэффициент охвата на 3% ниже, чем посты без.
Выводы
Это первая часть исследования, в которой мы рассказали какие данные собрали, что это за данные и что в них можно увидеть. Например, что понедельник выделяется как самый активный день для публикаций в группах НКО ВКонтакте, медианная длина поста 482 символа (80-90 слов), а большинство постов включают фотографии. Посты с позитивной эмоциональной окраской привлекают больше внимания и вовлеченности. Лексически посты с высокими коэффициентами охвата и низкими похожи друг на друга. Мы также увидели, что самое популярное направление помощи – это помощь детям и проекты для детей. Но посты с коэффициентами охвата больше 6 занимаются еще и помощью пенсионерам, и тема помощи детям там не так высоко находится, как в целом по всем постам в выборке.
В текущей публикации мы обобщили собранные данные, а в следующих частях проведем более глубокий анализ и выясним особенности работы акторов гражданского общества во Вконтакте.