Украина, протесты и сексизм. Ксения Ермошина — о цензуре в нейросетях

Социологиня рассказывает об исследовании цензуры в сервисах искусственного интеллекта

Если вбить слово «протесты» в российской нейросети, создающей изображения, она выдаст картинку цветов. В разных нейросетях используют разные наборы стоп-слов, которые не позволяют генерировать изображение. Цензура в нейросетях — явление, о котором пока мало говорят, тем не менее ученые уже исследуют его. Киберактивистка, исследовательница социальных инноваций Ксения Ермошина рассказала о своем исследовании на конференции Теплицы «Опилки XIV».

Ксения Ермошина: фото из личного архива авторки

Все началось с того, что меня позвали в команду французского исследовательского проекта CulturIA. В проекте участвуют три университета — институт прикладной информатики INRIA и два гуманитарных (Sorbonne Nouvelle и Centre Internet et Société). У нас получился междисциплинарный проект по изучению влияния культуры на развитие искусственного интеллекта. И в обратную сторону — как искусственный интеллект формирует новую культуру. 

Причем под культурой понимается массовая культура — фильмы, книги, комиксы и так далее. Мы смотрим на то, как исследователи, которые разрабатывают новые модели для машинного обучения, воспринимают научную фантастику, фильмы в которых описывается AI. И в свою очередь смотрим как то, что они производят, влияет на литературу, кино и так далее. Смотрим петлю обратной связи, выясняем, есть ли она.

Культура — это не только то, что «можно», но это то, что «нельзя». Мне как социологине интересно взглянуть на цензуру как на обратную сторону культуры. В разных странах есть своя форма того, что запрещено и разрешено в литературе, кинематографе, текстах. Даже в самых демократичных странах имеется своя особенная цензура.

Результат генерации в нейросети Kandinsky 2.1 после введения цензуры на слово «Украина».

В общем, я решила посмотреть, как это устроено в популярных генеративных нейросетях. Выбрала именно визуальные сервисы, потому что они самые популярные. 

Это исследование родилось из собственной практики. Я слежу за самыми популярными проектами. И когда я купила подписку на DALL-E 2, попыталась сгенерировать картинки, связанные с Крымом и оккупацией, но не смогла. Это меня очень удивило.

Я пыталась сгенерировать плакаты для правозащитных организаций, и мне запретили там генерировать коктейли Молотова и многие другие вещи. 

Ксения Ермошина

киберактивистка, исследовательница социальных инноваций

Сначала я просто пробовала и записывала разные «стоп-слова» в табличку. Затем я обнаружила дебаты в Twitter по поводу цензуры в нейросети. Долгое время DALL-E 2 запрещала генерировать изображения, связанные с Украиной, и пользователи требовали разрешить, потому что хотели создавать картинки в солидарность с Украиной. В итоге разрешили. 

Я решила провести исследование в сравнительной перспективе, посмотреть на российский проект Kandinsky 2.1., на китайский ERNIE-ViLG, а также, собственно, американский DALL-E 2. Потом к ним добавились Stable Diffusion и Midjourney.

Я сравниваю три проекта — сделанные в так называемых демократических странах, и два, разработанных в авторитарных. У меня появилось несколько гипотез:

  1. В нейросетях сделанных командами из стран с авторитарным режимом будет больше политических фильтров,
  2. Проекты с открытым кодом будут иметь меньше цензуры, чем с закрытым кодом.
  3. Пользователи имеют определенное воздействие, они могут менять фильтры, и это будет зависеть от того, насколько активно проект присутствует онлайн на разных платформах; чем меньше дистанция разработчиков и пользователей, тем больше шансов что они будут принимать во внимание, что хотят пользователи.

Веб-этнография и промпт-инжиниринг — это мои исследовательские методы. Попытка попасть на цензуру — достаточно трудоемкая, но при этом очень интересная работа. Оказалось, что есть люди, которые этим занимаются не как исследователи, а как пользователи. Например, была целая ветка в Reddit, где люди собирали бан-лист Midjourney. То есть люди участвовали в таком неофициальном гражданском расследовании, чтобы собрать запрещенные слова и потребовать прозрачности. Но Reddit забанил эту ветку. Главный вывод из этого — списки закрыты от пользователей во всех проектах, включая проекты с открытым кодом. 

Результат генерации в нейросети Kandinsky 2.1 после введения цензуры слово «Украина».
Результат генерации в нейросети Kandinsky 2.1 после введения цензуры на слово «Украинский флаг».

Я посмотрела на эту проблему глазами разработчиков и поняла, что это именно что запрет на обход. Решение не выкладывать этот список позволяет не давать людям намек на способы обойти запреты. Это очень похоже на то, как устроена наша цензура в Рунете. Ведь Роскомнадзор не выкладывает открыто списки запрещенных сайтов, их сливают провайдеры. Здесь похожий механизм, только провайдеров нет.

Как я систематизирую исследовательский процесс? Собираю эти стоп-слова в таблицы по проектам. Нужно регулярно проверять промты, так как ситуация постоянно меняется. Сейчас я нашла человека, который может помочь автоматизировать работу и жду, когда мы перейдем на новый этап, потому что я уже накопила такое количество данных, что можно запускать автоматизацию.

Результат генерации в нейросети Kandinsky 2.1 по запросам слов из «черного списка».
Результат генерации в нейросети Kandinsky 2.1 по запросам слов из «черного списка».

А потом начнется следующий этап — посмотрим на цензуру в динамике нескольких месяцев, как часто исчезают слова и фразы из списка. Потому что невозможно проверить, добавляют ли их, но можно увидеть, убирают ли слова из черных списков.

Кроме всего этого, я беру интервью. Например, я говорила с AI-художницей из Швейцарии, которая вошла в альфа-панель (Red Team) тестировщиков DALL-E 2. Их команда обучала модель против дискриминации. Они генерировали картинки, и, если им казалось, что они содержат предрассудки, они нажимали на кнопку «пожаловаться». Например, я хочу сгенерировать ученых с компьютерами, а сеть генерирует мне картинку, на которой изображены только белые мужчины!

Сейчас некоторые фильтры так строги, что приходится пытаться их обходить. Художники, которые работают с этими инструментами, должны дополнительно применять усилия, чтобы либо обходить цензуру, либо себя подстраивать. Например, нельзя генерировать кровь, и таким образом менструальная кровь тоже оказывается под запретом. Трудно сгенерировать обнаженное тело, но для художников это тысячелетиями было источником вдохновения.

Иногда я залезаю в код страниц для проектов у которых есть веб-интерфейсы, чтобы посмотреть, как они сами обозначают эти запреты. Кандинский, например, так и пишет «censorship=true», то есть, свои ограничения на промпты называет цензурой.

Ксения Ермошина

киберактивистка, исследовательница социальных инноваций

Для китайской нейросети я решила проверить промпты по уже готовому списку запрещенных слов и фраз, который ведет канадская лаборатория Citizen Lab, с которой я тоже работаю. Пока это выглядит так, что они просто взяли уже существующий общенациональный цензурный список, использующийся для блокировки в китайском мессенджере WeChat и добавили в модель. Там такие прикольные штуки, например, можно сгенерировать протесты, но нельзя протесты против ковида. Конечно же, нельзя генерировать Винни-Пуха

В российской нейросети Kandinsky 2.1 нельзя генерировать ничего, связанного с Украиной на английском и на русском языках. Однако все остальное можно на английском: убивать Путина, протестовать на Красной площади и в Вашингтоне, можно все на ЛГБТК+ темы, наркотики, суицид… На русском языке ничего этого нельзя.

Результат генерации в нейросети Kandinsky 2.1.
Результат генерации в нейросети Kandinsky 2.1.

Есть и забавные кейсы, которые позволили мне понять что список запрещенных слов в Kandinsky 2.1 сейчас составлен «на скорую руку». Например, «геев», «лесбиянок» и «ЛГБТ» генерировать запрещено, а «трансгендерных персон» можно. «Наркотики» как общее понятие под запретом, зато на запрос «марихуана» или «героин» сеть выдаёт прекрасные иллюстрации с листиками или шприцами. Kandinsky ввел цензуру только недавно, в мае 2023, после реакции Миронова, который был обеспокоен тем что нейросеть формирует «негативный образ России».

К тому же, проекты с открытым кодом, такие как Stable Diffusion, можно имплементировать на свой сервер и самостоятельно открыть все права для себя, обучить нейросеть на своих данных. Потенциально может существовать множество личных версий абсолютно свободных нейросетей. Уже есть комната на Discord для того же RuDall-E, куда пускают только совершеннолетних, но туда я даже боюсь заходить. 

Будьте с нами на связи, независимо от алгоритмов

Telegram-канал E-mail рассылка RSS-рассылка
Как победить алгоритмы: прочитай инструкции, как настроить приоритетный показ материалов в социальных сетях и подключить RSS-ленту.