Что в черном ящике? Проблемы машинного обучения

Теплица уже рассказывала, что такое машинное обучение (machine learning, ML), и даже писала про то, как НКО спрогнозировать объем пожертвований и успешность кампаний с помощью ML. В этой статье журналист Теплицы Юлия Каленкова разобралась в том, как часто машины ошибаются и к каким это приводит последствиям.

Проблемы эмпатии

В докладе Лондонского королевского общества, опубликованном в 2017 году, «Машинное обучение: сила и перспектива компьютеров, которые учатся на примерах» одной из проблем ML названа деперсонализация ключевых услуг. Участники опроса сошлись во мнении, что современные технологии могут помочь в медицинской диагностике, но не в консультационной практике. Роботы не устают и быстрее работают, но даже утомленный врач в личном разговоре о серьезном диагнозе принесет больше пользы.

«Человеческие качества и эмпатию заменит только сильный искусственный интеллект, причем специально тренированный для этого, типа робота-компаньона, который растет вместе с ребенком и потенциально «меняет тела», от развивающей детской игрушки и робота-партнера до робота-сиделки», – утверждает консультант Первого в России оператора фискальных данных Алексей Деревянкин.

Каждый год специалисты прогнозируют появление такого сильного искусственного интеллекта и останавливаются на формулировке «ближайшее будущее».

Проблемы этики

Пока роботы полностью зависят от людей, нельзя исключать недобрые намерения создателей. Google, например, разрабатывает программное обеспечение для пилотного военного проекта Project Maven по управлению дронами. Более 1000 ученых в области ИИ, этики и информационных технологий, а также 3000 сотрудников самой корпорации уже хотят прекратить подобные эксперименты.

Они требуют поддержать международный договор по запрету автономного оружия. Опасения вполне обоснованные: посмотрите, как при помощи машинного обучения можно собрать «армию дронов-убийц». Пока это фантазия, но задуматься над проблемой стоит.

Отсюда еще одна проблема: машины действуют по заложенным в них алгоритмам, и даже если разработчики захотят соблюдать принципы этичности, как они должны их сформулировать?

В 2020 году в Китае начнет работать система социального рейтинга, которая оценивает граждан на основе их поведения, финансового положения и нарушений. Для сбора данных используются камеры наружного наблюдения, а также два крупнейших мессенджера – QQ и WeChat. Что это – новые нормы этики в цифровую эпоху или проявление тоталитаризма?

Ложные корреляции

Известный пример ложной корреляции: программа, которая распределяла больных в очереди по срочности приема, решила, что астматикам с пневмонией помощь нужна меньше, чем просто людям с пневмонией без астмы. Дело в том, что, по статистике, астматики не умирают, а значит, можно понизить приоритет. На самом же деле в медицинских учреждениях им оказывают помощь в первую очередь – как раз в связи с критическим положением.

Еще один классический пример ложной корреляции: потребление маргарина в США явно зависит от количества разводов в штате Мэн.

Ложная корреляция: фальшивая, хотя и очевидная, связь между переменными. — Ложная корреляция: фальшивая, хотя и очевидная связь между переменными. Изображение с сайта: kaspersky.ru.

При сопоставлении данных машина может прийти к неправильным выводам, людям же достаточно простого жизненного опыта и критического мышления, чтобы не совершать подобных ошибок.

Смутные представления об ограничениях технологий

Все, что связано с машинным обучением и искусственным интеллектом, активно тиражируется. При этом информации много, и новости часто запутывают неподготовленную аудиторию. В контексте обсуждения систем распознавания лиц СМИ писали, что в Московском метро задерживают преступников, а в Лондоне не могут. Сказать, кому верить, сложно: в каждом случае речь идет об определенной технологии и конкретных условиях ее работы.

При этом предприниматели, дизайнеры и менеджеры часто переоценивают возможности машинного обучения. Они ожидают от алгоритмов быстрого обучения и точных прогнозов для сложных запросов. «Люди стали воспринимать искусственный интеллект как волшебную палочку, которая быстро решит все проблемы – будь то автоматическое распознавание лиц или оценка финансовых рисков менее чем за секунду. Это не так просто», – пишет Бартек Цишевски (Bartek Ciszewski), специалист Netguru.

Проблема «черного ящика»

В 1991 году Дин Померло (Dean Pomerleau), будущий основатель компании AssistWare Technology, тестировал одну из первых моделей робомобиля. Он катался по улицам города, в то время как компьютер, установленный в машине, через камеру следил за дорогой и «запоминал» движения водителя. Помело тренировал систему несколько минут, а затем давал ей порулить самостоятельно. Все шло хорошо до тех пор, пока автомобиль не подъехал к мосту, где совершил резкий и неожиданный поворот. Чтобы понять, что произошло, нужно было «вскрыть «черный ящик» и разобраться, о чем он думал».

Оказалось, система использовала траву по краям дорог для определения направлений, и поэтому появление моста ее смутило. Машины, действующие на основе сложных алгоритмов, не хранят все в блоках памяти, как обычные компьютеры. Чем совершеннее алгоритмы (а вы помните, что они постоянно обучаются), тем сложнее расшифровка «черного ящика». Другими словами, тем сложнее понять внутреннюю часть алгоритма, объясняющую, как он приходит к решению.

Создание обучающей выборки

Машинное обучение позволяет решать практические задачи без явного программирования, а путем обучения по прецедентам. Однако чтобы это обучение стало возможным, необходима обучающая выборка. Иногда входные данные можно сгенерировать искусственно. Похожие друг на друга объекты, например, банковские карты, машина «увидит» и при минимальной выборке.

При распознавании лиц ей нужно будет учесть не только разнообразие национальностей, но и условия репрезентации, например, недостаточное освещение. Поэтому приходится делать data augmentation, или «раздутие выборки». За неимением возможности самостоятельно создать разнообразные условия их имитируют с помощью фильтров и искажений.

Применение фильтров, в свою очередь, требует более совершенных алгоритмов. Например, если к панде слева добавить «шум», получим гиббона.

Machine Learning — Минимальные изменения, незаметные для человека, введут машину в заблуждение. Изображение из исследования Intriguing properties of neural networks, 2014 г.

Это общие ограничения для машинного обучения, на которые накладываются «географические» проблемы. В каждой стране есть свои барьеры, препятствующие развитию технологий. Например, в России, по мнению руководителя фонда «Открытый город» Виталия Власова, нет проблем со специалистами, но есть трудности с инфраструктурой:

«Мне кажется, у нас не очень развита экосистема для инновационных проектов вообще в любых сферах. Наверное, не хватает специфических знаний – не как программировать, а как управлять и реализовывать свои проекты. Это нужно, чтобы стартапы не умирали на стадии идей. Менеджмент, стартаповский agile и подобные навыки – вот это сейчас очень бы помогло». Виталий Власов.

Виталий Есипов, один из авторов проекта Telegram-бота Open Recycle Bot, также отмечает высокую стоимость специалистов и процесса разработки в принципе. По исследованию 2018 года, заработная плата специалиста по искусственному интеллекту в России составила около 190 тысяч рублей при среднем показателе в сфере IT 90 тысяч рублей. С одной стороны, это говорит о перспективности самого направления в целом, а с другой – о дефиците кадров.

База знаний

Книги «Аналитическая культура. От сбора данных до бизнес-результатов» Карла Андерсона и «Искусственный интеллект. Этапы. Угрозы. Стратегии» Ника Бострома.
Кейсы компании Avito: какие задачи сервиса решает машинное обучение.
Курс по ИИ для бизнеса от технологического сообщества Binary District.

Теплица продолжит делиться наблюдениями и открывать новые возможности для обмена опытом. В феврале представится отличная возможность помочь IT-проектам, решающим социальные проблемы. Приглашаем дата-специалистов, программистов, дизайнеров, исследователей и активных горожан на хакатон в Санкт-Петербурге 16 и 17 февраля 2019 года.