Машинное обучение: от составления графиков к рекомендательным системам

27 марта 2017 года состоялся митап Теплицы социальных технологий «Машинное обучение: перспективы технологии». Участники познакомились с концепцией машинного обучения, видами машинного интеллекта и типами задач, которые решают дата-аналитики.

На встрече выступили Илья Езепов, дата-аналитик компании Яндекс, и Виктор Кантор, старший преподаватель кафедры «Алгоритмы и технологии программирования» МФТИ, руководитель исследовательской группы Yandex Data Factory.

Илья Езепов и участники встречи. Фото: Мария Борисёнок.

Что такое машинное обучение?

История развития систем машинного интеллекта начинается с середины 50-х годов и связана с уровнем развития вычислительной техники.

«Машинное обучение — это про то, как обучаться. Человек показывает данные, а машины сами разбираются, что с ними делать. И это про то, как правильно провести линию на графике, чтобы была выявлена верная зависимость. Классика машинного обучения занимается решением задач с числами и распределением объектов. Если нужно понять, что значит фраза голосом и перевести ее на другой язык, то используются нейронные сети». Илья Езепов

Виды машинного обучения

Обучение с учителем. Например, по условиям задачи есть два объекта: кошка и собака, и машина должна по фотографии научиться различать, кто есть кто. Для этого у машины должна быть обучающая выборка, которая насчитывает тысячи объектов. У каждого объекта есть признаки (масса тела, цвет окраса, количество лап) и график распределения этих признаков. Машина в итоге создает оптимальный алгоритм различения. Это пример классической задачи для машинного обучения.

«Или допустим вам нужно обучить машину шахматам. Ведь если что-то обладает интеллектом, то оно умеет играть в шахматы. Мы обучим, как ходят фигуры, сколько они стоят, что есть хороший ход и плохой, и потом случится первая победа суперкомпьютера Deep Blue над Гарри Каспаровым в 1997 году». Илья Езепов

Обучение без учителя. Например, есть гейзер, который извергается с невыявленной периодичностью. Машина получает данные о промежутках между извержениями и пытается предсказать время следующей активности гейзера.

Обучение с подкреплением. Чтобы обучить машину играть в китайскую игру Го, компьютер получает базу всех ходов, которые делают лучшие мастера игры. Далее машина пробует играть сама с собой. Те ходы, которые привели к выигрышу, признаются лучшими и называются «хорошей мутацией». В итоге такого самообучения получается алгоритм, способный выиграть в игре Го (матч AlphaGo — Ли Седоль). До 2016 года победа над человеком в игре Го считалась невозможной.

Участники встречи. Фото: Мария Борисёнок.

История Амазон, или Как данные стали важнее людей

Книжный магазин Амазон с момента основания (1994 г.) содержал штат лучших рецензентов Британии. В 2012 году начался эксперимент по анализу того, что люди покупают и можно ли сделать анализ предпочтений на основе имеющихся данных.

Эксперимент закончился успешно, продажи увеличились на 96%, и стало выгодно распустить весь штат рецензентов. В итоге движущей силой развития компании стали данные, а не люди.

Анализ данных как спорт

Если у вас есть задача по анализу данных, то лучше всего провести конкурс и привлечь к себе талантливых специалистов. История соревнований по анализу данных началась в 2000 году. Инвестор Роб МакЭван выложил в открытый доступ онлайн-базу по существующим местам добычи золота и пообещал 575.000 $ команде, которая выберет правильное место для нового золотого прииска. Лучшие команды геологов боролись за приз, и через год Роб заработал 3 млрд. долларов на найденном прииске.

В 2010 году была создана площадка Kaggle, которая стала главной мировой площадка спортивного анализа данных. В России конкурсы проводят крупные банки.

Анонсы конкурсов на сайте Kaggle. Скриншот сайта.

«Если можно с помощью человеческой экспертности написать модель, то нет необходимости усложнять задачу. Глупо учить нейронную сеть составлению алгоритма, как падает мяч на примере 100 экспериментов. Для этого достаточно учебника по физике». Илья Езепов

Машинное обучение в образование

С 2013 года в университете Карнеги студенты работают над специальным обучающим агентом, который следил бы за дискуссией в аудитории и в нужный момент предлагал вопрос по теме.

Также компании DreamBox, ALEKS, Reasoning Mind, Knewton создают электронного тьютора, который отслеживает учебные траектории студентов.

Скачать презентацию Ильи Езепова в формате PDF.

Скачать презентацию Виктора Кантора в формате PDF.

Полезные ресурсы и книги

Лекции Andrew Ng на платформе Coursera
Школа Анализа Данных, Яндекс
Виктор Майер-Шенбергер, Кеннет Кукьер. «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим».

Что вы ищете?