27 марта 2017 года состоялся митап Теплицы социальных технологий «Машинное обучение: перспективы технологии». Участники познакомились с концепцией машинного обучения, видами машинного интеллекта и типами задач, которые решают дата-аналитики.
На встрече выступили Илья Езепов, дата-аналитик компании Яндекс, и Виктор Кантор, старший преподаватель кафедры «Алгоритмы и технологии программирования» МФТИ, руководитель исследовательской группы Yandex Data Factory.
Что такое машинное обучение?
История развития систем машинного интеллекта начинается с середины 50-х годов и связана с уровнем развития вычислительной техники.
«Машинное обучение — это про то, как обучаться. Человек показывает данные, а машины сами разбираются, что с ними делать. И это про то, как правильно провести линию на графике, чтобы была выявлена верная зависимость. Классика машинного обучения занимается решением задач с числами и распределением объектов. Если нужно понять, что значит фраза голосом и перевести ее на другой язык, то используются нейронные сети». Илья Езепов
Виды машинного обучения
- Обучение с учителем. Например, по условиям задачи есть два объекта: кошка и собака, и машина должна по фотографии научиться различать, кто есть кто. Для этого у машины должна быть обучающая выборка, которая насчитывает тысячи объектов. У каждого объекта есть признаки (масса тела, цвет окраса, количество лап) и график распределения этих признаков. Машина в итоге создает оптимальный алгоритм различения. Это пример классической задачи для машинного обучения.
«Или допустим вам нужно обучить машину шахматам. Ведь если что-то обладает интеллектом, то оно умеет играть в шахматы. Мы обучим, как ходят фигуры, сколько они стоят, что есть хороший ход и плохой, и потом случится первая победа суперкомпьютера Deep Blue над Гарри Каспаровым в 1997 году». Илья Езепов
- Обучение без учителя. Например, есть гейзер, который извергается с невыявленной периодичностью. Машина получает данные о промежутках между извержениями и пытается предсказать время следующей активности гейзера.
- Обучение с подкреплением. Чтобы обучить машину играть в китайскую игру Го, компьютер получает базу всех ходов, которые делают лучшие мастера игры. Далее машина пробует играть сама с собой. Те ходы, которые привели к выигрышу, признаются лучшими и называются «хорошей мутацией». В итоге такого самообучения получается алгоритм, способный выиграть в игре Го (матч AlphaGo — Ли Седоль). До 2016 года победа над человеком в игре Го считалась невозможной.
История Амазон, или Как данные стали важнее людей
Книжный магазин Амазон с момента основания (1994 г.) содержал штат лучших рецензентов Британии. В 2012 году начался эксперимент по анализу того, что люди покупают и можно ли сделать анализ предпочтений на основе имеющихся данных.
Эксперимент закончился успешно, продажи увеличились на 96%, и стало выгодно распустить весь штат рецензентов. В итоге движущей силой развития компании стали данные, а не люди.
Анализ данных как спорт
Если у вас есть задача по анализу данных, то лучше всего провести конкурс и привлечь к себе талантливых специалистов. История соревнований по анализу данных началась в 2000 году. Инвестор Роб МакЭван выложил в открытый доступ онлайн-базу по существующим местам добычи золота и пообещал 575.000 $ команде, которая выберет правильное место для нового золотого прииска. Лучшие команды геологов боролись за приз, и через год Роб заработал 3 млрд. долларов на найденном прииске.
В 2010 году была создана площадка Kaggle, которая стала главной мировой площадка спортивного анализа данных. В России конкурсы проводят крупные банки.
«Если можно с помощью человеческой экспертности написать модель, то нет необходимости усложнять задачу. Глупо учить нейронную сеть составлению алгоритма, как падает мяч на примере 100 экспериментов. Для этого достаточно учебника по физике». Илья Езепов
Машинное обучение в образование
С 2013 года в университете Карнеги студенты работают над специальным обучающим агентом, который следил бы за дискуссией в аудитории и в нужный момент предлагал вопрос по теме.
Также компании DreamBox, ALEKS, Reasoning Mind, Knewton создают электронного тьютора, который отслеживает учебные траектории студентов.
Скачать презентацию Ильи Езепова в формате PDF.
Рекомендательные системы
Виктор Кантор, руководитель исследовательской группы Yandex Data Factory, рассказал, как работают рекомендательные системы в сфере коммерции.
«Когда мы стараемся понять, за сколько мы доберемся до мероприятия через сервис Яндекс.Пробки, то это тоже пример использования машинного обучения. Мы здесь берем исторические данные и выставляем баллы по нагрузке дороги — это все регрессионная задача». Виктор Кантор
В повседневной жизни пользователи сталкиваются с машинным обучением , вводя запрос в поисковике или покупая товар на Яндекс.Маркете.
Подробнее о том, как ставятся задачи машинного обучения, какие метрики качества нужно использовать в модели и как оценивать полученный результат, смотрите в лекции Виктора Кантора.
Уровень лекции: выше базового уровня.
Скачать презентацию Виктора Кантора в формате PDF.
Полезные ресурсы и книги
- Лекции Andrew Ng на платформе Coursera
- Школа Анализа Данных, Яндекс
- Виктор Майер-Шенбергер, Кеннет Кукьер. «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим».