Мика Голубовский: «Разговор с голосовым помощником – это естественно, просто и весело»

Что такое «навык» и как его создавать в Алисе

По прогнозам eMarketer, к 2020 году более 150 миллионов домохозяйств в Америке будут оснащены умными колонками и устройствами с голосовым управлением. Что сейчас происходит на рынке голосовых технологий, что такое «навык» и как его создавать? Об этом Мика Голубовский, консультант голосового помощника Алисы, бывший главный редактор журнала Esquire и директор отдела стикеров и эмодзи просветительского проекта Arzamas, рассказал на митапе Теплицы 3 декабря 2018 года.

Как развиваются голосовые технологии

В России более 33 миллионов пользователей уже используют голосового ассистента Алису. Если посмотреть хронологию появления голосовых помощников, то получится такая картина:

  • апрель, 2011 год – выпуск Siri от Apple;
  • апрель, 2013 год – выпуск Microsoft Cortana;
  • ноябрь, 2014 год – выпуск Alexa и умной колонки от Amazon;
  • июнь, 2016 год – Google представил Assistant в телефоне и в других устройствах;
  • октябрь, 2017 год – голосовой помощник Алиса от Яндекс;
  • декабрь, 2017 год – выпуск умной колонки Apple HomePod;
  • 2018 год – выпуск Facebook Portal, Bixby от Samsung, начало разработки голосового помощника от Mail.ru.
Мика Голубовский. Фото: Мария Борисёнок.
Мика Голубовский. Фото: Мария Борисёнок.

«Есть какое-то количество разработок еще в Китае, просто про них мы знаем, к сожалению, не очень много. Основные игроки – это все-таки Google и Amazon, на западном рынке. В России это, скорее, Алиса». Мика Голубовский

Голосовые помощники и умные колонки имитируют живой диалог, распознают естественную речь и выдают ответы на вопросы. Алиса вызывается через приложения Яндекса (поисковое приложение Яндекса, Яндекс-браузер, Яндекс.Навигатор), а также через десктопные версии, умные колонки, умные часы и наушники (Sony Xperia). Пользователь в процессе общения меняет свое поведение и привыкает задавать бытовые вопросы умной колонке или ассистенту.

«Почему людям нравятся голосовые ассистенты? Потому что для них это совершенно новый способ взаимодействия с технологией, и это очень естественный, простой и веселый разговор». Мика Голубовский.

Участники митапа. Фото: Мария Борисёнок.
Участники митапа. Фото: Мария Борисёнок.

Самый распространенный пример использования колонок Google и Amazon – это прослушивание музыки, погоды, новостей. Привычным действием становится совершать покупки с помощью умных колонок, например, заказывать еду.

«Подавляющее большинство людей находит свой опыт взаимодействия с голосовыми технологиями вполне позитивным или даже замечательным. Пользователей, кто не удовлетворен, чуть больше 10 процентов». Мика Голубовский.

Как работают голосовые помощники

Есть технологии распознавания речи, которые переводят то, что сказал пользователь, в текст. Этот текст отсылается в классификатор интентов (от англ. «intention» – намерение). Классификатор пытается понять запрос пользователя и запускает сложный алгоритм для поиска правильного ответа.

Подробно про классификатор интентов читайте в интервью с разработчиком Алисы Борисом Янгелем.

Что происходит,когда Алисы слышит запрос. Слайд с презентации Мики Голубовского.
Что происходит, когда Алиса слышит запрос. Слайд с презентации Мики Голубовского.

Голосовой ассистент может иметь заготовленный сценарий ответа либо перенаправить пользователя на поисковую выдачу, либо включить режим «болталка».

«Болталка – это специальный режим, алгоритм, обученный на огромном количестве, миллионах реплик, которые взяты из диалогов, комментариев пользователей в Интернете. Отсюда, собственно, и вся Алисина дерзость». Мика Голубовский

Что такое навык Алисы

Когда у ассистента нет готового сценария, то запускаются внешние навыки. Голосовое приложение, скилл, навык – это такой чат-бот, который подчиняется правилам голосового взаимодействия с пользователем.

Алексей Клёсов, руководитель проекта "Пасека". Фото: Мария Борисёнок.
Алексей Клёсов, руководитель проекта «Пасека». Фото: Мария Борисёнок.

Голосовые интерфейсы отличаются от текстовых, графических, мобильных. В графическом интерфейсе есть определенный дизайн: окна и заданные кнопки для действий. В голосовом интерфейсе есть элемент непредсказуемости из-за того, что пользователь может пропускать ряд спроектированных шагов, менять их порядок на новый. Поэтому дизайнер голосовых интерфейсов работает как с языком, так и с поведением пользователя.

Как сделать хороший навык

  1. Решите, какой именно навык вы делаете и зачем. Не начинайте со сложного навыка. Научитесь делать простые вещи. Пример простого навыка: навык Алисы про «Новости Теплицы».
  2. Представьте себе свой навык в виде диалога. Что вам может ответить пользователь? Что может пойти не так?
  3. Начните с объяснения: что умеет ваш навык, что пользователь может сделать.
  4. Не перегружайте пользователей информацией.
  5. Подсказывайте при любой возможности.
  6. Добавьте вариативности и возвращайте пользователя к основному сценарию с помощью разных ответов.

Вопросы-ответы

– Почему такая долгая модерация навыков Алисы?

Мика: Время удлиняется, потому что раньше нужно было проверить навык на нормальную работу в устройстве с экраном, с графическими элементами интерфейса. Сейчас нужно проверять на работу в устройстве без экрана, в Станции и Навигаторе. Все в команде Алисы над этим работают, читают чат и переживают, когда людей что-то не устраивает.

– Будет ли видеоинтерфейс для Алисы? Будет ли Алиса визуализирована?

Мика: Насколько я знаю, принципиальным решением было никоим образом не делать визуальный образ Алисы. У каждого пользователя в голове какой-то свой образ. Если мы скажем «Алиса выглядит вот так», то можем у огромного количества пользователей разрушить тот образ, который он создал сам.

Участники митапа. Фото: Мария Борисёнок.
Участники митапа. Фото: Мария Борисёнок.

Полную серию вопросов-ответов смотрите в видео.

Что почитать про голосовую разработку

  • Алиса: Яндекс.Диалоги. Документация Диалогов
  • Github — библиотеки
  • Чат разработчиков
  • Премия Алисы
  • Документация Amazon и Google
  • Пособие по разработке навыков
  • Книга Cathy Pearl. Designing Voice User Interfaces: Principles of Conversational Experiences

Конструкторы и платформы

  • Verter – создание навыков без программирования
  • AlfaBot – конструктор навыков
  • Dialogflower – конвертер Google
  • Aimylogic – визуальный конструктор навыков
  • pipe.bot – конструктор ботов с поддержкой Алисы
  • Tortu – инструмент для проектирования (дизайна) навыков
  • Aimytellme – конструктор новостных навыков для Алисы
  • alicebot.pro – создание навыков без программирования
  • DeepPavlov – библиотека для разработки диалоговых систем

Скачать презентацию Мики Голубовского в формате PDF.