Что такое голосовые технологии и интерфейсы

Голосовой интерфейс – это программный продукт, который при помощи голосовой или речевой платформы позволяет взаимодействовать пользователю и компьютеру, запуская автоматизированные процессы. Задача таких интерфейсов – распознать и генерировать голос человека.

08 ноября 2017

2 мин

Скачать в PDF

Голосовой интерфейс – это программный продукт, который при помощи голосовой или речевой платформы позволяет взаимодействовать пользователю и компьютеру, запуская автоматизированные процессы. Задача таких интерфейсов – распознать и генерировать голос человека.

Голосовые интерфейсы удобны, когда вводить текст сложно или неудобно. Например, во время вождения автомобиля пользователь может проговорить свой запрос, продиктовать нужный адрес, проверить пробки в приложении навигатора. Или же если пользователь выполняет слишком много задач и не может сконцентрироваться на одной.

UX-исследователь и экс-специалист по речевым интерфейсам в Google Константин Самойлов в своем докладе, подготовленном для UX-марафона «Взаимодействие будущего», назвал три важных признака, которыми должны обладать голосовые интерфейсы:

естественный язык,
диалог,
неограниченный словарный запас и грамматика.

На момент написания это й статьи основные голосовые игроки – это Alexa Amazon, Siri Apple, OK Google, Кортана Microsoft. В октябре 2017 года компания Яндекс официально запустила голосового помощника «Алиса». В отличие от аналога Siri «Алиса» целенаправленно создана для русскоязычной аудитории.

«Роль голоса в онлайновой коммуникации нарастает медленно, но верно. Это и «OK, Google», и внедрение голосовых сообщений в мессенджеры, и появление аудиоверсий у текстовых публикаций, и голосовой ввод во все большем количестве программ, и звуковые колонки, которые умнеют на глазах и становятся понятливыми ассистентами и собеседниками. Вообще, история про девайсы, программы и голос – очень толстый тренд, который полезно использовать, а не игнорировать», пишет в своем телеграм-канале директор по маркетингу сервисов компании «Яндекс» Андрей Себрант.

Интересно, что поколение Z (родившиеся в начале 2000-х годов) и ранние представители поколения «альфа» (дети, рожденные после 2010-х годов) – это последние пользователи, которые будут набирать тексты с помощью клавиатуры.

В этом уверен обозреватель Marketingland, маркетолог Эндрю Руггер (Andrew Ruegger), об этом он написал в своей колонке. Следующее поколение, по его мнению, будут представлять исключительно пользователи голосовых команд. «Запросы типа «ОK, Google» становятся все более распространенными в отчетах поисковых запросов. И мы даже наблюдаем их рост в Google Trends», – пишет эксперт.

Еще по теме: Андрей Себрант: не нужно бояться, что машины умнее нас, нужно научиться работать с ними

Именно поэтому цифровые технологии стараются слушать команды, которые человек говорит, определять эмоции по лицу, тем самым использовать натуральный способ взаимодействия с пользователями. Например, компания Google в октябре 2017 года презентовала беспроводные наушники Pixel Buds, которые переводят речь с иностранного языка в режиме реального времени.

Будьте с нами на связи, независимо от алгоритмов