Григорий Петров: Создать собственное голосовое приложение стало очень просто

Создать собственное приложение для распознавания голоса стало очень просто. В этом уверен технический евангелист компании Voximplant Григорий Петров. В интервью замредактора Теплицы Наталье Барановой эксперт рассказал о том, почему голосовые технологии стали востребованы и популярны, какие есть тенденции на рынке, и объяснил, как речевые интерфейсы используют для социального блага.

По мнению Григория Петрова на данный момент голосовые технологии развиты на высоком уровне. На фото: Григорий Петров на it-конференции в Минске. Изображение предоставил эксперт.

– Григорий, почему голосовые технологии стали такими популярными, с чем это связано?

– Это связано с тем, что появилась техническая возможность. Именно технологии машинного обучения позволяют лучше распознавать и синтезировать голос. Появились платформы, на которых можно собрать решение за очень короткое время. Например, наша компания как партнер Google предлагает клиентам удобный способ использовать Google Speech API в звонках.

– Какие изменения произошли в области голосовых интерфейсов за последние годы?

– Возьмем в пример компанию Google. Если лет пять назад технологии распознавания голоса у нее были в зачаточном состоянии, то сейчас это лидирующая компания. Она конкурирует на российском рынке наряду с компанией Яндекс.

Люди уже активно используют голосовые технологии для Android, Google Home. На массовом рынке тоже видна тенденция, как люди все чаще управляют телефоном с помощью голоса. Если раньше это было лишь на экспериментальном уровне, низкого качества, то сейчас технология используется повсеместно на высоком уровне. И наши клиенты подтверждают повышение качества.

Еще по теме: Речевые технологии: голос из прекрасного далека

– Назовите успешный российский пример голосового решения, который вам запомнился

– Стоит сказать о громком российском HR-сервисе робот Вера, который с помощью искусственного интеллекта помогает компаниям найти сотрудников. Он общается с кандидатами по телефону, а потом проводит видеособеседование. Робот может общаться с десятками тысяч кандидатов, всегда вежлив и ничего не путает. Важна также хорошая масштабируемость этого кейса.

– Если говорить про Россию, насколько у нас развиты такие разработки?

– В России довольно сильная разработка в области голосовых решений. Например, Yandex.SpeechKit (технология распознавания речи и синтеза речи от российской компании Яндекс. – Прим. ред.) на многих задачах распознавания имен и адресов работает куда лучше, чем Google или Microsoft. Популярные приложения, такие как Яндекс.Такси, помогают компании сделать распознавание адресов максимально точным.

Во всем мире есть десяток популярных голосовых ассистентов. И то, что разработка Яндекса, голосовой помощник «Алиса», среди них – это хороший показатель.

– Расскажите о перспективах в этой области? Что может измениться в ближайшие годы?

– Сейчас голосовые технологии развиты на высоком уровне. Но есть куда стремиться. Мы знаем, что разговор людей строится на социальном контексте, воспитании, традициях, понимании окружающего мира. Если технологии будут приближаться к естественным формам общения, распознавать лицо, эмоции, это будет новый шаг.

Возможно, с помощью изучения социальных сетей программы смогут учитывать социальный контекст собеседника. И тогда роботы будут понимать людей не хуже, чем их друзья.

– Насколько сейчас доступны технологии для распознавания голоса? Как думаете, будут ли они дешеветь?

– Технологии недорогие, любой разработчик может зарегистрироваться, например, на сайте нашей компании и начать создавать интерфейс. За каждую опцию установлен тариф. Технологии дешевеют за счет масштаба. Чем больше клиентов у компании, тем дешевле ее продукт.

Еще по теме: Voice Experiments: как разработчики экспериментируют с голосовыми технологиями

– А какие интерфейсы сейчас популярны, и сложно ли их создать?

– Среди клиентов Voximplant наиболее популярны голосовые автоматизированные звонки на телефон, они стоят на первом месте. На втором месте видеосвязь, телемедицина, которая, кстати, развивается безумными темпами, и обучение. Например, у образовательных школ есть собственные видеочаты. И только на третьем – чат-мессенджеры.

Интересно, что происходит трансформация чат-ботов: в них активно включают элементы распознавания голоса. Например, чат-бот компании ZenSolutions.ai может общаться с пользователем и голосом, и текстом. То есть полноценно поддерживать диалог.

Составить приложение по распознаванию голоса несложно. Чтобы арендовать номер сотового телефона, принять звонок и распознать голос, разработчику нужно сделать 10 кликов и написать пять строчек кода.

– Как голосовые технологии помогают людям с ограниченными возможностями здоровья?

– В России достаточно адаптированных телефонных решений и систем управления голосом. Например, человек с ограниченными возможностями звонит в колл-центр, он подключается сразу к роботу, очередь ждать не нужно. Многие компании звонят клиенту, чтобы подтвердить доставку. Слабовидящему человеку не так комфортно общаться в мессенджерах, и компании стараются упростить процесс.

Недавно я встречался с незрячей девушкой, которая уверенно сказала, что современные технологии позволяют ей жить полноценной жизнью.