Создать собственное приложение для распознавания голоса стало очень просто. В этом уверен технический евангелист компании Voximplant Григорий Петров. В интервью замредактора Теплицы Наталье Барановой эксперт рассказал о том, почему голосовые технологии стали востребованы и популярны, какие есть тенденции на рынке, и объяснил, как речевые интерфейсы используют для социального блага.
– Григорий, почему голосовые технологии стали такими популярными, с чем это связано?
– Это связано с тем, что появилась техническая возможность. Именно технологии машинного обучения позволяют лучше распознавать и синтезировать голос. Появились платформы, на которых можно собрать решение за очень короткое время. Например, наша компания как партнер Google предлагает клиентам удобный способ использовать Google Speech API в звонках.
– Какие изменения произошли в области голосовых интерфейсов за последние годы?
– Возьмем в пример компанию Google. Если лет пять назад технологии распознавания голоса у нее были в зачаточном состоянии, то сейчас это лидирующая компания. Она конкурирует на российском рынке наряду с компанией Яндекс.
Люди уже активно используют голосовые технологии для Android, Google Home. На массовом рынке тоже видна тенденция, как люди все чаще управляют телефоном с помощью голоса. Если раньше это было лишь на экспериментальном уровне, низкого качества, то сейчас технология используется повсеместно на высоком уровне. И наши клиенты подтверждают повышение качества.
Еще по теме: Речевые технологии: голос из прекрасного далека
– Назовите успешный российский пример голосового решения, который вам запомнился
– Стоит сказать о громком российском HR-сервисе робот Вера, который с помощью искусственного интеллекта помогает компаниям найти сотрудников. Он общается с кандидатами по телефону, а потом проводит видеособеседование. Робот может общаться с десятками тысяч кандидатов, всегда вежлив и ничего не путает. Важна также хорошая масштабируемость этого кейса.
– Если говорить про Россию, насколько у нас развиты такие разработки?
– В России довольно сильная разработка в области голосовых решений. Например, Yandex.SpeechKit (технология распознавания речи и синтеза речи от российской компании Яндекс. – Прим. ред.) на многих задачах распознавания имен и адресов работает куда лучше, чем Google или Microsoft. Популярные приложения, такие как Яндекс.Такси, помогают компании сделать распознавание адресов максимально точным.
Во всем мире есть десяток популярных голосовых ассистентов. И то, что разработка Яндекса, голосовой помощник «Алиса», среди них – это хороший показатель.
– Расскажите о перспективах в этой области? Что может измениться в ближайшие годы?
– Сейчас голосовые технологии развиты на высоком уровне. Но есть куда стремиться. Мы знаем, что разговор людей строится на социальном контексте, воспитании, традициях, понимании окружающего мира. Если технологии будут приближаться к естественным формам общения, распознавать лицо, эмоции, это будет новый шаг.
Возможно, с помощью изучения социальных сетей программы смогут учитывать социальный контекст собеседника. И тогда роботы будут понимать людей не хуже, чем их друзья.
– Насколько сейчас доступны технологии для распознавания голоса? Как думаете, будут ли они дешеветь?
– Технологии недорогие, любой разработчик может зарегистрироваться, например, на сайте нашей компании и начать создавать интерфейс. За каждую опцию установлен тариф. Технологии дешевеют за счет масштаба. Чем больше клиентов у компании, тем дешевле ее продукт.
Еще по теме: Voice Experiments: как разработчики экспериментируют с голосовыми технологиями
– А какие интерфейсы сейчас популярны, и сложно ли их создать?
– Среди клиентов Voximplant наиболее популярны голосовые автоматизированные звонки на телефон, они стоят на первом месте. На втором месте видеосвязь, телемедицина, которая, кстати, развивается безумными темпами, и обучение. Например, у образовательных школ есть собственные видеочаты. И только на третьем – чат-мессенджеры.
Интересно, что происходит трансформация чат-ботов: в них активно включают элементы распознавания голоса. Например, чат-бот компании ZenSolutions.ai может общаться с пользователем и голосом, и текстом. То есть полноценно поддерживать диалог.
Составить приложение по распознаванию голоса несложно. Чтобы арендовать номер сотового телефона, принять звонок и распознать голос, разработчику нужно сделать 10 кликов и написать пять строчек кода.
– Как голосовые технологии помогают людям с ограниченными возможностями здоровья?
– В России достаточно адаптированных телефонных решений и систем управления голосом. Например, человек с ограниченными возможностями звонит в колл-центр, он подключается сразу к роботу, очередь ждать не нужно. Многие компании звонят клиенту, чтобы подтвердить доставку. Слабовидящему человеку не так комфортно общаться в мессенджерах, и компании стараются упростить процесс.
Недавно я встречался с незрячей девушкой, которая уверенно сказала, что современные технологии позволяют ей жить полноценной жизнью.