Речевые технологии: голос из прекрасного далека

Речевые технологии распознают, анализируют и синтезируют голос человека. Имитация речи, восприятие смысла фраз, конвертация речи в текст, работа с голосом как с биометрической характеристикой – все это разные типы речевых технологий. Этот раздел компьютерной науки считается одним из сложнейших, поскольку находится на стыке нескольких комплексных дисциплин: лингвистики, математики и программирования.

После более чем 60-летней истории речевые технологии наконец дождались своего часа и вступили на путь завоевания мира. Сейчас эта сфера служит зоной активных боевых действий между хай-тек лидерами планеты.

Echo от Amazon с виртуальным помощником Alexa. Фото: Amazon.com

Старт новой гонке в 2014 году положила Siri – голосовой ассистент, разработанный Apple. После оглушительного успеха колонки Echo от Amazon с виртуальным помощником Alexa в 2015 году ставки взлетели до небес.

Рынок переполняет энтузиазм относительно новых перспектив развития речевых технологий.

В 2016 году 20 процентов поисковых запросов на смартфонах были сделаны с помощью голоса. По данным Global Web Index, каждый пятый интернет-пользователь также прибегает к голосовым опциям. Среди молодежи этот показатель еще выше: 25 процентов людей в возрасте от 16 до 24 лет пользуются функцией распознавания голоса. Более 60 процентов людей используют эту опцию для поиска информации и телефонных звонков, а также набора текста.

По прогнозам, к 2020 году половина всех запросов онлайн будет вербальной. А около трети – происходить без взаимодействия с экраном.

Причины этого бума объяснимы. В среднем человек печатает около 40 слов в минуту, а говорит в три-четыре раза быстрей. Более того, в 2017 году программы практически догнали нас по понятливости. Согласно отчету Internet Trends Report, точность голосовых технологий всего за четыре года скакнула с 70 до 95 процентов. Погрешность 5 процентов – порог понимания и для людей.

Стремительный прогресс этих технологий обеспечили повышение компьютерной мощности, большие данные и совершенствование методов машинного обучения, в частности нейронных сетей. Сейчас наращивание возможностей тех же голосовых ассистентов вроде Siri, Cortana или Alexa происходит практически ежемесячно.

Но речевые технологии не всегда отличались подобной прытью, и качественные скачки могли происходить с периодичностью в десятилетия.

Как появился голос: он зовет меня в чудесные края

Одним из первых зафиксированных историей успешных примеров синтеза речи считается устройство, созданное в 1779 году немецким физиком и механиком Христианом Кратценштайном, работавшим тогда в России. Изобретение представляло собой механический имитатор речевого аппарата человека и могло воспроизводить несколько гласных звуков.

Voder ученого Гомера Дадли, сотрудника лаборатории Bell в США, считается первым электронным синтезатором голоса. Он был представлен в 1937 году. Звуковые компоненты его «речи» вводились оператором с клавиатуры.

Куда более сложной задачей для ученых стали попытки продвинуться к распознаванию речи. В Советском Союзе эти исследования тесно связаны с именем физика Льва Мясникова. Он с 1939 года занимался проблемой распознавания звуков, а в 1942 году, находясь в блокадном Ленинграде, защитил диссертацию «Техническая фонетика». Эта научная работа включала демонстрацию аппарата, распознававшего гласные и согласные звуки.

В США отсчет принято вести с презентации Audrey в 1952 году. Audrey (от англ. automatic digit recogniser – автоматический распознаватель цифр), родившаяся в лабораториях Bell в Нью-Йорке, была «крупным ребенком». Высота одной релейной стойки превышала 180 сантиметров. В идеальных условиях она могла распознавать цифры от 1 до 9 с точностью около 90 процентов. Audrey хорошо воспринимала знакомые ей голоса, но буксовала, если цифры диктовал посторонний. Кроме того, перед каждым словом необходимо было выдерживать паузу.

Взаимодействие с Audrey происходило так: человек произносил цифру в телефон, система «слушала», обрабатывала звук, как электрический сигнал, который затем сравнивала с заложенными в ее аналоговой памяти паттернами, и в результате отвечала, зажигая соответствующую лампочку.

Прошло целых 10 лет, прежде чем американской публике был представлен новый голосовой проект – Shoebox. Разработанная IBM в 1962 году система распознавала 16 слов: 10 цифр и 6 арифметических команд. Такой не слишком стремительный прогресс породил скептицизм в научных кругах.

Так, в 1969 году американский инженер Джон Пирс выступил с открытым письмом. В нем он поставил под сомнение целесообразность исследований. «Речевики», по мнению Пирса, делились на «сумасшедших изобретателей» и «не заслуживающих доверия инженеров», а дорогостоящие плоды их усилий «либо не делали практически ничего, либо вообще не работали по каким-то мало понятным причинам».

Критика Пирса привела к тому, что голосовые проекты лабораторий Bell, прежде лидировавших в этой области, на несколько лет лишились финансирования.

В 1970-е годы повсеместная конкуренция между США и Советским Союзом, по всей видимости, обострилась и в этой сфере. Американское министерство обороны с 1971 по 1976 год финансировало крупнейшую в истории конкурсную научную программу, посвященную речевым технологиям.

Она ставила целью разработку устройства, способного понимать не менее тысячи слов. В проекте участвовали все интеллектуальные центры страны, а конечным продуктом стала система Harpy университета Карнеги-Меллона. Она распознавала 1011 слов, что сравнимо со способностями трехлетнего ребенка. Harpy была способна воспринимать голоса пяти человек, а ее погрешность составляла около 5 процентов.

https://www.youtube.com/watch?v=N3i6NoUZsSw

Ближе к 1980-м годам в научном мире произошел переворот. Инженеры начали применять новые статистические методы – скрытые марковские модели (СММ). Эти приемы, названные в честь математика Андрея Маркова, позволили отказаться от речевых шаблонов и значительно повысить точность распознавания слов за счет элементов прогнозирования.

В тот же период до рынков добрались первые коммерческие решения. Говорящая кукла Джулия компании World of Wonders появилась в 1987 году.

Ребенок мог натренировать Джулию понимать его речь. В 1990 году появилась первая коммерческая система по трансформации речи в текст Dragon Dictate, стоившая девять тысяч долларов. В 1997 году было выпущено ее радикальное обновление – программное обеспечение Natural Speaking. Его создатели впервые смогли добиться поддержки слитной речи. Пользователь отныне мог наконец говорить без пауз со средней скоростью около 100 слов в минуту. Но программу, стоившую 695 долларов, необходимо было «натаскивать» на голос в течение 45 минут.

В этот период также начинает расти популярность функций голосового управления – возможности контролировать работу устройств с помощью команд.

Так, в 1995 году Bell представила телефонную систему Val для автоматизации работы диспетчеров и маршрутизации звонков. Эта технология, тогда очень далекая от совершенства, вскоре пришлась по душе многим компаниям. Многие все еще помнят трудности, с которыми могли быть сопряжены первые контакты с подобными системами.

Сейчас они неотъемлемый атрибут любого call-центра в составе систем IVR, от interactive voice response.

С 2000-х годов Microsoft начинает встраивать голосовое управление в свои продукты. В 2002 году такая опция появляется у программного пакета Office. В 2007 году – у всей операционной системы Windows в версии Vista.

Виртуальные ассистенты: слышу голос и спешу на зов скорее

В первой декаде 2000-х годов новым естественным проводником для оттачивания голосовых разработок стали смартфоны. В 2008 году Google запустил свое первое приложение голосового поиска для iPhone, которое к 2012 году эволюционировало в персонального ассистента Google Now для Android, в ту пору признанное журналом Popular Science «Инновацией года».

Но куда более громким оказался дебют, произошедший годом ранее. В 2011 году впервые заговорило программное обеспечение Apple. iOS 5 содержало голосового ассистента Siri. Ее взрывную популярность многие объясняют присущей ей искоркой индивидуализма и интеллекта. Все, кто когда-либо болтал с Siri, знают, что ей не чужды ни чувство юмора, ни сарказм.

С появлением Siri рынок виртуальных ассистентов перешел в стадию кипения.

Темпы прогресса за последние годы в разы опережают достижения нескольких предшествовавших десятилетий. В 2014 году Microsoft запускает конкурента Siri – виртуального помощника Cortana. В 2015 году рождается непобежденный пока абсолютный хит – колонка Echo от Amazon. Этот гаджет – «дом» голосового помощника Alexa и первое устройство, имевшее поначалу только голосовой интерфейс. Сейчас Amazon Echo Show снабжен небольшим экраном.

Прямой конкурент Echo – Google Home c безымянным, но, по всей видимости, очень сообразительным Google Assistant – был выпущен Google в прошлом году. Уже есть на рынке или окажутся там до конца года продукты третьих сторон, в том числе Sony и JBL, отдавшие свои сердца Google Assistant. А в декабре 2017 года ожидается релиз другого эквивалента – Apple HomePod с Siri.

Во второй половине 2017 года на праздник наконец подоспел со своим продуктом российский поисковой гегемон Yandex, представивший собственного русскоязычного ассистента Алису.

С недавних пор свой помощник Bixby есть и у Samsung. В позиции сильно отстающих оказалось оупенсорсное сообщество.

В этом году Mozilla, поддерживающая браузер с открытым кодом Firefox, запустила проект Common Voice. Каждый желающий может оставить образец своего голоса и внести лепту в построение базы больших данных для создания ассистента с открытым кодом.

Каждый виртуальный ассистент обладает определенным набором встроенных функций – навыков (от англ. skills). Так, Alexa играет музыку по заказу, обновляет записи в календаре, делает звонки и заметки, составляет списки, может выступать калькулятором, выдавать прогнозы погоды, совершать покупки и многое другое.

За счет интегрирования третьими сторонами через открытые API способности голосовых помощников становятся все более индивидуальными и всеобъемлющими. Наметившаяся тенденция к релизу API всех основных ассистентов, как ожидается, добавит остроты и без того ожесточенной конкуренции.

Еще по теме: Голосовые технологии: термины, которые нужно знать

Alexa, чей Alexa Skills Kit был доступен с первых дней ее появления, пока опережает всех. К концу 2015 года в списке навыков Alexa было 135 пунктов. Сейчас их 25 тысяч. Microsoft и Google выпустили свои API-наборы для Cortana и Google Assistant лишь в этом году и пока находятся в рядах догоняющих.

Социальный аспект голоса: а сегодня что для завтра сделал я?

Вопреки кажущейся необъятности возможностей виртуальных ассистентов социальная составляющая не самая сильная их черта. Чтобы как-то исправить ситуацию, в этом году Cloud Guru провел конкурс Alexa Speak Up! Challenge. Одним из его победителей стал навык STEM Women. Аббревиатура STEM от английского science, technology, engineering, math (наука, технология, инженерное дело, математика). Навык посвящен женщинам, добившимся успеха в этих дисциплинах, и направлен на борьбу с гендерным неравенством.

Fresh Digital Group – один из немногих пока разработчиков, создающих подобные навыки для Alexa. Так, компания уже дважды сотрудничала с ЮНИСЕФ. В результате были созданы Trick or Treat for UNICEF для поддержки традиционного сбора средств во время Хэллоуина и Kid Power с социальными играми, поднимающими проблему недоедания среди детей.

FDG также разработала навык Women’s Day о роли женщин в истории.

Другой пример социального навыка Alexa: NGO позволяет найти неправительственные организации в 50 столицах штатов США. Audubon Birds Song организации по защите птиц проигрывает трели более 600 представителей видов птиц, эндемичных для Северной Америки.

Save the Food направлен на борьбу с бесполезной тратой продовольствия. Этот навык позволяет получать информацию о хранении продуктов. Mayo Clinic First Aid сообщает информацию о том, как можно оказать самому себе первую помощь в различных ситуациях угрозы здоровью.

Текстовая конвертация, идентификация и верификация: слышу голос, голос спрашивает строго

В сегодняшнем мире голосовые ассистенты – лишь вершина айсберга. Речевые технологии демонстрируют впечатляющие результаты в разных сферах. Так, в области трансформации речи в текст тон продолжает задавать Dragon Natural Speaking.

Новейшая 13-я версия этого ПО, помимо стандартной функции диктовки, понимает голосовые команды для управления компьютером, например, открывает программы или переключает окна в браузере. Это ПО может конвертировать в текст подкасты и аудиоклипы или с помощью одной команды вставлять в письмо электронную подпись.

Распознавание по голосу – другое обширное направление развития речевых технологий, связанное с идентификацией и верификацией личности. Они подразделяются на зависимые от текста, когда человеку необходимо назвать определенное слово или повторить фразу, и не зависимые от текста, когда идентификация производится просто на основе речи.

Голос считается менее надежным биометрическим параметром, чем, например, отпечатки пальцев. Его характеристики могут меняться не только с возрастом, но и из-за болезни или стресса. Тем не менее в связи с общим ростом популярности речевых технологий распознавание по голосу находит все большее применение, в том числе в банковской сфере.

В 2015 году Citi Group впервые внедрила систему распознавания голоса в своих колл-центрах в США. Она позволяет определить около 130 особенностей голоса на основе пятисекундного разговора и сравнить их с образцом. С 2016 года банк Barclays использует продукт одного из основных игроков в этой области – компании Nuance – как основной метод подтверждения личности клиента.

Голосовая идентификация применяется для опознания преступников. Так, они сыграли роль в установлении личности так называемого «джихадиста Джона», фигурировавшего в видеозаписях казней группировки «Исламское государство»* (организация запрещена в России).

В марте этого года стало известно, что правительство Германии намеревается использовать технологии распознавания речи в работе с беженцами. Так как 60 процентов просителей убежища в этой стране не имеют документов, немецкие власти рассчитают подтверждать страну их происхождения, анализируя их манеру говорить.

Отношения с законом: я клянусь, что стану чище и добрее

С развитием речевых технологий в обществе обостряются и опасения относительно сохранности личной информации и права на частную жизнь. По мнению многих, речевые технологии на рынке – это не только новые возможности, но и недремлющие микрофоны, а также новая стадия утери нами контроля над передачей, хранением и конгломерацией наших данных.

Так, голосовые помощники тем лучше трудятся на наше благо, чем больше знают о нас. Но, как пишет Economist, «когда голосовой ассистент удивит пользователя вопросом: «Недалеко есть аптека, Стив, не хочешь купить новый крем от геморроя?», тогда, возможно, многие по-новому взглянут на баланс между удивительными новыми возможностями и старым добрым правом на личную жизнь».

Разразившийся с подачи Эдварда Сноудена скандал вокруг Агентства национальной безопасности США и его программы прослушивания и шпионажа также был непосредственно связан с речевыми технологиями. Как пишет в своем материале Дэн Фрумкин, согласно обнародованным Сноуденом секретным документам, в распоряжении ведомства уже больше 10 лет имеются технологии, способные анализировать, классифицировать, конвертировать и хранить в форме баз данных перехваченные телефонные переговоры.

В прошлом году в центре внимания оказалась проблема доступа третьих лиц к информации, передаваемой через виртуальных помощников в облачные сервисы.

Колонка Echo стала потенциальным свидетелем по делу об убийстве.

Правоохранительные органы США требовали от Amazon предоставить данные, собранные Echo в доме подозреваемого. Этому предшествовала судебная тяжба, в ходе которой компания пыталась сохранить конфиденциальность информации, но после формального согласия владельца Echo, обвиняемого по этому делу, передала требуемые данные, которые все это время хранились на ее серверах.

Последствием этого околосудебного переполоха стали возобновившиеся в обществе дискуссии о тревожной вездесущности подобных «умных устройств».

На пути к искусственному интеллекту: в прекрасное далеко я начинаю путь

Лидеры в области голосовых технологий, в частности производители голосовых помощников, не слишком озадачиваются опасениями публики. Их больше волнует, насколько умными, приятными и реалистичными собеседниками являются их продукты.

Так, по данным Economist, ответы Cortana пишут писатели, поэты и сценаристы, а Google нанял для своего ассистента авторов из Pixar и сатирической газеты The Onion для придачи ему большего чувства юмора.

Кроме того, пока, несмотря на все «магические» свойства виртуальных ассистентов, все они считаются разработками первого поколения. Взаимодействие с ними векторное и сводится к отдаче и выполнению команд.

Еще по теме: Что такое голосовые технологии и интерфейсы

Качественным скачком в новую категорию должно стать придание голосовым интерфейсам способностей поддерживать спонтанную беседу на свободную тему и звучать, как голоса настоящих людей. Судя по темпам, со второй задачей техногении справятся совсем скоро, а потом с еще большим рвением примутся и за первую.

Так, монреальский стартап Lyrebird работает в направлении более реалистичного синтеза речи путем подражания. На их сайте уже запущена бета-версия продукта, позволяющая каждому создать имитатор собственного голоса, сделав минутную аудиозапись.

Творение Google WaveNet конвертирует в речь написанный текст. Она «обучается», прослушивая аудиофайлы и моделируя звуковые волны, производимые человеческим голосом. Google заявляет, что эта система, как никакая другая до нее, приблизилась к естественности человеческой речи.