Компания Mozilla опубликовала первый выпуск модели распознавания речи с открытым исходным кодом и набор голосовых данных, в который вошли примеры произношения почти 20 тысяч человек по всему миру. Об этом представители компании написали в блоге проекта 29 ноября 2017 года.
Базу голосовых шаблонов удалось собрать благодаря добровольцам: они надиктовали почти 400 тысяч записей общей продолжительностью 500 часов. Все эти записи можно скачать в свободном доступе. Такой доступный набор позволит натренировать модель для системы машинного обучения до уровня распознавания речи. При этом число ошибок будет соответствовать распознаванию человеком.
«Мы полагаем, что эта технология подтолкнет к волне инновационных продуктов и услуг. Она должна быть доступна всем», – написано в блоге компании.
Сейчас используется текстовый набор данных LibriSpeech, в котором число ошибок распознавания составляет всего 6,5%. За основу системы распознавания речи Mozilla использует движок с открытым кодом DeepSpeech.
Еще по теме: Популярные решения и разработки в области голосовых технологий
Имея модель распознавания речи и примеры произношения, разработчики смогут экспериментировать. Более того, Mozillа предложила готовые модули для Python и NodeJS. С их помощью можно встроить в свои программы функции распознавания речи. Еще есть инструментарий для распознавания из командной строки.
Пока поддерживается только английский язык, но в планах создателей в 2018 году приступить к сбору примеров и на других языках.