Проблема с распознаванием речи

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Беседин Игорь Юрьевич

Описаны ограничения возможностей ЭВМ по моделированию процесса распознавания речи . Приведена классификация систем распознавания речи . Описаны распространенные подходы к моделированию распознавания речи , рассмотрены языковые модели . Исследования выполнены в рамках ФЦП «Научные и научно-педагогические кадры инновационной России». The limitations of computer features in the process of modeling speechindentificatio are described. The >speech identification systems is presented. W >speech identification are described, language models sre considered. The research has been made in the frames of the "Scientific and Scientific-Pedagogical Personnel of Innovational Russia" Federal Program.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Беседин Игорь Юрьевич

Текст научной работы на тему «Анализ проблем автоматического распознавания речи»

Вестник Ставропольского государственного университета

АНАЛИЗ ПРОБЛЕМ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ

ANALYSIS OF SPEECH AUTOMATIC IDENTIFICATION PROBLEMS

The limitations of computer features in the process of modeling speechindentificatio are described. The classification of speech identification systems is presented. Widespread approaches to the modeling of speech identification are described, language models sre considered. The research has been made in the frames of the "Scientific and Scientific-Pedagogical Personnel of Innovational Russia" Federal Program.

Key words: speech identification, language models, statistical models.

Описаны ограничения возможностей ЭВМ по моделированию процесса распознавания речи. Приведена классификация систем распознавания речи. Описаны распространенные подходыi к моделированию распознавания речи, рассмотрены языковые модели. Исследования вы/полнены/ в рамках ФЦП «Научные и научно-педагогические кадрыI инновационной России».

Ключевые слова: распознавание речи, языковые модели, статистические модели.

Создание систем автоматической обработки речи является одним из наиболее актуальных направлений развития современных информационных технологий. Многие университеты, вычислительные центры и ряд прочих организаций занимаются разработкой систем автоматической обработки речи, включающие в себя распознавание речи на различных языках, поиск ключевых слов, системы идентификации дикторов, системы идентификации языков, оценку качества записей речи, системы изменения голоса.

Задача распознавания речи состоит в восстановлении по звуковому сигналу слов естественного языка, произнесением которого является исходный звуковой сигнал. Она обычно решается путем задания эталонов слов из словаря и последующего сравнения звуковых сигналов с этими эталонами. Для решения обычно сначала равномерно разбивают сигнал на окна одинаковой длины. Окна преобразуют из временной области в частотную. Затем решается задача нахождения соответствия между окнами звукового сигнала и окнами эталонов слов в словаре с учетом возможной различной степени сжатия и растяжения одинаковых слов.

В [1] приводится классификация основных проблем при создании систем распознавания речи. Прежде всего это фильтрация шума и помех и представление речевого сигнала в цифровой форме. Распознавание во входном потоке фонем, морфем, слогов, слов и прочих языковых единиц требует понимания принципов построения речи. Сле-

Анализ проблем автоматического распознавания речи

дует учитывать особенности звуков сплошной речи — постоянно изменяющийся спектр гармонических частот, шум; непостоянная громкость, темп, различная спектрально-временная окраска одной и той же фразы, сказанная одним человеком, находящимся в разных психических состояниях.

В первых системах распознавания речи использовали ряд грамматических и синтаксических правил речи. Если произнесенные слова соответствовали записанным в программе правилам, то система могла определить, какое используется слово. Однако, разговорная речь очень сильно отличается от установленных правил языка. Различные акценты, диалекты и особенности произношения звуков отдельных людей значительно затрудняли работу программы.

Ограничения ЭВМ не могут позволить с требуемой надёжностью исправлять ошибки и неоднозначности распознавания, используя синтаксическую и семантическую связь слов предложения. Вместо этого обычно используют статистические модели. Такие системы с помощью теории вероятности и математических вычислений способны определить наиболее вероятный вариант. На сегодняшний день существует две такие модели распознания речи — скрытые Марковские модели и модель нейронных сетей [5]. Принцип их работы заключается в обработке известной системе информации и извлечение из неё скрытой информации с помощью вычислений.

Консорциум Всемирной Паутины (^3С) разработал в 2004 году стандарты Грамматик для распознавания [7] и синтеза [6] речи. Эти документы определяют основные характеристики речи. Согласно этим стандартам можно классифицировать системы распознавания речи по следующим признакам:

• интервал между отдельными словами: если система распознает непрерывную речь, пользователь может произносить речь естественно. В системах с дискретной речью паузы между словами должны составлять не менее четверти секунды.

• зависимость от диктора: системы распознавания, независимые от диктора, позволяют работать без предварительной на-

строики, но позволяют улучшить надежность распознавания после обучения. Подобная независимость достигается за счет хранения звуковых эталонов для всех наиболее типичных голосов носителеи языка.

• степень детализации при задании эталонов: различные алгоритмы распознавания речи могут использовать для распознавания речи как эталоны слов, так и эталоны языковых единиц.

• размер словаря: различают маленькие словари (около 50 слов), позволяющие передавать команды компьютеру; средние (порядка 1000 слов), достаточные для определения «активного» словаря; большие (более 10 000 слов) для диктовки текстов.

Большинство современных систем распознавания речи, такие как Dragon Power Edition, IBM Voice TYPE, OfficeTALK 3.0, KVWin 2.0, Microlntrovoice и пр., используют сходные алгоритмы и методы [2]. Специфика задачи и существующие вычислительные ограничения определяет разницу в типе диктовки речи, размере словаря.

И. Л. Мазуренко в [2] описывает процесс распознавания речи в следующеи последовательности.

Шумоочистка и отделение полезного сигнала (выделение инвариантных относительно шума признаков, обучение в условиях шума, модификация эталонов). Узким местом подобных методов является эффект ненадежнои работы систем распознавания в «бесшумных» условиях.

Одним из методов являются коэффициенты линейного предсказания [3]. В качестве элементов эталонов используют вероятностные распределения. Для получения инвариантных признаков часто используют кратковременную функцию когерентности или методы связанных с моделированием слуховой системы человека.

Преобразование входного речевого сигнала в набор акустических параметров. Заключается в преобразовании в частотную область с помощью преобразования Фурье разбитого на окна звукового сигнала.

Приведение акустической формы сигнала к внутреннему алфавиту эталонных элементов. Область значений акусти-

Вестник Ставропольского государственного университета

ческих параметров речи разбивают на области сгущения, которые соответствуют элементам фонем, одинаковым для различных слов данного языка. Обычно таких областей около 1 000 [6], и для большого словаря целесообразно в качестве эталонов использовать лишь фонемные элементы.

Распознавание последовательности фонем и преобразование ее в текст. После определения вероятной последовательности эталонных элементов необходимо восстановить по ней неизвестную последовательность фонем. Подобные задачи решаются с помощью метода динамического программирования [3].

Естественный язык — это результат многовековой параллельной работы огромного числа носителей языка. Его предложения

Читайте также:  Войдите в один из аккаунтов этого устройства

принципиально отличаются от случайных комбинаций слов и от предложений формально построенных языков. Одной из основных его особенностей является избыточность, позволяющая понимать искажённую речь [4].

Для славянских языков характерно большое количество словоформ слова, свободный порядок слов. Эти особенности затрудняют использование статистических подходов. Модель языка представляет собой распределение вероятности на множестве всех предложений языка.

В таблице 1 представлены языковые модели, используемые сегодня в системах распознавания речи с неограниченными словарями.

Тип Достоинства Недостатки

п-граммы Возможность построения модели по обучающему корпусу большого размера. Высокая скорость работы Не учитывается зависимость очередного слова от размера всего текста

Модели, основанные на деревьях решений Теоретическая способность показать существенное улучшение с п-граммными моделями Требуется большой объем анализируемой информации. Не известно ни одной практической реализации

Модели, основанные на теории формальных языков Высокая скорость грамматического разбора Игнорирование предложений, не укладывающихся в правила формального языка

Адаптивные модели Возможность корректировки модели по мере работы распознавателя

А. Б. Холоденко в своей работе [4] предлагает один из возможных подходов к решению проблем, препятствующих созданию промышленных систем распознавания слитной речи для русского языка. Предложенное в ней разложение общей языковой модели на две составляющие: модель, основанную на морфологии, и модель, основанную на начальных формах слов, позволяет разработчикам использовать все преимущества п-граммного подхода, а выделение морфологической информации в независимую модель позволяет справиться с пробле-

мой акустической похожести различных словоформ одного и того же слова.

В настоящий момент достаточно сложными элементами при построении системы распознавания речи является построение акустической модели языка и начальное обучение эталонов слов словаря. Необходимо тщательно учесть многие типы голосов, акцентов носителей языка.

Кроме этого, существует еще ряд проблем [2]:

• подавление стационарных и нестационарных помех;

Анализ проблем автоматического распознавания речи

• переход к распознаванию непрерывной речи;

• поиск новых звуковых параметров;

• перенос на другие языки;

• поиск новых алгоритмов восстановления последовательности произнесенных звуков.

Исследование проблем автоматического распознавания речи является важным фундаментальным направлением. Эта проблема сейчас сдерживает развитие различных при-

кладных систем в телекоммуникациях, медицине, образовании и повседневной жизни. Практически вся современная техника и различные сервисы используют автоматизированные средства управления и обработки информации, системы развиваются в направлении повышения комфортности общения человека с компьютером, поэтому разработка эффективных средств человеко-машинного взаимодействия является первоочередной научной задачей.

1. Мазуренко И. Л. Компьютерные системы распознавания речи, Интеллектуальные системы. Т. 3. Вып. 1-2. — М., 1998. — С. 117134.

2. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов / пер. с англ. — М.: Радио и связь, 1981.

3. Фролов А. В., Фролов Г. В. Синтез и распознавание речи. Современные решения, 2003.

4. Холоденко А. Б. О построении статистических языковых моделей для систем распознавания русской речи // Интеллектуальные системы. Т. 6. Вып. 1-4. — М., 2002. — С. 381394.

5. Juang B. H. Speech Recognition in Adverse Environments. Computer Speech and Language. Vol.5. N. Y. 2002. -Р. 275-294.

Аспирант Стэнфордского университета Авни Ханнун написал о том, какие проблемы ещё предстоит решить, чтобы вывести системы автоматического распознавания речи на уровень человека.

Аспирант Стэнфордского университета Авни Ханнун написал о том, какие проблемы ещё предстоит решить, чтобы вывести системы автоматического распознавания речи на человеческий уровень.

С тех пор, как в распознавании речи появилось глубокое обучение, уровень ошибок сильно снизился. Но несмотря на все, что вы могли читать и видеть, у нас все ещё не существует системы распознавания речи человеческого уровня. В распознавании речи есть множество ошибок. Для продвижения вперед важно знать, когда они происходят, и предпринимать шаги по решению проблем. Только так можно перейти от автоматического распознавания речи (ASR), которое работает для некоторых людей, к ASR, которое работает для всех людей и всегда.

Улучшения в показателе частоты ошибок в тесте распознавания разговорной речи Switchboard. Набор тестов был собран в 2000 году. Он состоит из 40 телефонных разговоров между двумя случайными носителями английского языка.

Говорить, что мы достигли человеческого уровня распознавания разговорной речи, основываясь на результатах Switchboards, это то же самое, что говорить, что беспилотный автомобиль водит так же хорошо, как человек, после тестирования в одном городе в солнечный день без пробок. Последние улучшения в распознавании разговорной речи изумительны. Но заявлять о достижении уровня людей слишком рано. Ниже представлены несколько разделов, требующих улучшения.

Акценты и шум

Одно из самых заметных различий в распознавании речи – это способность разбираться с акцентами и фоновым шумом. Прямая причина этого заключается в том, что данные для обучения состоят из английской речи с американским акцентом с высоким показателем отношения сигнала к шуму (SNR – signal-to-noise ratio). Например, наборы данных для обучения и тестов Switchboard включают только речь носителей английского языка с небольшим фоновым шумом.

Однако увеличение количества данных для обучения, вероятно, не решит проблему просто так. Существует множество языков с большим количеством диалектов и акцентов. Невозможно собрать достаточно данных для всех случаев. Создание качественной системы распознавания речи только для английского с американским акцентом требует пять тысяч часов транскрибированного аудио.

Сравнение человеческих стенограмм со стенограммами модели Deep Speech 2 от Baidu. Заметьте, что люди хуже распознают неамериканский акцент. Вероятно, это связано с американским происхождением стенографов. Я думаю, что нативные для каждого региона спикеры лучше бы распознавали акценты родных стран.

Что касается фонового шума, в движущемся автомобиле SNR редко бывает на показателе -5 дБ. Люди без проблем понимают друг друга в этой среде. Автоматические системы распознавания речи допускают гораздо больше ошибок с увеличением шума. На диаграмме выше мы видим, как разница между ошибками людей и модели резко возрастает от аудио с низким SNR к аудио с высоким SNR.

Семантические ошибки

Показатель уровня ошибок в словах не самый объективный показатель. Нас интересует показатель семантических ошибок. Это доля высказываний, в которых мы искажаем смысл.

Пример семантической ошибки: если кто-то сказал “let’s meet up Tuesday” (давайте встретимся во вторник), но система распознала высказывание как “let’s meet up today” (давайте встретимся сегодня). У нас также могут быть ошибки в словах без семантических ошибок: если система отбросила слово up и распознала “let’s meet Tuesday”, то семантика высказывания не изменилась.

Мы должны осторожнее использовать показатель ошибок в словах (WER – word error rate) в качестве основного. Позвольте показать вам худшую ситуацию. WER в 5% соответствует одному пропущенному слову на каждые двадцать. Если в каждом предложении двадцать слов (средний показатель для английского), то показатель ошибок в предложениях составит 100%. Но пропущенные слова вряд ли изменят смысл предложений. В ином случае даже с 5% WER каждое предложение было бы неправильно интерпретировано.

При сравнении моделей и людей важно проверять природу ошибок, а не просто смотреть на показатель WER. По своему опыту могу сказать, что когда люди расшифровывают речь, они совершают меньше ошибок, и эти ошибки не так критичны.

Читайте также:  Программа которая переводит текст с фотографии

Исследователи в Microsoft недавно сравнили ошибки людей и систем распознавания речи с человеческим уровнем ошибок. Они обнаружили, что модель чаще путает междометия “а” и “ага”. У этих двух слов совершенно разная семантика: “а” просто заполняет паузы, а “ага” выступает в качестве подтверждения. Но модель и люди также совершили много похожих ошибок.

Один канал, множество говорящих

Тест от Switchboard проще, потому что каждый говорящий записан на отдельный микрофон. В одном канале аудио не перекрываются разные голоса. Люди же могут понимать нескольких людей, говорящих одновременно.

Хорошая систем распознавания речи должна быть способна сегментировать аудио на основании того, кто говорит (диаризация). Она также должна понимать аудио от нескольких говорящих (разделение источников). Это должно быть возможно без необходимости присутствия микрофона около каждого говорящего.

Другие области

Акценты и фоновый шум – это всего лишь два фактора, в отношении которых должна повышаться надежность распознавателя речи. Вот еще несколько:

  • Реверберация от изменения акустической среды.
  • Артефакты аппаратного обеспечения.
  • Кодек, используемый для артефактов звука и сжатия.
  • Частота выборки.
  • Возраст оратора.

Многие люди даже не заметят разницы между файлами mp3 и wav. Прежде, чем мы заявим о производительности на уровне человека, распознаватели речи должны быть надежными и в отношении этих факторов.

Контекст

Вы можете заметить, что показатель ошибок людей в тестах вроде Switchboard довольно высок. Если бы вы общались с другом, и они не понимали 1 из 20 сказанных вами слов, вам было бы сложно общаться.

Одна из причин этого – оценка совершается независимо от контекста. В реальной жизни мы используем много других подсказок, чтобы понять, что говорит собеседник. Несколько примеров контекста, который используеют люди:

  • Прошлые разговоры и тема обсуждения.
  • Визуальные подсказки, например, выражения лица и движения губ.
  • Знания о человеке, с которым мы общаемся.

Сейчас у распознавателя речи в Android есть доступ к вашему списку контактов, чтобы он мог распознавать имена ваших друзей. Голосовой поиск в картах использует геолокацию, чтобы сузить список потенциальных пунктов назначения. Точность ASR-систем возрастает с применением такого типа сигналов. Но мы только начала изучать, какой контекст мы можем включить и как мы можем это сделать.

Реализация

Недавние улучшения в распознавании разговорной речи нельзя быстро развернуть. Когда мы рассуждаем о том, что делает новый алгоритм распознавания речи реализуемым, мы обращаемся к показателям задержки и мощности. Они связаны, и алгоритмы, уменьшающие время задержки, повышают показатель мощности. Разберем каждый отдельно.

Задержка: Это время от момента завершения речи до завершения транскрибирования. Низкое время задержки – распространенное требование в системах распознавания речи. Это может сильно повлияет на опыт пользователя, и задержка часто измеряется в десятках миллисекунд. Это может показаться чрезмерным, но помните, что создание транскрипции – это первый шаг в серии вычислений. Например, в голосовом поиске сам поиск совершается после распознавания речи.

Двунаправленные рекуррентные сети являются хорошим примером значительного улучшения. Все последние современные разработки в распознавании разговорной речи используют их. Проблема в том, что мы не можем ничего вычислить после первого двунаправленного слоя, пока пользователь не закончит говорить. Таким образом, задержка увеличивается с длиной высказывания.

При использовании одного направления мы можем начать транскрипцию мгновенно

Хороший способ эффективного использования будущей информации в распознавании речи по-прежнему остается открытой проблемой.

Мощность: количество вычислительной мощности, которое необходимо для транскрипции высказывания является экономическим ограничением. Мы должны учитывать ценность и стоимость каждого улучшения точности распознавания речи. Если улучшение не укладывается в экономические рамки, оно не может быть воплощено.

Классическим примером улучшения, которое не реализуется, является ансамблевое обучение. Сокращение показателя ошибок на 1-2% не стоит увеличение вычислительной мощности от 2 до 8 раз. Современные модели на основе рекуррентных нейронных сетей обычно также относятся к этой категории, потому что их очень дорого использовать в лучевом поиске, хотя я ожидаю, что в будущем это изменится.

Я не считаю, что исследования, связанные с улучшением точности и большой вычислительной мощностью, бессмысленны. Мы уже видели модель “сначала медленно, но точно, затем быстро” до этого. Смысл в том, что пока улучшение не станет достаточно быстрым, его нельзя использовать.

Следующие пять лет

В распознавании речи существует много открытых и сложных проблем. Среди них:

  • Расширение возможностей в новые области, на новые акценты и на речь с низким соотношением сигнала и шума.
  • Внедрение большего количества контекста в процесс распознавания.
  • Диаризация и разделение источников.
  • Показатель семантических ошибок и инновационные методы оценки распознавателей.
  • Низкая задержка и эффективные алгоритмы.

С тех пор, как на сцену распознавания речи вышло глубинное обучение, количество ошибок в распознавании слов кардинально уменьшилось. Но, несмотря на все те статьи, которые вы могли читать, у нас до сих пор нет распознавания речи человеческого уровня. У распознавателей речи много видов отказов. Для дальнейшего улучшения их нужно выделить и постараться устранить. Это единственный способ перейти от распознавания, подходящего для некоторых людей большую часть времени, к распознаванию, работающему для всех людей всё время.

Улучшения в количестве ошибочно распознанных слов. Тестовый голосовой набор был собран на телефонном коммутаторе в 2000 году из 40 случайных разговоров двух человек, чей родной язык – английский

Говорить о том, что мы достигли уровня человека в распознавании речи в разговорах, основываясь лишь на наборе разговоров с телефонного коммутатора, это всё равно, что утверждать, что робомобиль водит не хуже человека, протестировав его в единственном городе в солнечный день без всякого уличного движения. Произошедшие в деле распознавания речи в последнее время сдвиги удивительны. Но заявления по поводу распознавания речи на уровне человека слишком смелы. Вот несколько областей, в которых всё ещё необходимо добиваться улучшений.

Акценты и шум

Один из очевидных недостатков распознавания речи – обработка акцентов и фонового шума. Основная причина этого в том, что большая часть тренировочных данных состоит из американского говора с высоким отношением сигнала к шуму. К примеру, в наборе разговоров с телефонного коммутатора есть только беседы людей, чей родной язык – английский (по большей части, это американцы) с небольшим фоновым шумом.

Но увеличение тренировочных данных само по себе, скорее всего, не решит эту проблему. Существует множество языков, содержащих много диалектов и акцентов. Нереально собрать размеченные данные для всех случаев. Создание высококачественного распознавателя речи только для американского английского требует до 5 тысяч часов аудиозаписей, переведённых в текст.

Сравнение людей, занимающихся преобразованием речи в текст, с Baidu’s Deep Speech 2 на разных типах речи. Люди хуже справляются с распознаванием неамериканских акцентов – возможно, из-за обилия американцев среди них. Думаю, что люди, выросшие в определённом регионе, с гораздо меньшим количеством ошибок справились бы с распознаванием акцента этого региона.

При наличии фонового шума в движущейся машине отношение сигнал/шум может достигать величин в -5 дБ. Люди легко справляются с распознаванием речи другого человека в таких условиях. Автоматические распознаватели гораздо быстрее ухудшают показатели с увеличением шума. На графике видно, как сильно увеличивается отрыв людей при увеличении шума (при низких значениях SNR, signal-to-noise ratio)

Читайте также:  Вайбер занимает много памяти айфон как почистить

Семантические ошибки

Часто количество ошибочно распознанных слов не является самоцелью системы распознавания речи. Мы нацеливаемся на количество семантических ошибок. Это та доля выражений, у которых мы неправильно распознаём смысл.

Пример семантической ошибки – когда кто-то предлагает «let’s meet up Tuesday» [давайте встретимся во вторник] а распознаватель выдаёт «let’s meet up today» [давайте встретимся сегодня]. Бывают и ошибки в словах без семантических ошибок. Если распознаватель не распознал «up» и выдал “let’s meet Tuesday”, семантика предложения не изменилась.

Нам нужно аккуратно использовать количество ошибочно распознанных слов в качестве критерия. Для иллюстрации этого я дам вам пример с наихудшим из возможных случаев. 5% ошибок в словах соответствует одному пропущенному слову из 20. Если в каждом предложении 20 слов (что для английского языка вполне в рамках среднего), то количество неправильно распознанных предложений приближается к 100%. Можно надеяться на то, что неправильно распознанные слова не меняют семантический смысл предложений. А иначе распознаватель может неправильно расшифровать каждое предложение даже с 5% количеством ошибочно распознанных слов.

Сравнивая модели с людьми важно проверять суть ошибок и следить не только за количеством неправильно распознанных слов. По моему опыту, люди, транслирующие речь в текст, делают меньше ошибок и они не такие серьёзные, как у компьютеров.

Исследователи из Microsoft недавно сравнили ошибки людей и компьютерных распознавателей схожего уровня. Одно из найденных различий – модель путает “uh” [э-э-э…] с “uh huh” [ага] гораздо чаще людей. У двух этих терминов очень разная семантика: “uh” заполняет паузы, а “uh huh” обозначает подтверждение со стороны слушателя. Также у моделей и людей обнаружили много ошибок совпадающих типов.

Много голосов в одном канале

Распознавать записанные телефонные разговоры проще ещё и потому, что каждого говорящего записывали на отдельный микрофон. Там не происходит наложения нескольких голосов в одном аудиоканале. Люди же могут понимать нескольких ораторов, иногда говорящих одновременно.

Хороший распознаватель речи должен уметь разделять аудиопоток на сегменты в зависимости от говорящего (подвергать его диаризации). Также он должен извлечь смысл из аудиозаписи с двумя накладывающимися друг на друга голосами (разделение источников). Это необходимо делать без микрофона, расположенного прямо у рта каждого из спикеров, то есть так, чтобы распознаватель работал хорошо, будучи размещённым в произвольном месте.

Качество записи

Акценты и фоновый шум – всего два фактора, к которым распознаватель речи должен быть устойчив. Вот ещё несколько:

• Реверберация в разных акустических условиях.
• Артефакты, связанные с оборудованием.
• Артефакты кодека, используемого для записи и сжатия сигнала.
• Частота дискретизации.
• Возраст говорящего.

Большинство людей не отличат на слух записей из mp3 и wav-файлов. Прежде чем заявлять о показателях, сравнимых с человеческими, распознаватели должны стать устойчивыми и к перечисленным источникам вариаций.

Контекст

Можно заметить, что количество ошибок, которые люди делают на тестах в записях с телефонной станции, довольно высоко. Если бы вы беседовали с другом, который не понимал бы 1 слово из 20, вам бы было очень сложно общаться.

Одна из причин этого – распознавание без учёта контекста. В реальной жизни мы используем множество разных дополнительных признаков, помогающих нам понимать, что говорит другой человек. Некоторые примеры контекста, используемые людьми, и игнорируемые распознавателями речи:

• История беседы и обсуждаемая тема.
• Визуальные подсказки о говорящем – выражения лица, движение губ.
• Совокупность знаний о человеке, с которым мы говорим.

Сейчас у распознавателя речи в Android есть список ваших контактов, поэтому он умеет распознавать имена ваших друзей. Голосовой поиск на картах использует геолокацию, чтобы сузить количество возможных вариантов, до которых вы хотите построить маршрут.

Точность систем распознавания увеличивается с включением в данные подобных сигналов. Но мы только начинаем углубляться в тип контекста, который мы могли бы включить в обработку и в методы его использования.

Развёртывание

Последние достижения в распознавании разговорной речи невозможно развернуть. Представляя себе развёртывание алгоритма распознавания речи, нужно помнить о задержках и вычислительных мощностях. Эти параметры связаны, поскольку алгоритмы, увеличивающие требования к мощности, увеличивают и задержку. Но для простоты обсудим их по отдельности.

Задержка: время от окончания речи пользователя и до окончания получения транскрипции. Небольшая задержка – типичное требование для распознавания. Она сильно влияет на ощущения пользователя от работы с продуктом. Часто встречается ограничение в десятки миллисекунд. Это может показаться слишком строгим, но вспомните, что выдача расшифровки — это обычно первый шаг в серии сложных вычислений. К примеру, в случае голосового интернет-поиска после распознавания речи нужно ещё успеть выполнить поиск.

Двунаправленные рекуррентные слои – типичный пример улучшения, ухудшающего ситуацию с задержкой. Все последние результаты расшифровки высокого качества получаются с их помощью. Проблема только в том, что мы не можем ничего подсчитывать после прохода первого двунаправленного слоя до тех пор, пока человек не закончил говорить. Поэтому задержка увеличивается с длиной предложения.

Слева: прямая рекуррентность позволяет начинать расшифровку сразу. Справа: двунаправленная рекуррентность требует подождать окончания речи перед тем, как начинать расшифровку.

Хороший способ эффективно включать будущую информацию в распознавание речи пока ещё ищут.

Вычислительная мощность: на этот параметр влияют экономические ограничения. Необходимо учитывать стоимость банкета для каждого улучшения точности распознавателя. Если улучшение не достигает экономического порога, развернуть его не получится.

Классический пример постоянного улучшения, которое никогда не развёртывают – совместное глубинное обучение [ensemble]. Уменьшение количества ошибок на 1-2% редко оправдывает увеличение вычислительных мощностей в 2-8 раз. Современные модели рекуррентных сетей тоже попадают в эту категорию, поскольку их очень невыгодно использовать в поиску по пучку траекторий, хотя, думаю, в будущем ситуация поменяется.

Хочу уточнить – я не говорю, что улучшение точности распознавания с серьёзным увеличением вычислительных затрат бесполезно. Мы уже видели, как в прошлом работает принцип «сначала медленно, но точно, а затем быстро». Смысл в том, что до тех пор, пока улучшение не станет достаточно быстрым, использовать его нельзя.

В следующие пять лет

В области распознавания речи остаётся ещё немало нерешённых и сложных проблем. Среди них:

• Расширение возможностей новых систем хранения данных, распознавания акцентов, речи на фоне сильного шума.
• Включение контекста в процесс распознавания.
• Диаризация и разделение источников.
• Количество семантических ошибок и инновационные методы оценки распознавателей.
• Очень малая задержка.

С нетерпением жду прогресса, который будет достигнут в следующие пять лет по этим и другим фронтам.