![]() ![]() У многих из нас мало опыта в так называемом голосовом письме – на диктофон свои мысли раньше записывали разве что психоаналитики. Теперь диктовка становится привычнее – к ней приучил сервис голосового набора в смартфонах. ![]() Участвуя как product owner в процессе создания продукта для распознавания русской слитной речи, общаясь с разработчиками алгоритмов и с клиентами, проводя различные тесты систем распознавания, наблюдая за тем, как пользователи диктуют свои тексты и имея свой большой опыт ввода текста в компьютер с помощью голоса, я набрал много интересных наблюдений. Чтобы лучше понимать, как правильно пользоваться автоматическим распознаванием речи давайте посмотрим, как устроено распознавание речи. Описание будет очень упрощенным, но зато поможет понять, какие ошибки люди совершают при диктовке. И еще: данную статью я буду писать с помощью диктовки, внося правки с клавиатуры только в тех местах, где без этого будет не обойтись. Итак: Для создания движка распознавания нам потребуются акустическая и языковая модели. Акустическая модель отвечает за соотнесение кусочка звука (фрейма) с соответствующей фонемой. Русский голос для Windows, Читалки, Распознавание речи в текст,Речь в текст, Голосовой набор текста, Голосовая клавиатура. То есть некая мисс или миссис Анна может без труда прочитать вам какой-либо текст на английском языке, но вот русского языка она, увы, не знает. Участвуя как product owner в процессе создания продукта для распознавания русской слитной речи, общаясь с разработчиками алгоритмов. Мы не стали его покупать только потому, что на многих ПК стоит либо Win x64 + Office x64 — Voco не будет работать или стоит Win x86 + Office. Последние обновления Warning: Creating default object from empty value in /var/www/vhosts/v-2882.webspace/www/proga.kz/modules/mod_latestnews. Минимальные системные требования: Для Windows – Windows XP* (SP2 только x64, SP3 – x32/x64), Windows Vista*, Windows 7. Пакет обновлений Win7 UpdatePack для Windows 7 SP1 (x86 x64) Win7 UpdatePack для Windows 7 SP1 (x86 x64) - накопительный пакет. Фонема — это отдельный звук речи, например, «а-ударная», «т-мягкая», «т» и еще 49 других. Самая большая проблема заключается в том, что многие фонемы очень похожи между собой и отличить на слух слово «машины» от слова «машину» достаточно трудно (вспомните, сколько раз вы переспрашиваете, когда вам диктуют незнакомую фамилию). Поэтому акустическую модель делают вероятностной: она сообщает, что с некоторой вероятностью в этом звуковом фрагменте была произнесена фонема «а-ударная», с другой вероятностью это была фонема «а-безударная» и т.д. И выдает вероятности всем фонемам. Для того чтобы иметь такую акустическую модель, нам надо ее сначала обучить. Для этого берется большая речевая база (сотни часов речи, записанные на микрофон десятками дикторов разного пола и возраста). База размечается, чтобы было известно, какая фонема звучит в какой момент времени. И далее после тренировки получаем для каждой фонемы некую функцию распределения вероятностей, которая описывает, как в среднем эта фонема произносится людьми. Языковая модель также является вероятностной и описывает структуру языка. Она показывает, насколько вероятна (правильна) та или иная фраза с точки зрения языка. Например, фраза «мама мыла раму» вполне нормальная, а вот «рама мыла маму» уже ошибочна (эта фраза настолько не нравится Voco, что он распознает «мама мыла маму»). После того, как мы распознали очередное слово, языковая модель определяет, насколько это слово согласуется с предыдущими распознанными словами. Языковая модель тренируется по большому объему текстовых данных (гигабайты текстов). По этим тренировочным данным мы вычисляем вероятности появления слов в определенном контексте, основываясь на частоте встречаемости этих словосочетаний. Мы используем словосочетания длиной не более 3 слов (3-граммные языковые модели). Поэтому, языковая модель не может помочь согласовать, например, прилагательное с существительным, если между ними располагаются какие-то два слова. В этом случае согласование происходит только за счет акустической модели. В качестве словаря распознавания мы берем примерно 300 тысяч самых частотных слов, которые покрывают 99% речи среднестатистического человека. Теперь разберемся с самим распознаванием Зная, как каждое слово транскрибируется с помощью фонем и, зная вероятности из языковой модели, мы можем построить граф распознавания (конечный автомат).
0 Comments
Leave a Reply. |
AuthorWrite something about yourself. No need to be fancy, just an overview. Archives
September 2018
Categories |