Распознавание речи

Пример решения задачи.

Известно, что в первых числах июня вероятность событий следующая:

Заморозки P (A 1) – 0,8;

Отсутствие заморозков P (A 2) – 0,2.

Если снег не стаял до 20 мая – B 1, то в 9 случаях из 10 заморозков нет A 2

P (B 1ô A 1) = 0,1;

P (B 1ô A 2) = 0,9;

P (B 2ô A 1) = P (B 1ô A 2) = 0,9;

P (B 2ô A 2) = P (B 1ô A 1) = 0,1.

Используя формулу Байеса, получим:

P (A 2ô B 1) = (0,2 · 0,9)/(0,8 · 0,1 + 0,2 · 0,9) = 0,7;

P (A 1ô B 1) = (0,8 · 0,1)/0,26 = 0,3.

Распознавание речи – процесс преобразования речевого сигнала в цифровую информацию (напр., текстовые данные). Обратной задачей является синтез речи.

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Например, приложение Microsoft Voice Command позволяет работать со многими приложениями при помощи голоса (можно включить воспроизведение музыки в плеере или создать новый документ).

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения позволяет снизить нагрузку на операторов контакт-центров и секретарей, сократить расходы на оплату труда и повышение производительности систем обслуживания.

В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: 1) чрезмерная чувствительность к шумам и 2) необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: