Звучащей речи. Практическое применение систем автоматической обработки

Практическое применение систем автоматической обработки

Особенности автоматической обработки звучащей речи

Потребность в создании систем автоматической обработки естественного языка возникла постольку, поскольку невозможно обучить всех пользователей программированию. Оптимальной формой диалога человека и компьютера является диалог на естественном языке. А так как естественный язык существует в двух формах – письменной и устной, то и создание систем автоматической обработки естественного языка ведется в двух направлениях: обработка устной речи и обработка письменного текста.

Под обработкой устной речи понимается разработка методов, технологий и конкретных систем, которые обеспечивают общение человека с компьютером на естественном или ограниченно естественном языке. Речевой диалог обладает рядом преимуществ по сравнению с традиционным вводом информации с помощью клавиатуры:

1) устное общение не требует специальной предварительной подготовки пользователя;

2) диалог освобождает руки и зрение;

3) за счет системы распознавания голоса возможна защита от недозволенного доступа к объекту;

4) диалоговое взаимодействие дает возможность пользоваться компьютером людям с ограниченными возможностями.

Однако связь с помощью голоса имеет и свои недостатки: подверженность шумовым помехам, невозможность неограниченного ввода данных в компьютер в течение длительного времени.

Системы автоматической обработки устной речи находят практическое применение в информационно-справочных службах, где можно получать информацию из базы данных в режиме диалога (например, в медицине или на транспорте). Кроме того, такие системы необходимы и для организации приема и озвучивания сообщений (например, получение электронной почты по телефону), а также для перевода звучащей речи в привычный текст в электронной форме. Компьютеры могут оказывать помощь и при обучении иностранному языку с помощью автоматических фонетических тренажеров.

История практического применения систем автоматической обработки звучащей речи началась еще в XVIII в., когда появились первые механические синтезаторы речи. Их создатели ставили целью воспроизвести процессы произнесения звуков с помощью механического устройства, имитируя строение голосового аппарата человека.

В начале XX века механические устройства сменились электрическими вокодерами. Первое устройство для распознавания речи появилось в 1952 г., оно могло распознавать произнесённые человеком цифры. В 1964 г. на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале 90-х годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (н-р, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

На сегодняшний день существует два типа систем распознавания речи – 1) работающие по принципу «клиент-сервер» (client-server), 2) «на клиенте» (client-based). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения.

Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) – команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но иногда ограничивается мощностью устройства на стороне пользователя.

1 2 3 4

Подборка статей по вашей теме: