Системы, ориентированные на распознавание отдельных слов, команд и вопросов

Системы распознавания речи

Системы речевого ввода и вывода информации

Существуют две технологии речевого общения с компьютером:

□ системы распознавания речи;

□ системы синтеза речи.

В системах распознавания речи выполняется оцифровка звуковой информации, ее идентификация с кодами, содержащимися в электронных тезаурусных (иногда многоязычных) словарях, необходимая автоматическая коррекция кодов и генерация соответствующих им символов, слов и предложений, возможный

Средства мультимедиа

вывод текстов на экран для ручной их коррекции (иногда звуковое воспроизведение) и запись текстов в память машины либо исполнение «услышанных» команд.

По характеру распознаваемой речи системы речевого ввода можно разделить на:

□ системы, ориентированные на распознавание отдельных слов, команд и вопросов;

□ системы распознавания предложений и связной речи;

□ системы идентификации по образцу речи.

Такие системы часто называют системами речевого управления, поскольку их основная задача — обеспечить выполнение компьютером действий, задаваемых голосом.

Наибольшее распространение такие системы получили в автоматических теле
фонных службах. В них можно ввести голосом номер телефона вызываемого
абонента или его имя; можно задать простой вопрос автоматической справочной
службе и т. д. <

Наиболее разработаны системы распознавания чисел, которые можно отнести к средствам распознавания первого поколения. В развитых системах такого рода человек сначала сообщает свой числовой пароль, затем свой числовой идентификатор, и только после этого может назвать число, кодирующее сущность запроса.

К средствам второго поколения относятся системы распознавания имен. Основаны эти средства на использовании ключевых слов (имен), хранимых, естественно, в базе данных системы. Множество хранимых слов и ограничивает возможные имена (при вызове телефонного абонента, например) и распознаваемые команды и вопросы. Система Voice Commands компании KurzWeil Applied Intelligence позволяет распознавать около 10 000 слов английского языка, которые после идентификации преобразуются в соответствующие ASCII-последовательности и либо исполняются машиной (если это команды), либо заносятся в файл. Система компании Charles Schwab & Co., специализирующейся на предоставлении брокерских услуг участникам фондового рынка, при обработке более 10 000 названий и десятков видов ценных бумаг обеспечивает при распознавании 95-процентную точность (что, конечно, недостаточно, но количество клиентов этой справочной службы не убывает).

Существенно сложнее строятся системы третьего поколения, в которых диалог с пользователем реализуется с помощью голосовых меню. Такие системы основаны на идее обучения: в течение некоторого времени система обучается на большом количестве типовых речевых диалогов (включающих, кстати, и слова-паразиты). В ходе этого обучения создается рабочий словарь и база данных отношений между отдельными словами (база знаний). Примером системы третьего поколения может служить Natural Dialogue System фирмы Philips, используемая швейцарской железнодорожной компанией Swiss Railways для справочной системы, обслуживающей не только железнодорожные, но и автобусные маршруты и паромные переправы.

Глава 7. Внешние устройства ПК