Системы, ориентированные на распознавание отдельных слов, команд и вопросов

Системы распознавания речи

Системы речевого ввода и вывода информации

Существуют две технологии речевого общения с компьютером:

□ системы распознавания речи;

□ системы синтеза речи.

В системах распознавания речи выполняется оцифровка звуковой информации, ее идентификация с кодами, содержащимися в электронных тезаурусных (ино­гда многоязычных) словарях, необходимая автоматическая коррекция кодов и генерация соответствующих им символов, слов и предложений, возможный


Средства мультимедиа



вывод текстов на экран для ручной их коррекции (иногда звуковое воспроизведе­ние) и запись текстов в память машины либо исполнение «услышанных» команд.

По характеру распознаваемой речи системы речевого ввода можно разделить на:

□ системы, ориентированные на распознавание отдельных слов, команд и во­просов;

□ системы распознавания предложений и связной речи;

□ системы идентификации по образцу речи.

Такие системы часто называют системами речевого управления, поскольку их основная задача — обеспечить выполнение компьютером действий, задаваемых голосом.

Наибольшее распространение такие системы получили в автоматических теле­
фонных службах. В них можно ввести голосом номер телефона вызываемого
абонента или его имя; можно задать простой вопрос автоматической справочной
службе и т. д. <

Наиболее разработаны системы распознавания чисел, которые можно отнести к средствам распознавания первого поколения. В развитых системах такого рода человек сначала сообщает свой числовой пароль, затем свой числовой идентифи­катор, и только после этого может назвать число, кодирующее сущность запроса.

К средствам второго поколения относятся системы распознавания имен. Основа­ны эти средства на использовании ключевых слов (имен), хранимых, естественно, в базе данных системы. Множество хранимых слов и ограничивает возможные имена (при вызове телефонного абонента, например) и распознаваемые команды и вопросы. Система Voice Commands компании KurzWeil Applied Intelligence позволяет распознавать около 10 000 слов английского языка, которые после идентификации преобразуются в соответствующие ASCII-последовательности и либо исполняются машиной (если это команды), либо заносятся в файл. Систе­ма компании Charles Schwab & Co., специализирующейся на предоставлении брокерских услуг участникам фондового рынка, при обработке более 10 000 назва­ний и десятков видов ценных бумаг обеспечивает при распознавании 95-процент­ную точность (что, конечно, недостаточно, но количество клиентов этой спра­вочной службы не убывает).

Существенно сложнее строятся системы третьего поколения, в которых диалог с пользователем реализуется с помощью голосовых меню. Такие системы основа­ны на идее обучения: в течение некоторого времени система обучается на большом количестве типовых речевых диалогов (включающих, кстати, и слова-паразиты). В ходе этого обучения создается рабочий словарь и база данных отношений меж­ду отдельными словами (база знаний). Примером системы третьего поколения может служить Natural Dialogue System фирмы Philips, используемая швей­царской железнодорожной компанией Swiss Railways для справочной системы, обслуживающей не только железнодорожные, но и автобусные маршруты и па­ромные переправы.



Глава 7. Внешние устройства ПК



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: