Проблемы синтеза звучащей речи

На основе анализа существующих методов, можно сделать вывод о наличии следующих проблем в области синтеза речи:

1) искусственность речи;

2) отсутствие эмоциональной нагрузки;

3) низкая помехоустойчивость синтезированной речи.

Проблема искусственности речи заключается в том, что, несмотря на кажущееся качество произношения текста речевыми синтезаторами, такая речь тяжела для восприятия и понимания человеком. В основу технологии речевого синтеза положено использование заранее записанной фонетической базы и слова формируются с помощью статистического расчёта по принципу максимального правдоподобия фонетической сочетаемости, а пробелы и недочеты фильтруются человеческим мозгом. То есть качественный синтезатор с хорошо подобранной фонетической базой может восприниматься на слух в течение 10-15 минут, после чего синтезируемая речь перестает быть понятной. Это связано с тем, что для прослушивания синтезируемой речи человек использует дополнительные центры обработки головного мозга, и мозг просто устает. Таким образом, головной мозг не воспринимает синтезированную речь как естественную, которая сразу обрабатывается в речевом центре. Подобный эффект сравним с изучением иностранного языка.

Второй проблемой в области синтеза речи является отсутствие эмоциональной нагрузки, то есть личного восприятия произносимого текста читателем. При чтении текста человеком, он, поневоле, пропускает смысл воспроизводимого через себя, и в интонациях и нюансах чувствуется его отношение к прочитанному. Современные программы этого не могут, однако самые передовые из них пытаются имитировать интонацию путем модуляции тембра, длительности фонем и пауз. Но данная реализация является лишь подражанием, в связи, с чем мозг быстро устает исправлять огрехи воспроизведения, и слушатель теряет нить повествования.

Очевидно, что для решения этой задачи требуются методы из области теории искусственного интеллекта для «извлечения смысла» из воспроизводимого текста. Поэтому синтезаторы, учитывающие смысл воспроизводимого текста должны строиться с учётом результатов междисциплинарных исследований.

Третья проблема – низкая помехоустойчивость синтезированной речи. Как показали и показывают эксперименты, достаточно наличие лишь слабого источника шума, чтобы слушатель перестал воспринимать смысл текста, воспроизводимого речевым синтезатором. Объяснение этому также находится в области нейрофизиологии. Так как для обработки синтезированной речи головной мозг использует дополнительные центры, то при наличии постороннего шума, разговора или необходимости выполнения слушателем какой-то работы, мозг просто не справляется, и человек перестает понимать смысл произносимого. Эффект помех существенно ограничивает возможности применения синтезатора в реальных условиях техногенных и природных шумов.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

1 2 3 4

Типы финансовой устойчивости предприятия

Конструктивные системы зданий и сооружений

Конспект режимных моментов в средней группе в первую половину дня

Уголовно-исполнительное право: Шпаргалка

Формы, виды и типы культуры

Требования безопасности в аварийных ситуациях. Действия работника при возникновении аварийных ситуаций, которые могут привести к несчастным случаям, пожару (взрыву)

Самый сильный аргумент, почему эволюция человека не могла быть