Компьютерные средства обеспечения звуковых технологий

I

Системы синтеза речи

Механизм распознавания речи

Механизм распознавания речи включает в себя обычно четыре основных блока:

□ препроцессор;

□ экстрактор;

□ компаратор;

□ интерпретатор.

Препроцессор или модуль сбора данных обеспечивает приведение речевого сиг­нала к наиболее качественному виду (производится автоматическая регулировка усиления, подавление эхо-сигнала, фиксация наличия или отсутствия речи и ин­тонационного выделения конца фразы и т. п.).

Экстрактор выполняет спектральный анализ сигнала. Акустико-фонетический по­ток звуков разбивается на короткие кадры (длительностью примерно по 10 мс) и выявляются спектральные характеристики каждого кадра.

Компаратор выполняет акустическое сравнение выявленных характеристик каж­дого кадра с имеющимися акустико-фонетическими образцами. Сравнение про­изводится на уровнях выявления контекстно-независимых фонем, контекстно-зависимых фонем и моделей слов.

Интерпретатор решает задачу наилучшего разбиения полученного от компарато­ра «алфавитного» потока на слова и фразы.

Системы речевого вывода информации базируются либо на выборке из словаря готовых оцифрованных звуковых последовательностей, либо на синтезаторах речи. Самым простым вариантом является выборка готовых звуковых последо­вательностей (как в автоответчике), но ввиду большого размера звуковых фай­лов вывод большого числа слов в этом случае практически невозможен. В таких простых системах часто используются меню, по которым пользователь может выбрать те высказывания, которые он бы хотел услышать. При наличии нужных записей в базе данных их текст озвучивается. Такие системы находят примене­ние, например, в будильниках, в автомобильных навигационных системах и т. д.

Формирование речевого вывода более функционально выполняется полными синтезаторами речи в несколько этапов.

Задачей первого этапа является фильтрация шумовых символов текста (знаков препинания, кавычек, тире, скобок и т. п.). Эта задача решается модулем норма­лизации, который также обрабатывает контекстно-зависимые сокращения, фор­маты дат, времени, денежных единиц и т. д.



Глава 7. Внешние устройства ПК


Модуль преобразования на втором этапе переводит текст из орфографического в фонетический формат (из букв в звуки). Для некоторых языков, например для английского, это непростой процесс, поскольку многие слова произносятся не по буквам, а по особым правилам произношения отдельных буквенных сочетаний.

Модуль анализа выполняет одновременно лексикографическую и синтаксиче­скую обработку для выбора варианта произношения, ритма и интонации.

Фонетический модуль, получив от модуля анализа фонетическое представление исходного текста, обогащает звучание речи дифтонгами, трифтонгами, четырех-звучиями и другими полезными составляющими.

Модуль обработки звука преобразует фонетические данные в звуковые сигналы: генерируемые волновые последовательности (с частотой порядка 10 кГц) мо­дулируются фонетическим потоком. На этой стадии выполняется управление громкостью, скоростью речи, тембром голоса.

Среди программ синтеза речи можно назвать шведскую систему Infovox, систему Monologue английской фирмы First Byte, систему Pro Verbe компании Elan Informatique и др.

Компьютерные средства обеспечения звуковых технологий делятся на

□ звуковые карты;

□ акустические системы.

Звуковые платы (карты)

Звуковые платы (карты) (sound blaster, sound cards) используются для создания, записи и воспроизведения различных звуковых сигналов: музыки, речи, шумовых эффектов.

В режиме создания звука плата действует как музыкальный инструмент. Звук, создаваемый с помощью звуковой платы, называют «синтезированным».

В режиме записи звука плата производит оцифровку звуковых сигналов для по­следующей их записи в память компьютера.

В режиме воспроизведения звука плата работает аналогично цифровому аудио­плейеру, преобразуя считанные из памяти цифровые сигналы в аналоговые.

Функционально плата содержит несколько модулей:

□ модуль для записи и воспроизведения звука;

□ модуль синтезатора звука;

□ модуль интерфейсов.

Модуль записи и воспроизведения звука использует для оцифровки звука ана­лого-цифровые преобразователи (АЦП), а для обратного преобразования — цифро-аналоговые преобразователи (ЦАП). На качество звука и в том и в дру­гом случае существенно влияет разрядность преобразователей.


Средства мультимедиа



Как происходит оцифровка? Аналоговый звуковой сигнал в АЦП измеряется через строго определенные последовательные интервалы времени (интервалы дискретизации), измеренные значения его амплитуды квантуются по уровню (заменяются близлежащими дискретными значениями сигнала) и идентифици­руются соответствующими двоичными кодами. Разрешающая способность АЦП равна наименьшему изменению аналогового сигнала, приводящему к изменению цифрового кода, то есть определяется разрядностью преобразователя, так как чем больше разрядность кода, тем больше разных дискретных значений сигнала и, соответственно, меньшие интервалы амплитуды аналогового сигнала можно отобразить этим кодом.

Таким образом, качество оцифровки, а соответственно, и последующего звуча­ния оцифрованной аудиоинформации, при прочих равных условиях зависит от разрядности преобразования и частоты дискретизации:

Q разрядность преобразования определяет динамический диапазон сигнала;

Q частота дискретизации — верхнюю границу диапазона частот звукового сиг­нала.

Оцифрованный сигнал (его двоичный код) записывается в память машины. При воспроизведении оцифрованного звука в ЦАП двоичные коды заменяются соот­ветствующими им дискретными значениями сигнала для последующего их уси­ления и воспроизведения через акустическую систему.

Разрядность преобразователей (и соответственно, звуковых плат) бывает разная — наиболее распространены 8- и 16-разрядные. Образно выражаясь, 8-разрядные платы обеспечивают качество звучания, характерное для средненьких кассетных магнитофонов, а 16-разрядные — для аудиосистем на компакт-дисках.

Модуль синтезатора звука. Для синтеза звукового сигнала используется два ос­новных метода:

□ синтез с помощью частотной модуляции или FM-синтез (Frequency Modulation);

□ синтез с использованием таблицы волн (Wave Table) — табличный WT-синтез.

FM-синтез звука осуществляется с использованием специальных генераторов сигналов, называемых операторами. В операторе можно выделить два базовых элемента: фазовый модулятор и генератор огибающей. Фазовый модулятор опре­деляет частоту (высоту) тона, а генератор огибающей — его амплитуду (гром­кость). Амплитуда сигнала у разных музыкальных инструментов различна. На­пример, у фортепиано при нажатии произвольной клавиши амплитуда сигнала сначала быстро возрастает (attack), затем несколько спадает (decay), после чего следует сравнительно короткий равномерный участок (sustain) и, наконец, про­исходит достаточно медленный спад амплитуды (release). Вышеназванные фазы сигнала реализуются именно генератором огибающей, который по первым буквам английских терминов этих фаз часто называют генератором ADSR. В общем случае для воспроизведения голоса одного инструмента достаточно двух операторов:

□ первый генерирует колебания несущей частоты, то есть основной тон;

□ второй — модулирующую частоту, то есть обертоны.

Но современные звуковые платы способны воспроизводить несколько голосов, например, синтезатор с 18 операторами может имитировать 9 разных голосов.



Глава 7. Внешние устройства ПК


Многие 16-разрядные звуковые платы используют 4-операторные синтезаторы (например, Yamaha OPL3). Звук, синтезированный FM-методом, за счет скудно­сти обертонов имеет обычно некоторый «металлический» оттенок, то есть не по­хож на звук настоящего музыкального инструмента.

WT-синтез обеспечивает более качественное звучание. В основе этого синтеза лежат записанные заранее и хранящиеся в памяти платы или компьютера образ­цы звучания музыкальных инструментов. Синтезаторы этого типа (например, Yamaha OPL4) создают музыку путем манипулирования образцами звучания инструментов (нотами, samples), «зашитыми» в ПЗУ платы или хранящимися на диске ПК. Лучшие звуковые платы позволяют хранить и использовать до 32 Мбайт выборок. При использовании выборок, загружаемых с диска, хорошая плата должна иметь ОЗУ емкостью не менее 1 Мбайт. Выпускаются также таб­личные расширители, позволяющие увеличить массив задействуемых образцов.

Модуль интерфейсов включает в себя интерфейс музыкальных инструментов, обычно MIDI (Musical Instruments Digital Interface), и средства воспроизведе­ния звука в соответствующем формате. Кроме того, в него могут входить интер­фейсы одного или нескольких дисководов CD-ROM. Через этот модуль можно проигрывать компакт-диски, разговаривать через модем и воспроизводить свою собственную компьютерную музыку.

В состав многих звуковых плат кроме названных трех модулей включаются:

□ устройство смешения сигналов от различных источников — микшер; управ­ление амплитудой смешиваемых сигналов выполняется обычно программ­ным способом;

□ модемный и игровой порты, последний обеспечивает качественное звуковое сопровождение компьютерных игр;

□ усилители мощности сигнала с регулятором громкости (такие платы имеют два выхода: линейный — до усилителя и конечный — после усилителя).

Сейчас выпускается огромное количество самых разных звуковых карт и расши­рителей MIDI-файлов. Современные качественные звуковые платы соответствуют стандарту Basic General MIDI, предусматривающему поддержку 128 инструмен­тов и многотонального исполнения — как минимум 16 каналов одновременно. Рекомендовать какую-либо плату однозначно не представляется возможным, можно высказать лишь общие соображения:

□ среди недорогих одноплатных звуковых карт заслуживает внимания Sound Galaxy Waverider фирмы Aztech;

□ для более требовательных музыкантов рекомендуется расширитель DB50XG с любой 16-битовой платой, например Sound Blaster Value;

□ для особых ценителей качества звучания — Turtle Beath NBS-2000.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: