Психоакустическая модель восприятия звука

По сравнению с речевыми сигналами аудиосигналы характеризуются более широким частотным диапазоном (Гц), большим динамическим диапазоном, большей изменчивостью спектральных свойств, многоканальностью (стерео звук). Частота дискретизации аудиосигналов обычно равна кГц. Данная частота используется при обработке звука в цифровых магнитофонах, при записи звука на компакт диски. Каждый отсчет звукового сигнала представляется -ти разрядным двоичным кодом. В случае стерео звука это создает цифровой поток со скоростью передачи Мбит/с. На практике из-за наличия дополнительной служебной информации скорость передачи оказывается существенно выше. Так, при считывании отсчетов звукового сигнала с компакт диска формируется цифровой поток со скоростью Мбит/с. Ограниченная пропускная способность каналов связи, ограниченная емкость запоминающих устройств требуют сжатия аудиосигналов.

Сжатие аудиосигналов основано на учете особенностей слуха человека. Ухо человека воспринимает звуковой сигнал в изолированном от внешних шумов помещении, если звуковое давление превышает некоторый порог, называемый абсолютным порогом слышимости (АПС). Зависимость АПС от частоты аппроксимируется нелинейной функцией:

дБ. (9)

Как отмечалось выше, внутренне ухо человека выполняет кратковременный спектральный анализ на основе механизма критических частотных полос. Если в критической частотной полосе находится несколько спектральных составляющих, то наблюдается явление частотного маскирования. Суть его состоит в том, что спектральная составляющая (тон) с низким уровнем может не прослушиваться, если в этой же критической полосе имеется спектральная составляющая звука с более высоким уровнем. Спектральная составляющая с высоким уровнем повышает порог слышимости и маскирует присутствие, составляющих с низким уровнем. Повышенный порог слышимости называется порогом маскирования. Все спектральные составляющие, уровень которых ниже порога маскирования, не прослушиваются.

Зависимость порога мшиваются.

Зависимость порога мтся уровнем и частотой маскирующей составляющей, а также уровнями и частотами маскируемых спектральных составляющих. Порог маскирования имеет максимальное значение на частоте маскирующей спектральной составляющей и снижается при уменьшении или увеличении частоты. При уменьшении частоты относительно частоты маскирующей составляющей порог маскирования снижается быстрее, чем при её увеличении, т.е. составляющие, частоты которых лежат выше частоты маскирующей частотной составляющей, маскируются в большей степени.

На практике наблюдается присутствие маскирующих спектральных составляющих во многих полосах. Такие составляющие оказывают взаимное влияние на пороги маскирования в соседних полосах. В результате этого образуется суммарный порог маскирования. Частотные составляющие, уровень которых ниже суммарного порога маскирования, не воспринимаются на слух и, соответственно, могут быть исключены из спектра сигнала при его записи и хранении в запоминающих устройствах или при передаче по каналам связи. Это позволяет снизить требования к емкости запоминающих устройств или пропускной способности каналов связи.

Помимо частотного маскирования, описанного выше, важную роль в восприятии звука играет временное маскирование. Временное маскирование наблюдается в том случае, когда два звука появляются через короткий интервал времени. Тогда звук, характеризующийся большим уровнем звукового давления, может частично или полностью маскировать присутствие звука с меньшим звуковым давлением, даже в том случае, если маскируемый звук предшествует маскирующему. Это связано с переходными процессами во внутреннем ухе, которые формируются маскирующим звуком.

Продолжительность эффекта временного маскирования до восприятия маскирующего звука равна примерно мс. Продолжительность маскирующего эффекта после окончания восприятия маскирующего звука равна мс. Временное маскирование используется для подавления предварительного эхо, которое наблюдается при восстановлении сжатых звуковых сигналов. Предварительное эхо прослушивается до появления восстановленного звукового сигнала и обусловлено шумами квантования, распространяющими свое действие на весь блок данных, подвергшийся сжатию, в том числе и на ту его часть, которая предшествовала звуку.