Алгоритм сжатия аудиоданных

Аудиофайлы без сжатия занимают большой объём памяти (1мин занимает примерно10 Мб). Поэтому применяют сжатие. Все звуковые форматы можно разбить на три группы:

· аудиоформаты без сжатия (WAV, AIFF) Звук в файлах хранится без какого-либо сжатия и изменений. Применяется лишь в профессиональных аудио и видео приложениях. Хранение обычных музыкальных композиций в таком виде является неоправданной расточительностью

· С о сжатием без потерь (APE, FLAC) работают по принципу обычных архиваторов, уровень сжатия (от 40 до 60%), не влияют на качество звука. Используются МДКП и алгоритм Хафмана

· С применением сжатия с потерями (mp3, ogg) самая популярная группа алгоритмов обеспечивают степень сжатия звука до 10 раз и даже более. Для определения качества оцифрованного звука наиболее часто применяется такой показатель, как битрейт – скорость звукового потока, получившаяся после сжатия и измеряемая в килобитах в секунду (kbps). Несжатый аудиофайл имеет битрейт примерно 1400 кбит/c. Файл практически не отличимый по звучанию 320 кбит/c.

Сжатие аудиоданных с потерями основывается на несовершенстве человеческого слуха при восприятии звуковой информации. Неспособность человека в определенных случаях различать тихие звуки в присутствии более громких, называемая эффектом маскировки, была использована в алгоритмах сокращения психоакустической избыточности. Эффекты слухового маскирования зависят от спектральных и временных характеристик маскируемого и маскирующего сигналов и могут быть разделены на две основные группы:

· частотное (одноврЕменное) маскирование

· временнОе (неодноврЕменное) маскирование

Эффект маскирования в частотной области связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо нечувствительно к малым амплитудам близких частот.

Маскирование во временной области характеризует динамические свойства слуха, показывая изменение во времени относительного порога слышимости (порог слышимости одного сигнала в присутствии другого), когда маскирующий и маскируемый сигналы звучат не одновременно.

Лучшим методом кодирования звука, учитывающим эффект маскирования, оказывается полосное кодирование. Сущность его заключается в следующем. Группа отсчетов входного звукового сигнала, называемая кадром, поступает на блок фильтров который разделяет сигнал на частотные поддиапазоны. На выходе каждого фильтра оказывается та часть входного сигнала, которая попадает в полосу пропускания данного фильтра. Далее, в каждой полосе с помощью психоакустической модели, анализируется спектральный состав сигнала и оценивается, какую часть сигнала следует передавать без сокращений, а какая лежит ниже порога маскирования и может быть переквантована на меньшее число бит. Для сокращения максимального динамического диапазона определяется максимальный отсчет в кадре и вычисляется масштабирующий множитель, который приводит этот отсчет к верхнему уровню квантования (нормировка спектра). На этот же множитель умножаются и все остальные отсчеты. Масштабирующий множитель передается к декодеру вместе с кодированными данными для коррекции коэффициента передачи последнего. После масштабирования производится оценка порога маскирования и осуществляется перераспределение общего числа битов между всеми полосами.

Очевидно, что после устранения психоакустической избыточности звуковых сигналов их точное восстановления при декодировании оказывается уже невозможным. Методами устранения психофизической избыточности можно обеспечить сжатие цифровых аудиоданных в 10 − 12 раз без существенных потерь в качестве.