Аудиофайлы без сжатия занимают большой объём памяти (1мин занимает примерно10 Мб). Поэтому применяют сжатие. Все звуковые форматы можно разбить на три группы:
· аудиоформаты без сжатия (WAV, AIFF) Звук в файлах хранится без какого-либо сжатия и изменений. Применяется лишь в профессиональных аудио и видео приложениях. Хранение обычных музыкальных композиций в таком виде является неоправданной расточительностью
· С о сжатием без потерь (APE, FLAC) работают по принципу обычных архиваторов, уровень сжатия (от 40 до 60%), не влияют на качество звука. Используются МДКП и алгоритм Хафмана
· С применением сжатия с потерями (mp3, ogg) самая популярная группа алгоритмов обеспечивают степень сжатия звука до 10 раз и даже более. Для определения качества оцифрованного звука наиболее часто применяется такой показатель, как битрейт – скорость звукового потока, получившаяся после сжатия и измеряемая в килобитах в секунду (kbps). Несжатый аудиофайл имеет битрейт примерно 1400 кбит/c. Файл практически не отличимый по звучанию 320 кбит/c.
|
|
Сжатие аудиоданных с потерями основывается на несовершенстве человеческого слуха при восприятии звуковой информации. Неспособность человека в определенных случаях различать тихие звуки в присутствии более громких, называемая эффектом маскировки, была использована в алгоритмах сокращения психоакустической избыточности. Эффекты слухового маскирования зависят от спектральных и временных характеристик маскируемого и маскирующего сигналов и могут быть разделены на две основные группы:
· частотное (одноврЕменное) маскирование
· временнОе (неодноврЕменное) маскирование
Эффект маскирования в частотной области связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо нечувствительно к малым амплитудам близких частот.
Маскирование во временной области характеризует динамические свойства слуха, показывая изменение во времени относительного порога слышимости (порог слышимости одного сигнала в присутствии другого), когда маскирующий и маскируемый сигналы звучат не одновременно.
Лучшим методом кодирования звука, учитывающим эффект маскирования, оказывается полосное кодирование. Сущность его заключается в следующем. Группа отсчетов входного звукового сигнала, называемая кадром, поступает на блок фильтров который разделяет сигнал на частотные поддиапазоны. На выходе каждого фильтра оказывается та часть входного сигнала, которая попадает в полосу пропускания данного фильтра. Далее, в каждой полосе с помощью психоакустической модели, анализируется спектральный состав сигнала и оценивается, какую часть сигнала следует передавать без сокращений, а какая лежит ниже порога маскирования и может быть переквантована на меньшее число бит. Для сокращения максимального динамического диапазона определяется максимальный отсчет в кадре и вычисляется масштабирующий множитель, который приводит этот отсчет к верхнему уровню квантования (нормировка спектра). На этот же множитель умножаются и все остальные отсчеты. Масштабирующий множитель передается к декодеру вместе с кодированными данными для коррекции коэффициента передачи последнего. После масштабирования производится оценка порога маскирования и осуществляется перераспределение общего числа битов между всеми полосами.
|
|
Очевидно, что после устранения психоакустической избыточности звуковых сигналов их точное восстановления при декодировании оказывается уже невозможным. Методами устранения психофизической избыточности можно обеспечить сжатие цифровых аудиоданных в 10 − 12 раз без существенных потерь в качестве.