Лекция 8. Теоретические основы сжатия данных.
Прежде чем начать обсуждение проблем сжатия данных, освоим теоретический фундамент — теорию информации. Основы теории информации были заложены Клодом Шенноном (Claude Shannon) в процессе исследования пропускной способности информационного канала. Теория информации получила самые разнообразные применения. Для настоящего обсуждения важно то, что теория информации определяет предел, до которого для заданного потока данных можно сжимать информацию без потерь.
Основу теории информации составляют две математические концепции, названия которых могут ввести в заблуждение: информация и энтропия. Как правило, под информацией (information) подразумевается нечто, относящееся к смыслу, а энтропия (entropy) — термин из второго закона термодинамики. В теории информации информация имеет отношение к снижению неосведомленности о некоем событии, а энтропией называется усреднение информационных значений, подчиняющееся тем же математическим законам, что и термодинамическая энтропия. Рассмотрим это новое определение информации на примере. Представим инвестора, которому требуется информация (совет) о состоянии определенных ценных бумаг. Этот инвестор советуется с брокером, обладающим специальной информацией (знанием) в данной области. Брекер информирует (сообщает) инвестора, что сегодня утром нагрянул федеральный инспектор, искавший информацию (свидетельства) о возможном мошенничестве, в котором замешана корпорация, выпустившая именно эти акции. В ответ на эту информацию (данные) инвестор решает продать свои акции, о чем и информирует (уведомляет) брокера. Другими словами, будучи неуверенным в вопросе о том, как распорядиться своим портфелем ценных бумаг, клиент консультируется с кем-то более уверенным в данном вопросе. Брокер уменьшает неуверенность клиента в этой области, рассказав ему о визите федерального инспектора, который пришел, чтобы разрешить собственную профессиональную неуверенность. Кульминацией возрастающей уверенности клиента о состоянии своих ценных бумаг становится устранение неуверенности брокера о намерении клиента продать эти ценные бумаги. Хотя термин информация может означать уведомление, знание или просто данные, в каждом случае получение информации эквивалентно уменьшению неуверенности. Таким образом, информация означает положительную разность между двумя уровнями неуверенности.