double arrow

Источники, рекомендуемые для углубленного изучения

Только алгоритмы сжатия с потерями, разработанные исключительно для сжатия изображений, обеспечивают весьма значительные коэффициенты сжатия (до 200 и более) при достаточно высоком качестве восстановленных изображений.

Алгоритмы сжатия растровых статических изображений

Алгоритмы сжатия с потерями

Алгоритмы сжатия с потерями можно разделить на алгоритмы сжатия статических растровых изображений, алгоритмы сжатия видеопоследовательностей, алгоритмы сжатия звука.

Изображение – своеобразный тип данных, характеризуемый тремя особенностями.

1. Изображение обычно требует для хранения гораздо большего объема памяти, чем текст. Так, скромная не очень качественная иллюстрация в книге размером 500х800 точек занимает 1,2 Мбайта – столько же, сколько художественная книга из 400 страниц. Английскую пословицу «одна картина стоит тысячи слов» можно отнести к изображениям с низким разрешением, поскольку при высоком разрешении для хранения изображения требуются миллионы машинных слов.

2. Второй особенностью изображений является то, что человеческое зрение при анализе оперирует контурами, общим переходом цветов и сравнительно нечувствительно к малым изменениям в изображении. Поэтому можно создать алгоритмы сжатия изображений, которые дадут распакованное изображение, не совпадающее с оригиналом, однако человек этого не заметит. Данная особенность человеческого зрения позволяет создавать специальные алгоритмы сжатия, ориентированные только на изображения. Эти алгоритмы позволяют сжимать изображения с высокой степенью сжатия и незначительными с точки зрения человека потерями.

3. Изображение в отличие, например, от текста обладает избыточностью в двух измерениях. Как правило, соседние точки, как по горизонтали, так и по вертикали, в изображении близки по цвету. Поэтому при создании алгоритмов сжатия изображений используют особенности структуры изображения.

Для сжатия изображений можно использовать и алгоритмы сжатия без потерь:

универсальные (RLE, LZW, алгоритм Хаффмена с фиксированной таблицей CCITT Group3);

специально разработанные алгоритмы сжатия изображений без потерь (JBIG – разработан группой экспертов Joint Bi-Level Experts Group специально для сжатия 1-битовых черно-белых изображений, получаемых при сканировании документов, передаче факсов; Lossless JPEG – разработан группой экспертов в области фотографии Joint Photographic Experts Group для сжатия без потерь полноцветных 24-битовых изображений или 8-битовыхизображений в градациях серого).

Перечисленные алгоритмы достаточноуниверсальны, но для реальных фотоизображений обеспечивают, как правило, весьма небольшой коэффициент сжатия (примерно 2).

В настоящее время известны следующие группы алгоритмов сжатия с потерями статических изображений: алгоритмы, использующие двумерные дискретные ортогональные преобразования с разбиением изображения на отдельные матрицы (например, JPEG), алгоритмы рекурсивного (wavelett) сжатия (например, JPEG2000), алгоритмы фрактального сжатия.

1. Бондаренко В.А., Дольников В.Л. Фрактальное сжатие изображений по Барнсли – Слоану.//Автоматика и телемеханика. – 1994, №5, с.12 -20.

2. Мастрюков Д. Алгоритмы сжатия информации. Сжатие по Хаффману.//Монитор, 1993, №7-8, с.14-24.

3. Мастрюков Д. Алгоритмы сжатия информации. Арифметическое кодирование.//Монитор, 1994, №1, с.20-26.

4. Мастрюков Д. Алгоритмы сжатия информации. Алгоритмы группы LZ. //Монитор, 1994, №2, с.10-18.

5. Мастрюков Д. Алгоритмы сжатия информации. Алгоритмы группы LZW.//Монитор, 1994, №3, с.8-14.

6. Мастрюков Д. Алгоритмы сжатия информации. Сжатие звуковой информации.//Монитор, 1994, №5, с.22-26.

7. Мастрюков Д. Алгоритмы сжатия информации. Сжатие графической информации.//Монитор, 1994, №6, с.12-20.

8. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео. - М.: Диалог – МИФИ, 2002.

9. Соломон Д. Сжатие данных, изображений и звука. – М.: Техносфера, 2006.

10. Уэлстид С. Фракталы и вейвлеты для сжатия изображений в действии. Учебное пособ. – М.: Триумф, 2003.

11. Блаттер К. Вейвлет – анализ. Основы теории. - М.: Техносфера, 2005.

12. Миано Дж. Форматы и алгоритмы сжатия изображений в действии. Учебное пособ. - М.: Триумф, 2003.

13. Ричардсон Ян Видеокодирование. H264 и МPEG-4 – стандарты нового поколения.. - М.: Техносфера, 2005.

14. Шеннон К. Работы по теории информации и кибернетике. – М.: ИЛ, 1963.

15. Дмитриев В.И. Прикладная теория информации. Учеб. пособие для студ. вузов по спец. “Автоматизированные системы обработки информации и управления.” -М.: Высш. шк., 1989.

16. Темников Ф.Е. и др. Теоретические основы информационной техники. Учебное пособие для вузов / Ф.Е. Темников, В.А. Афонин В.И. Дмитриев 2-е изд., перераб. и доп. М.: Энергия, 1979.

17. Ziv J. and Lempel A. “A Universal Algorithm for Sequente Data Compression”. // IEEE Transactions on Information Theory, Volume 23, Number 3, May, 1977, pp. 337-343.

Каналы получения информации человеком и технические средства представления информации

В информационных процессах важную роль играет представление информации человеку. Это объясняется тем, что в большинстве информационных систем на человека возлагаются функции, состоящие не только в контроле за работой системы, но и в оценке обстановки о ходе процесса, принятия и корректировки решения.

Выполнение человеком указанных функций возможно на основе обмена информацией о протекающем процессе между человеком и средствами обработки информации (компьютером, в частности). Поскольку алфавиты, которыми оперирует человек и компьютер, различны, возникает задача согласования этих алфавитов, что достигается преобразованием одного из них в другой.

Представление информации – это отображение ее в форме, приемлемой для непосредственного восприятия человеком.

Человек воспринимает информацию органами чувств: зрения, слуха, обоняния, вкуса, осязания, гравитации.

Известно, что посредством зрения человек получает около 80% информации о внешнем мире. Некоторые авторы приводят цифру 90%. С этим фактом связано то, что основным устройством, обеспечивающим совместную работу человека–оператора с компьютером, является аппаратура визуального отображения данных, прошедших компьютерную обработку.

Все средства визуального отображения информации можно разделить на две группы: регистрирующего и оперативного отображения.

В устройствах регистрирующего отображения информационный отпечаток получается нанесением красящего вещества на носитель (бумагу, картон, пленку и т.д.). К таким устройствам относятся принтеры: ударного действия, струйные, электрофотографические (лазерные и LED-принтеры), твердокрасочные (Solid Ink), сублимационные (термодиффузионные)(dye-sub), термовосковые. К этому же классу устройств относятся плоттеры.

В устройствах оперативного отображения (в ряде современных публикаций используется термин «средства визуализации») информационный отпечаток создается на электронно-оптическом преобразователе, преобразующем электрические сигналы в видимое изображение. Выводимую информацию в таких устройствах можно менять многократно, можно выводить движущиеся объекты.

К средствам компьютерной визуализации относятся мониторы, проекторы, устройства для отображения трехмерных (3D=3-Dimensional) изображений, интерактивные доски.

Все мониторы принято делить на две группы: мониторы на основе электронно-лучевой трубки (ЭЛТ=CRT-Cathode Ray Tube), называемой также кинескопом, и плоскопанельные мониторы.

Несмотря на ряд положительных потребительских свойств (качественная цветопередача, до сих пор являющаяся эталоном для всех остальных типов мониторов, большой угол обзора, малое время реакции пикселя, достаточно большой срок службы, дешевизна) мониторы на основе ЭЛТ перестают применяться из-за неустранимых недостатков (большие весо-габаритные показатели, большая потребляемая мощность, теоретические ограничения на размер экрана, наличие вредного для здоровья электромагнитного излучения).

К плоскопанельным мониторам (в ряде публикаций их называют также матричными панелями, цифровыми панелями, цифровыми мониторами) относятся жидкокристаллические (LCD-Liquid Crystal Display), в том числе и холестерические жидкокристаллические (ChLCD- Cholesteric LCD) ЖК-мониторы, плазменные панели (PDP-Plazma Display Panel), органические светодиодные мониторы (OLED-Organic Light Emitting Diode), мониторы на основе полупроводникового пластика (полимерные мониторы) (PLED-Polymer Light Emitting Diode), SED-мониторы на основе автоэлектронной эмиссии (Surface-conduction Elektron-emitter Display), CNT-FED-мониторы (Carbone Nano Tubes – Field Emission Display).

В настоящее время в настольных и носимых персональных компьютерах используют ЖК-мониторы, которые имеют следующие привлекательные потребительские свойства: малые габаритно-весовые показатели; относительно малая потребляемая мощность; отсутствие вредного для здоровья электромагнитного излучения; практически сравнявшаяся с ЭЛТ-мониторами цена; достаточно высокое быстродействие (достигнуто время реакции пикселя 2 ms).

В портативных коммуникаторах (мобильных телефонах, карманных портативных коммуникаторах), используются OLED- и PLED-мониторы, которые являются активными электросветовыми преобразователями в отличие от ЖК-мониторов, которые по сути являются светоклапанными системами, где более 70% света от лампы подсветки поглощается ЖК-матрицей. Вследствие этого коэффициент полезного действия электросветового преобразования в OLED- и PLED-мониторах выше.

Все шире начинают использовать в портативных устройствах для чтения электронных книг холестерические LCD (Сholesteric LCD =ChLCD) и гибкие дисплеи на базе «электронных чернил» компании E Ink (см.рис.1 и рис.2).

Рис.1 Прототип портативного устройства для чтения электронных книг, оснащенный монохромным дисплеем ChLCD

Рис.2 Readius — работающий прототип мобильного устройства, оснащенного разворачивающимся дисплеем, созданным по технологии электронных чернил компании E Ink

Разрабатываются новые типы мониторов.

Например, в 2007 году планируется выпуск коммерческих образцов SED-мониторов (см. рис.3)

Рис.3 SED-телевизор с диагональю 55 дюймов, продемонстрировнный на выставке CEATEC’2006

Большие надежды возлагаются на разрабатываемые CNT-FED-мониторы, у которых ожидают следующие положительные потребительские свойства: малая толщина (меньше чем у LCD и PDP -мониторов); идеально плоская поверхность экрана; цветопередача почти такая же как у монитора на ЭЛТ, а энергопотребление в 1,5 раза меньше, чем у сравнимых по размеру экрана ЖК-мониторов; угол обзора - 180º; время отклика пиксела – менее 2 ms. CNT-FED-мониторы используют в качестве источников электронов пучки углеродных нанотрубок CNT (Carbon Nano Tubes). Нанотрубка – это молекула из более миллиона атомов углерода, представляющая собой трубку с диаметром около нанометра и длиной несколько десятков микрон. В стенках трубки атомы углерода расположены вершинах правильных шестиугольников. Структура нанотрубки приведена на рис.4.

Рис. 4 Углеродная нанотрубка под различными углами зрения (с торца, сбоку, под углом)

Напомним, что нанотрубки открыл в 1991году японский профессор Сумио Иодзима и они наряду с другими полиморфными модификациями: графитом, алмазом, фуллеренами (бакиболами) являются аллотропным состоянием углерода. Кстати, в настоящее время создан фуллереноидный оксид Al 84 (лаборатория CRISMAT, Франция; химический факультет МГУ им.М.В.Ломоносова, Московский институт радиоэлектроники и автоматики).

В 2006 году появилось сообщение о разработке гелиодисплея (см. рис.5).

Рис.5 Изображение, проецируемое гелиодисплеем

Помимо мониторов в компьютерных системах используются устройства визуализации, ориентированные на решение мультимедийных и презентационных задач. К таким устройствам в настоящее время относятся прежде всего мультимедийные проекторы.

Используются полисиликоновые 3 LCD-проекторы, использующие 3 LCD-матрицы, DLP (Digital Light Processing)-проекторы, LCOS (Liquid Crystal on Silicon)-проекторы, LED-проекторы. До прошлого года наиболее продаваемыми в России были полисиликоновые 3 LCD-проекторы, в 2006 году более продаваемыми стали DLP-проекторы.

Все шире в практику входят устройства отображения объемных изображений, которые разделяются на двухэкранные (BMD-Boom Mounted Display, шлемы виртуальной реальности и др.) и одноэкранные (3D-системы с пассивными поляризационными очками, 3D-системы со специальными электронно-управляемыми очками затворного типа (Shutterglasses) и др.).

В системах обучения все шире начинают использоваться интерактивные доски (Smartboard), которые разделяются на интерактивные доски прямой проекции и интерактивные доски обратной проекции (см. рис. 6, 7). Первые дешевле, но менее удобны в использовании, вторые дорогие, но имеют хорошие пользовательские качества.

Вторым по значимости является слуховой канал восприятия информации. В настоящее время в компьютерных системах в дополнение к средствам визуального отображения используется аудиосистема, позволяющая выдавать оператору как звуковые так и речевые сообщения.

К достоинствам речевого канала относят:

более естественен для человека при диалоге;

требует для связи менее широкополосный канал;

не требует дополнительного обучения при использовании (как например, клавиатура);

возможность работы на компьютере для слепых и слабовидящих людей;

для большого количества применений возможностей речевого канала более чем достаточно.

К недостаткам речевого канала можно отнести:

сложность длительной непрерывной работы (человек устает говорить, начинает допускать большое количество ошибок);

рядом работающие люди мешают друг другу.

В настоящее время интенсивно развиваются и внедряются системы синтеза речевых сообщений по печатному тексту (TTS - text-to-speech = преобразование текста в речь), системы распознавания речевых сообщений (OSR - Open Speech Recognizer = система распознавания речи).

Распознавание речи и преобразование текста в речь является одной из ключевых составляющих концепции универсальной обработки сообщений (UM=Unifes Messaging), которую сейчас рассматривают в качестве стратегического вектора развития практически все ведущие поставщики оборудования и программного обеспечения контакт-центров. Работу над программным инструментарием речи ведут несколько компаний, но до технологического уровня, достаточного для коммерческой эксплуатации (требуется не более 2% ложных срабатываний), пока доведено не так много решений. Среди преуспевших в деле распознавания и синтеза человеческой речи можно отметить компании Nuance (использует наработки купленной Scan Soft) и IBM (Websphere Voice Server), чьи технологии уже начали покупать вендоры контакт-центров.

Функциональность решений систем распознавания и синтеза речи постоянно растет и современные приложения на базе распознавания речи позволяют в автоматическом режиме отвечать не только на сравнительно простые клиентские запросы, например, о проверке состояния заказов или местонахождении компании, но и на более сложные, такие как смена адреса клиента или изменение пользовательского пароля.

Первые образцы систем OSR уже доступны отечественным заказчикам. В конце 2006 года Avaya объявила о локализации своей OSR и начале ее продвижения в России.

В системе глобального мониторинга «Эшелон» (Агентство Национальной безопасности США) применяются средства автоматического распознавания и преобразования речи в текст. По текстовым данным с помощью технологии семантических деревьев (патент США №5937422), автоматически формируется осмысленное описание содержимого больших объемов произвольных текстовых данных.

Корпорация Ford разрабатывает автомобильную систему Sync на базе программной платформы Microsoft Auto, которая через интерфейс Bluetooth свяжет автомобиль с различными устройствами, в том числе мобильными телефонами, портативными музыкальными плейерами, хранилищами медиаинформации. Управлять этой системой можно будет и с помощью речевых команд. Sync обеспечит также голосовое воспроизведение текстовых сообщений. Во второй половине 2007 года Sync будет доступна в 12 моделях автомобилей марок Ford, Lincoln и Mercury. Корпорация Ford планирует оснастить в 2009 году все автомобили Ford.

Специалисты объединенного института проблем информатики Национальной академии наук Беларуси совместно с коллегами из Санкт- Петербургского института информатики и информатизации РАН разработали программу для персонального компьютера «СКИФ», позволяющую синтезировать разборчивую естественную человеческую речь. Такой компьютер может читать «вслух» книги и другие тексты, что очень важно для людей с ослабленным зрением.

Информация представляется человеку также с помощью запаха и вкуса. Уже разработаны устройства для передачи по сети Internet и представления пользователю запахов - iSmell, для передачи и представления вкуса - устройства First SENX, Mini SENX, Ultra SENX.

Каналы получения информации человеком и технические средства представления информации

В информационных процессах важную роль играет представление информации человеку. Это объясняется тем, что в большинстве информационных систем на человека возлагаются функции, состоящие не только в контроле за работой системы, но и в оценке обстановки о ходе процесса, принятия и корректировки решения.

Выполнение человеком указанных функций возможно на основе обмена информацией о протекающем процессе между человеком и средствами обработки информации (компьютером, в частности). Поскольку алфавиты, которыми оперирует человек и компьютер, различны, возникает задача согласования этих алфавитов, что достигается преобразованием одного из них в другой.

Представление информации – это отображение ее в форме, приемлемой для непосредственного восприятия человеком.

Человек воспринимает информацию органами чувств: зрения, слуха, обоняния, вкуса, осязания, гравитации.

Известно, что посредством зрения человек получает около 80% информации о внешнем мире. Некоторые авторы приводят цифру 90%. С этим фактом связано то, что основным устройством, обеспечивающим совместную работу человека–оператора с компьютером, является аппаратура визуального отображения данных, прошедших компьютерную обработку.

Все средства визуального отображения информации можно разделить на две группы: регистрирующего и оперативного отображения.

В устройствах регистрирующего отображения информационный отпечаток получается нанесением красящего вещества на носитель (бумагу, картон, пленку и т.д.). К таким устройствам относятся принтеры: ударного действия, струйные, электрофотографические (лазерные и LED-принтеры), твердокрасочные (Solid Ink), сублимационные (термодиффузионные)(dye-sub), термовосковые. К этому же классу устройств относятся плоттеры.

В устройствах оперативного отображения (в ряде современных публикаций используется термин «средства визуализации») информационный отпечаток создается на электронно-оптическом преобразователе, преобразующем электрические сигналы в видимое изображение. Выводимую информацию в таких устройствах можно менять многократно, можно выводить движущиеся объекты.

К средствам компьютерной визуализации относятся мониторы, проекторы, устройства для отображения трехмерных (3D=3-Dimensional) изображений, интерактивные доски.

Все мониторы принято делить на две группы: мониторы на основе электронно-лучевой трубки (ЭЛТ=CRT-Cathode Ray Tube), называемой также кинескопом, и плоскопанельные мониторы.

Несмотря на ряд положительных потребительских свойств (качественная цветопередача, до сих пор являющаяся эталоном для всех остальных типов мониторов, большой угол обзора, малое время реакции пикселя, достаточно большой срок службы, дешевизна) мониторы на основе ЭЛТ перестают применяться из-за неустранимых недостатков (большие весо-габаритные показатели, большая потребляемая мощность, теоретические ограничения на размер экрана, наличие вредного для здоровья электромагнитного излучения).

К плоскопанельным мониторам (в ряде публикаций их называют также матричными панелями, цифровыми панелями, цифровыми мониторами) относятся жидкокристаллические (LCD-Liquid Crystal Display), в том числе и холестерические жидкокристаллические (ChLCD- Cholesteric LCD) ЖК-мониторы, плазменные панели (PDP-Plazma Display Panel), органические светодиодные мониторы (OLED-Organic Light Emitting Diode), мониторы на основе полупроводникового пластика (полимерные мониторы) (PLED-Polymer Light Emitting Diode), SED-мониторы на основе автоэлектронной эмиссии (Surface-conduction Elektron-emitter Display), CNT-FED-мониторы (Carbone Nano Tubes – Field Emission Display).

В настоящее время в настольных и носимых персональных компьютерах используют ЖК-мониторы, которые имеют следующие привлекательные потребительские свойства: малые габаритно-весовые показатели; относительно малая потребляемая мощность; отсутствие вредного для здоровья электромагнитного излучения; практически сравнявшаяся с ЭЛТ-мониторами цена; достаточно высокое быстродействие (достигнуто время реакции пикселя 2 ms).

В портативных коммуникаторах (мобильных телефонах, карманных портативных коммуникаторах), используются OLED- и PLED-мониторы, которые являются активными электросветовыми преобразователями в отличие от ЖК-мониторов, которые по сути являются светоклапанными системами, где более 70% света от лампы подсветки поглощается ЖК-матрицей. Вследствие этого коэффициент полезного действия электросветового преобразования в OLED- и PLED-мониторах выше.

Все шире начинают использовать в портативных устройствах для чтения электронных книг холестерические LCD (Сholesteric LCD =ChLCD) и гибкие дисплеи на базе «электронных чернил» компании E Ink (см.рис.1 и рис.2).

Рис.1 Прототип портативного устройства для чтения электронных книг, оснащенный монохромным дисплеем ChLCD

Рис.2 Readius — работающий прототип мобильного устройства, оснащенного разворачивающимся дисплеем, созданным по технологии электронных чернил компании E Ink

Разрабатываются новые типы мониторов.

Например, в 2007 году планируется выпуск коммерческих образцов SED-мониторов (см. рис.3)

Рис.3 SED-телевизор с диагональю 55 дюймов, продемонстрировнный на выставке CEATEC’2006

Большие надежды возлагаются на разрабатываемые CNT-FED-мониторы, у которых ожидают следующие положительные потребительские свойства: малая толщина (меньше чем у LCD и PDP -мониторов); идеально плоская поверхность экрана; цветопередача почти такая же как у монитора на ЭЛТ, а энергопотребление в 1,5 раза меньше, чем у сравнимых по размеру экрана ЖК-мониторов; угол обзора - 180º; время отклика пиксела – менее 2 ms. CNT-FED-мониторы используют в качестве источников электронов пучки углеродных нанотрубок CNT (Carbon Nano Tubes). Нанотрубка – это молекула из более миллиона атомов углерода, представляющая собой трубку с диаметром около нанометра и длиной несколько десятков микрон. В стенках трубки атомы углерода расположены вершинах правильных шестиугольников. Структура нанотрубки приведена на рис.4.

Рис. 4 Углеродная нанотрубка под различными углами зрения (с торца, сбоку, под углом)

Напомним, что нанотрубки открыл в 1991году японский профессор Сумио Иодзима и они наряду с другими полиморфными модификациями: графитом, алмазом, фуллеренами (бакиболами) являются аллотропным состоянием углерода. Кстати, в настоящее время создан фуллереноидный оксид Al 84 (лаборатория CRISMAT, Франция; химический факультет МГУ им.М.В.Ломоносова, Московский институт радиоэлектроники и автоматики).

В 2006 году появилось сообщение о разработке гелиодисплея (см. рис.5).

Рис.5 Изображение, проецируемое гелиодисплеем

Помимо мониторов в компьютерных системах используются устройства визуализации, ориентированные на решение мультимедийных и презентационных задач. К таким устройствам в настоящее время относятся прежде всего мультимедийные проекторы.

Используются полисиликоновые 3 LCD-проекторы, использующие 3 LCD-матрицы, DLP (Digital Light Processing)-проекторы, LCOS (Liquid Crystal on Silicon)-проекторы, LED-проекторы. До прошлого года наиболее продаваемыми в России были полисиликоновые 3 LCD-проекторы, в 2006 году более продаваемыми стали DLP-проекторы.

Все шире в практику входят устройства отображения объемных изображений, которые разделяются на двухэкранные (BMD-Boom Mounted Display, шлемы виртуальной реальности и др.) и одноэкранные (3D-системы с пассивными поляризационными очками, 3D-системы со специальными электронно-управляемыми очками затворного типа (Shutterglasses) и др.).

В системах обучения все шире начинают использоваться интерактивные доски (Smartboard), которые разделяются на интерактивные доски прямой проекции и интерактивные доски обратной проекции (см. рис. 6, 7). Первые дешевле, но менее удобны в использовании, вторые дорогие, но имеют хорошие пользовательские качества.

Вторым по значимости является слуховой канал восприятия информации. В настоящее время в компьютерных системах в дополнение к средствам визуального отображения используется аудиосистема, позволяющая выдавать оператору как звуковые так и речевые сообщения.

К достоинствам речевого канала относят:

более естественен для человека при диалоге;

требует для связи менее широкополосный канал;

не требует дополнительного обучения при использовании (как например, клавиатура);

возможность работы на компьютере для слепых и слабовидящих людей;

для большого количества применений возможностей речевого канала более чем достаточно.

К недостаткам речевого канала можно отнести:

сложность длительной непрерывной работы (человек устает говорить, начинает допускать большое количество ошибок);

рядом работающие люди мешают друг другу.

В настоящее время интенсивно развиваются и внедряются системы синтеза речевых сообщений по печатному тексту (TTS - text-to-speech = преобразование текста в речь), системы распознавания речевых сообщений (OSR - Open Speech Recognizer = система распознавания речи).

Распознавание речи и преобразование текста в речь является одной из ключевых составляющих концепции универсальной обработки сообщений (UM=Unifes Messaging), которую сейчас рассматривают в качестве стратегического вектора развития практически все ведущие поставщики оборудования и программного обеспечения контакт-центров. Работу над программным инструментарием речи ведут несколько компаний, но до технологического уровня, достаточного для коммерческой эксплуатации (требуется не более 2% ложных срабатываний), пока доведено не так много решений. Среди преуспевших в деле распознавания и синтеза человеческой речи можно отметить компании Nuance (использует наработки купленной Scan Soft) и IBM (Websphere Voice Server), чьи технологии уже начали покупать вендоры контакт-центров.

Функциональность решений систем распознавания и синтеза речи постоянно растет и современные приложения на базе распознавания речи позволяют в автоматическом режиме отвечать не только на сравнительно простые клиентские запросы, например, о проверке состояния заказов или местонахождении компании, но и на более сложные, такие как смена адреса клиента или изменение пользовательского пароля.

Первые образцы систем OSR уже доступны отечественным заказчикам. В конце 2006 года Avaya объявила о локализаци своей OSR и начале ее продвижения в России.

В системе глобального мониторинга «Эшелон» (Агентство Национальной безопасности США) применяются средства автоматического распознавания и преобразования речи в текст. По текстовым данным с помощью технологии семантических деревьев (патент США №5937422), автоматически формируется осмысленное описание содержимого больших объемов произвольных текстовых данных.

Корпорация Ford разрабатывает автомобильную систему Sync на базе программной платформы Microsoft Auto, которая через интерфейс Bluetooth свяжет автомобиль с различными устройствами, в том числе мобильными телефонами, портативными музыкальными плейерами, хранилищами медиаинформации. Управлять этой системой можно будет и с помощью речевых команд. Sync обеспечит также голосовое воспроизведение текстовых сообщений. Во второй половине 2007 года Sync будет доступна в 12 моделях автомобилей марок Ford, Lincoln и Mercury. Корпорация Ford планирует оснастить в 2009 году все автомобили Ford.

Специалисты объединенного института проблем информатики Национальной академии наук Беларуси совместно с коллегами из Санкт- Петербургского института информатики и информатизации РАН разработали программу для персонального компьютера «СКИФ», позволяющую синтезировать разборчивую естественную человеческую речь. Такой компьютер может читать «вслух» книги и другие тексты, что очень важно для людей с ослабленным зрением.

Информация представляется человеку также с помощью запаха и вкуса. Уже разработаны устройства для передачи по сети Internet и представления пользователю запахов - iSmell, для передачи и представления вкуса - устройства First SENX, Mini SENX, Ultra SENX.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



Сейчас читают про: