Лекция № 5. Программное обеспечение информационных технологий обработки текста на естественном языке.
КОНТРОЛЬНЫЕ ВОПРОСЫ.
1. Назовите информационные технологии обработки текста на естественном языке.
2. Что представляют собой статистические методы в лингвистике?
3. Для решения, каких задач используется статистический анализ текста?
4. Что называется автоматическим реферированием (аннотированием)?
5. Какие два компонента информации выделяют в рефератах и аннотациях?
6. Дайте определение автоматическому (машинному) переводу.
7. От чего зависит качество машинного перевода?
8. Чем отличается современный машинный перевод от использования компьютеров в помощь человеку?
9. Какие в информационной технологии существуют подходы к машинному переводу?
В качестве программного обеспечения ИТ обработки текста выступают такие программные средства, как:
· программа МЛ Аннотатор, выполняющая автоматическое реферирование и аннотирование документов на русском и английском языках в среде Microsoft Word;
|
|
· программа компьютерного перевода Promt, электронный переводной словарь ABBYY Lingvo;
· многофункциональный набор лингвистических программ ОРФО;
· программа оптического распознавания текста ABBYY Fine Reader и пакет Scan Soft OmniPage Pro;
· программа распознавания рукописного текста Каллиграша;
· специализированная система речевого интерфейса Realize Voice Studio;
· программа Magic Gooddy компании ПРОМТ – программное обеспечение технологии компьютерного синтеза речи и автоматического перевода;
· программа Vaal-mini, позволяющая производить фоносемантический анализ (эмоциональную оценку) отдельных слов и целых текстов;
· программы Фоносемантический анализ фамилии (www.analizfamilii.ru), Анализ Писем (www.analizpisem.ru), основанные на технологии фоносемантического анализа с последовательной психолингвистической интерпретацией результатов этого анализа;
· программа-конструктор (компилятор) деловых писем Письмовник;
· программа-компилятор факсимильных сообщений WinFax PRO;
· и др.
МедиаЛингва Аннотатор SDK 1.0 выполняет автоматическое реферирование документов на русском и английском языке в среде Microsoft Word. В основе программы лежит технология, разработанная компанией «МедиаЛингва».
Основные функциональные возможности МЛ Аннотатор SDK 1.0:
q автоматическое составление аннотаций,
q автоматическое выделение ключевых и наиболее информативных слов.
Принцип работы:
Для каждого предложения входного текста на основе вероятностных моделей и словарей, вычисляются коэффициенты значимости и семантической независимости. Из наиболее значимых и независимых предложений составляется реферат заданного размера.
Для придания реферату большей связности исходные предложения могут быть переформулированы. В результате получается связанная легко читаемая аннотация, представляющая в тезисном виде содержание исходного текста.
МЛ Аннотатор SDK 1.0 имеет также дополнительный режим работы – выделение в тексте документа ключевых и наиболее информативных слов.