double arrow

Назначение и возможности систем автоматического чтения текста

АЧТ - предназначены для автоматического ввода текста - сложная программа, которая позволяет преобразовать изображение в электронный вид, распознав при этом каждый символ.

Принципы работы АЧТ: 1) целостность (объект описывается как целое) 2) целенаправленность (распознавание строится как процесс выдвижения и целенапр.проверки гипотез) 3) адаптирование (способность комп.системы к самообучению). Этапы работы системы АЧТ: 1) сканирование 2) распознавание: анализ графич.пакета страницы, картина, выделение в тексте строк и отдельных символов 3) распознавание каждого символа на основе классификатора символов. Возможности систем АЧТ: 1) Позволяют распознать символы более 2000 языков 2) хорошо распознаёт, узнаёт все шрифты документа 3) способны самообучаться и распознавать плохо отпечатанные символы 4) распознаёт любые форматы изображений, б) хорошо распознаёт тексты с графикой, подписями, логотипами, тексты иа цветном фоне, точность распозн.текста хор. кач-ва достигает 97-99%.

Аннотация и реферат текста; основные понятия. Позиционный и логико-семантический методы автоматического реферирования текста

Реферат - связный текст, который кратко выражает не только центр.тему, но и цель, применяемые методы, основные результаты описываемого исследования. Рефераты - вторичные документы, которые составляют к научно-техническим документам, книгам, статьям Они помогают человеку ориентироваться в информационных потоках. Аннотация - краткое изложение содержания документа, дающее общее представление о его теме. Аннотирование (реферирование) - составление текста с помощью ПК. Система автоматического аннотирования и реферирования текста - система, имитирующая действия человека, создающего реферат Этапы построения реферата человеком: 1) Подготовительный (определение тематики) 2) Аналитический (раздел текста ив фрагменты, из которых выделяются основные смысловые единицы) 3) Построения реферата (выделенные смысловые единицы располагаются в текст в соответствии с планом реферата). Основные смысловые единицы - ключевые слова - термины, относящиеся к содержанию текста и повторяющиеся несколько раз с учётом всех синонимов. Ключевое сочетание слов - сочетание слов, среди которых есть одно или несколько ключевых слов. Ключевым словам предшествуют слова-реляторы книга посвящена следующим проблемам, в стать рассматривается... ПК должен уметь: 1) Находить ключевые слова, словосоч. предл. 2) находить менее значимые единицы 3) составлять из ключевых слов, словосоч. и предл. текст реферата. Основные методы автоматического реферирования текстов: 1 •статистические, 2 — позиционные, 3 - логико-семантические. Позиционные методы щ критерием для включения предложения в реферат, является ключевое предложение, явл.заголовком, подзаголовком, началом концом какой-либо части текста. Используются 2 метода: 1-метод заглавия-исследуется лексика заголовков 2-переое и предложения абзаца. Логико-семантические методы - опираются на исследование структуры и семантики текстов. Цель:выделить предложение с наибольшим функциональным методом. По данному методу был создан словарь ключевых слов, где каждому словаря приписан семантический код или признак











Сейчас читают про: