Составление рефератов и аннотации текста компом на основе статистического метода

Методы автоматического аннотирования и реферирования текстов

Реферат и аннотация текста. Общее понятие

Автоматическое аннотирование и реферирование текстов

Развитие программ автоматического чтения текстов в ближайшем будущем пойдет в направлении повышения точности распознавания текстов низкого качества, распознавание рукописных текстов для портативных устройств, выделение текстовой инфы на фоне шумов (распознавание номерных знаков автомобилей)

Распознает файлы в формате pdf

Позволяет распознавать изображения, полученные с помощью цифрового фотоаппарата.

Способность самообучаться и распознавать плохопропечатанные символы незнакомых языков.

Позволяет распознавать печатные символы (200 языков), рукопечатные символы, рукописные тексты для портативных устройств.

Во время сканирования система автоматически подбирает яркость сканирования, фрагментирует каждую страницу, распознает символы текста, проверяет орфографию.

В Fine Reader все 4 типа работают. А экспертная система, встроенная внутрь ядра, сама выбирает оптимальный для данного текста алгоритм.

Сохранение

Проверка орфографии

Алгоритмы распознавания (классификаторы)

1. Шаблонные – растровое изображение накладывается на шаблон, содержащийся в базе данных. Наиболее подходящим является тот, у которого наименьшее количество точек отличается от исследуемого изображения.

2. Признаковые – позволяют анализировать не все изображение знака, а лишь некоторые признаки, которые вычисляются по формулам. Распознаванию подвергается не сам символ (оригинал), а некоторые его характеристики. Этот классификатор не отвечает принципу целостности, т.к. при вычислении признаков теряется часть инфы.

3. Структурные – содержат инфу не о точечном изображении символа, а о правилах начертания. Структурными элементами являются составляющие символ линии. Все символы работают с векторными изображениями. Недостаток – чувствительность к дефектам изображения.

4. Структурно-пятенный эталон – совмещение шаблонного и структурного позволяет представить изображение в виде набора пятен, связанных между собой парными отношениями, задающими структуру символов.

Возможности системы OCR:

Реферат – связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки.

Аннотация – это краткое изложение содержания документа, дающее общее представление о его теме.

Реферат и аннотация представляют собой вторичные документы. Обычно они составляются к научным книгам, статьям, патентам на изображение.

Составление реферата (аннотации, текста) с помощью компа называют автоматическим реферированием (аннотированием)

Этапы построения реферата человеком:

1. подготовительный – референт читает текст, пытается понять и осмыслить документ в целом

2. аналитический – референт делит текст на фрагменты, каждый фрагмент изучает и выделяет в нем основные смысловые единицы. Строится план будущего реферата.

3. этап построения реферата – выделенные ранее смысловые единицы, их комбинации располагаются в единый вторичный текст в соответствии с планом реферата.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: