Технология текстового поиска

Текст является одной из основных форм обмена информацией в обществе. Поэтому текстовые сообщения преобладают в информационных системах.

Наиболее распространенными системами технологии обработки текста являются системы текстового поиска. Их задача заключается в том, чтобы находить в заданных коллекциях на естественном языке такие документы, которые удовлетворяют информационным потребностям пользователей.

Технологии текстового поиска имеют дело с информацией. Это могут быть статьи из газет и журналов, технические руководства, отчеты, книги, письма, законодательные акты и пр.

Основной единицей информации в системах текстового поиска является документ - объем информации, обладающий законченным содержанием и какого-либо рода уникальным идентификатором.

Системы текстового поиска оперируют электронными документами - документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае если программно доступны отдельные элементы текстового документа. Поэтому недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-то графического файла. Необходимо иметь документ в оцифрованном виде - формате, когда каждый компонент текста программно доступен. Представление текстового документа в оцифрованном виде создается с помощью:

ввода содержания, документа с клавиатуры с использованием какого-либо текстового редактора;

сканирования его с бумажного носителя и использования программы распознавания оптических символов;

генерации текста программным путем распознавателями голоса и другими способами.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow