Сканирование текста, выделение лексем

Задача сканирования текста является тривиальной. На входе сканера текстовые документы, т.е. Символьные цепочки, разделенные пробелами. Выделенные цепочки символов подвергаются последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. На выходе – список лексем (не лингвистических) с указанием принадлежности определенному тексту, частотой встречаемости, информацией о важности лексемы (вхождение в заголовок, подзаголовок, обычный текст).

Удаление стоп-слов

Словарь стоп-слов содержит служебные и часто встречающиеся слова, не несущие информации о содержании текста. Их удаление повышает точность поиска и уменьшает вычислительные затраты. Cостав словаря доопределяется на этапе тестирования системы.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: