Задача сканирования текста является тривиальной. На входе сканера текстовые документы, т.е. Символьные цепочки, разделенные пробелами. Выделенные цепочки символов подвергаются последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. На выходе – список лексем (не лингвистических) с указанием принадлежности определенному тексту, частотой встречаемости, информацией о важности лексемы (вхождение в заголовок, подзаголовок, обычный текст).
Удаление стоп-слов
Словарь стоп-слов содержит служебные и часто встречающиеся слова, не несущие информации о содержании текста. Их удаление повышает точность поиска и уменьшает вычислительные затраты. Cостав словаря доопределяется на этапе тестирования системы.