Основным критерием является место или позиция предложения в исходном тесте.
Просматривая исходных текст, ПК извлекает предложения, содержащие три и более опорных слов.
Скоро - 1р.
Легко - 1 р.
Приходи - 1 р.
Придет - 1 р.
Дышится - 1 р.
Зимой - 1 р.
Зима - 2р.
Словоформой, имеющее одинаковое лексическое значение образуют слово (лексему).
Словоупотребление вне текста или предложения называется словоформой.
Словоупотребление - это цепочка символов, находящаяся между двумя знаками пробелов.
N - число абзацев в тексте
N - число слов в тексте
M - число абзацев, где встретилось слово
F - частота употребления слова в тексте
Составить алгоритм, позволяющий получить: а) аннотацию текста в виде слов-реляторов, со следующими за ними ключевыми словосочетаниями (это ключевое существительное со стоящим перед ним определением, выраженным прилагательным или причастием); б) словесный реферат текста в виде последовательной цепочки ключевых предложений и (содержащих три и более ключевых слова)
|
|
Скоро придет зима. Зимой легко дышится. Приходи, зима!
Алгоритм решения задачи:
· Для каждого абзаца текста ПК создает алфавитно-частотный словарь словоформ.
· Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста.
· ПК производит чистку словаря, сжимая его до словаря потенциальных ключевых (опорных)слов.
· удаляется служебная и общеупотребительная лексика
· объединяет словоформы одного и того же слова
· объединяет синонимы
· из словаря удаляются слова (словоформы), которые встретились только в одном абзаце
· Использую формулу К важности слова делятся на две части: а) словарь главных опорных слов; б) словарь второстепенных опорных слов.
· троится аннотация, которая составляется из слов- реляторов со следующими за ними ключевым словосочетаниями. Ключевое словосочетание состоит из главного опорного (ключевого) слова с предшествующим ему определением.
· стоится реферат из главных и второстепенных опорных слов.
· Позиционные методы.
Выделяют:
а) метод заглавия (считается, что основное содержание текста выражается текстом заголовков, подзаголовков, поэтому составляется словарь ключевых слов на основе знаменательных слов заголовков, подзаголовков и система выделяет в реферат предложения, содержащие эти слова.
б) метод локализации (местонахождения) работает на текстах узкой тематики. Пример: патенты на изобретение.
|
|
Идея метода: в таких текстах предложения по цели результатов исследования занимают фиксированное место (пример. первое-второе предложение второго абзаца)
75%
· Логико-семантические методы