Эти методы работают комплексно

Основным критерием является место или позиция предложения в исходном тесте.

Просматривая исходных текст, ПК извлекает предложения, содержащие три и более опорных слов.

Скоро - 1р.

Легко - 1 р.

Приходи - 1 р.

Придет - 1 р.

Дышится - 1 р.

Зимой - 1 р.

Зима - 2р.

Словоформой, имеющее одинаковое лексическое значение образуют слово (лексему).

Словоупотребление вне текста или предложения называется словоформой.

Словоупотребление - это цепочка символов, находящаяся между двумя знаками пробелов.

N - число абзацев в тексте

N - число слов в тексте

M - число абзацев, где встретилось слово

F - частота употребления слова в тексте

Составить алгоритм, позволяющий получить: а) аннотацию текста в виде слов-реляторов, со следующими за ними ключевыми словосочетаниями (это ключевое существительное со стоящим перед ним определением, выраженным прилагательным или причастием); б) словесный реферат текста в виде последовательной цепочки ключевых предложений и (содержащих три и более ключевых слова)

Скоро придет зима. Зимой легко дышится. Приходи, зима!

Алгоритм решения задачи:

· Для каждого абзаца текста ПК создает алфавитно-частотный словарь словоформ.

· Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста.

· ПК производит чистку словаря, сжимая его до словаря потенциальных ключевых (опорных)слов.

· удаляется служебная и общеупотребительная лексика

· объединяет словоформы одного и того же слова

· объединяет синонимы

· из словаря удаляются слова (словоформы), которые встретились только в одном абзаце

· Использую формулу К важности слова делятся на две части: а) словарь главных опорных слов; б) словарь второстепенных опорных слов.

· троится аннотация, которая составляется из слов- реляторов со следующими за ними ключевым словосочетаниями. Ключевое словосочетание состоит из главного опорного (ключевого) слова с предшествующим ему определением.

· стоится реферат из главных и второстепенных опорных слов.

· Позиционные методы.

Выделяют:

а) метод заглавия (считается, что основное содержание текста выражается текстом заголовков, подзаголовков, поэтому составляется словарь ключевых слов на основе знаменательных слов заголовков, подзаголовков и система выделяет в реферат предложения, содержащие эти слова.

б) метод локализации (местонахождения) работает на текстах узкой тематики. Пример: патенты на изобретение.

Идея метода: в таких текстах предложения по цели результатов исследования занимают фиксированное место (пример. первое-второе предложение второго абзаца)

75%

· Логико-семантические методы


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: