Составление реферата (аннотации) статистическим методом

Принадлежность слова, словосочетания к числу ключевых определяется специальным статистическим коэффициентом.

Составлять из текстовых единиц (ключевых слов, словосочетаний) смысловые единицы реферата

Находить в тексте менее значимые единицы

Находить в тексте ключевые слова, словосочетания, предложения

Ключевые слова или словосочетания исходного текста с предшествующими им словами-реляторами (заранее заготовленные слова)

Предложение, обобщающее несколько предложений исходного текста, не обязательно ключевых

Предложение, составленное из ключевых слов или словосочетаний с помощью связующих элементов

Перефразированное ключевое предложение

Полное (без изменения) ключевое предложение исходного текста

Основные смысловые единицы

- ключевые слова – термины, относящиеся к основному содержанию текста и повторяющиеся в нем несколько раз

- ключевые словосочетания – сочетания слов, среди которых есть ключевые слова

- ключевые предложения – предложения, содержащие два и более ключевых слов

В качестве смысловых единиц реферата могут быть:

Смысловыми единицами аннотации могут быть:

2. специальные предложения исходного текста, содержащие оценочные элементы («рассматривается важная проблема», «ставится задача»)

Комп должен уметь:

4. составлять предложения – текст реферата

Методы автоматического реферирования и аннотирования текстов:

- позиционный – где ключевое предложение – это предложение, входящее в заголовок, подзаголовок, начало и конец некоторого фрагмента текста

- логико-семантический – где ключевое предложение – это предложение с наибольшим функциональным весом, на величину которого влияют разные факторы (связь с левым и правым предложениями, наличие в предложении семантически значимых слов)

- статистический – где ключевое слово – знаменательное слово текста, которое с учетом всех его синонимов встречается в тексте наибольшее число раз. Ключевое предложение – предложение, где два и более ключевых слов.

Используя для выделения ключевых слов текста, один из вариантов статистического метода = F*m / N*n

F – частота употребления слова в тексте

m – число абзацев, в которых встретилось слово

N – число слов в тексте

n – число абзацев в тексте

а) Составить алгоритм, позволяющий получить аннотацию текста в виде релятора со следующими за ним ключевыми словосочетаниями текста. Ключевым словосочетанием – ключ, имя существительное со стоящими перед ним определением, выраженным именем прилагательным или причастием, не относящихся к числу общеупотребительных.

б) словесный реферат текста в виде последовательной цепочки ключевых предложений. Ключевым считается предложение, содержащее три и более ключевых слов.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: