Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.
Рассмотрим классификацию систем индексирования.
1. По степени автоматизации процесса индексирования выделяют системы:
- ручного индексирования;
- автоматического индексирования;
- автоматизированного индексирования.
2. По степени контролируемости различают системы:
- без словаря;
- с жестким словарем;
- со свободным словарем.
3. По характеру алгоритма отбора слов текста выделяют системы:
- с последовательным просмотром текста (отбираются все полнозначные слова);
- с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);
- со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).
4. По характеру лексикографического контроля различают системы:
|
|
- без лексикографического контроля;
- с полным контролем;
- с промежуточным контролем.
Лексикографический контроль предусматривает:
- устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
- нормализацию слов на основе морфологических нормативных словарей.
5. По характеру морфологического анализа слов различают системы:
- с использованием морфологических словарей;
- с использованием основных лексических словарей;
- с использованием морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.
Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.
Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.
При жестком индексировании слова берутся только из текста.
Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.
|
|
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса — прямой и инвертированный.
Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью n x m. Строки этой матрицы представляют поисковые образы документов.
Инвертированный тип индекса строится по обратной схеме — «термин-документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).