Кластеризация и семантический анализ множества текстов

Автоматическая классификация документов, как правило, берет на вооружение аппарат кластерного анализа данных. Кластерный анализ является статистическим методом и в последние годы развивается довольно стремительно. Существуют системы, как специально ориентированные на кластерный анализ, так и располагающие этим методом в ряду остальных методов анализа данных.

Достаточно мало на сегодняшний день систем, ориентированных на какой-то специальный вид данных, обладающих к тому же средствами для сбора этих данных. В основном, как параметры, так и сами методы должен выбирать сам пользователь, к тому же заранее подготовив свои данные в специальном формате, распознаваемом той или иной системой анализа.

Вообще, кластеризацию, применяемую для получения знаний в текстовых массивах (Text Mining) можно разделить на два класса:

- кластерный анализ терминов;

- кластерный анализ документов.

Кластеризация терминов обычно используется для автоматического получения тезауруса (поиск синонимов) или детализации запросов к коллекции (поиск близких по смыслу слов).

Кластеризация документов применяется для более эффективного хранения и выборки документов из коллекции. Кластеризация документов порождает однородные группы документов, которые намного более тесно связаны друг с другом, чем с документами из других групп. Выбор кластерного анализа в качестве метода классификации обусловлен двумя причинами.

Первая – теоретическая непротиворечивость метода, то есть, кластерный анализ отвечает критерию достаточности. Это означает следующее:

- метод устойчив к добавлению объектов в пространство, то есть его результаты не меняются радикально, даже после добавления объектов, обладающих свойствами, резко выделяющимися на фоне остальных;

- метод устойчив к ошибкам, то есть, небольшие погрешности в определении описания объектов приводят к небольшим изменениям результатов кластерного анализа.

Одной из самых сложных задач, решение которой во многом определяет успех применения кластеризации, является выбор метода, алгоритма кластерного анализа для конкретной предметной области, в которой его предполагается использовать.

Второй аспект – производительность по скорости и объемам хранимых данных. Этот аспект целиком зависит от особенностей самого алгоритма кластеризации.

В нашем исследовании предлагается вариант решения задачи создания тематической структуры коллекции документов. Из данного на входе набора документов необходимо получить набор групп наиболее семантически близких документов. причем чтобы полученный набор групп имел иерархическую структуру. Основным инструментом решения задачи создания тематической структуры является кластерный анализ.

В данной главе будут рассмотрены следующие вопросы.

Нахождение семантических связей между документами и группами документов (кластерами): выбор оптимальной меры близости документов.

Выбор метода, либо комбинации методов кластерного анализа в соответствии с рядом критериев. Для нашей задачи были выделены следующие критерии.

Иерархическая (вложенная) структура получаемых кластеров (классов).

Это обусловлено необходимостью получения достаточно детализированной и систематической структуры коллекции. Требуется выделить не только общие классы, но и под-классы и так далее.

Адекватность большой размерности векторного пространства «термин-документ».

Требуется выбрать метод, позволяющий работать с объектами, характеризующимися большим набором признаков. Известно, что вектора документов, поступающие на вход нашей подсистемы имеют размерность более 200.

Приемлемая производительность.

Метод должен обладать достаточной производительностью на объемах данных до 10 тыс. объектов.

Максимальная независимость от статических параметров.

Поскольку анализ производится в ситуации полной неопределенности (нет дополнительной информации о количестве тематик, их иерархии, размере), то желательно получать эту информацию непосредственно из анализируемых данных.

Получение кластеров различной формы, размера и плотности.

Вследствие неопределенности анализа, кластеры могут быть различных форм – могут пересекаться, быть смешанными и т. д., различных размеров – тематики могут содержать документы в различном количестве, различной плотности – если в коллекции выделяется несколько тематик, то совсем необязательно, что каждая из них специализирована на одинаковом уровне. Вполне возможно, что какая-то из тематик будет содержать набор тесно связанных, узко-специальных документов, а другая набор документов, специализированных по отдельности и отличающихся друг от друга в несколько большей степени, чем документы из первого набора.

Выбор оценки качества полученного разбиения (на этапе тестирования).

Выбор способа получения описания выделенных тематик.

Для получения на выходе требуемой информации необходимо подать на вход подсистемы автоматической классификации информацию о классифицируемых объектах в виде векторов признаков.