Метод маркирования, основанный на средних векторах

В литературе [12] также предлагается метод маркирования, основанный на средних, концептуальных векторах. Так, к примеру, для метода K-средних, применяется следующий подход. Предполагается, что имеется некое разбиение на кластеры , разделяющее коллекцию документов на k независимых кластеров. Каждому такому кластеру Cj ставится в соответствие кластер слов Wj. Термин, встречаемый в документах кластера Cj принадлежит кластеру Wj при условии, что вес этого термина в среднем векторе сj больше весов этого термина во всех остальных средних векторах кластеров. Эффективность данного метода подтверждается результатами экспериментов [12].

Наиболее подходящим для документной кластеризации представляется метод маркирования, основанный на c2., поскольку он разработан для применения к иерархическому кластерному анализу. Вообще, можно и не использовать данную статистику, однако сам принцип отбора слов для вложенных кластеров представляется наилучшим из существующих.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: