Вероятностная модель для ЛСИ

Как уже было сказано, ЛСИ отражает латентную структуру словоупотребления в документах. Это доказано на практике и в подтверждениях не нуждается. Но, как часто бывает, теория и практика не всегда идут в ногу друг с другом. Теоретические исследования того, почему ЛСИ работает так хорошо, еще ведутся. Логично, что зная теорию, мы сможем предложить улучшения метода не эмпирически, а аналитически, видя особенности теории. Попытка представить вероятностную модель, основанную на схожести, для ЛСИ была сделана в [14]. Кратко опишем проблему.

Мы знаем, что SVD декомпозирует матрицу А в произведение трех матриц UåVT , где U – матрица термов, V - матрица документов. Соответственно, АТА содержит информацию о схожести всех пар документов и является матрицей схожести для документов, в то время как ААТ содержит информацию о схожести всех пар термов и есть матрица схожести для термов. Заметим, что схожесть документ-документ определена в пространстве термов, в то время как схожесть терм-терм определена в пространстве документов. Такая сильная взаимная связь является ключевой для предлагаемой модели. Если рассматривать каждый документ как вхождение данных в пространстве термов, то есть основания полагать, что документы расположены не случайно, а подчиняются некому закону распределения. Вероятностное распределение определяется k характеристическими векторами документов (с1... сk), обозначаемых вместе как Сk. Частота появления документа аj пропорциональна его схожести с с1... сk. Вектора с1... сk статистически независимы, их влияние на результат аддитивно. То же самое и для слов. В результате получается модель, в которой для того чтобы оптимизировать по параметрам, нужно найти с1... сk оптимальные. Не будем описывать алгебраические преобразования, важно лишь то, что в результате получается функция Z, позволяющая оптимизировать мерность пространства. То есть для неизбыточного оптимального описания нам нужно выделить столько характеристических векторов, сколько получается в результате вычисления функции Z. Это очень нужно, так как эмпирически доказано, что когда число измерений превышает оптимальное, качество выдаваемой в ответ на запрос информации ухудшается.

Существует еще направления, занимающиеся вероятностным моделированием наборов документов, но эти модели еще недостаточно разработаны и дают не оптимальные результаты. С другой стороны, комбинирование вышеописанной вероятностной модели ЛСИ с вероятностной моделью корпуса текстов должно дать хорошие результаты, так как в первой делается упор на качество извлекаемых документов, а во второй – на скорость работы.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: