Вероятностная модель для ЛСИ

Как уже было сказано, ЛСИ отражает латентную структуру словоупотребления в документах. Это доказано на практике и в подтверждениях не нуждается. Но, как часто бывает, теория и практика не всегда идут в ногу друг с другом. Теоретические исследования того, почему ЛСИ работает так хорошо, еще ведутся. Логично, что зная теорию, мы сможем предложить улучшения метода не эмпирически, а аналитически, видя особенности теории. Попытка представить вероятностную модель, основанную на схожести, для ЛСИ была сделана в [14]. Кратко опишем проблему.

Мы знаем, что SVD декомпозирует матрицу А в произведение трех матриц UåV^T, где U – матрица термов, V - матрица документов. Соответственно, А^ТА содержит информацию о схожести всех пар документов и является матрицей схожести для документов, в то время как АА^Т содержит информацию о схожести всех пар термов и есть матрица схожести для термов. Заметим, что схожесть документ-документ определена в пространстве термов, в то время как схожесть терм-терм определена в пространстве документов. Такая сильная взаимная связь является ключевой для предлагаемой модели. Если рассматривать каждый документ как вхождение данных в пространстве термов, то есть основания полагать, что документы расположены не случайно, а подчиняются некому закону распределения. Вероятностное распределение определяется k характеристическими векторами документов (с₁... с_k), обозначаемых вместе как С_k. Частота появления документа а_j пропорциональна его схожести с с₁... с_k. Вектора с₁... с_k статистически независимы, их влияние на результат аддитивно. То же самое и для слов. В результате получается модель, в которой для того чтобы оптимизировать по параметрам, нужно найти с₁... с_k оптимальные. Не будем описывать алгебраические преобразования, важно лишь то, что в результате получается функция Z, позволяющая оптимизировать мерность пространства. То есть для неизбыточного оптимального описания нам нужно выделить столько характеристических векторов, сколько получается в результате вычисления функции Z. Это очень нужно, так как эмпирически доказано, что когда число измерений превышает оптимальное, качество выдаваемой в ответ на запрос информации ухудшается.

Существует еще направления, занимающиеся вероятностным моделированием наборов документов, но эти модели еще недостаточно разработаны и дают не оптимальные результаты. С другой стороны, комбинирование вышеописанной вероятностной модели ЛСИ с вероятностной моделью корпуса текстов должно дать хорошие результаты, так как в первой делается упор на качество извлекаемых документов, а во второй – на скорость работы.