Как работает Яndex

Система просматривает все указанные ей тексты, преобразует каждое русское слово в нормальную форму (для существительных – это именительный падеж единственного числа, для глаголов – неопределенная форма и т.д.) и запоминает подробный адрес каждого слова. Алгоритмы морфологического разбора, которыми мы занимаемся, позволяют проанализировать слово, определить его характеристики и найти все формы, например: идти – идешь – шел; ребенок – дети; окно – окон; отзывать – отозвали.

Яndex обеспечивает индексацию одновременно с морфологическим разбором. Это позволяет создавать компактный индекс – около 30% исходных текстов, сохраняя достаточно высокую скорость индексации – 1-2 Мб/мин. Такая технология дает возможность почти полного снятия омонимии на этапе индексации.

Морфология базируется на словаре из 90 тыс. слов, к которому добавлены алгоритмы словообразования, а также на механизме построения гипотез для слов, отсутствующих в
словаре. Создан и пополняется словарь имен собственных.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: