Поиск документов на русском языке

Вполне вероятно, что еще пару лет назад о появлении мощных поисковых систем, помогающих в нахождении документов на русском языке, можно было лишь мечтать. Достаточно сложная морфология русского языка затрудняла эту задачу, не позволяя «в лоб» применить проверенные западные алгоритмы. Но бурное развитие российской части Интернета помогло и эту «сказку сделать былью».

Создание достаточно полных русскоязычных Web-каталогов, которые можно было бы сравнивать с Yahoo!, по видимому, еще впереди – слишком больших финансовых и людских ресурсов они требуют. Тем не менее, первые и достаточно серьезные шаги в этом направлении уже делаются, – поисковая система Rambler на сегодня представляет уже не просто индекс, а гибридную систему с большим классификатором по тематическим разделам.

Среди поисковых систем, работающих с русскоязычными документами, можно выделить как международные Web-индексы, так и системы, разработанные и внедренные российскими компаниями. Начнем с международных поисковых систем: здесь выбор невелик – это знаменитая AltaVista (http://www.altavista.com). Несмотря на способность целого ряда зарубежных Web-индексов заносить в базу данных русскоязычные слова, лишь AltaVista делает это на уровне, достойном быть примером для остальных.

Как вы наверняка представляете, российский Интернет, как и все в России, многогранен и противоречив. Одна из главных его проблем – это наличие нескольких национальных сетевых кодировок. Для обычного англоязычного Web-сервера эта проблема решается просто. К русскоязычной поисковой машине предъявляются более жесткие требования. Дело в том, что далеко не все серверы поддерживают все или по крайней мере основные кодировки. Часть из них поддерживает или только KOI-8, или только Windows 1251, и только примерно треть поддерживает все или 2-3 основные кодировки. Если вы вводите запрос в окне на поисковом сервере в определенной кодовой странице, то не сможете найти ту информацию, которая существует в другой кодировке на серверах, поддерживающих какую-либо одну кодировку, если ваши кодовые страницы не совпадают. Для получения полной информации вам придется воспользоваться всеми кодировками, поддерживаемыми поисковыми серверами.

Хотя сегодня существует около десятка русскоязычных поисковых систем, мы ограничим свой рассказ о тех системах, которые стандартно вызываются на панели поиска

 
 

Internet Explorer – Rambler, Яndex, Апорт!


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: