Поисковые системы

Системы поиска информации, описанные ранее (каталоги), неплохи, но они являются инструментом для грубого поиска. То есть они могут очертить границы интересующего района Сети. Для более качественного поиска информации служат поисковые системы, которые не ждут, пока пользователь внесет сайт в их каталог, а сами периодически обшаривают все пространство Сети. Иногда эти системы называют поисковыми роботами или даже пауками. Ползая по хитросплетениям Сети, «пауки» регулярно посещают все доступные страницы и заносят их в специальный индекс, громадную базу данных, по которой впоследствии и ведется поиск.

Рис. 14.3. Главная страница каталога WWWomen Online (https://wwwomen.ru)

Для осуществления быстрого поиска информации в Сети необходимо четко представлять себе механизм поиска.

Индексируя страницу, поисковик работает сразу с несколькими элементами ее содержания: заголовок страницы; перечень ключевых слов, составленный ее автором; краткое описание страницы, также, содержащееся в ее теле (для пользователей эта информация, как и список ключевых слов, остается невидимой); собственно содержимое страницы.

Сегодня большинство поисковых машин оснащено сложным механизмом сортировки, который позволяет частично отфильтровать заведомый мусор и оттеснить его в конец списка результатов. На первые места в нем будут претендовать страницы, обладающие большей степенью релевантности, то есть ожидаемой степени соответствия страницы запросу пользователя. То есть, если заданные ключевые слова будут найдены в заголовке, описании, да еще и в тексте страницы, то степень ее релевантности будет достаточно высокой.

Если создать запрос по одному слову, получим огромное количество ссылок, исчисляемое сотнями тысяч. Поэтому умение составлять сложные запросы с использованием специальных команд-операторов, является необходимым любому пользователю сети, осуществляющему поиск информации в Сети.

В настоящее время в Сети действуют десятки поисковых систем, как зарубежных, так и отечественных.

Среди международных информационно-поисковых систем наиболее известны поисковые системы Google, AltaVista, Infoseek и Yahoo. Эти системы позволяют выражать запросы и искать информацию не только на английском, но и на русском, а также испанском, французском, немецком и других языках мира:

altavista.digital com – поисковая система AltaVista,

yahoo.com – поисковая система Yahoo,

Infoseek.com – поисковая система Infoseek.

Всемирная поисковая система Google (https://google.com). По общему мнению, поисковая система Google является лучшей по удобству, скорости работы и результативности. Кстати, ее можно запустить из браузера Internet Explorer, нажав кнопку Поиск. При этом интерфейс программы можно иметь на любом из почти 100 языков, которыми можно пользоваться. Для этого нужно войти в Настройки и установить язык интерфейса и поиска. Титульная страница Google очень лаконичная, имеет приятный дизайн (рис. 14.4).

Рис. 14.4. Окно поисковой системы Google (https://google.com)

В отличие от других поисковых систем в «первой десятке» результатов, выданных Google, не бывает никакого мусора и случайных сайтов: место сайта в списке напрямую связано с количеством ссылок на него с других серверов аналогичной тематики. Интересной особенностью Google является наличие второй кнопки рядом со строкой поиска Мне повезет!. Если первая кнопка запускает традиционный механизм поиска, то вторая кнопка сразу же перебрасывает пользователя на сайт, который, по мнению Google, максимально отвечает его запросам. Кроме того, Google имеет отлично продуманный набор сервисов поиска. Он предлагает следующие сервисы.

Традиционный поиск по сайтам и страницам Интернет, внесенных в базу данных в автоматическом режиме с помощью «паука». Помимо простого поиска доступен еще и расширенный – в этом режиме можно составить выборку документов на определенном языке, указать, сколько результатов будет выведено на странице и, кроме того, задать поиск в пределах одного сайта или страницы. При работе со стандартной поисковой строкой можно пользоваться операторами поиска.

Оператор Описание его действия
+ (AND) Для поиска страниц, содержащих все указанные слова: beatles + lennon
- (NONE) Для поиска страниц, содержащих первое из указанных слов, но не содержащее второго: gates - bill
OR Для поиска страниц, содержащих либо одно, либо второе из разделенных этим оператором слов и сочетаний: osho OR rajneesh
«» Для поиска страниц с указанными неразрывными словосочетаниями: «rolling stones»

Поиск по каталогу. Google имеет собственный каталог в который внесено около миллиона страниц и сайтов со всего мира. И здесь кроме основного каталога Google предлагает и национальные каталоги, в том числе и русских ресурсов.

Поиск по группам новостей. С помощью Google можно найти любое сообщение, отправленное в одну из сотни тысяч групп новостей за последние пять – семь лет.

Поиск изображений. Ранее искать в Сети картинки по ключевым словам мог только поисковик Lycos. Теперь это делает и Google, причем он может отсортировать найденные картинки по размерам, выведя на экран только список изображений требуемого формата.

Google можно использовать и для поиска русскоязычных страниц, расположенных в «дальнем» зарубежье. То есть можно отыскать документы, с которыми не справится даже Яndex.

Упражнение 4. Попробуйте с помощью Google найти русскоязычные сайты в Канаде. Одну страничку скопируйте в вашу папку.

Яndex (https://www.yandex.ru). Одна из самых популярных и «продвинутых» российских поисковых систем. Помимо простого (и сложного) поиска, на Яндексе (рис. 14.5) существует большое количество сервисов и служб.

Служба электронной почты (mail.yandex.ru). Подробно рассматривалась в лабораторной работе 6.

Рис. 14.5. Окно поисковой системы Яndex (https://www.yandex.ru)

Персональный портал Мой Яndex (https://my.yandex.ru). Зарегистрировав почтовый ящик на Яндексе, получаете возможность настраивать весь поисковик по своему вкусу, создав свой собственный вариант портала. Мой Яndex позволяет вывести на стартовой странице интересующие вас блоки новостей, прогноз погоды, программу телеканалов, курсы валют и прочую полезную информацию.

Универсальная лента новостей (https://news.yandex.ru). Самые важные известия (точнее, их заголовки) выносятся прямо на главную страницу Яндекса. Однако Япс1ех предлагает нам и собственную «электронную газету», в которой можно найти более подробную информацию по основным тематическим группам — Политика, Экономика, Культура, Спорт и так далее.

Каталог (http:yaca.yandex.ru). Яndex имеет собственный каталог. Его основные разделы доступны прямо на главной странице, но, как и большинство сервисов Яндекса, каталог имеет и собственный адрес.

Яндекс-Закладки (http zakladki.yandex.ru). Альтернативный каталог Яндекса состоящий из обширной библиотеки «закладок», собранной самими пользователями. Всего в базе данных находится свыше полутора миллионов(!) закладок, и каждый может добавить в нее собственную выборку, загрузив в Яndex коллекцию закладок из папки Избранное вашего браузера.

Яндекс-Энциклопедии (https://encycl.yandex.ru). Здесь опубликованы виртуальные «аватары» целых полутора десятков энциклопедий. Вся эта коллекция снабжена системой «сквозного» поиска. Кроме того, найти нужную статью в любой энциклопедии можно с главной страницы Яндекса (для этого не забудьте выбрать пункт Энциклопедии в меню под строкой поиска).

Яндекс-Товары (https://tovar.yandex.ru). Система быстрого поиска товаров (от книг и дисков до автомобилей, лекарств и аппаратуры) в крупнейших виртуальных магазинах России.

Яндекс-Гуру (https://guru.eandex.ru). Нет, это не занудный учитель жизни с далекого Востока, а весьма забавный каталог-«мастер», который поможет вам подобрать нужную модель любого из четырех десятков товаров — от компьютерных комплектующих до бытовой техники и даже пива! Гуру демонстрирует вам полные тактико-технические характеристики каждого объекта, позволяет сравнивать модели разных производителей, а также дает сводку цен в электронных магазинах России

В запасе у Яндекса есть еще не менее десятка разделов и служб. Тут вам и онлайновые игры, и гостиная, где можно пообщаться с весьма солидной компанией VIP-персон, и служба статистики Сказки, и даже собственный электронный банк.

Особенности поисковой системы. Яndex хорошо приспособлен к особенностям русского языка, а это, самое важное отличие от его зарубежных поисковых систем. Одно из главных отличий русского языка от того же английского — обилие форм одного и того же слова (словоформы). Поисковые же системы привыкли к англоязычной стабильности форм, потому каждая из форм слова, например «кот», «кота», «коту», «котом», для них являет собой отдельную словарную единицу Яndex от этого недостатка свободен — он умеет находить заданные слова независимо от формы, в которой они употребляются в документах. Так что набирайте с легким сердцем своего «кота» в поисковой строчке и не опасайтесь, что система подойдет к вашему запросу с излишним педантизмом

Регистр букв. Большинство поисковиков его попросту игнорируют, то есть, напишете ли вы doors или Doors, или даже DOORS – итог будет одинаков. Яndex позволяет уточнить регистр первой буквы, что позволит хотя бы отделить имена собственные от нарицательных. Но стоит задать поиск только по слову с большой буквы, именно их вы и получите. Например, наберите в строке слово «лужков», и Яndex найдет не только страницы, посвященные мэру Москвы, но и документы, в коих повествуется о неких «лужках» (в родительном падеже). А вот по запросу «Лужков» никаких полянок вы уже не найдете — только мэра и его однофамильцев

Запросы на естественном языке. Создатели Яндекса утверждают, что благодаря своему, пусть искусственному, но довольно мощному интеллекту, этот поисковик способен понимать даже запросы на естественном языке. То есть, если вы скормите Яндексу запрос типа «Сколько стоит кактус?», «Кто такая Масяня?», «Где потусоваться в деревне Скнятино?», он его бодренько проглотит, переварит и даже выдаст вам по принципу обратной связи что-то полезное. В виде ссылок на сайты нужной тематики, разумеется.

Определение области поиска. В Яndex после набора запроса имеется возможность указать, где именно искать нужную вам информацию – область поиска. Предлагаются следующие варианты: Каталог, Новости, Товары, Энциклопедии. К сожалению, Яndex позволяет задать лишь одну область тематического поиска, то есть искать нужную фразу или слово в Новостях и одновременно в Картинках не получится.

Сложный поиск и язык запросов. При сложном поиске в строке поискового сервера набираются не только ключевые слова, но и специальные логические операторы, иногда называемые операторами Буля. С помощью этих операторов можно составлять настоящие формулы, которые позволят максимально точно описать нужную нам страничку. У разных поисковых серверов существует свой собственный язык запросов, с использованием самых различных операторов. Стандартными то есть подходящими для работы с любыми серверами, считаются три + или &. Значение — AND («и»). (+) – этот оператор подразумевает, что в искомом документе обязательно должны содержаться все слова, которые оператор разделяет в запросе. При этом совершенно безразлично, стоят ли они рядом или находятся в разных частях документа. Как правило, логическому «И» в запросе соответствует простой пробел между словами: при наборе нескольких ключевых слов через пробел Яndex будет искать документы, в котором эти слова будут встречаться в пределах одной фразы. Однако применение «плюса» помогает еще более ужесточить критерии запроса: при использовании этого знака Яndex будет выводить ссылки только на те документы, в которых обязательно присутствуют отмеченные «плюсом» слова.

+Учебник +информатика +симонович

Замечание. знаки + и - в запросе размещаются не так, как в математической формуле: перед любым из них обязательно ставится пробел, а вот с последующим словом они вводятся без пробела. Помните, что при использовании «плюсов» их нужно ставить перед всеми словами, в том числе и перед первым.

Упражнение 5. В поисковой системе Яndex задайте три запроса:

+Учебник +информатика +симонович

Учебник +информатика +Симонович

Учебник информатика симонович

Экран с первой страницей каждого запроса скопируйте в свою папку (нажать клавишу PrintScreen и поместить в документ Word, нажав кнопку ).

или ~ Значение – NOT (без). Подразумевает, что выбраны будут все документы, содержащие слово перед этим оператором, но исключая содержащие слова после него. Идеальный инструмент для сужения поля поиска. Допустим, вы хотите найти в Сети подробную информацию о лечебном массаже, но так, чтобы вас не донимали многочисленные странички с описаниями его «тайской» модификации. Для этого достаточно набрать: +массаж +лечебный -тайский. Этот оператор подчиняется тем же законам, что «+», и может использоваться вместе с ним. Условия, обозначенные этими операторами, действуют только в пределах абзаца. Если же вы хотите, чтобы заданные условия относились ко всему тексту документа, а не к отдельной фразе, необходимо количество операторов «удвоить», например вместо & поставить &&

+Массаж +лечебный -тайский

Так, по запросу «наталья &&макарова» получите все документы, в которых встречаются имя и фамилия автора популярного учебника по информатике. Пусть даже имя будет в начале страницы, а фамилия — далеко в конце

ô Значение — OR («или»). В документе должно находиться хотя бы одно слово из тех, которые разделяет этот оператор. Например: Расписание ôграфик ôперечень

() – скобки. Как и в математике, скобки необходимо использовать при составлении сложных поисковых формул, в них можно заключить целые выражения (фотографии ôфотокарточки) +(реставрация ôвосстановление)

! – Значение – «точная форма». Использование восклицательного знака, размещенного перед одним из ключевых слов, заставит Яndex ограничиться лишь одной конкретной формой этого слова или фразы. Например, по запросу: .!масяня –!масяню будут найдены документы, содержащие только имя Масяня в именительном падеже и не содержащие его в родительном Наконец, при поиске в Yandex используется ряд дополнительных символов, позволяющих определять, на каком расстоянии друг от друга должны располагаться в тексте страницы слова, включенные в запрос: /n, где n равно количеству слов-«разделителей» Так, по запросу: персональный /3 компьютер будут найдены все странички, в тексте которых встречаются слова «персональный» и «компьютер», отделенные друг от другу не более чем тремя словами. Число n можно также дополнить знаками + и –, в какую сторону будет вестись отсчет слов-разделителей (вперед и назад соответственно).

Расширенный поиск. Чтобы упростить составление сложных запросов в Яndex существует опция Расширенный поиск. Здесь есть возможность составлять сложные запросы, не употребляя операторов. Воспользоваться ею можно, щелкнув по ссылке Расширенный поиск в нижней части страницы Яндекса или набрав в адресной строке браузера следующий URL: https://www.yandex.ru/advanced.html (рис. 14.6).

Рис. 7.6. Страница Яndex: Расширенный поиск

Форма «расширенного поиска» представляет даже более широкие возможности, чем использование стандартных операторов языка запросов. Так, с ее помощью можно ограничить круг поиска страницами, созданными или измененными в пределах заданного временного интервала, уточнить язык документа, исключить из «обыскиваемой» зоны отдельные странички или сайты или, наоборот текст только в их границах. Заполнение этой формы — дело довольно трудоемкое (все ее поля даже не помещаются на одном экране), однако для профессионалов сетевого поиска это не станет препятствием. Учтите, что форма «расширенного поиска» сама по себе не отменяет обычного поиска с использованием операторов — у каждого вида поиска есть своя специфика и свои преимущества.

Кроме вышеперечисленного Яndex предоставляет: вывод и сортировку результатов поиска (по умолчанию сортируются все запросы по релевантности, если не составить персональный запрос), подписку на запросы (https://www.yandex.ru subscribe/). Очень интересны Следующие две возможности.

Меню Служб. Аналога этой кнопке также не имеется в Google. Нажав на нее, вы получите доступ к меню закладок, ведущих к крупнейшим службам (рис.14.7).

Рис. 14.7. Меню служб

Меню Этот сайт. Нажав на эту кнопку, можно сразу узнать всю подноготную посещенной страницы (ее популярность, позицию в рейтинге), можно быстро найти ее аналоги, а также добавить ссылку на сайт в собственную коллекцию закладок на Яndex.

Среди других отечественных поисковых систем наиболее известны Апорт, и Рамблер:

aport.ru - поисковая система Апорт,
rambler.ru - поисковая система Рамблер,

Рис. 14.8. Окно поисковой системы Апорт

Ответ на запросы – ссылки на сайты и гипертексты, в которых имеются указанные ключевые слова, а также аннотации, которые синтезируют поисковые системы. Ответы могут содержать от двух-трех ссылок до нескольких тысяч. Каждая из таких ссылок указывает на гипертекст, в котором имеются указанные ключевые слова.

Система Апорт (рис. 14.8) вначале указывает гипертексты, в которых ключевые слова найдены в названии, затем в списке ключевых слов самого гипертекста, а затем в самом гипертексте – вначале внутри абзацев, а затем во всем тексте в целом.

Для эффективного поиска в запросах в поисковой системе АПОРТ нужно использовать наиболее часто используемые слова, которые приводятся в различных тематических словарях, справочниках, энциклопедиях и предметных каталогах. Для составления сложных запросов поисковые системы допускают использование логических связок " И ", " ИЛИ ", " НЕ ". В английском языке им соответствуют связки " AND ", " OR ", " NOT ".

Независимым от языка обозначением связки " И " (" AND ") является знак амперсанда &, для связки " ИЛИ " (" OR ") вертикальная черта |, а для связки " НЕ " (" NOT ") знак минус.

Некоторые из поисковых систем и практически все зарубежные поисковые системы не понимают тонкостей русского языка.

Поэтому они могут давать разные ответы на запросы " поиск информации " и " поиск информация ", отличающиеся лишь одной последней буквой в слове " информация ".

Для того чтобы окончания слов не влияли на результаты поиска, в запросах можно использовать знак звездочки * и знак вопроса? для задания шаблонов. Знак вопроса в шаблоне " информаци? " означает, что на месте этого знака может быть любая буква, а знак звездочки " информац* " означает, что на этом месте могут быть любые несколько букв. Примеры запросов с шаблонами слов:

запрос: поиск информаци?;

запрос: поиск информац* - Интернет;

запрос: поиск информац* Интернет?.

Использование шаблонов русских слов – единственный способ эффективного поиска русскоязычной информации с использованием иностранных поисковых систем. Поскольку в отечественных поисковых системах используются каталоги русских ключевых слов, то они выигрывают в эффективности поиска информации в русском секторе Интернета и лучше понимают запросы на русском языке.

Контрольные вопросы

1. Что такое каталог? Какие виды каталогов вы знаете?

2. Какие поисковые системы вам известны?

3. Опишите поисковую систему Google.

4. Опишите поисковую систему Яndex.

5. Как ищется информация в Интернете?

6. Какие способы составления запросов вам известны?

7. Что означают логические связки "И", "ИЛИ", "НЕ"?

8. Что хранится в базах данных поисковых систем?


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow