Основные этапы развития мирового рынка информационных ресурсов и услуг. Ведущие мировые информационные агентства, предоставляемые ими услуги и цены, используемые технологии доступа к информации. Коммерческие базы данных LEXIS-NEXIS и QUESTEL-ORBIT.
Основная литература
1. А.В. Хорошилов, С.Н. Селетков. Мировые информационные ресурсы. – СПб.: Питер, 2004., с. 13-34.
Дополнительная литература
2. Арский Ю.М., Гиляревский Р.С. и др. Информационный рынок России. – М.: ВИНИТИ. 1996.
3. Базы данных России. Каталог. Выпуск 5. – М: НТЦ. Информрегистр. 1999.
4. Введение в информационный бизнес. Под редакцией В.П. Тихомирова, А.В, Хорошилова – М: Финансы и статистика, 1996.
Задача автоматического построения качественных тематических сюжетов на основе потоков сетевой новостной информации сегодня (2005) практически решена. Например, полностью автоматические средства системы InfoStream, обрабатывая поток новостной информации, превышающий 25 000 документов в сутки, обеспечивают полноту свыше 80% и точность около 95%.
Релевантность и пертинентность
Под релевантностью понимается формальное соответствие информации, выдаваемой системой, запросу.
Если по запросу пользователя получено N документов, представляющих собой объединение двух множеств документов: соответствующих запросу (их количество — А) и не соответствующих (В ), т.е. N=А+В, тогда релевантность, как степень соответствия, определяется по формуле Р = АlN) х 100%, а шум — по формуле S = В /N) х 100%
Это определение характерно для формальной релевантности, однако на практике используется другое, неформальное понятие — пертинентность - соотношение объема полезной для пользователя информации к общему объему полученной информации.
Формальный запрос к системе является предметом творческого осмысления информационной потребности и не всегда точно отражает последнюю. Неумение большинством пользователей правильно формулировать запросы и получать приемлемые объемы отклика породило в конце XX века мнение об Internet как об огромной информационной свалке.
Средства повышения пертинентности в современных системах, помимо возможностей уточнения формулировки запросов, включает и весовые критерии, позволяющнеранжировать найденные документы и выдавать пользователю для просмотра наиболее весомые документы либо вообще ограничиваться выдачей не более заданного числа наиболее весомых документов.
Этапы поисковой процедуры
Процедура поиска имеет вполне определенную этапность — от определения информационной потребности и области поиска до анализа результатов и выбора пертинентных объектов.
В искусстве поиска первый этап — дебют. На этой фазе определяется цель поиска, его стратегия и область проведения (поисковые серверы, каталоги, тематические порталы).
Информационные потребности пользователя могут относиться к разным областям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей приходится именно на типовые области применения:
• поиск отдельных Web-страниц;
• поиск новостей;
• поиск людей и организаций;
• поиск литературных произведений;
• поиск программного обеспечения;
• поиск музыкальных произведений;
• поиск графических изображений;
• поиск видеоинформации;
• поиск коммерческой информации.
Вторая, оперативная, часть поисковой процедуры предполагает многовариантность подходов и решений при формализации запросов в процессе их отработки. В этом случае также аналитик-профессионал приходит к необходимости использования весьма ограниченного числа поисковых серверов, каталогов и отдельных web-ресурсов для решения своей задачи. Основной задачей второго этапа является формирование эффективных запросов к ИПС.
Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере используется свой информационно-поисковый язык (ИПЯ), несмотря на то, что у различных языков этого типа много общего, — например, схожий набор булевых операций. В настоящее время не существует единого стандарта, подобного стандарту языка SQL для СУБД, хотя на протяжении многих лет ведутся попытки такой стандартизации.
Третий этап поиска является определяющим, — от его реализации зависит, будет ли найденное решение пертинентно. На этом этапе пользователь работает с конечными документами, полученными в виде отклика ИПС. Полученные в результате обработки запросов отклики ИПС требуют, с одной стороны, скрупулезной работы пользователей-аналитиков и, с другой стороны развитых средств автоматизации аналитической работы, обеспечивающих:
• итеративное уточнение запросов;
• поиск по подобию;
• ранжирование выдаваемых документов;
• построение графических отчетов, визуализацию.
Процесс поиска непосредственно
Различные ИПС имеют собственные языки запросов или, как их ещё называют, информационно-поисковые языки (ИПЯ), позволяющие в той над иной мере описывать предметные области пользователей. Очевидно, что составление запросов должно базироваться на этих ИПЯ, однако сам процесс составления запросов допускает многовариантность и является своего рода искусством. (Поиск грибов)
При поиске в Internet следует четко определить информационные потребности, необходимую ретроспективу информации, круг поисковых серверов, специализирующихся на индексировании подобной информации, и даже предусмотреть заранее возможный результат, подобрав несколько известных документ сходной тематики.
Пользователь Internet должен определить необходимые ему поисковые серверы и каталоги. Выбрав необходимые поисковые ресурсы, пользователь Internet составляет поисковое предписание, соответствующее интересующей его тематике. Только при этом он осознанно формирует запрос на ИПЯ.
Пользователь Internet, анализируя отклик ИПС, выбирает ссылки на документы-которые, по его мнению, действительно соответствуют его информационным потребностям. Далее он выходит непосредственно на первоисточники, анализирует ихи копирует себе только ту информацию, которая является наиболее полезной для него.
Как и любой поиск, поиск в Internet является искусством, и ему присуща многовариантность и творческий подход. Поиск в Internet можно рассматривать и с точки зрения его этапности.
Запросы пользователей
Основная масса пользователей не хочет прикладывать особых интеллектуальных усилий при формировании критериев поиска. Удивительно низким оказывается процент использования запросов, усложненных хотя бы одним логическим или контекстным оператором. Если и используются операторы, то это, в основном, булевы AND и OR. Доля использования операторов контекстной близости и логического отрицания (NOT) не превышает 1-2%. В то же время реализация отработки сложных запросов (которых пока не более 20%) и определяет эффективность использования времени, проводимого пользователем в Internet.
Согласно исследованию, проведенному OneStat.com в 2004 году, большинство поисковых запросов в Сети состоят из двух слов — 32,58% от общего количества. Распределение запросов по количеству слов, полученное аналитической службой OneStat
Количество слов в запросе Количество запросов в процентах
1 19,02
2 32,58
3 25,61
4 12,83
5 5,64
6 2,32
7 0,98
8 и более 1,02
Среди поисковых запросов год от года преобладают все более сложные конструкции — чтобы найти что-то конкретное, пользователям приходится прибегать к все более сложным поисковым запросам. Кроме того, очень большое значение имеет ранжирование результатов поиска, т.е. порядок следования документов, предъявляемых пользователю. Так, исследователи из IST, проанализировав характер свыше 450 тыс. запросов, выданных за cутки поисковой системе alltheweb.com, обнаружили, что пользователи чаще всего
просматривают первые три ссылки, полученные по запросу, очень быстро оценивают найденные сайты и еще быстрее разочаровываются в результатах. Другие исследования показали, что 75% пользователей удовлетворяются первыми 10-15 результатами поиска. И только 20% просматривают результаты на второй странице и менее 5% добираются до третьей и последующей страниц с результатами поиска.
Для ввода сложных запросов требуется использование булевых и контекстных операторов, скобок, указание полей и тому подобное, что недоступно для среднестатистического пользователя.
Некоторые возможности языков запросов наиболее популярных систем — возможности, которые есть в распоряжении пользователей, но которые используются в очень небольшой части.
Во всех современных системах реализованы булевы операторы AND, OR и NOT, а также работа со скобками.
Иногда на логично сформулированный запрос выдается тысяча документов, имеющих слабое отношение к информационным потребностям. В этом случае рекомендуется применить два метода:
¾ первый — кардинальный — полностью переформулировать запрос, изменив представление о возможном поисковом образе;
¾ второй — уточнить запрос с помощью добавления еще одного условия с применением операции конъюнкции (оператора логического "И").
Второй путь реализуется в большинстве систем опцией "искать в найденном". В этом случае, не изменяя логики предыдущего запроса, а лишь уточняя его, можно добиться удовлетворительных результатов, например, если словосочетанию "стол деревянный" соответствуют 500 откликов, то уточнение "обеденный" приведет к двум десяткам документов.
Поиск подобных документов
Если при просмотре первых страниц результатов поиска выделено несколько пертинентных документов, то естественно, у пользователя возникает желание найти еще документы (или ссылки на них), сходные с ними по содержнию, не затрачивая интеллектуальных усилий на анализ и составление запроса. В результате многие ИПС реализовали опции "найти подобное", "fi similar", "like this". Однако этот режим не всегда ведет к удовлетворителным результатам при целевом поиске, но иногда приводит к получению полезных документов, имеющих косвенное отношение к теме первичного запроса. Такой режим реализован во многих современных ИПС, например, на серверах Excite, Google и Яndex.
Ранжирование откликов
Ранжирование выдаваемых документов, в отличие от предыдущей опци имеет большое значение в работе современных ИПС. Инструменты повышения пертинентности в современных системах, помимо возможностей уточнения формулировки запросов, предусматривают использование весовых критериев, что позволяет ранжировать найденные документы и выдавать пользователю для просмотра наиболее весомые документы либо вообще ограничиваться выдачей не более заданного числа наиболее весомых документов. Служба Google, которая реализовала алгоритмы достижения неформальной релевантности, благодаря чему в настоящее время стала самой популярной системой в Internet.
Ранжирование выдаваемых документов может выполняться: по дате создания/обновления документа, по степени важности (многие системы оценивав важность документов по весовым критериям или по количеству ссылок на них т.е. по цитированию).
Ранжирование по дате имеет особое значение при поиске новостных сообщений средств массовой информации и информационных агентств. Ранжирование по индексу цитирования, аналогичное оценке значимости научных публикаций в традиционной научной среде, впервые ввела Google, продемонстрировавшая эффективность такого подхода для Web-пространства.
Поиск по словам и словоформам
Все поисковые системы обеспечивают поиск хотя бы по одному слову. Поиск по словоформам является результатом серьезного лингвистического анализа и реализован в русскоязычных системах Апорт, Яndex и Рамблер. К примеру, в системе Апорт, независимо от того, в какой грамматической форме указано слово в запросе, оно находится в базе данных во всех своих формах. В этой системе запрос "ребенок шел" эквивалентен запросу "дети идут".
В системах Яndex и Рамблер, если слово участвует в запросе, учитываются также все его формы. Для поиска по конкретному слову, а не всем словоформам, перед ним ставится символ "!" (Яndex) или оно берется в кавычки (Рамблер).
Логические операторы
Во всех современных системах реализованы булевы операторы AND, OR и NOT, а также работа со скобками. В режимах простого поиска булевы операторы реализуются не всегда указанием их в явном виде. Например, во многих поисковых системах пробел между словами запроса по умолчанию воспринимается как оператор AND (Allthenews, Google, МЕТА и UAport).
В Alltheweb допускается использование перед словами операторов + и - фактически как синонимов операторов AND и NOT соответственно. Точно так же используются эти операторы в AltaVista, Excite, Lycos и Апорт. Можно отметить, что у самой популярной сегодня системы Google — самый лаконичный набор логических операторов: +, OR и —.
Операторы контекстной близости
Большинство профессиональных поисковых систем обеспечивает выполнение операций контекстной близости, одна из реализаций которой — поиск выражений в кавычках.
Например, в системе Google реализована только возможность поиска по фразам в кавычках, в AltaVista реализован оператор NEAR (~), обеспечивающий нахождение документов, у которых два слова находятся на расстоянии не более 10 слов. В системе Lycos функции контекстной близости получили наибольшее развитие и реализованы с помощью четырех операторов: ADJ, NEAR, FAR и BEFORE. Оператор ADJ обеспечивает близость двух слов в тексте в любом порядке, а оператор NEAR позволяет находить документы, в которых слова-операнды удалены не более, чем на 25 слов. FAR — оператор, противоположный по смыслу оператору NEAR, т.е. он исключает близость терминов запроса в пределах 25 слов текста документа, а оператор BEFORE похож на оператор ADJ, только с учетом порядка встречаемости терминов в тексте.
Оригинально решен вопрос контекстной близости в системе Рамблер. Значение ограничения контекста в этой системе можно изменять конструкцией {число, запрос), где число — любое положительное число, а запрос — любой корректный запрос, состоящий более чем из одного слова. Таким образом, по запросу (2, красная роза) будут найдены только те документы, в которых между словами "красная" и "роза" хотя бы раз не стоит ни одного слова. Например, запрос "яблоки на снегу" эквивалентен запросам "яблоки и снег", "яблоки под снегом", "яблоко снег".
Большинство из названных систем способно реализовать контекстный поиск заключенной в кавычки фразы (Google, Alltheweb, AltaVista, Lycos и др.). Такая способность — это реализация неявно указанных с помощью кавычек операторов контекстной близости.
Поиск по параметрам
Отдельного рассмотрения заслуживает возможность поиска по параметрам документов, которая позволяет ограничивать диапазон поиска значениями URL, датами, заглавиями и т.п. Чаще всего получить такую возможность можно из режима расширенного поиска.
Например, в система Alltheweb можно указать параиетры, обеспечивающие поиск по таким элементам:
• URL — url: (например, по запросу urkenerg будут найдены документ в URL которых имеется строка "energ");
• ссылки на страницы сайтов — link:;
• доменные имена — site: (например, site:ua обеспечит нахождение докум> тов из украинского домена);
• заголовки — title:.
В Google обеспечивается поиск по сайту (site:), определение ссылок на с; (admission site:), поиск по ценам, например DVD player $250..350, странам, датам, доменам и т.д. В поле ввода запроса можно вводить и арифметические выражения, иcпользуя интерфейс Google как калькулятор, что, конечно же, подчеркивает своеобразность данной системы (например, по запросу 4Л2 будет выведен результат 16).
Тернистый путь прогресса
Синтаксис запросов к популярным поисковым системам в последнее время значительно упростился. Вместе с тем, качество откликов постоянно улучшается, несмотря на лавинообразный рост ресурсов Сети. Традиционные подходы к поиску, основанные на использовании логических операторов, потерпели крах одновременно с бумом Web-технологий. Незавидна роль традиционных систем искусственного интеллекта в этой"семантической революции". Системы, основанные на базах знаний, в большинстве своем не выдержали силы потока Internet-информации. При этом возник новый класс систем, который все же позволяет справлятся с проблемой "размерности" Сети. Сегодня содержательные, семантически наполненые результаты формируются без непосредственного привлечения методов искусственного интеллекта, объемных баз знаний и даже экспертов как таковых, лишь путём использования частотно-лингвистических и эвристических методов. Эфективно работают в основном системы, базирующиеся именно на таких методах.
Популярные сетевые информационно-поисковые службы
Для обеспечения полноты поиска необходимо знать степень охвата информационных ресурсов Internet поисковыми системами. Сегодня (2005) ведущими по охвату информационных ресурсов Internet являются поисковые системы Google и Alltheweb. Вместе с тем, даже эти системы охватывают всего лишь третью часть (по другим данным - 10 %) существующих Web-страниц. Количество поисковых серверов, охватывающих Internet, а не отдельные его части, ограничено несколькими десятками. Лидерами являются такие поисковые машины, как:
• http://www.google.com
• http://search.yahoo.com
• http://www.ask.com
• http://www.alltheweb.com
• http://www.altavista.com
• http://www.lycos.com
Среди российских поисковых серверов особого внимания заслуживают три — это Yandex (http://www.yandex.ru), Рамблер (http://www.rambler.ru) и Апорт (http://www.aport.ru).
Крупнейшие зарубежные службы
В январе 1996 года будущие основатели Google, студенты Сергей Брин и Лар-ри Пэйдж, начали совместную работу над поисковой системой под названием BackRub. В сентябре 1998 года ими была основана компания Google. Название поисковой системы Google было образовано в результате игры букв в слове "googol". Этим компания хотела подчеркнуть свое намерение индексировать и обрабатывать большие объемы информации.
К 2000 году служба Google заняла лидирующее положение на рынке сетевых поисковых систем; трафик к ней непрерывно растет в течение шести лет. В 2002 году Google на короткое время отдала первенство по объему поискового индекса системе Alltheweb, но в настоящее время вновь заняла устойчивое первое место, охватывая свыше 4 млрд документов, и осуществляет более 200 млн поисковых операций в день. Поисковая машина Google позволяет искать как без учетов специфики алфавитов и языков, так и с учетом особенностей свыше 97 языков.
Сервисы Google???
Компания является лидером поискового рынка во всем мире. В США ее предпочитают 34,7% пользователей, тогда как в мире доля Google на рынке англоязычного поиска достигает 43,3%. Большинство пользователей службы находятся за пределами США. Самым близким преследователем Google является компания Yahoo!, до недавнего времени также применявшая поисковую технологию Google, но в начале 2004 года сменившая ее на собственную систему.
Сегодня 95% всех поисковых операций в Сети в США осуществляется через эти две компании, Google и Yahoo!, либо напрямую, либо через другие сайты, использующие их технологию. Множество компаний используют поисковую технологию Google в своих сервисах, например Интернет-провайдер America Online и российский холдинг Mail.ru.
Google позволяет проводить поиск в таких сегментах, как обычные Web-документы, изображения, телеконференции Usenet, новости, а также в собственном каталоге.
Очень удобной функцией является cache. Благодаря этой функции пользователь может просмотреть проиндексированную страницу, даже если она удалена или сервер, на котором расположена страница, недоступен. Так, в середине 2002 года правительство КНР временно запретило доступ китайских пользователей к Google именно из-за наличия этой функции, поскольку система в полном объеме предоставила контент сайтов, зафильтрованный по политическим мотивам.






