Тема 2. Мировой рынок информационных услуг

Основные этапы развития мирового рынка информационных ресурсов и услуг. Ведущие мировые информационные агентства, предоставляемые ими услуги и цены, используемые технологии доступа к информации. Коммерческие базы данных LEXIS-NEXIS и QUESTEL-ORBIT.

Основная литература

1. А.В. Хорошилов, С.Н. Селетков. Мировые информационные ресурсы. – СПб.: Питер, 2004., с. 13-34.

Дополнительная литература

2. Арский Ю.М., Гиляревский Р.С. и др. Информационный рынок России. – М.: ВИНИТИ. 1996.

3. Базы данных России. Каталог. Выпуск 5. – М: НТЦ. Информрегистр. 1999.

4. Введение в информационный бизнес. Под редакцией В.П. Тихомирова, А.В, Хорошилова – М: Финансы и статистика, 1996.

 

Задача автоматического построения каче­ственных тематических сюжетов на основе потоков сетевой новостной ин­формации сегодня (2005) практически решена. Например, полностью автоматические средства системы InfoStream, обрабатывая поток новостной информации, пре­вышающий 25 000 документов в сутки, обеспечивают полноту свыше 80% и точность около 95%.

 

Релевантность и пертинентность

Под релевантностью понимается формальное соответствие информации, выда­ваемой системой, запросу.

Если по запросу пользователя получено N документов, представляющих собой объединение двух множеств документов: соответствующих запросу (их количество — А) и не соответствующих (В ), т.е. N=А+В, тогда релевантность, как степень соответствия, определяется по формуле Р = АlN) х 100%, а шум — по формуле S = В /N) х 100%

Это определение характерно для формальной релевантности, однако на практи­ке используется другое, неформальное понятие — пертинентность - соотношение объема полезной для пользователя информации к общему объему полученной информации.

 

Формальный запрос к системе является предме­том творческого осмысления информационной потребности и не всегда точно от­ражает последнюю. Неумение большинством пользователей правильно формули­ровать запросы и получать приемлемые объемы отклика породило в конце XX века мнение об Internet как об огромной информационной свалке.

Средства повышения пертинентности в современных системах, помимо возможностей уточнения формулировки запросов, включает и весовые критерии, позволяющнеранжировать найденные документы и выдавать пользователю для про­смотра наиболее весомые документы либо вообще ограничиваться выдачей не более заданного числа наиболее весомых документов.

 

Этапы поисковой процедуры

Процедура поиска имеет вполне определенную этапность — от определения информационной потребности и области поиска до анали­за результатов и выбора пертинентных объектов.

В искусстве поиска первый этап — дебют. На этой фазе определяется цель поиска, его стратегия и область проведения (поисковые серверы, каталоги, тематические порталы).

Информационные потребности пользователя могут относиться к разным областям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей прихо­дится именно на типовые области применения:

• поиск отдельных Web-страниц;

• поиск новостей;

• поиск людей и организаций;

• поиск литературных произведений;

• поиск программного обеспечения;

• поиск музыкальных произведений;

• поиск графических изображений;

• поиск видеоинформации;

• поиск коммерческой информации.

Вторая, оперативная, часть поисковой процедуры предполагает многовариантность подходов и решений при формализации запросов в процессе их отработки. В этом случае также аналитик-профессионал приходит к необхо­димости использования весьма ограниченного числа поисковых серверов, ката­логов и отдельных web-ресурсов для решения своей задачи. Основной задачей второго этапа является формирование эффективных запросов к ИПС.

Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере используется свой информационно-поисковый язык (ИПЯ), несмотря на то, что у различных языков этого типа много общего, — например, схожий набор булевых операций. В настоящее время не существует единого стандарта, подобного стандарту языка SQL для СУБД, хотя на протяжении многих лет ведутся попытки такой стандартизации.

Третий этап поиска является определяющим, — от его реализации зависит, будет ли найденное решение пертинентно. На этом этапе пользователь работает с конечными документами, полученными в виде от­клика ИПС. Полученные в результате обработки запросов отклики ИПС требуют, с одной стороны, скрупулезной работы пользователей-аналитиков и, с другой стороны развитых средств автоматизации аналитической работы, обеспечивающих:

• итеративное уточнение запросов;

• поиск по подобию;

• ранжирование выдаваемых документов;

• построение графических отчетов, визуализацию.

 

Процесс поиска непосредственно

 

Различные ИПС имеют собственные языки запросов или, как их ещё называют, информационно-поисковые языки (ИПЯ), позволяющие в той над иной мере описывать предметные области пользователей. Очевидно, что составление запросов должно базироваться на этих ИПЯ, однако сам процесс составления запросов допускает многовариантность и является своего рода искусством. (Поиск грибов)

При поиске в Internet следует четко определить информационные потребности, необходимую ретроспективу информации, круг поисковых серверов, специализирующихся на индексировании подобной информации, и даже преду­смотреть заранее возможный результат, подобрав несколько известных документ сходной тематики.

Пользователь Internet должен определить необходимые ему поисковые серверы и каталоги. Выбрав необходимые поисковые ресурсы, пользователь Internet составляет поисковое предписание, соответствующее интересующей его темати­ке. Только при этом он осознанно формирует запрос на ИПЯ.

Пользователь Internet, анализируя отклик ИПС, выбирает ссылки на документы-которые, по его мнению, действительно соответствуют его информационным потреб­ностям. Далее он выходит непосредственно на первоисточники, анализирует ихи копирует себе только ту информацию, которая является наиболее полезной для него.

Как и любой поиск, поиск в Internet является искусством, и ему присуща многовариантность и творческий подход. Поиск в Internet можно рассматривать и с точки зрения его этапности.

 

Запросы пользователей

Основная масса пользователей не хочет прикладывать особых интеллектуальных усилий при формировании критериев поиска. Удивительно низким оказывается процент использования запросов, усложненных хотя бы одним логическим или контекстным оператором. Если и используются операторы, то это, в основном, булевы AND и OR. Доля использования операторов контекстной близости и ло­гического отрицания (NOT) не превышает 1-2%. В то же время реализация отра­ботки сложных запросов (которых пока не более 20%) и определяет эффектив­ность использования времени, проводимого пользователем в Internet.

Согласно исследованию, проведенному OneStat.com в 2004 году, большинство поисковых запросов в Сети состоят из двух слов — 32,58% от об­щего количества. Распределение запросов по количеству слов, полученное анали­тической службой OneStat

Количество слов в запросе Количество запросов в процентах

1 19,02

2 32,58

3 25,61

4 12,83

5 5,64

6 2,32

7 0,98

8 и более 1,02

 

Среди поисковых запросов год от года преобладают все более сложные конструкции — чтобы найти что-то конкретное, пользователям приходится прибегать к все более сложным поисковым запросам. Кроме того, очень большое значение имеет ранжирование результатов поиска, т.е. порядок следования документов, предъявляемых пользователю. Так, исследо­ватели из IST, проанализировав характер свыше 450 тыс. запросов, выданных за cутки поисковой системе alltheweb.com, обнаружили, что пользователи чаще всего

просматривают первые три ссылки, полученные по запросу, очень быстро оцени­вают найденные сайты и еще быстрее разочаровываются в результатах. Другие ис­следования показали, что 75% пользователей удовлетворяются первыми 10-15 ре­зультатами поиска. И только 20% просматривают результаты на второй странице и менее 5% добираются до третьей и последующей страниц с результатами поиска.

 Для ввода сложных запросов требуется использование булевых и контекст­ных операторов, скобок, указание полей и тому подобное, что недоступно для среднестатистического пользователя.

Некоторые возможности языков запросов наиболее популярных систем — возможности, которые есть в распоряжении пользователей, но которые используются в очень небольшой части.

Во всех современных системах реализова­ны булевы операторы AND, OR и NOT, а также работа со скобками.

 

Иногда на логично сформулированный запрос выдает­ся тысяча документов, имеющих слабое отношение к информационным потреб­ностям. В этом случае рекомендуется применить два метода:

¾ первый — карди­нальный — полностью переформулировать запрос, изменив представление о возможном поисковом образе;

¾ второй — уточнить запрос с помощью добавле­ния еще одного условия с применением операции конъюнкции (оператора логи­ческого "И").

Второй путь реализуется в большинстве систем опцией "искать в найденном". В этом случае, не изменяя логики предыдущего запроса, а лишь уточняя его, можно добиться удовлетворительных результатов, например, если словосочетанию "стол деревянный" соответствуют 500 откликов, то уточнение "обеденный" приведет к двум десяткам документов.

Поиск подобных документов

Если при просмотре первых страниц результатов поиска выделено несколько пертинентных документов, то естественно, у пользователя возникает желание найти еще документы (или ссылки на них), сходные с ними по содержнию, не затрачивая интеллектуальных усилий на анализ и составление запроса. В результате многие ИПС реализовали опции "найти подобное", "fi similar", "like this". Однако этот режим не всегда ведет к удовлетворителным результатам при целевом поиске, но иногда приводит к получению полезных документов, имеющих косвенное отношение к теме первичного запроса. Такой режим реализован во многих современных ИПС, например, на серверах Excite, Google и Яndex.

 

Ранжирование откликов

Ранжирование выдаваемых документов, в отличие от предыдущей опци имеет большое значение в работе современных ИПС. Инструменты повышения пертинентности в современных системах, помимо возможностей уточнения формулировки запросов, предусматривают использование весовых критериев, что позволяет ранжировать найденные документы и выдавать пользователю для просмотра наиболее весомые документы либо вообще ограничиваться выдачей не более заданного числа наиболее весомых документов. Служба Google, которая реализовала алгоритмы достижения неформальной релевантности, благодаря чему в настоящее время стала самой популярной системой в Internet.

Ранжирование выдаваемых документов может выполняться: по дате создания/обновления документа, по степени важности (многие системы оценивав важность документов по весовым критериям или по количеству ссылок на них т.е. по цитированию).

Ранжирование по дате имеет особое значение при поиске новостных сообщений средств массовой информации и информационных агентств. Ранжирование по индексу цитирования, аналогичное оценке значимости научных публикаций в традиционной научной среде, впервые ввела Google, продемонстрировавшая эффективность такого подхода для Web-пространства.

 

Поиск по словам и словоформам

 

Все поисковые системы обеспечивают поиск хотя бы по одному слову. Поиск по словоформам является результатом серьезного лингвистического анализа и реализован в русскоязычных системах Апорт, Яndex и Рамблер. К примеру, в системе Апорт, независимо от того, в какой грамматической форме указано слово в запросе, оно находится в базе данных во всех своих формах. В этой системе запрос "ребенок шел" экви­валентен запросу "дети идут".

В системах Яndex и Рамблер, если слово участвует в запросе, учитываются также все его формы. Для поиска по конкретному слову, а не всем словоформам, перед ним ставится символ "!" (Яndex) или оно берется в кавычки (Рамблер).

 

Логические операторы

 

Во всех современных системах реализованы булевы операторы AND, OR и NOT, а также работа со скобками. В режимах простого поиска булевы операторы реализуются не всегда указанием их в явном виде. Например, во многих поисковых системах пробел между словами запроса по умолчанию воспринимается как оператор AND (Allthenews, Google, МЕТА и UAport).

В Alltheweb допускается ис­пользование перед словами операторов + и - фактически как синонимов операторов AND и NOT соответственно. Точно так же используются эти операторы в AltaVista, Excite, Lycos и Апорт. Можно отметить, что у самой популярной сегодня систе­мы Google — самый лаконичный набор логических операторов: +, OR и —.

Операторы контекстной близости

Большинство профессиональных поисковых систем обеспечивает выполнение операций контекстной близости, одна из реализаций которой — поиск выраже­ний в кавычках.

Например, в системе Google реализована только возможность поиска по фра­зам в кавычках, в AltaVista реализован оператор NEAR (~), обеспечивающий на­хождение документов, у которых два слова находятся на расстоянии не более 10 слов. В системе Lycos функции контекстной близости получили наибольшее развитие и реализованы с помощью четырех операторов: ADJ, NEAR, FAR и BEFORE. Оператор ADJ обеспечивает близость двух слов в тексте в любом по­рядке, а оператор NEAR позволяет находить документы, в которых слова-операнды удалены не более, чем на 25 слов. FAR — оператор, противоположный по смыслу оператору NEAR, т.е. он исключает близость терминов запроса в пре­делах 25 слов текста документа, а оператор BEFORE похож на оператор ADJ, только с учетом порядка встречаемости терминов в тексте.

Оригинально решен вопрос контекстной близости в системе Рамблер. Значение ограничения контекста в этой системе можно изменять конструкцией {число, запрос), где число — любое положительное число, а запрос — любой корректный запрос, состоящий более чем из одного слова. Таким образом, по запросу (2, красная роза) будут найдены только те документы, в которых между словами "красная" и "роза" хотя бы раз не стоит ни одного слова. Например, запрос "яблоки на снегу" эквивалентен запросам "яблоки и снег", "яблоки под снегом", "яблоко снег".

Большинство из названных систем способно реализовать контекстный поиск заключенной в кавычки фразы (Google, Alltheweb, AltaVista, Lycos и др.). Такая способность — это реализация неявно указанных с помощью кавычек операторов контекстной близости.

 

Поиск по параметрам

Отдельного рассмотрения заслуживает возможность поиска по параметрам документов, которая позволяет ограничивать диапазон поиска значениями URL, датами, заглавиями и т.п. Чаще всего получить такую возможность можно из режима расширенного поиска.

Например, в система Alltheweb можно указать параиетры, обеспечивающие поиск по таким элементам:

• URL — url: (например, по запросу urkenerg будут найдены документ в URL которых имеется строка "energ");

• ссылки на страницы сайтов — link:;

• доменные имена — site: (например, site:ua обеспечит нахождение докум> тов из украинского домена);

• заголовки — title:.

В Google обеспечивается поиск по сайту (site:), определение ссылок на с; (admission site:), поиск по ценам, например DVD player $250..350, странам, датам, доменам и т.д. В поле ввода запроса можно вводить и арифметические выражения, иcпользуя интерфейс Google как калькулятор, что, конечно же, подчеркивает своеобразность данной системы (например, по запросу 4Л2 будет выведен результат 16).

 

Тернистый путь прогресса

 

Синтаксис запросов к популярным поисковым системам в последнее время значительно упростился. Вместе с тем, качество откликов постоянно улучшается, несмотря на лавинообразный рост ресурсов Сети. Традиционные подходы к поиску, основанные на использовании логических операторов, потерпели крах одновременно с бумом Web-технологий. Незавидна роль традиционных систем искусственного интеллекта в этой"семантической революции". Системы, основанные на базах знаний, в большинстве своем не выдержали силы потока Internet-информации. При этом возник новый класс систем, который все же позволяет справлятся с проблемой "размерности" Сети. Сегодня содержательные, семантически наполненые результаты формируются без непосредственного привлечения методов искусственного интеллекта, объемных баз знаний и даже экспертов как таковых, лишь путём использования частотно-лингвистических и эвристических методов. Эфективно работают в основном системы, базирующиеся именно на таких методах.

 

Популярные сетевые информационно-поисковые службы

Для обеспечения полноты поиска необходимо знать степень охва­та информационных ресурсов Internet поисковыми системами. Сегодня (2005) ведущи­ми по охвату информационных ресурсов Internet являются поисковые системы Google и Alltheweb. Вместе с тем, даже эти системы охватывают всего лишь тре­тью часть (по другим данным - 10 %) существующих Web-страниц. Количество поисковых серверов, охва­тывающих Internet, а не отдельные его части, ограничено несколькими десятка­ми. Лидерами являются такие поисковые машины, как:

• http://www.google.com

• http://search.yahoo.com

• http://www.ask.com

• http://www.alltheweb.com

• http://www.altavista.com

• http://www.lycos.com

Среди российских поисковых серверов особого внимания заслуживают три — это Yandex (http://www.yandex.ru), Рамблер (http://www.rambler.ru) и Апорт (http://www.aport.ru).

 

Крупнейшие зарубежные службы

В январе 1996 года будущие основатели Google, студенты Сергей Брин и Лар-ри Пэйдж, начали совместную работу над поисковой системой под названием BackRub. В сентябре 1998 года ими была основана компания Google. Название поисковой системы Google было образовано в результате игры букв в слове "googol". Этим компания хотела подчеркнуть свое намерение индексировать и обрабатывать большие объемы информации.

К 2000 году служба Google заняла лидирующее положение на рынке сетевых по­исковых систем; трафик к ней непрерывно растет в течение шести лет. В 2002 году Google на короткое время отдала первенство по объему поискового индекса системе Alltheweb, но в настоящее время вновь заняла устойчивое первое место, охватывая свыше 4 млрд документов, и осуществляет более 200 млн поисковых операций в день. Поисковая машина Google позволяет искать как без учетов специфики ал­фавитов и языков, так и с учетом особенностей свыше 97 языков.

 

Сервисы Google???

 

Компания является лидером поискового рынка во всем мире. В США ее предпочитают 34,7% пользователей, тогда как в мире доля Google на рынке англоязычного поиска достигает 43,3%. Большинство пользователей службы на­ходятся за пределами США. Самым близким преследователем Google является компания Yahoo!, до недавнего времени также применявшая поисковую техно­логию Google, но в начале 2004 года сменившая ее на собственную систему.

Сегодня 95% всех поисковых операций в Сети в США осуществляется через эти две компании, Google и Yahoo!, либо напрямую, либо через другие сайты, ис­пользующие их технологию. Множество компаний используют поисковую тех­нологию Google в своих сервисах, например Интернет-провайдер America Online и российский холдинг Mail.ru.

Google позволяет проводить поиск в таких сегментах, как обычные Web-документы, изображения, телеконференции Usenet, новости, а также в собствен­ном каталоге.

Очень удобной функцией является cache. Благодаря этой функции пользова­тель может просмотреть проиндексированную страницу, даже если она удалена или сервер, на котором расположена страница, недоступен. Так, в середине 2002 года правительство КНР временно запретило доступ китайских пользователей к Google именно из-за наличия этой функции, поскольку система в полном объ­еме предоставила контент сайтов, зафильтрованный по политическим мотивам.

 




double arrow
Сейчас читают про: