Сетевые ИПС

Сегодня миллионам пользователей Интернет известны такие информационно-поисковые системы, как Google, Yahoo, AltaVista, AllTheWeb, MSN … Яndex, Рамблер, которые охватывает миллиарды Web-документов.

В отличие от реляционных СУБД, у систем полнотекстового поиска не существует стандартизированного языка запросов. У каждой системы этого типа существует свой способ задания критериев поиска. Очень часто языки запросов поисковых систем приближены к SQL, однако каждой из них присущ ряд индивидуальных особенностей, связанных с такими моментами, как:

- интерпретация операций, зависящих от порядка расположения слов в тексте (операций контекстной близости слов и др.);

- реализация вычисления близости найденных документов запросам (релевантности) для представления результатов поиска;

- применение нестандартных функций, требующих, например, использования методов искусственного интеллекта (нахождение документов по принципу подобия, построение дайджестов из фрагментов документов, сниппетов и др.)

В различных полнотекстовых ИПС различаются архитектуры, структуры данных, алгоритмы их обработки, методы организации поиска.

2) Характеристики ИПС:

- Полнота

- Релевантность

Понятие пертинентности как характеристики информационно-поисковой системы, означающее соответствие полученной информации информационной потребности.

Таблица оценки качества ИПС в TREC (РОМИП):

Коэффициент полноты:

p = a / (a + c)

Коэффициент точности:

n = a / (a + b)

Коэффициент осадков:

q = b / (a + b)

Коэффициент специфичности:

k = d / (b + d)

11-точечный график полноты/точности TREC (РОМИП)

11-точечный график полноты/точности отражает изменение точности в зависимости от требований к полноте и дает более полную информацию, чем единая метрика в виде одной цифры. По оси абсцисс на графике откладываются значения полноты, по оси ординат – значение точности при условии, что рассматривается начальный отрезок результатов запроса, на котором достигается заданный уровень полноты. Для запроса, которого известно n релевантных документов, полнота может принимать дискретные значения 0, 1/n, 2/n,..., 1.

Для того, чтобы можно было получать единый график полноты/точности для множества запросов

1. рассматриваются фиксированные значения полноты 0.0, 0.1, 0.2,..., 1.0 (всего 11 значений);

2. используется специальная процедура интерполяции точности для данных фиксированных значений полноты;

3. для множества запросов производится усреднение точности для заданных уровней полноты.

Интерполированное значение точности равно максимальному значению точности при уровне полноты большем или равным заданному.

Подробно описывается процедура построения 11-точечного графика, а также пример построения графика.

3) Технологические характеристики:

- скорость обработки запросов;

- полнота охвата ресурсов;

- вероятность получения ответа от системы;

- нахождение документов, подобных найденным;

- возможность уточнения запросов;

- возможность подключения переводчиков и т.д.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: