Сегодня миллионам пользователей Интернет известны такие информационно-поисковые системы, как Google, Yahoo, AltaVista, AllTheWeb, MSN … Яndex, Рамблер, которые охватывает миллиарды Web-документов.
В отличие от реляционных СУБД, у систем полнотекстового поиска не существует стандартизированного языка запросов. У каждой системы этого типа существует свой способ задания критериев поиска. Очень часто языки запросов поисковых систем приближены к SQL, однако каждой из них присущ ряд индивидуальных особенностей, связанных с такими моментами, как:
- интерпретация операций, зависящих от порядка расположения слов в тексте (операций контекстной близости слов и др.);
- реализация вычисления близости найденных документов запросам (релевантности) для представления результатов поиска;
- применение нестандартных функций, требующих, например, использования методов искусственного интеллекта (нахождение документов по принципу подобия, построение дайджестов из фрагментов документов, сниппетов и др.)
В различных полнотекстовых ИПС различаются архитектуры, структуры данных, алгоритмы их обработки, методы организации поиска.
2) Характеристики ИПС:
- Полнота
- Релевантность
Понятие пертинентности как характеристики информационно-поисковой системы, означающее соответствие полученной информации информационной потребности.
Таблица оценки качества ИПС в TREC (РОМИП):
Коэффициент полноты:
p = a / (a + c)
Коэффициент точности:
n = a / (a + b)
Коэффициент осадков:
q = b / (a + b)
Коэффициент специфичности:
k = d / (b + d)
11-точечный график полноты/точности TREC (РОМИП)
11-точечный график полноты/точности отражает изменение точности в зависимости от требований к полноте и дает более полную информацию, чем единая метрика в виде одной цифры. По оси абсцисс на графике откладываются значения полноты, по оси ординат – значение точности при условии, что рассматривается начальный отрезок результатов запроса, на котором достигается заданный уровень полноты. Для запроса, которого известно n релевантных документов, полнота может принимать дискретные значения 0, 1/n, 2/n,..., 1.
Для того, чтобы можно было получать единый график полноты/точности для множества запросов
1. рассматриваются фиксированные значения полноты 0.0, 0.1, 0.2,..., 1.0 (всего 11 значений);
2. используется специальная процедура интерполяции точности для данных фиксированных значений полноты;
3. для множества запросов производится усреднение точности для заданных уровней полноты.
Интерполированное значение точности равно максимальному значению точности при уровне полноты большем или равным заданному.
Подробно описывается процедура построения 11-точечного графика, а также пример построения графика.
3) Технологические характеристики:
- скорость обработки запросов;
- полнота охвата ресурсов;
- вероятность получения ответа от системы;
- нахождение документов, подобных найденным;
- возможность уточнения запросов;
- возможность подключения переводчиков и т.д.