Вывод показателя полезной работы АИПС базируется на предположении о том, что качество поиска АИПС тем выше, чем меньшее число документов просматривает пользователь. Пусть пользователю требуются релевантные документы в количестве х. При непосредственном просмотре
(весь массив документов) трудозатраты (количество просмотренных документов) в среднем составляют:

В то время как при просмотре массива
, имеющего точность р, затраты

Работа АИПС равна разности данных величин или высвобожденной информационной деятельности потребителя:

С учётом других координат и переменных выражение примет вид (замена:
, по определению точности):
(1)
Пусть прямые
параллельны 0р0 и проходят через различные точки прямой 0И. Общее уравнение прямой, проходящей через
и имеющей наклон
, есть (уравнение прямой
):

Подставим в формулу (1), имеем:
(=const)
Тем самым, на прямых вида
величина
остаётся постоянной. По мере приближения точки пересечения прямой с 0И к точке И данная константа увеличивается. Она приобретает отрицательное значение, если линия проходит ниже прямой 0р0.
Таким образом,
удовлетворяет условиям:

Или в координатах <n,x>:

Установление пределов измерения
позволяет нормировать эту величину:

Мера полезной работы ИС изменяется от +1 до -1, причём:
в точке И ή=+1 (идеальная система, выдающая все релевантные и только релевантные сообщения)
в точке Д ή=-1 (система, выдающая все нерелевантные и только нерелевантные сообщения - дизинформирующая)
На линии
(т.к. здесь
)
В треугольнике
; В треугольнике
;

38. Матрицы "термин-документ", "термин-термин" и их свойства.
Используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор), содержащего множество лексических единиц всего потока документов (то есть все слова, числа и прочие обозначения, использованные во всех документах системы). Таким образом, li принадлежит D для всех i, где li — совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L: L={l1,...,li,..., ln}, li
L для всех i
Аналогично универсальному словарю введем понятие универсального массива L0 (ИМЕТЬ В ВИДУ, НО ЛУЧШЕ НЕ ПИСАТЬ: прообразы — поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библиотеки), подмножеством которого являются все документы:
L0 = {l1,...,li,..., l n0 }, li
L0 для всех i, причем | L0 | = n0, где n0, — мощность множества L0. Линейное представление теоретико-множественного образа документа:
lk=
, где bik=
1-если i-й термин входит в k-й документ;0- если не входит.
Универсальный массив в линейном представлении есть матрица размерности D х n0:
Подобные матрицы известны под названием матрицы « термин—документ ». Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем.Таким образом, столбец матрицы характеризует ПОД. L0= Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина: Fi=∑bik.
Составим матрицу
, где
.Матрица
имеет размерность
. Внедиагональный элемент
есть количество появлений i-го термина в
. Матрицы такого типа называют «матрица термин-термин» и характеризуют взаимосвязь терминов в данном массиве.
39.Диаграмма Эйлера-Венна (диаграмма < L >). Критерии оценки АИПС в координатах < L >.
Диаграмма <L>, или диаграмма Эйлера — Венна (рис. 4.3): представляет соотношение множеств
— всего информационного потока,
— множества истинно релевантных документов и
— множества выданных документов. Соотношение этих множеств и количественные оценки меры их близости могут характеризовать эффективность поискового механизма системы.
Критерии оценки АИПС в координатах <L>
a) частные критерии оценки:
1) Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r=|LИ ∩LC|/|LИ|;
2) Точность – доля релевантных документов во множестве выданных: p=|LИ ∩LC|/|LC|;
3) Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ=|L0\ (LИ ULC)| / |L0\LИ|;
4) Общность- характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=|LИ|/|L0|;
5) Относительный объем выдачи: v=|LC|/|L0|.
6) интегральные критерии оценки:
1) Показатель полезной работы - базируется на предположении о том, что качество поиска АИПС тем выше, чем в большей степени потребитель освобождается от необходимости полного просмотра массива документов:
обозначив
, |
|=
,
,
перепишем
в координатах <L>:
;
2)Коэффициент линейной корреляции - корреляционный момент двух случайных величин: С – «быть выданным документом», И – «быть релевантным документом»:
; обозначив
, |
|=
,
,
перепишем R в координатах <L>:
.
40.Таблица сопряжённости. Критерии оценки АИПС в координатах <a,b,c,d>.
Таблица сопряженности <a,b,c,d>
отображает количественное соотношение выданных системой множеств релевантных (с точки зрения потребителя) и нерелевантных документов и не выданных множеств релевантных и нерелевантных документов.
| релевантные | нерелевантные | |
| выданные | a | b |
| невыданные | c | d |
Критерии оценки АИПС в координатах <a,b,c,d>
частные критерии оценки:
Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r=a/(a+c);
Точность – доля релевантных документов во множестве выданных: p=a/(a+b);
Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ=d/(b+d);
Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=(a+c)/(a+b+c+d);
Относительный объем выдачи: v=(a+b)/(a+b+c+d).
интегральные критерии оценки:
Показатель полезной работы - базируется на предположении о том, что качество поиска АИПС тем выше, чем в большей степени потребитель освобождается от необходимости полного просмотра массива документов:
;
Коэффициент линейной корреляции - корреляционный момент двух случайных величин: С – «быть выданным документом», И – «быть релевантным документом»:
.
41. Диаграмма < n,x >. Критерии оценки АИПС в координатах < n,x >.
(Выданные релевантные сообщения)

X - выданные релевантные документы
n- все выданные документы
Допустимые выдачи находятся в незаштрихованной области 0Ир0Д, ограниченной прямыми линиями:
0И:х=n;(т.е когда число выданных равно числу релевантных) Ир0:х = х0;(т.е выданные релевантные равны всем релевантным) р0Д: х = п - (п0 - х0); (п0 - х0 – нерелевантные документы) Д0:х=0.
Критерии оценки АИПС в координатах <n,x>:
1) Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r= x/x0;
2) Точность – доля релевантных документов во множестве выданных: p=x/n;
3) Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ= 1- (n-x)/(n0 – x0);
4) Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=x0/n0;
5) Относительный объем выдачи: v=n/n0.






