Вывод показателя полезной работы АИПС базируется на предположении о том, что качество поиска АИПС тем выше, чем меньшее число документов просматривает пользователь. Пусть пользователю требуются релевантные документы в количестве х. При непосредственном просмотре (весь массив документов) трудозатраты (количество просмотренных документов) в среднем составляют:
В то время как при просмотре массива , имеющего точность р, затраты
Работа АИПС равна разности данных величин или высвобожденной информационной деятельности потребителя:
С учётом других координат и переменных выражение примет вид (замена: , по определению точности):
(1)
Пусть прямые параллельны 0р0 и проходят через различные точки прямой 0И. Общее уравнение прямой, проходящей через и имеющей наклон , есть (уравнение прямой ):
Подставим в формулу (1), имеем:
(=const)
Тем самым, на прямых вида величина остаётся постоянной. По мере приближения точки пересечения прямой с 0И к точке И данная константа увеличивается. Она приобретает отрицательное значение, если линия проходит ниже прямой 0р0.
Таким образом, удовлетворяет условиям:
Или в координатах <n,x>:
Установление пределов измерения позволяет нормировать эту величину:
Мера полезной работы ИС изменяется от +1 до -1, причём:
в точке И ή=+1 (идеальная система, выдающая все релевантные и только релевантные сообщения)
в точке Д ή=-1 (система, выдающая все нерелевантные и только нерелевантные сообщения - дизинформирующая)
На линии (т.к. здесь )
В треугольнике ; В треугольнике ;
38. Матрицы "термин-документ", "термин-термин" и их свойства.
Используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор), содержащего множество лексических единиц всего потока документов (то есть все слова, числа и прочие обозначения, использованные во всех документах системы). Таким образом, li принадлежит D для всех i, где li — совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L: L={l1,...,li,..., ln}, li L для всех i
Аналогично универсальному словарю введем понятие универсального массива L0 (ИМЕТЬ В ВИДУ, НО ЛУЧШЕ НЕ ПИСАТЬ: прообразы — поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библиотеки), подмножеством которого являются все документы:
L0 = {l1,...,li,..., l n0 }, li L0 для всех i, причем | L0 | = n0, где n0, — мощность множества L0. Линейное представление теоретико-множественного образа документа:
lk= , где bik= 1-если i-й термин входит в k-й документ;0- если не входит.
Универсальный массив в линейном представлении есть матрица размерности D х n0:
Подобные матрицы известны под названием матрицы « термин—документ ». Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем.Таким образом, столбец матрицы характеризует ПОД. L0= Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина: Fi=∑bik.
Составим матрицу , где .Матрица имеет размерность . Внедиагональный элемент есть количество появлений i-го термина в . Матрицы такого типа называют «матрица термин-термин» и характеризуют взаимосвязь терминов в данном массиве.
39.Диаграмма Эйлера-Венна (диаграмма < L >). Критерии оценки АИПС в координатах < L >.
Диаграмма <L>, или диаграмма Эйлера — Венна (рис. 4.3): представляет соотношение множеств — всего информационного потока, — множества истинно релевантных документов и — множества выданных документов. Соотношение этих множеств и количественные оценки меры их близости могут характеризовать эффективность поискового механизма системы.
Критерии оценки АИПС в координатах <L>
a) частные критерии оценки:
1) Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r=|LИ ∩LC|/|LИ|;
2) Точность – доля релевантных документов во множестве выданных: p=|LИ ∩LC|/|LC|;
3) Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ=|L0\ (LИ ULC)| / |L0\LИ|;
4) Общность- характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=|LИ|/|L0|;
5) Относительный объем выдачи: v=|LC|/|L0|.
6) интегральные критерии оценки:
1) Показатель полезной работы - базируется на предположении о том, что качество поиска АИПС тем выше, чем в большей степени потребитель освобождается от необходимости полного просмотра массива документов: обозначив , | |= , , перепишем в координатах <L>:
;
2)Коэффициент линейной корреляции - корреляционный момент двух случайных величин: С – «быть выданным документом», И – «быть релевантным документом»:
; обозначив , | |= , , перепишем R в координатах <L>: .
40.Таблица сопряжённости. Критерии оценки АИПС в координатах <a,b,c,d>.
Таблица сопряженности <a,b,c,d>
отображает количественное соотношение выданных системой множеств релевантных (с точки зрения потребителя) и нерелевантных документов и не выданных множеств релевантных и нерелевантных документов.
релевантные | нерелевантные | |
выданные | a | b |
невыданные | c | d |
Критерии оценки АИПС в координатах <a,b,c,d>
частные критерии оценки:
Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r=a/(a+c);
Точность – доля релевантных документов во множестве выданных: p=a/(a+b);
Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ=d/(b+d);
Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=(a+c)/(a+b+c+d);
Относительный объем выдачи: v=(a+b)/(a+b+c+d).
интегральные критерии оценки:
Показатель полезной работы - базируется на предположении о том, что качество поиска АИПС тем выше, чем в большей степени потребитель освобождается от необходимости полного просмотра массива документов: ;
Коэффициент линейной корреляции - корреляционный момент двух случайных величин: С – «быть выданным документом», И – «быть релевантным документом»:
.
41. Диаграмма < n,x >. Критерии оценки АИПС в координатах < n,x >.
(Выданные релевантные сообщения)
X - выданные релевантные документы
n- все выданные документы
Допустимые выдачи находятся в незаштрихованной области 0Ир0Д, ограниченной прямыми линиями:
0И:х=n;(т.е когда число выданных равно числу релевантных) Ир0:х = х0;(т.е выданные релевантные равны всем релевантным) р0Д: х = п - (п0 - х0); (п0 - х0 – нерелевантные документы) Д0:х=0.
Критерии оценки АИПС в координатах <n,x>:
1) Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r= x/x0;
2) Точность – доля релевантных документов во множестве выданных: p=x/n;
3) Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ= 1- (n-x)/(n0 – x0);
4) Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=x0/n0;
5) Относительный объем выдачи: v=n/n0.