Понятие рабочей характеристики АИПС

Вывод показателя полезной работы АИПС базируется на предположении о том, что качество поиска АИПС тем выше, чем меньшее число документов просматривает пользователь. Пусть пользователю требуются релевантные документы в количестве х. При непосредственном просмотре (весь массив документов) трудозатраты (количество просмотренных документов) в среднем составляют:

В то время как при просмотре массива , имеющего точность р, затраты

Работа АИПС равна разности данных величин или высвобожденной информационной деятельности потребителя:

С учётом других координат и переменных выражение примет вид (замена: , по определению точности):

(1)

Пусть прямые параллельны 0р0 и проходят через различные точки прямой 0И. Общее уравнение прямой, проходящей через и имеющей наклон , есть (уравнение прямой ):

Подставим в формулу (1), имеем:

(=const)

Тем самым, на прямых вида величина остаётся постоянной. По мере приближения точки пересечения прямой с 0И к точке И данная константа увеличивается. Она приобретает отрицательное значение, если линия проходит ниже прямой 0р0.

Таким образом, удовлетворяет условиям:

Или в координатах <n,x>:

Установление пределов измерения позволяет нормировать эту величину:

Мера полезной работы ИС изменяется от +1 до -1, причём:

в точке И ή=+1 (идеальная система, выдающая все релевантные и только релевантные сообщения)

в точке Д ή=-1 (система, выдающая все нерелевантные и только нерелевантные сообщения - дизинформирующая)

На линии (т.к. здесь )

В треугольнике ; В треугольнике ;

38. Матрицы "термин-документ", "термин-термин" и их свойства.

Используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор), содержащего множество лексических единиц всего потока доку­ментов (то есть все слова, числа и прочие обозначения, использованные во всех документах системы). Таким образом, li принадлежит D для всех i, где li совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L: L={l1,...,li,..., ln}, li L для всех i

Аналогично универсальному словарю введем понятие уни­версального массива L0 (ИМЕТЬ В ВИДУ, НО ЛУЧШЕ НЕ ПИСАТЬ: прообразы — поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библио­теки), подмножеством которого являются все документы:

L0 = {l1,...,li,..., l n0 }, li L0 для всех i, причем | L0 | = n0, где n0, — мощность множества L0. Линейное представление теоретико-множественного образа документа:

lk= , где bik= 1-если i-й термин входит в k-й документ;0- если не входит.

Универсальный массив в линейном представлении есть мат­рица размерности D х n0:

Подобные матрицы известны под названием матрицы « тер­мин—документ ». Каждый столбец матрицы соответствует доку­менту и описывает множество терминов, содержащихся в нем.Таким образом, столбец матрицы характеризует ПОД. L0= Строка матрицы соответствует отдельному термину и являет­ся перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина: Fi=∑bik.

Составим матрицу , где .Матрица имеет размерность . Внедиагональный элемент есть количество появлений i-го термина в . Матрицы такого типа называют «матрица термин-термин» и характеризуют взаимосвязь терминов в данном массиве.


39.Диаграмма Эйлера-Венна (диаграмма < L >). Критерии оценки АИПС в координатах < L >.

Диаграмма <L>, или диаграмма Эйлера — Венна (рис. 4.3): представляет соотношение множеств всего информационного потока, множества истинно реле­вантных документов и — множества выданных докумен­тов. Соотношение этих множеств и количественные оценки меры их близости могут характеризовать эффективность поискового ме­ханизма системы.

Критерии оценки АИПС в координатах <L>

a) частные критерии оценки:

1) Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r=|LИ ∩LC|/|LИ|;

2) Точность – доля релевантных документов во множестве выданных: p=|LИ ∩LC|/|LC|;

3) Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ=|L0\ (LИ ULC)| / |L0\LИ|;

4) Общность- характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=|LИ|/|L0|;

5) Относительный объем выдачи: v=|LC|/|L0|.

6) интегральные критерии оценки:

1) Показатель полезной работы - базируется на предположении о том, что качество поиска АИПС тем выше, чем в большей степени потребитель освобождается от необходимости полного просмотра массива документов: обозначив , | |= , , перепишем в координатах <L>:

;

2)Коэффициент линейной корреляции - корреляционный момент двух случайных величин: С – «быть выданным документом», И – «быть релевантным документом»:

; обозначив , | |= , , перепишем R в координатах <L>: .


40.Таблица сопряжённости. Критерии оценки АИПС в координатах <a,b,c,d>.

Таблица сопряженности <a,b,c,d>

отображает количественное соотношение выданных системой множеств релевантных (с точки зрения потребителя) и нерелевантных документов и не выданных множеств релевантных и нерелевантных документов.

  релевантные нерелевантные
выданные a b
невыданные c d

Критерии оценки АИПС в координатах <a,b,c,d>

частные критерии оценки:

Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r=a/(a+c);

Точность – доля релевантных документов во множестве выданных: p=a/(a+b);

Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ=d/(b+d);

Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=(a+c)/(a+b+c+d);

Относительный объем выдачи: v=(a+b)/(a+b+c+d).

интегральные критерии оценки:

Показатель полезной работы - базируется на предположении о том, что качество поиска АИПС тем выше, чем в большей степени потребитель освобождается от необходимости полного просмотра массива документов: ;

Коэффициент линейной корреляции - корреляционный момент двух случайных величин: С – «быть выданным документом», И – «быть релевантным документом»:

.

41. Диаграмма < n,x >. Критерии оценки АИПС в координатах < n,x >.

(Выданные релевантные сообщения)

X - выданные релевантные документы

n- все выданные документы

До­пустимые выдачи находятся в незаштрихованной области 0Ир0Д, ограниченной прямыми ли­ниями:

0И:х=n;(т.е когда число выданных равно числу релевантных) Ир0:х = х0;(т.е выданные релевантные равны всем релевантным) р0Д: х = п - (п0 - х0); (п0 - х0 – нерелевантные документы) Д0:х=0.

Критерии оценки АИПС в координатах <n,x>:

1) Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r= x/x0;

2) Точность – доля релевантных документов во множестве выданных: p=x/n;

3) Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ= 1- (n-x)/(n0 – x0);

4) Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=x0/n0;

5) Относительный объем выдачи: v=n/n0.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: