Методы обработки и анализа экспертной информации. Методики оценки компетентности экспертов. Методы проверки согласованности экспертных оценок

Методы экспертных оценок - это методы организации работы со специалистами-экспертами и обработки мнений экспертов. Эти мнения обычно выражены частично в количественной, частично в качественной форме. Экспертные исследования я проводят с целью подготовки информации для принятия решений лицом, принимающим решения (ЛПР). Для проведения работы по методу экспертных оценок создают Рабочую группу (сокращенно РГ), которая и организует по поручению ЛПР деятельность экспертов, объединенных (формально или по существу) в экспертную комиссию (ЭК).

Экспертные оценки бывают индивидуальные и коллективные. Индивидуальные оценки - это оценки одного специалиста. Например, преподаватель единолично ставит отметку студенту, а врач - диагноз больному. Но в сложных случаях заболевания или при угрозе отчисления студента за плохую учебу обращаются к коллективному мнению - симпозиуму врачей или комиссии преподавателей.

Один из наиболее известных методов экспертных оценок – это метод «Дельфи». В США в 1960-х годах методом Дельфи назвали экспертную процедуру прогнозирования научно-технического развития. В первом туре эксперты называли вероятные даты тех или иных будущих свершений. Во втором туре каждый эксперт знакомился с прогнозами всех остальных. Если его прогноз сильно отличался от прогнозов основной массы, его просили пояснить свою позицию, и часто он изменял свои оценки, приближаясь к средним значениям. Эти средние значения и выдавались заказчику как групповое мнение.

Несколько в стороне от основного русла экспертных оценок лежит метод сценариев, применяемый прежде всего для экспертного прогнозирования. Рассмотрим основные идеи технологии сценарных экспертных прогнозов. Экологическое или социально-экономическое прогнозирование, как и любое прогнозирование вообще, может быть успешным лишь при некоторой стабильности условий. Однако решения органов власти, отдельных лиц, иные события меняют условия, и события развиваются по-иному, чем ранее предполагалось. Метод сценариев - это метод декомпозиции задачи прогнозирования, предусматривающий выделение набора отдельных вариантов развития событий (сценариев), в совокупности охватывающих все возможные варианты развития. При этом каждый отдельный сценарий должен допускать возможность достаточно точного прогнозирования, а общее число сценариев должно быть обозримо.

Возможность подобной декомпозиции не очевидна. При применении метода сценариев необходимо осуществить два этапа исследования:

· построение исчерпывающего, но обозримого набора сценариев;

· прогнозирование в рамках каждого конкретного сценария с целью получения ответов на интересующие исследователя вопросы.

Каждый из этих этапов лишь частично формализуем. Существенная часть рассуждений проводится на качественном уровне, как это принято в общественно-экономических и гуманитарных науках. Одна из причин заключается в том, что стремление к излишней формализации и математизации приводит к искусственному внесению определенности там, где ее нет по существу, либо к использованию громоздкого математического аппарата. Так, рассуждения на словесном уровне считаются доказательными в большинстве ситуаций, в то время как попытка уточнить смысл используемых слов с помощью, например, теории нечетких множеств приводит к весьма громоздким математическим моделям. Набор сценариев должен быть обозрим. Приходится исключать различные маловероятные события. Само по себе создание набора сценариев - предмет экспертного исследования. Кроме того, эксперты могут оценить вероятности реализации того или иного сценария.

Как известно, при принятии решений на основе анализа ситуации, в том числе результатов прогнозных исследований, можно исходить из различных критериев. Так, можно ориентироваться на то, что ситуация сложится наихудшим, или наилучшим, или средним (в каком-либо смысле) образом. Можно попытаться наметить мероприятия, обеспечивающие минимально допустимые полезные результаты при любом варианте развития ситуации, и т.д.

Еще один вариант экспертного оценивания - мозговой штурм. Организуется он как собрание экспертов, на выступления которых наложено одно, но очень существенное ограничение - нельзя критиковать предложения других. Можно их развивать, можно высказывать свои идеи, но нельзя критиковать! В ходе заседания эксперты, "заражаясь" друг от друга, высказывают все более экстравагантные соображения. Часа через два записанное на магнитофон или видеокамеру заседание заканчивается, и начинается второй этап мозгового штурма - анализ высказанных идей. Обычно из 100 идей 30 заслуживают дальнейшей проработки, из 5-6 дают возможность сформулировать прикладные проекта, а 2-3 оказываются в итоге приносящими полезный эффект - прибыль, повышение экологической безопасности и т.п. При этом интерпретация идей - творческий процесс.

Современная теория измерений и экспертные оценки

Для дальнейшего более углубленного рассмотрения проблем экспертных оценок понадобятся некоторые понятия так называемой репрезентативной теории измерений, служащей основой теории экспертных оценок, прежде всего той ее части, которая связана с анализом заключений экспертов, выраженных в качественном (а не в количественном) виде.

Мнения экспертов часто выражены в порядковой шкале, т.е. эксперт может сказать (и обосновать), что один показатель качества продукции более важен, чем другой, первый технологический объект более опасен, чем второй, и т.д. Но он не в состоянии сказать, во сколько раз или на сколько более важен, соответственно, более опасен. Экспертов часто просят дать ранжировку (упорядочение) объектов экспертизы, т.е. расположить их в порядке возрастания (или убывания) интенсивности интересующей организаторов экспертизы характеристики. Ранг - это номер (объекта экспертизы) в упорядоченном ряду. Формально ранги выражаются числами 1, 2, 3,..., но с этими числами нельзя делать привычные арифметические операции. Для анализа подобного рода качественных данных необходима не всем известная арифметика, а другая теория, дающая базу для разработки, изучения и применения конкретных методов расчета. Это и есть РТИ. Надо иметь в виду, что в настоящее время термин "теория измерений" применяется для обозначения целого ряда научных дисциплин: классической метрологии, РТИ, некоторых других направлений, например, алгоритмической теории измерений.

В качестве двух основных проблем РТИ наряду с установлением типа шкалы был выдвинут поиск алгоритмов анализа данных, результат работы которых не меняется при любом допустимом преобразовании шкалы (т.е. является инвариантным относительно этого преобразования).

Основные шкалы измерения. В соответствии с РТИ при математическом моделировании реального явления или процесса следует прежде всего установить, в каких типах шкал измерены те или иные переменные. Тип шкалы задает группу допустимых преобразований. Допустимые преобразования не меняют соотношений между объектами измерения. Например, при измерении длины переход от аршин к метрам не меняет соотношений между длинами рассматриваемых объектов - если первый объект длиннее второго, то это будет установлено и при измерении в аршинах, и при измерении в метрах.

Укажем основные виды шкал измерения и соответствующие группы допустимых преобразований. В шкале наименований (другое название – н оминальной шкалы) допустимыми являются все взаимно-однозначные преобразования. В этой шкале числа используются лишь как метки. Единственное, для чего годятся измерения в шкале наименований - это различать объекты. Во многих случаях только это от них и требуется.

В порядковой шкале числа используются для установления порядка между объектами. Простейшим примером являются оценки знаний учащихся. Символично, что в средней школе применяются оценки 2, 3, 4, 5, а в высшей ровно тот же смысл выражается словесно - неудовлетворительно, удовлетворительно, хорошо, отлично. Этим подчеркивается "нечисловой" характер оценок знаний учащихся. В порядковой шкале допустимыми являются все строго возрастающие преобразования.

Установление типа шкалы, т.е. задания группы допустимых преобразований шкалы измерения - дело специалистов соответствующей прикладной области. Так, оценки привлекательности профессий мы, выступая в качестве социологов, считали измеренными в порядковой шкале. Однако отдельные социологи не соглашались с нами, полагая, что выпускники школ пользуются шкалой с более узкой группой допустимых преобразований, например, интервальной шкалой. Очевидно, эта проблема относится не к математике, а к наукам о человеке. Для ее решения может быть поставлен достаточно трудоемкий эксперимент. Пока же он не поставлен, целесообразно принимать порядковую шкалу, так как это гарантирует от возможных ошибок.

Используется много других известных примеров порядковых шкал. При оценке качества продукции и услуг, в т.н. квалиметрии (буквальный перевод: измерение качества) популярны порядковые шкалы. А именно, единица продукции оценивается как годная или не годная. При более тщательном анализе используется шкала с тремя градациями: есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Порядковая шкала используется и в иных областях.

Порядковая шкала и шкала наименований - основные шкалы качественных признаков. Поэтому во многих конкретных областях результаты качественного анализа можно рассматривать как измерения по этим шкалам.

Шкалы количественных признаков - это шкалы интервалов, отношений, разностей, абсолютная. По шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой. В этих случаях на шкале нельзя отметить ни естественное начало отсчета, ни естественную единицу измерения. Допустимыми преобразованиями в шкале интервалов являются линейные возрастающие преобразования, т.е. линейные функции.

Из количественных шкал наиболее распространенными в науке и практике являются шкалы отношений. В них есть естественное начало отсчета - нуль, т.е. отсутствие величины, но нет естественной единицы измерения. По шкале отношений измерены большинство физических единиц: масса тела, длина, заряд, а также цены в экономике. Допустимыми преобразованиями шкале отношений являются подобные (изменяющие только масштаб). Другими словами, линейные возрастающие преобразования без свободного члена.

Время измеряется по шкале разностей, если год принимаем естественной единицей измерения, и по шкале интервалов в общем случае. Естественного начала отсчета указать на современном уровне знаний нельзя.

Только для абсолютной шкалы результаты измерений - числа в обычном смысле слова. Примером является число людей в комнате. Для абсолютной шкалы допустимым является только тождественное преобразование.

В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее). Затем – по интервальной (шкалы Цельсия, Фаренгейта, Реомюра). Наконец, после открытия абсолютного нуля температуру следует считать измеренной по шкале отношений (шкала Кельвина). Надо отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины. Другими словами, процесс измерения включает в себя и определение типа шкалы (вместе с обоснованием).

Инвариантные алгоритмы и средние величины. Основное требование к алгоритмам анализа данных формулируется в РТИ так: выводы, сделанные на основе данных, измеренных в шкале определенного типа, не должны меняться при допустимом преобразовании шкалы измерения этих данных. Другими словами, выводы должны быть инвариантны по отношению к допустимым преобразованиям шкалы.

Методы средних баллов. В настоящее время распространены экспертные, маркетинговые, квалиметрические, социологические и иные опросы, в которых опрашиваемых просят выставить баллы объектам, изделиям, технологическим процессам, предприятиям, проектам, заявкам на выполнение научно-исследовательских работ, идеям, проблемам, программам, политикам и т.п., а затем рассчитывают средние баллы и рассматривают их как интегральные оценки, выставленные коллективом опрошенных. Какими формулами пользоваться для вычисления средних величин? Ведь средних величин, как мы знаем, очень много разных видов. Обычно применяют среднее арифметическое. Уже более 30 лет известно, что такой способ некорректен, поскольку баллы обычно измерены в порядковой шкале. Обоснованным является использование медиан в качестве средних баллов. Однако полностью игнорировать средние арифметические нецелесообразно из-за их привычности и распространенности. Поэтому целесообразно использовать одновременно оба метода - и метод средних арифметических рангов (баллов), и методов медианных рангов. Такая рекомендация находится в согласии с концепцией устойчивости, рекомендующей использовать различные методы для обработки одних и тех же данных с целью выделить выводы, получаемые одновременно при всех методах. Такие выводы, видимо, соответствуют реальной действительности, в то время как заключения, меняющиеся от метода к методу, зависят от субъективизма исследователя, выбирающего метод обработки исходных экспертных оценок.

Математические методы анализа экспертных оценок.

При анализе мнений экспертов можно применять самые разнообразные статистические методы. Выделим основные широко используемые в настоящее время методы математической обработки экспертных оценок - это проверка согласованности мнений экспертов (или классификация экспертов, если нет согласованности) и усреднение мнений экспертов внутри согласованной группы.

Поскольку ответы экспертов во многих процедурах экспертного опроса - не числа, а такие объекты нечисловой природы, как градации качественных признаков, ранжировки, разбиения, результаты парных сравнений, нечеткие предпочтения и т.д., то для их анализа оказываются полезными методы статистики объектов нечисловой природы.

Почему ответы экспертов часто носят нечисловой характер? Наиболее общий ответ состоит в том, что люди не мыслят числами. В мышлении человека используются образы, слова, но не числа. Поэтому требовать от эксперта ответ в форме чисел - значит насиловать его разум. Даже в экономике предприниматели, принимая решения, лишь частично опираются на численные расчеты. Это видно из условного (т.е. определяемого произвольно принятыми соглашениями, обычно оформленными в виде инструкций) характера балансовой прибыли, амортизационных отчислений и других экономических показателей. Поэтому фраза типа "фирма стремится к максимизации прибыли" не может иметь строго определенного смысла. Достаточно спросить: "Максимизация прибыли - за какой период?" И сразу станет ясно, что степень оптимальности принимаемых решений зависит от горизонта планирования.

Эксперт может сравнить два объекта, сказать, какой из двух лучше (метод парных сравнений), дать им оценки типа "хороший", "приемлемый", "плохой", упорядочить несколько объектов по привлекательности, но обычно не может ответить, во сколько раз или на сколько один объект лучше другого. Другими словами, ответы эксперта обычно измерены в порядковой шкале, или являются ранжировками, результатами парных сравнений и другими объектами нечисловой природы, но не числами. Распространенное заблуждение состоит в том, что ответы экспертов стараются рассматривать как числа, занимаются "оцифровкой" их мнений, приписывая этим мнениям численные значения - баллы, которые потом обрабатывают с помощью методов прикладной статистики как результаты обычных физико-технических измерений. В случае произвольности "оцифровки" выводы, полученные в результате обработки данных, могут не иметь отношения к реальности.

Проверка согласованности мнений экспертов и классификация экспертных мнений. Ясно, что мнения разных экспертов различаются. Важно понять, насколько велико это различие. Если мало - усреднение мнений экспертов позволит выделить то общее, что есть у всех экспертов, отбросив случайные отклонения в ту или иную сторону. Если велико - усреднение является чисто формальной процедурой. Так, если представить себе, что ответы экспертов равномерно покрывают поверхность бублика, то формальное усреднение укажет на центр дырки от бублика, а такого мнения не придерживается ни один эксперт. Из сказанного ясна важность проблемы проверки согласованности мнений экспертов.

Разработан ряд методов такой проверки. Статистические методы проверки согласованности зависят от математической природы ответов экспертов. Соответствующие статистические теории весьма трудны, если эти ответы - ранжировки или разбиения, и достаточно просты, если ответы - результаты независимых парных сравнений. Отсюда вытекает рекомендация по организации экспертного опроса: не старайтесь сразу получить от эксперта ранжировку или разбиение, ему трудно это сделать, да и имеющиеся математические методы не позволяют далеко продвинуться в анализе подобных данных.

Эксперту гораздо легче на каждом шагу сравнивать только два объекта. Пусть он занимается парными сравнениями. Непараметрическая теория парных сравнений (теория люсианов) позволяет решать более сложные задачи, чем статистика ранжировок или разбиений. В частности, вместо гипотезы равномерного распределения можно рассматривать гипотезу однородности, т.е. вместо совпадения всех распределений с одним фиксированным (равномерным) можно проверять лишь совпадение распределений мнений экспертов между собой, что естественно трактовать как согласованность их мнений. Таким образом, удается избавиться от неестественного предположения равномерности.

При отсутствии согласованности экспертов естественно разбить их на группы сходных по мнению. Это можно сделать различными методами статистики объектов нечисловой природы, относящимися к кластер-анализу, предварительно введя метрику в пространство мнений экспертов. Идея американского математика Джона Кемени об аксиоматическом введении метрик нашла многочисленных продолжателей. Однако методы кластер-анализа обычно являются эвристическими. В частности, невозможно с позиций статистической теории обосновать "законность" объединения двух кластеров в один. Имеется важное исключение - для независимых парных сравнений (люсианов) разработаны методы, позволяющие проверять возможность объединения кластеров как статистическую гипотезу.

Нахождение итогового мнения комиссии экспертов. Пусть мнения комиссии экспертов или какой-то ее части признаны согласованными. Каково же итоговое (среднее, общее) мнение комиссии? Согласно идее Джона Кемени следует найти среднее мнение как решение оптимизационной задачи. А именно, надо минимизировать суммарное расстояние от кандидата в средние до мнений экспертов. Найденное таким способом среднее мнение называют "медианой Кемени".

Математическая сложность состоит в том, что мнения экспертов лежат в некотором пространстве объектов нечисловой природы. Общая теория подобного усреднения построена в ряде работ, в частности, показано, что в силу обобщения закона больших чисел среднее мнение при увеличении числа экспертов (чьи мнения независимы и одинаково распределены) приближается к некоторому пределу, который естественно назвать математическим ожиданием (случайного элемента, имеющего то же распределение, что и ответы экспертов).

В конкретных пространствах нечисловых мнений экспертов вычисление медианы Кемени может быть достаточно сложным делом. Кроме свойств пространства, велика роль конкретных метрик. Так, в пространстве ранжировок при использовании метрики, связанной с коэффициентом ранговой корреляции Кендалла, необходимо проводить достаточно сложные расчеты, в то время как применение показателя различия на основе коэффициента ранговой корреляции Спирмена приводит к упорядочению по средним рангам.

Бинарные отношения и расстояние Кемени. Как известно, бинарное отношение А на конечном множестве Q = {q1, q2 ,..., qk } - это подмножество декартова квадрата Q2 = { (qm, qn), m,n = 1,2,…,k }. При этом пара (qm, qn) входит в А тогда и только тогда, когда между qm и qn имеется рассматриваемое отношение. Каждую кластеризованную ранжировку, как и любое бинарное отношение, можно задать матрицей || x(a, b) || из 0 и 1 порядка k x k. При этом x(a, b) = 1 тогда и только тогда, когда a < b либо a = b. В первом случае x(b, a) = 0, а во втором x(b, a) = 1. При этом хотя бы одно из чисел x(a, b) и x(b, a) равно 1.

Как использовать связь между ранжировками и матрицами? Например, из определения противоречивости пары (a, b) вытекает, что для нахождения всех таких пар можно воспользоваться матрицами, соответствующими ранжировкам. Достаточно поэлементно перемножить две матрицы || x(a,b) || и || y(a, b) ||, соответствующие двум кластеризованным ранжировкам, и отобрать те и только те пары, для которых x(a,b)y(a,b)=x(b,a)y(b,a)= 0.

В экспертных методах используют, в частности, такие бинарные отношения, как ранжировки (упорядочения, или разбиения на группы, между которыми имеется строгий порядок), отношения эквивалентности, толерантности (отношения сходства). Как следует из сказанного выше, каждое бинарное отношение А можно описать матрицей || a(i,j) || из 0 и 1, причем a(i,j) = 1 тогда и только тогда, когда qi и qj находятся в отношении А, и a(i,j) = 0 в противном случае.

Определение. Расстоянием Кемени между бинарными отношениями А и В, описываемыми матрицами || a(i,j) || и || b(i,j) || соответственно, называется число D (A, B) = ∑ │ a(i,j) - b(i,j) │, где суммирование производится по всем i,j от 1 до k, т.е. расстояние Кемени между бинарными отношениями равно сумме модулей разностей элементов, стоящих на одних и тех же местах в соответствующих им матрицах.

Легко видеть, что расстояние Кемени - это число несовпадающих элементов в матрицах || a(i,j) || и || b(i,j) ||.Расстояние Кемени основано на некоторой системе аксиом. В дальнейшем под влиянием Кемени были предложены различные системы аксиом для получения расстояний в тех или иных нужных для социально-экономических исследований пространствах, например, в пространствах множеств.

Медиана Кемени и законы больших чисел. С помощью расстояния Кемени находят итоговое мнение комиссии экспертов. Пусть А1 , А2 , А3 ,…, Ар - ответы р экспертов, представленные в виде бинарных отношений. Для их усреднения используют т.н. медиану Кемени Arg min ∑ D (Ai,A), где Arg min - то или те значения А, при которых достигает минимума указанная сумма расстояний Кемени от ответов экспертов до текущей переменной А, по которой и проводится минимизация. Таким образом, ∑ D (Ai ,A) = D (A1 ,A) + D (A2 ,A) + D (A3 ,A) +…+ D (Aр,A). Кроме медианы Кемени, используют среднее по Кемени, в котором вместо D (Ai,A) стоит D2 (Ai,A). Медиана Кемени - частный случай определения эмпирического среднего в пространствах нечисловой природы. Для нее справедлив закон больших чисел, т.е. эмпирическое среднее приближается при росте числа составляющих (т.е. р - числа слагаемых в сумме), к теоретическому среднему: Arg min ∑ D (Ai,A) → Arg min М D (A1 , A). Здесь М - символ математического ожидания. Предполагается, что ответы р экспертов А1 , А2 , А3 ,…, А р есть основания рассматривать как независимые одинаково распределенные случайные элементы (т.е. как случайную выборку) в соответствующем пространстве произвольной природы, например, в пространстве упорядочений или отношений эквивалентности.

Законы больших чисел показывают, во-первых, что медиана Кемени обладает устойчивостью по отношению к незначительному изменению состава экспертной комиссии; во-вторых, при увеличении числа экспертов она приближается к некоторому пределу. Его естественно рассматривать как истинное мнение экспертов, от которого каждый из них несколько отклонялся по случайным причинам. Рассматриваемый здесь закон больших чисел является обобщением известного в статистике "классического" закона больших чисел. Он основан на иной математической базе - теории оптимизации, в то время как "классический" закон больших чисел использует суммирование. Упорядочения и другие бинарные отношения нельзя складывать, поэтому приходится применять иную математику. Вычисление медианы Кемени - задача целочисленного программирования. В частности, для ее нахождения используется различные алгоритмы дискретной математики, в частности, основанные на методе ветвей и границ. Применяют также алгоритмы, основанные на идее случайного поиска, поскольку для каждого бинарного отношения нетрудно найти множество его соседей.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: