Теории измерения в психодиагностике

Создание измерительных психодиагностических методик основывается на теоретических положениях психометрии. Психометрия представляет собой область психологии, изучающую закономерности измерения психологических явлений. В более узком, практическом значении, психометрия может рассматриваться как технология разработки психодиагностических методик.

Основные психометрические понятия. Первые психометрические исследования возникли еще в середине XIX века и проводились В. Вундтом, Ф. Гальтоном, Дж. Кеттелом, С.Стивенсом и другими известными учеными. К настоящему времени психометрия превратилась во влиятельную область знаний об измерении, методов создания и проверки качества любых психологических инструментов для проведения исследований, измерений, оценки.

Центральными понятиями психометрии являются понятия: 1) «конструкт», 2) «измерение», 3) «оценка».

Конструкт – это представление об измеримых, то есть доступных для измерения характеристиках психологического явления. Психологические понятия и психодиагностические конструкты соотносятся. Как правило, каждое понятие имеет свой конструкт. Например, понятие об интеллекте максимально близко его конструкту – представлению о способности применять мышление при решении задач. Однако, некоторые употребляемые в психологии понятия могут не иметь конструктов либо иметь конструкты лишь частично охватывающие их содержание. К ним относятся понятие о сознании, личности, совести и пр.

Одно понятие может иметь несколько конструктов. Например, понятие темперамент в психодиагностике измеряется посредством пяти конструктов. Каждый из них основывается на особой теории, которая определяет собственное представление о темпераменте, его природе и измеримых составляющих:

– конструкт базовых свойств поведения – экстраверсии, интроверсии, нейротизма, предложенный Г.Айзенком;

– конструкт свойств нервной системы, обуславливающих проявления темперамента – сила, слабость, подвижность, уравновешенность, предложенный И.П. Павловым, операционализирован Я.Стреляу;

– конструкт психобиологических оснований темперамента – эргичность, темп, пластичность, эмоциональность, предложенный В.В. Русаловым;

– конструкт социальных типов темперамента – холерик, сангвиник, флегматик, меланхолик, предложенный Гиппократом, операционализирован в виде опросника А Беловым.

Ясно, что эти конструкты основываются на общепсихологическом представлении о темпераменте, но подходят к его измерению совершенно с разных сторон. Важно подчеркнуть, что актуальные для психологической науки и практики явления как правило представлены несколькими десятками подходов к измерению, каждый из которых может включать несколько теорий, конструктов и, как следствие – тестов, опросников, шкал измерения.

Поэтому, при выборе психодиагностических инструментов следует знать на каких теоретических представлениях они разработаны, какие конструкты имеют. Ведь рассматривая явление через призму нескольких конструктов можно снизить точность диагностики, прийти к противоречивым выводам.

Итак, в отличие от психологических понятий, психодиагностические конструкты сочетают в себе несколько видов информации: во-первых, понятие о явлении, во-вторых, описание подвергающиеся измерению свойств, в-третьих, способ измерения свойств.

Измерение – это процедура описания характеристик психического явления в терминах чисел, значений или норм.

Для проведения измерения необходим образец, степень сходства/расхождения с которым служит основанием для принятия решения. Образец может быть представлен в виде показателей, критериев, а также сгруппирован в шкалу. Существует два вида измерений: физическое и психологическое. Физическое измерение является наиболее распространенным и простым, поскольку оно заключается в фиксации поведения субъекта в определенных физических единицах: расстоянии, времени, силе и пр. Инструментами физической оценки выступают традиционные приборы (см. рис.1.).

Психологическое измерение является более сложным чем физическое. Способность психологических явлений подвергаться измерению основывается на идее о том, что они имеют внешнее проявление – то есть каким либо образом выражаются в поведении, действиях и речи. Фактически, психологические явления не представлены в реальности и не поддаются непосредственному изучению.

Рис. 1. Приборы для измерения длины и температуры.

Показатель измерения: сантиметры, градусы, критерий измерения – соответствие измеряемого явления цене деления в шкале.

В психодиагностике используется три подхода к измерению: объективный, субъективный и проективный. О психологическом явлении можно судить с объективной стороны – в том, как оно выражается в поведении, выборе или решении обследуемого; либо с субъективной – как обследуемый описывает его проявление. Третий подход к измерению – проективный, оценивает явление посредством восприятия испытуемым слабоструктурированных стимулов.

Из-за недоступности психологических явлений к измерению (т.н. проблема латентности) принципиально важным является оценка свойств измерительного инструмента: валидности, надежности, репрезентативности и пр. Инструменты со слабыми или неизвестными свойствами не могут использоваться в психологической диагностике.

В ходе измерения используются правила, по которым определенным проявлениям явлений присваиваются определенные значения. Значения могут иметь:

– качественный (номинативный, именной) вид – так измеряются типы темперамента (холерик, сангвиник, флегматик, меланхолик), свойства нервной системы (экстраверсия, интроверсия) и пр.

– количественный характер (ранговый, интервальный или абсолютный вид). Тогда они выражаются в числах, которые назначаются в соответствии с правилами измерения, установленными для каждого конкретного психологического явления. Например, уровень интеллекта определяется в количественном виде: предполагается что его среднее значение должно быть равно 100 баллов по соответствующей шкале.

Оценка это процесс и результат объяснения данных, полученных в ходе психологического измерения. Оценка может иметь количественный и качественный вид.

Количественная оценка предполагает сопоставление результатов измерения с нормативными (стандартизированными) показателями.

Качественная оценка проводится путем сопоставления субъективного проявления психологического явления с теоретическим или экспертным описанием этого явления. Например, выявление экстраверсии предполагает сопоставление поведения опрашиваемого с образом экстравертированного типа поведения, данным Г.Ю. Айзенком. Экстраверту свойственна: быстрота действий и решений, непоседливость, общительность, положительное настроение и оптимистичность. Чем больше сходств обнаружит специалист, тем выше вероятность признания обследуемого экстравертом.

Оценка может носить унитарный и комплексный характер. В первом случае, она опирается на результаты измерения, полученные из одного источника информации. Комплексная оценка предполагает объединение и сравнение информации из различных источников, таких как интервью, записи, наблюдения, результаты тестов и информации из других источников, включая семью, друзей или экспертов.

Тесты и опросники являются базовыми инструментами оценки в психологии. Разработка тестов, опросников или других инструментов является трудоемким и сложным процессом. В наиболее упрощенном виде, разработка предполагает решение вопросов, связанных с выбором способа измерения и оценки. Исследователь должен принять два вида решений:

во-первых, о содержании критериев и шкал, применяемых для оценивания явления;

во-вторых, о способе интерпретации полученных результатов.

Как правило, данные этапы реализуются последовательно: вначале принимается решение о способе измерения (заданиями, вопросами, изображениями) а затем, об оценке результатов измерения. Причем, каждый из них опирается на сложившиеся подходы, теории и концепции, которые регламентируют действия разработчика. Рассмотрим их, применительно к разработке содержания и механизмов оценки.

На сегодняшний день существуют четыре подхода к определению содержания критериев и шкал методик диагностики. Каждый из них предлагает особый способ конструирования, влияющий на возможности применения будущей методики, а также ее психометрические свойства.

1. Рационально-теоретический подход заключается в использовании теоретических представлений либо экспертных мнений относительно психологического явления. На этом основании разработчик выбирает задания, придумывает вопросы, которые будут объединены в шкалу, и определят ее показатели. Данный подход получил наибольшее распространение в психологической диагностике.

2. Факторно-аналитический подход опирается на математико-статистические закономерности группирования задач, заданий или вопросов. Для формирования структуры шкалы используется эксплораторный факторный анализ – статистическая процедура, объясняющая закономерности взаимоотношений между переменными. Благодаря ему определяется содержание шкалы – вопросы вошедшие в фактор, рассматриваются в качестве ее содержания, а исключенные из него – отбрасываются. Широко известный опросник 16-personal factors построен Р.Кеттеллом на основе факторного анализа.

3. Эмпирически-критериальный подход менее распространен в психологической диагностике. Областью его применения является медико-физиологические исследования. К примеру, в психиатрии, критериальный подход применяется для оценки нарушений восприятия, внимания, мышления, измерения проблем развития личности. Разработка методики на основе критериального-подхода предполагает создание набора вопросов-критериев для оценки схожести субъективных переживаний индивида с клиническим описанием явления. Наиболее известным критериальным опросником является Миннесотский многофакторный опросник личности (MMPI). В первой редакции, единственной адаптированной на сегодняшний день в России, он оценивает десять типов нарушений личности посредством 567 вопросов. Они сгруппированы в 10 основных шкал и 3 шкалы оценки качества, искренности и социальной желательности.

4. Проективный подход предполагает использование принципа проекции при разработке критериев и показателей шкалы. Он является альтернативным способом конструирования шкалы, поскольку базируется на эмпирически неподтвержденных идеях о влиянии неосознаваемых побуждений на выбор объектов. Предполагается, что непонятные, неконкретные образы в стимульном материале дополняются, додумываются обследуемым с учетом субъективных переживаний. Поскольку, стимульный материал лишен какого-либо смысла, формы или вида, любые законченные представления опрашиваемого о нем считаются диагностически ценными.

Например, в методике Hand-Test (Э. Вагнер, 3. Пиотровский, Б. Бриклин), опрашиваемому предъявляются изображения человеческой руки (напр. рис. 2).

Рис. 1. Пример стимульного материала, используемого в тесте «Hand Test»[38]

Сами изображения не несут никакой психологической информации, однако мнение субъекта о том, «что может делать эта рука» показывает, каким образом она воспринимается. Жесты руки могут восприниматься агрессивными, директивными, аффективными и пр. Исследователь фиксирует все объяснения опрашиваемого, приходя к выводу о преобладающем типе восприятия. Исходя из этого, делается вывод об особенностях личности опрашиваемого, стиле взаимодействия с окружающими.

Представленные подходы к конструированию методик обособлены друг от друга – разработчики руководствуются только одним из перечисленных. После создания стимульного материала и апробации его на различных группах испытуемых к основному подходу может быть добавлен дополнительный. Чаще всего это можно увидеть с проективными инструментами, которые дополняются критериальным. Например, тест Роршаха, помимо проективной интерпретации предполагает использование нозоологических критериев, позволяющих выявлять расстройства восприятия, мышления и личности[39].

Формирование стимульного материала является первым этапом разработки методики. Следующий – создание оценочных шкал. Благодаря этому возникает представление как следует обрабатывать действия опрашиваемого со стимульным материалом, а для личностных опросников - что считать правильным ответом а что ложным.

В современной психометрии представлено шесть теорий, объясняющих каким образом следует создавать систему критериев и показателей измерения. Несмотря на количество, все они стремятся достичь наиболее точного измерения, поэтому используют схожие алгоритмы оценки, либо являются усовершенствованными версиями друг друга.

Кроме того, в основании теорий лежат два предположения: о прямом оценивании и о косвенном (применяется термин «латентное») оценивании. Прямое оценивание означает, что исследователь видит прямую связь между количеством решенных задач, заданий и психологическим явлением. Например, в процедурах оценки внимания количество полученных баллов свидетельствует об уровне развития внимания. (Для проверки этого предположения целесообразно познакомится с методиками «корректурная проба по Бурдону», «черно-красные таблицы Шульте»).

Латентное оценивание предполагает, что между решением задачи и психологическим явлением есть несколько переменных, влияющих на оценку явления. Полученный в них балл, корректируется с учетом поправочных коэффициентов. Они вводятся разработчиком в ходе оценки тенденций ответов испытуемых (социальной желательности, коррекции ответов и пр.). Например, в методике «Миннесотский многофакторый личностный опросник» (MMPI) баллы, полученные по шкалам оценки качества влияют на интерпретацию результатов.

Преимущества латентного оценивания в том, что исследователь не только признает возможность искажения результатов измерения но и стремится этим управлять. Например, проверять надежность измерения путем введения альтернативных вопросов; группировать задачи, задания по степени сложности и пр. Все эти стратегии представлены в четырех теориях оценивания результатов:

1. классическая теория тестов;

2. теория обобщенных признаков;

3. факторно-аналитическая теория;

4. теория анализа ответов (Item response theory);

Наиболее влиятельной из них является классическая теория тестов – будучи самой простой, она еще и исторически самая ранняя из всех перечисленных. На основе ее положений создано большинство психологических тестов и стандартизированных опросников. Показатели надежности и валидности, полученные путем применения алгоритмов других теорий, сравниваются с классической теорией тестов.

Классическая теория тестов предполагает, что точность и надежность измерения психологического явления может быть предсказана. Принципиальная формула оценивания в классической модели тестов выглядит как:

Результат оценки (X) = истинный балл (T) + ошибка измерения (E)

Из формулы следует, что каждый испытуемый имеет истинную оценку (T), которая была бы получена, если бы не было ошибок в измерении (Е). Подобная формула опирается на допущения, подлежащие статистической проверке. В случае невозможности их применения, классическое измерение теряет в надежности и, как следствие, в достоверности. Теория используют следующие показатели, проверяемые посредством статистического анализа результатов измерения:

- о соответствии ковариаций измерения тестовых баллов выполненных посредством параллельных форм;

- о точности истинных баллов, в ситуации максимально возможного количества измерений;

- о неизменности истинных баллов при использовании параллельных форм;

- о соответствии распределений эмпирических баллов, истинных баллов и ошибок измерения нормальному распределению;

- о непрерывном распределении всех видов баллов.

Психологический смысл измерения заключается в том, что полученный тестовый балл (X) зависит от множества условий, не всегда связанных с инструментом оценивания. Конечно, на него влияют вид и количество заданий, но помимо их могут иметь значение психологическое состояние и настрой, условия опроса, мотивация, опыт прохождения опросов подобного вида и др. Недостатками классической теории тестирования является невнимание к ошибкам измерения и полная поглощенность истинным баллом. Ошибки измерения не дифференцируются на связанные с конструктом и условиями измерения. Считается, что исследователь должен обеспечить такие условия обследования, в которых ошибка будет сведена к минимуму.

2. Теория обобщенных признаков возникает в 70х годах ХХ века из-за желания усовершенствовать именно эту часть классической теории тестов. У представителей этой теории ошибка измерения (Е) становится предметом углубленного исследования. Происходит исследование причин и источников ошибок, приходит понимание, как различные элементы измерения обуславливают ошибки: например, выбор шкалы, критериев оценивания влияет на результаты. Вводится представление о том, что длительность измерения, понимание инструкции или состояние испытуемого может определять итоговую оценку.

3. Факторно-аналитическая теория является наиболее исторически ранней в группе латентных теорий. Ее идейным основателем является Ч. Спирмен, применивший латентный подход к изучению интеллекта. В соответствии с ним, общий фактор интеллекта выражается в частных проявлениях интеллектуальных способностей. К концу ХХ века данная теория была серьезным образом преобразована – от описательных подходов она перешла к сложным математико-статистическим процедурам. Ядром выступает факторный анализ, представленный в двух видах подходов: эксплораторном и конфирматорном.

Суть подхода заключается в определении совокупностей вопросов, заданий, задач статистически закономерно группирующихся в факторы. Для выполнения этой задачи обследуются значительные выборки испытуемых (от 100 до 500 единиц опросов и наблюдений)[40]. В результате факторного анализа, стимульный материал подвергается группированию. Основанием для группировки является степень связи между пунктами. Тесная связь между определенными заданиями позволяет разработчику отнести их к определенной шкале, а отсутствие связи – исключить.

4.Теория анализа ответов (Item response theory) формируется в начале 60х годов ХХ века. Ее отношение к надежности измерения делает ее основной альтернативой классической теории тестов. Классическая теория учитывает лишь общее значение надежности теста, а теория анализа ответов измеряет свойства валидности и надежности каждого пункта (вопроса, задания, задачи) оценивать психологическое явление. Благодаря этому преимуществами этой теории являются:

1) глубокая оценка психометрических свойств инструмента;

2) более точное изучение индивидуальных различий испытуемых;

3) возможность точного выявления свойств инструментов и их сравнений;

4) возможность разработки адаптированного тестирования, в том числе укороченных форм и компьютерных вариантов.

Несмотря на существенные преимущества этого подхода, его применение на практике сталкивается с проблемами. От исследователя требуется серьезный уровень знаний в области математической статистики, разработка моделей требует больших объемов опросов. Поэтому практическое воплощение теории еще в будущем. В настоящее время в данной теории появились дополнения. Таковой является теория Г.Раша. С математической точки зрения напоминает теорию анализа ответов, в которой анализируется только один параметр – сложность пункта. В таком виде она применяется для разработки тестов способностей и оценки знаний. Психологический смысл теории в стремлении выявить истинный уровень измеряемого явления, поэтому предполагается, что модель имеет приоритет над данными. Таким образом, уточнению подвергаются не параметры модели, а задания, посредством которой эти параметры формируются.

Выбор теории оценивания в ходе разработки опросника или теста является субъективным решением. Осуществляя его исследователь должен руководствоваться представлениями о максимально высоком уровне точности и надежности измерения психологического явления.

Процедура создания измерительного инструмента. Определив теоретические основания, способ измерения и оценки психологического явления разработчик приступает процедуре создания методики.

В зависимости от предмета измерения, которым могут выступать различные явления психики, а также способов проведения, теоретических оснований, процедура конструирования методики может изменятся. В наиболее универсальном виде, она включает в себя планирующий, концептуальный, апробационный, стандартизационный и методический этапы (содержание описано в табл.1)

Таблица 1

Этапы разработки измерительного инструмента

Этап	Примерное содержание действий
1.Планирующий: Предполагает определение проблемы, требующей сбора психологической информации и оптимальных психодиагностических способов	1. Определение объекта и предмета измерения, анализ психологических понятий, сопряженных с предполагаемым предметом измерения, методики измерения и их психометрических характеристик. Обоснование необходимости разработки методики. 2. Уточнение характеристик предмета измерения в части оценки пересечения с уже существующими инструментами измерения. 3. Определение теоретического подхода к измерению и предпочтительной теории оценивания
2. Концептуальный:Включает определение теоретических оснований диагностического конструкта методики, разработку предварительного варианта методики	1. Конвертация теоретических представлений о явлении в диагностический конструкт; 2. Определение структуры диагностического конструкта: количества шкал и пунктов. 3. Описание поведенческих, вербальных проявлений либо представлений субъекта о себе, в отношении каждого показателя конструкта. 4. Операционализация показателей в виде тестовых заданий, задач, вопросов и других вариантов стимульного материала. 5. Определение предварительной структуры и объема шкалы
3. Апробационный: Проводится формирование пилотной версии методики, апробация пунктов, конструирование шкал, тестирования	1. Формирование пилотной версии (версий) методики; 2. Сбор материала для предварительной апробации пунктов; 3. Отбор пунктов на основе выбранного подхода. 4. Конструирование шкал на основе выбранной теории измерения. 5. Проверка внутренней согласованности и дискриминативности шкал. 6. Коррекция содержания, вида и формы стимульного материала на основании апробации. Введение либо исключение пунктов обладающих наихудшими показателями согласованности и дискриминативности. 7. Определение «рабочей» версии методики, структурно соответствующей п.1.2., обладающей наилучшими показателями статистики шкал
4. Стандартизационный: осуществляется изучение и оценка валидности и надежности, разработка правил расчета сырых баллов и интерпретации результатов	1. Разработка методического материала для проведения стандартизации методики: инструкций для сбора эмпирических данных, проведения обследования, механизмов обработки данных. 2. Проводится планирование серии измерений для оценки показателей ретестовой надежности шкал методики а также прогностической валидности. 3. Методом экспертного опроса, а также «контрастных» групп изучается критериальная валидность (для критериально-ориентированных тестов – дискриминативная). 4. Определяются параметры конструктной валидности, для этого осуществляется сопряжение с результатами альтернативных инструментов. В случае разработки инструментов для малоизученных психологических явлений следует оценить конвергентную валидность (сопряжение с альтернативными методиками) и дивергентную валидность (отрицательную связь с методиками, изучающими противоположные по характеру психологические явления). 5. Моделирование структуры методики (для сложных инструментов, включающих несколько шкал).
	6. Проведение сбора данных с целью стандартизации. Следует использовать специальную, отдельную выборку. 7. Определение норм выполнения методики (для тестов способностей, критериально-ориентированных методик и др., желательно выполнить оценку трудности заданий и вероятности их выполнения) 8. Описание критериев оценивания и правил интерпретации, анализ типичных значений показателей, профилей и пр.
Методический: 1. Разработка инструкции для применения методики пользователями; 2. Редактирование и оформление материалов методики	1.Подготовка руководства для пользователей. Описание 1) области применения методики – целей применения и возможностей; 2) условий и ограничений использования; 3) определение возрастных, половых, социальных и иных признаков аудитории пользователей; 4) описание структуры методики: шкал, показателей, индикаторов, критериев. Для тестов способностей, когнитивных тестов и пр. приводятся способы ответов на задания и время выполнения каждого раздела, субтеста и методики в целом. 5) инструкции для организации тестирования с указанием требований и ограничений, действий специалиста и обследуемого и пр.; 6) стимульный материал (бланки, задания, изображения и пр.); 7) бланки для регистрации ответов; 8) материалы для подсчета и интерпретации результатов (ключи, тестовые нормы, описание процедуры обработки и интерпретации результатов методики

Создание методики – длительный процесс, занимающий несколько лет и требующий проведения сбора большого количества эмпирического материала. Этапы разработки могут повторяться а полученные с их помощью результаты неоднократно модернизироваться. Поскольку проверка психометрических свойств методики затрагивает три показателя надежности и как минимум 6 показателей валидности, а неудовлетворительные значения одного из них требуют пересмотра части методики – апробация и стандартизация могут проводится несколько раза.

Следует внимательно оценивать психометрические показатели, их качество сильно влияет на достоверность результатов психологического измерения. Для этого проверки свойств должны проводится на максимально значительном объеме выборки.