ГЛАВА 4. Стандартизация в психологическом исследовании

Понятие стандартизации. Стандартизированные и нестандартизированные методики. Этапы стандартизации и их содержание. Расчет тестовых показателей. Валидность и надежность методик, способы их проверки. Виды данных в психологическом исследовании. Преобразование первичных данных в производные показатели.

Понятие стандартизации означает единообразие процедуры проведения исследования и оценки его результатов. В основном процедуре стандартизации подлежат тесты, опросники, проективные и физиологические методики.

Все методы психологического исследования можно разделить на стандартизированные и нестандартизированные. К стандартизированным относятся тесты, опросники, проективная техника и психофизиологические методики. Для них характерна жесткая регламентация процедуры обследования (точное соблюдение инструкций, строго определенные способы предъявления стимульного материала, невмешательство исследователя в деятельность испытуемого и др.), стандартизация (наличие норм или других критериев оценки результатов), надежность и валидность. Эти методики позволяют собрать диагностическую информацию в относительно короткие сроки и в таком виде, который дает возможность количественно и качественно сравнивать индивида с другими людьми.

К нестандартизированным методикам следует отнести такие приемы, как наблюдения, опросы, анализ продуктов деятельности. Эти способы дают очень ценные сведения об испытуемом, особенно когда предметом изучения выступают психические явления, которые плохо поддаются объективизации (например, субъективные переживания, личностные смыслы) или являются чрезвычайно изменчивыми (динамика целей, состояний, настроений и т.д.). Вместе с тем следует иметь в виду, что нестандартизированные методики очень трудоемки (например, наблюдения за обследуемым осуществляются иногда в течение нескольких месяцев) и в большей степени основаны на профессиональном опыте, психологической интуиции самого исследователя. Только наличие высокого уровня культуры проведения психологических наблюдений, бесед помогает избежать влияния случайных и побочных факторов на результаты обследования.

Нестандартизированные диагностические средства не следует противопоставлять стандартизированным методикам. Как правило, они взаимно дополняют друг друга. В полноценном диагностическом обследовании необходимо гармоничное сочетание стандартизированных методик с нестандартизированными. Так, сбору данных с помощью тестов должен предшествовать период ознакомления с обследуемыми по некоторым объективным и субъективным показателям (например, с биографическими данными испытуемых, их склонностями, мотивацией деятельности и т.д.). С этой целью могут быть использованы интервью, опросы, наблюдения.

Для того чтобы методику признали надежной и объективно выявляющей необходимые индивидуально-психологические особенности, она должна пройти процедуру стандартизации. Чаще всего стандартизации подвергаются тесты и опросники, она включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

1 Условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.

2 Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах.

3 Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются респонденту изготовленные самодельные карты Г. Роршаха или стандартные – с определенной цветовой гаммой и цветовыми оттенками.

4 Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5 Стандартный бланк для выполнения данного теста. Это облегчает процедуру обработки результатов.

6 Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7 Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «правильного ответа» и др.

8 Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.

Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Здесь предполагается разработка процедуры подсчета баллов и пр. Этот этап реализует сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (таблица 4).

Третий этап стандартизации психологического теста состоит в определении норм выполнения теста. Нормы разрабатываются для различных возрастов, профессий, полов и др.

Таблица 4.

Виды норм

Школьные нормы	разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны.
Профессиональные нормы	устанавливаются на основе тестов для разных профессиональных групп (например, механиков разного профиля, машинисток и др.).
Локальные нормы	устанавливаются и применяются для узких категорий людей, отличающихся наличием общего- признака – возраста, пола, географического района, социо-экономического статуса и др. Например, для теста Векслера на интеллект нормы ограничены возрастными рамками.
Национальные нормы	разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм определяется конкретной культурой, моральными требованиями и традициями каждой нации.

Наличие нормативных данных (норм) в стандартизованных методах и является их существенной характеристикой.

Нормы необходимы при интерпретации тестовых результатов (первичных показателей) в качестве эталона, с которым сравниваются результаты тестирования. Например, в тестах интеллекта получаемый первичный показатель IQ соотносится с нормативным IQ (43, 44, 45 баллов в тесте Равена). Если полученный IQ респондента выше нормативного, равен 60 баллам (в тесте Равена), можно говорить об уровне развития интеллекта этого респондента как высоком. Если полученный IQ ниже, то о низком; если полученный IQ равен 43, 44 или 45 баллам, то о среднем.

Расчет тестовых показателей

Расчет тестовых показателей также может производиться путем сравнения с рядом критериев, например статистической нормой.

Понятие статистической нормы было введено коллективом сотрудников Стэнфордскогоьо университета под руководством Термена при работе со шкалам Бине.

Статистическая норма – это критерий, с которым можно сравнить индивидуальные тестовые показатели, оценивать их и давать им психологическую интерпретацию. На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать статистической нормой. Средний результат – это не единственное число, а диапазон значений (см. рисунок 5). Для определения разброса значений используется понятие стандартного отклонения.

Рисунок 5 — Кривая нормального распределения для теста «Прогрессивные матрицы Равенна».

Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации.

Правила формирования выборки стандартизации:

1) должна состоять из респондентов, на которых в принципе ориентирован данный тест, то есть если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста;

2) должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. Под популяцией понимается, например, группа дошкольников 6-7 лет, руководителей, подростков и т.д.

Для вычисления статистической нормы психологи-диагносты обратились к давно применяемым приемам математической статистики.

Рассмотрим пример. На призывной пункт явилось несколько тысяч молодых людей.

Допустим, что все они примерно одного возраста. Что мы получим при измерении их роста? Обычно оказывается, что большинство почти одного роста, совсем немного будет людей очень маленького и очень высокого роста. Остальные же распределятся симметрично, уменьшаясь по количеству от среднего максимума в ту и другую сторону. Распределение рассматриваемых величин — это нормальное распределение (или распределение по нормальному закону, кривая распределения Гаусса). Математики показали, что для описания такого распределения достаточно знать два показателя — среднюю арифметическую и так называемое стандартное отклонение, которое получается путем несложных вычислений. Назовем среднюю арифметическую х, а стандартное отклонение σ (сигма малая). При нормальном распределении все изучаемые величины практически находятся в пределах х + 5 σ.

Рассмотрим как определялась статистическая норма для тестов Стэнфорд-Бине. В группу испытуемых входили 4498 человек от 2,5 до 18 лет. Усилия стэнфордских психологов были направлены на то, чтобы распределение полученных по каждому возрасту данных о выполнении тестов было близко к нормальному. Этого результата удалось добиться далеко не сразу; в некоторых случаях ученым приходилось заменять одни задания другими. В конце концов эта работа была закончена, и были подготовлены тесты по каждому возрасту со средней арифметической, равной 100, и со стандартным отклонением, равным 16. Принимается, что результаты в пределах х ± σ показывают границы наиболее характерной, представительной части распределения, границы нормы для данного возраста. При σ = 16 и х = 100 эти границы нормы будут от 84 до 116. Интерпретируется это так: результаты испытуемых, которые не выходят за эти границы, находятся в пределах нормы. Те, чьи результаты менее 84, находятся ниже нормы, а те, чьи результаты более 116, — выше нормы. Нередко этот же прием применяют и для дальнейшей классификации. Тогда результаты в пределах от х-σ до х-2σ интерпретируются как «несколько ниже нормы», а от х-2 σ до х-Зσ — как «значительно ниже нормы». Соответственно классифицируются результаты, находящиеся выше нормы.

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика – кривой нормального распределения.

Иногда тестовые показатели сравниваются не с нормой, а с объективно заданным показателем – социально-психологическим нормативом. В нашей стране под руководством К.М. Гуревича разрабатываются тесты, в которых в качестве точки отсчета выступает не статистическая норма, а независимый от результатов испытания, объективно заданный социально-психологический норматив.

Социально-психологический норматив реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Все сопоставления индивидуальных или групповых результатов тестирования проводятся с тем максимумом, который представляется в тесте (а это полный набор знаний). В качестве критерия оценки выступает показатель, отражающий степень близости результатов к нормативу. Имеется разработанная схема представления групповых количественных данных.

Для анализа данных относительно их близости к социально-психологическому нормативу, условно рассматриваемому как 100 % выполнение всего теста, все испытуемые подразделяются по результатам тестирования на 5 подгрупп:

1) наиболее успешные — 10%;

2) близкие к успешным — 20%;

3) средние по успешности — 40%;

4) мало успешные — 20%;

5) наименее успешные — 10%.

Для каждой из подгрупп подсчитывается средний процент правильно выполненных заданий. Строится система координат, где по оси абсцисс идут номера подгрупп, по оси ординат — процент выполненных каждой из подгрупп заданий. После нанесения соответствующих точек вычерчивается график, отражающий приближение каждой из подгрупп к социально-психологическому нормативу. Такая обработка проводится по результатам как теста в целом, так и каждого субтеста в отдельности.

Социально-психологический норматив (далее СПН) – это система требований, которые общество предъявляет к личностному и психическому развитию каждого члена. Эти требования и составляют содержание СПН и закрепляются в образовательных программах, они изменяются с развитием общества (например, требования к развитию ребенка в 6 месяцев, в 2 года, к моменту поступления в школу и пр.).

Валидность и надежность

Все методы психологической диагностики, начиная со стандартизованных и заканчивая нестандартизованными, направлены на измерение свойств личности и особенностей интеллекта.

Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности. Например, методика «Кольца Ландольта» предназначена для измерения таких свойств внимания, как концентрация, переключаемость. В психологии существуют определения понятий концентрации внимания и его переключаемости. Считается, что выводы, сформулированные на основании результатов тестирования с помощью «Колец Ландольта», вполне отражают содержание определений этих свойств внимания. Значит, эта методика действительно измеряет то, для чего она предназначена.

Помимо общего значения в понятие валидности входят многие другие сведения. Существуют разные типы и виды валидности, в которых отражены эти сведения. Ниже приведены некоторые типы.

1 Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?»

2 Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.

3 Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидации (проверке теста на валидность) тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.

4 Внешняя валидность означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.

Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности, так и практической.

О высокой надежности метода говорят тогда, когда метод очень точно измеряет то свойство, для измерения которого он предназначен, вне зависимости от времени и условий проведения теста. В качестве критериев точности можно отметить следующие:

1 При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.

2 Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.

3 При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.

Существуют различные методы оценки надежности.

Ретестовый метод – повторное тестирование выборки испытуемых сиспользованием одного и того же теста через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.

ТЕСТ ИНТЕРВАЛ РЕТЕСТ

За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.

Надежность взаимозаменяемых форм – повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

ТЕСТ А ИНТЕРВАЛ ТЕСТ А'

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.

Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место. Эффект переноса следует учитывать при построении параллельных форм тестов.

Требования к построению параллельных форм теста:

· должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;

· должны содержать одинаковое количество заданий со сходной степенью трудности;

· эквивалентность параллельных форм необходимо проверять ретестовым методом.

Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.

Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.

Преобразование первичных данных в производные показатели

Как известно, стандартизация теста предполагает единообразие процедуры интерпретации результатов и возможность сравнения индивидуальных показателей испытуемых между собой. Чаще всего в руководствах к тому или иному тесту можно встретить выражения нормы не в виде «сырых» баллов, а в виде стандартных производных показателей. То есть нормы к данному тесту могут быть выражены в виде Т-баллов, децилей, процентилей, станайнов, стандартных IQ и др. Перевод «сырых» значений (первичных показателей) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнивать между собой. Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта, и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов.

Производные показатели получаются путем математической обработки первичных показателей. Для обеспечения сравнения значений показателей разных тестов они переводятся в Z-оценки по формуле:

Z=Х-Хср./ δ,

где Х — индивидуальное значение показателя теста, Хср. — среднее арифметическое показателей, δ — стандартное отклонение.

Z-оценки имеют среднее значение, равное нулю, и стандартное отклонение, равное единице. Зачастую Z-оценки неудобны для практической работы, т.к. могут быть дробными, отрицательными. Поэтому чаще их переводят в стандартные шкалы с заданными средними значениями и отклонениями по формуле:

Z= [Х-Хср./ δ] *А + М,

где А – заданное стандартное отклонение, М – заданное среднее значение.

В настоящее время распространены следующие виды шкал:

· Т-шкала Маккола (М=50, А=10),

· шкала IQ (М=100, А=15),

· шкала стенов (М=5,5, А= 2),

· шкала стэнайнов (М=9, А=2).

Также есть еще один способ преобразовать «сырые» баллы в основу для сопоставления и сравнения — с помощью процентилей.

Процентиль — это процентная доля индивидов из выборки стандартизации, первичный результат которых ниже данного первичного показателя. Например, если 28 % людей правильно решат не более 15 задач в арифметическом тесте, то первичному показателю 15 соответствует 28-й процентиль (Р28). Процентили указывают на относительное положение индивида в выборке стандартизации. Их также можно рассматривать как ранговые градации, общее число которых равно 100, с той лишь разницей, что при ранжировании принято начинать отсчет сверху, т.е. с лучшего члена группы, получающего ранг 1. В случае же процентилей отсчет ведется снизу, поэтому чем ниже процентиль, тем хуже позиция индивида.

50-й процентиль (Р50) соответствует медиане — одному из показателей центральной тенденции. Процентили свыше 50 представляют показатели выше среднего, а те, которые лежат ниже 50, — сравнительно низкие показатели.

25-й и 75-й процентили известны также под названием 1-го и 3-го квартилей, поскольку они выделяют нижнюю и верхнюю четверти распределения. Как и медиана, они удобны для описания распределения показателей и сравнения с другими распределениями.

Процентили не следует смешивать с обычными процентными показателями. Последние являются первичными показателями и представляют собой процент правильно выполненных заданий, тогда как процентиль — это производный показатель, указывающий на долю от общего числа членов группы. Первичный результат, который ниже любого показателя, полученного в выборке стандартизации, имеет нулевой процентильный ранг (Р_о). Результат, превышающий любой показатель в выборке стандартизации, получает процентильный ранг 100 (Р₁₀₀). Эти процентили, однако, не означают нулевого или абсолютного результата выполнения теста.

Процентильные показатели обладают рядом достоинств, в частности:

· их легко рассчитать и понять даже неподготовленному человеку;

· их применение достаточно универсально и подходит к любому типу тестов.

Недостаток процентилей: существенное неравенство единиц отсчета в том случае, когда анализируются крайние точки распределения. При использовании процентилей (как уже отмечалось выше) определяется только относительное положение индивидуальной оценки, но не величина различий между отдельными показателями.

Контрольные вопросы:

1 Дайте определение понятию «стандартизация методик».

2 Что такое репрезентативная выборка? Как она строится?

3 Назовите приведенные в главе критерии оценки результатов диагностических испытаний.

4 Что такое надежность методики? Назовите способы проверки надежности.

5 Что такое валидность методики? Назовите ее основные виды.

Практические задания:

Ознакомьтесь с результатами диагностики детей по тесту Филипса (таблица 5).

1 Определите Хср. и стандартное отклонение для каждого параметра.

2 Определите, является ли распределение нормальным.

3 Вычислите процентиль испытуемого №5.

4 Вычислите социально-психологический норматив по параметру 2.

Таблица 5.

Результаты диагностики школьной тревожности

№	Имя	Возраст	Факторы

	Борис	9л. 5 м.
	Вова	9л. 2м.
	Виталик	9л. 8м.
	Даша	10л. 1м.
	Максим	10л. 1м.
	Настя	9л. 11м.
	Кирилл	11л. 6м.
	Ксюша	9л.10 м.
	Артем	10л.2м.
	Алина	9л.10м.
	Руслан	10л.1м.
	Маша	8л.8м.

Список литературы:

1 Аванесов В.С. Тесты в социологическом исследовании. М.: Наука, 1982.

2 Бурлачук Л.Ф. Психодиагностика. СПб., 2003.

3 Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психологической диагностике. Киев, 1989.

4 Гуревич К.М., Акимова А.К., Козлова В.Т. Статистическая норма или социально-психологический норматив? // Психологический журнал. 1986. № 3.

5 Мельников В.М., Ямпольский Л.Т. Введение в экспериментальную психологию личности. М.: Просвещение, 1985. Гл. 4.

6 Психологическая диагностика: проблемы и исследования/под ред. К.М. Гуревича. М.: Педагогика, 1981. Гл. 2, 3, 5.

3 4 5 6 7 8 9

Подборка статей по вашей теме: