Проверка данных

После создания таблицы на бумаге или компьютере необходимо про­верить качество полученных данных. Для этого часто достаточно внима­тельно осмотреть массив данных. Начать проверку следует с выявления ошибок (описок), которые заключаются в том, что неправильно написан порядок числа. Например, 100 написано вместо!0, 9.4 -- вместо 94 и т.п. При внимательном просмотре по столбцам это легко обнаружить, посколь­ку сравнительно редко встречаются параметры, которые сильно варьиру­ют. Чаще всего значения одного параметра имеют один порядок или бли­жайшие порядки При наборе данных на компьютере важно соблюдать


жайшие порядки. При наборе данных на компьютере важно соблюдат требования к формату данных в используемой статистической программе Прежде всего, это относится к знаку, который должен отделять в десяти1) ном числе целую часть от дробной (точка или запятая).

Затем массив данных надо проверить на наличие "выскакивающих вариант — выделяющихся значений, которые могли быть получены в ре зультате неточных измерений, ошибок в записях, отвлечения внимани испытуемого и т.д. Если обнаружены "подозрительные" значения, то при нять обоснованное решение об их выбраковке, используя достаточно мот ный параметрический критерий t. Он рассчитывается по следующей фор муле:

где t - критерий выпада; V — выпадающее значение признака; М — средняя величина признака для всей группы, включающей артефакт; ts — стандартные значения критерия выпадов, определяемые для трех уровней доверительной вероятности по таблице приложения 1. Смысл критерия в том, чтобы определить, находится ли данная варианта в интервале, харак­терном для большинства членов выборки, или же вне его.

Допустим, нами принят уровень значимости 0.05 (доверительная ве­роятность 0.95), а значение критерия составило 1.5. Поскольку 95% вари­ант лежат в пределах М± 1.96 ст (1.5 меньше 1.96), то, следовательно, и данная варианта лежит в указанном интервале. Если же значение критерия больше, например, 2.4, то это означает, что данное значение не относится к анализируемой совокупности (выборке), включающей 95% вариант, а есть проявление иных закономерностей, ошибок и пр. и поэтому должно быть исключено из рассмотрения.

Например, в эксперименте вы предлагаете решать мыслительные за­дачи и регистрируете в числе других параметров время решения При про­смотре данных обнаруживаете, что у одного из испытуемых время решения заметно больше, чем у остальных. Это бывает связано с тем, что вместо решения очередной задачи испытуемый начинает "искать закономерность более широкого плана", "выводить общий принцип" или нечто подобное. Об этом он может сообщить, но может и не сообщить экспериментатору. Понятно, что время решения конкретной задачи при этом может сильно отличаться от средней величины. Если у вас есть предположение, что ре­зультаты какого-либо опыта, пробы обусловлены влиянием, которое вы не можете оценить или его оценка не входит в ваши планы, то вы окажетесь


перед необходимостью принять обоснованное решение - - включать полу­ченное численное значение в дальнейшую обработку или нет.

Предположим, в эксперименте были получены следующие значения некоторого параметра, 10, 20. 20, 30. 30. 40, 40. 50, 210. Следовательно, п=9 Вычислили: M^-50. g -- ~(i\. Можно ли считать значение 210 выпадаю­щим'7

Следовательно, значение 210 может считаться выпадающим и должно ныть исключено из дальнейшей обработки.

После исключения выпадающих значений первичные статистические параметры вычисляются заново.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: