Типовые задачи обработки данных

1) Описательная статистика.

2) Анализ совпадений и различий характеристик экспериментальной и контрольной групп на основании измерений, проведенных в порядковой шкале или шкале отношений.

3) Исследование зависимостей между явлениями, процессами.

Описательная статистика

В практических задачах обычно имеется совокупность наблюдений, например десятки, сотни и более результатов измерений. Необходимо компактно описать имеющиеся данные и получить при этом какую-либо информацию об этой совокупности.

Для результатов измерения в шкале отношений показатели описательной статистики можно разбить на несколько групп.

Показатели положения. Эти показатели описывают положение экспериментальных данных на числовой оси.

Такими показателями являются:

- максимальный и минимальный элементы выборки;

- среднее значение (для ограниченной по объему выборки обычно определяется среднее арифметическое значение)

; (13.1)

- медиана, то есть значение исследуемого признака, слева и справа от которого находится одинаковое число упорядоченных элементов выборки; если объем выборки – четное число, то медианой является среднее арифметическое двух центральных членов;

- мода, то есть такое значение измеренного признака, которое встречается в выборке наибольшее число раз.

Показатели разброса. Эти показатели описывают разброс данных относительно своего центра (среднего значения).

Показателями разброса являются:

- дисперсия (или второй центральный момент). При ограниченном объеме выборки определяют выборочную дисперсию

; (13.2)

- размах (интервал выборки), т. е. разность между максимальным и минимальным элементами выборки;

Показатель ассиметрии. Показатель ассиметрии показывает положение медианы относительно среднего значения; количественной характеристикой ассиметрии является коэффициент ассиметрии, определяемый как нормированный третий центральный момент

, (13.3)

где - среде квадратическое отклонение случайной величины х.

Из-за ограниченности выборки среднее значение случайной величины определяется с ошибкой. Введено понятие стандартная ошибка среднего, которая определяется делением среднеквадратического (стандартного) отклонения на корень из объема выборки:

. (13.4)

Гистограмма. Гистограммой называют графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала группировки значений анализируемого параметра.

Анализ совпадений и различий (сравнение двух выборок)

Пусть имеются две группы экспериментальных данных. Одна получена до эксперимента, а другая после эксперимента. Необходимо установить, имеется ли статистически достоверное различие между результатами этих групп.

Для этого формулируются две статистические гипотезы:

гипотеза Н0 – статистически достоверные различия отсутствуют,

гипотеза Н1 – различия между группами статистически значимы.

Для принятия решения о том, какая гипотеза справедлива, используют решающие правила – статистические критерии.

В качестве критерия принимаю вычисленное определенным образом на основании экспериментальных данных число, которое называют эмпирическим значением критерия. Эмпирическое значение критерия сравнивают с некоторым эталонным числом, которое называют критическим значением критерия. Такие эталонные числа обычно сведены в соответствующие таблицы. Если эмпирическое значение критерия оказывается меньше или равно критическому, то принимается нулевая гипотеза, то есть делается вывод, что представленные группы данных статистически не различаются.

Для критических значений устанавливается несколько уровней значимости. Каждому уровню значимости при одном и том же объеме выборки соответствует свое критическое значение критерия.

Уровнем значимости называют вероятность ошибки, которая может проявиться в виде отклонения нулевой гипотезы, когда она на самом деле верна. Уровень значимости обозначают α. В таблицах обычно приводят критические значения критериев для уровней значимости α=0.05, 0.01, 0.001. В медико-биологических экспериментах обычно ограничиваются значением α=0.05. Это значит, что допускается не боле, чем 5%-ая возможность ошибки в принятии нулевой гипотезы.

Если эмпирическое значение критерия оказывается больше критического, то принимается альтернативная гипотеза Н1, то есть делается заключение о том, что различия между представленными группами данных статистически достоверны. Достоверность этого характеризуется значением 1–α. Например, если оценки проводятся при α=0.05, и принята гипотеза Н1, то говорят, что достоверность различий составляет 0.95 или 95%.

Для данных, измеренных в шкале отношений при проверке гипотез о совпадении характеристик двух групп наиболее часто применяют критерий Крамера-Уэлча.

Необходимо, чтобы оцениваемые данные подчинялись нормальному закону распределения.

Эмпирическое значение данного критерия рассчитывается на основании информации об объемах M 1 и М 2 выборок данных х и y, их выборочных средних и выборочных дисперсиях:

. (13.5)

Число степеней свободы, при котором надо брать табличное (критическое) значение критерия определяется как n = M 1+ M 2 2.

Рассмотрим следующий пример. При обследовании пациентов проводилось измерение концентрации углекислого газа в выдыхаемом воздухе. Все пациенты были разделены на две группы: 1-я группа – М 1=97 человек с жалобами на одышку, 2-я группа – М 2=68 человек без одышки.

В результате обследования установлено, что распределение концентрации СО2 в каждой группе близко к нормальному (рисунок 13.1)

Средние значения концентрации СО2, определенные в соответствии с выражением (13.1), составили: в 1-й группе = 3.66 об.%, во 2-й группе = 3.88 об.%.

Необходимо установить, является ли это различие средних значений случайным или обусловлено влиянием одышки.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: