Любое статистическое исследование должно начинаться с установления характера распределения изучаемых признаков. Распределение – это соотношение между значениями случайной величины и частотой их встречаемости. Бóльшая повторяемость одних значений по сравнению с другими заставляет задумываться о причинах наблюдаемых процессов. Если значения признака откладывать по оси абсцисс, а частоты их встречаемости по оси ординат, то можно построить гистограмму, частотную диаграмму, удобную для целей иллюстрации и исследования.
Основой для построения гистограммы служит вариационный ряд – представленный в виде таблицы ряд значений изучаемого признака, расположенных в порядке возрастания с соответствующими им частотами их встречаемости в выборке.
Начнем с примера изучения плодовитости серебристо-черных лисиц, которое дало следующие результаты (число щенков на самку): 5 5 6 5 5 6 4 4 4 5 6 4 6 6 4 6 4 5 5 8 5 3 6 5 5 5 5 5 6 3 6 4 6 4 6 2 5 6 5 3 7 6 3 4 6 8 6 3 5 5 6 5 4 3 8 4 7 5 4 3 1 6 5 3 4 5 6 7 4 4 6 5 6 4 6 5.
Для дискретного признака (такова плодовитость) построение вариационного ряда обычно не представляет сложности, достаточно подсчитать встречаемость конкретных значений.
|
|
Плодовитость, x | Частота, a |
Гистограмма, построенная по данным о плодовитости лисиц (рис. 2), сразу же обнаруживает характерное поведение случайной величины – высокие частоты встречаемости значений в центре распределения и низкие по периферии.
Рис. 2. Распределение плодовитости лисиц
Если же изучаемый признак непрерывен (таковы размерно-весовые характеристики), то для построения вариационного ряда сначала весь диапазон изменчивости признака разбивается на серию равных интервалов (классов вариант), затем подсчитывают, сколько вариант попало в каждый интервал. Число классов для больших выборок (n > 100) должно быть не менее 7 и не более 12, их оптимальное число можно приблизительно определить по эмпирической формуле:
k = 1 + 3.32 ∙ lg(n), где п – объем выборки (число вариант в выборке).
Составим для примера вариационный ряд для непрерывного признака – по данным о весе 63 взрослых землероек (г):
9.2 | 11.6 | 8.1 | 9.1 | 10.1 | 9.6 | 9.3 | 9.7 | 9.9 | 9.9 | 9.6 |
7.6 | 10.0 | 9.7 | 8.4 | 8.6 | 9.0 | 8.8 | 8.6 | 9.3 | 11.9 | 9.3 |
9.2 | 10.2 | 11.2 | 8.1 | 10.3 | 9.2 | 9.8 | 9.9 | 9.3 | 9.1 | 9.4 |
9.6 | 7.3 | 8.3 | 8.8 | 9.2 | 8.0 | 8.6 | 8.8 | 9.0 | 9.5 | 9.1 |
8.5 | 8.8 | 9.7 | 11.5 | 10.5 | 9.8 | 10.0 | 9.4 | 8.7 | 10.0 | 7.9 |
8.6 | 8.7 | 9.1 | 8.2 | 9.2 | 9.4 | 8.8 | 9.8 |
1) Все операции могут быть выполнены вручную. Вначале следует определить объем выборки n = 63.
2) Рассчитать пределы размаха изменчивости значений, лимит – разность между максимальным и минимальным значением:
|
|
Lim = xmax − xmin = 11.9 −7.3 = 4.6.
3) Найти число классов вариационного ряда по формуле:
k = 1 + 3.32 ∙ lg(63) = 6.973811 ≈ 7.
4) Найти длину интервала dx (допустимо округление):
dx = Lim / k = 4.6/ 7 ≈ 0.7.
5) Установить границы классов; в качестве первой границы имеет смысл взять округленное минимальное значение: xmin = 7.
6) Вычислить центральное значение признака в каждом классе; исходным берется значение центра первого интервала; для первого класса 7–7.7, для второго – 7.8–8.4…
7) Произвести разноску вариант в соответствующие классы с подсчетом их числа методом конверта (табл. 2):
1 2 3 4 5 6 7 8 9 10.
Теперь данные можно представить графически, в виде полигона частот (ломаной кривой) или гистограммы (столбиками) (рис. 3).
Таблица 2
Классы | Центр классового интервала | Подсчет частот | Частоты, а |
7–7.7 | 7.35 | ||
7.8–8.4 | 8.05 | ||
8.5–9.1 | 8.75 | ||
9.2–9.8 | 9.45 | ||
9.9–10.5 | 10.15 | ||
10.6–11.2 | 10.85 | ||
11.3–11.9 | 11.55 | ||
Сумма |
Рис. 3. Распределение бурозубок по весу тела