Группировка данных

Группировку данных выполняют в случаях, когда достаточно большой объем данных и большой диапазон разброса данных. Необходимо, чтобы массив группируемых данных имел объем N> 50 – 80.

Целью группировки является получение эмпирической функции распределения, после чего уже по распределению вычисляются числовые характеристики. Для группировки необходимо, прежде всего, расположить данные каждой выборки в возрастающем порядке.

Выделяют несколько способов группировки данных.

Способ 1. Формула Стержеса

k = 1 + 3,3221* lg(N),

где k – число интервалов;

N – количество данных (объем выборки).

Величина интервала (ширина интервала) группировки – λ определяется:

λ =

Величина интервала округляется до некоторого «удобного» числа. Как правило, округляют так, чтобы λ³Dx, где Dx – абсолютная погрешность измерения значений случайной величины Х в условиях эксперимента.

Способ 2. Число разрядов (k) выбирается произвольно, из принципа целесообразности. Гласс, Стенли рекомендуют от 8 до 12 разрядов.

При выборе числа разрядов В.Х.Манеров предлагает руководствоваться следующими правилами:

- число разрядов гистограммы должно быть нечетным (желательно, но не обязательно);

- при большом объеме выборки N ≥100, число разрядов k = от 9 до 11-13;

при N ≈ 25 – 40 рекомендуется k≈5;

при N ≈ 40 – 90 рекомендуется k≈7;

Ширина разряда (ширина интервала) группировки – λ вычисляется:

λ = =

Как правило, получаем не целое число, которое рекомендуется (не обязательно) округлять в сторону увеличения, так как в противном случае мы не захватим в верхние разряды крайние значения переменных. При таком округлении весь размах несколько увеличивается, и мы можем расширить его как в сторону больших, так и в сторону малых значений.

Границы разрядов. Один из способов – сдвиг границ классов на половину последней варьирующей цифры (разряда). Так, если минимальное число равно 44, то границей первого разряда будет число 43,5.

Рекомендации по построению графиков (Л.В.Куликов)

1. График и текст должны взаимно дополнять друг друга

2. График должен быть понятен «сам по себе» и включать все необходимые обозначения, должен быть ясным и полным, отражающим содержание.

3. На одном графике не разрешается изображать больше четырех кривых.

4. Надписи на осях следует располагать внизу и слева.

5. Точки на разных линиях принято обозначать кружками, квадратами и треугольниками.

6. Надписи и легенда располагаются, как правило, в нижней или правой части диаграммы.

7. Цифры шкалы следует наносить слева и снизу или вдоль осей. Горизонтальную шкалу (по оси абсцисс) необходимо строить слева направо, вертикальную (по оси ординат) - снизу вверх.

8. Если числовые данные не включены в диаграммы, желательно их представить рядом в табличной форме.

9. Густота координатной сетки должна быть оптимальной, не затрудняющей чтения графика.

10. На графике допускается не более трех различных цветов.

11. Если графики отражают серию наблюдений, рекомендуется ясно обозначать все точки, соответствующие отдельным наблюдениям.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: