Методические указания. Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку

Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку. С точки зрения отдельных единиц совокупности группировка – это объединение отдельных единиц совокупности в группы, однородные по каким-либо признакам.

Метод группировки основывается на следующих категориях – это группировочный признак, число групп и интервал группировки.

Признак, по которому осуществляется группировка, называется основанием группировки, или группировочным признаком. Группировочные признаки могут быть атрибутивными и количественными.

Атрибутивные признаки регистрируются в виде текстовой записи (например, профессии рабочих, социальная группа населения). Количественные признаки имеют непосредственное числовое выражение (стаж работы, размер дохода). Группировка может выполняться по одному признаку (простая группировка) и по нескольким признакам (комбинированная группировка).

После определения основания группировки следует решить вопрос о количестве групп, на которое надо разбить исследуемую совокупность.

При группировке по атрибутивному признаку число групп определяется количеством соответствующих наименований, т.е. градаций, видов, состояний у признака, если число этих наименований не очень велико. Если признак имеет большое количество разновидностей, то разрабатывается классификация – систематизированное распределение явлений и объектов на определённые группы, классы, разряды на основании их сходства и различия.

При группировке по количественному признаку число групп определяется в зависимости от характера изменения признака и задач исследования. Если количественный признак меняется прерывно (дискретно), т.е. может принимать только некоторые – чаще целые значения (например, тарифный разряд рабочих), то число групп должно соответствовать количеству значений признака. При небольшом объёме совокупности не следует образовывать большое число групп, т.к. они будут малочисленными, а показатели, рассчитанные для таких групп не позволят получить адекватную характеристику исследуемого явления. В каждом конкретном случае при определении числа групп следует исходить не только из степени колеблемости признака, но ещё учитывать и особенности объекта и цель исследования.

При непрерывном изменении признак принимает, любые значения (например, стаж работы, возраст рабочих), поэтому группы ограничиваются значениями признака в интервале «от и до». На практике используют три вида интервалов: равные, неравные (постепенно увеличивающиеся) и специализированные.

Здесь необходимо учитывать несколько условий:

а) число групп детерминируется уровнем колеблемости группировочного признака. Чем значительнее вариация признака, тем больше при прочих равных условиях должно быть групп;

б) число групп должно отражать реальную структуру изучаемой совокупности;

в) не допускается выделение пустых групп. Если проблема пустых групп все же возникает, при проведении структурных группировок используют неравные интервалы. Наличие пустых групп или малое число статистических единиц в них свидетельствуют о неправильном определении их числа.

Группировка с равными интервалами строится, если вариация признака проявляется в узких границах и распределение носит равномерный характер. Величина равного интервала определяется по формуле:

(1)

где R – размах вариации определяется как

разность между наибольшим и

наименьшим значением признака в совокупности R=Xmax - Xmin;

n – число групп.

Для расчёта величины интервала по этой формуле необходимо заранее установить число групп п (при числе наблюдений более 200 используют 10 – 15 групп). Возможен и другой способ установления числа групп. В этом случае используется формула Стерджесса:

n =1 + 3.322 lgN (2)

Где n – число групп;

N – число единиц совокупности.

Применение этой формулы целесообразно при большом числе единиц совокупности. При объёме совокупности 20-25 единиц число групп рекомендуется принимать п ≤ 4.

Формула Стерджесса позволяет определить величину интервала без предварительного установления числа групп:

(3)

В практических расчетах можно использовать следующие соотношения, полученные на основании формулы Стерджесса:

N 15-24 25-44 45-89 90-179 180-359 360 и более
n            

Зависимость Стерджесса дает хорошие результаты, если совокупность состоит из большого числа единиц, распределение близко к нормальному, и при этом используются равные интервалы. Существует еще один способопределения количества выделяемых групп, он связан с применением среднеквадратичного отклонения равными и неравными σ: если величина (ширина) интервала равна 0,5σ, то выделяется 12 групп, если 2/3σ,- то 9 групп, если σ – то 6 групп.

Прежде чем определять размах вариации, из совокупности следует исключить аномальные значения признака. Если максимальное или минимальное значение сильно отличается от смежных с ним значений, то для определения величины интервала используют не максимальное и минимальное значения, а значения, несколько превышающее минимум и несколько меньше максимума. Полученную по формуле (1) величину округляют. Она является шагом интервала.

Существуют следующие правила определения шага интервала.

Если величина интервала – величина, имеющая один знак до запятой (например, 0,66; 1,375; 5,82), то полученные значения следует округлить до десятых и использовать в качестве шага интервала (соответственно 0,7; 1,4; 5,8). Когда рассчитанная величина интервала имеет две значащие цифры до запятой и несколько знаков после запятой, то это значение надо округлить до целого числа. Пусть величина интервала, исчисленная по формуле (1.1), равна 12,785. Тогда это значение следует округлить до целого числа, т.е. до 13. В случае, когда рассчитанная величина интервала представляет собой трёхзначное, четырёхзначное и так далее число, эту величину необходимо округлить до ближайшего числа, кратного 100 или 50. Например, 248 следует округлить до 250. Чаще всего, полученное значение величины (ширины) интервала округляется в бóльшую сторону. При округлении в меньшую сторону последний интервал делают открытым.

В каждой выделенной группе рассчитываются следующие параметры:

- верхняя граница интервала;

- нижняя граница интервала;

- ширина интервала;

- середина i-го интервала.

Нижней границей интервала () называется наименьшее значение признака в интервале - данной группе. Верхней границей интервала () называется

наибольшее значение признака в интервале - данной группе.

Интервалы группировки бывают равными и неравными (прогрессивно возрастающими, прогрессивно убывающими, произвольными, специализированными). Если вариация признака проявляется в сравнительно узких границах, и распределение статистических единиц носит достаточно равномерный характер, то строят группировку с равными интервалами.

На основе рассчитанной ширины интервала последовательно определяются границы интервалов и . Определение границ начинается с первой группы. Ее нижняя граница принимается равной минимальному значению признака в совокупности, т. е. , а верхняя граница определяется как

Для второй группы нижняя граница принимается равной верхней границе первой группы, т. е. , верхняя определяется как

и т. д. В целом границы интервалов определяются формулами:

и

Середина интервала (центральная варианта) определяется как

полусумма верхней и нижней границ, т.е. по формуле:

Параметр середина интервала используется при расчете обобщающих

характеристик изучаемой совокупности.

Интервалы могут быть открытыми и закрытыми. Открытыеинтервалы – это те интервалы, у которых указана только одна граница: верхняя – у первого, нижняя – у последнего. Закрытые интервалы – это те интервалы, у которых обозначены обе границы. Величина открытого интервала принимается равной величине смежного с ним закрытого интервала.

Основной задачей распределения единиц совокупности по группамявляется подсчет числа единиц, попавших в каждую из выделенных групп . При распределении единиц наблюдения по выделенным группам, особенно если группировочный признак является непрерывным, имеет место неопределенность: к какой группе относить единицы со значениями признака, совпадающими с границами интервалов? Для устранения неопределенности используют принцип единообразия – такие единицы включаются в группу, в которой нижняя граница совпадает со значением признака. Например, имеются группы предприятий по объему производства, млн. руб.:400 – 450; 450 – 500; 500 – 550; 550 – 600.

К какой группе следует отнести предприятия с объемом производства 500млн. руб.? В соответствии с принципом единообразия - ко второй группе. (Т.е нижняя граница – включительно, а верхняя – исключительно)

Группировка с неравными интервалами применяются в статистике, когда значения признака варьируют неравномерно и в значительных размерах. Неравные интервалы часто применяются в аналитических группировках. В этом случае интервалы выбираются так, чтобы число единиц в образовавшихся группах было достаточно велико, т.е. группы были одинаково заполнены.

В типологических группировках используются специализированные интервалы. Границы в них устанавливаются там, где начинается переход от одного качества к другому. Наметить точки перехода можно только на основе теоретического анализа, используя для выделения типов совокупность признаков, характеризующих различные стороны изучаемого явления.

Иногда имеющуюся группировку необходимо несколько изменить: объединить ранее выделенные относительно мелкие группы в небольшое число более крупных, типичных групп или изменить границы прежних групп с тем, чтобы сделать группировку сопоставимой с другими. Такая переработка результатов первичной группировки называется перегруппировкой, или вторичной группировкой.

Для количественной характеристики каждой группы часто выполняют расчет структурных характеристик. Расчет заключается в определении для каждой группы удельного веса (доли) ее единиц в общем объеме статистической совокупности. Как и любая относительная величина, этот показатель может быть определен в виде коэффициентов, или в виде процентов:

или

Рассчитав такие доли для всех групп, мы получаем структуру изучаемой статистической совокупности, равную полному набору долей:

или

На основе анализа показателей структуры делаются соответствующие выводы. В выводах отражаются два положения:

Какие значения признака встречаются в совокупности наиболее часто, какие наиболее редко.

Каков характер изменения структуры явления в зависимости от изменения значения признака. Выводы должны быть сделаны обязательно, иначе пропадает смысл построения группировки.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow