Статистические распределения рядов признаков-факторов и результирующего признака

Оглавление

 

Введение

Формирование исходной выборки

Статистические распределения рядов признаков-факторов и результирующего признака

Проверка однородности и нормальности

Вывод зависимостей результирующего-признака от факторов-признаков

Группировка

Определение доверительного интервала

Вычисление линейных коэффициентов корреляции, вывод уравнения регрессии

Заключение

Список источников


Введение

 

Целью данной работы является статистическое исследование взаимосвязей стоимости автомобиля марки «Хонда-Сивик» с факторными признаками: пробегом и временем эксплуатации; а также, на основании исследования выявления первичных факторов, влияющих на стоимость и вывод зависимости целевого параметра(стоимости) от первичного фактора.

Для построения исходной выборки был выбран сайт www.auto.ru.


Формирование исходной выборки

 

Используя сайт auto.ru проводим выборочное исследование 50 автомобилей марки Хонда-Сивик.

Исследуемые признаки:

Y ‑ цена автомобиля, тыс.руб.;

Х1 ‑ время эксплуатации, лет;

Х2 ‑ пробег, тыс. км.

№ п/п

Марка

Y

 Х1

Х2

1

Civic VII

379 5 121

2

Civic VII

399 4 74

3

Civic VII

429 4 88

4

Civic VII

393 3 95

5

Civic VII

397 3 60

6

Civic VII

430 3 54

7

Civic VII

459 3 46

8

Civic VIII

455 2 107

9

Civic VIII

467 2 47

10

Civic VIII

468 2 97

11

Civic VIII

552 2 60

12

Civic VIII

565 2 41

13

Civic VIII

570 2 57

14

Civic VIII

579 2 30

15

Civic VIII

597 2 150

16

Civic VIII

441 1 75

17

Civic VIII

466 1 30

18

Civic VIII

500 1 15

19

Civic VIII

524 1 26

20

Civic VIII

530 1 22

21

Civic VIII

539 1 32

22

Civic VIII

555 1 62

23

Civic VIII

560 1 14

24

Civic VIII

575 1 30

25

Civic VIII

575 1 88

26

Civic VIII

600 1 18

27

Civic VIII

600 1 18

28

Civic VIII

615 1 40

29

Civic VIII

680 1 14

30

Civic VIII

510 0 18

31

Civic VIII

533 0 0

32

Civic VIII

533 0 0

33

Civic VIII

541 0 0

34

Civic VIII

541 0 0

35

Civic VIII

561 0 0

36

Civic VIII

570 0 29

37

Civic VIII

585 0 0

38

Civic VIII

590 0 0

39

Civic VIII

606 0 0

40

Civic VIII

616 0 0

41

Civic VIII

640 0 0

42

Civic VIII

640 0 0

43

Civic VIII

640 0 0

44

Civic VIII

643 0 0

45

Civic VIII

650 0 10

46

Civic VIII

650 0 0

47

Civic VIII

661 0 0

48

Civic VIII

661 0 0

49

Civic VIII

683 0 0

50

Civic VIII

600 0 13


Статистические распределения рядов признаков-факторов и результирующего признака

 

Исследуем статистическое распределение признаков Х1 с помощью интервального вариационного ряда:

Интервальный ряд для Х 1

Х 1

F 1

Ср. цена тыс.руб.

0-1

21

603

1-2

14

554

2-3

8

532

3-4

4

420

4-5

2

414

5-6

1

379

 

Приведем графическое отображение ряда для Х1 в виде гистограммы и кумуляты:

 

 

Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X1. Формула для вычисления среднего арифметического:

 

где  – средняя по ряду распределения;

 – средняя по i-му интервалу;

 – частота i-го интервала (число автомобилей в интервале).

 

Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:

где  – значение моды;

 X0 – нижняя граница модального интервала;

h – величина модального интервала (1 год);

– частота модального интервала;

– частота интервала, предшествующая модальному;

– частота послемодального интервала.

Модальный интервал определяется по наибольшей частоте. Для ряда X1 наибольшее значение частоты равно 21, т.е. это будет интервал 0 лет  , тогда значение моды:

Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.

Номер медианы определяется по формуле:

где

n – число единиц в совокупности

т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.

Значение медианы можно определить по формуле:

где  – значение медианы;

 – нижняя граница медианного интервала;

- номер медианы;

- накопленная частота интервала, предшествующая медианному;

 - частота медианного интервала.

По накопленной частоте определяем, что медиана будет находиться в интервале от 1 года до 2-х лет  , тогда значение медианы:

Для вычисления дисперсии воспользуемся следующей формулой:

где  – дисперсия;

– среднее по i-му интервалу;

 – среднее по ряду распределения;

 – частота i-го интервала;

n – размер выборки (n=50).

 

Среднее квадратическое отклонение вычислим по следующей формуле:

где  – дисперсия;

 – среднее квадратическое отклонение;

 

Вычислим коэффициент вариации

где  – коэффициент вариации;

– среднее квадратическое отклонение;

 - среднее по ряду распределения.

Вычислим значения коэффициента ассиметрии:

где ;

 – коэффициент ассиметрии;

 – среднее квадратическое отклонение;

 – среднее по i-му интервалу;

 – среднее по ряду распределения;

 – частота i-го интервала;

n – размер выборки (n=50).

 

 

Вычислим значения коэффициента эксцесса:

где   

 - коэффициент эксцесса;

 – среднее квадратическое отклонение;

 – среднее по i-му интервалу;

 – среднее по ряду распределения;

 – частота i-го интервала;

n – размер выборки (n=50).

 

Исследуем статистическое распределение признаков Х2 с помощью интервального вариационного ряда.

Для построения ряда распределения необходимо определить число групп и величину интервала. Для определения числа групп воспользуемся формулой Стерджесса:

гдеm – число групп (всегда целое);

n – число единиц в выборке, в нашем случае n= 50.

Вычислим m:

Величину интервала определим по формуле:

где Хmax – максимальное значение признака;

Хmin - минимальное значение признака;

m – число групп.

 

На основании полученных данных построим интервальный ряд для Х2:

Интервальный ряд для Х 2

Х 2

F 2

Ср. цена тыс.руб.

0 - 21

25

601

21 - 42

9

551

42 - 63

7

490

63 - 84

2

420

84 - 105

4

466

105 - 126

2

417

126 - 150

1

597

 

Приведем графическое отображение ряда для Х2 в виде гистограммы и кумуляты:

 

Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X2. Формула для вычисления среднего арифметического:

 

где  – средняя по ряду распределения;

 – средняя по i-му интервалу;

 – частота i-го интервала (число автомобилей в интервале).

 

 

Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:

где  – значение моды;

 – нижняя граница модального интервала;

h – величина модального интервала (1 год);

- частота модального интервала;

- частота интервала, предшествующая модальному;

- частота послемодального интервала.

Модальный интервал определяется по наибольшей частоте. Для ряда X1 наибольшее значение частоты равно 25, т.е. это будет интервал 0 до 21 тыс. км., тогда значение моды:

 

 

Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.

Номер медианы определяется по формуле:

где

n – число единиц в совокупности

т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.

Значение медианы можно определить по формуле:

где – значение медианы;

 – нижняя граница медианного интервала;

- номер медианы;

- накопленная частота интервала, предшествующая медианному;

 - частота медианного интервала.

По накопленной частоте определяем, что медиана будет находиться в интервале от 21 до 42 тыс. км., тогда значение медианы:

Для вычисления дисперсии воспользуемся следующей формулой:

где  – дисперсия;

– среднее по i-му интервалу;

 – среднее по ряду распределения;

 – частота i-го интервала;

n – размер выборки (n=50).

 

Среднее квадратическое отклонение вычислим по следующей формуле:

где  – дисперсия;

 – среднее квадратическое отклонение;

 

Вычислим коэффициент вариации

где  – коэффициент вариации;

– среднее квадратическое отклонение;

 - среднее по ряду распределения.

 

Вычислим значения коэффициента ассиметрии:

где

 – коэффициент ассиметрии

 – среднее квадратическое отклонение;

 – среднее по i-му интервалу;

 – среднее по ряду распределения;

 – частота i-го интервала;

n – размер выборки (n=50).

 

 

Вычислим значения коэффициента эксцесса:

где ;

 - коэффициент эксцесса;

 – среднее квадратическое отклонение;

 – среднее по i-му интервалу;

 – среднее по ряду распределения;

 – частота i-го интервала;

n – размер выборки (n=50).

 

 

Исследуем статистическое распределение признаков Y с помощью интервального вариационного ряда.

Величину интервала определим по формуле, используя полученное ранее значение m:

где Хmax – максимальное значение признака;

Хmin - минимальное значение признака;

m – число групп.

На основании полученных данных построим интервальный ряд для Y:

 

Интервальный ряд для Y

Y

Fy

Ср. цена тыс.руб.

379 - 422

4

400,5

422 - 465

5

443,5

465 - 508

4

486,5

508 - 551

8

529,5

551 - 594

12

572,5

594 - 637

7

615,5

637 - 683

10

660

 

Приведем графическое отображение ряда для Y в виде гистограммы и кумуляты:

 

 

Вычислим среднюю арифметическую, моду и медиану интервального  ряда распределения для Y. Формула для вычисления среднего арифметического:

 

где  – средняя по ряду распределения;

 – средняя по i-му интервалу;

 – частота i-го интервала (число автомобилей в интервале).

 

Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:

где  – значение моды;

Y0 – нижняя граница модального интервала;

h– величина модального интервала;

- частота модального интервала;

- частота интервала, предшествующая модальному;

- частота послемодального интервала.

Модальный интервал определяется по наибольшей частоте. Для ряда Y наибольшее значение частоты равно 12, т.е. это будет интервал 551-594, тогда значение моды:

 

 

Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.

 

Номер медианы определяется по формуле:

где ;

n – число единиц в совокупности;

т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.

Значение медианы можно определить по формуле:

где  – значение медианы;

 – нижняя граница медианного интервала;

– номер медианы;

– накопленная частота интервала, предшествующего медианному;

 - частота медианного интервала;

По накопленной частоте определяем, что медиана будет находиться в интервале 551-594, тогда значение медианы:

 

Для вычисления дисперсии воспользуемся следующей формулой:

где  – дисперсия;

 – среднее по i-му интервалу;

 – среднее по ряду распределения;

 – частота i-го интервала;

n – размер выборки (n=50).

 

Среднее квадратическое отклонение вычислим по следующей формуле:

где  – дисперсия;

 – среднее квадратическое отклонение;

 

Вычислим коэффициент вариации

где  – коэффициент вариации;

 – среднее квадратическое отклонение;

 - среднее по ряду распределения.

 

Вычислим значения коэффициента ассиметрии:

где

 – коэффициент ассиметрии;

 – среднее квадратическое отклонение;

 – среднее по i-му интервалу;

 – среднее по ряду распределения;

 – частота i-го интервала;

n – размер выборки (n=50).

Подставив значения, получим, что:

 

Вычислим значения коэффициента эксцесса:

где ;

 - коэффициент эксцесса;

 – среднее квадратическое отклонение;

 – среднее по i-му интервалу;

 – среднее по ряду распределения;

 – частота i-го интервала;

n – размер выборки (n=50).

 

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: