Оглавление
Введение
Формирование исходной выборки
Статистические распределения рядов признаков-факторов и результирующего признака
Проверка однородности и нормальности
Вывод зависимостей результирующего-признака от факторов-признаков
Группировка
Определение доверительного интервала
Вычисление линейных коэффициентов корреляции, вывод уравнения регрессии
Заключение
Список источников
Введение
Целью данной работы является статистическое исследование взаимосвязей стоимости автомобиля марки «Хонда-Сивик» с факторными признаками: пробегом и временем эксплуатации; а также, на основании исследования выявления первичных факторов, влияющих на стоимость и вывод зависимости целевого параметра(стоимости) от первичного фактора.
Для построения исходной выборки был выбран сайт www.auto.ru.
Формирование исходной выборки
Используя сайт auto.ru проводим выборочное исследование 50 автомобилей марки Хонда-Сивик.
Исследуемые признаки:
Y ‑ цена автомобиля, тыс.руб.;
|
|
Х1 ‑ время эксплуатации, лет;
Х2 ‑ пробег, тыс. км.
№ п/п | Марка | Y | Х1 | Х2 |
1 | Civic VII | 379 | 5 | 121 |
2 | Civic VII | 399 | 4 | 74 |
3 | Civic VII | 429 | 4 | 88 |
4 | Civic VII | 393 | 3 | 95 |
5 | Civic VII | 397 | 3 | 60 |
6 | Civic VII | 430 | 3 | 54 |
7 | Civic VII | 459 | 3 | 46 |
8 | Civic VIII | 455 | 2 | 107 |
9 | Civic VIII | 467 | 2 | 47 |
10 | Civic VIII | 468 | 2 | 97 |
11 | Civic VIII | 552 | 2 | 60 |
12 | Civic VIII | 565 | 2 | 41 |
13 | Civic VIII | 570 | 2 | 57 |
14 | Civic VIII | 579 | 2 | 30 |
15 | Civic VIII | 597 | 2 | 150 |
16 | Civic VIII | 441 | 1 | 75 |
17 | Civic VIII | 466 | 1 | 30 |
18 | Civic VIII | 500 | 1 | 15 |
19 | Civic VIII | 524 | 1 | 26 |
20 | Civic VIII | 530 | 1 | 22 |
21 | Civic VIII | 539 | 1 | 32 |
22 | Civic VIII | 555 | 1 | 62 |
23 | Civic VIII | 560 | 1 | 14 |
24 | Civic VIII | 575 | 1 | 30 |
25 | Civic VIII | 575 | 1 | 88 |
26 | Civic VIII | 600 | 1 | 18 |
27 | Civic VIII | 600 | 1 | 18 |
28 | Civic VIII | 615 | 1 | 40 |
29 | Civic VIII | 680 | 1 | 14 |
30 | Civic VIII | 510 | 0 | 18 |
31 | Civic VIII | 533 | 0 | 0 |
32 | Civic VIII | 533 | 0 | 0 |
33 | Civic VIII | 541 | 0 | 0 |
34 | Civic VIII | 541 | 0 | 0 |
35 | Civic VIII | 561 | 0 | 0 |
36 | Civic VIII | 570 | 0 | 29 |
37 | Civic VIII | 585 | 0 | 0 |
38 | Civic VIII | 590 | 0 | 0 |
39 | Civic VIII | 606 | 0 | 0 |
40 | Civic VIII | 616 | 0 | 0 |
41 | Civic VIII | 640 | 0 | 0 |
42 | Civic VIII | 640 | 0 | 0 |
43 | Civic VIII | 640 | 0 | 0 |
44 | Civic VIII | 643 | 0 | 0 |
45 | Civic VIII | 650 | 0 | 10 |
46 | Civic VIII | 650 | 0 | 0 |
47 | Civic VIII | 661 | 0 | 0 |
48 | Civic VIII | 661 | 0 | 0 |
49 | Civic VIII | 683 | 0 | 0 |
50 | Civic VIII | 600 | 0 | 13 |
Статистические распределения рядов признаков-факторов и результирующего признака
Исследуем статистическое распределение признаков Х1 с помощью интервального вариационного ряда:
Интервальный ряд для Х 1 | ||
Х 1 | F 1 | Ср. цена тыс.руб. |
0-1 | 21 | 603 |
1-2 | 14 | 554 |
2-3 | 8 | 532 |
3-4 | 4 | 420 |
4-5 | 2 | 414 |
5-6 | 1 | 379 |
Приведем графическое отображение ряда для Х1 в виде гистограммы и кумуляты:
Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X1. Формула для вычисления среднего арифметического:
|
|
где – средняя по ряду распределения;
– средняя по i-му интервалу;
– частота i-го интервала (число автомобилей в интервале).
Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:
где – значение моды;
X0 – нижняя граница модального интервала;
h – величина модального интервала (1 год);
– частота модального интервала;
– частота интервала, предшествующая модальному;
– частота послемодального интервала.
Модальный интервал определяется по наибольшей частоте. Для ряда X1 наибольшее значение частоты равно 21, т.е. это будет интервал 0 лет , тогда значение моды:
Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.
Номер медианы определяется по формуле:
где
n – число единиц в совокупности
т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.
Значение медианы можно определить по формуле:
где – значение медианы;
– нижняя граница медианного интервала;
- номер медианы;
- накопленная частота интервала, предшествующая медианному;
- частота медианного интервала.
По накопленной частоте определяем, что медиана будет находиться в интервале от 1 года до 2-х лет , тогда значение медианы:
Для вычисления дисперсии воспользуемся следующей формулой:
где – дисперсия;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Среднее квадратическое отклонение вычислим по следующей формуле:
где – дисперсия;
– среднее квадратическое отклонение;
Вычислим коэффициент вариации
где – коэффициент вариации;
– среднее квадратическое отклонение;
- среднее по ряду распределения.
Вычислим значения коэффициента ассиметрии:
где ;
– коэффициент ассиметрии;
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Вычислим значения коэффициента эксцесса:
где
- коэффициент эксцесса;
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Исследуем статистическое распределение признаков Х2 с помощью интервального вариационного ряда.
Для построения ряда распределения необходимо определить число групп и величину интервала. Для определения числа групп воспользуемся формулой Стерджесса:
гдеm – число групп (всегда целое);
n – число единиц в выборке, в нашем случае n= 50.
Вычислим m:
Величину интервала определим по формуле:
где Хmax – максимальное значение признака;
Хmin - минимальное значение признака;
m – число групп.
На основании полученных данных построим интервальный ряд для Х2:
Интервальный ряд для Х 2 | ||
Х 2 | F 2 | Ср. цена тыс.руб. |
0 - 21 | 25 | 601 |
21 - 42 | 9 | 551 |
42 - 63 | 7 | 490 |
63 - 84 | 2 | 420 |
84 - 105 | 4 | 466 |
105 - 126 | 2 | 417 |
126 - 150 | 1 | 597 |
Приведем графическое отображение ряда для Х2 в виде гистограммы и кумуляты:
Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X2. Формула для вычисления среднего арифметического:
где – средняя по ряду распределения;
– средняя по i-му интервалу;
– частота i-го интервала (число автомобилей в интервале).
Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:
где – значение моды;
– нижняя граница модального интервала;
|
|
h – величина модального интервала (1 год);
- частота модального интервала;
- частота интервала, предшествующая модальному;
- частота послемодального интервала.
Модальный интервал определяется по наибольшей частоте. Для ряда X1 наибольшее значение частоты равно 25, т.е. это будет интервал 0 до 21 тыс. км., тогда значение моды:
Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.
Номер медианы определяется по формуле:
где
n – число единиц в совокупности
т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.
Значение медианы можно определить по формуле:
где – значение медианы;
– нижняя граница медианного интервала;
- номер медианы;
- накопленная частота интервала, предшествующая медианному;
- частота медианного интервала.
По накопленной частоте определяем, что медиана будет находиться в интервале от 21 до 42 тыс. км., тогда значение медианы:
Для вычисления дисперсии воспользуемся следующей формулой:
где – дисперсия;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Среднее квадратическое отклонение вычислим по следующей формуле:
где – дисперсия;
– среднее квадратическое отклонение;
Вычислим коэффициент вариации
где – коэффициент вариации;
– среднее квадратическое отклонение;
- среднее по ряду распределения.
Вычислим значения коэффициента ассиметрии:
где
– коэффициент ассиметрии
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Вычислим значения коэффициента эксцесса:
где ;
- коэффициент эксцесса;
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
|
|
Исследуем статистическое распределение признаков Y с помощью интервального вариационного ряда.
Величину интервала определим по формуле, используя полученное ранее значение m:
где Хmax – максимальное значение признака;
Хmin - минимальное значение признака;
m – число групп.
На основании полученных данных построим интервальный ряд для Y:
Интервальный ряд для Y | ||
Y | Fy | Ср. цена тыс.руб. |
379 - 422 | 4 | 400,5 |
422 - 465 | 5 | 443,5 |
465 - 508 | 4 | 486,5 |
508 - 551 | 8 | 529,5 |
551 - 594 | 12 | 572,5 |
594 - 637 | 7 | 615,5 |
637 - 683 | 10 | 660 |
Приведем графическое отображение ряда для Y в виде гистограммы и кумуляты:
Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для Y. Формула для вычисления среднего арифметического:
где – средняя по ряду распределения;
– средняя по i-му интервалу;
– частота i-го интервала (число автомобилей в интервале).
Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:
где – значение моды;
Y0 – нижняя граница модального интервала;
h– величина модального интервала;
- частота модального интервала;
- частота интервала, предшествующая модальному;
- частота послемодального интервала.
Модальный интервал определяется по наибольшей частоте. Для ряда Y наибольшее значение частоты равно 12, т.е. это будет интервал 551-594, тогда значение моды:
Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.
Номер медианы определяется по формуле:
где ;
n – число единиц в совокупности;
т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.
Значение медианы можно определить по формуле:
где – значение медианы;
– нижняя граница медианного интервала;
– номер медианы;
– накопленная частота интервала, предшествующего медианному;
- частота медианного интервала;
По накопленной частоте определяем, что медиана будет находиться в интервале 551-594, тогда значение медианы:
Для вычисления дисперсии воспользуемся следующей формулой:
где – дисперсия;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Среднее квадратическое отклонение вычислим по следующей формуле:
где – дисперсия;
– среднее квадратическое отклонение;
Вычислим коэффициент вариации
где – коэффициент вариации;
– среднее квадратическое отклонение;
- среднее по ряду распределения.
Вычислим значения коэффициента ассиметрии:
где
– коэффициент ассиметрии;
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Подставив значения, получим, что:
Вычислим значения коэффициента эксцесса:
где ;
- коэффициент эксцесса;
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).