Оглавление
Введение
Формирование исходной выборки
Статистические распределения рядов признаков-факторов и результирующего признака
Проверка однородности и нормальности
Вывод зависимостей результирующего-признака от факторов-признаков
Группировка
Определение доверительного интервала
Вычисление линейных коэффициентов корреляции, вывод уравнения регрессии
Заключение
Список источников
Введение
Целью данной работы является статистическое исследование взаимосвязей стоимости автомобиля марки «Хонда-Сивик» с факторными признаками: пробегом и временем эксплуатации; а также, на основании исследования выявления первичных факторов, влияющих на стоимость и вывод зависимости целевого параметра(стоимости) от первичного фактора.
Для построения исходной выборки был выбран сайт www.auto.ru.
Формирование исходной выборки
Используя сайт auto.ru проводим выборочное исследование 50 автомобилей марки Хонда-Сивик.
Исследуемые признаки:
Y ‑ цена автомобиля, тыс.руб.;
Х1 ‑ время эксплуатации, лет;
Х2 ‑ пробег, тыс. км.
| № п/п | Марка | Y | Х1 | Х2 |
| 1 | Civic VII | 379 | 5 | 121 |
| 2 | Civic VII | 399 | 4 | 74 |
| 3 | Civic VII | 429 | 4 | 88 |
| 4 | Civic VII | 393 | 3 | 95 |
| 5 | Civic VII | 397 | 3 | 60 |
| 6 | Civic VII | 430 | 3 | 54 |
| 7 | Civic VII | 459 | 3 | 46 |
| 8 | Civic VIII | 455 | 2 | 107 |
| 9 | Civic VIII | 467 | 2 | 47 |
| 10 | Civic VIII | 468 | 2 | 97 |
| 11 | Civic VIII | 552 | 2 | 60 |
| 12 | Civic VIII | 565 | 2 | 41 |
| 13 | Civic VIII | 570 | 2 | 57 |
| 14 | Civic VIII | 579 | 2 | 30 |
| 15 | Civic VIII | 597 | 2 | 150 |
| 16 | Civic VIII | 441 | 1 | 75 |
| 17 | Civic VIII | 466 | 1 | 30 |
| 18 | Civic VIII | 500 | 1 | 15 |
| 19 | Civic VIII | 524 | 1 | 26 |
| 20 | Civic VIII | 530 | 1 | 22 |
| 21 | Civic VIII | 539 | 1 | 32 |
| 22 | Civic VIII | 555 | 1 | 62 |
| 23 | Civic VIII | 560 | 1 | 14 |
| 24 | Civic VIII | 575 | 1 | 30 |
| 25 | Civic VIII | 575 | 1 | 88 |
| 26 | Civic VIII | 600 | 1 | 18 |
| 27 | Civic VIII | 600 | 1 | 18 |
| 28 | Civic VIII | 615 | 1 | 40 |
| 29 | Civic VIII | 680 | 1 | 14 |
| 30 | Civic VIII | 510 | 0 | 18 |
| 31 | Civic VIII | 533 | 0 | 0 |
| 32 | Civic VIII | 533 | 0 | 0 |
| 33 | Civic VIII | 541 | 0 | 0 |
| 34 | Civic VIII | 541 | 0 | 0 |
| 35 | Civic VIII | 561 | 0 | 0 |
| 36 | Civic VIII | 570 | 0 | 29 |
| 37 | Civic VIII | 585 | 0 | 0 |
| 38 | Civic VIII | 590 | 0 | 0 |
| 39 | Civic VIII | 606 | 0 | 0 |
| 40 | Civic VIII | 616 | 0 | 0 |
| 41 | Civic VIII | 640 | 0 | 0 |
| 42 | Civic VIII | 640 | 0 | 0 |
| 43 | Civic VIII | 640 | 0 | 0 |
| 44 | Civic VIII | 643 | 0 | 0 |
| 45 | Civic VIII | 650 | 0 | 10 |
| 46 | Civic VIII | 650 | 0 | 0 |
| 47 | Civic VIII | 661 | 0 | 0 |
| 48 | Civic VIII | 661 | 0 | 0 |
| 49 | Civic VIII | 683 | 0 | 0 |
| 50 | Civic VIII | 600 | 0 | 13 |
Статистические распределения рядов признаков-факторов и результирующего признака
Исследуем статистическое распределение признаков Х1 с помощью интервального вариационного ряда:
| Интервальный ряд для Х 1 | ||
| Х 1 | F 1 | Ср. цена тыс.руб. |
| 0-1 | 21 | 603 |
| 1-2 | 14 | 554 |
| 2-3 | 8 | 532 |
| 3-4 | 4 | 420 |
| 4-5 | 2 | 414 |
| 5-6 | 1 | 379 |
Приведем графическое отображение ряда для Х1 в виде гистограммы и кумуляты:

Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X1. Формула для вычисления среднего арифметического:

где
– средняя по ряду распределения;
– средняя по i-му интервалу;
– частота i-го интервала (число автомобилей в интервале).

Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:

где
– значение моды;
X0 – нижняя граница модального интервала;
h – величина модального интервала (1 год);
– частота модального интервала;
– частота интервала, предшествующая модальному;
– частота послемодального интервала.
Модальный интервал определяется по наибольшей частоте. Для ряда X1 наибольшее значение частоты равно 21, т.е. это будет интервал 0 лет , тогда значение моды:

Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.
Номер медианы определяется по формуле:

где 
n – число единиц в совокупности

т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.
Значение медианы можно определить по формуле:

где
– значение медианы;
– нижняя граница медианного интервала;
- номер медианы;
- накопленная частота интервала, предшествующая медианному;
- частота медианного интервала.
По накопленной частоте определяем, что медиана будет находиться в интервале от 1 года до 2-х лет , тогда значение медианы:

Для вычисления дисперсии воспользуемся следующей формулой:

где
– дисперсия;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Среднее квадратическое отклонение вычислим по следующей формуле:

где
– дисперсия;
– среднее квадратическое отклонение;

Вычислим коэффициент вариации

где
– коэффициент вариации;
– среднее квадратическое отклонение;
- среднее по ряду распределения.

Вычислим значения коэффициента ассиметрии:

где
;
– коэффициент ассиметрии;
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).

Вычислим значения коэффициента эксцесса:

где
- коэффициент эксцесса;
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).

Исследуем статистическое распределение признаков Х2 с помощью интервального вариационного ряда.
Для построения ряда распределения необходимо определить число групп и величину интервала. Для определения числа групп воспользуемся формулой Стерджесса:

гдеm – число групп (всегда целое);
n – число единиц в выборке, в нашем случае n= 50.
Вычислим m:

Величину интервала определим по формуле:

где Хmax – максимальное значение признака;
Хmin - минимальное значение признака;
m – число групп.

На основании полученных данных построим интервальный ряд для Х2:
| Интервальный ряд для Х 2 | ||
| Х 2 | F 2 | Ср. цена тыс.руб. |
| 0 - 21 | 25 | 601 |
| 21 - 42 | 9 | 551 |
| 42 - 63 | 7 | 490 |
| 63 - 84 | 2 | 420 |
| 84 - 105 | 4 | 466 |
| 105 - 126 | 2 | 417 |
| 126 - 150 | 1 | 597 |
Приведем графическое отображение ряда для Х2 в виде гистограммы и кумуляты:

Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X2. Формула для вычисления среднего арифметического:

где
– средняя по ряду распределения;
– средняя по i-му интервалу;
– частота i-го интервала (число автомобилей в интервале).

Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:

где
– значение моды;
– нижняя граница модального интервала;
h – величина модального интервала (1 год);
- частота модального интервала;
- частота интервала, предшествующая модальному;
- частота послемодального интервала.
Модальный интервал определяется по наибольшей частоте. Для ряда X1 наибольшее значение частоты равно 25, т.е. это будет интервал 0 до 21 тыс. км., тогда значение моды:
Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.
Номер медианы определяется по формуле:

где 
n – число единиц в совокупности

т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.
Значение медианы можно определить по формуле:

где
– значение медианы;
– нижняя граница медианного интервала;
- номер медианы;
- накопленная частота интервала, предшествующая медианному;
- частота медианного интервала.
По накопленной частоте определяем, что медиана будет находиться в интервале от 21 до 42 тыс. км., тогда значение медианы:

Для вычисления дисперсии воспользуемся следующей формулой:

где
– дисперсия;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Среднее квадратическое отклонение вычислим по следующей формуле:

где
– дисперсия;
– среднее квадратическое отклонение;

Вычислим коэффициент вариации

где
– коэффициент вариации;
– среднее квадратическое отклонение;
- среднее по ряду распределения.

Вычислим значения коэффициента ассиметрии:

где 
– коэффициент ассиметрии
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).

Вычислим значения коэффициента эксцесса:

где
;
- коэффициент эксцесса;
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).

Исследуем статистическое распределение признаков Y с помощью интервального вариационного ряда.
Величину интервала определим по формуле, используя полученное ранее значение m:

где Хmax – максимальное значение признака;
Хmin - минимальное значение признака;
m – число групп.

На основании полученных данных построим интервальный ряд для Y:
| Интервальный ряд для Y | ||
| Y | Fy | Ср. цена тыс.руб. |
| 379 - 422 | 4 | 400,5 |
| 422 - 465 | 5 | 443,5 |
| 465 - 508 | 4 | 486,5 |
| 508 - 551 | 8 | 529,5 |
| 551 - 594 | 12 | 572,5 |
| 594 - 637 | 7 | 615,5 |
| 637 - 683 | 10 | 660 |
Приведем графическое отображение ряда для Y в виде гистограммы и кумуляты:

Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для Y. Формула для вычисления среднего арифметического:

где
– средняя по ряду распределения;
– средняя по i-му интервалу;
– частота i-го интервала (число автомобилей в интервале).

Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:

где
– значение моды;
Y0 – нижняя граница модального интервала;
h– величина модального интервала;
- частота модального интервала;
- частота интервала, предшествующая модальному;
- частота послемодального интервала.
Модальный интервал определяется по наибольшей частоте. Для ряда Y наибольшее значение частоты равно 12, т.е. это будет интервал 551-594, тогда значение моды:
Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.
Номер медианы определяется по формуле:

где
;
n – число единиц в совокупности;

т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.
Значение медианы можно определить по формуле:

где
– значение медианы;
– нижняя граница медианного интервала;
– номер медианы;
– накопленная частота интервала, предшествующего медианному;
- частота медианного интервала;
По накопленной частоте определяем, что медиана будет находиться в интервале 551-594, тогда значение медианы:

Для вычисления дисперсии воспользуемся следующей формулой:

где
– дисперсия;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Среднее квадратическое отклонение вычислим по следующей формуле:

где
– дисперсия;
– среднее квадратическое отклонение;

Вычислим коэффициент вариации

где
– коэффициент вариации;
– среднее квадратическое отклонение;
- среднее по ряду распределения.

Вычислим значения коэффициента ассиметрии:

где 
– коэффициент ассиметрии;
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).
Подставив значения, получим, что:

Вычислим значения коэффициента эксцесса:

где
;
- коэффициент эксцесса;
– среднее квадратическое отклонение;
– среднее по i-му интервалу;
– среднее по ряду распределения;
– частота i-го интервала;
n – размер выборки (n=50).








