Главная Учебники - Разные Лекции (разные) - часть 36
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ОБЛАСТНОЙ УНИВЕРСИТЕТ Экономический факультет. Государственное и муниципальное управление. На тему: «Статистическое изучение социально-экономического явления.» Вариант №7. Выполнила студентка заочного отделения группа 21 Живаева К.М. Москва, 2008 Оглавление
Статистические распределения рядов признаков-факторов и результирующего признака
Проверка однородности и нормальности
Вывод зависимостей результирующего-признака от факторов-признаков
Определение доверительного интервала
Вычисление линейных коэффициентов корреляции, вывод уравнения регрессии
Целью данной работы является статистическое исследование взаимосвязей стоимости автомобиля марки «Хонда-Сивик» с факторными признаками: пробегом и временем эксплуатации; а также, на основании исследования выявления первичных факторов, влияющих на стоимость и вывод зависимости целевого параметра(стоимости) от первичного фактора. Для построения исходной выборки был выбран сайт www.auto.ru. Используя сайт auto.ru проводим выборочное исследование 50 автомобилей марки Хонда-Сивик. Исследуемые признаки: Y ‑ цена автомобиля, тыс.руб.; Х1 ‑ время эксплуатации, лет; Х2 ‑ пробег, тыс. км. Исследуем статистическое распределение признаков Х1
с помощью интервального вариационного ряда: Приведем графическое отображение ряда для Х1
в виде гистограммы и кумуляты:
Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X1
. Формула для вычисления среднего арифметического: где Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле: где X0
– нижняя граница модального интервала; h – величина модального интервала (1 год); Модальный интервал определяется по наибольшей частоте. Для ряда X1 наибольшее значение частоты равно 21, т.е. это будет интервал 0 лет , тогда значение моды: Медиана – значение признака, лежащее в середине упорядоченного ряда распределения. Номер медианы определяется по формуле: где n – число единиц в совокупности т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности. Значение медианы можно определить по формуле: где По накопленной частоте определяем, что медиана будет находиться в интервале от 1 года до 2-х лет , тогда значение медианы: Для вычисления дисперсии воспользуемся следующей формулой: где n – размер выборки (n=50). Среднее квадратическое отклонение вычислим по следующей формуле: где Вычислим коэффициент вариации где Вычислим значения коэффициента ассиметрии: где n – размер выборки (n=50). Вычислим значения коэффициента эксцесса: где n – размер выборки (n=50). Исследуем статистическое распределение признаков Х2
с помощью интервального вариационного ряда. Для построения ряда распределения необходимо определить число групп и величину интервала. Для определения числа групп воспользуемся формулой Стерджесса: гдеm – число групп (всегда целое); n – число единиц в выборке, в нашем случае n= 50. Вычислим m: Величину интервала определим по формуле: где Хmax – максимальное значение признака; Хmin - минимальное значение признака; m – число групп. На основании полученных данных построим интервальный ряд для Х2
: Приведем графическое отображение ряда для Х2
в виде гистограммы и кумуляты: Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X2
. Формула для вычисления среднего арифметического: где Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле: где h – величина модального интервала (1 год); Модальный интервал определяется по наибольшей частоте. Для ряда X1
наибольшее значение частоты равно 25, т.е. это будет интервал 0 до 21 тыс. км., тогда значение моды: Медиана – значение признака, лежащее в середине упорядоченного ряда распределения. Номер медианы определяется по формуле: где n – число единиц в совокупности т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности. Значение медианы можно определить по формуле: где По накопленной частоте определяем, что медиана будет находиться в интервале от 21 до 42 тыс. км., тогда значение медианы: Для вычисления дисперсии воспользуемся следующей формулой: где n – размер выборки (n=50). Среднее квадратическое отклонение вычислим по следующей формуле: где Вычислим коэффициент вариации где Вычислим значения коэффициента ассиметрии: где n – размер выборки (n=50). Вычислим значения коэффициента эксцесса: где n – размер выборки (n=50). Исследуем статистическое распределение признаков Y с помощью интервального вариационного ряда. Величину интервала определим по формуле, используя полученное ранее значение m: где Хmax – максимальное значение признака; Хmin - минимальное значение признака; m – число групп. На основании полученных данных построим интервальный ряд для Y: Приведем графическое отображение ряда для Y в виде гистограммы и кумуляты: Вычислим среднюю арифметическую , моду и медиану интервального ряда распределения для Y. Формула для вычисления среднего арифметического: где Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле: где Y0
– нижняя граница модального интервала; h– величина модального интервала; Модальный интервал определяется по наибольшей частоте. Для ряда Y наибольшее значение частоты равно 12, т.е. это будет интервал 551-594, тогда значение моды: Медиана – значение признака, лежащее в середине упорядоченного ряда распределения. Номер медианы определяется по формуле: где n – число единиц в совокупности; т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности. Значение медианы можно определить по формуле: где По накопленной частоте определяем, что медиана будет находиться в интервале 551-594 , тогда значение медианы: Для вычисления дисперсии воспользуемся следующей формулой: где n – размер выборки (n=50). Среднее квадратическое отклонение вычислим по следующей формуле: где Вычислим коэффициент вариации где Вычислим значения коэффициента ассиметрии: где n – размер выборки (n=50). Подставив значения, получим, что: Вычислим значения коэффициента эксцесса: где n – размер выборки (n=50). Проверим интервальные распределения на однородность: следовательно, совокупность для Х1
является неоднородной. следовательно, совокупность для Х2
является неоднородной. следовательно, совокупность для Y является однородной. Исследуем нормальность распределения факторного признака Х1
: (1,6-1,25)-(1,6+1,25) 0,35 – 2,85 (1,6-2×1,25) - (1,6+2×1,25) -0,9 – 4,1 (1,6-3×1,25) - (1,6+3×1,25) -2,15 – 5,35 Таким образом, сопоставляя гр.3 и гр.4 делаем вывод: распределение Х1
относительно близко к нормальному, но не подчиняется ему. Исследуем нормальность распределения факторного признака Х2
: (36,15-34,03)-(36,15+34,03) 2,12 – 70,18 (36,15-2×34,03) - (36,15+2×34,03) -31,91 – 104,21 (36,15-3×34,03) - (36,15+3×34,03) -65,94 – 138,24 Таким образом, сопоставляя гр.3 и гр.4 делаем вывод: распределение Х2
близко к нормальному, но не подчиняется ему. Таким образом, проведя анализ на нормальность распределения мы можем отобрать данные не попадающие в диапазон 3х σ. Для ряда Х1
таких значений нет. Для ряда Х2
исключаем значение с пробегом 150 тыс. км. С учетом отфильтрованных по правилу 3х сигм составим интервальные ряды для Х1
, Х2
, Y. Проведем аналитические группировки продаваемых автомобилей по времени эксплуатации и пробегу и определим групповые средние. Построим график Y(X1
) Зависимость цены от времени эксплуатации существует и носит линейный характер, чем больше время эксплуатации, тем дешевле автомобиль. Построим график Y(X2
) Зависимость цены от пробега существует и носит линейный характер, чем больше пробег автомобиля, тем дешевле автомобиль. На основанииданных статистического наблюдения выделим три типа автомобилей: · по времени эксплуатации: o новые автомобили от 0 до 1 года – 34 шт. o средние автомобили от 2 до 3 лет – 13 шт. o старые автомобили от 3 до 5 лет – 3 шт. · по пробегу: o новые автомобили от 0 до 50 тыс. км. – 36 шт. o средние автомобили от 50 до 100 тыс.км. – 11 шт. o старые автомобили от 100 до 150 тыс.км. – 3 шт. · по цене: o новые автомобили от 581 до 683 тыс. руб. – 19 шт. o средние автомобили от 480 до 581 тыс. руб. – 12 шт. o старые автомобили от 379 до 480 тыс. руб. – 12 шт. Определим доверительный интервал, в котором заключена средняя цена всех продаваемых автомобилей, с вероятностью 0,9. При вероятности 0,9 t = 1,64 Следовательно: Таким образом, с вероятностью 0,9 можно утверждать, что средняя цена автомобиля равна: Определим доверительный интервал, в котором заключена средняя цена всех продаваемых автомобилей, с вероятностью 0,95. При вероятности 0,95 t = 1,96 Следовательно: Таким образом, с вероятностью 0,95 можно утверждать, что средняя цена автомобиля равна: Определим необходимую численность выборки при определении средней цены продаваемых автомобилей, чтобы с вероятностью 0,95 предельная ошибка выборки не превышала 10 тыс.руб. На основании выборочного наблюдения оценим степень тесноты связи и проведем оценку ее существенности: Для определения степени тесноты парной линей зависимости используем линейный коэффициент корреляции(r) : Для вычисления линейных коэффициентов корреляции составим вспомогательную таблицу: Тогда Таким образом, значение линейного коэффициента корреляции = -0,84 свидетельствует о наличии обратной и тесной связи между временем эксплуатации и ценой автомобиля. Таким образом, значение линейного коэффициента корреляции = -0,63 свидетельствует о наличии обратной и тесной связи между пробегом и ценой автомобиля. Таким образом, значение линейного коэффициента корреляции = 0,89 свидетельствует о наличии прямой и тесной связи временем эксплуатации и пробегом автомобиля. Проведем анализ матрицы парных коэффициентов корреляции: Составим матрицу парных коэффициентов корреляции: Так как оба условия не соблюдаются, то для составления уравнения регрессии будем использовать наиболее значимый (весомый) факторный признак, т.е. – X1 (время эксплуатации), т.к. Составим уравнение регрессии: В качестве регрессионной модели выберем линейную модель, которая имеет вид: Вычислим коэффициенты регрессионного уравнения: Таким образом, уравнение регрессии примет вид: В ходе исследования были выявлены следующие характеристики взаимосвязи стоимости автомобиля с факторными признаками: · Стоимость автомобиля линейно зависит от пробега и времени эксплуатации причем эта зависимость обратная для обоих случаев. При увеличении пробега (времени эксплуатации) стоимость автомобиля уменьшается; · Основным фактором, влияющим на конечную стоимость, является время эксплуатации; · Выявлена зависимость стоимости автомобиля от времени эксплуатации, которая имеет следующий вид: 1) Сайт www.auto.ru. 2) Ефимова М.Р., Ганченко О.И., Петрова Е.В. Практикум по общей теории статистики: Учеб. пособие. – 2-е изд., перераб. и доп. – М.: Финансы и статистика, 2005. – 336 с: ил. ISBN 5-279-02555-0.
|