Для изучения влияния фактора X2 на результирующий признак Y сначала нужно построить поле корреляции (рис. 2).
Рис. 2 «Поле корреляции»
Из вида поля корреляции можно сделать предположение, что между X2 и Y имеется обратная зависимость. Поэтому построим модель парно-линейной регрессии и исследуем её качество.
С помощью функции ЛИНЕЙН из категории
«Статистические» построим модель парной линейной регрессии (см. табл. 5).
Таблица 5
Модель парной линейной регрессии
|
|
b |
a |
|
|
|
-4,354 |
35642,530 |
|
|
mb - стандартная ошибка коэфф., b |
7,235 |
4431,748 |
mа - стандартная ошибка коэфф., а |
|
R^2 - коэфф., детерминации |
0,015 |
8109,345 |
Sост. - оценка стандартного отклонения остатков |
|
F статистика |
0,362 |
24,000 |
Число степеней свободы n-2 |
|
Регрессионная сумма квадратов |
23820146,83 |
1578275417 |
Остаточная сумма квадратов |
По найденной таблице было записано уравнение выборочной регрессии (y^=35642,448-4,354x)и экономическая интерпретация коэффициентов линейной регрессии: =-4,354 показывает, что при увеличении численности экономически активного населения на одного человека, среднемесячная заработная плата. уменьшается на 4,3 рубля.
Коэффициент а интерпретировать невозможно, т.к. Х не может быть равен 0.
Также, были вычислены остатки по
формуле (
) и построен
график остатков (см. рис. 3).
Из вида поля корреляции можно сделать предположение, что гетероскедастичность отсутствует, а присутствует гомоскедастичность. Проверим наше предположение по двум тестам: по тесту Голдфелда-Квандта и тесту Спирмена. По тесту Голдфелда-Квандта наше предположение подтвердилось. В модели действительно присутствует гомоскедастичность, так как Fg=0,27 < Fkp=3,43. Однако тест Спирмена показал противоположный результат, поскольку tr=2,105 > tкрит=2,063 в модели присутствует гетероскедастичность. Такое разногласие, скорее всего, связано с небольшим объемом выборки. Наличие гетероскедастичности приводит к тому, что возникают большие остатки, что приводит к высоким ошибкам прогнозирования.
Кроме того, Из вида поля корреляции можно сделать предположение, что автокорреляция отсутствует. Тест Дарбина-Уотсона показал, что DW=1,56 принадлежит интервалу [du=1,46; 4-du=2,54], следовательно нет основания отклонять Hо - автокорреляция остатков отсутствует, что обеспечивает состоятельность и эффективность оценок выборочных коэффициентов регрессии.
Мною была найдена величина средней ошибки аппроксимации =16,69% и был сделан следующий вывод: поскольку средняя ошибка аппроксимации больше 10%,то построенная модель плохо аппроксимирует выборочные данные.
Для более уточненного анализа производим проверку значимости регрессии в целом (по критерию Фишера). Находим F-статистика и F-критическое.
Значение F-статистика берем из таблицы (F-статистика), а F-критическое находим при помощи функции FРАСПОБР(5%;1;24).
В результате получаем: статистика= 0,362; F-критическое=4,259.
Так как Fстат.< Fкр., то нет основания отвергнуть гипотезу, но модель не значима в целом.
Говоря о значимости коэффициентов
регрессии (по критерию Стьюдента), нужно отметить, что коэффициент а является
значимым, т.к tа> tкр., а коэффициент b не значим, коэффициент r не значим
так как tb<tкр и tr<tкр. (см. табл. 6).
Таблица 6
Показатели значимости коэффициентов
|
ta |
8,042544481 |
> |
|
2,063898547 |
коэффициент а значим |
|
tb |
-0,601847474 |
< |
tкр |
2,063898547 |
коэффициент b не значим |
|
tr |
-0,601847474 |
< |
|
2,063898547 |
коэффициент r не значим |
Был вычислен доверительный интервал линейной регрессии. Были выявлены следующие результаты и выявлена экономическая интерпретация только для значимых коэффициентов:
Значение параметра α с вероятностью 95% будет находиться в интервале [26495,85194; 44789,20832].
Значение параметра β интерпретировать невозможно, поскольку границы разного знака.
Далее был построен точечный прогноз значения Y при значении X в 3 раза больше, чем среднее значение X. Прогнозное значение фактора равно 1715,20. А прогнозное значение показателя у^р равно 28173,80.
Стандартная ошибка прогноза функции регрессии получилась равной 8424,58, а ошибка индивидуального значения - 11693,38. Так же вычислен доверительный интервал параметр для условного математического ожидания: [10786,30456; 45561,29799] и доверительный интервал для индивидуального значения [4039,847983; 48968,49727].
Оценим тесноту связи с помощью показателей корреляции и детерминации.
Коэффициент корреляции rxy =-0,12. Следовательно, по шкале Чеддока наблюдается очень слабая обратная зависимость или вовсе отсутствует.
Коэффициент детерминации R2=0,015, говорит о том, что лишь 1,5% вариации (дисперсии, разброса) среднемесячной заработной платы объясняется изменением численности экономически активного населения, а остальные 98,5% факторами не включёнными в модель
Отсюда можно сделать вывод, что математическая
модель, выражающая данную зависимость объясняющей переменной, не подходит для
описания зависимой переменной. Поэтому включение данного фактора в модель
множественной регрессии нецелесообразно.
.3. Исследование влияния ВРП (на душу населения)
на среднемесячную заработную плату работников по регионам
Представим исходные данные о среднемесячной
номинальной заработной плате и валовом региональном продукте на душу населения
за 2014 год в виде статистической таблицы, удобной для анализа (см. табл. 7).
Таблица 7
Среднемесячная номинальная заработная плата и ВРП на душу населения
|
Регион |
ВРП (валовой региональный продукт) на душу населения в млрд. рублей за 2014 г. (х3) |
Среднемесячная номинальная з/п работников по полному кругу организаций за 2014 год, рублей (y) |
|
Белгородская область |
619,4 |
29821 |
|
Брянская область |
243,0 |
24668 |
|
Владимирская область |
327,9 |
27398 |
|
Воронежская область |
709,1 |
30172 |
|
Ивановская область |
26508 |
|
|
Калужская область |
324,9 |
34752 |
|
Костромская область |
146,3 |
25560 |
|
Курская область |
297,4 |
29183 |
|
Липецкая область |
395,7 |
30870 |
|
Орловская область |
179,7 |
27196 |
|
Рязанская область |
297,3 |
29678 |
|
Смоленская область |
234,7 |
27282 |
|
Тамбовская область |
275,8 |
27302 |
|
Тверская область |
307,4 |
30722 |
|
Тульская область |
408,5 |
31700 |
|
Ярославская область |
388,1 |
31575 |
|
Республика Карелия |
185,6 |
35726 |
|
Республика Коми |
480,9 |
49734 |
|
Архангельская область |
356,4 |
45634 |
|
Ненецкий автономный округ |
183,7 |
41980 |
|
Вологодская область |
388,4 |
35732 |
|
Калининградская область |
306,2 |
35577 |
|
Ленинградская область |
714,0 |
38448 |
|
Мурманская область |
320,3 |
57845 |
|
Новгородская область |
205,9 |
31221 |
|
Псковская область |
121,3 |
25694 |
Для изучения влияния фактора X3 на результирующий
признак Y сначала нужно построить поле корреляции (рис. 3).
Рис. 5 «Поле корреляции»
Из вида поля корреляции можно сделать предположение, что между X3 и Y имеется прямолинейная зависимость. Поэтому построим модель парно-линейной регрессии и исследуем её качество.
С помощью функции ЛИНЕЙН из категории
«Статистические» построим модель парной линейной регрессии ( см. табл. 8).
Таблица 8
Модель парной линейной регрессии
|
|
b |
a |
|
|
|
12,414 |
29061,719 |
|
|
mb - стандартная ошибка коэфф., b |
9,992 |
3641,100 |
mа - стандартная ошибка коэфф., а |
|
R^2 - коэфф., детерминации |
0,060 |
7919,635 |
Sост. - оценка стандартного отклонения остатков |
|
F статистика |
1,543 |
24,000 |
Число степеней свободы n-2 |
|
Регрессионная сумма квадратов |
96800688,73 |
1505294875 |
Остаточная сумма квадратов |
По найденной таблице было записано уравнение выборочной регрессии (y^=29061,719+12,414x) и экономическая интерпретация коэффициентов линейной регрессии: =12,414 показывает, что при увеличении ВРП на1 млрд. рублей, среднемесячная заработная плата увеличивается на 12,414 рублей.
Коэффициент а интерпретировать невозможно, т.к. Х не может быть равен 0.
Также, были вычислены остатки по
формуле (
) и построен
график остатков (см. рис. 3).
Из вида поля корреляции можно сделать предположение, что гетероскедастичность отсутствует, а присутствует гомоскедастичность.
Проверим первое наше предположение по тесту Голдфелда-Квандта и по тесту Спирмена. Оба теста указали на наличие гомоскедастичности. Fg=1,78<Fkp=3,43, значит гетероскедастичность отсутствует. Так как |tr|= 0,35<tkp=2,06, то предположение подтвердилось, в модели присутствует гомоскедастичность.
Из вида поля корреляции можно сделать предположение, что автокорреляция отсутствует. Тест Дарбина-Уотсона показал, что DW=2,05 принадлежит интервалу [du=1,46; 4-du=2,54], следовательно нет основания отклонять Hо - автокорреляция остатков отсутствует, что обеспечивает состоятельность и эффективность оценок выборочных коэффициентов регрессии.
Мною была найдена величина средней ошибки аппроксимации =16,11% и был сделан следующий вывод: поскольку средняя ошибка аппроксимации больше 10%,то построенная модель плохо аппроксимирует выборочные данные.
Для более уточненного анализа производим проверку значимости регрессии в целом (по критерию Фишера). Находим F-статистика и F-критическое.
Значение F-статистика берем из таблицы (F-статистика), а F-критическое находим при помощи функции FРАСПОБР (5%;1;24).
В результате получаем: статистика= 1,543; F-критическое=4,259
Так как Fстат.< Fкр., то нет основания отвергнуть гипотезу, но модель не значима в целом.
Говоря о значимости коэффициентов
регрессии (по критерию Стьюдента), нужно отметить, что коэффициент а является
значимым, т.к tа> tкр., а коэффициент b не значим, коэффициент r не значим
так как tb<tкр и tr<tкр. (см. табл. 9).
Таблица 9
Показатели значимости коэффициентов
|
ta |
7,981575687 |
> |
|
2,063898547 |
коэффициент а значим |
|
tb |
1,242321648 |
< |
tкр |
2,063898547 |
коэффициент b не значим |
|
tr |
1,242321648 |
< |
|
2,063898547 |
коэффициент r не значим |
Значение параметра α с вероятностью 95% будет находиться в интервале [21546,85673; 36576,58047].
Значение параметра β интерпретировать невозможно, поскольку границы разного знака.
Далее был построен точечный прогноз значения Y при значении X в 3 раза больше, чем среднее значение X. Прогнозное значение фактора равно 988,71. А прогнозное значение показателя у^р равно 41335,42.
Стандартная ошибка прогноза функции регрессии получилась равной 6767,08, а ошибка индивидуального значения - 10417,008. Так же вычислен доверительный интервал параметр для условного математического ожидания: [27368,84514; 55302,00355] и доверительный интервал для индивидуального значения [19835,77; 48968,49].
Оценим тесноту связи с помощью показателей корреляции и детерминации.
Коэффициент корреляции rxy =0,24. Следовательно, по шкале Чеддока наблюдается слабая прямо-линейная зависимость.
Коэффициент детерминации R2=0,06, говорит о том, что 6% вариации (дисперсии, разброса) среднемесячной заработной платы объясняется изменением ВРП, а остальные 74% факторами, не включёнными в модель.
Отсюда можно сделать вывод, что математическая
модель, выражающая данную зависимость объясняющей переменной, не подходит для
описания зависимой переменной. Поэтому включение данного фактора в модель
множественной регрессии нецелесообразно.
2.4 Исследование влияния объёма инвестиций в
основной капитал на среднемесячную заработную плату работников по регионам
Представим исходные данные о среднемесячной
номинальной заработной плате и объёме инвестиций в основной капитал за 2014 год
в виде статистической таблицы, удобной для анализа (см. табл. 10).
Таблица 10
Среднемесячная номинальная заработная плата и объём инвестиций в основной капитал
|
Регион |
Объём инвестиций в основной капитал в 2014 г. Млн руб (х4) |
Среднемесячная номинальная з/п работников по полному кругу организаций за 2014 год, рублей (y) |
|
Белгородская область |
120390,6 |
29821 |
|
Брянская область |
66825,4 |
24668 |
|
Владимирская область |
75667 |
27398 |
|
Воронежская область |
243259,8 |
30172 |
|
Ивановская область |
29803,3 |
26508 |
|
Калужская область |
99785,7 |
34752 |
|
Костромская область |
27512,8 |
25560 |
|
Курская область |
71743 |
29183 |
|
Липецкая область |
110101,1 |
30870 |
|
Орловская область |
44931,1 |
27196 |
|
Рязанская область |
58209,9 |
29678 |
|
Смоленская область |
56747,1 |
27282 |
|
Тамбовская область |
112713,1 |
27302 |
|
Тверская область |
74491 |
30722 |
|
Тульская область |
95434,7 |
31700 |
|
Ярославская область |
76491,8 |
31575 |
|
Республика Карелия |
30834,6 |
35726 |
|
Республика Коми |
207421,6 |
49734 |
|
Архангельская область |
148128,8 |
45634 |
|
Ненецкий автономный округ |
84248 |
41980 |
|
Вологодская область |
63880,9 |
35732 |
|
Калининградская область |
64891,5 |
35577 |
|
Ленинградская область |
58501,1 |
38448 |
|
Мурманская область |
178777,4 |
57845 |
|
Новгородская область |
72254,8 |
31221 |
|
Псковская область |
64922,6 |
25694 |