Для исследования существования зависимости между отобранными переменными проведем корреляционный анализ исходных показателей регионального уровня. Построим матрицу коэффициентов парной корреляции (см. Приложение 4).
Как видно из таблицы парных корреляций, высокая корреляция наблюдается между числом родившихся на 1000 человек населения и числом умерших на 1000 человек населения. Это отражает, что в настоящее время у нас в стране фактически рождаемость соответствует смертности - в современном мире уровень и продолжительность жизни существенно выросли, и при этом в семьях рождается по 1-2 ребенка, хотя раньше было нормой иметь по 7 и более детей. Также высокая корреляция присутствует между числом родившихся на 1000 человек населения и естественным приростом населения на 1000 человек. В целом это логично, поскольку естественный прирост населения преимущественно происходит за счет рождаемости плюс изменение численности за счет миграционных процессов. Между среднедушевыми доходами и общими объемом доходов населения также наблюдается высокая связь. Это объясняется тем, что население имеет стабильную работу со стабильной заработной платой, поэтому дифференцированные среднедушевые доходы в итоге складываются в общий объем доходов.
Как видно из таблицы, корреляция между числом родившихся на 1000 человек населения и числом умерших на 1000 человек населения составляет 0,938, между числом родившихся на 1000 человек населения и естественным приростом населения на 1000 человек 0,988, между среднедушевыми доходами и общими объемом доходов населения 0,989. В следствие этого, было принято решение исключить вышеперечисленные переменные из анализа для увеличения точности результатов и исключения мультиколлинеарности - линейной зависимости между объясняющими переменными. Этот подход основывается на том, что если один фактор имеет линейную связь с другими, то общее влияние на результат отражает влияние этого отдельно взятого фактора, а, следовательно, его можно исключить из дальнейшего анализа.
Скорректированная таблица корреляции с исключенными переменными представлена в Таблице 8.
Таблица 8. Скорректированная таблица корреляций
Построим регрессионную модель методом ввода переменных, в которую входят только отобранные переменные (см. Таблица 9).
Таблица 9. Коэффициенты регрессионной модели
В столбце «В» приведены значения коэффициентов модели для каждой независимой переменной. Этот коэффициент показывает, насколько изменится значение зависимой переменной при изменении на 1 значения предиктора при прочих равных условиях.
В столбце «Бета» приведены стандартизованные значения коэффициентов модели «В». Чем больше по модулю значение «Бета», тем сильнее влияние. Знак показывает направление изменения величины зависимой переменной.
Из таблицы «Коэффициенты» можно сказать, что наибольшее влияние на величину численности населения оказывает значение переменной общего объема денежных доходов населения равной - 3,207), следующим показателем является общий объем денежных расходов с бетой равной - - 2,104.
В поле «Значимость» приведены значимости рассчитанных коэффициентов модели. Значимыми являются следующие коэффициенты: число разводов за год, общий объем денежных расходов населения, число умерших за год. Для этих переменных коэффициенты значимы на уровне от 0,05 до 0,000.
Незначимыми оказались переменные: константа, общий объем денежных расходов населения, уровень безработицы, лаговая переменная, год, миграционный прирост (убыль) на 10000 человек, и коэффициент межрегиональной (внутренней) миграции на 1000 человек.
Коэффициенты модели, построенной только на значимых переменных, показаны в Таблица 10.
Таблица 10. Коэффициенты построенной регрессионной модели
Для этой модели регрессионное уравнение выглядит следующим образом:
population= -24,575*divorces -0,098*total_costs + 0,656*lag_pop-145078,61*year+0,146*total_incomes-15,695*dead_year-3298,485*inter_migration+297230521
Частное от суммы квадратов, обусловленных регрессией и остаточной суммы квадратов называется коэффициентом детерминации. В таблице результатов это частное выводится как R-квадрат (см. Таблица 11).
Таблица 11. Сводка для модели
Анализируя таблицу «Сводка для модели» мы видим, что коэффициент детерминации R-квадрат = 0,999, а стандартная ошибка предсказания = 24540.
Эта величина характеризует качество регрессионной прямой, то есть степень соответствия между регрессионной моделью и исходными данными. Значение всегда лежит в диапазоне от 0 до 1.
В данной модели наблюдается отрицательная автокорреляция остатков, данный вывод был сделан на основе статистики Дарбина-Уотсона, которая рассчитывается статистическим пакетом SPSS автоматически. Значение критерия DW равняется 2,69. Определяются табличные значения критерия du = 1,697 и dl = 1,841 и с выражениями 4 - du и 4 - dl сравнивается выражение DW, так как фактическое значение критерия превышает 2.
На основе исследования [28] в расчетах потребности в жилье были использованы следующие нормативы по жилищной обеспеченности в расчете на 1 человека:
- 18 м2/чел - соответствует минимальной социальной норме обеспеченности жильем в России;
- 25 м2/чел - примерно соответствует минимальной норме обеспеченности в развитых странах.
На рисунке ниже представлены данные по жилищным условиям в г. Москве на 1 человека (см. Рисунок 7).
Рисунок 7. Жилищные условия на члена домохозяйства в кв.м.
Исходя из данных по жилищным условиям домашних хозяйств на 1 человека и полученным данных по численности населения, можно сделать следующий вывод: наблюдается баланс между удовлетворенностью потребности в жилье и неудовлетворенностью (см. Таблица 12).
Таблица 12. Определение уровня потребности населения в жилье в кв.м.
|
Год |
Жилищные условия домашних хозяйств на члена домохозяйства |
Численность населения |
Численность населения*18 кв.м |
Численность населения*25 кв.м |
Текущие жилищные условия* Численность |
Усредненный уровень потребности |
Разница между текущими условиями и потребностью |
Разница, деленная на численность |
|
|
2002 |
18,0 |
10 269 900 |
184 858 200 |
256 747 500 |
184 858 200 |
220 802 850 |
-35 944 650,0 |
-3,5 |
|
|
2003 |
18,5 |
10 386 903 |
186 964 254 |
259 672 575 |
192 157 706 |
223 318 415 |
-31 160 709,0 |
-3,0 |
|
|
2004 |
18,9 |
10 535 681 |
189 642 258 |
263 392 025 |
199 124 371 |
226 517 142 |
-27 392 771,0 |
-2,6 |
|
|
2005 |
20,3 |
10 726 429 |
193 075 722 |
268 160 725 |
217 746 509 |
230 618 224 |
-12 871 715,0 |
-1,2 |
|
|
2006 |
22,8 |
10 923 762 |
196 627 716 |
273 094 050 |
249 061 774 |
234 860 883 |
14 200 890,6 |
1,3 |
|
|
2007 |
20,9 |
11 091 428 |
199 645 704 |
277 285 700 |
231 810 845 |
238 465 702 |
-6 654 856,8 |
-0,6 |
|
|
2008 |
18,6 |
11 186 851 |
201 363 318 |
279 671 275 |
208 075 429 |
240 517 297 |
-32441 868,0 |
-2,9 |
|
|
2009 |
19,9 |
11 281 631 |
203 069 358 |
282 040 775 |
224 504 457 |
242 555 067 |
-18 050 610,0 |
-1,6 |
|
|
2010 |
20,1 |
11 382 161 |
204 878 898 |
284 554 025 |
228 781 436 |
244 716 462 |
-15 935 025,0 |
-1,4 |
|
|
2011 |
19,8 |
11 776 764 |
211 981 752 |
294 419 100 |
233 179 927 |
253 200 426 |
-20 020 499,0 |
-1,7 |
|
|
2012 |
21,6 |
11 856 578 |
213 418 404 |
296 414 450 |
256 102 085 |
254 916 427 |
1 185 657,8 |
0,1 |
|
|
2013 |
21,0 |
11 979 529 |
215 631 522 |
299 488 225 |
251 570 109 |
257 559 874 |
-5 989 764,5 |
-0,5 |
|
|
2014 |
19,5 |
12 108 257 |
217 948 626 |
302 706 425 |
236 111 012 |
260 327 526 |
-24 216514,0 |
-2,0 |
|
|
2015 |
20,0 |
12 197 596 |
219 556 728 |
304 939 900 |
243 951 920 |
262 248 314 |
-18 296 394,0 |
-1,5 |
Вследствие отсутствия данных за последующие годы в базе Федеральной государственной статистики, численность населения была спрогнозирована за счет построения трендовой модели на основе данных 2002-2015г. При проведении анализа данных было выявлено, что наилучшее описание выборки дает линейная модель (см. Рисунок 9).
Рисунок 9. Трендовая модель численности населения на основе 2002-2015 годов
Уравнение модели:
Вычисляем численность населения на 2016-2019 года через уравнение:
Однако было сделано допущение, что модель, основанная на данных за 2011-2015 г. даст лучший результат, поскольку не будет учитывать скачка 2010-2011 годов (см. Рисунок 9).
Рисунок 9. Трендовая модель на основе 2011-2015 годов
Уравнение модели:
Вычисляем численность населения на 2016-2018 года через уравнение:
Принимая во внимание плановое увеличение норматива жилплощади [29] до 33 кв.м., рассчитаем уровень потребности усредненный (см. Таблица 13).
Таблица 13. Расчет уровня потребности на 2019 год
|
Год |
Жилищные условия домашних хозяйств на члена домохозяйства |
Численность населения |
Численность населения*18 кв.м |
Численность населения*25 кв.м |
Текущие жилищные условия* численность |
Усредненный уровень потребности |
Разница между текущими условиями и потребностью |
Разница, деленная на численность |
|
|
2016 |
22,5 |
12 311 748 |
221 611 464 |
307 793 700 |
277 014 330 |
264 702 582 |
12 311 748 |
1,0 |
|
|
2017 |
25,0 |
12 421 082 |
223 579 476 |
310 527 050 |
310 527 050 |
267 053 263 |
43 473 787 |
3,5 |
|
|
2018 |
27,5 |
12 530 416 |
225 547 488 |
313 260 400 |
344 586 440 |
269 403 944 |
75 182 496 |
6,0 |
|
|
2019 |
30,0 |
12 639 751 |
227 515 518 |
315 993 775 |
379 192 530 |
271 754 647 |
107 437 884 |
8,5 |
Таким образом, усредненный уровень потребности на 2019 год можно считать удовлетворенным на вторичном рынке жилья. Это можно объяснить тем, что количество квартир на вторичным рынке не подвергается дефициту. Тем более, в настоящее время многие предпочитают жилье на первичном рынке недвижимости.
3.3 Прогнозирование комфортности жилья в г. Москве
3.3.1 Подготовка данных
Для прогнозирования комфортности жилья используется порядковая логистическая модель с тремя возможными значениями переменной комфортности:
- 1 - минимальная комфортность;
- 2 - средняя комфортность;
- 3 - высокая комфортность жилья.
Построим таблицу частот для исследования распределения значений выборки по категориям комфортности (см. Таблица 14).
Таблица 14. Частотная таблица переменной комфортности
Как видно из таблицы, наибольшее число элементов выборки попало в категорию высшей комфортности, а наименьшее - в минимальную комфортность (см. Рисунок 10).
Рисунок 10. Гистограмма для переменной комфортности
Для прогнозирования комфортности жилья была создана переменная «Округ» на основе данных по округам. Для проведения достоверного анализа на выборке из 300 элементов необходимо уменьшить число переменных, поэтому 12 фиктивных переменных по районам были сгруппированы в переменную «Округ». Объединение в группы осуществлялось на основе средних значений цен на жилье (см. Таблица 15).
Таблица 15. Средние значения цен на жилье в разбивке по районам
Исходя из таблицы, переменная «Округ» может принимать следующие значения:
- Центральный;
- Северный, Восточный, Юго-Западный, Северо-Западный;
- Северо-Восточный, Юго-Восточный, Южный;
- Западный;
- Новомосковский, Зеленоградский, Троицкий.
Построим гистограмму распределения частот значений переменной «Округ» в выборке (см. Рисунок 11).
-
Рисунок 11. Структура переменной "Округ"
Как видно из гистограммы, наибольшее количество значений попало в категорию 2, что объясняется тем, что данная категория охватывает сразу 4 района.
Также был проведен дескриптивный анализ и построены таблицы сопряженности для всех комбинаций зависимой переменной и независимых факторов (см. Таблица 16).
Таблица 16. Комбинационная таблица Комфортность*Лифт
Построенные диаграммы наглядно отражают соответствие комфортности жилья независимому фактору (см. Рисунок 13). Так, например, в комбинационной диаграмме с независимым фактором «лифт», можно отметить, что рост комфортности жилья пропорционален количеству наблюдений с значением 1 для фактора «лифт». Только 10,3 процента от всех значений соответствуют максимальной комфортности при отсутствии лифта.
Рисунок 13. Диаграмма Комфортность*Лифт
Если рассмотреть комбинационную таблицу комфортности и количества подъездов, то можно отметить, что наибольший процент с наименьшей комфортностью составляют дома с 4 подъездами (см. Таблица 17), а с наибольшей комфортностью дома с одним подъездом.