Дипломная работа: Прогнозирование стоимости недвижимости в зависимости от различных факторов

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Для исследования существования зависимости между отобранными переменными проведем корреляционный анализ исходных показателей регионального уровня. Построим матрицу коэффициентов парной корреляции (см. Приложение 4).

Как видно из таблицы парных корреляций, высокая корреляция наблюдается между числом родившихся на 1000 человек населения и числом умерших на 1000 человек населения. Это отражает, что в настоящее время у нас в стране фактически рождаемость соответствует смертности - в современном мире уровень и продолжительность жизни существенно выросли, и при этом в семьях рождается по 1-2 ребенка, хотя раньше было нормой иметь по 7 и более детей. Также высокая корреляция присутствует между числом родившихся на 1000 человек населения и естественным приростом населения на 1000 человек. В целом это логично, поскольку естественный прирост населения преимущественно происходит за счет рождаемости плюс изменение численности за счет миграционных процессов. Между среднедушевыми доходами и общими объемом доходов населения также наблюдается высокая связь. Это объясняется тем, что население имеет стабильную работу со стабильной заработной платой, поэтому дифференцированные среднедушевые доходы в итоге складываются в общий объем доходов.

Как видно из таблицы, корреляция между числом родившихся на 1000 человек населения и числом умерших на 1000 человек населения составляет 0,938, между числом родившихся на 1000 человек населения и естественным приростом населения на 1000 человек 0,988, между среднедушевыми доходами и общими объемом доходов населения 0,989. В следствие этого, было принято решение исключить вышеперечисленные переменные из анализа для увеличения точности результатов и исключения мультиколлинеарности - линейной зависимости между объясняющими переменными. Этот подход основывается на том, что если один фактор имеет линейную связь с другими, то общее влияние на результат отражает влияние этого отдельно взятого фактора, а, следовательно, его можно исключить из дальнейшего анализа.

Скорректированная таблица корреляции с исключенными переменными представлена в Таблице 8.

Таблица 8. Скорректированная таблица корреляций

Построим регрессионную модель методом ввода переменных, в которую входят только отобранные переменные (см. Таблица 9).

Таблица 9. Коэффициенты регрессионной модели

В столбце «В» приведены значения коэффициентов модели для каждой независимой переменной. Этот коэффициент показывает, насколько изменится значение зависимой переменной при изменении на 1 значения предиктора при прочих равных условиях.

В столбце «Бета» приведены стандартизованные значения коэффициентов модели «В». Чем больше по модулю значение «Бета», тем сильнее влияние. Знак показывает направление изменения величины зависимой переменной.

Из таблицы «Коэффициенты» можно сказать, что наибольшее влияние на величину численности населения оказывает значение переменной общего объема денежных доходов населения равной - 3,207), следующим показателем является общий объем денежных расходов с бетой равной - - 2,104.

В поле «Значимость» приведены значимости рассчитанных коэффициентов модели. Значимыми являются следующие коэффициенты: число разводов за год, общий объем денежных расходов населения, число умерших за год. Для этих переменных коэффициенты значимы на уровне от 0,05 до 0,000.

Незначимыми оказались переменные: константа, общий объем денежных расходов населения, уровень безработицы, лаговая переменная, год, миграционный прирост (убыль) на 10000 человек, и коэффициент межрегиональной (внутренней) миграции на 1000 человек.

Коэффициенты модели, построенной только на значимых переменных, показаны в Таблица 10.

Таблица 10. Коэффициенты построенной регрессионной модели

Для этой модели регрессионное уравнение выглядит следующим образом:

population= -24,575*divorces -0,098*total_costs + 0,656*lag_pop-145078,61*year+0,146*total_incomes-15,695*dead_year-3298,485*inter_migration+297230521

Частное от суммы квадратов, обусловленных регрессией и остаточной суммы квадратов называется коэффициентом детерминации. В таблице результатов это частное выводится как R-квадрат (см. Таблица 11).

Таблица 11. Сводка для модели

Анализируя таблицу «Сводка для модели» мы видим, что коэффициент детерминации R-квадрат = 0,999, а стандартная ошибка предсказания = 24540.

Эта величина характеризует качество регрессионной прямой, то есть степень соответствия между регрессионной моделью и исходными данными. Значение всегда лежит в диапазоне от 0 до 1.

В данной модели наблюдается отрицательная автокорреляция остатков, данный вывод был сделан на основе статистики Дарбина-Уотсона, которая рассчитывается статистическим пакетом SPSS автоматически. Значение критерия DW равняется 2,69. Определяются табличные значения критерия du = 1,697 и dl = 1,841 и с выражениями 4 - du и 4 - dl сравнивается выражение DW, так как фактическое значение критерия превышает 2.

На основе исследования [28] в расчетах потребности в жилье были использованы следующие нормативы по жилищной обеспеченности в расчете на 1 человека:

- 18 м2/чел - соответствует минимальной социальной норме обеспеченности жильем в России;

- 25 м2/чел - примерно соответствует минимальной норме обеспеченности в развитых странах.

На рисунке ниже представлены данные по жилищным условиям в г. Москве на 1 человека (см. Рисунок 7).

Рисунок 7. Жилищные условия на члена домохозяйства в кв.м.

Исходя из данных по жилищным условиям домашних хозяйств на 1 человека и полученным данных по численности населения, можно сделать следующий вывод: наблюдается баланс между удовлетворенностью потребности в жилье и неудовлетворенностью (см. Таблица 12).

Таблица 12. Определение уровня потребности населения в жилье в кв.м.

Год

Жилищные условия домашних хозяйств на члена домохозяйства

Численность населения

Численность населения*18 кв.м

Численность населения*25 кв.м

Текущие жилищные условия*

Численность

Усредненный

уровень потребности

Разница между текущими условиями и потребностью

Разница, деленная на численность

2002

18,0

10 269 900

184 858 200

256 747 500

184 858 200

220 802 850

-35 944 650,0

-3,5

2003

18,5

10 386 903

186 964 254

259 672 575

192 157 706

223 318 415

-31 160 709,0

-3,0

2004

18,9

10 535 681

189 642 258

263 392 025

199 124 371

226 517 142

-27 392 771,0

-2,6

2005

20,3

10 726 429

193 075 722

268 160 725

217 746 509

230 618 224

-12 871 715,0

-1,2

2006

22,8

10 923 762

196 627 716

273 094 050

249 061 774

234 860 883

14 200 890,6

1,3

2007

20,9

11 091 428

199 645 704

277 285 700

231 810 845

238 465 702

-6 654 856,8

-0,6

2008

18,6

11 186 851

201 363 318

279 671 275

208 075 429

240 517 297

-32441 868,0

-2,9

2009

19,9

11 281 631

203 069 358

282 040 775

224 504 457

242 555 067

-18 050 610,0

-1,6

2010

20,1

11 382 161

204 878 898

284 554 025

228 781 436

244 716 462

-15 935 025,0

-1,4

2011

19,8

11 776 764

211 981 752

294 419 100

233 179 927

253 200 426

-20 020 499,0

-1,7

2012

21,6

11 856 578

213 418 404

296 414 450

256 102 085

254 916 427

1 185 657,8

0,1

2013

21,0

11 979 529

215 631 522

299 488 225

251 570 109

257 559 874

-5 989 764,5

-0,5

2014

19,5

12 108 257

217 948 626

302 706 425

236 111 012

260 327 526

-24 216514,0

-2,0

2015

20,0

12 197 596

219 556 728

304 939 900

243 951 920

262 248 314

-18 296 394,0

-1,5

Вследствие отсутствия данных за последующие годы в базе Федеральной государственной статистики, численность населения была спрогнозирована за счет построения трендовой модели на основе данных 2002-2015г. При проведении анализа данных было выявлено, что наилучшее описание выборки дает линейная модель (см. Рисунок 9).

Рисунок 9. Трендовая модель численности населения на основе 2002-2015 годов

Уравнение модели:

Вычисляем численность населения на 2016-2019 года через уравнение:

Однако было сделано допущение, что модель, основанная на данных за 2011-2015 г. даст лучший результат, поскольку не будет учитывать скачка 2010-2011 годов (см. Рисунок 9).

Рисунок 9. Трендовая модель на основе 2011-2015 годов

Уравнение модели:

Вычисляем численность населения на 2016-2018 года через уравнение:

Принимая во внимание плановое увеличение норматива жилплощади [29] до 33 кв.м., рассчитаем уровень потребности усредненный (см. Таблица 13).

Таблица 13. Расчет уровня потребности на 2019 год

Год

Жилищные условия домашних хозяйств

на члена домохозяйства

Численность населения

Численность населения*18 кв.м

Численность населения*25 кв.м

Текущие жилищные условия*

численность

Усредненный

уровень потребности

Разница между текущими условиями и потребностью

Разница, деленная на численность

2016

22,5

12 311 748

221 611 464

307 793 700

277 014 330

264 702 582

12 311 748

1,0

2017

25,0

12 421 082

223 579 476

310 527 050

310 527 050

267 053 263

43 473 787

3,5

2018

27,5

12 530 416

225 547 488

313 260 400

344 586 440

269 403 944

75 182 496

6,0

2019

30,0

12 639 751

227 515 518

315 993 775

379 192 530

271 754 647

107 437 884

8,5

Таким образом, усредненный уровень потребности на 2019 год можно считать удовлетворенным на вторичном рынке жилья. Это можно объяснить тем, что количество квартир на вторичным рынке не подвергается дефициту. Тем более, в настоящее время многие предпочитают жилье на первичном рынке недвижимости.

3.3 Прогнозирование комфортности жилья в г. Москве

3.3.1 Подготовка данных

Для прогнозирования комфортности жилья используется порядковая логистическая модель с тремя возможными значениями переменной комфортности:

- 1 - минимальная комфортность;

- 2 - средняя комфортность;

- 3 - высокая комфортность жилья.

Построим таблицу частот для исследования распределения значений выборки по категориям комфортности (см. Таблица 14).

Таблица 14. Частотная таблица переменной комфортности

Как видно из таблицы, наибольшее число элементов выборки попало в категорию высшей комфортности, а наименьшее - в минимальную комфортность (см. Рисунок 10).

Рисунок 10. Гистограмма для переменной комфортности

Для прогнозирования комфортности жилья была создана переменная «Округ» на основе данных по округам. Для проведения достоверного анализа на выборке из 300 элементов необходимо уменьшить число переменных, поэтому 12 фиктивных переменных по районам были сгруппированы в переменную «Округ». Объединение в группы осуществлялось на основе средних значений цен на жилье (см. Таблица 15).

Таблица 15. Средние значения цен на жилье в разбивке по районам

Исходя из таблицы, переменная «Округ» может принимать следующие значения:

- Центральный;

- Северный, Восточный, Юго-Западный, Северо-Западный;

- Северо-Восточный, Юго-Восточный, Южный;

- Западный;

- Новомосковский, Зеленоградский, Троицкий.

Построим гистограмму распределения частот значений переменной «Округ» в выборке (см. Рисунок 11).

-

Рисунок 11. Структура переменной "Округ"

Как видно из гистограммы, наибольшее количество значений попало в категорию 2, что объясняется тем, что данная категория охватывает сразу 4 района.

Также был проведен дескриптивный анализ и построены таблицы сопряженности для всех комбинаций зависимой переменной и независимых факторов (см. Таблица 16).

Таблица 16. Комбинационная таблица Комфортность*Лифт

Построенные диаграммы наглядно отражают соответствие комфортности жилья независимому фактору (см. Рисунок 13). Так, например, в комбинационной диаграмме с независимым фактором «лифт», можно отметить, что рост комфортности жилья пропорционален количеству наблюдений с значением 1 для фактора «лифт». Только 10,3 процента от всех значений соответствуют максимальной комфортности при отсутствии лифта.

Рисунок 13. Диаграмма Комфортность*Лифт

Если рассмотреть комбинационную таблицу комфортности и количества подъездов, то можно отметить, что наибольший процент с наименьшей комфортностью составляют дома с 4 подъездами (см. Таблица 17), а с наибольшей комфортностью дома с одним подъездом.