Дипломная работа: Прогнозирование стоимости недвижимости в зависимости от различных факторов

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Таблица 17. Комбинационная таблица Комфортность*Количество подъездов

На диаграмме ниже показано распределение домов в разрезе количества подъездов относительно значений комфортности жилья (см. Рисунок 14).

Рисунок 14. Диаграмма Комфортность*Количество подъездов

Как можно увидеть, к минимальной комфортности относятся дома с максимальным количеством подъездов, и с повышением комфортности таких домов в выборке с максимальной комфортностью становится наименьшее количество.

3.3.2 Прогнозирование на основе деревьев классификаций

Далее было построено дерево классификации со следующими ограничениями наблюдений в узле - для узла отца 20 значений, для дочернего узла 5.

При использовании метода построения CHAID в дерево классификации были включены следующими значимые переменные: от метро, от МКАД, наличие мусоропровода, и наличие паркинга. Дерево включает в себя 15 узлов и содержит 3 уровня классификации (см. Рисунок 15).

Рисунок 15. Прогнозирование комфортности объекта жилой недвижимости методом CHAID

Общая процентная доля правильно предсказанных значений составляет 68,4% (см. Рисунок 16).

Рисунок 16. Классификация наблюдений при методе построения CHAID

Исходя из данных в таблице можно сделать вывод, что данный метод обладает не самой высокой прогностической способностью.

При применении исчерпывающего метода CHAID результаты идентичны - выделены те же значимые переменные, и доля предсказанных значений составляет 67,4% (см. Приложение 5).

Метод CRT дал другой результат - более высокую глубину дерева (5), и количество узлов (25). В качестве значимых переменных были выделены следующие - от метро, инфраструктура, от МКАД, возраст дома, округ, этажность, лифт, тип дома, подъездов, мусоропровод, дом под снос, наличие паркинга, и наличие консьержа. Дерево классификации представлено на Рисунок 17, доля правильно предсказанных значений составила 72%.

Рисунок 17. Классификация наблюдений при методе построения CRT

Таким образом, метод CRT дал наиболее точный результат из использованных методов.

Рисунок 18. Прогнозирование комфортности объекта жилой недвижимости методом CRT

Как видно из Рисунок 18, объекты жилья с максимальной комфортностью в первую очередь характеризуются близостью к метро - происходит деления на группы на уровне более 16 минут до метро и менее 16 минут. В узел 1 попало 109 значений из выборки соответствующих максимальной комфортности, что составило 66% значений узла 1. В то время как в узел 2 попало всего 8 значений из выборки с максимальной комфортностью соответствующих всего 5,8% значений из узла 2.

Далее происходит разделение по расстоянию от МКАДа. Если объект недвижимости около метро, но за МКАДом, то возможно его территориальное расположение не такое привлекательное, чем у объектов, которые находятся дальше от метро, но ближе к центру. При этом объекты недвижимости, которые не находятся в пешеходной доступности от метро дальше подразделяются по наличию паркинга. Соответственно такие респонденты пользуются своим автотранспортом. При наличии паркинга, большее число значений узла принадлежит группам комфортности 2 и 3, в том время при отсутствии паркинга скорее всего объект будет принадлежать к группе комфортности 1. Классификация независимых переменных по значимости представлена на рисунке ниже (см. Рисунок 19).

Рисунок 19. Классификация независимых переменных по значимости

Полученные спрогнозированные значения комфортности и полученные узлы используются для построения модели прогнозирования комфортности жилой недвижимости.

3.3.3 Прогнозирование на основе порядковой логистической модели

Проведем факторный анализ для следующих переменных для снижения размерности: этажность, от МКАД, подъездов, от метро, и возраст дома (см. Таблица 18). Переменные для факторного анализа были отобраны только количественного типа. Переменная «возраст дома» была получена с помощью SPSS путем вычитания года постройки.

Таблица 18. Повернутая матрица компонентов

Далее для построения логистической модели 5 переменных будут заменены 2 полученными факторами, которые включают в себя вклад от всех 5 переменных.

Построим порядковую логистическую модель на основе местных факторов. Следующая таблица позволяет оценить значение логарифма правдоподобия. Изменение статистики хи-квадрат по сравнению с предыдущим шагом -- это различие между удвоенным логарифмическим правдоподобием модели на предыдущем и текущем шаге (см. Таблица 19).

Таблица 19. Информация подгонки модели

Приближенные значения R-квадрат, показывающие долю влияния всех предикторов модели на дисперсию зависимой переменной показаны в таблице ниже (см. Таблица 20). Можно отметить, что для данной модели он невысок.

Таблица 20. Оценка качества модели

Таблица с включенными переменными в модель представлена ниже, где в качестве значимых переменных можно выделить фактор 1, отсутствие паркинга, и отсутствие мусоропровода.

Таблица 21. Прогнозирование комфортности жилой недвижимости при помощи порядковой логистической модели

Доля правильно предсказанных значений при помощи порядковой логистической регрессии составляет 60%.

Сравнивая полученные результаты двух моделей, можно сделать вывод, что наилучший прогноз дает модель дерева классификации CRT. Данные, спрогнозированные этим методом, используются при построении комплексной модели прогнозирования стоимости единицы жилой недвижимости в г. Москве.

3.4 Прогнозирование стоимости единицы жилой недвижимости в г. Москве

3.4.1 Подготовка данных

Для исследования существования зависимости между переменными проведем корреляционный анализ исходных показателей объекта недвижимости. Построим матрицу коэффициентов парной корреляции (см. Таблица 22).

Таблица 22. Корреляции факторов объекта для прогнозирования стоимости жилой недвижимости

Из матрицы видно, что наивысшая корреляция наблюдается 0,66 между количеством комнат и общей площадью. Это значение находится в диапазоне нормы, поэтому переменные не будут исключены из анализа.

В данную модель помимо вышеперечисленных переменных включаются две дополнительные переменные, спрогнозированные ранее - уровень потребности населения в жилье и комфортность жилья.

3.4.2 Прогнозирование на основе деревьев классификаций

Далее было построено дерево классификации со следующими ограничениями наблюдений в узле - для узла отца 20 значений, для дочернего узла 5.

При использовании исчерпывающего метода построения CHAID в дерево классификации были включены следующие значимые переменные: общая площадь, предсказанная комфортность жилья, высота потолков, наличие ремонта, и округ. Дерево включает в себя 22 узла и содержит 3 уровня классификации (см. Приложение 6). В узел 14 вошло больше всего наблюдений - квартиры с общей площадью менее 46 кв.м. в северной или южной части Москвы с низкой или средней комфортностью.

Сравним данную модель с методом CRT. Данная модель имеет большую глубину (5) и большую детализацию - почти все переменные оказались значимыми за исключением наличия балкона и вида из окна (см. Приложение 7). Согласно сводки выигрышей в узле можно сделать вывод, что наибольшее число наблюдений попало в узел 11 - квартиры с общей площадью менее 75 кв.м. с пониженной или средней комфортностью на севере или на юге Москвы (см. Таблица 23). Как и при использовании метода CHAID основным критерием деления является общая площадь.

Таблица 23. Сводка выигрышей для узлов при методе построения CRT

Сравним результаты приведенных двух методов с помощью графиков, построенных на данных узлов, предсказанных значений стоимости, и самой стоимости. При методе CHAID можно заметить выбросы в 15, 7, 20, и 13 узлах. Отклонение составляет от 500000 до 2500000 рублей (см. Рисунок 19).

Рисунок 19. Отклонения предсказанной стоимости от реальной при методе CHAID

При методе CRT видим более сглаженную модель, где отсутствуют настолько выраженные выбросы. В узлах 10, 17, 11 модель прогнозирует достаточно точно, выбросы наблюдаются в 8, 19, 2 узлах, где максимальное отклонение составляет 1500000 рублей (см. Рисунок 20).

Рисунок 20. Отклонения предсказанной стоимости от реальной при методе CRT

Таким образом, лучший результат дает метод CRT.

3.4.3 Прогнозирование стоимости единицы жилой недвижимости на основе порядковой логистической модели

Далее переведем переменную «Цена» в категориальную переменную с помощью средств SPSS для построения порядковой логистической модели. Получившиеся диапазоны представлены на рисунке ниже (см. Рисунок 21).

Рисунок 21. Разбиение цены на категории

Логарифм правдоподобия в окончательной модели равняется 502,8 (см. Таблица 24).

Таблица 24. Информация подгонки порядковой логистической модели стоимости жилья

Как видно, логарифм правдоподобия в ходе построения модели уменьшился почти в два раза. В таблице ниже показана величина псевдо R-квадрат, который также измеряется в пределах от 0 до 1, и в данном случае равняется 0,849 (см. Таблица 25).

Таблица 25. Сводка для модели прогнозирования стоимости жилья

Представленная таблица коэффициентов построенной порядковой логистической модели показывает, что значимыми коэффициентами в модели являются общая площадь, высота потолков, количество комнат, наличие ремонта, отсутствие балкона, округ, и предсказанная комфортность (см. Таблица 26).

Таблица 26. Порядковая логистическая модель стоимости жилья

Уравнение логистической модели представлено ниже:

Доля правильно предсказанных значений при помощи порядковой логистической регрессии составляет 71%.

Таким образом, было составлены две модели прогнозирования стоимости жилья - с помощью деревьев классификаций и с помощью построения порядковой регрессионной модели. При прогнозировании стоимости жилой недвижимости лучшие результаты дала порядковая логистическая модель по сравнению с деревьями классификаций.

3.4.4 Прогнозирование стоимости единицы жилой недвижимости на основе линейной регрессионной модели

При построении линейной регрессионной модели исключим константу из уравнения для вхождения численности населения в модель (см. Рисунок 23).

Рисунок 23. Снятие включения в уравнение константы

Построим регрессионную модель методом ввода переменных, в которую входят отобранные переменные (см. Таблица 27).

Таблица 27. Коэффициенты построенной регрессионной модели

Из таблицы «Коэффициенты» можно сделать вывод, что наибольшее влияние на стоимость единицы жилой недвижимости оказывает значение переменной общая площадь равной - 1,283), следующим показателем является высота потолков жилья с бетой равной - 0,848.

Значимыми являются следующие коэффициенты: количество комнат, общая площадь, площадь кухни, наличие ремонта, высота потолков, лоджия, округ, предсказанная комфортность, численность населения. Для этих переменных коэффициенты значимы на уровне от 0,1 до 0,000.

Незначимыми оказались переменные: этаж, наличие балкона, и вид из окна.

Для повышения качества прогноза построим регрессионную модель только на значимых переменных (см. Таблица 28).

Таблица 28. Коэффициенты построенной регрессионной модели со значимыми переменными

Для этой модели регрессионное уравнение выглядит следующим образом:

price = -1474096,5*rooms + 294773,6*total_area - 171424,6*kitchen_area + 1673907,1*repairs + 3612696,5*ceiling_height - 1754557,7*district + 892534,8*comfort - 0,632*population

Анализируя таблицу «Сводка для модели» видно, что коэффициент детерминации R-квадрат = 0,85, а стандартная ошибка предсказания = 4571250.

Таблица 29. Сводка для модели

Автокорреляция в данной модели попала в зону неопределенности, так как значение критерия DW=1,89 попало в диапазон между табличными значениями критерия du = 0,904 и dl = 2,102.

3.5 Апробация комплексной модели прогнозирования стоимости недвижимости на основе порядковой логистической регрессии и оценка ее прогностической способности

Далее выполним прогноз для цены единицы жилой площади вторичного рынка г. Москвы на 2019 г. Выборка была сформирована случайным образом на основе данных из базы ЦИАН.

Диапазоны значений, которые может принимать переменная категориальной цены, представлены в таблице ниже (см. Таблица 30).

Таблица 30. Характеристика категорий

Номер категории

Ценовой диапазон

1

менее 5 500 000

2

от 5 500 001 до 6 450 000

3

от 6 450 001 по 7 500 000

4

от 7 500 001 по 8 950 000

5

от 8 950 001 по 13 490 000

6

более 13 490 000

Сравнительные данные по апробации порядковой логистической модели, включающие фактическую и предсказанную категорию, а также среднюю относительную ошибку прогноза, представлены в таблице ниже (см. Таблица 31).