Дипломная работа: Прогнозирование стоимости недвижимости в зависимости от различных факторов

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Процесс построения деревьев при помощи метода CHAID выглядит следующим образом:

1. Поиск наиболее сильного предиктора, который максимально взаимодействует с зависимой переменной. Категории предикторов могут объединяться, если между ними нет статистически значимых различий относительно зависимой переменной. Те переменные, которые имеют статически значимые различия с зависимой переменной рассматриваются как отдельные переменные.

2. Для оценки статистической значимости переменной используются:

- F-критерий, если зависимая переменная является количественной;

- Хи-квадрат Пирсона или Хи-квадрат правдоподобия, если зависимая переменная является категориальной.

- Как было отмечено выше, используемые переменные могут быть представлены в любой шкале.

3. Перебор всех заданных предикторов, поиск их комбинаций и нахождение лучшего результата относительно выбранного сильного фактора. Объединение предикторов в группы по найденному результату. При переборе всех предикторов CHAID позволяет обрабатывать многомерные расщепления узлов. Каждый узел дерева при последующем разбиении может иметь более 2 дочерних узлов, что в итоге ведет к получению более детализированного дерева, чем в случае применения бинарных методов. Кроме этого, метод CHAID имеет свой собственный алгоритм обработки пропущенных значений, при котором пропуски попадают в отдельную категорию.

Для того, чтобы устранить недостаток метода CHAID в недостаточно обширном наборе расщеплений для предиктора, была создана модификация рассматриваемого метода - исчерпывающий метод CHAID. Алгоритм простого метода CHAID основан на прекращении объединения категорий, после того, как обнаруживается, что все оставшиеся являются статистически значимыми между собой. При использовании исчерпывающего метода CHAID объединения категорий будет происходить до того момента, пока не останутся только 2 категории. Это объединение происходит на основе наименее значимо различающихся категорий. Таким образом, он позволяет найти наилучшее расщепление для каждого предиктора, а затем выбрать, какой именно предиктор следует расщепить. Вследствие более глубокого анализа комбинаций категорий и предикторов, исчерпывающий метод CHAID дает более надежные результаты, чем простой CHAID, однако, и время обработки данных возрастает. В остальном - в типах используемых переменных, определении их значимости, и обработке пропущенных значений - различий с простым методом CHAID нет.

В качестве последнего используемого метода будет рассмотрен метод CRT (Classification and Regression Tree). Метод основывается на принципе уменьшения неоднородности в узле - расщепление происходит так, чтобы дочерний узел был более однородным, чем его родительский узел. Поэтому в абсолютно однородном узле, который также называется «чистым», все вошедшие наблюдения могут иметь одно и то же значение целевой переменной, т.е. все наблюдения будут принадлежать к одной категории целевой переменной. В данном методе, как и в предыдущих, могут использоваться любые типы переменных.

В качестве особенности метода CRT можно отметить, что метод позволяет только одномерные расщепления, при которых каждый родительский узел может иметь 2 дочерних узла и не более. Вследствие этого по итогам построения получаются глубоко детализированные деревья с большим количество уровней. Эта детализация, возникающая в процессе переобучения, не всегда повышает прогностическую способность дерева, поэтому часто применяется методы прунинга - отсечения ветвей - для упрощения структуры дерева и улучшения интерпретируемости результатов.

Прунинг позволяет на выходе получить дерево желаемого объема с наиболее точной оценкой классификаций. Пропущенные значения в данном методе заменяются суррогатами - предикторами, имеющими сильную корреляцию с исходной независимой переменной. Благодаря сильной корреляции можно получить разбиение наиболее близкое к тому, что дала бы исходная независимая переменная, по которой имеются пропуски значений. По сравнению времени построения деревьев, CRT требует самого большего времени обработки.

В Таблице 4 приведена сравнительная характеристика рассмотренных методов деревьев классификаций.

Таблица 4. Характеристика методов деревьев классификаций

Характеристика метода

CHAID

Исчерпывающий CHAID

CRT

Категориальная зависимая переменная

Да

Да

Да

Категориальные предикторы

Да

Да

Да

Количественная зависимая переменная

Да

Да

Да

Количественные предикторы

Да, преобразуются в порядковые

Да, преобразуются в порядковые

Да

Тип разбиения

Множественный

Множественный

Бинарный

Цены ошибочной классификации (построение дерева)

Нет

Нет

Да

Статистические тесты (отбор предикторов)

Да

Да

Нет

Статистические тесты (Разбиение)

Да

Да

Нет

Время вычислений

Умеренное

Умеренное

Большое

Использование априорных вероятностей

Нет

Нет

Да

Пропущенные значения в предикторах

Да, как категория

Да, как категория

Нет, для разбиения используется заменитель

Как видно из таблицы, методы существенно отличаются по типам разбиения переменных, по цене ошибочной классификации, по способу выполнения статистических тестов, и использовании априорных вероятностях.

2.4 Схема комплексной модели прогнозирования стоимости жилой недвижимости

Разработанная комплексная модель прогнозирования стоимости жилой недвижимости включает в себя три подмодели - модель прогнозирования уровня потребности населения в жилье на основе региональных данных, модель прогнозирования комфортности жилья на основе местных данных, и модель прогнозирования стоимости единицы жилой недвижимости на основе факторов объекта и входных переменных, являющихся результатами прогноза предыдущих моделей. Графически структура комплексной модели отображена на Рисунке 4.

В работе предлагается для прогнозирования численности населения на основе макроэкономических факторов (подмодель 1) использовать множественную линейную регрессионную модель. Для прогнозирования комфортности жилья на основе местных данных (подмодель 2) и прогнозирования стоимости единицы жилой недвижимости (подмодель 3) использовать порядковую логистическую регрессию, линейную регрессионную модель, и деревья классификаций.

Глава 3. Комплексная модель прогнозирования стоимости жилой недвижимости на вторичном рынке г. Москвы

При разработке комплексной модели были выделены макроэкономические факторы для прогнозирования численности населения, факторы для прогнозирования комфортности жилой недвижимости, и факторы объекта, характеризующие его стоимость.

3.1 Определение ценообразующих факторов для проведения анализа

Для проведения прогнозирования численности населения было выделено 17 факторов регионального уровня [5], представленных ниже (см. Таблица 5).

Значения всех факторов по вторичному жилью в г. Москве (см. Приложение 1) за период 2002-2015 гг. были получены из базы данных Федеральной службы государственной статистики [16].

Таблица 5. Характеристика региональных факторов

Название фактора

Описание фактора

Единица измерения фактора

1.

divorces

Число разводов за год

Количество

2.

born_1000

Число родившихся в расчете на 1000 населения за год

Процент

3.

dead_1000

Число умерших в расчете на 1000 населения за год

Процент

4.

dead_year

Число умерших за год

Человек

5.

dead_100000

Число умерших по основным классам и отдельным причинам смерти в расчете на 100000 населения за год

Процент

6.

total_incomes

Общий объем денежных доходов населения

Млн. руб

7.

total_costs

Общий объем денежных расходов населения

Млн. руб

8.

unemployment

Уровень безработицы

Процент

9.

pop_increase

Естественный прирост (убыль) населения на 1000 человек населения 

Человек

10.

investments

Инвестиции в жилища

Млн. руб

11.

population

Численность постоянного населения на 1 января

Человек

12.

born_1000_2

Число родившихся на 1000 человек

Процент

13.

average_incomes

Среднедушевые денежные доходы

Рубль/мес

14.

year

Фактор времени

Год

15.

migration_growth_100

Миграционный прирост населения по городам с числом жителей 100 тыс. человек

Тыс. человек

16.

migration_growth_10000

Миграционный прирост (убыль) населения на 10000 человек

Тыс. человек

17.

inter_migration

Коэффициент межрегиональной (внутренней) миграции на 1000 человек

Для прогнозирования комфортности жилья были использованы данные из базы ЦИАН [23]. Была составлена выборка из 300 элементов (исходя из того, что выборка должна превышать количество независимых переменных не менее, чем в 10 раз), включающая данные для прогнозирования комфортности жилья и прогнозирования стоимости жилья.

Выборка включает в себя значения только по г. Москве. Для этого, были выделены 12 территориально-административных округов с входящими районами, значения которых случайным способом вошли в выборку. Графическое отображение выбранных исследуемых объектов на карте г. Москвы представлено на рисунке ниже (см. Рисунок 5).

Рисунок 5. Выбранные объекты недвижимости на карте г. Москвы

Для характеристики комфортности объектов жилой недвижимости было выделено 15 факторов, взятых из базы ЦИАН и представленных в таблице 6. Комфортность объекта оценивалась с помощью метода экспертной оценки на основе исследования [28] - анализировались все переменные, характеризующие объект недвижимости. К жилью пониженной комфортности относятся дома с неразвитой инфраструктурой, с типом дома «панельный», так как именно такие дома быстрее приходят в упадок и попадают под программы реновации. Также к жилью пониженной комфортности можно отнести квартиры на 1 этаже, и жилье, расположенное далеко от метро. Пример выборки вынесен в Приложение 2.

Таблица 6. Характеристика местных факторов объектов жилой недвижимости, характеризующих их комфортность

№ п/п

Название фактора

Описание фактора

Единицы измерения

фактора

1.

comfort

Комфортность объекта

Мультиномиальная переменная:

1 - минимальная комфортность

2 - средняя комфортность

3 - высокая комфортность жилья

2.

elevator

Наличие лифта

Подрядковый

3.

year_of_construction

Год постройки

Числовой

4.

district

Округ

Текстовый

5.

area

Район

Текстовый

6.

garbage_chute

Наличие мусоропровода

Бинарная переменная

7.

parking

Наличие паркинга

Бинарная переменная

8.

house_for_demolish

Дом под снос

Бинарная переменная

9.

from_metro

Расстояние от метро

Минуты

10.

house_type

Тип дома

Мультиномиальная переменная:

0 - панельный

1 - кирпичный

2 - блочный

3 - монолитный

11.

concierge

Наличие консьержа

Бинарная переменная:

0 - нет консьержа

1 - есть консьерж

12.

number_of_floors

Этажность

Порядковый

13.

from_MKAD

Расстояние от МКАД

Километр

14.

porches

Количество подъездов

Порядковый

15.

infrastructure

Оценка инфраструктуры

Мультиномиальная переменная:

1 - минимально развитая инфраструктура

2 - среднеразвитая инфраструктура - есть магазины, аптеки, но нет развлекательных центров, медицинских и образовательных учреждений

3 - максимально развитая инфраструктура

Для прогнозирования стоимости единицы объекта жилой недвижимости было выделено 11 факторов, взятых из базы ЦИАН для тех же объектов недвижимости, для которых прогнозировалась комфортность (см. Таблица 7). Пример выборки вынесен в Приложение 3.

Таблица 7. Характеристика факторов единицы жилой недвижимости

№ п/п

Название фактора

Описание фактора

Единицы измерения

1.

price

Стоимость

Числовой

2.

rooms

Количество комнат

Порядковой

3.

total_area

Общая площадь

Кв.м.

4.

kitchen_area

Площадь кухни

Кв.м.

5.

repairs

Наличие ремонта

Бинарная переменная

6.

floor

Этаж

Порядковый

7.

ceiling_height

Высота потолков

Метр

8.

balcony

Наличие балкона

Бинарная переменная:

0 - нет балкона

1 - есть балкон

9.

window_view

Вид из окна

Мультиномиальная переменная:

0 - на улицу

1 - на двор

2 - на улицу и двор

3 - неизвестно

10.

loggia

Наличие лоджии

Бинарная переменная:

0 - нет лоджии

1 - есть лоджия

11.

district

Округ

Фиктивная переменная

Как видно из таблицы, данные факторы описывают привлекательность отдельного объекта жилой недвижимости.

3.2 Прогнозирование потребности населения в жилье в г. Москве

Для прогнозирования потребности населения в жилье, используются данные Федеральной службы государственной статистики, на основе которых прогнозируется численность населения г. Москвы. Полученные данные преобразуются на основе исследования [28] и результатом являются спрогнозированные значения потребности населения в жилье в г. Москве.

Комплексная модель прогнозирования стоимости жилой недвижимости включает результаты прогнозирования уровня потребности населения в жилье, результаты прогнозирования комфортности жилья, и модель прогнозирования стоимости единицы жилой недвижимости на основе факторов объекта и входных переменных, являющихся результатами прогноза предыдущих моделей. Информационно-логическая схема комплексной модели прогнозирования стоимости единицы жилой недвижимости с используемыми методами построения приведена на Рисунке 6.