Дипломная работа: Прогнозирование стоимости недвижимости в зависимости от различных факторов

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Процесс построения деревьев при помощи метода CHAID выглядит следующим образом:

1. Поиск наиболее сильного предиктора, который максимально взаимодействует с зависимой переменной. Категории предикторов могут объединяться, если между ними нет статистически значимых различий относительно зависимой переменной. Те переменные, которые имеют статически значимые различия с зависимой переменной рассматриваются как отдельные переменные.

2. Для оценки статистической значимости переменной используются:

- F-критерий, если зависимая переменная является количественной;

- Хи-квадрат Пирсона или Хи-квадрат правдоподобия, если зависимая переменная является категориальной.

- Как было отмечено выше, используемые переменные могут быть представлены в любой шкале.

3. Перебор всех заданных предикторов, поиск их комбинаций и нахождение лучшего результата относительно выбранного сильного фактора. Объединение предикторов в группы по найденному результату. При переборе всех предикторов CHAID позволяет обрабатывать многомерные расщепления узлов. Каждый узел дерева при последующем разбиении может иметь более 2 дочерних узлов, что в итоге ведет к получению более детализированного дерева, чем в случае применения бинарных методов. Кроме этого, метод CHAID имеет свой собственный алгоритм обработки пропущенных значений, при котором пропуски попадают в отдельную категорию.

Для того, чтобы устранить недостаток метода CHAID в недостаточно обширном наборе расщеплений для предиктора, была создана модификация рассматриваемого метода - исчерпывающий метод CHAID. Алгоритм простого метода CHAID основан на прекращении объединения категорий, после того, как обнаруживается, что все оставшиеся являются статистически значимыми между собой. При использовании исчерпывающего метода CHAID объединения категорий будет происходить до того момента, пока не останутся только 2 категории. Это объединение происходит на основе наименее значимо различающихся категорий. Таким образом, он позволяет найти наилучшее расщепление для каждого предиктора, а затем выбрать, какой именно предиктор следует расщепить. Вследствие более глубокого анализа комбинаций категорий и предикторов, исчерпывающий метод CHAID дает более надежные результаты, чем простой CHAID, однако, и время обработки данных возрастает. В остальном - в типах используемых переменных, определении их значимости, и обработке пропущенных значений - различий с простым методом CHAID нет.

В качестве последнего используемого метода будет рассмотрен метод CRT (Classification and Regression Tree). Метод основывается на принципе уменьшения неоднородности в узле - расщепление происходит так, чтобы дочерний узел был более однородным, чем его родительский узел. Поэтому в абсолютно однородном узле, который также называется «чистым», все вошедшие наблюдения могут иметь одно и то же значение целевой переменной, т.е. все наблюдения будут принадлежать к одной категории целевой переменной. В данном методе, как и в предыдущих, могут использоваться любые типы переменных.

В качестве особенности метода CRT можно отметить, что метод позволяет только одномерные расщепления, при которых каждый родительский узел может иметь 2 дочерних узла и не более. Вследствие этого по итогам построения получаются глубоко детализированные деревья с большим количество уровней. Эта детализация, возникающая в процессе переобучения, не всегда повышает прогностическую способность дерева, поэтому часто применяется методы прунинга - отсечения ветвей - для упрощения структуры дерева и улучшения интерпретируемости результатов.

Прунинг позволяет на выходе получить дерево желаемого объема с наиболее точной оценкой классификаций. Пропущенные значения в данном методе заменяются суррогатами - предикторами, имеющими сильную корреляцию с исходной независимой переменной. Благодаря сильной корреляции можно получить разбиение наиболее близкое к тому, что дала бы исходная независимая переменная, по которой имеются пропуски значений. По сравнению времени построения деревьев, CRT требует самого большего времени обработки.

В Таблице 4 приведена сравнительная характеристика рассмотренных методов деревьев классификаций.

Таблица 4. Характеристика методов деревьев классификаций

Характеристика метода	CHAID	Исчерпывающий CHAID	CRT
Категориальная зависимая переменная	Да	Да	Да
Категориальные предикторы	Да	Да	Да
Количественная зависимая переменная	Да	Да	Да
Количественные предикторы	Да, преобразуются в порядковые	Да, преобразуются в порядковые	Да
Тип разбиения	Множественный	Множественный	Бинарный
Цены ошибочной классификации (построение дерева)	Нет	Нет	Да
Статистические тесты (отбор предикторов)	Да	Да	Нет
Статистические тесты (Разбиение)	Да	Да	Нет
Время вычислений	Умеренное	Умеренное	Большое
Использование априорных вероятностей	Нет	Нет	Да
Пропущенные значения в предикторах	Да, как категория	Да, как категория	Нет, для разбиения используется заменитель

Как видно из таблицы, методы существенно отличаются по типам разбиения переменных, по цене ошибочной классификации, по способу выполнения статистических тестов, и использовании априорных вероятностях.

2.4 Схема комплексной модели прогнозирования стоимости жилой недвижимости

Разработанная комплексная модель прогнозирования стоимости жилой недвижимости включает в себя три подмодели - модель прогнозирования уровня потребности населения в жилье на основе региональных данных, модель прогнозирования комфортности жилья на основе местных данных, и модель прогнозирования стоимости единицы жилой недвижимости на основе факторов объекта и входных переменных, являющихся результатами прогноза предыдущих моделей. Графически структура комплексной модели отображена на Рисунке 4.

В работе предлагается для прогнозирования численности населения на основе макроэкономических факторов (подмодель 1) использовать множественную линейную регрессионную модель. Для прогнозирования комфортности жилья на основе местных данных (подмодель 2) и прогнозирования стоимости единицы жилой недвижимости (подмодель 3) использовать порядковую логистическую регрессию, линейную регрессионную модель, и деревья классификаций.

Глава 3. Комплексная модель прогнозирования стоимости жилой недвижимости на вторичном рынке г. Москвы

При разработке комплексной модели были выделены макроэкономические факторы для прогнозирования численности населения, факторы для прогнозирования комфортности жилой недвижимости, и факторы объекта, характеризующие его стоимость.

3.1 Определение ценообразующих факторов для проведения анализа

Для проведения прогнозирования численности населения было выделено 17 факторов регионального уровня [5], представленных ниже (см. Таблица 5).

Значения всех факторов по вторичному жилью в г. Москве (см. Приложение 1) за период 2002-2015 гг. были получены из базы данных Федеральной службы государственной статистики [16].

Таблица 5. Характеристика региональных факторов

№	Название фактора	Описание фактора	Единица измерения фактора
1.	divorces	Число разводов за год	Количество
2.	born_1000	Число родившихся в расчете на 1000 населения за год	Процент
3.	dead_1000	Число умерших в расчете на 1000 населения за год	Процент
4.	dead_year	Число умерших за год	Человек
5.	dead_100000	Число умерших по основным классам и отдельным причинам смерти в расчете на 100000 населения за год	Процент
6.	total_incomes	Общий объем денежных доходов населения	Млн. руб
7.	total_costs	Общий объем денежных расходов населения	Млн. руб
8.	unemployment	Уровень безработицы	Процент
9.	pop_increase	Естественный прирост (убыль) населения на 1000 человек населения	Человек
10.	investments	Инвестиции в жилища	Млн. руб
11.	population	Численность постоянного населения на 1 января	Человек
12.	born_1000_2	Число родившихся на 1000 человек	Процент
13.	average_incomes	Среднедушевые денежные доходы	Рубль/мес
14.	year	Фактор времени	Год
15.	migration_growth_100	Миграционный прирост населения по городам с числом жителей 100 тыс. человек	Тыс. человек
16.	migration_growth_10000	Миграционный прирост (убыль) населения на 10000 человек	Тыс. человек
17.	inter_migration	Коэффициент межрегиональной (внутренней) миграции на 1000 человек

Для прогнозирования комфортности жилья были использованы данные из базы ЦИАН [23]. Была составлена выборка из 300 элементов (исходя из того, что выборка должна превышать количество независимых переменных не менее, чем в 10 раз), включающая данные для прогнозирования комфортности жилья и прогнозирования стоимости жилья.

Выборка включает в себя значения только по г. Москве. Для этого, были выделены 12 территориально-административных округов с входящими районами, значения которых случайным способом вошли в выборку. Графическое отображение выбранных исследуемых объектов на карте г. Москвы представлено на рисунке ниже (см. Рисунок 5).

Рисунок 5. Выбранные объекты недвижимости на карте г. Москвы

Для характеристики комфортности объектов жилой недвижимости было выделено 15 факторов, взятых из базы ЦИАН и представленных в таблице 6. Комфортность объекта оценивалась с помощью метода экспертной оценки на основе исследования [28] - анализировались все переменные, характеризующие объект недвижимости. К жилью пониженной комфортности относятся дома с неразвитой инфраструктурой, с типом дома «панельный», так как именно такие дома быстрее приходят в упадок и попадают под программы реновации. Также к жилью пониженной комфортности можно отнести квартиры на 1 этаже, и жилье, расположенное далеко от метро. Пример выборки вынесен в Приложение 2.

Таблица 6. Характеристика местных факторов объектов жилой недвижимости, характеризующих их комфортность

№ п/п	Название фактора	Описание фактора	Единицы измерения фактора
1.	comfort	Комфортность объекта	Мультиномиальная переменная: 1 - минимальная комфортность 2 - средняя комфортность 3 - высокая комфортность жилья
2.	elevator	Наличие лифта	Подрядковый
3.	year_of_construction	Год постройки	Числовой
4.	district	Округ	Текстовый
5.	area	Район	Текстовый
6.	garbage_chute	Наличие мусоропровода	Бинарная переменная
7.	parking	Наличие паркинга	Бинарная переменная
8.	house_for_demolish	Дом под снос	Бинарная переменная
9.	from_metro	Расстояние от метро	Минуты
10.	house_type	Тип дома	Мультиномиальная переменная: 0 - панельный 1 - кирпичный 2 - блочный 3 - монолитный
11.	concierge	Наличие консьержа	Бинарная переменная: 0 - нет консьержа 1 - есть консьерж
12.	number_of_floors	Этажность	Порядковый
13.	from_MKAD	Расстояние от МКАД	Километр
14.	porches	Количество подъездов	Порядковый
15.	infrastructure	Оценка инфраструктуры	Мультиномиальная переменная: 1 - минимально развитая инфраструктура 2 - среднеразвитая инфраструктура - есть магазины, аптеки, но нет развлекательных центров, медицинских и образовательных учреждений 3 - максимально развитая инфраструктура

Для прогнозирования стоимости единицы объекта жилой недвижимости было выделено 11 факторов, взятых из базы ЦИАН для тех же объектов недвижимости, для которых прогнозировалась комфортность (см. Таблица 7). Пример выборки вынесен в Приложение 3.

Таблица 7. Характеристика факторов единицы жилой недвижимости

№ п/п	Название фактора	Описание фактора	Единицы измерения
1.	price	Стоимость	Числовой
2.	rooms	Количество комнат	Порядковой
3.	total_area	Общая площадь	Кв.м.
4.	kitchen_area	Площадь кухни	Кв.м.
5.	repairs	Наличие ремонта	Бинарная переменная
6.	floor	Этаж	Порядковый
7.	ceiling_height	Высота потолков	Метр
8.	balcony	Наличие балкона	Бинарная переменная: 0 - нет балкона 1 - есть балкон
9.	window_view	Вид из окна	Мультиномиальная переменная: 0 - на улицу 1 - на двор 2 - на улицу и двор 3 - неизвестно
10.	loggia	Наличие лоджии	Бинарная переменная: 0 - нет лоджии 1 - есть лоджия
11.	district	Округ	Фиктивная переменная

Как видно из таблицы, данные факторы описывают привлекательность отдельного объекта жилой недвижимости.

3.2 Прогнозирование потребности населения в жилье в г. Москве

Для прогнозирования потребности населения в жилье, используются данные Федеральной службы государственной статистики, на основе которых прогнозируется численность населения г. Москвы. Полученные данные преобразуются на основе исследования [28] и результатом являются спрогнозированные значения потребности населения в жилье в г. Москве.

Комплексная модель прогнозирования стоимости жилой недвижимости включает результаты прогнозирования уровня потребности населения в жилье, результаты прогнозирования комфортности жилья, и модель прогнозирования стоимости единицы жилой недвижимости на основе факторов объекта и входных переменных, являющихся результатами прогноза предыдущих моделей. Информационно-логическая схема комплексной модели прогнозирования стоимости единицы жилой недвижимости с используемыми методами построения приведена на Рисунке 6.

Смотрите также:


«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
Значение, сущность и содержание социально — педагогической деятельности в организации для детей-сирот и детей, оставшихся без попечения родителей
Проактивные методы PR-деятельности российских авиационных компаний «Россия», «Азимут»
__RGR2
__RGR2
_10_Эмиль Золя для эл версии
_11_А. Франс для эл версии
_2 тема-Дефекты (тезисы)