Процесс построения деревьев при помощи метода CHAID выглядит следующим образом:
1. Поиск наиболее сильного предиктора, который максимально взаимодействует с зависимой переменной. Категории предикторов могут объединяться, если между ними нет статистически значимых различий относительно зависимой переменной. Те переменные, которые имеют статически значимые различия с зависимой переменной рассматриваются как отдельные переменные.
2. Для оценки статистической значимости переменной используются:
- F-критерий, если зависимая переменная является количественной;
- Хи-квадрат Пирсона или Хи-квадрат правдоподобия, если зависимая переменная является категориальной.
- Как было отмечено выше, используемые переменные могут быть представлены в любой шкале.
3. Перебор всех заданных предикторов, поиск их комбинаций и нахождение лучшего результата относительно выбранного сильного фактора. Объединение предикторов в группы по найденному результату. При переборе всех предикторов CHAID позволяет обрабатывать многомерные расщепления узлов. Каждый узел дерева при последующем разбиении может иметь более 2 дочерних узлов, что в итоге ведет к получению более детализированного дерева, чем в случае применения бинарных методов. Кроме этого, метод CHAID имеет свой собственный алгоритм обработки пропущенных значений, при котором пропуски попадают в отдельную категорию.
Для того, чтобы устранить недостаток метода CHAID в недостаточно обширном наборе расщеплений для предиктора, была создана модификация рассматриваемого метода - исчерпывающий метод CHAID. Алгоритм простого метода CHAID основан на прекращении объединения категорий, после того, как обнаруживается, что все оставшиеся являются статистически значимыми между собой. При использовании исчерпывающего метода CHAID объединения категорий будет происходить до того момента, пока не останутся только 2 категории. Это объединение происходит на основе наименее значимо различающихся категорий. Таким образом, он позволяет найти наилучшее расщепление для каждого предиктора, а затем выбрать, какой именно предиктор следует расщепить. Вследствие более глубокого анализа комбинаций категорий и предикторов, исчерпывающий метод CHAID дает более надежные результаты, чем простой CHAID, однако, и время обработки данных возрастает. В остальном - в типах используемых переменных, определении их значимости, и обработке пропущенных значений - различий с простым методом CHAID нет.
В качестве последнего используемого метода будет рассмотрен метод CRT (Classification and Regression Tree). Метод основывается на принципе уменьшения неоднородности в узле - расщепление происходит так, чтобы дочерний узел был более однородным, чем его родительский узел. Поэтому в абсолютно однородном узле, который также называется «чистым», все вошедшие наблюдения могут иметь одно и то же значение целевой переменной, т.е. все наблюдения будут принадлежать к одной категории целевой переменной. В данном методе, как и в предыдущих, могут использоваться любые типы переменных.
В качестве особенности метода CRT можно отметить, что метод позволяет только одномерные расщепления, при которых каждый родительский узел может иметь 2 дочерних узла и не более. Вследствие этого по итогам построения получаются глубоко детализированные деревья с большим количество уровней. Эта детализация, возникающая в процессе переобучения, не всегда повышает прогностическую способность дерева, поэтому часто применяется методы прунинга - отсечения ветвей - для упрощения структуры дерева и улучшения интерпретируемости результатов.
Прунинг позволяет на выходе получить дерево желаемого объема с наиболее точной оценкой классификаций. Пропущенные значения в данном методе заменяются суррогатами - предикторами, имеющими сильную корреляцию с исходной независимой переменной. Благодаря сильной корреляции можно получить разбиение наиболее близкое к тому, что дала бы исходная независимая переменная, по которой имеются пропуски значений. По сравнению времени построения деревьев, CRT требует самого большего времени обработки.
В Таблице 4 приведена сравнительная характеристика рассмотренных методов деревьев классификаций.
Таблица 4. Характеристика методов деревьев классификаций
|
Характеристика метода |
CHAID |
Исчерпывающий CHAID |
CRT |
|
|
Категориальная зависимая переменная |
Да |
Да |
Да |
|
|
Категориальные предикторы |
Да |
Да |
Да |
|
|
Количественная зависимая переменная |
Да |
Да |
Да |
|
|
Количественные предикторы |
Да, преобразуются в порядковые |
Да, преобразуются в порядковые |
Да |
|
|
Тип разбиения |
Множественный |
Множественный |
Бинарный |
|
|
Цены ошибочной классификации (построение дерева) |
Нет |
Нет |
Да |
|
|
Статистические тесты (отбор предикторов) |
Да |
Да |
Нет |
|
|
Статистические тесты (Разбиение) |
Да |
Да |
Нет |
|
|
Время вычислений |
Умеренное |
Умеренное |
Большое |
|
|
Использование априорных вероятностей |
Нет |
Нет |
Да |
|
|
Пропущенные значения в предикторах |
Да, как категория |
Да, как категория |
Нет, для разбиения используется заменитель |
Как видно из таблицы, методы существенно отличаются по типам разбиения переменных, по цене ошибочной классификации, по способу выполнения статистических тестов, и использовании априорных вероятностях.
2.4 Схема комплексной модели прогнозирования стоимости жилой недвижимости
Разработанная комплексная модель прогнозирования стоимости жилой недвижимости включает в себя три подмодели - модель прогнозирования уровня потребности населения в жилье на основе региональных данных, модель прогнозирования комфортности жилья на основе местных данных, и модель прогнозирования стоимости единицы жилой недвижимости на основе факторов объекта и входных переменных, являющихся результатами прогноза предыдущих моделей. Графически структура комплексной модели отображена на Рисунке 4.
В работе предлагается для прогнозирования численности населения на основе макроэкономических факторов (подмодель 1) использовать множественную линейную регрессионную модель. Для прогнозирования комфортности жилья на основе местных данных (подмодель 2) и прогнозирования стоимости единицы жилой недвижимости (подмодель 3) использовать порядковую логистическую регрессию, линейную регрессионную модель, и деревья классификаций.
Глава 3. Комплексная модель прогнозирования стоимости жилой недвижимости на вторичном рынке г. Москвы
При разработке комплексной модели были выделены макроэкономические факторы для прогнозирования численности населения, факторы для прогнозирования комфортности жилой недвижимости, и факторы объекта, характеризующие его стоимость.
3.1 Определение ценообразующих факторов для проведения анализа
Для проведения прогнозирования численности населения было выделено 17 факторов регионального уровня [5], представленных ниже (см. Таблица 5).
Значения всех факторов по вторичному жилью в г. Москве (см. Приложение 1) за период 2002-2015 гг. были получены из базы данных Федеральной службы государственной статистики [16].
Таблица 5. Характеристика региональных факторов
|
№ |
Название фактора |
Описание фактора |
Единица измерения фактора |
|
|
1. |
divorces |
Число разводов за год |
Количество |
|
|
2. |
born_1000 |
Число родившихся в расчете на 1000 населения за год |
Процент |
|
|
3. |
dead_1000 |
Число умерших в расчете на 1000 населения за год |
Процент |
|
|
4. |
dead_year |
Число умерших за год |
Человек |
|
|
5. |
dead_100000 |
Число умерших по основным классам и отдельным причинам смерти в расчете на 100000 населения за год |
Процент |
|
|
6. |
total_incomes |
Общий объем денежных доходов населения |
Млн. руб |
|
|
7. |
total_costs |
Общий объем денежных расходов населения |
Млн. руб |
|
|
8. |
unemployment |
Уровень безработицы |
Процент |
|
|
9. |
pop_increase |
Естественный прирост (убыль) населения на 1000 человек населения |
Человек |
|
|
10. |
investments |
Инвестиции в жилища |
Млн. руб |
|
|
11. |
population |
Численность постоянного населения на 1 января |
Человек |
|
|
12. |
born_1000_2 |
Число родившихся на 1000 человек |
Процент |
|
|
13. |
average_incomes |
Среднедушевые денежные доходы |
Рубль/мес |
|
|
14. |
year |
Фактор времени |
Год |
|
|
15. |
migration_growth_100 |
Миграционный прирост населения по городам с числом жителей 100 тыс. человек |
Тыс. человек |
|
|
16. |
migration_growth_10000 |
Миграционный прирост (убыль) населения на 10000 человек |
Тыс. человек |
|
|
17. |
inter_migration |
Коэффициент межрегиональной (внутренней) миграции на 1000 человек |
Для прогнозирования комфортности жилья были использованы данные из базы ЦИАН [23]. Была составлена выборка из 300 элементов (исходя из того, что выборка должна превышать количество независимых переменных не менее, чем в 10 раз), включающая данные для прогнозирования комфортности жилья и прогнозирования стоимости жилья.
Выборка включает в себя значения только по г. Москве. Для этого, были выделены 12 территориально-административных округов с входящими районами, значения которых случайным способом вошли в выборку. Графическое отображение выбранных исследуемых объектов на карте г. Москвы представлено на рисунке ниже (см. Рисунок 5).
Рисунок 5. Выбранные объекты недвижимости на карте г. Москвы
Для характеристики комфортности объектов жилой недвижимости было выделено 15 факторов, взятых из базы ЦИАН и представленных в таблице 6. Комфортность объекта оценивалась с помощью метода экспертной оценки на основе исследования [28] - анализировались все переменные, характеризующие объект недвижимости. К жилью пониженной комфортности относятся дома с неразвитой инфраструктурой, с типом дома «панельный», так как именно такие дома быстрее приходят в упадок и попадают под программы реновации. Также к жилью пониженной комфортности можно отнести квартиры на 1 этаже, и жилье, расположенное далеко от метро. Пример выборки вынесен в Приложение 2.
Таблица 6. Характеристика местных факторов объектов жилой недвижимости, характеризующих их комфортность
|
№ п/п |
Название фактора |
Описание фактора |
Единицы измерения фактора |
|
|
1. |
comfort |
Комфортность объекта |
Мультиномиальная переменная: 1 - минимальная комфортность 2 - средняя комфортность 3 - высокая комфортность жилья |
|
|
2. |
elevator |
Наличие лифта |
Подрядковый |
|
|
3. |
year_of_construction |
Год постройки |
Числовой |
|
|
4. |
district |
Округ |
Текстовый |
|
|
5. |
area |
Район |
Текстовый |
|
|
6. |
garbage_chute |
Наличие мусоропровода |
Бинарная переменная |
|
|
7. |
parking |
Наличие паркинга |
Бинарная переменная |
|
|
8. |
house_for_demolish |
Дом под снос |
Бинарная переменная |
|
|
9. |
from_metro |
Расстояние от метро |
Минуты |
|
|
10. |
house_type |
Тип дома |
Мультиномиальная переменная: 0 - панельный 1 - кирпичный 2 - блочный 3 - монолитный |
|
|
11. |
concierge |
Наличие консьержа |
Бинарная переменная: 0 - нет консьержа 1 - есть консьерж |
|
|
12. |
number_of_floors |
Этажность |
Порядковый |
|
|
13. |
from_MKAD |
Расстояние от МКАД |
Километр |
|
|
14. |
porches |
Количество подъездов |
Порядковый |
|
|
15. |
infrastructure |
Оценка инфраструктуры |
Мультиномиальная переменная: 1 - минимально развитая инфраструктура 2 - среднеразвитая инфраструктура - есть магазины, аптеки, но нет развлекательных центров, медицинских и образовательных учреждений 3 - максимально развитая инфраструктура |
Для прогнозирования стоимости единицы объекта жилой недвижимости было выделено 11 факторов, взятых из базы ЦИАН для тех же объектов недвижимости, для которых прогнозировалась комфортность (см. Таблица 7). Пример выборки вынесен в Приложение 3.
Таблица 7. Характеристика факторов единицы жилой недвижимости
|
№ п/п |
Название фактора |
Описание фактора |
Единицы измерения |
|
|
1. |
price |
Стоимость |
Числовой |
|
|
2. |
rooms |
Количество комнат |
Порядковой |
|
|
3. |
total_area |
Общая площадь |
Кв.м. |
|
|
4. |
kitchen_area |
Площадь кухни |
Кв.м. |
|
|
5. |
repairs |
Наличие ремонта |
Бинарная переменная |
|
|
6. |
floor |
Этаж |
Порядковый |
|
|
7. |
ceiling_height |
Высота потолков |
Метр |
|
|
8. |
balcony |
Наличие балкона |
Бинарная переменная: 0 - нет балкона 1 - есть балкон |
|
|
9. |
window_view |
Вид из окна |
Мультиномиальная переменная: 0 - на улицу 1 - на двор 2 - на улицу и двор 3 - неизвестно |
|
|
10. |
loggia |
Наличие лоджии |
Бинарная переменная: 0 - нет лоджии 1 - есть лоджия |
|
|
11. |
district |
Округ |
Фиктивная переменная |
Как видно из таблицы, данные факторы описывают привлекательность отдельного объекта жилой недвижимости.
3.2 Прогнозирование потребности населения в жилье в г. Москве
Для прогнозирования потребности населения в жилье, используются данные Федеральной службы государственной статистики, на основе которых прогнозируется численность населения г. Москвы. Полученные данные преобразуются на основе исследования [28] и результатом являются спрогнозированные значения потребности населения в жилье в г. Москве.
Комплексная модель прогнозирования стоимости жилой недвижимости включает результаты прогнозирования уровня потребности населения в жилье, результаты прогнозирования комфортности жилья, и модель прогнозирования стоимости единицы жилой недвижимости на основе факторов объекта и входных переменных, являющихся результатами прогноза предыдущих моделей. Информационно-логическая схема комплексной модели прогнозирования стоимости единицы жилой недвижимости с используемыми методами построения приведена на Рисунке 6.