Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение
высшего образования
«Национальный исследовательский университет -
Высшая школа экономики»
Факультет бизнеса и менеджмента
МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ
по направлению подготовки «Бизнес - информатика»
образовательная программа «Бизнес-информатика»
АНАЛИЗ И ПРОГНОЗИРОВАНИЕ ЦЕН НА РЫНКЕ НЕДВИЖИМОСТИ МОСКВЫ
Кузьминых Андрей Андреевич
Рецензент: Научный руководитель:
Профессор, д.т.н. Доцент, к.ф-м.н.
Кирсанов Александр Петрович Белоусов Федор Анатольевич
Москва 2018
Аннотация
В данной работе применяются методы машинного обучения с целью моделирования и анализа состояния рынка недвижимости Москвы, исследование зависимости стоимости объектов недвижимости города Москва от их характеристик и внешних показателей.
Введение
В данной работе применяются методы машинного обучения с целью моделирования и анализа состояния рынка недвижимости Москвы.
Актуальность исследования вытекает из необходимости формализации существующих критериев оценки стоимости продаваемых объектов недвижимости, т.к. часто на практике нет четко обоснованных критериев и моделей для её определения. Преобладает способ оценивания цены предложения квартиры, имеющий основой субъективные критерии, которые могут не совпадать у разных оценщиков.
Затраты на жилье требуют значительных инвестиций как у потребителей, так и у разработчиков. И когда дело доходит до планирования бюджета - будь то личный или корпоративный - последнее, что кому-то нужно, - это неопределенность в отношении своих расходов. Прогнозируя цены на недвижимость, арендаторы, девелоперы и кредиторы становятся более уверенными, когда подписывают аренду или приобретают здание.
Хотя рынок жилья относительно стабилен в России, неустойчивая экономика страны делает прогноз цен как функцию характеристик квартиры уникальной задачей.
Целью работы является исследование зависимости стоимости объектов недвижимости Москвы их характеристик и внешних показателей.
Данные представлены компанией «Домклик», дочкой ПАО «Сбербанк России».
Объект исследования: новостройки и вторичное жилье в г. Москва.
В качестве предмета исследования выступает оценка стоимости недвижимости.
В первой главе описаны теоретические предпосылки к исследованию: общие понятия о машинном обучении, объекты и признаки в задачах машинного обучения и типы задач машинного обучения.
Во второй главе идет речь о выборе инструментов для работы с методами машинного обучения и выбор самих методов машинного обучения.
В третьей главе повествуется о контроле качества полученных данных, анализе и значимости факторов и процессе самого моделирования.
Глава 1. Теоретические предпосылки исследования
Москва - густонаселенная столица с населением более 12 миллионов человек. Город окружен четырьмя кольцами, простирающимися от Кремля до МКАД, который определяет предел города.
Внутри колец город делится на десять административных подразделений, называемых округами, которые, в свою очередь, подразделяются на 123 района.
Цены на недвижимость для покупки в Москве обычно коррелируют с ценой за квадратный метр в рублях. Cредние цены на покупку квартиры в Москве примерно 308 500 рублей за квадратный метр в центре города, и 147 000 рублей за пределами центра города.
При покупке недвижимости в Москве, как и в большинстве городов, местоположение, размер и тип собственности будут определять цену на объект.
Некоторые из современных новостроек имеют высокие стандарты качества и ориентированы на рынок роскоши и иностранных инвесторов.
Когда цены на жилье падают, потребители с большей вероятностью откажутся от ипотечных кредитов, в результате чего банки теряют деньги. Кроме того, собственный капитал клиентов истощается, это означает, что потребители имеют меньше средств для расходования, сбережений, инвестиций или погашения своих долгов.
Недавнее исследование региональных бумов и бюстов в сфере недвижимости в 1980-х и 1990-х годах показало, что банки в государствах, которые испытали значительное падение цен на жилье, также пострадали от высоких ставок по кредитам и, как следствие, низкой прибыли и высоких показателей отказов. Обычно, но не всегда, это снижение сопровождалось экономическим шоком, таким как падение цен на сырьевые товары или сокращение государственных расходов.
Снижение цен на жилье стало ускоряющим фактором финансового кризиса, который потряс мир осенью 2008 года. Регламент, принятый в Соединенных Штатах, оказал давление на банковский сектор, чтобы позволить большему числу клиентов стать домовладельцами.
Снижение цен на жилье, как правило, было одним из ведущих индикаторов падения цен на акции в США. Цены на жилье в США достигли максимума в первом квартале 2006 года, но американский фондовый рынок продолжал расти до четвертого квартала 2007 года. Два падения на двух основных рынках активов США вызвали кризис ликвидности, который заморозил рынки межбанковских кредитов Глобус.
В подобном сценарии банки обычно уменьшают свои инвестиции и кредитование. Потребителям может оказаться труднее получить кредиты на покупку собственного капитала.
Однако неясно, как потребители используют деньги, полученные от займов на собственный капитал. Некоторые исследования показывают, что до 60% извлеченного капитала используется для потребления, но другие исследования показывают, что деньги используются либо для инвестиций, либо для погашения долга.
Хотя еще один резкий спад цен на жилье, безусловно, повлияет на банки отрицательно, банки сегодня лучше капитализируются, и регулирующие органы пристально следят за этим сектором, пытаясь минимизировать ущерб, который может быть вызван крахом рынка недвижимости.
При сделках с недвижимым имуществом надо понимать, что любое жилье имеет две стоимости: кадастровую и рыночную.
Кадастровая стоимость объекта недвижимости -- это стоимость объекта недвижимости, основанная в первую очередь на рыночной информации о нем, а также на информации, связанной с экономическими характеристиками его использования. Она является налоговой базой для земельного налога и налога на имущество в большинстве регионов. Также исходя из кадастровой стоимости, зачастую формируется арендная плата.
Рыночная стоимость квартиры немного отличается от кадастровой. Она оценивает также такие параметры, как состояние ремонта в квартире, подъезде и состояние всего дома. Немаловажное значение имеет район расположения жилого помещения, дворовая территория, инфраструктура. Именно на эту стоимость нужно ориентироваться при сделках с имуществом.
Результаты оценки стоимости квартиры могут потребовать:
1. Для оформления ипотечного кредита. Банк требует информацию о стоимости приобретаемой недвижимости. Это нужно для определения кредитного лимита, который клиент может использовать для приобретения жилья по ипотеке.
2. При получении потребительского кредита под залог имеющейся недвижимости. Часто возникают ситуации, когда может потребоваться крупная сумма денег. Единственным кредитором, который сможет выдать вам такую сумму, являются финансовые организации. Гарантом для возврата заемных средств, служит имеющееся у клиента недвижимое имущество.
3. Для предоставления в страховую компанию также требуется определение оценочной стоимости квартиры. Это учитывается при страховании имущества.
4. Для предоставления в суд, если идет разбирательство по недвижимости клиента, в том числе наследство.
Человек, при покупке недвижимости, пользуются услугами кадастра для определения цены на недвижимость. Этот процесс занимает несколько суток: анализ предложений о продаже недвижимости в конкретном регионе и по конкретным объектам. Из общего количества объектов выбираются, по меньшей мере, три, которые по условиям схожи с оцениваемым объектом: местоположение, количество квадратных метров, год постройки, этажность, инфраструктура, состояние, и происходит сравнение стоимостей. Этот процесс можно автоматизировать с помощью прогнозирования цены.
Целью создания прогноза является уменьшение того уровня неопределенности, в пределах которого менеджер должен принимать решения. Эта цель диктует два основных правила, которым должен следовать процесс прогнозирования:
1. Прогнозирование должно быть технически корректным и должно порождать прогнозы, достаточно точные для того, чтобы отвечать нуждам фирмы.
2. Процедура прогнозирования и ее результаты должны быть достаточно эффективно представлены менеджменту, что обеспечит использование прогнозов в процессе принятия решения во благо фирмы. Результаты прогнозирования также должны быть сбалансированы в отношении затрат/прибыли.
Для того, чтобы спрогнозировать цену на недвижимость, необходимо собрать базу данных, в которой содержится достаточное количество объектов недвижимости, а также достаточный набор признаков.
В работе Я.Р. Магнуса «Эконометрика» приводится результат работы прогнозирования цены на недвижимость с помощью модели множественной регрессии. Данные были собраны автором вручную из газеты «Из рук в руки» за период с декабря 1996 г. по сентябрь 1997 г. Всего было собраны данные по 200 объектам недвижимости с информацией об общей площади квартиры, количества жилых комнат, жилая площадь, площадь кухни, расстояние до центра и расстояние до станции метро, цена на квартиру является целевой функцией.
Недостаток данной работы в текущий момент является то, что, несмотря на неплохой результат прогноза, было собрано недостаточно данных для масштабирования модели, было собрано недостаточно факторов для более полного прогноза, а также неактуальность данных.
На текущее время, компанией «Домклик» с 2014 года, были собраны данные по более 100 000 проданным объектам недвижимости, а также 430 факторов, влияющие на цену объекта.
Также, в наше время существуют более точные методы работы с таким большим объемом данных, а также методы, позволяющие сделать модель более масштабируемой и устойчивой к новым данным.
К данным методам относятся методы машинного обучения.
Машинное обучение - это область компьютерных наук, которая часто использует статистические методы, чтобы дать компьютерным системам возможность «учиться» (например, постепенно улучшать производительность в конкретной задаче) с данными, не будучи явно запрограммированной.
Машинное обучение было придумано в 1959 году Артуром Самуэлем. Из изучения теории распознавания образов и теории вычислительного обучения в искусственном интеллекте машинное обучение исследует изучение и построение алгоритмов, которые могут учиться и делать прогнозы на основе данных, - такие алгоритмы преодолевают строгие статические программные инструкции, делая предсказания или решения, основанные на данных.
Машинное обучение используется в ряде вычислительных задач, где проектирование и программирование явных алгоритмов с хорошей производительностью является трудным или неосуществимым; примеры приложений включают фильтрацию электронной почты, обнаружение сетевых злоумышленников или вредоносных инсайдеров, оптическое распознавание символов (OCR), обучение ранжированию и компьютерное зрение. машинный обучение недвижимость программирование
Машинное обучение тесно связано с вычислительной статистикой, которая также фокусируется на прогнозировании с использованием ЭВМ. Машинное обучение иногда сочетается с интеллектуальным анализом данных, которое больше фокусируется на анализе разведочных данных и известно, как неконтролируемое обучение. Машинное обучение также может быть неконтролируемым и использоваться для изучения и установления базовых поведенческих профилей для различных субъектов, а затем для использования для определения значимых аномалий.
В области аналитики данных машинное обучение - это метод, используемый для разработки сложных моделей и алгоритмов, которые поддаются прогнозированию; в коммерческом использовании это называется прогностической аналитикой. Эти аналитические модели позволяют исследователям, ученым, инженерам и аналитикам создавать надежные, повторяемые решения и результаты, и раскрывать «скрытые идеи» путем изучения исторических отношений и тенденций в данных
Артур Самуэль, американский пионер в области компьютерных игр и искусственного интеллекта, в 1959 году придумал термин «машинное обучение», работая в IBM. Как область науки, машинное обучение росло из стремления к построению систем искусственного интеллекта. Уже в первое время формирования систем искусственного интеллекта, некоторые исследователи были заинтересованы в том, чтобы машины учились на данных. Они пытались подойти к проблеме с помощью различных символических методов, а также то, что тогда называлось «нейронными сетями»; это были главным образом персептроны и другие модели, которые позже были признаны реинтеграцией обобщенных линейных моделей статистики. Были также использованы вероятностные рассуждения, особенно в автоматизированной медицинской диагностике.