Дипломная работа: Прогнозирование стоимости недвижимости в зависимости от различных факторов

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

2. Находится эмпирическое значение t-критерия () и табличное (критическое) значение t-критерия (), используя таблицу распределения Стьюдента;

3. Сравниваются фактическое и эмпирическое значения согласно следующему условию, что | () | ? . В случае выполнения условия, подтверждается гипотеза H0, т.е. коэффициент регрессионного уравнения является статистически незначимым. Однако, в случае невыполнения этого условия, гипотеза H0 опровергается, т.е коэффициент является статистически значимым и должен входить в уравнение регрессии.

Величины , можно найти, используя следующие формулы:

где и - стандартные ошибки коэффициентов регрессии, вычисляемые по нижеприведенным формулам:

где - вычисленные значения зависимой переменной, фактические значения объясняемой переменной, - объем выборки, - фактические значения предикатора, - средняя величина фактических значений предикаторов.

2.1.1 Проверка автокорреляции

В целях обнаружения у исследуемой последовательности автокорреляции первого порядка используется статистический критерий Дарбина--Уотсона, сокращенное название которого - DW-критерий.

Данный критерий был назван в честь ученых Джеффри Уотсона и Джеймса Дарбина, и он может быть рассчитан по нижеприведенной формуле:

где -- коэффициент автокорреляции первого порядка.

Считается, что в регрессионной модели ошибки распределяются в виде , где переменная определена в качестве белого шума , , а , где .

В зависимости от значения автокорреляции -критерий может принимать разные значения:

- Автокорреляция отсутствует, = 2;

- Автокорреляция >0, > 0;

- Автокорреляция <0, > 4;

Представим данные утверждения в следующем виде:

Практическое применение критерия Дарбина--Уотсона заключается в сравнении его значения с такими показателями как: статистики и при заданном количестве наблюдений , число независимых переменных модели , а также заданный уровень значимости . Наглядно алгоритм представлен на рисунке ниже (см. Рисунок 1).

Рисунок 1. Определение автокорреляции по критерию Дарбина-Уотсона

Важным моментом является тот факт, что при значении критерия превышающем 2, со статистиками и сравнивается выражение .

2.1.2 Проверка качества модели

Чтобы провести оценку значимости какой-либо регрессионной модели применяется так называемый критерий Фишера. Этот критерий позволяет проверить уровень значимости влияния предикатора X на значение переменной Y, которая будет являться объясняемой.

F-критерий находится согласно формуле после расчета сумм квадратов отклонений:

где

- - факторная сумма квадратов отклонений;

- - остаточная сумма квадратов отклонений;

- - наблюдаемое значение переменной;

- - среднее наблюдаемое значение переменной;

- - рассчитанное предсказанное значение переменной.

Алгоритм проведения тестирования значимости переменной Х состоит из следующих шагов:

1. Формулируется нулевая гипотеза H: в1=0;

2. Вводится вероятность ошибки равная 5%;

3. Производятся расчеты F-отношения;

4. С применением таблицы F-распределения определяется значение F-критическое при определенном уровне ошибки;

Если значение F-табличного превышает значение F-фактического, то в таком случае необходимо отклонить данную гипотезу о незначимости, учитывая риск ошибки равный пяти процентам.

Значения степеней свободы могут влиять на значение , которое определяется согласно таблице.

О правильности построенной модели можно судить только тогда, когда верно неравенство > , что, в свою очередь, будет являться показателем допустимости линейной связи между предикатором и объясняемой переменной.

Качество модели и его конечная оценка может быть отображена с помощью коэффициента детерминации RІ, который рассчитывается по формуле:

где - разница между исходным значением Y и предсказанным значением с помощью построенной модели.

Коэффициент детерминации помогает проиллюстрировать долю разброса объясняемой переменной в соответствии с регрессией Y на X.

Правильным диапазоном, в котором может находится значение коэффициента детерминации в обобщенном случае, является диапазон от 0 до 1. В зависимости от приближения значения коэффициента детерминации к той или иной границе диапазона делается вывод о характере линейной связи между X и Y. Соответственно, чем ближе RІ к единице, тем более сильной является связь, и наоборот.

В качестве очередного средства оценки регрессионного уравнения можно использовать величину отклонений расчетных значений от фактических. Такую величину называю средней ошибкой аппроксимации. В зависимости от значения разности фактических и теоретических значений, делается вывод о качестве модели (чем оно меньше, тем лучше модель).

Формула средней ошибки аппроксимации рассчитывается по формуле:

Где:

А - среднее отклонение расчетных значений от фактических;

y - фактические значения объясняемой переменной;

yx - расчетное значение по уравнению;

n - количество наблюдений.

Модель считается качественной, если величина средней ошибки аппроксимации не превышает 10%.

2.2 Порядковая логистическая регрессия и ее особенности

При анализе данных часто встречаются задачи, где выходная переменная является категориальной, и тогда использование линейной регрессии затруднено. Поэтому при поиске связей между набором входных переменных и категориальной выходной переменной получила распространение логистическая регрессия. Логистическая регрессия является методом бинарной классификации. Она позволяет оценивать вероятность реализации (или не реализации) события в зависимости от значений некоторых независимых переменных. Линия логистической регрессии, в отличие от линейной, не является прямой.

Все регрессионные модели могут быть записаны в виде функции . Например, в множественной линейной регрессии зависимая (выходная) переменная является линейной функцией независимых (входных) переменных:

.

Для построения модели логистической регрессии, уравнение регрессии преобразуют таким образом, чтобы значения переменной y никогда не выходили за интервал [0,1]. Такое преобразование называется логит-преобразованием.

Логистическая регрессия или логит-регрессия - разновидность множественной регрессии, назначение которой состоит в анализе связи между несколькими независимыми (входными) переменными и зависимой (выходной) переменной.

Условное среднее для логической регрессии имеет вид:

,

где:

- е - основание натурального логарифма;

- с - вероятность того, что произойдет интересующее событие;

- в0, в1 - коэффициенты логистической регрессии.

- х - значение независимой (входной) переменной.

Эту функцию называют логистической. Значения изменяются в диапазоне от 0 до 1. Если предположить, что значение выходной переменной , равное 1, рассматривается как успех, а значения 0 -- как неуспех, то можно интерпретировать как вероятность успеха, а - неуспеха.

Для оценки коэффициентов логистической регрессии метод наименьших квадратов не применим. Поэтому ее коэффициенты оцениваются на основе метода максимального правдоподобия. Логарифмическая функция правдоподобия имеет вид:

.

Логистическая регрессия применяется в случаях, когда зависимая (выходная) переменная является бинарной, то есть может принимать только два значения: 1 или 0. При этом объясняющие (входные) переменные должны быть независимы друг от друга.

Уравнение логистической регрессии с несколькими входными переменными имеет вид:

,

Где:

- - переменная logit;

- х - значения независимых входных переменных.

График функции логистической регрессии показан на рисунке ниже (см. Рисунок 2).

По оси абсцисс отложена переменная logit (), по оси ординат - .

Особенностью логистической функции является то, что она может принимать любые входные значения от минус бесконечности до плюс бесконечности, тогда как выходная переменная ограничена диапазоном [0; 1].

Для оценки качества построенной логистической модели можно использовать следующие характеристики:

- чувствительность (то, насколько хорошо модель предсказывает «успехи»: доля верно предсказанных 1);

- специфичность (то, насколько хорошо модель предсказывает «неуспехи»: доля верно предсказанных 0);

- общая (средняя) точность по выборке.

2.3 Метод деревьев классификаций и его преимущества

Одним из эффективных методов машинного обучения в прогнозном моделировании являются деревья классификаций, которые применяются как при выполнении задач бинарной классификации, так и как дополнение логистической регрессии.

Деревья классификаций решают ту же задачу, что и регрессионный анализ, а именно позволяют изучить статистическую взаимосвязь между одной наблюдаемой переменной (зависимой) и несколькими предикторными переменными (независимыми). Отличие методов регрессионного анализа и метода деревьев классификаций состоит в представлении взаимосвязи переменных уравнения - при использовании регрессионных методов взаимосвязь выражается через регрессионное уравнение, а при применении деревьев классификаций выражается в виде древовидной структуры, учитывающей иерархию значимых переменных.

Общий процесс построения деревьев классификаций можно представить в виде следующего алгоритма:

1. Обучающая выборка разделяется на 2 или более узлов (сегментов) при условии, что наблюдения должны максимально отличаться по зависимой (объясняемой) переменной. Это достигается путем сравнения всех независимых переменных, которые используются для прогноза.

2. Оценка качества разбиения при помощи статистических критериев, которые отмечаются на ветвях дерева - линиях, соединяющие разбиваемый узел с дочерними узлами.

3. Рассчитываются значения:

- В случае если зависимая переменная является категориальной, то вычисляются вероятности в виде процентных долей предсказанных категорий

- В случае если зависимая переменная является количественной переменной, то рассчитываются средние значения зависимой переменной.

4. Определение спрогнозированной категории зависимой переменной

- В случае если зависимая переменная является категориальной, то определяется ее предсказанная категория

- В случае если зависимая переменная является количественной, то определяется ее предсказанное среднее значение

5. Далее циклично определяется каждый узел дерева, который появился в результате разбиения корневого узла. Таким образом, получившиеся дерево будет иметь иерархическую древовидную структуру с несколькими уровнями вложенности узлов. Количество уровней, образующихся от узлов, не считая родительского узла, называется глубинной дерева.

Для обозначения верхнего разбиваемого узла, представляющего всю выборку, используется понятие «корневой узел», для обозначения новых узлов, получившихся в результате разбиения - «дочерние узлы», а для узлов, которые были расщеплены - «родительские узлы». Узлы, которые в дальнейшем не разбиваются и являются окончательными в дереве называются терминальными узлами или листьями. Лист представляет собой наилучшее окончательное решение.

На рисунке ниже представлено дерево с обозначением его характеристик (см. Рисунок 3).

Рисунок 3. Дерево классификаций с обозначениями

Метод деревьев классификаций можно охарактеризовать рядом преимуществ. Во-первых, это наглядное графическое представление результатов в виде иерархической структуры, которая позволяет определить наиболее значимые факторы влияния. Во-вторых, алгоритм позволяет работать с большим количество переменных любого типа (количественного, порядкового, или номинального), поэтому на вход в качестве независимых переменных можно указать все имеющиеся, а алгоритм сам отберет наиболее значимые среди них. В-третьих, данный метод позволяет выявить нелинейные и сложные скрытые взаимосвязи, которые не всегда можно обнаружить при построении стандартных моделей. В-четвертых, метод деревьев классификаций устойчив к выбросам, поскольку разбиения основываются не на абсолютных величинах, а на количестве наблюдений в диапазонах, выбранных для расщепления.

К недостаткам метода деревьев классификаций можно отнести отсутствие общего прогнозного уравнения, которое описывает модель (в отличие от регрессионного анализа). Также в качестве недостатка можно отметить, что некоторым методам деревьев классификаций (например, CRT) свойственно переобучение, вследствие которого деревья получаются слишком детализированными и нелегко интерпретируемыми.