Справедлива теорема Гаусса-Маркова: В условиях классической нормальной линейной регрессионной модели оценки (4) и (5) имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
Оценки, имеющие наименьшую дисперсию, называются эффективными. Таким образом, по теореме Гаусса-Маркова в условиях классической нормальной регрессионной модели МНК-оценки параметров парной линейной регрессии являются эффективными в классе всех линейных несмещенных оценок.
Упрощенная интерпретация теоремы Гаусса-Маркова: в среднем оценки (4) и (5) меньше, чем любые другие линейные несмещенные оценки, полученные по данным наблюдениям, отклоняются от истинных (но неизвестных) значений параметров m и b.
Кроме того, можно доказать (см., например, [5]), что в условиях классической нормальной регрессионной модели оценки (4) и (5) обладают следующими свойствами:
– состоятельные оценки параметров m и b.
– несмещенные
оценки параметров m и b (
).
Для дисперсии оценки справедлива формула:
(8)
являются нормальными случайными величинами.
Остаточная сумма квадратов Qe независима от , а статистика
(8а)
имеет распределение хи-квадрат с числом степеней свободы n-2 (2n-2).
Cтатистика s2:
(8б)
является несмещенной оценкой дисперсии возмущений (Ms2=2).
Для числового определения качества (значимости) оценок уравнения регрессии обычно используют критерии, вычисляемые через остаточную, регрессионную и полную суммы квадратов. Остаточная сумма Qe (см. формулу (3)) характеризует отклонение наблюдений зависимой переменной от линии регрессии. Чем меньше Qe, тем лучше соотношение (1) описывает реально существующую зависимость Y(X).
Регрессионная сумма QR вычисляется по формуле:
. (9)
Величина
QR показывает, насколько
оценки
отличаются от среднего значения
отклика
.
Иначе говоря, QR характеризует
отличие оценок зависимой переменной,
полученных с помощью линейной регрессии,
от самой простой оценки – выборочного
среднего значения. Чем больше QR,
тем целесообразнее использовать
достаточно сложную регрессионную модель
вместо
.
Полная сумма квадратов Q определяется соотношением:
. (10)
Величина полной суммы зависит только от наблюдений отклика и не зависит от оценок параметров уравнения линейной регрессии . Можно доказать (см., например, [5]), что в условиях классической нормальной регрессионной модели выполняется соотношение:
Q= QR + Qe. (11)
Из равенства (11) следует, что если, например, изменение оценок приведет к уменьшению Qe, то QR обязательно увеличится, так как их сумма должна остаться неизменной. Поэтому МНК-оценка регрессионного уравнения обеспечивает не только минимум Qe, но и максимум QR, и значение критерия качества МНК-оценки можно использовать для характеристики значимости уравнения регрессии (при заданных наблюдениях).
Критерии качества уравнения регрессии обычно определяются через отношения рассмотренных выше сумм квадратов (тогда величина критерия не зависит от единиц измерения отклика). Например, используется коэффициент детерминации R2:
. (12)
Из (11) следует, что
0≤ R2 ≤1. Чем ближе R2 к
1, тем значимее уравнение регрессии.
Если R2=1, то уравнение регрессии
идеально соответствует наблюдениям
(все точки наблюдений лежат на линии
регрессии). Если R2=0, то
,
и применение регрессионной модели
бессмысленно. Для парной регрессии
R2=r2, (12а)
где r – выборочный коэффициент корреляции X и Y.
Для оценивания значимости оценок уравнения парной регрессии также используется статистика F Фишера:
(13)
Учитывая, что большое значение QR и малое значение Qe указывают на высокое качество уравнения регрессии, можно сделать вывод: чем больше F, тем значимее уравнение.
Известно (см., например, [5]), что в условиях классической нормальной линейной регрессионной модели статистика (13) имеет распределение Фишера (F-распределение) со степенями свободы k1=1 и k2=n-2. Используя ее, можно проверить гипотезу о незначимости уравнения регрессии. Обозначим через f(;1;n-2) квантиль F-распределения уровня 1- (в эконометрике обычно =0,05). Если уравнение незначимо, то большие значения F маловероятны. Поэтому гипотезу о незначимости уравнения регрессии следует отклонять, если
F> f(;1;n-2). (14)
Вероятность ошибки первого рода (отклонить гипотезу при условии, что она верна) при использовании правила (14) равна .
Упрощенно критерий Фишера можно сформулировать следующим образом: если неравенство (14) справедливо, то уравнение регрессии считается значимым, иначе – незначимым.
Коэффициент m незначим, если m=0; в этом случае Y не зависит от X, и изменение Y обусловлено только случайной составляющей ε. Проверим гипотезу H: m=0.
Оценка
имеет
(см. §1.4) нормальное распределение с
математическим ожиданием
и дисперсией
:
.
Для приведения этого распределения к
стандартному нормальному надо разность
разделить на
.
При вычислении
в формулу (8) вместо значения
(обычно неизвестного) подставляется
выборочное значение s; таким образом,
вместо
используется выборочное среднее
квадратичное отклонение оценки
:
(15а)
Так как оценки и s независимы, то статистика
(15б)
имеет распределение Стьюдента с (n-2) степенями свободы.
Если гипотеза Н верна, то
, (15в)
и большие по модулю значения статистики (15в) маловероятны. Поэтому при выполнении неравенства
|T |> t(;n-2), (16)
где t(;n-2) – квантиль распределения Стьюдента уровня 1-, гипотезу Н следует отклонить. Вероятность ошибки первого рода при использовании правила (16) равна .
Для
парной регрессии F=
2,
и соотношения (14) и (16) эквивалентны.
Исследуется зависимость добычи угля на 1 рабочего (Y) от толщины угольного пласта (Х) по данным, представленным в таблице 1.
Таблица 1. Зависимость добычи угля от толщины угольного пласта
№ шахты |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Толщина пласта (м) |
8 |
11 |
12 |
9 |
8 |
8 |
9 |
9 |
8 |
12 |
Добыча угля /1рабочий (усл. ед.) |
5 |
10 |
10 |
7 |
5 |
6 |
6 |
5 |
6 |
8 |
Требуется:
Построить поле корреляции. Визуально определить, можно ли зависимость Y(X) считать линейной.
Оценить функцию линейной регрессии Y по X. Пояснить, в чем смысл ее параметров.
На поле корреляции показать линию регрессии.
Дать прогноз добычи угля на одного рабочего для двух открываемых шахт: со значениями толщины пласта 8 м и 15 м.
Определить абсолютное значение коэффициента корреляции между переменными Х и Y. Является ли связь между этими переменными тесной?
Определить остаточную, общую и регрессионную суммы квадратов. Пояснить их смысл. Найти коэффициент детерминации и пояснить его смысл.
Используя F-статистику, оценить на уровне =0,05 значимость полученного уравнения регрессии.
По критерию Стьюдента проверить значимость коэффициента линейной регрессии.
Поле корреляции строится как точечная диаграмма. Для построения достаточно выделить две строки таблицы данных, содержащие координаты точек (x,y), любым способом вызвать мастер диаграмм, выбрать тип диаграммы «точечная» и далее следовать мастеру. По расположению точек наблюдений (см. рис.3) можно предположить наличие линейной связи между X и Y.
Статистическая функция ЛИНЕЙН вычисляет МНК-оценки параметров и другие характеристики линейной регрессии. Последовательность работы с этой функцией:
Выделите область пустых ячеек из пяти строк и двух столбцов (52), в которую будут выведены результаты.
Вызовите окно функции ЛИНЕЙН (например, из главного меню выберите Вставка/Функция, а в полученном окне мастера функций – ЛИНЕЙН).
В окне функции ЛИНЕЙН укажите (с помощью мыши) значения аргументов: Известные_значения_ y – диапазон с числовыми данными отклика (добычи угля на одного рабочего); Известные_значения_x – диапазон с числовыми данными фактора (толщины пласта); Константа – значение 1 или пустое поле, если сдвиг b вычисляется обычным способом, или значение 0, если предполагается b=0; Статистика – значение 1, если выводятся все результаты (заполняются все десять выделенных ячеек), или значение 0, если выдаются только оценки параметров регрессии (два значения в первой из выделенных строк).
Закончите вызов функции нажатием комбинации клавиш Ctrl+Shift+Enter. В выделенную область результаты будут записаны, как указано в таблице 2:
Таблица 2. Схема расположения результатов функции ЛИНЕЙН
– оценка коэффициента регрессии |
|
|
|
R2 – коэффициент детерминации |
s – выборочное среднее квадратичное отклонение возмущений |
F-статистика |
k2 =n-2 – число степеней свободы |
QR – регрессионная сумма квадратов |
Qe – остаточная сумма квадратов |