Обозначим
через
оценку отклика для i-го наблюдения:
. (27)
Запишем соотношение (27) в матричной форме:
,
где
– вектор-столбец оценок отклика.
Далее обозначим: – отклонение наблюдения отклика от оценки (остаток), e=(e1, …, en)′ – вектор-столбец остатков. Тогда остаточная сумма определяется формулой:
.
Из
необходимого условия экстремума (
)можно
получить (см., например, [5]) формулы для
оценок коэффициентов линейной регрессии:
b=(X′X)-1X′Y (28)
Конечно, формула (28) справедлива только в том случае, если матрица X′X неособенная, т. е. если ранг матрицы X равен p+1 (предполагается, что p+1<n).
Значения оценок коэффициентов регрессии bj (j=1, …, p)зависят от единиц измерения факторов и отклика. Поэтому рассматривают стандартизированные коэффициенты регрессии b′j и коэффициенты эластичности Ej, получаемые нормированием bj:
(29)
(30)
В
этих формулах, как и в практических
работах №1 и 2, приняты обозначения:
–
выборочное среднее j-го
фактора (отклика),
– выборочное среднее квадратичное
отклонение j-го
фактора (отклика).
Коэффициент
b′j
показывает, на сколько величин sy
изменится в среднем отклик при
увеличении только j-го фактора
на
.
Коэффициент Ej
показывает, на сколько процентов
(от среднего) изменится отклик при
изменении только j-го фактора на
1%.
Соотношение (24) называется классической нормальной линейной моделью множественной регрессии, если выполняются следующие условия:
X – детерминированная матрица;
e1, …,en – независимые нормальные одинаково распределенные случайные величины: ei~N(0,s2) M(eiej)=0 при ij;
ранг матрицы X равен p+1, и p+1<n.
Справедлива теорема Гаусса-Маркова: В условиях классической нормальной линейной модели множественной регрессии оценки (28 )являются эффективными (т. е. имеют наименьшую дисперсию) в классе всех линейных несмещенных оценок.
Кроме того, можно доказать (см., например, [5]), что в условиях классической нормальной модели множественной регрессии оценки (28) обладают следующими свойствами:
b – несмещенная оценка вектора (Mb=).
Ковариационная матрица оценок b может быть вычислена по формуле:
Db=s2(X¢X)-1. (31)
bj (j=0, 1, …, p) являются нормальными случайными величинами.
Остаточная сумма квадратов Qe независима от b, а статистика
(32)
имеет распределение хи-квадрат с числом степеней свободы n-p-1 (2n-p-1).
Статистика s2:
(32а)
является несмещенной оценкой дисперсии возмущений (Ms2=2).
Значение числа степеней свободы n-p-1 можно объяснить следующим образом: из n наблюдений необходимо потратить p+1 наблюдений на оценку параметров регрессии.
Как и в случае парной регрессии, для оценивания качества оценок уравнения множественной регрессии используют критерии, вычисляемые через остаточную, регрессионную и полную суммы квадратов (см. §1.5 работы №1).
Коэффициент
детерминации R2 (см. формулу
(12)) характеризует близость регрессионной
модели к наблюдениям. Известно, что 0≤
R2 ≤1. Чем ближе R2 к
1, тем лучше уравнение регрессии
соответствует наблюдениям. Если R2=1,
то все остатки равны нулю. Если R2=0,
то
,
и регрессионная модель в качестве оценки
отклика дает его выборочное среднее.
Известно, что
коэффициент детерминации R2
возрастает с увеличением числа факторов.
С другой стороны, добавление факторов
не всегда улучшает качество модели.
Поэтому в модели множественной регрессии
предпочтительней (вместо R2)
использовать нормированный
(скорректированный, поправленный)
коэффициент детерминации
:
. (33)
При добавлении новых факторов, не оказывающих существенного влияния на отклик, может уменьшаться (в отличие от R2).
Для множественной регрессии F-статистика Фишера вычисляется по следующей формуле, являющейся обобщением формулы (13) для парной регрессии:
(34)
Известно, что в условиях классической нормальной линейной регрессионной модели статистика (34) распределена по Фишеру со степенями свободы k1=p и k2=n-p-1. Обозначим через f(;p;n-p-1) квантиль F-распределения уровня 1-. Если уравнение регрессии незначимо, то большие значения статистики F маловероятны. Поэтому гипотезу о незначимости уравнения регрессии следует отклонять, если
F> f(;p;n-p-1). (35)
Вероятность ошибки первого рода (отклонить гипотезу при условии, что она верна) при использовании правила (35) равна .
Коэффициент j незначим, если j =0, j=1, …, p; в этом случае зависимая переменная Y не зависит от j-го фактора (т. е. фактор незначим). Проверим гипотезу Hj: j =0.
Оценка bj
параметра j
имеет (см. §1.4) нормальное распределение
,
причем дисперсия
определяется как j-й диагональный
элемент матрицы (31). Среднее квадратичное
отклонение возмущений
обычно неизвестно, и в (31)
заменяют на s (см. формулу (32а));
выборочную дисперсию, полученную в
результате такой замены, обозначим
.
Так как bj
и s независимы, то статистика
(36)
имеет распределение Стьюдента с n-p-1 степенями свободы.
Если гипотеза Нj верна, то
, (36а)
и большие по модулю значения статистики (36а) маловероятны. Поэтому при выполнении неравенства
|Tj |> t(;n-p-1), (37)
где t(;n-p-1) – квантиль распределения Стьюдента уровня 1-, гипотезу Нj следует отклонить. Вероятность ошибки первого рода при использовании правила (37) равна .
Проверяя неравенство (37), можно определить, какие факторы надо исключить из модели множественной регрессии как незначимые.
Так как статистика (36) имеет распределение Стьюдента с n-p-1 степенями свободы, то с вероятностью γ=1- справедливо соотношение:
Из последнего неравенства получаем интервальную оценку коэффициента регрессии j надежности γ:
(38)
Так как статистика S2 (см. формулу (32)) имеет распределение хи-квадрат с n-p-1 степенями свободы, то с вероятностью γ=1- справедливо соотношение:
,
где через 2(z; n-p-1) обозначен квантиль уровня значимости 1-z распределения хи-квадрат.
Из последнего неравенства с учетом формулы (32) получаем доверительный интервал дисперсии возмущений 2 надежности γ:
. (39)
В настоящем пособии рассматривается только линейная регрессионная модель. Такой выбор обусловлен, с одной стороны, ограниченным объемом практикума, а, с другой стороны, тем, что именно линейная модель чаще всего используется в эконометрических исследованиях.
Причины, по которым предположение о линейности связи Y(X) получило распространение, перечислены ниже (см., например, [5]):
Простота линейной модели.
Для линейной модели характерен меньший риск существенной ошибки прогноза.
Если двумерная случайная величина (X,Y) имеет нормальное распределение, то уравнение регрессии Y(X) является линейным (также как и уравнение регрессии X(Y)). Предположение о нормальном распределении часто является вполне обоснованным.
Многие традиционно используемые в эконометрике зависимости Y от X можно свести к линейной модели заменой переменных (например, для экспоненциальной зависимости достаточно вместо Y рассмотреть lnY).
Большинство «гладких» нелинейных зависимостей можно привести к линейным (Yf′X при малом X).
Насколько хорошо линейная (и любая другая) модель соответствует реальному объекту можно судить лишь продолжая наблюдения над объектом и сравнивая прогнозируемые значения величин с реальными. Математические аспекты анализа качества линейной модели рассматривались в §1.5.