Материал: Введение в эконометрику10

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Обозначим через оценку отклика для i-го наблюдения:

. (27)

Запишем соотношение (27) в матричной форме:

,

где – вектор-столбец оценок отклика.

Далее обозначим: – отклонение наблюдения отклика от оценки (остаток), e=(e1, …, en)′ – вектор-столбец остатков. Тогда остаточная сумма определяется формулой:

.

Из необходимого условия экстремума ( )можно получить (см., например, [5]) формулы для оценок коэффициентов линейной регрессии:

b=(XX)-1XY (28)

Конечно, формула (28) справедлива только в том случае, если матрица XX неособенная, т. е. если ранг матрицы X равен p+1 (предполагается, что p+1<n).

1.3. Стандартизированные коэффициенты регрессии и коэффициенты эластичности

Значения оценок коэффициентов регрессии bj (j=1, …, p)зависят от единиц измерения факторов и отклика. Поэтому рассматривают стандартизированные коэффициенты регрессии b′j и коэффициенты эластичности Ej, получаемые нормированием bj:

(29)

(30)

В этих формулах, как и в практических работах №1 и 2, приняты обозначения: – выборочное среднее j-го фактора (отклика), – выборочное среднее квадратичное отклонение j-го фактора (отклика).

Коэффициент b′j показывает, на сколько величин sy изменится в среднем отклик при увеличении только j-го фактора на . Коэффициент Ej показывает, на сколько процентов (от среднего) изменится отклик при изменении только j-го фактора на 1%.

1.4. Классическая нормальная линейная модель множественной регрессии

Соотношение (24) называется классической нормальной линейной моделью множественной регрессии, если выполняются следующие условия:

  • X – детерминированная матрица;

  • e1, …,en – независимые нормальные одинаково распределенные случайные величины: ei~N(0,s2) M(eiej)=0 при ij;

  • ранг матрицы X равен p+1, и p+1<n.

Справедлива теорема Гаусса-Маркова: В условиях классической нормальной линейной модели множественной регрессии оценки (28 )являются эффективными (т. е. имеют наименьшую дисперсию) в классе всех линейных несмещенных оценок.

Кроме того, можно доказать (см., например, [5]), что в условиях классической нормальной модели множественной регрессии оценки (28) обладают следующими свойствами:

  1. b – несмещенная оценка вектора  (Mb=).

  2. Ковариационная матрица оценок b может быть вычислена по формуле:

Db=s2(X¢X)-1. (31)

  1. bj (j=0, 1, …, p) являются нормальными случайными величинами.

  2. Остаточная сумма квадратов Qe независима от b, а статистика

(32)

имеет распределение хи-квадрат с числом степеней свободы n-p-1 (2n-p-1).

  1. Статистика s2:

(32а)

является несмещенной оценкой дисперсии возмущений (Ms2=2).

Значение числа степеней свободы n-p-1 можно объяснить следующим образом: из n наблюдений необходимо потратить p+1 наблюдений на оценку параметров регрессии.

1.5. Оценивание значимости множественной регрессии

Как и в случае парной регрессии, для оценивания качества оценок уравнения множественной регрессии используют критерии, вычисляемые через остаточную, регрессионную и полную суммы квадратов (см. §1.5 работы №1).

Коэффициент детерминации R2 (см. формулу (12)) характеризует близость регрессионной модели к наблюдениям. Известно, что 0≤ R2 ≤1. Чем ближе R2 к 1, тем лучше уравнение регрессии соответствует наблюдениям. Если R2=1, то все остатки равны нулю. Если R2=0, то , и регрессионная модель в качестве оценки отклика дает его выборочное среднее.

Известно, что коэффициент детерминации R2 возрастает с увеличением числа факторов. С другой стороны, добавление факторов не всегда улучшает качество модели. Поэтому в модели множественной регрессии предпочтительней (вместо R2) использовать нормированный (скорректированный, поправленный) коэффициент детерминации :

. (33)

При добавлении новых факторов, не оказывающих существенного влияния на отклик, может уменьшаться (в отличие от R2).

Для множественной регрессии F-статистика Фишера вычисляется по следующей формуле, являющейся обобщением формулы (13) для парной регрессии:

(34)

Известно, что в условиях классической нормальной линейной регрессионной модели статистика (34) распределена по Фишеру со степенями свободы k1=p и k2=n-p-1. Обозначим через f(;p;n-p-1) квантиль F-распределения уровня 1-. Если уравнение регрессии незначимо, то большие значения статистики F маловероятны. Поэтому гипотезу о незначимости уравнения регрессии следует отклонять, если

F> f(;p;n-p-1). (35)

Вероятность ошибки первого рода (отклонить гипотезу при условии, что она верна) при использовании правила (35) равна .

1.6. Проверка гипотезы о коэффициентах линейной регрессии

Коэффициент j незначим, если j =0, j=1, …, p; в этом случае зависимая переменная Y не зависит от j-го фактора (т. е. фактор незначим). Проверим гипотезу Hj: j =0.

Оценка bj параметра j имеет (см. §1.4) нормальное распределение , причем дисперсия определяется как j-й диагональный элемент матрицы (31). Среднее квадратичное отклонение возмущений  обычно неизвестно, и в (31)  заменяют на s (см. формулу (32а)); выборочную дисперсию, полученную в результате такой замены, обозначим . Так как bj и s независимы, то статистика

(36)

имеет распределение Стьюдента с n-p-1 степенями свободы.

Если гипотеза Нj верна, то

, (36а)

и большие по модулю значения статистики (36а) маловероятны. Поэтому при выполнении неравенства

|Tj |> t(;n-p-1), (37)

где t(;n-p-1) – квантиль распределения Стьюдента уровня 1-, гипотезу Нj следует отклонить. Вероятность ошибки первого рода при использовании правила (37) равна .

Проверяя неравенство (37), можно определить, какие факторы надо исключить из модели множественной регрессии как незначимые.

1.7. Интервальное оценивание коэффициентов уравнения регрессии

Так как статистика (36) имеет распределение Стьюдента с n-p-1 степенями свободы, то с вероятностью γ=1- справедливо соотношение:

Из последнего неравенства получаем интервальную оценку коэффициента регрессии j надежности γ:

(38)

1.8. Интервальное оценивание дисперсии возмущений

Так как статистика S2 (см. формулу (32)) имеет распределение хи-квадрат с n-p-1 степенями свободы, то с вероятностью γ=1- справедливо соотношение:

,

где через 2(z; n-p-1) обозначен квантиль уровня значимости 1-z распределения хи-квадрат.

Из последнего неравенства с учетом формулы (32) получаем доверительный интервал дисперсии возмущений 2 надежности γ:

. (39)

1.9. О выборе линейной модели

В настоящем пособии рассматривается только линейная регрессионная модель. Такой выбор обусловлен, с одной стороны, ограниченным объемом практикума, а, с другой стороны, тем, что именно линейная модель чаще всего используется в эконометрических исследованиях.

Причины, по которым предположение о линейности связи Y(X) получило распространение, перечислены ниже (см., например, [5]):

  1. Простота линейной модели.

  2. Для линейной модели характерен меньший риск существенной ошибки прогноза.

  3. Если двумерная случайная величина (X,Y) имеет нормальное распределение, то уравнение регрессии Y(X) является линейным (также как и уравнение регрессии X(Y)). Предположение о нормальном распределении часто является вполне обоснованным.

  4. Многие традиционно используемые в эконометрике зависимости Y от X можно свести к линейной модели заменой переменных (например, для экспоненциальной зависимости достаточно вместо Y рассмотреть lnY).

  5. Большинство «гладких» нелинейных зависимостей можно привести к линейным (Yf′X при малом X).

Насколько хорошо линейная (и любая другая) модель соответствует реальному объекту можно судить лишь продолжая наблюдения над объектом и сравнивая прогнозируемые значения величин с реальными. Математические аспекты анализа качества линейной модели рассматривались в §1.5.