Материал: Введение в эконометрику10

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Обозначим через оценку отклика для i-го наблюдения:

. (27)

Запишем соотношение (27) в матричной форме:

где – вектор-столбец оценок отклика.

Далее обозначим: – отклонение наблюдения отклика от оценки (остаток), e=(e₁, …, e_n)′ – вектор-столбец остатков. Тогда остаточная сумма определяется формулой:

Из необходимого условия экстремума ( )можно получить (см., например, [5]) формулы для оценок коэффициентов линейной регрессии:

b=(X′X)^-1X′Y (28)

Конечно, формула (28) справедлива только в том случае, если матрица X′X неособенная, т. е. если ранг матрицы X равен p+1 (предполагается, что p+1<n).

1.3. Стандартизированные коэффициенты регрессии и коэффициенты эластичности

Значения оценок коэффициентов регрессии b_j (j=1, …, p)зависят от единиц измерения факторов и отклика. Поэтому рассматривают стандартизированные коэффициенты регрессии b′_j и коэффициенты эластичности E_j, получаемые нормированием b_j:

(29)

(30)

В этих формулах, как и в практических работах №1 и 2, приняты обозначения: – выборочное среднее j-го фактора (отклика), – выборочное среднее квадратичное отклонение j-го фактора (отклика).

Коэффициент b′_j показывает, на сколько величин s_y изменится в среднем отклик при увеличении только j-го фактора на . Коэффициент E_jпоказывает, на сколько процентов (от среднего) изменится отклик при изменении только j-го фактора на 1%.

1.4. Классическая нормальная линейная модель множественной регрессии

Соотношение (24) называется классической нормальной линейной моделью множественной регрессии, если выполняются следующие условия:

X – детерминированная матрица;
e₁, …,e_n – независимые нормальные одинаково распределенные случайные величины: e_i~N(0,s²) M(e_ie_j)=0 при ij;
ранг матрицы X равен p+1, и p+1<n.

Справедлива теорема Гаусса-Маркова: В условиях классической нормальной линейной модели множественной регрессии^{^} оценки (28 )являются эффективными (т. е. имеют наименьшую дисперсию) в классе всех линейных несмещенных оценок.

Кроме того, можно доказать (см., например, [5]), что в условиях классической нормальной модели множественной регрессии оценки (28) обладают следующими свойствами^{^}:

b – несмещенная оценка вектора  (Mb=).
Ковариационная матрица оценок b может быть вычислена по формуле:

Db=s²(X¢X)^-1. (31)

b_j (j=0, 1, …, p) являются нормальными случайными величинами.
Остаточная сумма квадратов Q_e независима от b, а статистика

(32)

имеет распределение хи-квадрат с числом степеней свободы n-p-1 (²_n_-_p_-₁).

Статистика s^2:

(32а)

является несмещенной оценкой дисперсии возмущений (Ms²=²).

Значение числа степеней свободы n-p-1 можно объяснить следующим образом: из n наблюдений необходимо потратить p+1 наблюдений на оценку параметров регрессии.

1.5. Оценивание значимости множественной регрессии

Как и в случае парной регрессии, для оценивания качества оценок уравнения множественной регрессии используют критерии, вычисляемые через остаточную, регрессионную и полную суммы квадратов (см. §1.5 работы №1).

Коэффициент детерминации R² (см. формулу (12)) характеризует близость регрессионной модели к наблюдениям. Известно, что 0≤ R²≤1. Чем ближе R²к 1, тем лучше уравнение регрессии соответствует наблюдениям. Если R²=1, то все остатки равны нулю. Если R²=0, то , и регрессионная модель в качестве оценки отклика дает его выборочное среднее.

Известно, что коэффициент детерминации R² возрастает с увеличением числа факторов. С другой стороны, добавление факторов не всегда улучшает качество модели. Поэтому в модели множественной регрессии предпочтительней (вместо R²) использовать нормированный (скорректированный, поправленный) коэффициент детерминации :

. (33)

При добавлении новых факторов, не оказывающих существенного влияния на отклик, может уменьшаться (в отличие от R²).

Для множественной регрессии F-статистика Фишера вычисляется по следующей формуле, являющейся обобщением формулы (13) для парной регрессии:

(34)

Известно, что в условиях классической нормальной линейной регрессионной модели статистика (34) распределена по Фишеру со степенями свободы k₁=p и k₂=n-p-1. Обозначим через f(;p;n-p-1) квантиль F-распределения уровня 1-. Если уравнение регрессии незначимо, то большие значения статистики F маловероятны. Поэтому гипотезу о незначимости уравнения регрессии следует отклонять, если

F> f(;p;n-p-1). (35)

Вероятность ошибки первого рода (отклонить гипотезу при условии, что она верна) при использовании правила (35) равна .

1.6. Проверка гипотезы о коэффициентах линейной регрессии

Коэффициент _j незначим, если _j =0, j=1, …, p; в этом случае зависимая переменная Y не зависит от j-го фактора (т. е. фактор незначим). Проверим гипотезу H_j: _j =0.

Оценка b_j параметра _j имеет (см. §1.4) нормальное распределение , причем дисперсия определяется как j-й диагональный элемент матрицы (31). Среднее квадратичное отклонение возмущений  обычно неизвестно, и в (31)  заменяют на s (см. формулу (32а)); выборочную дисперсию, полученную в результате такой замены, обозначим . Так как b_j и s независимы, то статистика

(36)

имеет распределение Стьюдента с n-p-1 степенями свободы.

Если гипотеза Н_j верна, то

, (36а)

и большие по модулю значения статистики (36а) маловероятны. Поэтому при выполнении неравенства

|T_j |> t(;n-p-1), (37)

где t(;n-p-1) – квантиль распределения Стьюдента уровня 1-, гипотезу Н_j следует отклонить. Вероятность ошибки первого рода при использовании правила (37) равна .

Проверяя неравенство (37), можно определить, какие факторы надо исключить из модели множественной регрессии как незначимые.

1.7. Интервальное оценивание коэффициентов уравнения регрессии

Так как статистика (36) имеет распределение Стьюдента с n-p-1 степенями свободы, то с вероятностью γ=1- справедливо соотношение:

Из последнего неравенства получаем интервальную оценку коэффициента регрессии _j надежности γ:

(38)

1.8. Интервальное оценивание дисперсии возмущений

Так как статистика S² (см. формулу (32)) имеет распределение хи-квадрат с n-p-1 степенями свободы, то с вероятностью γ=1- справедливо соотношение:

где через ²(z; n-p-1) обозначен квантиль уровня значимости 1-z распределения хи-квадрат.

Из последнего неравенства с учетом формулы (32) получаем доверительный интервал дисперсии возмущений ² надежности γ:

. (39)

1.9. О выборе линейной модели

В настоящем пособии рассматривается только линейная регрессионная модель. Такой выбор обусловлен, с одной стороны, ограниченным объемом практикума, а, с другой стороны, тем, что именно линейная модель чаще всего используется в эконометрических исследованиях.

Причины, по которым предположение о линейности связи Y(X) получило распространение, перечислены ниже (см., например, [5]):

Простота линейной модели.
Для линейной модели характерен меньший риск существенной ошибки прогноза.
Если двумерная случайная величина (X,Y) имеет нормальное распределение, то уравнение регрессии Y(X) является линейным (также как и уравнение регрессии X(Y)). Предположение о нормальном распределении часто является вполне обоснованным.
Многие традиционно используемые в эконометрике зависимости Y от X можно свести к линейной модели заменой переменных (например, для экспоненциальной зависимости достаточно вместо Y рассмотреть lnY).
Большинство «гладких» нелинейных зависимостей можно привести к линейным (Yf′X при малом X).

Насколько хорошо линейная (и любая другая) модель соответствует реальному объекту можно судить лишь продолжая наблюдения над объектом и сравнивая прогнозируемые значения величин с реальными. Математические аспекты анализа качества линейной модели рассматривались в §1.5.

Смотрите также:

«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
__RGR2
__RGR2
_индив анализ данных
...Тянет нас вверх: топос в заключительных строках Фауста Гёте
...Тянет нас вверх: топос в заключительных строках Фауста Гёте
'iПрезентация'
'Духовные песнопения' Уильяма Берда
'Новая городская история' в культурном пространстве современных социально-гуманитарных исследований