Материал: Введение в эконометрику10

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам
  1. В таблице 23 даны уровни некоторого ряда, время t измеряется в кварталах. Провести для этих данных исследования, аналогичные п.2.

Таблица 23. Уровни ряда

t

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

y

301

630

785

610

690

1279

1400

1100

1200

1805

2000

1450

1450

2504

2600

1810

Практическая работа №5. Использование фиктивных переменных при решении задач эконометрики

1. Теоретическая часть

1.1. О двух моделях выборочных данных в эконометрике

В эконометрике рассматриваются две модели выборочных данных (на­блюдений): пространственная выборка и временной ряд (см. также работу №4).

Под пространственной выборкой подразумевается набор наблюдений, сделанных в один момент времени (день, месяц, год и т. п.) для различных од­нотипных объектов. Временным рядом называется набор наблюде­ний, полученных для одного объекта в последовательные моменты времени.

Для пространственной выборки порядок следования (нумерация) наблю­дений не имеет значения, а наблюдения можно считать независимыми. Эти свойства, как правило, не имеют места для временного ряда. Поэтому ис­следование временного ряда обычно сложнее, чем пространственной выборки. Для пространственных выборок, как правило, выполняются условия классической нормальной регрессионной модели и справедлива теорема Гаусса-Маркова.

1.2. Использование фиктивных переменных для анализа значимости качественных признаков в модели пространственной выборки

Фиктивная переменная – это фактор, который принимает дискретные зна­чения. Типичный пример фиктивной переменной – двоичная переменная X, которая равна 0 для мужчин и 1 для женщин. Другой пример:

В данных примерах фиктивная переменная используется для кодирования значений качественного (т. е. нечислового) признака.

О бычно от переменных, принимающих k значений: 0, 1,…, k-1, перехо­дят к двоичным переменным (их число (k-1)). Например, вместо переменной Z следует взять переменные:

Переменная Z4, указывающая на высшее образование, не используется, так как в силу равенства Z1+Z2+Z3+Z4=1 факторы Z1, Z2, Z3, Z4 зависимы, и матрица Х в уравнении регрессии (25) при ис­пользовании четырех переменных будет вырожденной (в таком случае говорят, что имеет место мультиколлинеарность). Высшее образование кодируется зна­чениями: Z1=Z2=Z3=0.

Значимость фиктивной переменной можно, например, проверить, по кри­терию Стьюдента (см. соотношение (37)).

Пусть эконометрическая модель описывается двумя факторами: непрерывным X и дискретным Z, и откликом Y. Переменные Y и X связаны уравнением линейной регрессии (1). Требуется вынести суждение о том, влияет ли значение дискретного признака Z на параметры уравнения регрессии.

Для простоты будем считать Z двоичной переменной. Пусть при Z=0 Y=mX+b, а при Z=1 Y=mX+b+m1X+b1. Тогда для произвольного значения Z справедлива формула: Y=mX+b+Z(m1X+b1). После несложных преобразований получим:

Y=mX+ m1(ZX) +b1Z+b. (45)

Таким образом, для оценивания значимости влияния Z на коэффициент регрессии достаточно по критерию Стьюдента (см. неравенство (37)) проверить гипотезу о незначимости коэффициента m1 (при новой переменной ZX), а для оценивания влияния Z на сдвиг уравнения линейной регрессии достаточно проверить гипотезу о незначимости b1 (коэффициента при переменной Z).

1.3. Проверка незначимости качественного признака по критерию г. Чоу

Критерий Г. Чоу основывается на сравнении по критерию Фишера остаточных сумм моделей, одна из которых учитывает качественный признак, а другая не учитывает.

Пусть n – число наблюдений, Z – двоичная фиктивная переменная, р – число факторов (без фиктивной переменной Z), n0 – число наблюдений, для которых Z=0, n1 – число наблюдений, для которых Z=1. Очевидно, что n0+ n1=n.

Далее, пусть Н0 – гипотеза о незначимости фиктивной переменной Z, Q0 – остаточная сумма при условии, что гипотеза Н0 верна, Q1 – остаточная сумма при условии, что гипотеза Н0 неверна.

Сумма Q0 – это остаточная сумма p-факторной линейной регрессии по n наблюдениям, поэтому статистика (см. §1.4 практической работы №3) имеет распределение хи-квадрат с числом степеней свободы:

k0=n-(p+1).

Сумма Q1 складывается из двух остаточных сумм:

Q1= Q1(Z=0)+ Q1(Z=1),

где Q1(Z=0) – остаточная сумма линейной регрессионной модели с p факторами, рассчитанной по n0 наблюдениям (для которых Z=0); Q1(Z=1) – остаточная сумма линейной регрессионной модели с p факторами, рассчитанной по n1 наблюдениям (для которых Z=1). Статистика имеет распределение хи-квадрат с числом степеней свободы:

k1(Z=0)=n0-(p+1).

Аналогично число степеней свободы для Q1(Z=1) равно

k1(Z=1)=n1-(p+1).

Число степеней свободы остаточной суммы Q1 равно

k1=k1(Z=0)+k1(Z=1)=n0-(p+1)+n1-(p+1)=n-2(p+1).

Рассмотрим разность:

Q =Q0-Q1. (46)

Можно доказать, что

,

где

k= k0-k1=p+1. (47)

В соответствии с критерием Г. Чоу вычисляется статистика:

, (48)

которая распределена по Фишеру со степенями свободы k и k1.

Если гипотеза Н0 верна, то Q<<Q1, и большие значения статистики (48) маловероятны. Поэтому гипотезу о незначимости фиктивной переменной Z следует отклонять, если

FЧоу> f(;k; k1), (49)

где f(;k; k1) – квантиль F-распределения уровня 1-.

Вероятность ошибки первого рода (отклонить гипотезу Н0 при условии, что она верна) для правила (49) равна .

Заметим, что при p=1 сумму Q1 можно вычислить и как остаточную сумму модели (45) с фиктивными переменными.

1.4. Проверка значимости структурных изменений временного ряда

На практике часто встречаются ситуации, когда необходимо сделать вы­бор между непре­рывной и кусочно-линейной моделью времен­ного ряда. На рис. 12 показан пример такой си­туации. Возможно, что надо строить тренд по всем наблюдениям (т.е. ис­пользо­вать непре­рывную модель 1). Но также возможно, что на­блюдения сле­дует разбить на две группы, и оп­ределить свой тренд для каждой группы (т. е. использовать кусочно-линейную модель, со­стоящую из участков 2 и 3). Необходимо при­нять решение о том, какая модель лучше. В эконометрике обычно говорят, что необходимо выявить структурные изменения ряда (или интервен­цию).

Проверим гипотезу Н0 о незначимости структурных изменений ряда, т. е. о несущественности различий между кусочно-линейной и непрерывной моделью. Для проверки гипотезы воспользуемся критерием Г. Чоу.

Пусть n – число наблюдений, n0 – число наблюдений первой группы, n1 – число наблюдений второй группы (n0+ n1=n); Q0 – остаточная сумма при усло­вии, что гипотеза Н0 верна (т. е. остаточная сумма непрерывной модели), Q1 – остаточная сумма при усло­вии, что гипотеза Н0 неверна (т. е. кусочно-линей­ной мо­дели). Сумма Q1 складывается из остаточных сумм групп наблюдений.

Далее правило проверки гипотезы Н0 строится так же, как в §1.3. Если предположить, что время является единственным фактором модели (p=1), то в соотношениях (48), (49) имеем: k1=n-2(p+1)=n-4, k=p+1=2.

Другой способ выявления структурных изменений ряда состоит в использовании фиктивной переменной. Обозначим t* – момент времени, разделяющий группы наблюдений: при t< t* наблюдение принадлежит первой группе, при t t* – второй (см. рис. 12). В качестве t* можно взять время некоторого события (кризис, забастовка, вливание дополнительных ресурсов), происшедшего между группами наблюдений и способного повлиять на наблюдаемые переменные. Если такое событие неизвестно, то допустимо приблизительно определить t* по графику. Рассмотрим фиктивную переменную Z:

Далее следует рассмотреть регрессионное уравнение (45), оценить коэффициенты m1 и b1 и определить их значимость.

Заметим, что фиктивные переменные дают возможность более тонкого выявления структурных изменений ряда. Если критерий Г. Чоу только дает ответ «да-нет» на вопрос о значимости структурных изменений, то фиктивные переменные позволяют определить, какой именно параметр уравнения регрессии (коэффициент или сдвиг) претерпел существенные изменения.

1.5. Проверка значимости сезонных изменений временного ряда

В практической работе №4 мы определяли наличие сезонных колебаний временного ряда визуально по графику уровней ряда и по коррелограмме. Фиктивные переменные дают возможность проверить гипотезу о незначимости сезонных изменений.

Пусть зависимая переменная Y линейно зависит только от одного фак­тора – времени t. Рассмотрим фиктивные переменные:

(50)

Ситуация Z1=Z2=Z3=0 соответствует осени.

Запишем уравнение:

Y=mt+b+Z1(m1t+b1)+Z2(m2t+b2)+Z3(m3t+b).

При наступлении i-го сезона значение Zi меняется с Zi=0 на Zi=1, что равно­сильно увеличению коэффициента в уравнении Y=mt+b на mi, а сдвига – на bi. Из послед­него уравнения раскрыв скобки получим:

Y=mt+b+ b1Z1+ m1(Z1t)+b2Z2+ m2(Z2t)+b3Z3+m3(Z3t). (51)

Проверив гипотезу (см. §1.6 практической работы №3) о незначимости коэффициентов mi, bi, i=1, 2, 3, можно принять решение о существенности влияния каждого времени года на параметры уравнения линейной регрессии.

Можно также проверить существенность сезонных изменений по крите­рию Г. Чоу (формулы (48), (49)). В этой задаче непрерывная модель Q0 – это уравнение регрессии Y=mt+b; число степеней свободы k0=n-2. Кусочно-линей­ная модель описывается уравнением (51); число факторов этой модели p=7, число степеней свободы k1=n-p-1= n-8. Соответственно, k=6.