В таблице 23 даны уровни некоторого ряда, время t измеряется в кварталах. Провести для этих данных исследования, аналогичные п.2.
Таблица 23. Уровни ряда
t |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
y |
301 |
630 |
785 |
610 |
690 |
1279 |
1400 |
1100 |
1200 |
1805 |
2000 |
1450 |
1450 |
2504 |
2600 |
1810 |
В эконометрике рассматриваются две модели выборочных данных (наблюдений): пространственная выборка и временной ряд (см. также работу №4).
Под пространственной выборкой подразумевается набор наблюдений, сделанных в один момент времени (день, месяц, год и т. п.) для различных однотипных объектов. Временным рядом называется набор наблюдений, полученных для одного объекта в последовательные моменты времени.
Для пространственной выборки порядок следования (нумерация) наблюдений не имеет значения, а наблюдения можно считать независимыми. Эти свойства, как правило, не имеют места для временного ряда. Поэтому исследование временного ряда обычно сложнее, чем пространственной выборки. Для пространственных выборок, как правило, выполняются условия классической нормальной регрессионной модели и справедлива теорема Гаусса-Маркова.
Фиктивная переменная – это фактор, который принимает дискретные значения. Типичный пример фиктивной переменной – двоичная переменная X, которая равна 0 для мужчин и 1 для женщин. Другой пример:
В данных примерах фиктивная переменная используется для кодирования значений качественного (т. е. нечислового) признака.
О
бычно
от переменных, принимающих k значений:
0, 1,…, k-1, переходят к двоичным
переменным (их число (k-1)). Например,
вместо переменной Z следует взять
переменные:
Переменная Z4, указывающая на высшее образование, не используется, так как в силу равенства Z1+Z2+Z3+Z4=1 факторы Z1, Z2, Z3, Z4 зависимы, и матрица Х в уравнении регрессии (25) при использовании четырех переменных будет вырожденной (в таком случае говорят, что имеет место мультиколлинеарность). Высшее образование кодируется значениями: Z1=Z2=Z3=0.
Значимость фиктивной переменной можно, например, проверить, по критерию Стьюдента (см. соотношение (37)).
Пусть эконометрическая модель описывается двумя факторами: непрерывным X и дискретным Z, и откликом Y. Переменные Y и X связаны уравнением линейной регрессии (1). Требуется вынести суждение о том, влияет ли значение дискретного признака Z на параметры уравнения регрессии.
Для простоты будем считать Z двоичной переменной. Пусть при Z=0 Y=mX+b, а при Z=1 Y=mX+b+m1X+b1. Тогда для произвольного значения Z справедлива формула: Y=mX+b+Z(m1X+b1). После несложных преобразований получим:
Y=mX+ m1(ZX) +b1Z+b. (45)
Таким образом, для оценивания значимости влияния Z на коэффициент регрессии достаточно по критерию Стьюдента (см. неравенство (37)) проверить гипотезу о незначимости коэффициента m1 (при новой переменной ZX), а для оценивания влияния Z на сдвиг уравнения линейной регрессии достаточно проверить гипотезу о незначимости b1 (коэффициента при переменной Z).
Критерий Г. Чоу основывается на сравнении по критерию Фишера остаточных сумм моделей, одна из которых учитывает качественный признак, а другая не учитывает.
Пусть n – число наблюдений, Z – двоичная фиктивная переменная, р – число факторов (без фиктивной переменной Z), n0 – число наблюдений, для которых Z=0, n1 – число наблюдений, для которых Z=1. Очевидно, что n0+ n1=n.
Далее, пусть Н0 – гипотеза о незначимости фиктивной переменной Z, Q0 – остаточная сумма при условии, что гипотеза Н0 верна, Q1 – остаточная сумма при условии, что гипотеза Н0 неверна.
Сумма Q0
– это остаточная сумма p-факторной
линейной регрессии по n наблюдениям,
поэтому статистика
(см. §1.4 практической работы №3) имеет
распределение хи-квадрат с числом
степеней свободы:
k0=n-(p+1).
Сумма Q1 складывается из двух остаточных сумм:
Q1= Q1(Z=0)+ Q1(Z=1),
где
Q1(Z=0) – остаточная сумма
линейной регрессионной модели с p
факторами, рассчитанной по n0
наблюдениям (для которых Z=0);
Q1(Z=1) – остаточная сумма
линейной регрессионной модели с p
факторами, рассчитанной по n1
наблюдениям (для которых Z=1).
Статистика
имеет распределение хи-квадрат с числом
степеней свободы:
k1(Z=0)=n0-(p+1).
Аналогично число степеней свободы для Q1(Z=1) равно
k1(Z=1)=n1-(p+1).
Число степеней свободы остаточной суммы Q1 равно
k1=k1(Z=0)+k1(Z=1)=n0-(p+1)+n1-(p+1)=n-2(p+1).
Рассмотрим разность:
Q =Q0-Q1. (46)
Можно доказать, что
,
где
k∆= k0-k1=p+1. (47)
В соответствии с критерием Г. Чоу вычисляется статистика:
,
(48)
которая распределена по Фишеру со степенями свободы k∆ и k1.
Если гипотеза Н0 верна, то Q<<Q1, и большие значения статистики (48) маловероятны. Поэтому гипотезу о незначимости фиктивной переменной Z следует отклонять, если
FЧоу> f(;k∆; k1), (49)
где f(;k∆; k1) – квантиль F-распределения уровня 1-.
Вероятность ошибки первого рода (отклонить гипотезу Н0 при условии, что она верна) для правила (49) равна .
Заметим, что при p=1 сумму Q1 можно вычислить и как остаточную сумму модели (45) с фиктивными переменными.
На
практике часто встречаются ситуации,
когда необходимо сделать выбор между
непрерывной и кусочно-линейной
моделью временного ряда. На рис. 12
показан пример такой ситуации.
Возможно, что надо строить тренд по всем
наблюдениям (т.е. использовать
непрерывную модель 1). Но также
возможно, что наблюдения следует
разбить на две группы, и определить
свой тренд для каждой группы (т. е.
использовать кусочно-линейную модель,
состоящую из участков 2 и 3). Необходимо
принять решение о том, какая модель
лучше. В эконометрике обычно говорят,
что необходимо выявить структурные
изменения ряда (или интервенцию).
Проверим гипотезу Н0 о незначимости структурных изменений ряда, т. е. о несущественности различий между кусочно-линейной и непрерывной моделью. Для проверки гипотезы воспользуемся критерием Г. Чоу.
Пусть n – число наблюдений, n0 – число наблюдений первой группы, n1 – число наблюдений второй группы (n0+ n1=n); Q0 – остаточная сумма при условии, что гипотеза Н0 верна (т. е. остаточная сумма непрерывной модели), Q1 – остаточная сумма при условии, что гипотеза Н0 неверна (т. е. кусочно-линейной модели). Сумма Q1 складывается из остаточных сумм групп наблюдений.
Далее правило проверки гипотезы Н0 строится так же, как в §1.3. Если предположить, что время является единственным фактором модели (p=1), то в соотношениях (48), (49) имеем: k1=n-2(p+1)=n-4, k∆=p+1=2.
Другой способ выявления структурных изменений ряда состоит в использовании фиктивной переменной. Обозначим t* – момент времени, разделяющий группы наблюдений: при t< t* наблюдение принадлежит первой группе, при t t* – второй (см. рис. 12). В качестве t* можно взять время некоторого события (кризис, забастовка, вливание дополнительных ресурсов), происшедшего между группами наблюдений и способного повлиять на наблюдаемые переменные. Если такое событие неизвестно, то допустимо приблизительно определить t* по графику. Рассмотрим фиктивную переменную Z:
Далее следует рассмотреть регрессионное уравнение (45), оценить коэффициенты m1 и b1 и определить их значимость.
Заметим, что фиктивные переменные дают возможность более тонкого выявления структурных изменений ряда. Если критерий Г. Чоу только дает ответ «да-нет» на вопрос о значимости структурных изменений, то фиктивные переменные позволяют определить, какой именно параметр уравнения регрессии (коэффициент или сдвиг) претерпел существенные изменения.
В практической работе №4 мы определяли наличие сезонных колебаний временного ряда визуально по графику уровней ряда и по коррелограмме. Фиктивные переменные дают возможность проверить гипотезу о незначимости сезонных изменений.
Пусть зависимая переменная Y линейно зависит только от одного фактора – времени t. Рассмотрим фиктивные переменные:
(50)
Ситуация Z1=Z2=Z3=0 соответствует осени.
Запишем уравнение:
Y=mt+b+Z1(m1t+b1)+Z2(m2t+b2)+Z3(m3t+b).
При наступлении i-го сезона значение Zi меняется с Zi=0 на Zi=1, что равносильно увеличению коэффициента в уравнении Y=mt+b на mi, а сдвига – на bi. Из последнего уравнения раскрыв скобки получим:
Y=mt+b+ b1Z1+ m1(Z1t)+b2Z2+ m2(Z2t)+b3Z3+m3(Z3t). (51)
Проверив гипотезу (см. §1.6 практической работы №3) о незначимости коэффициентов mi, bi, i=1, 2, 3, можно принять решение о существенности влияния каждого времени года на параметры уравнения линейной регрессии.
Можно также проверить существенность сезонных изменений по критерию Г. Чоу (формулы (48), (49)). В этой задаче непрерывная модель Q0 – это уравнение регрессии Y=mt+b; число степеней свободы k0=n-2. Кусочно-линейная модель описывается уравнением (51); число факторов этой модели p=7, число степеней свободы k1=n-p-1= n-8. Соответственно, k=6.