Продолжаем исследовать зависимость добычи угля на 1 рабочего (Y) от толщины угольного пласта (теперь этот фактор будем обозначать Х1) и от нового фактора – уровня механизации работ (Х2) по данным таблицы 6 (которая отличается от таблицы 1 только добавленными значениями Х2).
Таблица 6. Зависимость добычи угля от двух факторов
№ шахты |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Толщина пласта (Х1–м) |
8 |
11 |
12 |
9 |
8 |
8 |
9 |
9 |
8 |
12 |
Уровень механизации работ (Х2–%) |
5 |
8 |
8 |
5 |
7 |
8 |
6 |
4 |
5 |
7 |
Добыча угля /1рабочий (усл. ед.) |
5 |
10 |
10 |
7 |
5 |
6 |
6 |
5 |
6 |
8 |
Требуется:
Определить параметры линейной регрессии. Пояснить их смысл. Проанализировать значения остаточной, общей и регрессионной сумм квадратов. Оценить на уровне =0,05 значимость уравнения регрессии, используя F-статистику.
Определить стандартизированные коэффициенты регрессии и коэффициенты эластичности. Пояснить их смысл.
Сравнить значения коэффициента детерминации с ситуацией р=1 (см. работу №1). Повысилось ли качество модели при добавлении второй объясняющей переменной? Существенно ли изменило качество модели добавление Х2?
Вычислить значения нормированного коэффициента детерминации для случаев р=1 и р=2; анализируя полученные значения, ответить на вопросы п.3;
Проверить гипотезу о незначимости коэффициентов уравнения регрессии для уровня значимости 0,05. Ответить с новой точки зрения на вопросы п.3.
Найти с надежностью 0,95 интервальные оценки коэффициентов регрессии и дисперсии возмущений.
Повторить расчеты, используя пакет анализа Excel.
Д
ля
результатов функции ЛИНЕЙН
необходимо выделить область пустых
ячеек из 5 строк и (p+1) столбцов (p
– число факторов). Вызов окна функции
ЛИНЕЙН и его
заполнение производится так же, как для
парной регрессии; отличие состоит в
том, что значения x
представляют собой диапазон из p
строк (или столбцов). Если параметр
Статистика установлен
в значение 1, то результаты будут выданы,
как показано в таблице 7. Результаты
функции
ЛИНЕЙН
для рассматриваемых данных приведены
в таблице 8.
Получили следующие оценки коэффициентов множественной регрессии: b0=-3,54, b1=0,854, b2=0,367. Смысл b1: при увеличении только мощности пласта x1 на 1 м (при неизменном x2) добыча угля на 1 рабочего Y возрастет в среднем на 0,854 усл. ед.
Смысл b2: при увеличении только уровня механизации работ x2 на 1% (при неизменном x1) Y возрастет в среднем на 0, 367 усл. ед.
Коэффициент
b0 не имеет практического
смысла, так как
при x1= x2=0 (см. формулу
(27)), а нулевые значения факторов нереальны
(далеко отстоят от интервала наблюдений).
Сравнение регрессионной (QR=27,27) и остаточной (Qe=6,33) сумм говорит о значимости уравнения регрессии. Более обоснованное суждение о значимости уравнения можно вынести, используя критерий Фишера. Из таблицы 8 возьмем значение статистики Фишера: F=15,08. Пороговое значение (квантиль распределения Фишера уровня 1- с числом степеней свободы k1=p=2 и k2=n-p-1=7) определим с помощью функции FРАСПОБР: f(0,05;2;7)=4,74. Так как статистика F больше порога (неравенство (35) выполнено), то уравнение значимо.
Вычисления коэффициентов проводятся по формулам (29), (30). Предварительно надо рассчитать выборочные средние (для чего удобно использовать функцию СРЗНАЧ) и средние квадратичные отклонения (для вычисления суммы квадратов отклонений наблюдений от средних значений можно применить функцию КВАДРОТКЛ). В результате получим:
Анализируя
полученные значения, можно сделать
следующие выводы. Увеличение только
мощности пласта на одно значение
приводит
к возрастанию добычи угля на 1 рабочего
в среднем на 0,728sy; увеличение
только уровня механизации работ на одно
значение
приводит к возрастанию добычи угля на
1 рабочего в среднем на 0,285sy.
Увеличение первого фактора на 1% (от среднего значения) приводит в среднем к росту добычи угля на 1,18%, а увеличение второго фактора на 1% приводит к росту добычи на 0,34%.
Таким образом, величина добычи угля сильнее зависит от мощности пласта, чем от уровня механизации работ.
Из таблицы 8 имеем значение коэффициента детерминации: R2=0,812. Это достаточно большое значение говорит о значимости уравнения регрессии: изменение отклика на 81,2% объясняется изменениями двух включенных в модель факторов. Для модели с одним фактором – мощностью угольного пласта – коэффициент детерминации был равен 0,750 (см. таблицу 3). По-видимому, добавление второго фактора – уровня механизации работ – не привело к существенному улучшению модели.
Известно, что добавление даже незначимого фактора приводит к увеличению коэффициента детерминации; поэтому для сравнения моделей с различным числом объясняющих переменных обычно используется нормированный коэффициент детерминации .
Проведя расчеты по формуле (33), получим: при p=1 =0,719, при p=2 =0,758. Такое увеличение , скорее всего, слишком мало для того, чтобы говорить об улучшении качества модели при включении в нее второго фактора.
Из таблицы 8 имеем:
b1=0,854; b2=0,367;
=0,221;
=0,243.
Подставив эти значения в формулу
(36а), получим T1=3,87; T2=1,51.
Квантиль распределения Стьюдента
рассчитаем с помощью функции СТЬЮДРАСПОБР:
t(0,05;7)=2,36. Проверяя неравенство (37),
получаем: первый фактор (мощность пласта)
значим, а второй (уровень механизации)
незначим. Этот результат подтверждает
выводы предыдущих параграфов.
Доверительный интервал будем строить только для значимого коэффициента 1. Подставляя значения параметров из §2.2.4 в неравенство (38), получим, что с вероятностью 0,95 выполняется неравенство: 0,333≤1≤1,375.
Расчет доверительного интервала дисперсии возмущений проведем по формуле (39). Из таблицы 8 Qe=6,33. С помощью функции ХИ2ОБР для =0,95 вычислим квантили: 2(0,025;7)=16,01; 2(0,975;7)=1,69. Получим доверительный интервал надежности 0,95: 0,395≤2≤3,746.
В среде Excel оценить уравнение регрессии и исследовать его значимость можно не только с помощью функции ЛИНЕЙН, но и используя пакет анализа. Этот пакет вызывается командой горизонтального меню Сервис/Анализ данных. Если пакет не доступен, то следует его установить с помощью команды Сервис/Надстройки/Пакет анализа. В окне пакета надо выбрать возможность Регрессия. Правила заполнения окна Регрессия достаточно очевидны, при возникновении трудностей можно воспользоваться справкой этого окна. Здесь будут рассмотрены лишь некоторые особенности применения окна Регрессия.
С помощью окна Регрессия можно обрабатывать только вертикально ориентированные таблицы данных (в которых значения переменных расположены в столбцах). Если таблица ориентирована горизонтально (как в нашем примере), то ее необходимо транспонировать с помощью функции ТРАНСП. Порядок работы с функцией ТРАНСП следующий: выделяем область таблицы-результата (в нашем случае 11 строк, 4 столбца); вызываем функцию ТРАНСП (например, вызываем мастер функций командой Вставка/Функция, а в окне мастера выбираем ТРАНСП); в окно Массив функции мышью вводим диапазон исходной таблицы; завершаем работу с функцией ТРАНСП нажатием клавиш Ctrl+Shift+Enter.
В окне Регрессия указываются диапазоны значений отклика и факторов; флажок Метки ставится в том случае, если эти диапазоны содержат заголовки столбцов. Флажок Константа-ноль ставится, если предполагается 0=0, флажок Уровень надежности – если расчет доверительных интервалов следует проводить не только для стандартного значения надежности γ=95%, но и для другого значения γ. В простейшем случае другие флажки можно не ставить. В качестве выходного интервала достаточно задать самую левую верхнюю ячейку диапазона результатов. Заполнив таким образом окно Регрессия и нажав кнопку OK, получим результаты, представленные в таблицах 9-11. Прямым шрифтом в таблицах показана информация, выведенная Excel, курсивом приведены термины и обозначения, принятые в этом данном пособии.
Таблица 9. Регрессионная статистика |
|
Множественный R |
0,90089922 |
R-квадрат (R2) |
0,811619404 |
Нормированный
R-квадрат ( |
0,757796377 |
Стандартная ошибка (s) |
0,950908439 |
Наблюдения (n) |
10 |
Таблица 10. Дисперсионный анализ |
|||||
|
df (число степеней свободы) |
SS (суммы квадратов) |
MS (средние квадраты) |
F |
Значимость F (min) |
Регрессия |
2 |
QR=27,27 |
13,64 |
15,08 |
0,0029 |
Остаток |
k2=7 |
Qe=6,320 |
0,904 |
|
|
Итого |
9 |
Q=33,60 |
|
|
|
Предприниматель намерен использовать множественный регрессионный анализ для оценки стоимости офисного здания в заданном районе, используя данные таблицы 12. Для этого предлагается выполнить следующую работу:
Определить уравнение регрессии и его характеристики.
Проанализировать значения коэффициентов детерминации (стандартного и адаптированного). Можно ли говорить о сильной зависимости между объясняющими переменными и стоимостью здания?
Проверить значимость уравнения регрессии по критерию Фишера при уровне значимости 0,05.
Построить доверительные интервалы для коэффициентов уравнения регрессии.
Проверить значимость коэффициентов уравнения регрессии при уровне значимости 0,05. Все ли факторы полезны при оценке стоимости здания?
Таблица 12. Данные по стоимости офисных зданий
№ |
Общая площадь (кв.м) X1 |
Количество офисов X2 |
Количество входов X3 |
Срок эксплуатации (год) X4 |
Стоимость (млн. у. е.), Y |
|
|
2 310 |
2 |
2 |
20 |
142 |
|
|
2 333 |
2 |
2 |
12 |
144 |
|
|
2 356 |
3 |
1,5** |
33 |
151 |
|
|
2 379 |
3 |
2 |
43 |
150 |
|
|
2 402 |
2 |
3 |
53 |
139 |
|
|
2 425 |
4 |
2 |
23 |
169 |
|
|
2 448 |
2 |
1,5** |
99 |
126 |
|
|
2 471 |
2 |
2 |
34 |
142,9 |
|
|
2 494 |
3 |
3 |
23 |
163 |
|
|
2 517 |
4 |
4 |
55 |
169 |
|
|
2 540 |
2 |
3 |
22 |
149 |