11
Лабораторная работа № 3
Программно-статистический комплекс Microsoft Excel. Корреляционный и регрессионный анализ
Цель работы: изучение принципов корреляционного и регрессионного анали-
за, а также научиться рассчитывать и оценивать значимость регрессии в табличных процессорах
ЗАДАНИЕ 1
В соответствии с полученным индивидуальным заданием вычислить значение коэффициента корреляции для двух вариантов распределения случайных величин X
и Y и сделать выводы о существовании связи между этими величинами для каждого варианта.
Расчет коэффициента корреляции произвести двумя способами:
1.Либо через пакет анализа, либо, используя функции «КОРЕЛЛ»
2.Используя следующую формулу расчета коэффициента корреляции
|
|
|
|
n |
|
|
|
|
|
n |
|
n |
|
|
|
|
|
|
|
|
|
n x j y j |
|
|
|
|
|
y j |
|
|
|
|
|||
|
|
|
|
|
x j |
|
|
|
|
||||||||
rxy |
|
|
|
j 1 |
|
|
|
|
|
j 1 |
|
j 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
n |
|
n |
|
2 |
|
n |
|
|
n |
2 |
|
|
||||
|
|
|
n x2j |
|
x j |
|
|
n y2j |
|
y j |
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j 1 |
j 1 |
|
|
|
|
j 1 |
|
|
j 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
ЗАДАНИЕ 2
Объясните следующее утверждение: «Независимые переменные всегда некор-
релированы, но не все некоррелированные величины независимы».
Для этого определите корреляцию по ковариации и дисперсии для первого и второго варианта задания 1.
|
|
(x j |
|
|
|
|
|
|
|
sxy |
|
x)(yi |
y) |
rxy |
|
||||||
sxy |
|
|
|
|
|
|
|
sxsy |
||
n 1 |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
||||
12
ЗАДАНИЕ 3
В соответствии с полученным индивидуальным заданием, по выборочным данным, представленным в таблице, требуется установить наличие взаимосвязи ме-
жду указанными показателями.
ЗАДАНИЕ 4
Использование пакета анализа для расчетов параметров уравнения линейной
регрессии и проверки его адекватности исследуемому процессу. |
Методиче- |
|
ские указания: |
Режим |
работы |
«Регрессия» может быть вызван из пункта «Анализ данных» |
|
|
В диалоговом окне данного режима задаются следующие параметры: |
1. |
|
Входной интервал Y - вводится ссылка на ячейки, содержащие данные по результи- |
||
рующему признаку (1 столбец); |
2. Входной |
интер- |
вал X - вводится ссылка на ячейки, содержащие факторные признаки (до 16 столб-
цов);
3. Флажок Метки - устанавливается в активное состояние, если первая строка во входном диапазоне содержит заголовки. 4. Уро-
вень надежности - установите данный флажок, если необходимо ввести уровень на-
дежности отличный от уровня 95%, который применяется по умолчанию.
5. Константа ноль - установите данный флажок в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т.е. свободный
коэффициент равен 0); 6. Остатки -
выводить остатки (разность между значением функции регрессии и эмпирических
данных); 7. Стандартизированные остат-
ки - установите данный флажок в активное состояние, если требуется включить в
13
выходной диапазон столбец стандартизированных остатков
8. График остатков - Выводит на рабочий лист точечные
графики зависимости остатков от факторных признаков;
9.График подбора - Выводит на рабочий лист точечные графики зависимости теоретических результативных значений от факторных признаков;
10.График нормальной вероятности - Выводит на рабочий лист точечный график зависимости наблюдаемых значений от интервалов.
Постройте анализ регрессии, используя пакет анализа для случаев, представ-
ленных в индивидуальном задании.
Методические указания для описания столбцов и строк полученных при ис-
следовании данных:
1. Столбец df - число степеней свободы
Для строки регрессия число степеней свободы определяется количеством фак-
торных признаков. Для строки остатки число степеней свободы определяется чис-
лом наблюдений за минусом количества переменных в уравнении регрессии. 2. Столбец SS - сумма квадратов отклонений.
Для строки регрессия это сумма квадратов отклонений теоретических данных от среднего
Для строки остатки это сумма квадратов отклонений эмпирических данных от среднего
3. Столбец MS - дисперсия (SS/df)
Для строки регрессия это факторная дисперсия Для строки остатки остаточная дисперсия
4.Столбец F - расчетное значение F - критерия Фишера, Вычисленное по формуле «MS(Регрессия)/MS(Остатки)»
5.Столбец значимость F - значение уровня значимости, соответствующее вы-
численному |
значению |
F. |
Определяется |
с |
помощью |
функции |
«FРАСП(F;df(регрессия);df(остатки))»
14
6.Коэффициенты, посчитанные по методу наименьших квадратов
7.Стандартная ошибка - стандартные ошибки коэффициентов
8.t- статистика - расчетные значения t-критерия, вычисляемая по формуле
«Коэффициенты/Стандартная ошибка»
9.P-значение - значение уровней значимости, соответствующие вычисленным значениям. Определяется с помощью функции «СТЬЮДРАСП(t,n-m-1)»
10.Нижние 95% и Верхние 95% - соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии;
11.В таблице ВЫВОД ОСТАТКА - сгенерированы теоретические значения результативного признака и значения остатков.
12.В таблице ВЫВОД ВЕРОЯТНОСТИ - сгенерированы интервалы перцен-
тилей и соответствующие им эмпирические значения.
Методические указания по функции «Анализ данных «Коэффициенты регрес-
сии», которая позволяет построить уравнение регрессии:
1. Значение множественного коэффициента детерминации R^2
Чем больше значение данного показателя, тем отчетливее зависимость резуль-
тативного признака от факторных, при R^2>0.7, говорят, что выбранные факторы существенно влияют на результативный признак и подтверждается правильность включения их в модель.
2. Уровень значимости Если данный показатель меньше уровня доверия, указанного при регрессион-
ном анализе, то подтверждается значимость R^2. Еще один способ проверки значимости R^2 основан на проверке попадания значения F в кри-
тическую область, границы этой обасти рассчитываются по формуле:
(Fпркр, , )
Fпркр, FРРАСПОБ( , k Ф , k о )
k Ф , k О число степеней свободы
Если рассчитанный показатель из таблицы регрессии попадает в критический интервал, то гипотеза о незначительности влияния отвергается, т.е. коэффициент де-
15
терминации является значимым.
3. Проверка значимости коэффициентов регрессии Значения коэффициентов должны быть меньше своих стандартных ошибок.
Коэффициенты, для которых это требование не выполняется можно исключить из уравнения регрессии. О значимости можно судить и по значению показателя P-
значение в таблице коэффициентов. Это значение должно быть меньше заданного уровня значимости.
Лабораторная работа № 4
Общие сведения о программно-статистическом комплексе STATISTICA. Основные приемы работы
Цель работы: изучение основных приемов работы в программно-
статистическом комплексе STATISTICA
STATISTICA – это интегрированная система анализа и управления данными.
Все аналитические инструменты, имеющиеся в системе, доступны пользова-
телю и могут быть выбраны с помощью альтернативного пользовательского интер-
фейса. Пользователь может всесторонне автоматизировать свою работу, начиная с применения простых макросов для автоматизации рутинных действий вплоть до уг-
лубленных проектов, включающих в том числе интеграцию системы с другими при-
ложениями или Интернет. Технология автоматизации позволяет даже неопытному пользователю настроить систему на свой проект.
Процедуры системы STATISTICA имеют высокую скорость и точность вы-
числений.
Гибкая и мощная технология доступа к данным позволяет эффективно рабо-
тать как с таблицами данных на локальном диске, так и с удаленными хранилищами данных.
Система обладает следующими общепризнанными достоинствами: