Лекция № 3 Корреляционный и регрессионный анализ
Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между выборками. Обычно связь между выборками носит не функциональный, а вероятностный (или стохастический) характер. В этом случае нет строгой, однозначной зависимости между величинами. При изучении стохастических зависимостей различают корреляцию и регрессию. Понятия регрессии и корреляции непосредственно связаны между собой, но при этом существует четкое различие между ними. В корреляционном анализе оценивается сила стохастической связи, в регрессионном анализе ее формы.
Рассмотрим случай двух случайных переменных |
Y |
и |
X . В силу |
неоднозначности статистической зависимости между Y |
и |
X , |
представляет |
интерес усредненная по X схема зависимости, т.е. закономерность в измерении |
|||
условного математического ожидания M x Y в зависимости |
x . Соответственно: |
||
x - независимая переменная, объясняющая, входная, предсказывающая, экзогенная, фактор, регрессор, факторный признак;
y - зависимая переменная, функция отклика, объясняемая, выходная, результирующая, эндогенная переменная, результативный признак.
Таким образом, определяется зависимость случайной переменной Y от
независимой переменной X .
M x Y f x
Корреляционный анализ
Корреляционный анализ - метод, позволяющий обнаружить зависимость между несколькими случайными величинами.
Корреляция — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Мерой корреляции двух случайных величин служит коэффициент корреляцииR.
21
Корреляционной зависимостью между двумя переменными называется функциональная зависимость между значениями одной и средним значением
другой (условным математическим ожиданием),
M x Y f x
Это уравнение называется уравнением регрессии (или функцией регрессии, а еѐ график – линией регрессии).
Для точного описания уравнения регрессии необходимо знать условный закон распределения переменной Y при условии, что переменная X примет значение x ,
Встатистической практике такой информации получить не удается, т.к. обычно имеется выборка пар значений xi , yi объема n .
Вэтом случае речь может идти о приближенном выражении, аппроксимации по выборке функции регрессии. Такой оценкой является выборочная линия (кривая) регрессии
^
y f x, a, b1, , bp
|
^ |
|
|
|
|
|
где |
y - условная средняя переменной |
Y |
при фиксированном значении |
|||
X x , a, b1, , bp - параметры кривой. |
|
|
|
|
||
При |
n |
функция f x, a, b1, , bp |
должна сходиться с функции |
|||
регрессии |
f x . |
f x, a, b , , b |
|
|
|
|
|
|
p |
f (x) |
|||
|
|
1 |
|
n |
||
Поэтому регрессионная модель имеет вид:
Y f x
где Y - наблюдаемое значение зависимой переменной, f x - объясненная часть (подбираемая зависимость между Yи x), зависящая от значений объясняющих переменных, - случайная составляющая.
|
|
|
|
В многомерном случае, когда х – вектор, x j |
, где j 1, p - могут считаться |
||
как случайными, так и детерминированными. |
|
|
|
Y f x1, , x p |
. |
||
Чтобы получить достаточно достоверные и информативные данные о распределении какой-либо случайной величины, необходимо иметь выборку еѐ
22
наблюдений достаточно большого объема. Такие выборки представляют собой наборы значений
xi1, xi2 , , xip ; yi ,
где i 1, n - число наблюдений, - количество объясняющих переменных.
p
Рассмотрим p 1, т.е. парную регрессию – уравнение связи двух переменных x, y .
Различают линейные и нелинейные регрессии. Нелинейные регрессии делят на два класса: регрессии, нелинейные относительно включенных объясняющих переменных, но линейных по оцениваемым параметрам, и, регрессии, нелинейные по оцениваемым параметрам.
Линейная: y a bx ,
Нелинейные по объясняющим параметрам:
y a b1x b2 x2 bk xk , y a bx
Регрессии, нелинейные по оцениваемым параметрам:
Степенная: y axb Показательная: y abx Экспоненциальная: y ea bx Логарифмическая: ln y a b ln x Полулогарифмическая: y a b ln x
y a bxc |
|
|
|
||
1 |
|
|
|
|
|
Обратная: y |
|
|
|
|
|
a bx |
|
|
|
||
|
|
|
|
||
Если у нас есть набор значений двух переменных xi и |
yi , i 1, n то на |
||||
плоскости XY эти значения можно отобразить точками, |
таким образом |
||||
получаем поле корреляции, которое изображено на рис. 1. |
|
|
|
||
23
yi |
отклонение yi |
от f x |
|
xi
Рисунок 2. Поле корреляции
Предположим, что нашей задачей является подобрать (подогнать) функцию из параметрического семейства функций f x, a, b , наилучшим способом описывающую зависимость y от x.
Подобрать функцию – это два шага:
1шаг: спецификация модели
2шаг: выбрать наилучшие значения параметров a и b .
При выполнении регрессионного анализа в качестве меры отклонения определяемой функции f x, a, b от набора наблюдений можно вычислять:
n
1. g yi f xi , a, b 2 - метод наименьших квадратов;
i 1
n
2. g yi f xi , a, b - метод наименьших модулей;
i 1
n
3. в общем случае: g F yi f xi , a, b ,
i 1
где F - мера, с которой отклонение yi f xi , a, b входит в функционал
g .
Таким образом, понятие корреляции дает возможность судить о том насколько тесно экспериментальные точки ложатся на прямую линию (линию регрессии). Если регрессия определяет предполагаемое соотношение между переменными, то корреляция показывает, насколько хорошо это соотношение отражает действительность. Количественно тесноту связи между переменными случайными величинами оценивают коэффициентом корреляции r.
24
Коэффициент корреляции — параметр, который характеризует степень линейной взаимосвязи между двумя выборками, для парной регрессии рассчитывается по формуле:
rxy |
|
|
( xi x ) ( yi y ) |
||
|
|
|
|||
|
|
|
|||
( xi |
x )2 ( yi y )2 |
||||
|
|
|
|||
Рассмотрим взаимосвязь коэффициента корреляции и дисперсии для линейной многофакторной зависимости
y = b0+ b1x1+ b2x2+ ... + bnxn
полная изменчивость параметра y около среднего значения
(дисперсия S2 ) складывается из двух частей:
1.
,R2 обусловленной изменением переменных, входящих в линейное уравнение
2.Остатка
=(1 – R2) который не зависит от переменных xi, а определяется действием неучтенных факторов.
Таким образом, коэффициент корреляции rхарактеризует долю полной изменчивости (полной дисперсии) параметра у, которая вызвана действием контролируемых переменных xi .
Чем больше r, тем теснее корреляционная связь, тем сильнее найденная зависимость проявляется среди многообразных, случайных воздействий, тем точнее по данным значениям xi можно предсказать значение у.
Свойства коэффициента корреляции:
1)1 r 1, т.к. cov x, y x y ;
2)при r 1 , корреляционная связь представляет линейную
функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой (рис.)
25