Реальность и теснота стохастической связи характеризуется показателем определённости, или коэффициентом детерминации, определяемым как отношение дисперсии зависимой переменной y, объяснённой моделью, к общей дисперсии этой переменной.
Иными словами, коэффициент детерминации есть доля дисперсии, объяснённой моделью, в общей дисперсии зависимой переменной и выражается в %.
Формально коэффициент детерминации
равен квадрату несмещённого значения корреляционного отношения, то есть в
случае рассмотренной выше линейной зависимости
коэффициент детерминации может быть
представлен как
(2.4)
3. Парная линейная корреляция
Центральное место в корреляционном анализе занимает парная линейная корреляция. Как было отмечено выше, если имеется пара переменных, то корреляция между ними - это мера связи (зависимости) именно между этими переменными.
На первый взгляд большинство
нелинейных парных связей, то есть связей, не удовлетворяющих формуле
можно,
трансформируя переменные, заменить линейными зависимостями. В этом случае они
стали бы доступными для простого в использовании инструментария, применяемого
только для исследования линейных корреляций.
Скажем, нелинейную зависимость типа
можно преобразовать при помощи
логарифмирования так:
если
, то получим линейную зависимость
следующего вида. Аналогично нелинейную функцию можно выразить с помощью
логарифмов так:
Если
, то получим зависимость
, которая
также линейна.
Однако следует учитывать, что необходимым условием истинности линейной связи (и её оптимальности) является адекватность математическим свойствам эмпирической зависимости. Практически это означает, что область определения и нулевые значения линейной модели должны соответствовать искомой истинной зависимости и их проявлениям в эмпирических данных, которые могут иметь своей асимптотой только саму аппроксимирующую прямую.
Нетрудно заметить, что при переходе к логарифмам данное условие не выполняется, а значит, исследование нелинейных и многомерных корреляций требует своих, обычно более сложных методов.
Анализ же линейной корреляции между
двумя переменными опирается на следующие инструменты математической статистики.
.1 Ковариация
Ковариация является вторым смешанным центральным моментом случайных величин x и y, который характеризует их связь.
Ковариация или коэффициент
ковариации определяется как
(3.1)
где M - оператор математического ожидания.
Так как математическое ожидание
и,
аналогично,
, то правую
часть ковариации можно упростить:
(3.2)
Смешанные произведения в обеих формулах могут иметь разные знаки соответственно монотонному возрастанию или убыванию зависимости:
· знак плюс, когда знаки сомножителей одинаковы (зависимость между переменными является монотонно возрастающей)
· знак минус при разных знаках (зависимость между переменными является монотонно убывающей).
Если переменные x и y независимы, то справедлива следующая теорема.
Теорема. Математическое ожидание произведения
независимых случайных величин x
и
y равно произведению
их математических ожиданий, то есть
Примем без доказательства.
На основании этой теоремы ковариация двух независимых величин x и y равна нулю.
Очевидно, что если
, то
случайные величины x и y зависимы:
· при
зависимость умеет вид монотонного
возрастания;
· при
зависимость умеет вид монотонного
убывания.
Ковариацию иначе называют корреляционным моментом или моментом связи, она является признаком существования зависимости между случайными величинами и её вида. Однако на практике использование ковариации неудобно, поскольку она зависит от единиц измерения случайных величин x и y.
Для того, чтобы иметь дело с
безразмерным показателем отклонения случайных величин от своих средних,
ковариация нормируется на стандартные (среднеквадратичные отклонения). Вместо
ковариации в виде
берётся
математическое ожидание нормированных величин
и
, где
(3.3)
.2 Коэффициент парной линейной корреляции
(Пирсона)
Коэффициент корреляции
двух
переменных, измеренных в интервальной шкале называется коэффициентом корреляции
Пирсона, а также линейной корреляцией, так как отражает степень линейной связи
между переменными. Этот коэффициент представляет собой ковариацию нормированных
величин
:
(3.4)
Поскольку величина
имеет
дискретное равномерное распределение, то её математическое ожидание равно
среднему арифметическому всех принимаемых значений. Учитывая это, коэффициент
корреляции может быть представлен как:
(3.5)
. Коэффициент корреляции независимых случайных величин x и y равен нулю, так как в этом случае .
Случайные величины, для которых ковариация, и, следовательно, коэффициент корреляции равны нулю, называют линейно некоррелированными (линейно не связанными).
Иными словами, если случайные
величины независимы, то всегда
, однако обратное вообще говоря
неверно - из равенства коэффициента корреляции нулю не следует независимость
случайных величин. Можно говорить лишь об отсутствии между ними линейной связи.
В этом легко убедиться на примере:
Пусть переменные связаны
функциональной зависимостью
, график которой приведён на рис.
3. ([3]) Мы видим, что
.
Вследствие симметрии каждому
отклонению от оси абсцисс от среднего со знаком плюс отвечает такое же
отклонение со знаком минус с одними и теми же отклонениями от среднего ординат,
поэтому математическое ожидание смешанных произведений в формулах ковариации и
коэффициента корреляции равно нулю. Следовательно,
, хотя
переменные связаны функциональной зависимостью.
. Коэффициент корреляции линейно связанных случайных величин x и y отличается от нуля, но находится в некоторых границах.
Существование границ значений
коэффициента корреляции следует из дисперсии суммы зависимых случайных величин
(3.6)
Дисперсия всегда положительна,
значит
Из выражения для коэффициента
корреляции следует, что
. С учётом
этого из равенства (3.6) после упрощений можно получить неравенство
или
Как было показано для ковариации, её знак, и, стало быть, знак указывает:
· знак плюс - на возрастание линейной стохастической зависимости
· знак минус - на убывание линейной стохастической зависимости.
Сами граничные значения
отвечают
вырождению линейной стохастической зависимости в функциональную. Очевидно,
соответствует
линейно возрастающей функциональной зависимости с угловым коэффициентом a > 0,
- линейно
убывающей функциональной зависимости с угловым коэффициентом a < 0.
.3 Интерпретация линейной корреляции
Значимая абсолютная величина коэффициента корреляции, в 2-3 раза превышающая стандартное отклонение оценки коэффициента, свидетельствует о значимом проявлении линейной составляющей стохастической связи, однако не исключает более тесной нелинейной стохастической зависимости.
Стохастическая связь (линейная или нелинейная), если она реальна, сама по себе не указывает на причинно-следственную связь переменных, даже при надёжном предсказании одной переменной по значениям другой. Здесь требуются дополнительные основания для выяснения, какой из признаков является причиной другого.
Вследствие этого, корреляционные зависимости приято подразделять на действительные (истинные) и мнимые (ложные).
Действительные корреляционные связи отражают причинные отношения между зависимой и независимой переменными, при этом различаются причинности:
· непосредственные, например, в зависимости Z - числа
междугородних телефонных переговоров от X -
количества АТС, то есть
;
· через промежуточные переменные (одну или несколько) - в примере выше это может быть число телефонов Y в АТС .
Ложные корреляционные зависимости могут
возникать между переменными, которые не находятся между собой в
причинно-следственной связи.
.4 Расчёт коэффициента корреляции
Коэффициент корреляции
часто
рассчитывается по приведённой выше формуле:
(3.7)
Данное выражение можно преобразовать
алгебраически, в результате чего оно становится более удобным для числового
расчета:
(3.8)
При небольшом количестве наблюдений ( ) расчёт производится непосредственно по этой формуле.
В случае большого числа наблюдений,
вводим новые переменные:
После внесения результатов в
корреляционную таблицу и введения новых переменных довольно легко рассчитать
величину коэффициента корреляции по формуле:
(3.9)
где r - общее количество интервалов группирования переменной x;
s - общее количество интервалов группирования переменной y;
nik -
количество наблюдений, значение переменной x которых
лежит в i-том
интервале группирования переменной x, а величина
переменной y лежит в k-том
интервале группирования переменной y.
3.5 Пример расчёта коэффициента
корреляции при малом числе наблюдений
Расчёт коэффициента корреляции при
малом количестве наблюдений покажем на примере исследования зависимости между
содержанием серы (S) в стали одной марки и прочностью
на растяжение ( ). Всего было выбрано 13 плавок, из стали которых по одинаковой
технологии изготовили стержни одного номинального диаметра. Расчёт необходимых
величин
приведен в таблице 1. Прежде всего, рассчитывают
среднеарифметическое и основное отклонение для обеих переменных:
Имея все необходимые величины, определим
коэффициент корреляции:
Таблица 1. Расчёт коэффициента корреляции при
малом числе наблюдений
S(%)
[кГ/мм2]
0,025
0,030 0,032 0,040 0,046 0,048 0,050 0,054 0,056 0,060 0,070 0,072 0,072
29,0 29,5 29,0 31,0 32,0 31,5 32,3 33,0 32,4 34,5 33,0 33,8 35,5
0,000625
0,000900
0,001024
0,001600
0,002116
0,002304 0,002500 0,002916 0,003136 0,003600
0,004900
0,005184
0,005184
841,00
870,25 841,00 961,00 1024,00 992,25 1043,29 1089,00 1049,76 1190,25
1089,00 1142,44 1260,25
0,7250
0,8850 0,9280 1,2400 1,4720 1,5120 1,6150 1,7820 1,8144 2,0700
2,3100 2,4336 2,5560
Мы видим, что величина коэффициента корреляции
положительная и близкая к единице; это значит, что в данном случае существует
тесная взаимосвязь между содержанием в стали серы и прочностью на растяжение.
Однако следует помнить, что величина
коэффициента корреляции была установлена на основании определённой выборки, в
данном случае относительно небольшого объёма. Следовательно, коэффициент
корреляции можно считать значимым только предположив, что распределение
эмпирических данных является нормальным.
При проведении более требовательного
статистического анализа на основе малой выборки, то есть когда нельзя
проверить, подчиняется ли распределение нормальному закону, переходят к альтернативному
показателю тесноты связи, как это будет показано далее.
4. Статистический анализ данных
вискозиметрического эксперимента[5,6]
Для определения оптимального режима выплавки
металлических сплавов актуальна информация о структурном состоянии жидкого
металла. Одним из наиболее распространенных косвенных способов исследования
структурного состояния металлических расплавов является измерение их свойств и,
в частности, вязкости. Исследователи часто отмечают расхождения политерм,
полученных в ходе нагрева и последующего охлаждения образца, повышенный
статистический разброс значений вязкости, наличие максимумов, минимумов, точек
перегиба на кривых и т.д. Как правило, с температурами, соответствующими этим
точкам, они связывают изменения в структуре металлического расплава. В
большинстве случаев особые точки и отвечающие им температуры определяются при
визуальном анализе. Для получения более точной информации необходимо применение
специальных методов анализа опытных данных с использованием компьютера, в
частности, методов математической статистики.
В работе [5] приведены данные
вискозиметрического исследования расплава алюминия марки А-999 в интервале
температур от ликвидуса до 11000C
в режиме нагрева и последующего охлаждения образца, и результаты их статистического
анализа. Целью авторов было получение наиболее полной и объективной информации
о характере температурной зависимости вязкости жидкого алюминия. Для анализа
результатов эксперимента использовалось программное средство Statistica
6.0 [4], встроенные функции которого позволяют осуществлять статистический
анализ экспериментальных данных.
Необходимо указать на сложность расплава
алюминия как объекта экспериментального исследования. Трудности при проведении
опытов обычно возникают из-за высокой окисляемости алюминия. Поэтому в
зависимости от условий проведения измерений можно получить различные данные о
вязкости этого металла. Противоречия в литературных данных о вязкости жидкого
алюминия в основном связаны с тем, что не во всех работах указываются условия
проведения эксперимента. В последние годы большинство исследователей перед
измерениями рекомендуют проводить переплав металла в динамическом вакууме ниже
1 Па при температуре 950-1000ºС,
в ходе которого оксид Al2O3
переходит в летучий субокисел AlO
и удаляется из расплава. Этих рекомендаций придерживался при проведении опытов
и автор работы [5].
Вязкость измерялась методом затухающих
крутильных колебаний тигля с расплавом в режиме нагрева и последующего
охлаждения образцов. Непосредственно перед измерением вязкости в установке
образец нагревался до 9000C
в вакууме с целью удаления оксидной пленки. Все опыты проводились при
разрежении ниже 1 Па. Изотермические выдержки в точках отсчета составляли не
менее 15 минут. Погрешность определения вязкости не превышала 3%. После
охлаждения образца алюминия марки А 999 до комнатной температуры без
разгерметизации установки в ходе последующего нагрева и охлаждения были
получены политермы ν, приведённые
на рис.4([5]).
Основная проблема при применении методов
математической статистики [4] для анализа температурных, временных и
концентрационных зависимостей кинематической вязкости - малый объем выборки.
Как уже отмечалось ранее, дело в том, что когда число экспериментальных точек
велико (100 или более опытов), можно считать при расчете случайной ошибки, что
распределение экспериментальных данных является нормальным. При малом числе
опытов нет способов проверить это предположение. Для анализа малых выборок
применяют непараметрические методы. Эти методы и применяли авторы работы [5].
Выполненные процедуры попадают в одну из следующих категорий:
Задача 1. Оценка степени зависимости между
переменными (выявление временной зависимости вязкости).
Задача 2. Определение критерия различия для
зависимых выборок (сравнение значений вязкости при одинаковой температуре в
режиме нагрева и охлаждения);
Задача 3. Определение критерия различия для
независимых выборок (вязкость мало меняется с ростом температуры и необходимо
сравнить как значимо различаются эти данные).
Авторы для оценки степени корреляции между
значением кинематической вязкости и временем использовали непараметрическую
альтернативу коэффициенту корреляции Пирсона - корреляцию Спирмена Rxy.
Если опытные данные ранжировать соответственно номеру наблюдения в вариационном
ряде, то есть каждому значению переменной присвоить ранг, то корреляцию
Спирмена Rxy
можно представить себе как вычисленную по рангам корреляцию Пирсона, т.е. в
терминах доли изменения одной величины, связанной с изменением другой.
Формально ранговый коэффициент корреляции Спирмена между переменными
вычисляется следующим образом:
где Pi - ранг
наблюдения xi, где Si - ранг
наблюдения yi.
Сравнив эту формулу с формулой
корреляции Пирсона, нетрудно заметить, что корреляция Спирмена является прямым
аналогом корреляции Пирсона.
Соответствующая опция модуля
"Непараметрическая статистика» программного средства Statistica 6,
используемого авторами в работе [6] позволяет вычислить три различные
альтернативы коэффициенту корреляции Пирсона: корреляцию Спирмена Rxy, статистику
(тау) Кендалла и статистику Гамма. Статистика (тау) Кендалла и статистика Гамма
скорее оценивают вероятности, точнее, разность между вероятностью того, что
наблюдаемые значения переменных имеют один и тот же порядок, и вероятностью
того, что порядок различный.
Результаты анализа корреляции
значений кинематической вязкости расплава алюминия со временем, полученные в
работах [5,6] представлены на взятых их них рис. 5. и в таб. 2. Целью анализа
было выявление временной зависимости кинематической вязкости при данной
температуре. Обнаружено, что зависимость кинематической вязкости от номера
эксперимента, а, следовательно, и от времени уменьшается с повышением
температуры. Следовательно, релаксационные процессы в расплаве более выражены
при низких температурах. Степень недоверия к полученным результатам (p-level) составляет
0,5%.
Таблица 2 Корреляционный анализ вязкости в
зависимости от номера эксперимента при постоянной температуре
Т
Valid N
Spearman R
t(N-2)
p-level
690
11
-0,059914
-0,180064
0,861091
750
11
0,529686
1,873460
0,093780
804 -0,221738
-0,682196
0,512288
862
11
0,547951
1,965131
0,080974
917
11
0,165914
0,504739
0,625868
983
11
-0,162495
-0,494052
0,633103
956
11
-0,087566
-0,263711
0,797941
893
11
-0,060054
-0,180488
0,860768
827
11
0,018392
0,055185
0,957196
778
11
-0,314869
-0,995229
0,345628
723
11
-0,593613
-2,21291
0,054187
Заключение
В данном реферате был подробно рассмотрен такой
метод математической статистики, как корреляционный анализ. Особый интерес для
автора представляло его прикладное значение в решении задач вискозиметрического
эксперимента.
Однако, следует отметить, что на пути к широкому
внедрению математической статистики в промышленности имеется ряд трудностей, к
числу которых относится уже упомянутая необходимость использования большого
числа отдельных наблюдений. Часто при текущем контроле и анализе производства
технологических процессов инженерно-технические работники вынуждены
пользоваться малым числом наблюдений (объектов, опытов) в основном из-за
высокой цены и сложности физического эксперимента в промышленной отрасли.
Поэтому перспективы дальнейшего развития прикладного корреляционного анализа
автор данной работы видит в более широком использовании элементов
непараметрической статистики, которое вполне способны обеспечить современные
пакеты программ .
Список литературы
1. А.Г. Дьячко, Математические
модели металлургических процессов Курс лекций ч. I
и II. М.: Мисис 1974. -
157с.
. М. Кнотек, Р. Войта, И. Шерц,
Анализ металлургических процессов методами математической статистики. М.:
Металлургия 1968. - 212 с.
3. Компьютерный анализ и
интерпретация эмпирических зависимостей. Учебник. М.:
ООО"Бином-Пресс". 2009. - 336с. (под редакцией С.В. Поршнева)
. В. Боровиков Statistica:
искусство анализа данных на компьютере. Для профессионалов. - СПб.: Питер,
2001. - 656 с.
. О.А. Чикова, С.С. Горшков,
Статистический анализ данных вискозиметрического эксперимента с металлическими
расплавами // Тезисы 3 Российской научно-технической конференции
"Физические свойства металлов и сплавов". УГТУ-УПИ, 16-18 ноября
2005, г. Екатеринбург.
. О.А. Чикова, Микрорасслоение
расплавов на основе алюминия и его влияние на структуру литого металла.
Автореферат дис. канд. Физ.-мат. наук. Свердловск, УПИ им. С.М.Кирова, 1991.
. Е.И. Куликов, Прикладной
статистический анализ - 2-е изд., перераб. и доп. - М.: Горячая линия -
Телеком, 2008. - 464 с. (Учебное пособие для высших учебных заведений).
. Я.Б. Зельдович, А.Д. Мышкис,
Элементы прикладной математики. М.: Наука, 1965. - 616 с.9. Элементы
корреляционного и дисперсионного анализа: Метод. указ. к решению задач мат.
статистики для студентов заочного обучения всех специальностей; Сост. Р.А.
Вайсбурд, А.Б. Абрамова; Под ред. В.Б. Винокуровой. - Свердловск: УПИ, 1989. -
36 с.
.В.В. Налимов, Применение
математической статистики при анализе вещества. - М.: Физматлит, 1960. - 431 с.
(4.1)