Таблица 8.4 Oбщая форма таблицы сопряженности размерности 2х2
|
Переменная Х |
Всего |
||
0 |
1 |
|||
Переменная У |
0 |
а |
б |
А+б |
1 |
с |
д |
С+д |
|
Всего |
А+с |
Б+д |
n |
|
довольно ясно показывает, что всякое приращение в размерах партийной кассы (сдвиг вправо по оси Х) влечет за собой увеличение парламентского представительства (сдвиг вверх по оси ординат). Между переменными Х и Y существует линейное отношение: если одна переменная возрастает по величине, то это же происходит и с другой. Помимо указания на природу отношения двух переменных, диаграмма на рисунке 21 позволяет также сделать некоторые предположения об интенсивности, силе этого отношения. Очевидно, что чем более компактно, «скученно» располагаются точки-наблюдения вокруг пунктирной прямой линии (описывающей идеальное линейное отношение Х и Y), тем сильнее зависимость. На рисунке 22 приведены еще три диаграммы рассеивания.
Очевидно, что на рисунке 22а какая-либо связь между x и y попросту отсутствует. На рисунке 22б воображаемая прямая линия (отмечена пунктиром) пересекла бы диаграмму сверху вниз, из левого верхнего в правый нижний угол. Иными словами, линейная связь в этом случае имеет обратное направление:
чем больше X, тем меньше зависимая переменная У. Заметим также, что «кучность» расположения точек вдоль воображаемой прямой на рисунке 226 не очень велика, а значит и связь (корреляция) между переменными не только обратная, отрицательная, но еще и не очень сильная, умеренная. Наконец, на рисунке 22в зависимую и независимую переменную связывает явно нелинейное отношение: воображаемый график нисколько не похож на прямую линию и напоминает скорее параболу12. Отметим, что методы анализа, о которых сейчас пойдет речь, не годятся для этого нелинейного случая, так как обычная формула для подсчета коэффициента корреляции даст нулевое значение, хотя связь между переменными существует.
Существует обобщенный показатель, позволяющий оценить, насколько связь между переменными приближается к линейному функциональному отношению, которое на диаграмме рассеивания выглядит как прямая линия. Это коэффициент корреляции, измеряющий тесноту связи между переменными, т. е. их тен-денцию изменяться совместно. Как и в рассмотренных выше мерах связи каче-ственных признаков, коэффициент корреляции позволяет оценить возможность предсказания значений зависимой переменной по значениям независимой. Общая формула для вычисления коэффициента корреляции Пирсона включает в себя величину ковариации значений X и Y. Эта величина (sxy) характеризует совместное изменение значений двух переменных. Она задается как сумма произ-
12 Именно так обычно выглядит зависимость между благожелательностью установки по отношению к некоторому объекту (X) и интенсивностью установки (Y): люди, занимающие крайне благожелательную или крайне неблагожелательную позицию в каком-то вопросе, обычно оценивают свои убеждения как более выраженные и интенсивные, чем те люди, чьи установки лежат в области середины, «нейтральных» значений шкалы.ведений отклонений наблюдаемых значений Х и У от средних X и Y соответственно, т. е. Ei=1n (Xi - Х )(Yi - Y ), деленная на количество наблюдений. Чтобы понять «физический смысл» ковариации, достаточно обратить внимание на следующее ее свойство: если для какого-то объекта i в выборке оба значения —X, и Y,— окажутся высокими, то и произведение (Хi - Х) на (Yi - Y) будет большим и положительным. Если оба значения (по Х и по Y) низки, то произведение двух отклонений, т. е. двух отрицательных чисел, также будет положительным. Таким образом, если линейная связь Х и Y положительна и велика, сумма таких произведений для всех наблюдений также будет положительна. Если связь между Х и У обратная, то многим положительным отклонениям по Х будут соответствовать отрицательные отклонения по Y, т. е. сумма отрицательных произведений отклонений будет отрицательной.
Наконец, при отсутствии систематической связи произведения будут иногда положительными, иногда отрицательными, а их сумма (и, следовательно, ковариация Х и Y) будет, в пределе, равна нулю. Таким образом, ко вариация показывает величину и направление связи, совместного изменения Х и У. Если разделить ковариацию sxy на стандартные отклонения sx и sy (чтобы избавиться от влияния масштаба шкал, в которых измеряются X и Y), то мы получим искомую формулу коэффициента корреляции Пирсона (rxy):
Более удобная для практических вычислений расчетная формула выглядит так:
Несмотря на несколько устрашающий вид, расчетная формула очень проста. Для «ручного» вычисления rxy, вам понадобятся лишь пять величин: суммы значений по X и Y (Ei=1nХi и Ei=1nYi), суммы квадратов значений по Х и Y (Ei=1nХ2 и Ei=1nY2), суммы произведений Х и Y по всем объектам-«случаям» (Ei=1n XiYi).
В таблице 8.11 приведены данные о максимальных дневных и ночных температурах, зарегистрированных в 10 городах13.
Просуммировав значения в столбцах, мы получим E10 i=1Хi =258 и E10 i=1 Yi=156.
Возведя каждое из значений Х и Y в квадрат и просуммировав, мы найдем, что E10 i=1Хi2 = 7180 и E10 i=1 Yi2 = 2962. Сумма попарных произведений Хi и Yi (E10 i=1 XiYi) составит 4359. Вы можете самостоятельно убедиться в том, что подстановка всех значений в расчетную формулу даст (надеюсь) величину rxy=0,91. Иными словами, корреляция между дневными и ночными температурами воздуха очень высока, но все же отлична от 1,0 (коэффициент корреляции может меняться в пределах от-1,0 до +1,0). Это отличие, вероятно, объясняется влиянием других факторов (продолжительность дня и ночи, облачность, географическое положение и т. п.). Судя по полученной величине корреляции, знание дневных температур позволяет предсказывать ночные температуры с очень высокой точностью, но не безошибочно.
Таблица 8.11 Максимальные дневные и ночные температуры воздуха в некоторых городах |
||
Город |
Дневная температура воздуха (X) |
Ночная температура воздуха (Y) |
Лондон |
16 |
11 |
Париж |
21 |
12 |
Стокгольм |
20 |
12 |
Варшава |
25 |
14 |
Бонн |
25 |
16 |
Рим |
36 |
23 |
Тель-Авив |
31 |
23 |
Анкара |
32 |
15 |
Каир |
36 |
22 |
Москва |
16 |
8 |
N=10 |
||
Величина, которая равна квадрату коэффициента корреляции Пирсона, т. е. г, имеет ряд интересных статистических свойств. Отметим сейчас, что r2 является ПУО-мерой связи, подобной обсуждавшимся выше (см. с. 176—179). Можно показать, что она характеризует ту долю дисперсии значений Y, которая объясняется наличием корреляции между Х и Y. (Естественно, величина r2 будет всегда положительной и не может превзойти по абсолютной величине коэффициент корреляции.) 14 Та часть разброса в значениях Y, которая не может быть предсказана по значениям X,— это дисперсия ошибки нашего прогноза, т. е. 1 - r2. Необъясненный разброс в значениях У присутствует в том случае, когда при равных уровнях Х (ср., например, дневные температуры в Варшаве и Бонне из таблицы 8.11) сохраняются различия в значениях Y.
Коэффициент корреляции позволяет оценить степень связи между переменными. Однако этого недостаточно для того, чтобы непосредственно преобразовывать информацию, относящуюся к одной переменной, в оценки другой переменной. Допустим, мы выяснили, что коэффициент корреляции между переменными «величина партийного бюджета» и «число мест в парламенте» равен 0,8. Можем ли мы теперь предсказать, сколько мест в парламенте получит партия, годовой бюджет которой равен 100 млн рублей? Похоже, что знание величины коэффициента корреляции нам здесь не поможет. Однако мы можем вспомнить, что коэффициент корреляции — это еще и оценка соответствия разброса наших наблюдений той идеальной модели линейного функционального отношения, которое на рассмотренных выше диаграммах рассеивания (см. рис. 21—22) представлено пунктирными прямыми. Эти линии называют линиями регрессии.
Если бы все наблюдения аккуратно «укладывались» на линию регрессии, то для предсказания значения зависимой переменной достаточно было бы восстано вить перпендикуляр к оси Y из той точки прямой, которая соответствует известному значению X.
На рисунке 23 показано, как можно было бы графически определить ожидаемые значения Y для гипотетического примера с партийной кассой и местами в парламенте. (Разумеется, найти искомое значение У можно и без линейки, с помощью вычислений, если известен угол наклона регрессионной прямой и точка пересечения с осью ординат.)
Как говорилось выше, линия регрессии не обязательно должна быть прямой, но мы ограничимся рассмотрением самого простого случая линейной зависимости (нелинейные связи во многих случаях также могут быть приближенно описаны линейными отношениями).
Существуют специальные статистические процедуры, которые позволяют найти регрессионную прямую, максимально соответствующую реальным данным. Регрессионный анализ, таким образом, дает возможность предсказывать значения Y по значениям Х с минимальным количеством ошибок. В общем виде уравнение, описывающее прямую линию регрессии Y no X, выглядит так:
Y=ayx
+byx
X,
где Y—
то предсказываемое значение по переменной
Y (в только что рассмотренном
примере — количество
мест в парламенте), а —
это точка, в которой прямая пересекает
ось Y (т. е. значение Y для случая,
когда X=0), и b—коэффициент
регрессии, т. е. наклон прямой. Часто
удобно измерять обе переменные не в
«сырых» шкалах, а в единицах отклонения
от среднего. Процедура стандартизации,
т. е. перевода исходной шкалы в стандартные
Z-оценки, вам уже известна (см. с.
169). Преимущество использования
стандартизированных переменных в
регрессионном анализе заключается в
том, что линия регрессии в этом случае
проходит через начало координат.
Стандартизованный коэффициент
регрессии (наклон прямой) обозначают
обычно греческой буквой b
(либо лат. b*).
Правда, в отличие от b-коэффициента,
b не позволяет
прямо заключить, на какое количество
исходных единиц возрастет У при увеличении
Х на одну единицу (например, насколько
увеличится число депутатских мандатов
при увеличении бюджета на 1
млн рублей или насколько увеличивается
заработная плата при увеличении
стажа работы на один год). С другой
стороны, b позволяет сопоставить
влияние на независимую переменную
контрольных переменных, измеренных в
разных шкалах.
Социологи обычно осуществляют регрессионный анализ, используя возможности распространенных прикладных пакетов компьютерных программ (например, SPSS). В этом случае для нахождения линии регрессии, лучше всего соответствующей данной выборке наблюдений, которая представлена точками на диаграмме рассеивания, используют метод минимизации взвешенной суммы квадратов расстояний между этими точками и искомой прямой15.
Хотя здесь не место для обсуждения статистических деталей, мы все же сделаем несколько замечаний, относящихся к осмысленному (или бессмысленному) использованию техники линейной регрессии.
Во-первых, как и в ранее обсуждавшихся примерах анализа связи, наличие координации, согласованности в изменениях двух переменных еще не доказывает, что обнаруженное отношение носит собственно каузальный характер. Проверка альтернативных причинных моделей, иначе объясняющих эмпирическую сопряженность переменных-признаков, может основываться только на содержательных теоретических представлениях.
Далее, нужно помнить о том, что регрессионные коэффициенты в общем случае асимметричны. Если мы решим, что это У, а не Х является независимой переменной, то вполне можем рассчитать другую по величине пару коэффициентов — аxу и bxу. (Заметьте, что порядок букв в подстрочном индексе значим: первой всегда идет предсказываемая переменная, а второй — предсказывающая.) Разумеется, при выборе кандидатов в зависимые и независимые переменные также важны не статистические, а содержательные соображения.