ваемых значений нельзя сказать (основываясь на имеющейся информации), на сколько же именно больше (лучше, активнее и т. п.) одно значение в сравнении с другим. Так, комиссией могут быть проранжированы кандидаты на занятие определенной должности по их профессиональному уровню, хотя на вопрос о том, насколько один профессиональнее другого, комиссия не будет в состоянии ответить. В отношении такого рода данных уместны вычисления рангового коэффициента корреляции, а вот другие методы сопоставления данных здесь не применимы.
Среди значений одного признака (что X, что Y) нечасто, но порой встречаются два, три и т. д. одинаковых значения (в том числе и с точностью до округления данных). Например, равенство ОВД по нагрузке на сотрудника, по степени удовлетворения работой, по активности на учебных занятиях, по гибкости организационных структур и т. п. В таком случае естественно присвоить равным значениям и некий единый равный для них всех ранг. В качестве такого ранга принимается усреднение из тех рангов, которые этим значениям были бы присвоены, отличайся они один от другого хоть ненамного, после чего они становились бы формально неравными. Такой усредненный ранг не обязательно будет целым числом, как все прочие ранги. Например, двум одинаковым значениям признака, претендующим в соответствии с порядком расположения на третий и четвертый ранги, присваивается усредненное для них значение 3,5, т. е. сумма этих двух рангов, равная 7, сохранится. В результате в конечном наборе рангов будут одновременно присутствовать сразу два ранга, равных 3,5 (и при этом рангов 3 и 4 уже не будет). Если имеются не два, а три совпадающих значения признака (претендующие, предположим, на ранги 6, 7 и 8), то общий (усредненный) ранг для всех равных значений признака будет равен 7 (и при этом будут отсутствовать уже ранги 6 и 8) и т. д. Далее эти ранги, наряду с прочими, используются в приведенной выше формуле для расчета коэффициента ранговой корреляции.
На примере с условными данными рассмотрим использование коэффициента корреляции Спирмена (табл. 4.4).
В действительности для органов внутренних дел как специализированного ведомства непосредственный интерес должен представлять только второй показатель – «Количество правонарушений несовершеннолетних», потому такой показатель именуется результативным (или просто результатом), обозначается обычно буквой Y. Но в процессе содержательного анализа, предшествовавшего статистической обработке данных, аналитик ОВД предполагает, что указанное количество в определенной мере зависит (или хотя бы мо-
66
жет зависеть) в числе прочих и от такого показателя, как «Число неполных семей». Тогда в силу этого обстоятельства аналитика ОВД уже начинает интересовать и этот показатель причины или условия. Показатели причин и показатели условий объединяются обобщающим понятием факторного показателя (фактора), обозначаемого обычно буквой X. Располагается факторный показатель в таблице раньше результативного в качестве подчеркивания предполагаемой (возможной) причинно-следственной связи.
Таблица 4.4
Сведения о числе неполных семей и количестве правонарушений несовершеннолетних
(по микрорайонам города)
№ микрорайона |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
|
|
|
|
|
|
|
|
|
|
Число неполных семей |
213 |
111 |
98 |
137 |
241 |
222 |
276 |
189 |
217 |
195 |
|
|
|
|
|
|
|
|
|
|
|
Количество правона- |
|
|
|
|
|
|
|
|
|
|
рушений несовершен- |
35 |
23 |
23 |
31 |
38 |
29 |
34 |
19 |
17 |
53 |
нолетних |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В то время, как результат (Y) в исследуемой теоретической модели всегда один, факторов, напротив, может быть сразу несколько. В этом случае для факторов, кроме X, используются и другие буквенные обозначения (например, Z, U, V и т. п.). Тем не менее статистическое исследование взаимосвязи осуществляется пошагово: в таблице с результатом всегда сопоставляется только один фактор. Затем поочередно перебираются по одному и все прочие факторы (рассматриваются пары X-Y, Z-Y, U-Y, V-Y и т. д.), после чего на основе ряда частных выводов, определяемых соответствующим фактором, делается общий вывод, относящийся к теоретической модели в целом.
Если говорить не о технической информации (о порядковом номере объекта), а о содержательной информации, то факторный ряд и результативный ряд данных располагаются в таблице параллельно, и по этой причине анализ взаимосвязи между этими рядами получил в статистике наименование анализа параллельных рядов. Разумеется, в этот анализ входит понятие применения любого показателя связи, и рассматриваемый здесь ранговый коэффициент связи Спирмена лишь один из них. Другой показатель связи, также применяемый к параллельным рядам, но с данными, измеряемыми по количественным шкалам, т. е. коэффициент корреляции Пирсона будет рассмотрен несколько ниже.
67
Рассчитаем ранговый коэффициент корреляции Спирмена для приведенного выше числового примера. Для этого составим на основе данных исходной таблицы (табл. 4.4) расчетную таблицу (табл. 4.5).
|
|
|
|
Таблица 4.5 |
Последовательность расчета рангового коэффициента |
||||
|
корреляции |
|
|
|
|
|
|
|
|
i-й |
Ранг объекта |
Ранг объекта |
Разность |
Квадрат |
номер |
по фактору |
по резуль- |
рангов |
разности |
объекта |
|
тату |
|
рангов |
(здесь: |
(по X) |
(по Y) |
(Pxi – |
(Pxi – |
микро- |
||||
района) |
(Pxi) |
(Pyi) |
Pyi) |
Pyi)2 |
1 |
6 |
8 |
–2 |
4 |
|
|
|
|
|
2 |
2 |
3,5 |
–1,5 |
2,25 |
|
|
|
|
|
3 |
1 |
3.5 |
–2,5 |
6,25 |
|
|
|
|
|
4 |
3 |
6 |
–3 |
9 |
|
|
|
|
|
5 |
9 |
9 |
0 |
0 |
|
|
|
|
|
6 |
8 |
5 |
3 |
9 |
|
|
|
|
|
7 |
10 |
7 |
3 |
9 |
|
|
|
|
|
8 |
4 |
2 |
2 |
4 |
|
|
|
|
|
9 |
7 |
1 |
6 |
36 |
|
|
|
|
|
10 |
5 |
10 |
–5 |
25 |
|
|
|
|
|
Сумма: |
55 |
55 |
0 |
104,5 |
|
|
|
|
|
Итак, RS = 1 – 6 × (4 + 2,25 + 6,25 + 9 + 0 + 9 + 9 + 4 + 36 + 25) / (10 –1) × 10 × (10 + 1) = 1 – 6 × 104,5 / 990 = 1 – 0,6333 = 0,3667.
Таким образом, полученное значение коэффициента указывает на то, что в отношении факторного и результирующего показателей имеется:
–прямая статистическая связь между фактором и результатом;
–связь достаточно сильная (особенно учитывая, что это всего лишь один из множества факторов, существенных для такого явле-
ния, как совершение правонарушений несовершеннолетними).
На основе вычисления коэффициента детерминации η2 (= RS2 ), выясняется, в какой мере изменения (вариация) факторного показателя определяют изменения (вариацию) результативного показателя:
68
η2 = (0,3667)2 = 0,1345, т. е. результат данным фактором определяется на 13,5 %, что достаточно много.
Общий вывод состоит в том, что наличие прямой связи между количеством неполных семей в микрорайоне и количеством правонарушений несовершеннолетних можно считать установленным; притом эта связь считается достаточно сильной, особенно с учетом того, что такой фактор не единственный. То, что такая связь при- чинно-следственная, это, как отмечалось выше, вытекает не из общей теории статистики (математической статистики), а правовой статистики как статистики предметной, рассматривающей уже и содержательную сторону модели связи признаков.
Примечание. Если речь идет об особо важном явлении, предположим, об исследовании организованной преступности на этнической основе (описываемой соответствующим результативным показателем) в зависимости от численности соответствующей этнической диаспоры (что описывается факторным показателем), то уже и малые, ранее относимые к нулю значения должны приниматься во внимание. Исследование в этом случае необходимо продолжить до получения более определенных выводов.
В отношении показателя η2 как меры вклада конкретного фактора в изменения результата верным будет утверждение, что на долю прочих факторов, не зависящих от рассмотренного, приходится остальной вклад – (1 – η2). Для рассмотренного примера на долю прочих независящих факторов должны приходиться остающиеся 86,5 % воздействия на результат. Однако просто суммировать подобные доли нельзя, предварительно не убедившись в том, что эти факторы статистически независимы между собой (корреляция близка к нулю), а подобрать такие факторы, как правило, непросто. Так, если в рассмотренном примере выбрать вторым фактором «Число неблагополучных семей», то этот новый фактор, несомненно, отличаясь по смыслу от первого, будет тем не менее достаточно сильно с ним статистически связан, коррелирован. Действительно, с одной стороны, многие неблагополучные семьи являются одновременно и неполными, а с другой стороны, многие неполные семьи являются одновременно и неблагополучными. Итак, совпадения показателей нет, а значительная коррелированность очевидна. Неблагополучие в семье тогда следует выражать другим показателем, по возможности резко отличающимся от фактора неполной семьи.
Чем же корреляция между факторами может помешать, почему требуется их статистическая независимость? Дело в том, что можно найти степень влияния и второго фактора точно так же, как она определялась для первого фактора, но суммировать зна-
69
чения коэффициентов детерминации для них с целью рассчитать их совместное влияние на результат уже нельзя, поскольку общее влияние зависимых показателей гораздо меньше суммы значений коэффициента детерминации для каждого в отдельности. Из этого следует, что подбор аналитиком независимых факторов для достаточно полного объяснения изменений результата – это самостоятельная и достаточно сложная проблема и в данном случае – это проблема правовой (отраслевой, предметной) статистики. Однако общая статистика окажет отраслевой такую помощь, которая способна отбраковать предлагаемые к рассмотрению факторы по мере обнаружения зависимости между ними и уже используемыми факторами.
Ранговые коэффициенты корреляции (и Спирмена, и иные возможные, например, Кендалла) имеют то достоинство, что могут работать с признаками качественными, допускающими упорядочивание (по принципу «больше – меньше»). Если же данные соответствуют количественной шкале (как в рассмотренном выше числовом примере), то хотя использование коэффициента ранговой корреляции в этом случае достаточно продуктивно, однако надо ясно осознавать, что такой переход к порядковой шкале с ее рангами означает определенную потерю информации – иногда значимую для целей исследования. В рассмотренном примере данные таблицы измеряются по абсолютной шкале, и потому к ним могут применяться также и те методы, которые ранее нельзя было бы применить к данным, измеримым по порядковой (ранговой) шкале.
Примечание. Если речь идет об особо важном явлении, например, о деятельности этнической организованной преступности, (описываемого результативным показателем) в зависимости от нелегальной миграции соответствующего этноса (описываемой факторным показателем), то уже и малые, близкие к нулю значения принимаются во внимание. Тогда говорят о возможном наличии прямой такой связи, при этом исследование следует продолжить, после чего и делать уже окончательный вывод.
Вводное замечание. Коэффициент ассоциации Ф и коэффициент контингенции Q были разработаны примерно одновременно – в самом начале ХХ века; кроме того, оба они были предложены знаменитыми английскими учеными-статистиками: первый из названных (Ф) – К. Пирсоном, второй (Q) – Дж. Юлом, в силу чего чаще именуется просто «коэффициентом Юла» (хотя сам Юл назвал созданный им коэффициент в честь другого выдающегося ученого – франко-бельгийца А. Кетле – Quetelet, откуда и буквенное обозначение этого коэффициента).
70