трению таблицы сопряженности m × n. Альтернатива заключается в предварительном сведении (на определенных условиях) каждой такой таблицы (вне зависимости от количества имеющихся у нее строк и столбцов) к иной таблице сопряженности, уже предельно простой и компактной: к таблице сопряженности 2 × 2, которая и будет в последующем предметом анализа вместо исходной (такое сведение будем именовать редукцией). Важно отметить, что редукция возможна для любой таблицы сопряженности, и хотя при таком преобразовании происходит некоторая потеря информации, она, как правило, не принципиальна для существа рассматриваемой проблемы и, кроме того, не безвозвратна (к исходным данным всегда можно вернуться), о чем подробнее будет сказано ниже. Но зато для анализа такой редуцированной таблицы, предельно упрощенной по форме, статистическая наука предоставляет математический аппарат, обеспечивающий получение достаточно глубоких и научно обоснованных выводов, хорошо интерпретируемых на практике.
Таблица сопряженности 2 × 2 важна не только как результат редуцирования таблиц иного формата, она и сама по себе крайне востребована в практике статистического анализа взаимосвязей, поскольку многие сопрягаемые признаки, именуемые дихотомичными, уже изначально имеют лишь по два значения, а потому и образуют именно таблицу 2 × 2. Сюда, в первую очередь, относятся признаки с естественными дихотомическими парами значений, такими как «да – нет», «мужской – женский», «городской – сельский», «удовлетворительный – неудовлетворительный», «начальник – подчиненный», «ответственный – безответственный», «плюс – минус», «виновный – невиновный» и т. д.
4.2. Примеры решения типовой задачи
Пример 1
Таблицу сопряженности 2 × 2 и работу с ней продемонстрируем на конкретном условном примере, касающемся выявления по итогам года взаимосвязи проведенной профилактической работы с несовершеннолетними, стоящими на учете в ОВД, и реальным положением дел, касающихся возможного совершения ими правонарушений уже после завершения профилактической работы.
Здесь сопрягаются два признака – «Проводимость профилактической работы до начала отчетного года» с двумя значениями «Проводилась» – «Не проводилась» и «Совершение правонарушений несовершеннолетним в течение отчетного года» с двумя значениями – «Не совершил» и «Совершил».
Таблица 4.3
Совершение правонарушений в отчетном году лицами из числа несовершеннолетних, состоящих на учете в ОВД,
в зависимости от проведения с ними профилактической работы
Несовершеннолетний |
В отношении несовершеннолетнего |
|||
профилактическая работа: |
||||
правонарушение: |
||||
|
|
|
||
проводилась |
не проводилась |
Всего |
||
|
||||
|
|
|
|
|
не совершил |
311 |
134 |
445 |
|
|
|
|
|
|
совершил |
23 |
44 |
67 |
|
|
|
|
|
|
Всего |
334 |
178 |
512 |
|
|
|
|
|
|
Приведем формулы для расчета каждого коэффициента. В общем виде решаемый пример в отношении стоящих на учете несовершеннолетних имеет следующий вид:
Несовершеннолетний |
В отношении несовершеннолетнего |
|||
профилактическая работа |
||||
правонарушение: |
||||
|
|
|
||
проводилась |
не проводилась |
Всего |
||
|
||||
|
|
|
|
|
не совершил |
a |
b |
a + b |
|
|
|
|
|
|
совершил |
c |
d |
c + d |
|
|
|
|
|
|
Всего |
a + c |
b + d |
a +b + c + d |
|
|
|
|
|
|
57
Целочисленные значения таблицы а, b, c и d именуются абсолютными частотами, представляют собственно таблицу сопряженности, ее ядро, именно они заключают в себе суть таблицы, поскольку содержат в себе новую, но пока не выявленную информацию о связи признаков. Суммарные значения, добавленные к таблице сопряженности (a + c), (b + d), (a + b) и (c + d) – маргинальные абсолютные частоты. Маргинальные частоты используются здесь только в техническом отношении (для упрощения расчета), но само по себе их присутствие не добавляет никакой новой информации.
В качестве показателя взаимосвязи между признаками используется коэффициент контингенции Ф, рассчитываемый по формуле:
Ф = |
ad − bc |
. |
|
(a + c)(b + d)(a + b)(c + d) |
|||
|
Коэффициент контингенции Ф относится к типу коэффициентов корреляции, а потому для этого показателя связи справедливо все ранее приведенное в отношении этого типа. Подставляя конкретные значения условного примера и учитывая, что значения (a + c), (b + d), (a + b), (c + d) специально подсчитывать не требуется, т. к. они уже имеются в виде состава маргинальных (краевых) частот, получим:
Ф = |
311× 44 − 23 ×134 |
, |
|
331×178 × 445 × 67 |
|||
|
Ф = 0,14012194. Округленно Ф = 0,14 (или 14%).
Итак, первый вывод из полученного значения для Ф: связь между профилактикой и отказом несовершеннолетних от совершения (несовершением) правонарушений оказалась прямой (этот же самый вывод можно сформулировать по-иному: связь между профилактикой и совершением преступлений оказывается обратной – на что и рассчитывали, начиная данное мероприятие). То, что профилактика дает положительный эффект, само по себе хорошо, однако остается вопрос, достаточен ли подобный эффект, чтобы счесть оправданными затраченные для его достижения силы и средства. То есть достаточен ли уровень эффективности, означающей эффект, рассматриваемый в неразрывной связи с затратами всех видов использованных ресурсов. Итак, как правильно оценивать полученную величину в отношении того, большая она или малая? Общая теория статистики не может указать в принципе универсальных пороговых значений для показателя связи, поскольку таковых не существует
58
для рассматриваемого уровня измерений. Этот вопрос должен решаться в рамках конкретных областей деятельности (такой является, например, криминология), для чего требуется уже учет специфики каждой из областей. При решении такого вопроса в рамках отраслевой (предметной) статистики специалист в соответствующей области на основе своего опыта и своей интуиции (а также и опыта своих коллег) определяет для конкретного круга явлений, относящихся к конкретной исследуемой им области, характерные для нее пороговые значения показателя связи между показателями явлений. Нередко при решении этого вопроса аналитики обращаются к результатам специалистов, представляющих смежные области знания, полагаясь на аналогию. Вот почему, например, аналитик-кримино- лог, если сам он не имел возможности определить пороги в своей области, вынужден руководствоваться порогами, используемыми
впрактике работы социологов, психологов и иных социальных исследователей. Там принято считать, что связь считается слабой (фактически отсутствующей), если она без учета знака (плюса либо минуса) меньше 0,3 (т. е. 30 %), средней – если от 0,3 до 0,7 (от 30 % до 70 %), сильной – если больше 0,7 (70 %).
Существует ряд показателей, относящихся к типу коэффициентов корреляции, и при всех различиях между ними они одинаково отвечают на вопрос, прямая ли связь между показателями явлений или обратная. Однако при решении вопроса о силе связи (и даже о ее наличии, если значение одного из показателей связи окажется вблизи нуля, в точности с ним не совпадая) разные показатели связи могут по-разному оценивать одну и ту же ситуацию. Это указывает не на возможную неправильность некоторых из них,
ана присущую каждому из них индивидуальность, обусловленную теми особенностями в допущениях, гипотезах, которые лежат
воснове каждого из показателей, отличая его от прочих. Например, рассматриваемый показатель контингенции Ф относится к числу весьма строгих показателей (почему и был рекомендован для использования на практике) в то время, как другой – коэффициент ассоциации Q:
Q= ad − bc = 311× 44 − 23 ×134 = 0,632, ad + bc 311× 44 + 23 ×134
при тех же данных оценивает силу связи гораздо выше (здесь он равен 0,63). Поэтому считать, что 0,14 находится в нулевой зоне, в данном случае неправомерно, и для этого показателя в конкретной области применения (например, для криминологии и регионального
59
уровня) надо нарабатывать присущие именно этому показателю пороговые значения.
На установление пороговых значений влияют и цели решаемой задачи: для целей профилактической работы в отношении нескольких сотен подростков пороги будут одни, а для строительства атомной электростанции – уже совсем иные, гораздо более строгие. В частности, в случае АЭС значение 0,1 явно не может быть проигнорировано, приравнено к нулевому.
Примечание. Если в таблице рассмотренного примера переставить между собой строки (как в приведенной ниже таблице), то абсолютное значение Ф (т. е. без учета знака) останется неизменным, а сам знак поменяется на противоположный, т. е. связь станет обратной (отрицательной):
Несовершеннолетний |
В отношении несовершеннолетнего |
|||
профилактическая работа |
|
|||
правонарушение |
|
|||
|
|
|
|
|
проводилась |
не проводилась |
|
Всего |
|
|
|
|||
|
|
|
|
|
совершил |
23 |
44 |
|
67 |
|
|
|
|
|
не совершил |
311 |
134 |
|
445 |
|
|
|
|
|
Всего |
334 |
178 |
|
512 |
|
|
|
|
|
Теперь следует вернуться к вопросу сведения (редуцирования) произвольной таблицы сопряженности m × n к таблице 2 × 2. Возможность редуцирования основана на том, что всякий качественный показатель с любым числом значений (именуемых в этом случае «атрибутами» или «категориями») может быть сведен к тому же показателю, но уже лишь с двумя значениями (атрибутами), т. е. к дихотомическому. Размышляя иначе, редукция таблицы сопряженности основана просто на редукции самих сопрягаемых в ней значений каждого из сопрягаемых показателей. Дихотомия – это всегда принципиальное противопоставление внутри пары значений показателя: «да – нет», «белый – черный», «положительный – отрицательный», «виновный – невиновный», «активный – пассивный» и т. п. Чтобы обеспечить это, необходимо вначале в подлежащем редуцированию показателе из всех имеющихся у него значений выбрать лишь одно, но притом первостепенное, главное в данном исследовании, в котором заключена суть решаемой проблемы. Этому первому значению противопоставляются (причем совместно) все прочие значения, являющиеся в этот момент уже лишь второстепенными, третьестепенными и т. д. Вот под этим именем «Прочие» («Иные», «Другие» и т. п.) и выступает второе значение в дихото-
60