Анализ данных о туберкулезе и влиянии на заболевание условий жизни в Приморском крае
А.А. Яковлев
(Дальневосточный федеральный университет, Владивосток),
А.И. Абакумов, д-р физ.-мат. наук
(Институт автоматики и процессов управления ДВО РАН, Владивосток)
По данным о туберкулезе среди населения и условиях жизни в Приморском крае в 2002 - 2015 гг. проведено исследование связей и причин возникновения и течения туберкулеза. Установлено, что все представленные характеристики условий жизни можно разбить на две основные группы: позитивные и негативные. Характеристики условий жизни хорошо группируются вдоль главных компонент и слаженно воздействуют на характеристики заболевания. Выявлен временной лаг в 5 - 7 лет воздействия условий жизни на туберкулез.
Ключевые слова: кластерный анализ, корреляция, главные компоненты.
Введение
Проблемы динамики распространения туберкулеза и качества медицинской помощи в лечении этой болезни являются объектом постоянного внимания управленцев в области здравоохранения [ 1 ]. При исследовании закономерностей и связей этих процессов с демографическими, социальными и экономическими факторами используются методы математического моделирования [2, 3].
В этом направлении нами сделана попытка анализа данных о динамике ряда социальных, экономических и демографических показателей в связи с заболеваемостью туберкулезом и его распространенностью в Приморском крае в период 2002 - 2015 гг. [4 - 7]. Аналитический обзор [1] является совместным изданием Министерства здравоохранения РФ и ряда медицинских учреждений. В обзоре представлен анализ показателей о туберкулезе, обсуждено их значение для оценки эпидемиологической ситуации и качества противотуберкулезной помощи в РФ в 2007 - 2013 гг., рассмотрена ее динамика за последние 10 - 15 лет. Дано сравнение ситуации по туберкулезу в РФ и странах мира. Общие отчеты ВОЗ [8] содержат информацию о туберкулезе в странах мира за несколько лет. В данном источнике опубликованы стратегии ликвидации туберкулеза, проведен анализ причин возникновения заболевания. Данные анализируются по многим параметрам, в том числе по гендерному признаку, по детскому туберкулезу, по сочетанию с ВИЧ, по лекарственно-устойчивому туберкулезу. В [4] мы рассматривали данные по Приморскому краю, добавив данные из местных источников. Анализ данных с точки зрения эффективности медицинских учреждений дан в работе [5], мы же сосредоточились на анализе влияния среды обитания.
Данные и методы их анализа
Исходные данные [4] представлены матрицей , где n-обозначает количество показателей; m- количество данных у каждого показателя. Количество данных одинаково у всех показателей и равно числу рассматриваемых лет, m = 14 (за 2002 - 2015 гг.). В табл. 1 показаны основные характеристики населения и условий его жизни, разбитые на три группы. туберкулез заболеваемость ковариационный приморский
Таблица 1
|
№ |
Показатели |
Примечание |
|
|
1 |
Распространенность туберкулеза на 100 тыс. чел. |
||
|
2 |
Заболеваемость туберкулезом на 100 тыс. чел. |
Охват населения |
|
|
3 |
Распространенность больных активной фазой туберкулеза на 100 тыс. чел. |
туберкулезом |
|
|
4 |
Вылечившиеся больные, % |
||
|
5 |
Обеспеченность фтизиатрами на 10 тыс. чел. |
Демография и медицинское |
|
|
6 |
Численность населения |
обеспечение |
|
|
7 |
Валовый региональный продукт (ВРП) к ценам 2001 г. |
||
|
8 |
Уровень дохода населения к ценам 2001 г. |
||
|
9 |
Обеспеченность жилплощадью на душу населения |
||
|
10 |
Оборот общественного питания, млн. руб. |
||
|
11 |
Обеспеченность мясом на душу населения |
||
|
12 |
Обеспеченность молоком на душу населения |
||
|
13 |
Обеспеченность яйцами на душу населения |
||
|
14 |
Обеспеченность водопроводом, % |
Характеристики условий |
|
|
15 |
Обеспеченность канализацией, % |
жизни (социально- |
|
|
16 |
Число жителей, живущих ниже черты бедности, на 1 тыс. чел. |
экономические факторы) |
|
|
17 |
Уровень безработицы, % |
||
|
18 |
Смертность на 100 тыс. чел. |
||
|
19 |
Потребление водки на душу населения |
||
|
20 |
Потребление наркотиков на 100 тыс. чел. |
||
|
21 |
Вредные выбросы |
||
|
22 |
Потребление вина на душу населения |
||
|
23 |
Потребление пива на душу населения |
Данные проанализированы статистическими и близкими к статистическим методами на предмет взаимосвязей и взаимовлияния. Стремясь избавиться от разнобоя в единицах измерения и масштабах показателей табл. 1, выполним центрирование и нормировка данных, т.е. каждый показатель xзаменен на
В этом случае единицы измерения конкретных показателей не влияют на результаты расчетов. Статистические характеристики показывают согласованность динамик различных показателей, а не их абсолютных значений [9].
Количественные значения силы взаимосвязей данных получены вычислением выборочной ковариационной матрицы. Для нормированных и центрированных данных ковариационная матрица совпадает с корреляционной. Ковариационную матрицу для этих данных обозначаем , в случае центрированных и нормированных данных ее элементы вычисляются по формуле , где Xi- строка матрицы X, - символ обозначает скалярное произведение. Матрица симметрична и неотрицательно определена [10].
Для исследования взаимосвязей показателей применен метод кластерногоанализа. Методы кластерного анализа позволяют решать следующие задачи: проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов; проверку выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов; построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности.
Большинство методов кластерного анализа являются эвристическими и представляют собой довольно простые процедуры, что позволяет свести к минимуму ошибки при трактовке результатов. Однако необходимо иметь в виду, что кластерные методы размещают объекты по группам, которые могут существенно различаться по составу при использовании различных методов кластеризации. В общем случае смысл классификации объектов заключается в том, чтобы всю совокупность объектов разбить на сравнительно небольшое (заранее известное или нет) однородных в определенном смысле групп или классов. В ряде случаев возникает необходимость использовать алгоритмы, на каждом шаге которых обсчитывается лишь небольшая часть исходных наблюдений. Одним из таких методов является метод k-средних.
Пустьнабор переменных, представлен векторами центрированных и нормированных экспериментальных данных в виде матрицыгде ті - число переменных (наблюдений, показателей); m -длина наборов экспериментальных данных, имеющих выборочные средние 0 и выборочные дисперсии 1. Метод k-средних разделяет mнаблюдений на kгрупп (или кластеров) , чтобы минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров:
где CL-центр кластера SyXj-строка матрицы X.Под расстоянием понимается евклидово расстояние [99].
Применен также метод главных компонент. Выделены ведущие показатели, играющие основную роль в динамике всей совокупности данных.
Метод главных компонент используется по следующей схеме. Выборочную ковариационную матрицуКприводим к диагональному виду ортогональным преобразованием подобия A = U~lKU, матрица Uортогональна,
U-1 = UT, ее столбцы являются собственными векторами для неотрицательных собственных чисел матрицы К, стоящих по диагонали в матрице Л. Верхний индекс “T” у матрицы традиционно обозначает действие транспонирования. Замена y = UTxприводит нас к главным компонентам. Матрица A представляет собой выборочную ковариационную матрицу выборкиY= UtX. Через ук обозначим вектор из первых ккомпонент вектора у, это и есть выбранные нами главные компоненты. Соответственно изображение данных в подпространстве первых ксобственных векторов представляетсястолбцами матрицы Y ={utx) . Индекс козначает выбор первых кстрокматриц [99]. При вычислениях использовались пакеты SPSS, STATISTICA [1111, 1212].
Анализ данных о социально-экономических характеристиках условий жизни
Выполнен анализ взаимовлияний между показателями, характеризующими условия жизни (в табл. 1 это показатели номеров 7 - 23). Однако значения ковариационной (корреляционной) матрицы приведены в табл. 2 частично. Поскольку эта матрица симметричная, то под ее диагональю указаны лишь значения нижней треугольной матрицы, так как ее транспонирование определяет значения (в табл. 2 они опущены) верхней треугольной матрицы.
Таблица 2
|
1 |
|||||||||||||||||
|
0,96 |
1 |
||||||||||||||||
|
0,95 |
0,99 |
1 |
|||||||||||||||
|
0,88 |
0,94 |
0,97 |
1 |
||||||||||||||
|
0,97 |
0,99 |
0,99 |
0,95 |
1 |
|||||||||||||
|
0,92 |
0,98 |
0,94 |
0,85 |
0,95 |
1 |
||||||||||||
|
0,95 |
1,00 |
0,99 |
0,94 |
0,99 |
0,97 |
1 |
|||||||||||
|
0,91 |
0,86 |
0,84 |
0,77 |
0,85 |
0,83 |
0,84 |
1 |
||||||||||
|
0,78 |
0,66 |
0,60 |
0,48 |
0,66 |
0,69 |
0,65 |
0,83 |
1 |
|||||||||
|
-0,89 |
-0,93 |
-0,89 |
-0,76 |
-0,88 |
-0,96 |
-0,92 |
-0,78 |
-0,65 |
1 |
||||||||
|
-0,54 |
-0,56 |
-0,57 |
-0,60 |
-0,56 |
-0,54 |
-0,52 |
-0,57 |
-0,32 |
0,47 |
1 |
|||||||
|
-0,76 |
-0,76 |
-0,79 |
-0,78 |
-0,82 |
-0,72 |
-0,75 |
-0,64 |
-0,53 |
0,57 |
0,48 |
1 |
||||||
|
-0,86 |
-0,91 |
-0,91 |
-0,87 |
-0,91 |
-0,89 |
-0,93 |
-0,72 |
-0,63 |
0,82 |
0,34 |
0,70 |
1 |
|||||
|
-0,84 |
-0,93 |
-0,95 |
-0,97 |
-0,93 |
-0,87 |
-0,94 |
-0,78 |
-0,52 |
0,76 |
0,55 |
0,76 |
0,91 |
1 |
||||
|
-0,90 |
-0,95 |
-0,93 |
-0,88 |
-0,92 |
-0,93 |
-0,94 |
-0,79 |
-0,53 |
0,91 |
0,57 |
0,62 |
0,82 |
0,85 |
1 |
|||
|
0,85 |
0,86 |
0,79 |
0,64 |
0,82 |
0,91 |
0,85 |
0,78 |
0,75 |
-0,94 |
-0,30 |
-0,54 |
-0,76 |
-0,66 |
-0,81 |
1 |
||
|
0,76 |
0,83 |
0,75 |
0,62 |
0,78 |
0,92 |
0,82 |
0,71 |
0,66 |
-0,92 |
-0,41 |
-0,43 |
-0,76 |
-0,67 |
-0,81 |
0,92 |
1 |
Выделяются три группы показателей данных об условиях жизни, сравнительно тесно коррелирующих между собой (табл. 3).
Первая и вторая группы имеют отрицательные корреляции между собой. Из содержательного смысла показателей первую группу естественно назвать позитивной, а вторую - негативной. Неожиданностью является выделение двухэлементной третьей группы (слабый алкоголь), имеющей тесные положительные корреляции внутри и положительные корреляции с позитивной группой при отчетливых отрицательных корреляциях с негативной группой.
Таблица 3
|
Наименование группы |
Показатели |
|
|
Позитивная группа |
ВРП к ценам 2001 г. Уровень дохода населения к ценам 2001 г. Обеспеченность жилплощадью на душу населения Оборот общественного питания, млн. руб. Обеспеченность мясом на душу населения Обеспеченность молоком на душу населения Обеспеченность яйцами на душу населения Обеспеченность водопроводом Обеспеченность канализацией |
|
|
Негативная группа |
Число жителей, живущих ниже черты бедности, на 1 тыс. чел. Уровень безработицы, % Смертность на 100 тыс. чел. Потребление водки на душу населения Потребление наркотиков на 100 тыс. чел. Вредные выбросы |
|
|
Слабый алкоголь |
Потребление вина на душу населения Потребление пива на душу населения |
Далее проведена кластеризация данных. В методе ^-средних число кластеров задается, мы варьировали это число от четырех до шести. При разбиении на четыре кластера эти кластеры фактически совпадают с указанными выше тремя группами. Если в табл. 3 из позитивной группы выделить «водоснабжение» (показатели 14 - 15) в отдельный кластер, то получаем 4-кластерное разбиение (табл. 4).
Таблица 4
|
№ |
Показатели |
Характеристика кластеров |
|
|
1 |
ВРП к ценам 2001 г. Уровень дохода населения к ценам 2001 г. Обеспеченность жилплощадью на душу населения Оборот общественного питания, млн. руб. Обеспеченность мясом на душу населения Обеспеченность молоком на душу населения Обеспеченность яйцами на душу населения |
Позитивный |
|
|
2 |
Обеспеченность водопроводом Обеспеченность канализацией |
Водоснабжение |
|
|
3 |
Число жителей, живущих ниже черты бедности, на 1 тыс. чел. Уровень безработицы, % Смертность на 100 тыс. чел. Потребление водки на душу населения Потребление наркотиков на 100 тыс. чел. Вредные выбросы |
Негативный |
|
|
4 |
Потребление вина на душу населения Потребление пива на душу населения |
Слабый алкоголь |