Главной проблемой при анализе согласованности данных могут быть накапливающиеся от года к году изменения в расчетах показателей. К примеру, мы проанализировали средние показатели зарплаты вузов, которые не подвергались трансформации и участвовали в Мониторинге с 2013 года по 2017 год. На рис. 2 отражена динамика показателя «Зарплата НПР» в обозначенный период, и мы видим резкий (более чем в 3 раза) спад в 2015 году в сравнении с 2014-м. Вероятно, это связано с изменением методики вычисления данного показателя, что делает невозможным применение анализа временных рядов и других лонгитюдных методов анализа. Поскольку для расчета показателей используются данные из формы ВПО-1, не исключено, что формулы в Мониторинге остаются прежними, а расчет данных в форме ВПО-1 меняется. При этом исследователь не видит изменений в расчете показателя, так как в методических указаниях к Мониторингу они не отражены. Такие изменения зачастую известны только тем, кто непосредственно в вузах занимается заполнением обеих форм.
Рис. 2. Среднее значение показателя «Зарплата НПР» для стабильных вузов, % к средней заработной плате в регионе
Fig. 2. Average teaching and research staff members' salary in stable higher education institutions, % to average regional salary
Еще одной проблемой может стать агрегирование данных в рамках Мониторинга за разные годы или с другими наборами показателей [16, 17]. На сайте Мониторинга у каждого высшего учебного заведения имеется свой номер, однако он не является официальным идентификатором вуза. У исследователя возникают дополнительные сложности в случае необходимости связать массив данных Мониторинга с другими наборами данных о вузах. К примеру, отсутствует отсылка к профилям вузов в базах РИНЦ, Scopusи Web of Science.
Таким образом, важным исследовательским шагом должно стать изучение описательной статистики вузов с особым вниманием к показателям, значительно отличающимся от средних значений и имеющим пропущенные значения. Это позволит оценить полноту, точность, актуальность и согласованность данных.
Следующий шаг исследователя - оценка технического удобства данных.
Дополнительное измерение качества данных
Первой и простейшей формой статистического анализа является описание распределений переменных. Несмотря на тривиальность, этот этап анализа важен в плане понимания возможностей использования переменных для описания популяции. Позволяют ли они дифференцировать вузы или значения переменных для большинства этих образовательных организаций близки или идентичны? И какие формы анализа к ним применимы в дальнейшем с учетом формы распределения?
Исходя из основных описательных статистик для показателей Мониторинга мы даже при беглом взгляде можем увидеть, что некоторые переменные имеют распределение, практически исключающее возможность их статистического анализа. Например, для количества лицензионных соглашений максимум составлял 1, при этом у большинства вузов значения нулевые - минимум, нижний квартиль, медиана и верхний квартиль равны нулю. Похожую картину мы наблюдаем в случае целого ряда переменных, не обладающих достаточной вариативностью. Среди них показатели, сопряженные с числом абитуриентов - призеров олимпиад; показатель лицензии и интеллектуальной собственности; ряд показателей, связанных с количеством зарубежных студентов и НПР; объем средств, полученных от иностранных граждан на выполнение НИОКР и от образовательной деятельности; доля студентов, не обеспеченных общежитием.
Другие переменные, являясь достаточно вариативными, проблемны с точки зрения их использования при статистическом анализе. Это хорошо видно на примере показателей публикационной активности головных организаций (табл. 2). Распределения показателей смещены относительно среднего, имеется тяжелый правый хвост (рис. 3). Значения асимметрии и эксцесса показывают, что данные не соответствуют нормальному распределению. Не менее 25 % вузов имеют нулевые значения (кроме показателей публикационной активности в РИНЦ). Таким образом, данные публикационной активности по форме распределения близки к экспоненциальному семейству распределений с учетом переизбытка нулевых значений.
Рис. 3. Распределение показателя количества публикаций вузов в РИНЦ, ед. (в расчете на 100 НПР)
Fig. 3. Distribution of the number of publications in Russian Science Citation Index
Для тех случаев, когда распределение переменной отличается от нормального, необходимый шаг для анализа - нахождение предельного распределения, что позволяет описать характер процесса, породившего данные. Это обеспечивает возможность сравнивать уже не сами данные из года в год, а полученные распределения. Если окажется, что предельные распределения по каждому году разные, то есть не совпадает даже семейство, то можно сделать вывод о неустойчивости наблюдаемого процесса. К примеру, по результатам подгонки теоретического распределения показателя «ЕГЭ общий» на данных за 2014 год лучшим является логистическое распределение с параметрами сдвига 63,20 и масштаба 4,86. При анализе данного показателя в принципе гипотеза о нормальной форме распределения тоже не отвергается Для проверки использовался критерий Колмогорова - Смирнова при заданном уровне значимости 0,05., но данные лучше описываются путем логистического распределения.
Применительно к некоторым показателям пренебрежение формой распределения может привести не только к ухудшению качества моделей, но и к неверным заключениям. Использование большинства показателей в «сыром» виде невозможно - требуется их тщательное исследование. В целом многие показатели даже после их преобразований (логарифмирования и трансформации Бокса - Кокса) нельзя привести к нормальному виду распределения; для них возможно применение только робастных методов анализа, устойчивых к выбросам и не налагающих ограничений на вид распределения переменных.
Таблица 2. Основные описательные статистики показателей публикационной активности вузов
Table 2. Main descriptive statistics for the indicators of publication intensity
|
Описательная статистика |
Публикации |
Цитирование |
|||||
|
WoS |
Scopus |
РИНЦ |
WoS |
Scopus |
РИНЦ |
||
|
N, абс. |
822 |
822 |
822 |
822 |
822 |
822 |
|
|
Среднее |
4,09 |
5,31 |
92,67 |
37,57 |
40,12 |
319,56 |
|
|
Медиана |
0,62 |
1,32 |
63,64 |
0,87 |
0,97 |
105,41 |
|
|
Коэффициент вариации |
373,13 |
260,97 |
184,7 |
809,95 |
973,46 |
417,1 |
|
|
Асимметрия |
12,96 |
6,68 |
11,89 |
22,1 |
25,11 |
19,37 |
|
|
Эксцесс |
220,63 |
57,21 |
188,63 |
555,14 |
677,08 |
459,81 |
|
|
Стандартное отклонение |
15,25 |
13,85 |
171,16 |
304,34 |
390,51 |
1 332,89 |
|
|
Минимум |
0 |
0 |
0 |
0 |
0 |
0 |
|
|
Максимум |
308,07 |
170,21 |
3 270,92 |
7 942,72 |
10 714,3 |
33 341,5 |
|
|
Нижний квартиль |
0 |
0 |
34,49 |
0 |
0 |
40,6 |
|
|
Верхний квартиль |
3,21 |
5,03 |
104,15 |
13,31 |
12,68 |
256,58 |
Источник - материалы Главного информационно-вычислительного центра Минобрнауки России (дата обращения: 25.10.2019).
В свою очередь, недостаточная вариативность переменных снижает возможности их использования при ранжировании вузов. Фактически для большинства из них единственный вариант агрегации и статистического анализа связан с бинаризацией (к примеру, больше медианы и меньше медианы), однако нужно учесть соответствующую потерю значительной части информации. К примеру, показатель международной деятельности высших учебных заведений, основывающийся на доле в них иностранных студентов, дает множество нулевых значений, поскольку большинство вузов не имело в 2014 году иностранных студентов вовсе. Единственная возможность использовать этот показатель - присвоить единицу всем вузам, имеющим отличное от нуля число зарубежных студентов. Для показателя «Число аспирантов» характерны переизбыток нулевых значений, тяжелый правый хвост у распределения и наличие выбросов. Соответственно при анализе данного показателя вузы ранжируют по уровням программы обучения и анализируют каждую группу отдельно или рассматривают как фактор в классификации предоставляемые уровни программы обучения [18, 19].
В целом едва ли ни единственным удобным с точки зрения статистического анализа показателем является показатель доли в вузе кандидатов и докторов наук: форма распределения данного показателя наиболее близка к куполообразной с пиком у среднего значения по выборке. Остальные показатели еще до проведения статического анализа нужно тщательно исследовать: изучить характер выбросов, который может указывать на искажения, найти предельное распределение, что особенно важно для анализа данных в динамике, определиться с методом преобразования данных.
Заключение и рекомендации
Мониторинг является и, вероятно, еще продолжительное время будет являться основным источником данных о российском высшем образовании. Потенциал использования этих данных связан не только с анализом эффективности деятельности вузов, как задумывалось создателями Мониторинга, но и с привлечением отдельных показателей для иных исследовательских проектов. Для многих национальных систем такая возможность отсутствует, так как университеты не обязаны предоставлять информацию о своей деятельности. Здесь примечателен опыт Италии, где налажен централизованный сбор информации о деятельности ученых и организаций, в которых они трудятся. Эти данные широко используют не только для принятия управленческих решений, но и для исследований в области наукометрии и высшего образования [20, 21]. Хотя российские исследователи используют данные
Мониторинга в академических и прикладных исследованиях, мы предлагаем произвести оценку Мониторинга как источника данных о высшем образовании в России. В этой статье мы сосредоточились на важных ограничениях, которые необходимо принять во внимание при работе с данными. Наш анализ показал, что качество некоторых данных существенно снижает потенциал их использования, причем далеко не все ограничения преодолимы.
Несмотря на то, что использование данных Мониторинга сопряжено с рядом проблем, о которых мы вели речь выше, пространство для улучшения ситуации имеется, и работа исследователей с этими данными полностью не исключается. Один из возможных шагов, который помог бы оценить достоверность представленных в Мониторинге показателей, заключается в их сравнении с переменными из независимых источников. К сожалению, для большинства переменных таких источников не существует (откуда можно взять информацию, например, о площадях лабораторий или о зарплатах?). Однако доступными для проверки являются данные публикационной активности, агрегируемые напрямую по вузам из баз данных РИНЦ, Scopusи Web of Science. При этом нужно отметить, что при расчете показателей публикационной активности в Мониторинге используется взвешенное на ставки число НПР, но информация о самом числе ставок не указывается. В целом же как для исследовательских, так и для управленческих целей желательно использовать показатели, позволяющие проверить их точность с привлечением независимых источников. Причем само знание о том, что информация может быть проверена, вероятно, улучшит качество ее представления.
Надежность информации, безусловно, очень важна, однако отнюдь не это требование является главным препятствием для использования данных Мониторинга при исследовании процессов, происходящих в высшем образовании. Дело в том, что исследователей очень ограничивает специфика распределения большинства переменных. Практически для любого анализа данных Мониторинга основной рекомендацией будет использование робастных методов анализа, устойчивых к выбросам. Еще одним возможным решением является винзоризация данных и преобразование переменных. Для ряда переменных с малой вариативностью бинаризация - это лучший вариант.
При анализе важно определиться с фокусом исследования - либо это совокупность всех российских вузов, либо отдельная их выборка. Большинство показателей не могут быть использованы без учета специфики высших учебных заведений. Особенно - данные о публикациях. Результаты исследований свидетельствуют о широкой вариативности публикационных принципов и динамики прироста публикаций в зависимости от научной дисциплины, при этом не все вузы представлены всеми дисциплинами [22]. На сегодня показатели Мониторинга не учитывают дисциплинарную принадлежность вуза, что ограничивает возможность однозначной оценки его исследовательского вклада. Аналогично нужно учитывать, набирает ли вуз только платных студентов, производится ли вообще набор студентов на бакалавриат или в вузе обучаются только магистранты. Если вуз обучает по нескольким программам, то желательно использование интегрального показателя, но с весами для компонент, отражающих относительную численность групп студентов по разным специальностям (которые, в свою очередь, различаются по проходным баллам и плате за обучение).