МОНИТОРИНГ ЭФФЕКТИВНОСТИ ОБРАЗОВАТЕЛЬНЫХ ОРГАНИЗАЦИЙ КАК ИСТОЧНИК ДАННЫХ О РОССИЙСКОМ ВЫСШЕМ ОБРАЗОВАНИИ
А.О. Цивинская, К.С. Губа
Центр институционального анализа науки и образования Европейского университета в Санкт-Петербурге Россия, Санкт-Петербург
Аннотация
Мониторинг эффективности деятельности организаций высшего образования, проводимый с 2012 года, является самым полным источником открытой информации об организационной популяции российских вузов. В настоящее время дискуссия о показателях Мониторинга ведется в ключе их применимости для оценки организаций высшего образования; как вторичный источник сведений для исследователей высшего образования материалы Мониторинга не рассматриваются.
Предлагаемая статья должна ликвидировать существующий пробел - в ней данные Мониторинга оцениваются с точки зрения их качества и потенциала для статистического анализа. Качество данных Мониторинга рассматривается авторами через призму основных измерений, таких как точность, актуальность, полнота и согласованность. Техническое удобство данных Мониторинга оценивается с позиции характера распределения переменных, что позволяет понять, какие методы анализа данных могут быть применены к Мониторингу. В завершение авторы дают рекомендации представителям научного сообщества, планирующим использовать данные Мониторинга для исследования российского высшего образования.
Ключевые слова: высшее образование, характеристики и показатели образования, распределения переменных, качество данных, административные данные.
Abstract
THE SURVEY OF HEIS PERFORMANCE AS A DATA SOURCE ON HIGHER EDUCATION IN RUSSIA
А.O. Tsivinskaya, K.S. Guba
The Center for Institutional Analysis of Science & Education, European University at Saint PetersburgSaint Petersburg, Russian Federation
Annual Survey of Performance of Higher Education Institutions, conducted in Russia since 2012, is the main source of open-access information on Russian universities. The discussion on the indicators of the Survey mainly focuses on their applicability for assessing higher education institutions (HEIs). The Survey, however, is not observed as a possible source of data for researchers in higher education. To remedy this deficiency, this paper evaluates the Survey data in terms of their quality and applicability for statistical analysis. The quality of the data is measured in four dimensions: accuracy, timeliness, completeness, and consistency. The technical convenience of the data is evaluated through the analysis of the variables distribution. The conclusion contains recommendations for researchers, who plan to use the Survey data for studying Russian higher education.
Keywords: higher education, KPI, distribution fit, data quality, administrative data.
Введение
Мониторинг эффективности деятельности организаций высшего образования (далее - Мониторинг) является самым полным источником открытых данных об организационной популяции российских вузов. Впервые Мониторинг был проведен Министерством образования и науки РФ в 2012 году, и уже на следующий год участие в нем стало обязательным для каждого вуза. Инициация Мониторинга тесно связана с кампанией по «очищению» высшего образования: Мониторинг должен был стать инструментом идентификации слабых, отстающих и проблемных вузов. Минобрнауки намеревалось использовать статистическую отчетность для того, чтобы принимать решения о проверках, закрытии или слиянии неэффективных вузов [1]. Однако довольно быстро результаты Мониторинга стали использоваться исследователями высшего образования, которые получили уникальную возможность работать с данными о всей популяции организаций высшего образования [2-6]. При этом дискуссия о показателях Мониторинга [7-9] почти целиком сосредоточена на их качестве в свете изначальной цели использования - оценки вузов, а не как на вторичном источнике данных для исследователей высшего образования.
В сравнении с другими источниками К примеру, «Образование в цифрах» (НИУ ВШЭ), «Индикаторы образования» (НИУ ВШЭ), «Российский статистический ежегодник» и «Регионы России». по образованию в России Мониторинг представляет данные для каждого вуза в отдельности. Обычно в сборниках данные приводятся в агрегированном виде, что ограничивает их анализ уровнем сравнения показателей регионов России. Мониторинг формируется на основе формы ВПО-1 (в 2013-2014 годах - формы ВПО-2), которые вводятся в основном автоматически. Хотя формы ВПО-1 и ВПО-2 доступны на сайтах вузов, отсутствует единая база, аккумулирующая эту информацию по всем вузам с разбивкой по каждому году. В итоге именно данные Мониторинга являются источником, позволяющим ставить исследовательские задачи сравнительного анализа деятельности организаций высшего образования на уровне отдельных организаций.
При несомненном потенциале Мониторинга как источника информации необходимо принимать во внимание ограничения, связанные с использованием административных данных,- сведений, которые генерируются государственными ведомствами для собственных целей [10]. В отличие от первичного использования опросных данных, качество которых может контролироваться исследователями, при вторичном использовании данных проблема их качества становится особенно важной [11]. Соответственно требуется критическая оценка качества административных данных и возможности их использования для статистического анализа. Применительно к данным Мониторинга такая оценка пока не проводилась, и наша статья должна существующий пробел ликвидировать.
Подходы к определению качества данных
Для реализации поставленной цели мы остановимся на двух подходах к оценке качества данных.
Согласно первому подходу качество данных описывается посредством основных измерений, включающих оценку точности, актуальности, полноты и согласованности предоставляемых сведений [12, 13]. Точность указывает на верность информации, актуальность - на ее своевременность, полнота - на долю пропущенных значений, согласованность связана с целостностью данных [13]. К этим измерениям необходимо добавить техническое удобство данных, прежде всего в виде характера распределения переменных (некоторые распределения существенно ограничивают исследователя в выборе метода анализа).
Второй подход строится на оценке данных с точки зрения потенциала их использования (fitnessforuse). Авторы работы [14] предлагают исходить из того, что качество данных является понятием относительным: в одном контексте данные могут оценивается как достаточно качественные, а в другом - как недостаточно. Речь идет о целях и задачах исследования, которые определяют набор необходимых данных. К примеру, для анализа научных достижений по материалам статей из журналов понадобится база данных с журналами, которые были оценены экспертами как издания приемлемого уровня качества. Однако если цель исследования состоит в анализе нечестного поведения ученых, то база данных, наоборот, должна включать те журналы, которые называют хищными, публикующими статьи за деньги.
Подходы к анализу данных: 1) на основе их измерений и 2) на основе потенциала использования - различают по характеру относительности. Сторонники первого подхода считают, что объективно описать качество данных так, чтобы это описание было полезно любому исследователю, можно через долю пропущенных значений или выбросов. Сторонники второго подхода основываются на относительности оценки качества данных, так как даже самые качественные данные могут быть непригодны для решения поставленных исследователем задач. Мы же полагаем, что для оценки качества конкретного набора данных необходимо сочетать оба подхода, анализируя как измерение и техническое удобство показателей, так и потенциал их использования. Кроме того, как мы покажем далее, недостаточно качественные с точки зрения основных измерений данные существенно ограничивают потенциал их использования.
Описание данных
В этой статье мы ограничимся анализом данных, собранных в рамках Мониторинга 2014 года, охватившего наибольшее число вузов, и извлеченных с сайта Главного информационно-вычислительного центра Минобрнауки, где представлена развернутая информация по каждому вузу и филиалу. Эти данные собирались вузами и вводились в специальную форму под названием «Мониторинг по основным направлениям деятельности образовательной организации высшего образования (форма № 1 - Мониторинг)». Представленные вузами показатели разбиты в Мониторинге на группы: образовательная деятельность; научно-исследовательская, международная и финансово-экономическая деятельность; инфраструктура; трудоустройство; кадровый состав; дополнительные характеристики. С каждым годом свидетельствующее о деятельности вуза количество переменных увеличивается. К примеру, значительно расширился список показателей, относящихся к дополнительным характеристикам. Если в 2013 и 2014 годах их насчитывалось 16, то в 2015 году - уже 59.
Результаты. Основные измерения качества
Оценим качество данных Мониторинга исходя из подхода Фокса [13], для чего проанализируем полноту, актуальность, точность, согласованность и техническое удобство информации.
Мы сравнили полноту покрытия количества организаций высшего образования в сборнике «Регионы России» с таковой в Мониторинге (табл. 1). Как видно из приведенных в табл. 1 сведений, особенно значимыми были расхождения в 2013 году, далее покрытие вузов улучшается (расхождения в численности варьируются в диапазоне от 1 до 20 %). Отметим, что для филиалов покрытие хуже, чем для головных организаций. В связи с этим мы подробнее проанализировали данные 2014 года, демонстрирующие лучшее покрытие вузов.
Таблица 1 Численность российских вузов и их филиалов в 2013-2017 годах
|
Источник данных |
2013 |
2014 |
2015 |
2016 |
2017 |
||||||
|
Вузы |
Филиалы |
Вузы |
Филиалы |
Вузы |
Филиалы |
Вузы |
Филиалы |
Вузы |
Филиалы |
||
|
Мониторинг |
901 |
1229 |
959 |
1234) |
901 |
1232 |
830 |
932 |
769 |
692 |
|
|
Сборник «Регионы России» |
1046 |
1603 |
969 |
1482 |
950 |
1319 |
896 |
1079 |
818 |
840 |
Анализ пропущенных значений позволяет сделать вывод о том, что полнота данных Мониторинга определяется типом вуза и особенностями его образовательных программ. Другими словами, ограничения объясняются природой объекта. К примеру, мы обнаружили, что некоторые вузы имеют нулевые значения ЕГЭ каждый последующий год. Скорее всего, такие колебания связаны с тем, что эти вузы осуществляют набор новых студентов не ежегодно, а через год (рис. 1). Одним из возможных решений при анализе данных с нулевыми показателями является деление вузов на две группы: с нулевым значением и значением, отличным от него. Дальнейший шаг - использование двухступенчатых моделей, где на первой ступени определяется, существуют ли статистически значимые различия между этими двумя группами, а на второй каждая группа рассматривается отдельно. Альтернативой является аппроксимация на основе известных значений за предыдущий и следующий год, если вуз осуществляет набор один раз в два года.
Рис. 1. Распределение среднего балла ЕГЭ всех студентов, принятых на обучение, в 2014 году Fig. 1. Distribution of all accepted students' Unified State Exam average score in 2014
Насколько надежны данные Мониторинга и можно ли доверять их качеству? Вузы сами заполняют форму Мониторинга, соответственно информация может искажаться как намеренно (в сторону завышения показателей), так и случайно (вследствие недопонимания инструкции). По идее, точность собранной вузом информации должна была контролироваться (Минобрнауки сообщало о проверке рабочей группой показателей, предоставленных вузами), однако вопросы к качеству проверки все равно остаются. Фактически существуют некоторые сомнения в том, что кто- то особенно внимательно следил не только за достоверностью представленных вузами данных, но и за их правдоподобием.
Самый простой способ оценить точность данных - это изучить выбросы, которые указывают на показатели, в разы отличающиеся от средних. Проанализировав выбросы, мы обнаружили две основные причины их наличия.
Первая причина - ошибки при введении информации в форму Мониторинга. Некоторые вузы из года в год отчитывались о гигантских финансовых показателях, которые можно объяснить только тем, что вместо тысяч рублей в форме Мониторинга указывались рубли. Например, у Московского городского университета управления Правительства Москвы показатель НИОКР в 2013 году составил 42 525 664 тыс. руб. (порядка 5 % в структуре всех расходов на НИОКР в России). У Самарского государственного медицинского университета отношение среднего заработка НПР в вузе из всех источников к средней заработной плате по региону составляет 104 994,76 % (по данным 2014 года). Как показывают наши интервью, в большинстве вузов сбор данных делегировался профильным подразделениям (например, библиотеке или отделу кадров), а точность понимания их сотрудниками инструкций особо не контролировалась. Значительное количество ошибок в таких условиях было неизбежным, даже если мы оставим за скобками возможность умышленного завышения показателей.
Вторая причина - специфика вуза. Появление выбросов связано не только с явными ошибками в заполнении форм Мониторинга, но и с запредельными показателями уникальных по своему профилю высших учебных заведений. Например, Международный университет природы, общества и человека «Дубна» на протяжении всех лет проведения Мониторинга демонстрирует самые высокие показатели публикационной активности по Scopusи WebofScience, однако их можно объяснить спецификой институции, связанной с естественно-научным фокусом исследований. Другой пример специфического вуза с высокими показателями - Российский университет дружбы народов, лидирующий по объему средств от образовательной деятельности за счет иностранных граждан и иностранных юридических лиц.
Актуальность данных Мониторинга ограничена статическим срезом информации: вузы предоставляют сведения за прошедший год, причем эти сведения далеко не сразу становятся доступными для пользователей. Тем самым данные Мониторинга отличаются от больших данных [15], которые тоже зачастую предоставляют информацию о всей популяции тех или иных объектов, однако она обновляется в режиме реального времени. При оценке актуальности содержащихся в Мониторинге показателей необходимо принимать во внимание проблемы, связанные с анализом данных вузов либо реорганизованных (присоединенным к другим вузам), либо ликвидированных. После завершения трансформации таких вузов данные части из них стали недоступны (остались только страницы без названия и информация, что вуз был реорганизован/ликвидирован). Таким образом, ретроспективно теряется информация о ряде вузов.