Таблица 3 Переменные уравнений регрессии
|
Переменная |
Описание |
Источник |
|
|
EGEsred |
Зависимая переменная. Средний балл школы по обязательным предметам ЕГЭ в 11 классе |
Рейтинг СОШ г.Перми, раздел «Качество образования» |
|
|
Prizeryolimp |
Доля учеников, являющихся победителями или призерами олимпиад |
Рейтинг СОШ г.Перми, раздел «Качество образования» |
|
|
Youngteachers |
Доля педагогов моложе 35 лет |
Рейтинг СОШ г.Перми, раздел «Качество развития кадров» |
|
|
Highcategory |
Доля педагогов, имеющих первую или высшую квалификационную категорию |
Рейтинг СОШ г.Перми, раздел «Качество развития кадров» |
|
|
Paidservices |
Объем средств, привлеченных за счет оказания платных образовательных услуг (в расчете на 1 учащегося) |
Рейтинг СОШ г.Перми, раздел «Финансово-экономическая деятельность» |
|
|
Status |
Дамми-переменная. Принимает значение 1, если школа имеет статус гимназии или лицея, 0 - в ином случае |
Веб-сайты образовательных учреждений |
|
|
Elit |
Дамми-переменная. Принимает значение 1, если школа является статусной, 0 - в ином случае |
Новостной раздел Правительства Пермского края |
|
|
Centr |
Дамми-переменная. Принимает значение 1, если школа расположена в центре г.Перми, 0 - в иных случаях |
Данные сервиса «2ГИС» |
|
|
Spalny |
Дамми-переменная. Принимает значение 1, если школа расположена в спальных микрорайонах г.Перми, 0 - в иных случаях |
Данные сервиса «2ГИС» |
|
|
Otdalen |
Дамми-переменная. Принимает значение 1, если школа расположена в отдаленных микрорайонах г.Перми, 0 - в иных случаях |
Данные сервиса «2ГИС» |
Прежде, чем перейти к описанию построенных регрессионных уравнений, стоит рассмотреть описательные статистики исследуемых переменных.
Рис. 3. Гистограмма распределения зависимой переменной «Средний балл по обязательным предметам ЕГЭ в 11 классе»
Как можно видеть на Рисунке 3, зависимая переменная имеет распределение очень близкое к нормальному. Нормальность распределения исследуемых данных крайне важна при использовании параметрических методов статистического анализа. Также количественные переменные были проанализированы на наличие статистических выбросов, которые могли бы привести к смещению результатов, с помощью «ящичковых диаграмм» и графиков «квантиль-квантиль».
Таблица 4 Описательные статистики для количественных переменных
|
Переменная |
Среднее |
Медиана |
Минимум |
Максимум |
|
|
Egesred, баллов |
61,48 |
61,22 |
35,00 |
85,44 |
|
|
Prizeryolimp, % |
19,41 |
10,81 |
0 |
97,42 |
|
|
Youngteachers, % |
33,34 |
31,82 |
0 |
100 |
|
|
Paidservices, тыс.руб. |
2,76 |
1,81 |
0 |
22,35 |
|
|
Highcategory, % |
57,24 |
57,45 |
6,86 |
100 |
Как можно видеть в таблице №4, школы, включенные в выборку крайне разнообразны. Разброс значений по исследуемым критериям достаточен для того, чтобы построить качественное регрессионное уравнение.
Таблица 5 Описательные статистики для дамми-переменных
|
Переменная |
0 |
1 |
|
|
Status |
81,74% |
18,26% |
|
|
Elit |
89,57% |
10,43% |
|
|
Spalny |
58,26% |
41,74% |
|
|
Otdalen |
57,39% |
42,61% |
|
|
Centr |
84,35% |
15,65% |
Данные, приведенные в таблице №5, подтверждают целесообразность использования разных способов учета статуса школы. Так, количество школ, признанных элитными, на 8% меньше, чем средних общеобразовательных учреждений, имеющих статус гимназии или лицея. Таким образом, можем сделать вывод, что школа, обладающая статусом гимназии или лицея, не является элитной автоматически, справедливо и обратное. Как отмечено в публичном докладе Департамента образования администрации города Перми «Основные результаты деятельности образовательных учреждений города Перми за 2015-2016 учебный год», большинство школ, реализующих программы повышенного уровня, то есть лицейские, гимназические или углубленного изучения предметов, расположены в Индустриальном и Ленинском районах города Перми. После того, как были выбраны переменные, которые предположительно могут объяснять зависимую переменную, был проведен корреляционный анализ, который подтвердил наличие взаимосвязи между средним баллом школы на ЕГЭ по обязательным предметам и выбранными переменными. Корреляционная матрица для количественных переменных представлена в Приложении 1. Перейдем к описанию методологии, использованной для проведения исследования.
3.2 Методология исследования
Для выявления взаимосвязи выбранных переменных и результатов выпускников школы на ЕГЭ будут использованы методы математической статистики и эконометрического моделирования. Данный этап будет выполнен с использованием статистических программных пакетов Eviews и Stata. Суть построения эконометрической регрессии заключается в оценке её параметров, то есть исследовании коэффициентов, стоящих при той или иной переменной. Интерпретация данных коэффициентов поможет нам определить силу и направление влияния регрессоров на зависимую переменную.
Напомним, что данные, используемые для проведения исследования, имеют панельную структуру, поскольку наблюдается определенное количество школ на протяжении нескольких периодов времени. Панельные данные имеют безусловное преимущество перед данными только с пространственными или временными рядами в том, что позволяют выявлять и анализировать индивидуальные изменения наблюдаемых объектов. Говоря более предметно, панельные данные дают нам возможность отследить индивидуальную динамику той или иной школы, пронаблюдать изменения значений исследуемых показателей по конкретному образовательному учреждению. Кроме того, панельная структура данных, вероятно, позволит нам избежать появления ошибок спецификации, возникающих из-за отсутствия в модели некоторых существенно важных групп переменных, ввиду отсутствия необходимых данных или невозможности их количественной оценки, о чем было сказано в теоретическом обосновании данного исследования (Verbeek, 2004). Однако стоит отметить, что анализ панельных данных более сложен, нежели анализ данных, включающих только пространственную или временную компоненту, поскольку требует анализа сразу двух компонент.
Существует несколько основных подходов к оценке панельного типа данных (Ратникова, 2006):
· модель сквозной регрессии;
· модель с фиксированными эффектами;
· модель со случайными эффектами.
Стоит отметить, что с учетом специфики имеющихся данных, а также цели исследования, та или иная школа в разные моменты времени рассматривается нами не как новый объект наблюдения, а как одно и то же наблюдение в разные моменты времени. Это обусловлено тем, что каждый новый учебный год для школы не начинается «с чистого листа». Образовательное учреждение уже имеет некоторые устоявшуюся политику оказания образовательных услуг, которая не может измениться в одночасье. Таким образом, имеет место зависимость от предыдущего пути развития школы. Обычная линейная модель не позволит нам пронаблюдать индивидуальные особенности каждой отдельной школы. Для подтверждения данного умозаключения, будет построена простая линейная модель, и произведено сравнение с моделями с индивидуальными эффектами.
Модели с индивидуальными эффектами позволяют учитывать панельную структуру данных, а также индивидуальные различия наблюдений, то есть ненаблюдаемые факторы, обуславливающие неоднородность выборки (Dougherty, 2005). Такие ненаблюдаемые факторы и называют индивидуальными эффектами. Различие модели с фиксированными эффектами и модели со случайными эффектами заключается в предположении об этих ненаблюдаемых факторах. Модель с фиксированными эффектами предполагает, что ненаблюдаемые факторы, коррелируют с регрессорами модели. Индивидуальные эффекты наблюдений в данном случае являются фиксированными, и не изменяются во временном периоде, анализируемом исследователем. В модели с фиксированными эффектами индивидуальные эффекты закладываются в отдельный параметр, оценки которого исследователь желает получить. В модели же со случайными эффектами предполагается, что индивидуальные эффекты носят случайный характер (Verbeek, 2004).
Модель с фиксированными эффектами более уместна при анализе экономических единиц, имеющих свои явные особенности, когда исследователь заинтересован в том, чтобы проанализировать влияние именно для имеющейся выборки. В случае, когда выборка сделана случайным образом из генеральной совокупности, и исследователь желает, проанализировав данную выборку, распространить результаты на генеральную совокупность, более релевантной представляется модель со случайными эффектами.
Модель со случайными эффектами в общем виде имеет следующую форму записи:
(1)
где: y - зависимая переменная;
i - порядковый номер школы;
t - учебный год;
- свободный член;
- вектор независимых переменных;
- вектор коэффициентов для независимых переменных;
- случайная ошибка для школы i;
- остаточные возмущения.
Как уже было сказано ранее, в модели со случайными эффектами ненаблюдаемые эффекты включаются в свободный член модели. Случайная ошибка в такой модели является двухкомпонентной.
Модель панельных данных с фиксированными эффектами в общем виде записывается следующим образом:
(2)
где: - индивидуальный эффект школы i.
Остальные переменные имеют значения аналогичные описанным в уравнении (1).
С одной точки зрения, модель со случайными эффектами является более удобной для исследователя, поскольку она позволяет оценивать переменные, имеющие постоянное значение во времени (в нашем случае это переменные status, elit и дамми-переменные на район). В модели же с фиксированными эффектами возникает необходимость опустить данные переменные, в результате чего их влияние скрывается в свободном члене модели. Однако для того, чтобы получить состоятельные и несмещенные оценки в модели со случайными эффектами, требуется выполнение двух условий: случайности выбора наблюдений и независимости индивидуального эффекта от включенных в модель регрессоров. В связи с вышесказанным, наиболее релевантной для нашего исследования представляется модель с фиксированными эффектами. Поскольку очевидно, что каждая из исследуемых нами школ имеет индивидуальные характеристики, которые не учтены моделью, и притом могут потенциально оказывать влияние на результаты её выпускников на ЕГЭ. Такими характеристиками могут являться некоторые из упомянутых в теоретическом обзоре. Например, каждое образовательное учреждение за время своей профессиональной деятельности, сформировало определенный имидж, в связи с чем каждую школу из нашей выборки можно рассматривать как уникальную единицу. Также мы не можем однозначно утверждать, скоррелированы ненаблюдаемые факторы с регрессорами уравнения, или же нет. Для подтверждения предположения о релевантности модели с фиксированными эффектами, построим обе модели, а затем с помощью статистических тестов выберем наилучшую.
Таким образом, в рамках данного исследования будет построено три модели: простая линейная модель, модель с фиксированными эффектами и модель со случайными эффектами. Для оценки первых двух типов моделей будет использован обычный МНК. Ограничения же, вводимые моделью со случайными эффектами, не позволяют получить лучшую линейную несмещенную оценку с помощью обычного МНК, в связи с чем должен быть использован обобщенный МНК.
Построенные уравнения регрессии не включают одновременно все упомянутые в Таблице 2 переменные. Было произведено поочередное включение переменных, отвечающих за статус и местоположение школы, во избежание появления такой проблемы, как мультиколлинеарность факторов. Поскольку модель, построенная в рамках данного исследования, направлена не на прогнозирование будущих показателей по наблюдаемым школам, а на исследование и описание влияния регрессоров на зависимую переменную, то проблему мультиколлинеарности игнорировать не стоит. Для построения итоговых моделей были выбраны те переменные, с присутствием которых качество моделей является наилучшим. Уравнения спецификаций приведены в главе «Описание результатов».
Для того, чтобы осуществить выбор между построенными моделями, недостаточно воспользоваться стандартным инструментом для оценки качества модели - коэффициентом детерминации. Для выбора более релевантной модели будет использован тест Хаусмана. Подробнее его применение рассмотрим в главе «Описание результатов».
4. Описание результатов
В процессе проведения исследования было построено несколько спецификаций для простой линейной модели, модели с фиксированными эффектами и модели со случайными эффектами. Был выбран такой набор переменных, который обеспечивает лучшее качество моделей.
Было произведено попеременное включение переменных из двух групп. Сравнение моделей было осуществлено с помощью стандартного критерия R2, отражающего долю дисперсии зависимой переменной, объясненной моделью. Данный критерий принимает значение от 0 до 1. Чем ближе его значение к единице, тем лучше построенная модель отражает взаимосвязь зависимой переменной и регрессоров. Таким образом, было выявлено, какой набор переменных обеспечивает лучшее качество моделей. Для группы критериев, отвечающих за местоположение школы, лучшей моделью является та, которая включает в себя любые две из трех используемых переменных. В результате было принято решение включить в модель переменные otdalen и centr. Включение в модель всех трех дамми-переменных нецелесообразно, поскольку приведет к полной мультиколлинеарности. Для группы переменных, отвечающих за статус школы, было принято решение включить переменную status, поскольку коэффициент детерминации в таком случае выше, чем в модели с переменной elit на 0,03.