Статья: Машинное обучение модели информационной рекомендательной системы по вопросам индивидуализации образования

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Машинное обучение модели информационной рекомендательной системы по вопросам индивидуализации образования

Таратухина Юлия Викторовна,

Барт Татьяна Вячеславовна

Аннотации

Обучение модели информационной рекомендательной системы связано с исследованием применяемых математических и информационных методов и моделей, их комбинаций с целью обеспечения необходимой точности формируемых прогнозов и выводов. В статье рассматривается машинное обучение модели рекомендательной системы с применением статистических методов и анализа больших данных, направленной на решение вопросов индивидуализации образования. В данном случае точность машинного обучения модели зависит от типа статистической модели, используемой для прогнозирования вероятности возникновения некоторого события по значениям множества признаков, а также обучающей выборки, используемой для подбора параметров, и функции регуляризации, используемой для улучшения обобщающей способности получающейся модели. В рамках исследования проверяются модели на основе логистической регрессии, методах наивного байесовского классификатора (Naпve Bayes), регрессии типа Лассо. Экспериментально подтверждается теоретическое предположение о возможности создания рекомендательной системы по вопросам индивидуализации образования на основе массива образовательных данных, включающего результаты учебной и внеучебной деятельности учащихся. Формулируются выводы о наличии корреляционных зависимостей в данных, которые могут быть использованы для повышения точности обучения модели рекомендательной системы.

Ключевые слова: индивидуализация образования, машинное обучение модели, анализ больших данных, рекомендательные системы

MACHINE LEARNING MODELS OF INFORMATION RECOMMENDATION SYSTEM ON INDIVIDUALIZATION OF EDUCATION

Taratukhina Yu.V.,

Associate Professor, department of innovation and business in information technologies, машинный образование логистический

National Research University Higher School of Economics, Moscow,

Bart T.V.,

Ph.D., Assistant Professor, Assistant Professor of the management and marketing chair,

Moscow Witte University, Moscow,

Vlasov V.V., master,

National Research University Higher School of Economics, Moscow

Training model information recommendation system is associated with the study of applied mathematical and information methods and models, their combinations in order to ensure the necessary accuracy of the forecasts and conclusions. The article deals machine learning of model recommendation system using statistical methods and analysis of big data, aimed at addressing the issues of individualization of education. In this case, the accuracy of the machine learning model depends on the type of statistical model used to predict the probability of some event from the values of the set offeatures, as well as the training sample used to select the parameters, and the regularization function used to improve the generalizing ability of the resulting model. The study tested models based on logistic regression, methods of naive Bayesian classifier (Naпve Bayes), lasso-type regression. Experimentally confirmed the theoretical assumption about the possibility of creating a recommendation system on the individualization of education on the basis of an array of educational data, including the results of educational and extracurricular activities of students. Conclusions about the presence of correlation dependencies in the data, which can be used to improve the accuracy of the model of the recommendation system, are formulated. Keywords: individualization of education, machine learning models, big data analysis, recommendation systems

Введение

На сегодняшний день основной задачей системы образования становится подготовка индивида к жизни в быстроменяющемся мире, в глобальном поликультурном пространстве. По сути, образовательное пространство представляет собой сосуществование различных образовательных систем и моделей, в основе которых лежат дифференцированные культурные, мировоззренческие, религиозные, философские, ценностные картины мира. Кроме интеграционных процессов происходит трансформация форм образования. Наряду с традиционной классической моделью создаются и внедряются в практику инновационные формы обучения, основанные на современных информационно-коммуникационных технологиях (ИКТ). К ним относятся массовые открытые онлайн-курсы, в том числе с применением предметно-языкового интегрированного подхода, бесплатные онлайн курсы от ведущих университетов и школ мира и др. В этой связи можно отметить ряд следующих популярных образовательных платформ: www.coursera.org (Университеты Стенфорда и Принстона (США), университеты Пекина, Гонконга, Торонто, Тель-Авива); www.edx.org (Университет Беркли, Гарварда, Массачусетский технологический институт); http://netology.ru - Нетология, Национальная платформа открытого образования; https://www.lektorium.tv - Лекториум; http://universarium.org - Универсариум.

Актуальными являются технологии обучения, основанные на виртуальном взаимодействии (Second Life), а также формы обучения, основанные на геймификации - играх, тренингах, симуляторах и т.п., в форме которых подается образовательный контент (www.edutainme.ru). Распространенным явлением в настоящее время является мобильное обучение, использование технологий дополненной реальности, машинное обучение, использование интеллектуальных тьюторских систем. По мере развития форм электронного обучения, в том числе с применением дистанционных образовательных технологий, все больше внимания уделяется вопросам персонализации образовательной среды обучающегося, отслеживанию и моделированию его индивидуальной образовательной траектории с целью повышения качества и эффективности обучения [3]. В этом контексте роль преподавателя меняется - он становится не только ретранслятором знаний, но и опытным наставником и сопровождающим лицом, тьютором, помогающим выстраивать обучающемуся его индивидуальную образовательную траекторию. В идеале, существование индивида в информационном обществе подразумевает самостоятельную "добычу знаний" и "управление" ими и, как следствие, высокую роль самостоятельности и ответственности. Формат непрерывного обучения (life long Learning; education throw life) должен реализовываться именно в контексте, к которому побуждает информационная среда: непрерывность, активное использование ИКТ, автодидактичность, использование доступных глобальных сетевых ресурсов. Одними из таких возможностей являются реализация концепции blended learning (смешанное обучение) и анализ деятельности обучающихся с применением технологий Big Data [1, 6, 7].

Вопросы анализа образовательных данных

Анализ результатов успеваемости и достижений обучающихся является необходимым инструментом для индивидуализации обучения. Кроме того он позволяет решить множество задач при внедрении в учебные заведения любого уровня. К этим задачам можно отнести кластеризацию обучающихся и педагогов для выявления зависимостей и связей между ними, оценку качества образования, оценку риска получения обучающимися неудовлетворительной оценки, автоматическое построение рекомендаций по использованию информационных ресурсов и материалов для более эффективного освоения образовательной программы и др. Для многих учащихся в школе одним из важных вопросов является выбор дальнейшей траектории обучения и в данном вопросе информационные рекомендательные системы в связке с выбором формальных онлайн и смешанных курсов могут оказать положительное влияние на ситуацию [4]. Настроенная рекомендательная система может позволить не только проходить курсы онлайн, но и будет советовать, какие из них стоит пройти тому или иному учащемуся, что позволит качественно работать с системой и персонализировать образование.

При обучении модели рекомендательной системы возникает ряд вопросов о возможности ее обучения, в том числе: можно ли обеспечить необходимую точность обучения на основании записей об оценках и внеучебной деятельности обучающихся в рамках имеющегося массива данных системы и других открытых информационных ресурсов; будут ли предсказания системы ценными для обучающихся; можно ли создать эталонный цифровой портрет обучающегося, который хочет работать с той или иной сферой знаний, и учитывать индивидуальные качества и предпочтения обучающихся при формировании индивидуальной образовательной траектории; какая из полученных моделей системы наиболее точно делает прогноз и выдает рекомендации. Для получения ответов на данные вопросы в рамках исследования должна быть создана и проверена тестовая версия подобной системы, основанной на машинном обучении модели.

В зарубежных периодических изданиях опубликовано достаточно много научных статей, посвященных анализу образовательных данных и созданию рекомендательных систем в области образования [8, 9]. В Российской Федерации данная тема в настоящее время также становится актуальной. Основываясь на анализе зарубежной и отечественной научной и специальной литературы по данной теме, можно сказать, что рекомендации в формальном образовании практически не развиты, в качестве объекта рассматриваются отдельные медиа-ресурсы, а не курсы в целом. Рекомендательные системы в образовании развиты только в массовых открытых онлайн курсах на крупных ресурсах, таких как eDX или Coursera. При этом они основываются не на данных об успеваемости и внеучебной деятельности обучающихся и настроены на другие типы запросов.

Данная работа ставит своей задачей исследование именно российских образовательных данных, которые могут отличаться ввиду культурных и социальных факторов, а также возможности применения рекомендательной системы в рамках формального образования.

Современный образовательный процесс генерирует большой объем данных, которые могут быть использованы для проведения исследований, посвященных различным аспектам образовательной деятельности. Данный факт достаточно очевиден при использовании образовательных онлайн платформ, однако и в традиционной системе обучения при непосредственном взаимодействии преподавателей и обучающихся создается достаточный объем данных для проведения анализа с применением методов машинного обучения. Накопленные данные являются крайне важными для анализа процесса обучения с целью улучшения и развития образовательного процесса [9].

В настоящее время в Российской Федерации реализуется множество проектов по внедрению ИКТ в образование, но для того чтобы они работали с полной отдачей необходимо создать систему автоматической и, что более важно, постоянной оценки процесса обучения. Для этого необходимо наблюдать за различными его аспектами, включая результаты учебной и внеучебной деятельности обучающихся, уровень взаимодействия преподавателей и обучающихся, направление использования мультимедийных ресурсов, качество управления учебным процессом. При внедрении новых технологий увеличивается и объем данных, которые могут быть собраны в рамках образовательного процесса для последующего анализа, что, с одной стороны, делает задачу машинного обучения все более важной, с другой стороны, улучшает качество моделей, которые могут быть при помощи подобного анализа построены.

Вопросы анализа образовательных данных исследуются учеными многих стран. Работы, посвященные данной теме, можно разделить на четыре группы: оценка эффективности электронных средств при традиционной концепции обучения, анализ действий преподавателей и обучающихся, выявление групп риска среди обучающихся, исследование работы с различными медийными источниками. Ряд работ посвящается оценке того как влияют ИКТ на образование в целом. Примером этого можно назвать семантический анализ форумов и блогов, посвященных образовательным платформам [1]. В данном случае исследователи при помощи трех различных методов семантического анализа (Information Gain, Mutual Information, CHI statistics) создали специальную модель, которая определяет является ли данная запись позитивно или негативно окрашенной. Модель может быть полезна для оценки того, как пользователи реагируют на новую технологию в образовании и упростить оценку ее качества. Также к этому классу исследований можно отнести те, целью которых является разделение обучающихся на различные группы в зависимости от того, как быстро и качественно они могут осваивать курсы. При этом применяются различные методы, такие как, нейронные сети, Naпve Bayes, SMO и др., которые также позволяют выделить основные факторы, влияющие на эффективность освоения курсов обучающимися.

Сбор и обработка экспериментального массива данных

Исследование образовательных данных включает следующие этапы:

1. Сбор данных об успеваемости обучающихся и их внеучебных достижениях.

2. Обработка полученного массива данных и перевод переменных в категориальный и числовой вид [2].

3. Создание моделей классификации "один-против-всех" [5].

4. Выбор наиболее качественных видов моделей для решения поставленной задачи.

5. Обучение модели рекомендательной системы на основе анализа образовательных данных [7].

6. Оценка коэффициентов модели с применением метода Лассо-регрессии [12].

Для проведения эксперимента по обучению модели использовался массив образовательных данных, созданный по результатам анонимного опроса выпускников школы в сети Интернет. Цель опроса - выявить, какие предметы выбрали бы учащиеся, если бы обучались в опНпе-системе, их оценки в школе по основным предметам, участие в олимпиадах и других видах внеучебной деятельности. Результаты опроса были преобразованы в массив данных, содержащий числовые и бинарные показатели, на основании которых можно сделать прогнозы о том, какие предметы учащиеся выбрали бы для изучения. В завершение работы была построена и проверена рекомендательная модель.

Опрос состоит из трех частей (таблица 1): на какую специальность или направление респондент хочет поступить или поступил и какие предметы он бы выбрал для онлайн изучения на базовом или продвинутом уровне; оценки учащегося по основным предметам; участие в олимпиадах различного уровня и внеклассных мероприятиях.

Таблица 1 - Структура опроса

Части опроса

Список вопросов

1

"Я поступил (или хотел бы поступить) на направление связанное с..."

"Если бы я мог проходить на базовой основе школьный предмет в системе онлайн и при этом отказаться от обучения по нему в традиционной школе, то это были бы следующие предметы..."

"Если бы я мог проходить на продвинутой основе (частично с вузовской программой) школьный предмет в системе онлайн и при этом отказаться от обучения по нему в традиционной школе, то это были бы следующие предметы..."

"Основная причина почему я стал бы учиться в системе онлайн"

2

12 типовых вопросов про уровень оценок в школе

3

3 вопроса об участии в окружном, областном и финальных этапах Всероссийской олимпиады школьников по разным предметам

Вопросы об участии в олимпиадах, проводимых вузами Вопросы о достижениях во внеучебной деятельности