Под компетенцией понимается способность применять знания, умения и личностные качества для успешной деятельности в определенной области.
Рисунок 3 Компетенции, формируемые в рамках учебного модуля
В каждом курсе, реализуемом в LMS Moodle, может формироваться одна или несколько компетенций. При этом одна и та же компетенция может формироваться в нескольких курсах, в расчете значения компетенции этот факт учитывается.
Рисунок 4 Модель формирования компетенций
В LMS Moodle курс представлен перечнем заданий, выполнение которых рассчитано на формирование компетенций у обучающихся, а результаты которых исчерпывающим образом показывают степень освоения данной компетенции.
Для сопровождения учебного курса и коррекции индивидуальных образовательных траекторий предполагается постоянный сбор аналитических данных об обучающемся и его учебных результатах.
Интеллектуальные алгоритмы разработки электронного учебного курса
Как правило, авторы учебных курсов имеют в электронном виде их материалы в виде набора текстовых документов, в форматах известных офисных пакетов docx, doc, ppt, odt, odp и других.
Возможные варианты видов материалов:
а) презентации лекций;
б) конспекты лекций;
в) тексты условий лабораторных или практических работ;
г) тестовые задания;
д) курсовые работы или проекты;
е) расчётно-графические задания.
Информация о структуре курса может быть взята из теоретических материалов, например, вида а) или б).
В большинстве систем электронного обучения материалы размещаются путем ручного структурирования Online-представления курса с добавлением разделов и тематических блоков, заданий. При этом авторы курсов вынуждены вручную задавать названия элементам курса и прикреплять соответствующие файлы, что является рутинным действием для автора курса.
Для решения данной проблемы в полуавтоматическом режиме был разработан алгоритм структурирования материалов электронного учебного курса.
Данный алгоритм имеет поддерживает реализации для документов, представленных в формате XML (docx и pptx), и для текстовых документов. Также поддерживаются документы других форматов, но они должны быть предварительно сконвертированы в одно из данных представлений (например, doc и ppt).
Выделение структуры документа производится на основе разметки заголовков в структурированных документах. Содержимое раздела привязывается к заголовку как часть текста ниже самого заголовка до следующего заголовка любого уровня.Выделенные разделы объединяются в иерархическое дерево.
Пользователь может:
а) заполнить пропуски в нумерации;
б) перенумеровать заголовки, исправить их названия, поправить ссылки на документы;
в) добавить новые элементы в иерархию или удалить существующие;
г) изменить порядок элементов в иерархии.
Алгоритм иерархической классификации материалов учебного курса по тематическим блокам алгоритм предназначен для классификации других файлов курсов (элементов курса, например, текстов лабораторных/практических заданий, дополнительных материалов и пр.) по их текстовому содержимому с целью отнесения их к определенным тематическим блокам в иерархии, полученной предыдущим алгоритмом.
Алгоритм использует тексты из корпуса предметной области или других аналогичных курсов для обучения классификаторов. В качестве функции потерь используется перекрестная кросс-энтропия, в качестве метрик качества - сбалансированная точность.
Формализуем основные шаги общей структуры обучения алгоритма классификации текстов других файлов курсов.
Шаг 1. Для каждого текста из обучающие выборки выполнить следующие шаги:
Шаг 1.1 Выполнить нормализацию текста (перевод в нижний регистр, удаление запрещенных символов)
Шаг 1.2. Выполнить токенизацию (преобразование в список токенов)
Шаг 1.3. Для каждого токена выполнить лемматизацию (преобразование к нормальной словарной форме)
Шаг 1.4. В каждом списке токенов удалить стоп-слова (высокочастотные слова языка)
Шаг 3. Составить словарь из токенов и/или наборов токенов.
Шаг 4. Для каждого списка токенов выполнить его преобразование в векторное представление, используя словарь
Шаг 5. Используя алгоритм нахождения выбросов, из обучающей выборки исключить выбросы.
Шаг 6. Разбить обучающий набор на два поднабора: на первом будет выполняться оптимизация гиперпараметров и первичное сравнение различных алгоритмов классификации, на втором - итоговая проверка качества модели
Шаг 7. Для каждого алгоритма многоклассовой классификации выполнить оптимизацию гиперпараметров c поиском лучшего значения функции потерь.
Шаг 8. Каждый алгоритм с использованием оптимальных гиперпараметров, определенных на предыдущем шаге, обучается на обучающей выборке. Алгоритмы сравниваются между собой по функции потерь, а также по набору дополнительных метрик.
Шаг 9. Лучший алгоритм классификации используется для дальнейшей классификации.
В рамках общей структуры обучения алгоритма классификации текстов также можно варьировать: способ формирования словаря на шаге 3, способ преобразования списка токенов в векторное представление на шаге 4, алгоритм нахождения выбросов, используемый на шаге 5. В рамках экспериментального исследования планируется сравнить различные алгоритмы классификации, а также их ансамбли. Шаги 1 - 4 позволяют сократить размерность признакового пространства входных данных, что уменьшает сложность алгоритма классификации и является средством борьбы с переобучением. На шаге 5 алгоритм нахождения выбросов позволяет исключить их из обучающего набора, что также положительно влияет на переобучение. Все вышеупомянутые подходы призваны решить проблему небольшого обучающего набора данных.
Использование кросс-валидации на этапах 6-7 позволяет выполнить достаточно надежный поиск лучших значений гиперпараметров данных моделей, что обеспечивает снижение переобучения.
Также задания, привязываемые к теоретическим блокам курса, можно классифицировать по уровням освоения знаний, предложенным В.П. Беспалько: узнавание, воспроизведение и применение [24]. Так как при формулировке заданий различного уровня используется общая лексика, поэтому будет составлен общий языковой размеченный корпус заданий с указанными вручную уровнями. На нем будет обучен классификатор, который аналогичен алгоритму классификации материалов учебного курса по тематических блоком, главное отличие в том, что вместо тематических блоков, привязанных к конкретному курсу, используются блоки, а словарь строится по общему корпусу.
Для оценки сложности (трудоемкости) учебного элемента будем использовать его образовательный контент - только текст и изображения картинки. Оценкой будет являться вещественной неотрицательное число /?е[0,+х.) поэтому мы рассматриваем задачу регрессии, которую будем решать отдельно для каждого типа элементов учебного курса, что позволит повысить точность работы алгоритмов и учесть специфику каждого типа элементов.
Для элемента E строится вектор признаков Vector, отражающих его сложность. Точный набор признаков в сочетании с алгоритмом регрессии будет определен для каждого вида элементов курса в ходе экспериментальных исследований с помощью кросс-валидации. Возможные признаки, которые могут быть включены в вектор Vector:
а) векторизованное представление текстового содержимого элемента после нормализации, лемматизации и фильтрации стоп- слов - BoW (Bag of Words, мешок слов) или TF-IDF с использованием словаря Vocabulary, построенного по корпусу текстов предметной области, а также Word2Vec (дистрибутивное векторное представление слов), GloVe (Global Vectors, глобальные векторы). Другим возможным вариантом является использование BERT-представления (Bidirectional Encoder Representations from Transformers, двунаправленная нейронная сеть кодировщик);
б) доля специфичных терминов, среднее/ медианное количество слогов в терминах;
в) среднее/медианное количество слогов в словах;
г) количество изображений, распознанный (с помощью внешних инструментов) текст с изображений и K наиболее вероятных объектов (их текстовые названия) с переводом этого текста согласно а).
В качестве функции потерь будет использоваться метрика средней квадратичной ошибки (MSE, Mean Squared Error).
В рамках экспериментального исследования планируется сравнить различные алгоритмы регрессии, а также их ансамбли
Обучение алгоритма происходит независимо от авторов учебных курсов на подготовленном корпусе текстов предметной области. Для экспериментальных исследований планируется построить свой корпус текстов на основе открытых источников по информатике, в частности, можно взять Wiki-конспекты университета ИТМО [25], а также учебные курсы, разработанные в системе дистанционного обучения ОГУ moodle.osu.ru [26].
Значимость элементов учебных курсов определяется их вкладом в общую оценку слушателя курса. В качестве первичных оценок значимости элементов курса можно использовать их сложность, или автор курса задает ее вручную. По результатам прохождения курса слушателями накапливается статистика, которая может быть использована для более точной оценки сложности и значимости элементов.
Для формализации взаимозависимостей между элементами учебного курса используется модель в виде ориентированного дерева, разработанная в работах А.В. Солового [27]. При формировании содержания учебного курса, так же как в нашей модели, учебный материал разбивается на учебные элементы Ey^Er^A..
Граф содержания курса G определяется следующим образом: G=(Vertices, Arcs), где множество вершин графа Vertices есть множество учебных элементов, а множество дуг графа Arcs - связи, определяющие порядок изучения элементов (отношения очередности).
С каждым учебным элементом может быть связан вектор показателей, характеризующих его сложность, трудоемкость, требования к уровню освоения компетенций до обучения (стартовый уровень) и уровень освоения компетенций после обучения (конечный уровень).
С точки зрения графа содержания учебные элементы связываются дугой (p,q), обозначающей отношение очередности («изучается прежде») в том случае, когда требования к стартовому уровню освоения компетенций для одного учебного элемента Eq включают требования, формируемые на финишном уровне другого учебного элемента Ep. В этом случае учебный элемент Eq, должен изучаться после учебного элемента Ep.
На основе графа содержания в LMS может быть построена траектория изучения элементов курса на основе топологической сортировки ориентированного ациклического графа, которую можно выполнить либо с помощью поиска в глубину, либо с помощью очереди истоков.
Также граф содержания позволяет при формировании индивидуальной траектории освоения учебных элементов курса проверять очередность изучения, предотвращая проблемы при использовании в образовательном контенте понятий и методов, которые ранее не изучались.
Кроме того, граф содержания позволяет определять зависимые от данного учебные элементы, что дает возможность переноса учебного элемента вместе с зависимыми элементами из одного электронного курса в другой.
Ручное построение графа содержания курса представляет трудоемкую задачу, поскольку в общем случае количество зависимостей растет как квадрат от числа учебных элементов.
Мы предлагаем полуавтоматизированное выявление зависимостей учебных элементов на основе анализа текстов, привязанных к учебным элементам.
Для этого для каждого учебного элемента Ep предлагается выявление ключевых терминов, которые определяются в рамках этого элемента Termsp.
Тогда дуга (p,q) будет соединять элементы Ep и Eq в том случае, когда имеется термин tE Terms?, который используется в текстах учебного элемента Eq.
Ключевые термины могут формироваться автором курса вручную, в случае если у него имеется подготовленный глоссарий или выбираться автоматически.
В работе [28] предложена методика извлечения терминов из русскоязычных текстов на основе шаблонов. Авторами были созданы три набора правил. Первый набор включал 12 правил и определял возможную грамматическую структуру термина как словосочетания, включающего определенные части речи и их грамматические характеристики. Следующий набор включал 53 правила, представляющие фразы- определения терминов, встречающиеся в научных и учебных текстах. Третий набор правил дает возможность определить сокращения или синонимы для учебных и научных текстов.
Разработанные наборы правил формируют три множества слов-кандидатов для каждого блока текста. Первый набор правил формирует полное множество возможных терминов, среди которых реальные определения составляют не более 10%. Затем отбираются термины за счет правил второго и третьего набора, точность выбора достигает 90%.
Далее отбор терминов осуществляется с помощью списка стоп-слов, которые не могут быть терминами, что позволяет отбросить общеупотребительные выражения. В список терминов обязательно входят слова из заголовков разделов документов, также учитывается частота появления термина в тексте, наличие общих родовых слов с терминами, уже выделенными алгоритмом. Предложенный метод демонстрирует достаточно высокую точность выделения определяемых терминов- более 70%, что позволяет достаточно грамотно построить граф содержания учебных элементов.
Альтернативный способ извлечения терминов предполагает использование языковых моделей [29-30] и дообучения на размеченном корпусе учебных текстов. Применение такого подхода при наличии большого обучающего набора может дать более высокую точность, однако требует экспериментального исследования, которое будет проведено в дальнейших исследованиях.