Статья: Использование методов Data Mining для анализа качества и ритмичности обучения студентов

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

УДК 004.825

Национальный исследовательский Иркутский государственный технический университет

Использование методов Data Mining для анализа качества и ритмичности обучения студентов

М.Н. Ихиритова

Государственный образовательный стандарт высшего профессионального образования предусматривает контроль качества обучения студентов - промежуточную и итоговую аттестацию. Промежуточная аттестация организуется в соответствии с учебным планом специальности вуза и проводится во время экзаменационных сессий. Как правило, студенты сдают 4-5 экзаменов. Практика учета успеваемости показывает, что экзаменационная сессия проходит для студентов по-разному, одни студенты сдают экзамены в срок на хорошие и отличные оценки, другие имеют отставания. Представляет интерес анализ ситуации и характеристика отставания в сдаче экзаменов для какой-либо конкретной экзаменационной сессии, а также выяснение существования взаимосвязи между наличием перерывов в обучении, качеством и ритмичностью обучения. Под ритмичностью обучения понимаем сдачу экзаменов в сроки сессий или с определенным отставанием.

Характеристика методов Data Mining. Методы Data Mining ориентированы на решение центральной проблемы Искусственного Интеллекта - на обнаружение закономерностей (или знаний), скрытых в описании имеющихся фактов, и на использовании этих закономерностей для предсказания будущих фактов. Data Mining - это процесс обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных для практики закономерностей [1].

Неочевидные - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

Объективные - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.

Практически полезные - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение.

Современные требования к эффективной интеллектуальной обработке данных:

§ данные не имеют ограничений в объеме;

§ допускаются к обработке разнородные данные (количественные, качественные, текстовые);

§ результаты должны быть конкретны и понятны;

§ инструменты для обработки данных должны быть просты в использовании [2].

Деревья решений (decision trees) - один из наиболее популярных подходов к решению задач Data Mining. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ... ТО...» (IF … THEN), имеющую вид дерева.

Одна из известных систем в классе Data Mining, использующая алгоритмы построения деревьев решений, - See5/С5.0 (RuleQuest, Австралия). Система See5 предназначена для анализа больших баз данных, содержащих до сотни тысяч записей и до сотни числовых или номинальных полей. Результат работы See5 выражается в виде деревьев решений и множества if-then-правил. Задача See5 состоит в предсказании диагностического класса какого-либо объекта по значениям его признаков. Выбор See5 для данного исследования объясняется не только широкими возможностями программы, но и тем, что DEMO-версия программы доступна, а правила ее использования описаны в отечественной литературе [2].

Постановка задачи. Выявить закономерности успеваемости студентов разных специальностей по каждому из девяти учебных семестров, ритмичности сдачи сессий и наличии перерывов в обучении. Для анализа выбран выпускной курс факультета кибернетики ИрГТУ.

Подготовка данных для анализа. Система See5 требует задание двух обязательных файлов: первый с перечислением имен разделяющих признаков и указанием классификационного признака (файл с расширением "*.names") и второй - с данными (файл с расширением "*.data"), где по строкам располагаются объекты, а по столбцам - признаки, причем в том порядке, в котором они заданы в файле названий.

При создании файла "*.names" использованы следующие классификации и обозначения.

Все студенты разделены на три класса (описательные показатели, имя поля в файле "*.names" class): Значения поля class:1, 2, 3:

1) студенты, претендующие на диплом с отличием (имеют средний балл по дисциплинам учебной программы (4,75-5,0);

2) хорошо успевающие студенты (средний балл 4,0-4,75);

3) студенты, имеющие удовлетворительную успеваемость (средний балл 3,0-3,99);

Для каждого студента указывается его специальность (имя поля в файле "*.names" -Spec ); значения поля Spec: IP, ASU, IT, EVM:

IP - «Прикладная информатика».

ASU - «Автоматизированные системы обработки информации и управления».

IT - «Информационные системы и технологии».

EVM - «Вычислительные машины, комплексы, системы и сети».

Для каждого студента указываются результаты аттестации за 1, 2, …, 9 семестр (имя полей в файле "*.names" - S1, S2, …, S9). Значения полей S1, S2, …, S9: A, B, C, D:

А - сессия сдана на «отлично»;

В - сессия сдана на «хорошо» и «отлично»;

С - сессия сдана с оценками «удовлетворительно»;

D - сессия сдана только на «удовлетворительно».

Для каждого студента указывается показатель ритмичности обучения - сроки сдачи 1, 2, …, 9 сессии (имя полей в файле "*.names" - SU1, SU2, …, SU9). Значения полей SU1, SU2, …, SU9: 0, 1, 2:

0 - сессия сдана в срок;

1 - сессия сдана с незначительным опозданием;

2 - сессия сдана со значительным опозданием.

Имя поля перерывы в обучении в файле "*.names" - Rest. Значения поля Rest :Yes, No - наличие или отсутствие перерывов в обучении (отчисление/восстановление, академический отпуск). Ниже приведена структура полученного файла "U.names" и фрагмент файла "U.data" для рассматриваемой задачи. знание иерархический обучение

Структура файла U.names

class.

class:1,2,3.

Spec: IP,ASU,IT,EVM.

S1:A,B,C,D.

S2:A,B,C,D.

….

S9:A,B,C,D.

SU1:0,1,2

SU2:0,1,2.

…..

SU9:0,1,2.

Rest:Yes,No

Фрагмент структуры файла U.data

2,IP,A,B,B,B,A,C,A,B,C,0,0,0,0,1,0,1,0,1,Yes

2,IP,C,B,B,B,A,C,A,B,C,0,0,0,0,1,0,1,0,1,No

1,IP,C,B,B,B,A,C,A,B,C,0,2,0,0,1,0,1,0,1,No

2,IP,C,B,B,B,A,C,A,B,C,0,0,0,0,1,0,1,0,1,No

Результаты оценки качества и ритмичности обучения с использованием системы See5. Исследование проведено по данным выпускного курса факультета кибернетики, число студентов составило 94 человека, была использована DEMO-версия программы See5.

В результате работы программы было получено следующее дерево решений:

Decision tree:

S2 = A: 1 (7)

S2 = D: 3 (2)

S2 = B:

:...S8 = D: 2 (0)

: S8 = A: 1 (13/2)

: S8 = B: 2 (11/2)

: S8 = C: 2 (4)

S2 = C:

:...S3 = A: 2 (0)

S3 = B: 2 (5/1)

S3 = D: 3 (3)

S3 = C:

:...S7 = A: 2 (9)

S7 = B: 2 (13)

S7 = D: 3 (9/1)

S7 = C:

:...S5 = A: 2 (1)

S5 = B: 2 (3)

S5 = C: 3 (13/5)

S5 = D: 3 (1).

Анализ полученного дерева решений возможен, но не удобен для восприятия. Вместо этого в системе See5 предусмотрена возможность преобразования дерева решений в набор правил IF … THEN. Всего было получено 13 правил, ниже представлен фрагмент полученных правил:

Read 94 cases (20 attributes) from U.data

Rules:

Rule 1: (7, lift 4.0)

OC2 = A

-> class 1 [0.889]

Rule 2: (13/2, lift 3.6)

OC2 = B

OC8 = A

-> class 1 [0.800]

Rule 3: (16/1, lift 1.6)

Правило 1: 7 студентов из числа претендующих на диплом с отличием вторую экзаменационную сессию сдали на отлично.

Правило 2: для 13 студентов из числа претендующих на диплом с отличием характерно, что вторая экзаменационная сессия сдана на хорошо и отлично, а 8 сессия - только на отлично, исключение из этого правила составили 2 студента.

Правило 3: для 16 студентов из числа имеющих удовлетворительную успеваемость характерно, что вторая экзаменационная сессия сдана с оценками удовлетворительно, а 5 сессия - на хорошо и отлично, исключение из этого правила составил 1 студент.

Следующие правила также показывают закономерности между классами студентов и результатами сдачи сессий. В восьми из 13 правил речь идет о второй сессии, результаты сдачи которой фактически классифицируют студентов также как и конечный результат их обучения. Такой же вывод, хотя и в меньшей степени, можно сделать о сдаче третьей сессии. Интересно, что никаких закономерностей в отношении ритмичности обучения, специальности по которой обучались студенты, и наличия перерывов в обучении система не выявила.

Выводы

Использование системы See5, реализующей один из методов Data Mining, позволило проанализировать качество и ритмичность обучения студентов:

§ выявлены закономерности между сдачей студентами второй и третьей сессии и средним баллом по результатам обучения;

§ незначительные закономерности существуют между сдачей студентами пятой, седьмой, восьмой сессии и средним баллом по результатам обучения;

§ закономерностей, связанных с первой, четвертой и девятой сессиями не выявлено;

§ не выявлено закономерностей, связанных со специальностью, по которой обучались студенты и наличием перерывов в обучении.

Библиографический список

1. Чубукова И. А. Data Mining: учеб. пособие. М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. 382 с.

2. Дюк В.А., Самойленко А.П. Data Mining: учебный курс. СПб.: Питер, 2001. 366 с.

3. Китаева О.И. Использование ИТ-инфраструктуры вуза для оценки общекультурных компетенций студента/выпускника: тр. XVI Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении». Т. 2. Иркутск. 2011.186 с.

Аннотация

Методы Data Mining ориентированы на обнаружение закономерностей (или знаний), скрытых в описании имеющихся фактов, и на использовании этих закономерностей для предсказания будущих фактов. Показано использование одного из методов поиска закономерностей - построение иерархической структуры классифицирующих правил для анализа качества и ритмичности обучения студентов. Приведены результаты анализа.

Ключевые слова: качество успеваемости; данные; интеллектуальная обработка данных; деревья решений.

DataMining methods are focused on revealing regularities (or knowledge), concealed in description of the facts, and on usage of these regularities in order to predict future facts. The paper shows one of the methods of searching regularities - plotting a hierarchical structure of ranking rules to analyze the quality and rhythmicity of students' training. The author presents the results of the analysis.

Keyword: quality of progress in studies, data, intelligent data processing, decision trees