Статья: Исследование прогностических возможностей системы iWizard-E

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

1, 2 Поволжский государственный университет телекоммуникаций и информатики, Самара, Россия

* Корреспондирующий автор (psv[at]psuti.ru)

Исследование прогностических возможностей системы «iWizard-E»

Пальмов С.В.1, *, Мифтахова А.А.2

Аннотация

интеллектуальный абитуриент прогностический

Исследованы прогностические возможности «iWizard-E» ? интеллектуальной системы поддержки принятия решений, предназначенной для оказания помощи абитуриентам в выборе направления подготовки. Проведена серия экспериментов, в которых системой производилась обработка различных выборок, содержащих индивидуальные характеристики студентов и информацию об окончании ими вуза, с последующим генерированием рекомендаций относительно выбора предпочтительного направления подготовки. После этого было выполнено сравнение реальных данных с предложенными системой. В качестве критерия использовалась F-мера. Установлено, что «iWizard-E» позволяет формировать эффективные прогнозы.

Ключевые слова: искусственный интеллект, интеллектуальная система поддержки принятия решений, интеллектуальный анализ данных, Orange.

Abstract

The article considers prognostic capabilities of iWizard-E, an intelligent decision support system designed to help entrants choose their future career. A series of experiments was performed; various samples containing individual characteristics of students and information about their graduation from the university were processed followed by recommendations for choosing a preferred direction. After that, the real data were compared with the option proposed by the system. The F-measure was used as the criterion. It is established that “iWizard-E” allows creating effective forecasts.

Keywords: artificial intelligence, intelligent decision support system, data mining, Orange.

Одна из самых острых проблем вузов в настоящее время - успеваемость. Это вызвано все возрастающими требованиями к студентам. Как следствие, возникла ситуация, требующая осуществления некоторых мероприятий, направленных на повышение успеваемости студентов. Традиционные способы уже не оказывают должного эффекта. Поэтому в последние годы в сфере образования наметилась отчетливая тенденция использования разнообразных информационных технологий для повышения успеваемости студентов.

На вероятность успешного окончания студентом вуза, а значит, и на его успеваемость, сильное влияние оказывает то, насколько «правильно» было выбрано направление подготовки. Одним из способов снижения вероятности ошибки выбора является выявление скрытых закономерностей между индивидуальными характеристиками студента (абитуриента) и результатом окончания вуза с последующим использованием полученной информации для помощи абитуриенту при выборе направления подготовки на этапе подачи документов в приемную комиссию. На взгляд авторов, наиболее эффективный способ автоматизации процесса оказания помощи абитуриенту в вышеуказанном вопросе - это использование интеллектуальной системы поддержки принятия решений (ИСППР), разработанной с использованием технологии интеллектуального анализа данных (ИАД). Такая ИСППР использует модель предметной области (прогностическая модель), которая на основе неких знаний (закономерностей) вырабатывает прогнозы (рекомендации). [5, С. 7].

Описание экспериментов

ИСППР упомянутого типа разработана, зарегистрирована в Реестре программ для ЭВМ (свидетельство №2018616979, ИСППР «iWizard-E»), а ее основные особенности описаны и протестированы в [5, С. 8-10]. Однако было решено провести дополнительное исследование возможностей iWizard-E, использовав для этого F-меру (F1), поскольку она позволяет эффективнее оценить качество формируемых системой прогнозов. F-мера рассчитывается по формуле: [6].

Исследование состояло из 11 экспериментов. В каждом из них, кроме первого, использовалось по пять выборок определенного типа (стратифицированная, bootstrap и с возвращением), созданных средствами системы Orange [7, С. 95] на основе исходного набора данных (2618 записей) из [5, С. 8-9]. В указанный исходный набор данных было внесено единственное изменение - целевой показатель «сведения об окончании вуза» принимает только два значения: закончил вуз \ не закончил вуз. Таким образом, в ходе серии экспериментов оценивалась способность ИСППР «iWizard-E» формировать достоверные прогнозы относительно вероятности успешного окончания студентом вуза для выбранного направления подготовки.

Кратко опишем использованные типы выборок:

Стратифицированная выборка формируется в два этапа, в результате чего генеральная совокупность делится на слои (страты). Страты должны взаимно исключать и взаимно дополнять друг друга, чтобы каждый элемент совокупности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется метод простой случайной выборки [8].

Bootstrap-выборка - метод формирования нескольких выборок данных того же размера, что и исходная генеральная совокупность, но с разными распределениями интересующей величины [2].

Выборка с возвращением (replacement) - на вероятность появления элемента в выборке прочие элементы генеральной совокупности не влияют [10].

Эксперименты можно разделить на два вида. В первом из них для каждого критерия разбиения (Gini [4], Entropy [3], Information Gain [1] и Gain Ratio [9]) при помощи исходного набора обучалась прогностическая модель, которая затем проверялась на пяти выборках конкретного типа (эксперименты со второго по шестой; в первом эксперименте для проверки использовался исходный набор).

Эксперименты второго вида проводились по следующей схеме: 1) в результатах экспериментов со второго по шестой выбирались два множества, при проверках по которым iWizard-E показала лучший и худший результаты соответственно (буквы «л» и «х» в табл. 7-11); 2) на основании каждой пары выборок последовательно строились прогностические модели; 3) при помощи исходного набора выполнялась проверка построенных моделей.

Результаты экспериментов

Эксперимент №1 (тестирование на обучающем наборе данных)

Таблица 1 - Результаты эксперимента №1

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1

0,8846

0,8700

0,8671

0,8700

Эксперимент №2 (тестирование на стратифицированной выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 90% от обучающего множества.

Таблица 2 - Результаты эксперимента №2

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7779

0,7819

0,7807

0,7763

F1 (выборка 2)

0,7328

0,7240

0,7386

0,7240

F1 (выборка 3)

0,7379

0,7306

0,7255

0,7410

F1 (выборка 4)

0,7329

0,7219

0,7229

0,7238

F1 (выборка 5)

0,7368

0,7435

0,7444

0,7267

Эксперимент №3 (тестирование на стратифицированной выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 80% от обучающего множества.

Таблица 3 - Результаты эксперимента №3

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7422

0,7452

0,7464

0,7315

F1 (выборка 2)

0,7385

0,7386

0,7392

0,7257

F1 (выборка 3)

0,7366

0,7209

0,7221

0,7221

F1 (выборка 4)

0,7398

0,7469

0,7457

0,7331

F1 (выборка 5)

0,7428

0,7280

0,7462

0,7288

Эксперимент №4 (тестирование на стратифицированной выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 70% от обучающего множества.

Таблица 4 - Результаты эксперимента №4

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7358

0,7440

0,7457

0,7405

F1 (выборка 2)

0,7412

0,7279

0,7256

0,7432

F1 (выборка 3)

0,7392

0,7453

0,7451

0,7298

F1 (выборка 4)

0,7343

0,7283

0,7256

0,7419

F1 (выборка 5)

0,7438

0,7319

0,7431

0,7346

Эксперимент №5 (тестирование на bootstrap-выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 2618 записей.

Таблица 5 - Результаты эксперимента №5

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7393

0,7426

0,7321

0,7218

F1 (выборка 2)

0,7555

0,7537

0,7537

0,7382

F1 (выборка 3)

0,7210

0,7114

0,7140

0,7308

F1 (выборка 4)

0,7396

0,7383

0,7352

0,7176

F1 (выборка 5)

0,7154

0,7225

0,7091

0,7250

Эксперимент №6 (тестирование на выборке с возвращением)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 2618 записей.

Таблица 6 - Результаты эксперимента №6

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7402

0,7348

0,7339

0,7286

F1 (выборка 2)

0,7476

0,7308

0,7324

0,7357

F1 (выборка 3)

0,7495

0,7390

0,7337

0,7397

F1 (выборка 4)

0,7258

0,7323

0,7332

0,7342

F1 (выборка 5)

0,7382

0,7333

0,7279

0,7479

Эксперимент №7 (тестирование на исходном наборе)

Размер обучающего множества - 90% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).

Таблица 7 - Результаты эксперимента №7

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7727 л

0,8229 л

0,7705 л

0,7737 л

F1 (выборка 2)

0,7413 х

?

?

?

F1 (выборка 4)

?

0,7516 х

0,7577 х

0,7510 х

Эксперимент №8 (тестирование на исходном наборе)

Размер обучающего множества - 80% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).

Таблица 8 - Результаты эксперимента №8

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

?

?

0,7391 л

?

F1 (выборка 3)

0,7348 х

0,7101 х

0,7128 х

0,7134 х

F1 (выборка 4)

?

0,7233 л

?

0,7233 л

F1 (выборка 5)

0,7134 л

?

?

?

Эксперимент №9 (тестирование на исходном наборе)

Размер обучающего множества - 70% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).

Таблица 9 - Результаты эксперимента №9

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

?

?

0,7345 л

?

F1 (выборка 2)

?

0,7422 х

0,7422 х

0,7352 л

F1 (выборка 3)

?

0,7372 л

?

0,7371 х

F1 (выборка 4)

0,7290 х

?

?

?

F1 (выборка 5)

0,7336 л

?

?

?

Эксперимент №10 (тестирование на исходном наборе)

Размер обучающего множества - 2618 записей (bootstrap-выборка), размер тестовой выборки - 2618 записей (исходный набор).

Таблица 10 - Результаты эксперимента №10

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 2)

0,7307 л

0,7337 л

0,7318 л

0,7337 л

F1 (выборка 3)

?

0,7219 х

?

?

F1 (выборка 4)

?

?

?

0,7172 х

F1 (выборка 5)

0,7195 х

?

0,7325 х

?

Эксперимент №11 (тестирование на исходном наборе)

Размер обучающего множества - 2618 записей (выборка с возвращением), размер тестовой выборки - 2618 записей (исходный набор).