1, 2 Поволжский государственный университет телекоммуникаций и информатики, Самара, Россия
* Корреспондирующий автор (psv[at]psuti.ru)
Исследование прогностических возможностей системы «iWizard-E»
Пальмов С.В.1, *, Мифтахова А.А.2
Аннотация
интеллектуальный абитуриент прогностический
Исследованы прогностические возможности «iWizard-E» ? интеллектуальной системы поддержки принятия решений, предназначенной для оказания помощи абитуриентам в выборе направления подготовки. Проведена серия экспериментов, в которых системой производилась обработка различных выборок, содержащих индивидуальные характеристики студентов и информацию об окончании ими вуза, с последующим генерированием рекомендаций относительно выбора предпочтительного направления подготовки. После этого было выполнено сравнение реальных данных с предложенными системой. В качестве критерия использовалась F-мера. Установлено, что «iWizard-E» позволяет формировать эффективные прогнозы.
Ключевые слова: искусственный интеллект, интеллектуальная система поддержки принятия решений, интеллектуальный анализ данных, Orange.
Abstract
The article considers prognostic capabilities of iWizard-E, an intelligent decision support system designed to help entrants choose their future career. A series of experiments was performed; various samples containing individual characteristics of students and information about their graduation from the university were processed followed by recommendations for choosing a preferred direction. After that, the real data were compared with the option proposed by the system. The F-measure was used as the criterion. It is established that “iWizard-E” allows creating effective forecasts.
Keywords: artificial intelligence, intelligent decision support system, data mining, Orange.
Одна из самых острых проблем вузов в настоящее время - успеваемость. Это вызвано все возрастающими требованиями к студентам. Как следствие, возникла ситуация, требующая осуществления некоторых мероприятий, направленных на повышение успеваемости студентов. Традиционные способы уже не оказывают должного эффекта. Поэтому в последние годы в сфере образования наметилась отчетливая тенденция использования разнообразных информационных технологий для повышения успеваемости студентов.
На вероятность успешного окончания студентом вуза, а значит, и на его успеваемость, сильное влияние оказывает то, насколько «правильно» было выбрано направление подготовки. Одним из способов снижения вероятности ошибки выбора является выявление скрытых закономерностей между индивидуальными характеристиками студента (абитуриента) и результатом окончания вуза с последующим использованием полученной информации для помощи абитуриенту при выборе направления подготовки на этапе подачи документов в приемную комиссию. На взгляд авторов, наиболее эффективный способ автоматизации процесса оказания помощи абитуриенту в вышеуказанном вопросе - это использование интеллектуальной системы поддержки принятия решений (ИСППР), разработанной с использованием технологии интеллектуального анализа данных (ИАД). Такая ИСППР использует модель предметной области (прогностическая модель), которая на основе неких знаний (закономерностей) вырабатывает прогнозы (рекомендации). [5, С. 7].
Описание экспериментов
ИСППР упомянутого типа разработана, зарегистрирована в Реестре программ для ЭВМ (свидетельство №2018616979, ИСППР «iWizard-E»), а ее основные особенности описаны и протестированы в [5, С. 8-10]. Однако было решено провести дополнительное исследование возможностей iWizard-E, использовав для этого F-меру (F1), поскольку она позволяет эффективнее оценить качество формируемых системой прогнозов. F-мера рассчитывается по формуле: [6].
Исследование состояло из 11 экспериментов. В каждом из них, кроме первого, использовалось по пять выборок определенного типа (стратифицированная, bootstrap и с возвращением), созданных средствами системы Orange [7, С. 95] на основе исходного набора данных (2618 записей) из [5, С. 8-9]. В указанный исходный набор данных было внесено единственное изменение - целевой показатель «сведения об окончании вуза» принимает только два значения: закончил вуз \ не закончил вуз. Таким образом, в ходе серии экспериментов оценивалась способность ИСППР «iWizard-E» формировать достоверные прогнозы относительно вероятности успешного окончания студентом вуза для выбранного направления подготовки.
Кратко опишем использованные типы выборок:
Стратифицированная выборка формируется в два этапа, в результате чего генеральная совокупность делится на слои (страты). Страты должны взаимно исключать и взаимно дополнять друг друга, чтобы каждый элемент совокупности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется метод простой случайной выборки [8].
Bootstrap-выборка - метод формирования нескольких выборок данных того же размера, что и исходная генеральная совокупность, но с разными распределениями интересующей величины [2].
Выборка с возвращением (replacement) - на вероятность появления элемента в выборке прочие элементы генеральной совокупности не влияют [10].
Эксперименты можно разделить на два вида. В первом из них для каждого критерия разбиения (Gini [4], Entropy [3], Information Gain [1] и Gain Ratio [9]) при помощи исходного набора обучалась прогностическая модель, которая затем проверялась на пяти выборках конкретного типа (эксперименты со второго по шестой; в первом эксперименте для проверки использовался исходный набор).
Эксперименты второго вида проводились по следующей схеме: 1) в результатах экспериментов со второго по шестой выбирались два множества, при проверках по которым iWizard-E показала лучший и худший результаты соответственно (буквы «л» и «х» в табл. 7-11); 2) на основании каждой пары выборок последовательно строились прогностические модели; 3) при помощи исходного набора выполнялась проверка построенных моделей.
Результаты экспериментов
Эксперимент №1 (тестирование на обучающем наборе данных)
Таблица 1 - Результаты эксперимента №1
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 |
0,8846 |
0,8700 |
0,8671 |
0,8700 |
Эксперимент №2 (тестирование на стратифицированной выборке)
Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 90% от обучающего множества.
Таблица 2 - Результаты эксперимента №2
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 (выборка 1) |
0,7779 |
0,7819 |
0,7807 |
0,7763 |
|
|
F1 (выборка 2) |
0,7328 |
0,7240 |
0,7386 |
0,7240 |
|
|
F1 (выборка 3) |
0,7379 |
0,7306 |
0,7255 |
0,7410 |
|
|
F1 (выборка 4) |
0,7329 |
0,7219 |
0,7229 |
0,7238 |
|
|
F1 (выборка 5) |
0,7368 |
0,7435 |
0,7444 |
0,7267 |
Эксперимент №3 (тестирование на стратифицированной выборке)
Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 80% от обучающего множества.
Таблица 3 - Результаты эксперимента №3
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 (выборка 1) |
0,7422 |
0,7452 |
0,7464 |
0,7315 |
|
|
F1 (выборка 2) |
0,7385 |
0,7386 |
0,7392 |
0,7257 |
|
|
F1 (выборка 3) |
0,7366 |
0,7209 |
0,7221 |
0,7221 |
|
|
F1 (выборка 4) |
0,7398 |
0,7469 |
0,7457 |
0,7331 |
|
|
F1 (выборка 5) |
0,7428 |
0,7280 |
0,7462 |
0,7288 |
Эксперимент №4 (тестирование на стратифицированной выборке)
Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 70% от обучающего множества.
Таблица 4 - Результаты эксперимента №4
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 (выборка 1) |
0,7358 |
0,7440 |
0,7457 |
0,7405 |
|
|
F1 (выборка 2) |
0,7412 |
0,7279 |
0,7256 |
0,7432 |
|
|
F1 (выборка 3) |
0,7392 |
0,7453 |
0,7451 |
0,7298 |
|
|
F1 (выборка 4) |
0,7343 |
0,7283 |
0,7256 |
0,7419 |
|
|
F1 (выборка 5) |
0,7438 |
0,7319 |
0,7431 |
0,7346 |
Эксперимент №5 (тестирование на bootstrap-выборке)
Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 2618 записей.
Таблица 5 - Результаты эксперимента №5
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 (выборка 1) |
0,7393 |
0,7426 |
0,7321 |
0,7218 |
|
|
F1 (выборка 2) |
0,7555 |
0,7537 |
0,7537 |
0,7382 |
|
|
F1 (выборка 3) |
0,7210 |
0,7114 |
0,7140 |
0,7308 |
|
|
F1 (выборка 4) |
0,7396 |
0,7383 |
0,7352 |
0,7176 |
|
|
F1 (выборка 5) |
0,7154 |
0,7225 |
0,7091 |
0,7250 |
Эксперимент №6 (тестирование на выборке с возвращением)
Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 2618 записей.
Таблица 6 - Результаты эксперимента №6
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 (выборка 1) |
0,7402 |
0,7348 |
0,7339 |
0,7286 |
|
|
F1 (выборка 2) |
0,7476 |
0,7308 |
0,7324 |
0,7357 |
|
|
F1 (выборка 3) |
0,7495 |
0,7390 |
0,7337 |
0,7397 |
|
|
F1 (выборка 4) |
0,7258 |
0,7323 |
0,7332 |
0,7342 |
|
|
F1 (выборка 5) |
0,7382 |
0,7333 |
0,7279 |
0,7479 |
Эксперимент №7 (тестирование на исходном наборе)
Размер обучающего множества - 90% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).
Таблица 7 - Результаты эксперимента №7
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 (выборка 1) |
0,7727 л |
0,8229 л |
0,7705 л |
0,7737 л |
|
|
F1 (выборка 2) |
0,7413 х |
? |
? |
? |
|
|
F1 (выборка 4) |
? |
0,7516 х |
0,7577 х |
0,7510 х |
Эксперимент №8 (тестирование на исходном наборе)
Размер обучающего множества - 80% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).
Таблица 8 - Результаты эксперимента №8
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 (выборка 1) |
? |
? |
0,7391 л |
? |
|
|
F1 (выборка 3) |
0,7348 х |
0,7101 х |
0,7128 х |
0,7134 х |
|
|
F1 (выборка 4) |
? |
0,7233 л |
? |
0,7233 л |
|
|
F1 (выборка 5) |
0,7134 л |
? |
? |
? |
Эксперимент №9 (тестирование на исходном наборе)
Размер обучающего множества - 70% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).
Таблица 9 - Результаты эксперимента №9
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 (выборка 1) |
? |
? |
0,7345 л |
? |
|
|
F1 (выборка 2) |
? |
0,7422 х |
0,7422 х |
0,7352 л |
|
|
F1 (выборка 3) |
? |
0,7372 л |
? |
0,7371 х |
|
|
F1 (выборка 4) |
0,7290 х |
? |
? |
? |
|
|
F1 (выборка 5) |
0,7336 л |
? |
? |
? |
Эксперимент №10 (тестирование на исходном наборе)
Размер обучающего множества - 2618 записей (bootstrap-выборка), размер тестовой выборки - 2618 записей (исходный набор).
Таблица 10 - Результаты эксперимента №10
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 (выборка 2) |
0,7307 л |
0,7337 л |
0,7318 л |
0,7337 л |
|
|
F1 (выборка 3) |
? |
0,7219 х |
? |
? |
|
|
F1 (выборка 4) |
? |
? |
? |
0,7172 х |
|
|
F1 (выборка 5) |
0,7195 х |
? |
0,7325 х |
? |
Эксперимент №11 (тестирование на исходном наборе)
Размер обучающего множества - 2618 записей (выборка с возвращением), размер тестовой выборки - 2618 записей (исходный набор).