Статья: Исследование прогностических возможностей системы iWizard-E

Скачать файл

Заказать новую работу

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

^{1, 2}Поволжский государственный университет телекоммуникаций и информатики, Самара, Россия

* Корреспондирующий автор (psv[at]psuti.ru)

Исследование прогностических возможностей системы «iWizard-E»

Пальмов С.В.^1,*, Мифтахова А.А.²

Аннотация

интеллектуальный абитуриент прогностический

Исследованы прогностические возможности «iWizard-E» ? интеллектуальной системы поддержки принятия решений, предназначенной для оказания помощи абитуриентам в выборе направления подготовки. Проведена серия экспериментов, в которых системой производилась обработка различных выборок, содержащих индивидуальные характеристики студентов и информацию об окончании ими вуза, с последующим генерированием рекомендаций относительно выбора предпочтительного направления подготовки. После этого было выполнено сравнение реальных данных с предложенными системой. В качестве критерия использовалась F-мера. Установлено, что «iWizard-E» позволяет формировать эффективные прогнозы.

Ключевые слова: искусственный интеллект, интеллектуальная система поддержки принятия решений, интеллектуальный анализ данных, Orange.

Abstract

The article considers prognostic capabilities of iWizard-E, an intelligent decision support system designed to help entrants choose their future career. A series of experiments was performed; various samples containing individual characteristics of students and information about their graduation from the university were processed followed by recommendations for choosing a preferred direction. After that, the real data were compared with the option proposed by the system. The F-measure was used as the criterion. It is established that “iWizard-E” allows creating effective forecasts.

Keywords: artificial intelligence, intelligent decision support system, data mining, Orange.

Одна из самых острых проблем вузов в настоящее время - успеваемость. Это вызвано все возрастающими требованиями к студентам. Как следствие, возникла ситуация, требующая осуществления некоторых мероприятий, направленных на повышение успеваемости студентов. Традиционные способы уже не оказывают должного эффекта. Поэтому в последние годы в сфере образования наметилась отчетливая тенденция использования разнообразных информационных технологий для повышения успеваемости студентов.

На вероятность успешного окончания студентом вуза, а значит, и на его успеваемость, сильное влияние оказывает то, насколько «правильно» было выбрано направление подготовки. Одним из способов снижения вероятности ошибки выбора является выявление скрытых закономерностей между индивидуальными характеристиками студента (абитуриента) и результатом окончания вуза с последующим использованием полученной информации для помощи абитуриенту при выборе направления подготовки на этапе подачи документов в приемную комиссию. На взгляд авторов, наиболее эффективный способ автоматизации процесса оказания помощи абитуриенту в вышеуказанном вопросе - это использование интеллектуальной системы поддержки принятия решений (ИСППР), разработанной с использованием технологии интеллектуального анализа данных (ИАД). Такая ИСППР использует модель предметной области (прогностическая модель), которая на основе неких знаний (закономерностей) вырабатывает прогнозы (рекомендации). [5, С. 7].

Описание экспериментов

ИСППР упомянутого типа разработана, зарегистрирована в Реестре программ для ЭВМ (свидетельство №2018616979, ИСППР «iWizard-E»), а ее основные особенности описаны и протестированы в [5, С. 8-10]. Однако было решено провести дополнительное исследование возможностей iWizard-E, использовав для этого F-меру (F1), поскольку она позволяет эффективнее оценить качество формируемых системой прогнозов. F-мера рассчитывается по формуле: [6].

Исследование состояло из 11 экспериментов. В каждом из них, кроме первого, использовалось по пять выборок определенного типа (стратифицированная, bootstrap и с возвращением), созданных средствами системы Orange [7, С. 95] на основе исходного набора данных (2618 записей) из [5, С. 8-9]. В указанный исходный набор данных было внесено единственное изменение - целевой показатель «сведения об окончании вуза» принимает только два значения: закончил вуз \ не закончил вуз. Таким образом, в ходе серии экспериментов оценивалась способность ИСППР «iWizard-E» формировать достоверные прогнозы относительно вероятности успешного окончания студентом вуза для выбранного направления подготовки.

Кратко опишем использованные типы выборок:

Стратифицированная выборка формируется в два этапа, в результате чего генеральная совокупность делится на слои (страты). Страты должны взаимно исключать и взаимно дополнять друг друга, чтобы каждый элемент совокупности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется метод простой случайной выборки [8].

Bootstrap-выборка - метод формирования нескольких выборок данных того же размера, что и исходная генеральная совокупность, но с разными распределениями интересующей величины [2].

Выборка с возвращением (replacement) - на вероятность появления элемента в выборке прочие элементы генеральной совокупности не влияют [10].

Эксперименты можно разделить на два вида. В первом из них для каждого критерия разбиения (Gini [4], Entropy [3], Information Gain [1] и Gain Ratio [9]) при помощи исходного набора обучалась прогностическая модель, которая затем проверялась на пяти выборках конкретного типа (эксперименты со второго по шестой; в первом эксперименте для проверки использовался исходный набор).

Эксперименты второго вида проводились по следующей схеме: 1) в результатах экспериментов со второго по шестой выбирались два множества, при проверках по которым iWizard-E показала лучший и худший результаты соответственно (буквы «л» и «х» в табл. 7-11); 2) на основании каждой пары выборок последовательно строились прогностические модели; 3) при помощи исходного набора выполнялась проверка построенных моделей.

Результаты экспериментов

Эксперимент №1 (тестирование на обучающем наборе данных)

Таблица 1 - Результаты эксперимента №1

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1	0,8846	0,8700	0,8671	0,8700

Эксперимент №2 (тестирование на стратифицированной выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 90% от обучающего множества.

Таблица 2 - Результаты эксперимента №2

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7779	0,7819	0,7807	0,7763
F1 (выборка 2)	0,7328	0,7240	0,7386	0,7240
F1 (выборка 3)	0,7379	0,7306	0,7255	0,7410
F1 (выборка 4)	0,7329	0,7219	0,7229	0,7238
F1 (выборка 5)	0,7368	0,7435	0,7444	0,7267

Эксперимент №3 (тестирование на стратифицированной выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 80% от обучающего множества.

Таблица 3 - Результаты эксперимента №3

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7422	0,7452	0,7464	0,7315
F1 (выборка 2)	0,7385	0,7386	0,7392	0,7257
F1 (выборка 3)	0,7366	0,7209	0,7221	0,7221
F1 (выборка 4)	0,7398	0,7469	0,7457	0,7331
F1 (выборка 5)	0,7428	0,7280	0,7462	0,7288

Эксперимент №4 (тестирование на стратифицированной выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 70% от обучающего множества.

Таблица 4 - Результаты эксперимента №4

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7358	0,7440	0,7457	0,7405
F1 (выборка 2)	0,7412	0,7279	0,7256	0,7432
F1 (выборка 3)	0,7392	0,7453	0,7451	0,7298
F1 (выборка 4)	0,7343	0,7283	0,7256	0,7419
F1 (выборка 5)	0,7438	0,7319	0,7431	0,7346

Эксперимент №5 (тестирование на bootstrap-выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 2618 записей.

Таблица 5 - Результаты эксперимента №5

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7393	0,7426	0,7321	0,7218
F1 (выборка 2)	0,7555	0,7537	0,7537	0,7382
F1 (выборка 3)	0,7210	0,7114	0,7140	0,7308
F1 (выборка 4)	0,7396	0,7383	0,7352	0,7176
F1 (выборка 5)	0,7154	0,7225	0,7091	0,7250

Эксперимент №6 (тестирование на выборке с возвращением)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 2618 записей.

Таблица 6 - Результаты эксперимента №6

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7402	0,7348	0,7339	0,7286
F1 (выборка 2)	0,7476	0,7308	0,7324	0,7357
F1 (выборка 3)	0,7495	0,7390	0,7337	0,7397
F1 (выборка 4)	0,7258	0,7323	0,7332	0,7342
F1 (выборка 5)	0,7382	0,7333	0,7279	0,7479

Эксперимент №7 (тестирование на исходном наборе)

Размер обучающего множества - 90% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).

Таблица 7 - Результаты эксперимента №7

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7727 л	0,8229 л	0,7705 л	0,7737 л
F1 (выборка 2)	0,7413 х	?	?	?
F1 (выборка 4)	?	0,7516 х	0,7577 х	0,7510 х

Эксперимент №8 (тестирование на исходном наборе)

Размер обучающего множества - 80% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).

Таблица 8 - Результаты эксперимента №8

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	?	?	0,7391 л	?
F1 (выборка 3)	0,7348 х	0,7101 х	0,7128 х	0,7134 х
F1 (выборка 4)	?	0,7233 л	?	0,7233 л
F1 (выборка 5)	0,7134 л	?	?	?

Эксперимент №9 (тестирование на исходном наборе)

Размер обучающего множества - 70% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).

Таблица 9 - Результаты эксперимента №9

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	?	?	0,7345 л	?
F1 (выборка 2)	?	0,7422 х	0,7422 х	0,7352 л
F1 (выборка 3)	?	0,7372 л	?	0,7371 х
F1 (выборка 4)	0,7290 х	?	?	?
F1 (выборка 5)	0,7336 л	?	?	?

Эксперимент №10 (тестирование на исходном наборе)

Размер обучающего множества - 2618 записей (bootstrap-выборка), размер тестовой выборки - 2618 записей (исходный набор).

Таблица 10 - Результаты эксперимента №10

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 2)	0,7307 л	0,7337 л	0,7318 л	0,7337 л
F1 (выборка 3)	?	0,7219 х	?	?
F1 (выборка 4)	?	?	?	0,7172 х
F1 (выборка 5)	0,7195 х	?	0,7325 х	?

Эксперимент №11 (тестирование на исходном наборе)

Размер обучающего множества - 2618 записей (выборка с возвращением), размер тестовой выборки - 2618 записей (исходный набор).

Смотрите также:


«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
Значение, сущность и содержание социально — педагогической деятельности в организации для детей-сирот и детей, оставшихся без попечения родителей
Проактивные методы PR-деятельности российских авиационных компаний «Россия», «Азимут»
__RGR2
__RGR2
_11_А. Франс для эл версии
_индив анализ данных
_РГР № 3