Статья: Исследование прогностических возможностей системы iWizard-E

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Таблица 11 - Результаты эксперимента №10

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

?

?

0,6974 л

0,7256 х

F1 (выборка 2)

?

0,7115 х

?

?

F1 (выборка 3)

0,7480 л

0,7288 л

?

?

F1 (выборка 4)

0,7406 х

?

?

?

F1 (выборка 5)

?

?

0,7063 х

0,7031 л

Для полученных результатов были рассчитаны следующие характеристики: среднее, стандартное отклонение (СКО) и дисперсия.

Таблица 12 - Среднее, СКО, дисперсия для F1

Номера экспериментов

Среднее

СКО

Дисперсия

2-6

0,73627

0,01288

0,00017

7-11

0,73460

0,02286

0,00052

2-11

0,73580

0,01629

0,00027

без учета минимального и максимального значений F1

2-6

0,73608

0,01184

0,00014

7-11

0,73330

0,01734

0,00030

2-11

0,73540

0,01424

0,00020

Данные эксперимента №1 в расчете характеристик не использовались. Причина указана в выводе №1 (см. далее).

Таблица 13 - Среднее, СКО, дисперсия для F1 (Gini)

Номера экспериментов

Среднее

СКО

Дисперсия

2-6

0,73938

0,01154

0,00013

7-11

0,73636

0,01635

0,00027

2-11

0,73852

0,01291

0,00017

без учета минимального и максимального значений F1

2-6

0,73778

0,00847

0,00007

7-11

0,73891

0,01508

0,00023

2-11

0,73809

0,01043

0,00011

Таблица 14 - Среднее, СКО, дисперсия для F1 (Entropy)

Номера экспериментов

Среднее

СКО

Дисперсия

2-6

0,73590

0,01375

0,00019

7-11

0,73832

0,03244

0,00105

2-11

0,73659

0,02033

0,00041

без учета минимального и максимального значений F1

2-6

0,73590

0,01375

0,00019

7-11

0,73128

0,01266

0,00016

2-11

0,73478

0,01345

0,00018

Таблица 15 - Среднее, СКО, дисперсия для F1 (Information Gain)

Номера экспериментов

Среднее

СКО

Дисперсия

2-6

0,73608

0,01435

0,00021

7-11

0,73248

0,02243

0,00050

2-11

0,73505

0,01677

0,00028

без учета минимального и максимального значений F1

2-6

0,73422

0,01117

0,00012

7-11

0,73638

0,01988

0,00040

2-11

0,73481

0,01376

0,00019

Таблица 16 - Среднее, СКО, дисперсия для F1 (Gain Ratio)

Номера экспериментов

Среднее

СКО

Дисперсия

2-6

0,73370

0,01178

0,00014

7-11

0,73133

0,02014

0,00041

2-11

0,73302

0,01437

0,00021

без учета минимального и максимального значений F1

2-6

0,73193

0,00791

0,00006

7-11

0,73447

0,01859

0,00035

2-11

0,73262

0,01152

0,00013

Изучив представленные результаты, можно сделать следующие выводы:

1. iWizard-E продемонстрировала наибольшую эффективность при использовании в качестве тестового множества итогового набора, то есть данных, которые применялись для обучения проверяемых прогностических моделей в первом эксперименте. Однако такой подход, как правило, демонстрирует завышенные значения показателей качества. Следовательно, эти результаты в дальнейшем учитываться не будут для повышения достоверности оценки работы системы.

2. Наилучший результат (F1 = 0,8229) был достигнут при: тип выборки = «стратифицированная», размер обучающей выборки = «90% от исходного набора», размер тестовой выборки = «2618 записей». Наихудший результат (F1 = 0,6974) был достигнут при: тип выборки = «с возвращением», размер обучающей выборки = «2618 записей», размер тестовой выборки = «исходный набор».

3. iWizard-E продемонстрировала наиболее стабильные результаты при использовании в качестве обучающего множества исходного набора (самые низкие значения СКО и дисперсии при наивысших средних значениях; см. строки 2 и 6 в табл. 12).

4. iWizard-E продемонстрировала наиболее стабильные результаты (см. табл. 13-16) при использовании критерия разбиения Gain Ratio (наименьшие значения СКО и дисперсии).

Таким образом, iWizard-E продемонстрировала достаточно высокие результаты при обработке различных наборов данных. Следовательно, можно утверждать, что ИСППР позволяет формировать эффективные прогнозы.

Список литературы / References

1. Бинарные деревья решений [Электронный ресурс]. ? Режим доступа: URL: https://ranalytics.github.io/data-mining/052-Binary-Decision-Trees.html. (08.08.2018).

2. Бутстрэп [Электронный ресурс]. ? Режим доступа: URL: https://basegroup.ru/community/glossary/bootstrap. (08.08.2018).

3. Информационная энтропия [Электронный ресурс]. ? Режим доступа: URL: http://ru.math.wikia.com/wiki/Информационная_энтропия. (08.08.2018).

4. Коэффициент Джини [Электронный ресурс]. ? Режим доступа: URL: http://www.economicportal.ru/ponyatiya-all/koefficient-dzhini.html. (08.08.2018).

5. Мифтахова, А. А. Использование методов искусственного интеллекта для повышения успеваемости студентов вузов / А. А. Мифтахова // Наука и бизнес: пути развития. ? 2017. ? № 5(71). ? С. 7-12.

6. Оценка классификатора (точность, полнота, F-мера) [Электронный ресурс]. ? Режим доступа: URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html. (08.08.2018).

7. Пальмов, С. В. Реализация деревьев решений в различных аналитических системах / С. В. Пальмов, А. А. Мифтахова // Перспективы науки. ? 2015. ? № 1(64). ? С. 93-98.

8. Стратифицированная выборка [Электронный ресурс]. ? Режим доступа: URL: http://www.market-journal.com/marketingovyeissledovanija/113.html. (08.08.2018).

9. Information gain ratio [Электронный ресурс]. ? Режим доступа: URL: https://en.wikipedia.org/wiki/Information_gain_ratio. (08.08.2018).