Таблица 11 - Результаты эксперимента №10
|
Критерий разбиения |
Gini |
Entropy |
Information Gain |
Gain Ratio |
|
|
F1 (выборка 1) |
? |
? |
0,6974 л |
0,7256 х |
|
|
F1 (выборка 2) |
? |
0,7115 х |
? |
? |
|
|
F1 (выборка 3) |
0,7480 л |
0,7288 л |
? |
? |
|
|
F1 (выборка 4) |
0,7406 х |
? |
? |
? |
|
|
F1 (выборка 5) |
? |
? |
0,7063 х |
0,7031 л |
Для полученных результатов были рассчитаны следующие характеристики: среднее, стандартное отклонение (СКО) и дисперсия.
Таблица 12 - Среднее, СКО, дисперсия для F1
|
Номера экспериментов |
Среднее |
СКО |
Дисперсия |
|
|
2-6 |
0,73627 |
0,01288 |
0,00017 |
|
|
7-11 |
0,73460 |
0,02286 |
0,00052 |
|
|
2-11 |
0,73580 |
0,01629 |
0,00027 |
|
|
без учета минимального и максимального значений F1 |
||||
|
2-6 |
0,73608 |
0,01184 |
0,00014 |
|
|
7-11 |
0,73330 |
0,01734 |
0,00030 |
|
|
2-11 |
0,73540 |
0,01424 |
0,00020 |
Данные эксперимента №1 в расчете характеристик не использовались. Причина указана в выводе №1 (см. далее).
Таблица 13 - Среднее, СКО, дисперсия для F1 (Gini)
|
Номера экспериментов |
Среднее |
СКО |
Дисперсия |
|
|
2-6 |
0,73938 |
0,01154 |
0,00013 |
|
|
7-11 |
0,73636 |
0,01635 |
0,00027 |
|
|
2-11 |
0,73852 |
0,01291 |
0,00017 |
|
|
без учета минимального и максимального значений F1 |
||||
|
2-6 |
0,73778 |
0,00847 |
0,00007 |
|
|
7-11 |
0,73891 |
0,01508 |
0,00023 |
|
|
2-11 |
0,73809 |
0,01043 |
0,00011 |
Таблица 14 - Среднее, СКО, дисперсия для F1 (Entropy)
|
Номера экспериментов |
Среднее |
СКО |
Дисперсия |
|
|
2-6 |
0,73590 |
0,01375 |
0,00019 |
|
|
7-11 |
0,73832 |
0,03244 |
0,00105 |
|
|
2-11 |
0,73659 |
0,02033 |
0,00041 |
|
|
без учета минимального и максимального значений F1 |
||||
|
2-6 |
0,73590 |
0,01375 |
0,00019 |
|
|
7-11 |
0,73128 |
0,01266 |
0,00016 |
|
|
2-11 |
0,73478 |
0,01345 |
0,00018 |
Таблица 15 - Среднее, СКО, дисперсия для F1 (Information Gain)
|
Номера экспериментов |
Среднее |
СКО |
Дисперсия |
|
|
2-6 |
0,73608 |
0,01435 |
0,00021 |
|
|
7-11 |
0,73248 |
0,02243 |
0,00050 |
|
|
2-11 |
0,73505 |
0,01677 |
0,00028 |
|
|
без учета минимального и максимального значений F1 |
||||
|
2-6 |
0,73422 |
0,01117 |
0,00012 |
|
|
7-11 |
0,73638 |
0,01988 |
0,00040 |
|
|
2-11 |
0,73481 |
0,01376 |
0,00019 |
Таблица 16 - Среднее, СКО, дисперсия для F1 (Gain Ratio)
|
Номера экспериментов |
Среднее |
СКО |
Дисперсия |
|
|
2-6 |
0,73370 |
0,01178 |
0,00014 |
|
|
7-11 |
0,73133 |
0,02014 |
0,00041 |
|
|
2-11 |
0,73302 |
0,01437 |
0,00021 |
|
|
без учета минимального и максимального значений F1 |
||||
|
2-6 |
0,73193 |
0,00791 |
0,00006 |
|
|
7-11 |
0,73447 |
0,01859 |
0,00035 |
|
|
2-11 |
0,73262 |
0,01152 |
0,00013 |
Изучив представленные результаты, можно сделать следующие выводы:
1. iWizard-E продемонстрировала наибольшую эффективность при использовании в качестве тестового множества итогового набора, то есть данных, которые применялись для обучения проверяемых прогностических моделей в первом эксперименте. Однако такой подход, как правило, демонстрирует завышенные значения показателей качества. Следовательно, эти результаты в дальнейшем учитываться не будут для повышения достоверности оценки работы системы.
2. Наилучший результат (F1 = 0,8229) был достигнут при: тип выборки = «стратифицированная», размер обучающей выборки = «90% от исходного набора», размер тестовой выборки = «2618 записей». Наихудший результат (F1 = 0,6974) был достигнут при: тип выборки = «с возвращением», размер обучающей выборки = «2618 записей», размер тестовой выборки = «исходный набор».
3. iWizard-E продемонстрировала наиболее стабильные результаты при использовании в качестве обучающего множества исходного набора (самые низкие значения СКО и дисперсии при наивысших средних значениях; см. строки 2 и 6 в табл. 12).
4. iWizard-E продемонстрировала наиболее стабильные результаты (см. табл. 13-16) при использовании критерия разбиения Gain Ratio (наименьшие значения СКО и дисперсии).
Таким образом, iWizard-E продемонстрировала достаточно высокие результаты при обработке различных наборов данных. Следовательно, можно утверждать, что ИСППР позволяет формировать эффективные прогнозы.
Список литературы / References
1. Бинарные деревья решений [Электронный ресурс]. ? Режим доступа: URL: https://ranalytics.github.io/data-mining/052-Binary-Decision-Trees.html. (08.08.2018).
2. Бутстрэп [Электронный ресурс]. ? Режим доступа: URL: https://basegroup.ru/community/glossary/bootstrap. (08.08.2018).
3. Информационная энтропия [Электронный ресурс]. ? Режим доступа: URL: http://ru.math.wikia.com/wiki/Информационная_энтропия. (08.08.2018).
4. Коэффициент Джини [Электронный ресурс]. ? Режим доступа: URL: http://www.economicportal.ru/ponyatiya-all/koefficient-dzhini.html. (08.08.2018).
5. Мифтахова, А. А. Использование методов искусственного интеллекта для повышения успеваемости студентов вузов / А. А. Мифтахова // Наука и бизнес: пути развития. ? 2017. ? № 5(71). ? С. 7-12.
6. Оценка классификатора (точность, полнота, F-мера) [Электронный ресурс]. ? Режим доступа: URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html. (08.08.2018).
7. Пальмов, С. В. Реализация деревьев решений в различных аналитических системах / С. В. Пальмов, А. А. Мифтахова // Перспективы науки. ? 2015. ? № 1(64). ? С. 93-98.
8. Стратифицированная выборка [Электронный ресурс]. ? Режим доступа: URL: http://www.market-journal.com/marketingovyeissledovanija/113.html. (08.08.2018).
9. Information gain ratio [Электронный ресурс]. ? Режим доступа: URL: https://en.wikipedia.org/wiki/Information_gain_ratio. (08.08.2018).