Уверенность в том, что созданные модели позволяют качественно решить все эти задачи основывается на том, что эти модели правильно отражают объект моделирования, т.е. имеют высокую достоверность (адекватность). Если модели имеют высокую достоверность, то и решение перечисленных задач будет успешным. Если же достоверность моделей низка или неизвестна, то применять их некорректно, рискованно и даже может быть опасно.
Если модели достоверны, то результаты идентификации будут верны, например верным будет диагноз пациенту, и врач будет лечить его от той болезни, которой тот действительно болен, что и дает пациенту шанс на выздоровление. Если же диагноз ошибочный, то пациент получит неадекватное лечение, т.е. лечение не от той болезни, которая у него. Естественно при таком лечении его болезнь не будет вылечена, а еще и будут получены побочные эффекты от лечения, что может привести к самым печальным последствиям.
Если модели достоверны, то сделанные на их основе прогнозы осуществятся.
Если модели достоверны, то принятые на их основе решения приведут к переходу объекта управления в целевые состояния, т.е. будут эффективны при достижении цели.
Если модели достоверны, то извлеченные из них знания действительно можно обоснованно считать знаниями об объекте моделирования.
Без этой уверенности в достаточно высокой достоверности моделей применять эти модели для решения задач и выработки рекомендаций по меньшей мере некорректно, рискованно и даже может быть опасно. Если же рекомендации выработаны, то нельзя (некорректно) применять их на практике в моделируемой предметной области, а можно только исследовать, какой бы эффект был получен при реальном применении этих рекомендаций.
Иногда на это возражают: мы не оценивали достоверность созданных нами моделей и не знали какова их достоверность, но выработали на их основе рекомендации, применили их на практике в объекте моделирования и результат был успешным, положительным. Что на это можно сказать? Значит тем, кто вырабатывал эти рекомендации, и тем кто их применял, просто повезло. Значит фактически эти модели были достаточно достоверны. Но ведь это же могло быть и не так, и тогда и первым, и вторым бы не повезло, а может быть даже очень и очень не повезло. Разработчики бы потерпели фиаско, потеряли авторитет как ученые и разработчики, а те кто применял их рискованные рекомендации на практике скорее всего потерпел бы убытки, а может быть и обанкротились. Только представьте себе, что при работе на фондовом рынке будут использованы неадекватные модели, дающие неверные прогнозы и предлагающие неадекватные решения. Это может привести к очень большим финансовым потерям. Если же неадекватные модели применяются в медицине, военной области или политике, то чаще всего это приводит к человеческим жертвам, которые ничем не могут быть оправданы.
Таким образом, оценка степени адекватности моделей, т.е. их верификация, является ключевым вопросом, который обязательно должен быть решен перед реальным применением моделей. Не зная какова достоверность моделей применять их на практике крайне легкомысленно, рискованно и безответственно, а иногда даже и преступно (в зависимости от тяжести последствий такого применения для объекта моделирования).
Это значит, что если где-то сказано или написано слово «Модель», то где-то рядом должны быть слова: «Достоверность, адекватность, верификация, критерии достоверности».
Поэтому вопросам измерения достоверности созданных моделей в системе «Эйдос» уделено большое внимание, которого эти вопросы обоснованно безусловно заслуживают. Основным режимом оценки достоверности моделей является режим 3.4 (рисунок 12):
Рисунок 12. Экранная форма режима вывода результатов верификации моделей
Главный вывод, который можно обоснованно сделать по результатам исследования достоверности моделей состоит в том, что модельInf3 с интегральным критерием «Сумма знаний» по критерию L1 проф.Е.В.Луценко [23] обеспечивает чрезвычайно высокую достоверность 0.962, при максимуме 1,000. Это означает, что эту модель корректно применять для решения поставленных задач идентификации, прогнозирования, принятия решений и исследования моделируемого объекта путем исследования его модели.
Есть также режимы 4.1.3.7, 4.1.3.8, 4.1.3.9, 4.1.3.10, 4.1.3.11, более подробно отражающие различные аспекты достоверности моделей и предоставляющие более детализированную информацию по достоверности идентификации объектов и классов в различных моделях с различными интегральными критериями, чем режим 3.4.
Для количественной оценки достоверности моделей в системе «Эйдос» применяется несколько критериев.
Основным критерием достоверности моделей является F-мера Ван Ризбергена. Эта мера является чрезвычайно логичной и убедительной. Смысл ее в том, что модель должна правильно относить объекты к тем классам, к которым они относятся (истинно положительные решения) и правильно не относить к тем, к которым они не относятся (истинно отрицательные решения). И она может ошибаться и в первом и втором случае (соответственно, ложные положительные решения и ложные отрицательные решения). Ван Ризберген предложил сделать четыре сумматора, в которых подсчитывать количество истинных и ложных положительных и отрицательных решений (TP, TN, FP. FN). Он предложил также ряд формул, которые с помощью этих сумматоров позволяют рассчитать различные характеристики, описывающие достоверность модели, такие как ее точность, полнота и ряд других.
Однако F-мера Ван Ризбергена имеет ряд недостатков, а именно:
- является четкой, в результате чего она занижает достоверность моделей, является «несправедливой», т.к. не учитывает степени уверенности систему в ее решениях;
- является моноклассовой, т.е. предполагает, что один объект обучающей выборки может относиться только к одному классу;
- зависит от объема выборки, т.к. основана на абсолютных частотах истинных и ложных, положительных и отрицательных решений, а не на их относительных частотах, стремящихся к вероятностям при неограниченном увеличении объема распознаваемой (тестовой) выборки.
Эти недостатки сглажены и частично преодолены в ряде обобщений классической F-меры Ван Ризбергена, которые были разработаны и предложены автором данной работы [23] (рисунок 13).
Рисунок 13. HELP режима вывода результатов верификации моделей
Рассмотрим частотные распределения количества истинных и ложных положительных и отрицательных решений TP, TN, FP. FN в зависимости от уровня сходства объектов с классами, приведенные на первом рисунке 14.
Рисунок 14. Частотные распределения числа истинных и ложных положительных и отрицательных решений и их разностей
Рассмотрим подробнее на рисунках 14 вид частотных распределений количества истинных и ложных положительных и отрицательных решений (TP, TN, FP. FN), а также их разностей (TP-FP) и (TN-FN) (не нормированных и нормированных) в зависимости от уровня сходства объектов с классами при решении задачи идентификации. Заметим, что обычно достоверность моделей рассчитывается именно по результатам решения этой задачи.
Из этого рисунка мы видим, что для отрицательных решений:
- отрицательных решений истинных всегда больше чем ложных;
- чем больше степень различия, тем больше доля истинных отрицательных решений;
- начиная с уровня различия примерно -20% ложных отрицательных решений вообще практически нет.
Для положительных решений картина более сложная и включает три зоны в зависимости от уровня сходства:
- при уровнях сходства от 0% до примерно 10% доля ложных решений больше, чем истинных;
- при уровнях сходства от 10% до примерно 70% доля истинных решений больше, чем ложных;
- при уровнях сходства выше 70% ложных положительных решений вообще нет.
Это дает нам критерии как относится к результатам решения задачи идентификации в зависимости от уровня сходства.
Результаты, выводы, перспективы
Главный результат реализации Исследования состоит в том, что найдено новое математическое решение проблемы стратегического планирования и управления холдингом, как сверхсложной многопараметрической динамической нелинейной системой.
В ходе решения данной проблемы поставлены и решены следующие задачи:
Задача-1. Поставлена проблема, решаемая в работе, разработан математический метод и принципы создания модели для решения этой проблемы:
1. Поставлена проблема стратегического планирования и управления холдингами. Проблема, решаемая в работе, состоит в том, что для решения весьма актуальных задач прогнозирования и поддержки принятия решений (управления) агропромышленным холдингом необходима его адаптивная модель, синтез и адаптация которой весьма затруднительны из-за высокой динамичности и сложности внутренней логистики объекта управления, его территориально распределенного и многоотраслевого характера, и, соответственно, огромного количества экономических показателей, характеризующих деятельность холдинга на различных уровнях его структурной организации, в частности на уровне входящих в холдинг предприятий.
2. Описан традиционный подход и его недостатки, из-за которых он малопригоден для решения поставленной проблемы. По результатам этого обсуждения сделан вывод о том, что поставка и внедрение, а затем развитие, поддержка и эксплуатация столь масштабной информационной системы управления холдингом безусловно само по себе также представляет собой проблему, причем проблему возможно даже более сложную, чем та, которую таким путем пытаются решать.
3. Обоснованы требования к математическому методу и модели управления холдингами (он должен обеспечивать устойчивое выявление в сопоставимой форме силы и направления причинно-следственных зависимостей в неполных зашумленных взаимозависимых (нелинейных) данных очень большой размерности числовой и не числовой природы, измеряемых в различных типах шкал (номинальных, порядковых и числовых) и в различных единицах измерения (т.е. не предъявляет жестких требований к данным, которые невозможно выполнить, а обрабатывает те данные, которые есть).
4. Обоснован выбор математического метода автоматизированного системно-когнитивного анализа (АСК-анализ) и реализующего его программного инструментария - интеллектуальной системы «Эйдос», соответствующих обоснованным требованиям.
5. Разработан математический метод и принципы создания модели холдинга, соответствующие обоснованным требованиям:
- суть метода и математической модели АСК-анализа состоит в том, что в АСК-анализе факторы формально описываются шкалами, а значения факторов - градациями шкал. Существует три основных группы факторов: физические, социально-экономические и психологические (субъективные) и в каждой из этих групп есть много различных видов факторов, т.е. есть много различных физических факторов, много социально-экономических и много психологических, но в АСК-анализе все они рассматриваются с одной единственной точки зрения: сколько информации содержится в их значениях о переходе объекта, на который они действуют, в определенное состояние, и при этом сила и направление влияния всех значений факторов на объект измеряется в одних общих для всех факторов единицах измерения: единицах количества информации. Именно по этой причине вполне корректно складывать силу и направление влияния всех действующих на объект значений факторов, независимо от их природы, и определять результат совместного влияния на объект системы значений факторов. При этом в общем случае объект является нелинейным и факторы внутри него взаимодействуют друг с другом, т.е. для них не выполняется принцип суперпозиции [24];
- осуществлен синтез системно-когнитивных моделей, основанных на семи различных частных критериях знаний, проведена многопараметрическая типизация наблюдений состояний холдинга за ряд лет, описанных внутренними и внешними показателями работы входящих в холдинг предприятий;
- сформулированы два аддитивных интегральных критерия, которые в будущем планируется применить для решения задач системной идентификации и принятия решений.
Задача-2. Проведены когнитивная структуризация и формализация предметной области, т.е. выполнен 1-й этап создания модели холдинга:
- проведена когнитивная структуризация предметной области в результате которой определено 274 фактора, которые с разной силой и в разном направлении влияют на холдинг и обуславливают 44 вида его результирующих состояний;
- осуществлена формализация предметной области, т.е. разработаны классификационные и описательные шкалы и градации, причем в классификационных шкалах определено 132 градации, а описательных 822 градации;
- с помощью разработанных классификационных и описательных шкал и градаций проведено кодирование исходных данных и сформирована обучающая выборка, представляющая собой исходные данные, нормализованные с помощью справочников шкал и градаций. Объем обучающей выборки составляет 337568 фактов, причем фактом мы считаем наблюдение определенного значения фактора при определенном состоянии холдинга или входящих в него предприятий.
Задача-3. Осуществлены синтез и верификация системно-когнитивной модели холдинга на примере холдинга, т.е. выполнен 2-й этап создания модели:
- осуществлен синтез трех статистических и семи системно-когнитивных моделей холдинга (ABS, матрица абсолютных частот; PRC1, матрица условных и безусловных процентных распределений, в которой в качестве суммы по классу Nj в Abs используется суммарное количество признаков по классу; PRC2, матрица условных и безусловных процентных распределений, в которой в качестве суммы по классу Nj в Abs используется суммарное количество объектов обучающей выборки по классу; INF1, частный критерий: количество знаний по А.Харкевичу, 1-й вариант расчета вероятностей: Nj - суммарное количество признаков по j-му классу. Вероятность того, что если у объекта j-го класса обнаружен признак, то это i-й признак; INF2, частный критерий: количество знаний по А.Харкевичу, 2-й вариант расчета вероятностей: Nj - суммарное количество объектов по j-му классу. Вероятность того, что если предъявлен объект j-го класса, то у него будет обнаружен i-й признак; INF3, частный критерий: Хи-квадрат: разности между фактическими и теоретически ожидаемыми абсолютными частотами; INF4, частный критерий: ROI - Return On Investment, 1-й вариант расчета вероятностей: Nj - суммарное количество признаков по j-му классу; INF5, частный критерий: ROI - Return On Investment, 2-й вариант расчета вероятностей: Nj - суммарное количество объектов по j-му классу; INF6, частный критерий: разность условной и безусловной вероятностей, 1-й вариант расчета вероятностей: Nj - суммарное количество признаков по j-му классу; INF7, частный критерий: разность условной и безусловной вероятностей, 2-й вариант расчета вероятностей: Nj - суммарное количество объектов по j-му классу);