При лемматизации в системе «Эйдос» используется база лемматизации, созданная академиком РАН Андреем Анатольевичем Зализняком, включая около 2 млн. словоформ русского языка.
2.4 Синтез системно-когнитивных моделей и частные критерии знаний, многопараметрическая типизация
Математическая модель АСК-анализа и системы «Эйдос» основана на системной нечеткой интервальной математике [31, 48] и обеспечивает сопоставимую обработку больших объемов фрагментированных и зашумленных взаимозависимых данных, представленных в различных типах шкал (номинальных, порядковых и числовых) и различных единицах измерения [32].
Суть математической модели АСК-анализа состоит в следующем.
Непосредственно на основе эмпирических данных рассчитывается матрица абсолютных частот (рисунок 2 и таблица 1).
Таблица 1 - Матрица абсолютных частот
|
Классы |
Сумма |
|||||||
|
1 |
... |
j |
... |
W |
||||
|
Значения факторов |
1 |
|||||||
|
... |
||||||||
|
i |
||||||||
|
... |
||||||||
|
M |
||||||||
|
Суммарное количество Признаков по классу |
||||||||
|
Суммарное количество объектов обучающей выборки по классу |
На ее основе рассчитываются матрицы условных и безусловных процентных распределений (таблица 2).
Отметим, что в АСК-анализе и его программном инструментарии интеллектуальной системе «Эйдос» используется два способа расчета матриц условных и безусловных процентных распределений:
1-й способ: в качестве используется суммарное количество признаков по классу;
2-й способ: в качестве используется суммарное количество объектов обучающей выборки по классу.
Затем на основе таблицы 2 с использованием частных критериев, приведенных таблице 3, рассчитываются матрицы системно-когнитивных моделей (рисунок 1, таблица 4).
Таблица 2 - Матрица условных и безусловных процентных распределений
|
Классы |
Безусловная вероятность признака |
|||||||
|
1 |
... |
j |
... |
W |
||||
|
Значения факторов |
1 |
|||||||
|
... |
||||||||
|
i |
||||||||
|
... |
||||||||
|
M |
||||||||
|
Безусловная вероятность класса |
Таблица 3 - Различные аналитические формы частных критериев знаний
|
Наименование модели знаний и частный критерий |
Выражение для частного критерия |
||
|
через относительные частоты |
через абсолютные частоты |
||
|
ABS, матрица абсолютных частот |
--- |
||
|
PRC1, матрица условных и безусловных процентных распределений, в качестве используется суммарное количество признаков по классу |
--- |
||
|
PRC2, матрица условных и безусловных процентных распределений, в качестве используется суммарное количество объектов обучающей выборки по классу |
--- |
||
|
INF1, частный критерий: количество знаний по А.Харкевичу, 1-й вариант расчета вероятностей: Nj - суммарное количество признаков по j-му классу. Вероятность того, что если у объекта j-го класса обнаружен признак, то это i-й признак |
|||
|
INF2, частный критерий: количество знаний по А.Харкевичу, 2-й вариант расчета вероятностей: Nj - суммарное количество объектов по j-му классу. Вероятность того, что если предъявлен объект j-го класса, то у него будет обнаружен i-й признак. |
|||
|
INF3, частный критерий: Хи-квадрат: разности между фактическими и теоретически ожидаемыми абсолютными частотами |
--- |
||
|
INF4, частный критерий: ROI - Return On Investment, 1-й вариант расчета вероятностей: Nj - суммарное количество признаков по j-му классу |
|||
|
INF5, частный критерий: ROI - Return On Investment, 2-й вариант расчета вероятностей: Nj - суммарное количество объектов по j-му классу |
|||
|
INF6, частный критерий: разность условной и безусловной вероятностей, 1-й вариант расчета вероятностей: Nj - суммарное количество признаков по j-му классу |
|||
|
INF7, частный критерий: разность условной и безусловной вероятностей, 2-й вариант расчета вероятностей: Nj - суммарное количество объектов по j-му классу |
Обозначения к таблице 3:
i - значение прошлого параметра;
j - значение будущего параметра;
Nij - количество встреч j-го значения будущего параметра при i-м значении прошлого параметра;
M - суммарное число значений всех прошлых параметров;
W - суммарное число значений всех будущих параметров.
Ni - количество встреч i-м значения прошлого параметра по всей выборке;
Nj - количество встреч j-го значения будущего параметра по всей выборке;
N - количество встреч j-го значения будущего параметра при i-м значении прошлого параметра по всей выборке.
Iij - частный критерий знаний: количество знаний в факте наблюдения i-го значения прошлого параметра о том, что объект перейдет в состояние, соответствующее j-му значению будущего параметра;
Ш - нормировочный коэффициент (Е.В.Луценко, 2002), преобразующий количество информации в формуле А.Харкевича в биты и обеспечивающий для нее соблюдение принципа соответствия с формулой Р.Хартли;
Pi - безусловная относительная частота встречи i-го значения прошлого параметра в обучающей выборке;
Pij - условная относительная частота встречи i-го значения прошлого параметра при j-м значении будущего параметра.
Таблица 4 - Матрица системно-когнитивной модели
|
Классы |
Значимость фактора |
|||||||
|
1 |
... |
j |
... |
W |
||||
|
Значения факторов |
1 |
|||||||
|
... |
||||||||
|
i |
||||||||
|
... |
||||||||
|
M |
||||||||
|
Степень редукции класса |
Суть этих методов в том, что вычисляется количество информации в значении фактора о том, что объект моделирования перейдет под его действием в определенное состояние, соответствующее классу. Это позволяет сопоставимо и корректно обрабатывать разнородную информацию о наблюдениях объекта моделирования, представленную в различных типах измерительных шкал и различных единицах измерения [32].
На основе системно-когнитивных моделей, представленных в таблице 4 (отличаются частыми критериями, приведенными в таблице 3) и на рисунке 2, решаются задачи идентификации (классификации, распознавания, диагностики, прогнозирования), поддержки принятия решений (обратная задача прогнозирования), а также задача исследования моделируемой предметной области путем исследования ее системно-когнитивной модели [31-48].
Для решения этих задач в АСК-анализе и системе «Эйдос» в настоящее время используется два аддитивных интегральных критерия.
2.5 Интегральные критерии и решение задач системной идентификации и принятия решений
Задача системной идентификации - это задача определения степени сходства (и различия) конкретного объекта с обобщенными образами классов, соответствующих определенным авторам, жанрам и временным периодам. В моделях, приведенных в таблице 4, отражено, какое количество информации содержится в каждом слове или лемме о принадлежности литературного текста с этим словом к каждому из классов. Но в тексте содержится много слов. Поэтому естественно считать, что текст принадлежит к тем классам, о принадлежности к которым в его словах содержится максимальное суммарное количество информации.
Функция от частных критериев, имеющая определенное числовое значение, свое для каждого класса и отражающее степень принадлежности текста к данному классу, называется интегральным критерием.
В результате получается, что некоторый определенный текст в различной степени принадлежит к разным классам, причем о принадлежности к некоторым классам в его словах содержится отрицательное количество информации, что означает, что в соответствии с созданными моделями он к ним не принадлежит.
Задача принятия управляющих решений представляет собой обратную задачу прогнозирования. Если при прогнозировании на основе значений факторов, воздействующих на объект управления, определяется в какое состояние он под их воздействием перейдет, но при принятии решений наоборот, по желательному (целевому) состоянию объекта управления определяется система значений факторов, обуславливающих переход объекта в это целевое состояние.
Не все модели обеспечивают решение обратной задачи прогнозирования. Для этого они должны обеспечивать многопараметрическую типизацию, т.е. создавать обобщенные образы будущих состояний объекта управления. Как влияет на поведение объекта управления одно значение фактора отражено в системно-когнитивных моделях. Как влияние система факторов определяется с помощью интегральных критериев.
Таким образом, интегральные критерии применяются при решении различных задач, как задачи идентификации или прогнозирования, так и задачи принятия решений.
В настоящее время в системе «Эйдос» используется два аддитивных интегральных критерия:
- сумма знаний;
- резонанс знаний.
1-й интегральный критерий «Сумма знаний» представляет собой суммарное количество знаний, содержащееся в системе значений факторов различной природы, характеризующих сам объект управления, управляющие факторы и окружающую среду, о переходе объекта в будущие целевые или нежелательные состояния.
Интегральный критерий представляет собой аддитивную функцию от частных критериев знаний:
терминология научный дискурс статья
В выражении круглыми скобками обозначено скалярное произведение. В координатной форме это выражение имеет вид:
,
где: M - количество градаций описательных шкал (признаков);
- вектор состояния j-го класса;
- вектор состояния распознаваемого объекта, включающий все виды факторов, характеризующих сам объект, управляющие воздействия и окружающую среду (массив-локатор), т.е.:
В текущей версии системы «Эйдос-Х++» значения координат вектора состояния распознаваемого объекта принимались равными либо 0, если признака нет, или n, если он присутствует у объекта с интенсивностью n, т.е. представлен n раз (например, буква «о» в слове «молоко» представлена 3 раза, а буква «м» - один раз).
2-й интегральный критерий «Семантический резонанс знаний» представляет собой нормированное суммарное количество знаний, содержащееся в системе факторов различной природы, характеризующих сам объект управления, управляющие факторы и окружающую среду, о переходе объекта в будущие целевые или нежелательные состояния.
Интегральный критерий представляет собой аддитивную функцию от частных критериев знаний и имеет вид:
где:
M - количество градаций описательных шкал (признаков);
- средняя информативность по вектору класса;
- среднее по вектору объекта;
- среднеквадратичное отклонение частных критериев знаний вектора класса;
- среднеквадратичное отклонение по вектору распознаваемого объекта.
- вектор состояния j-го класса;
- вектор состояния распознаваемого объекта, включающий все виды факторов, характеризующих сам объект, управляющие воздействия и окружающую среду (массив-локатор), т.е.:
В текущей версии системы «Эйдос-Х++» значения координат вектора состояния распознаваемого объекта принимались равными либо 0, если признака нет, или n, если он присутствует у объекта с интенсивностью n, т.е. представлен n раз (например, буква «о» в слове «молоко» представлена 3 раза, а буква «м» - один раз).
Свое наименование интегральный критерий сходства «Семантический резонанс знаний» получил потому, что по своей математической форме является корреляцией двух векторов: состояния j-го класса и состояния распознаваемого объекта.
Система «Эйдос» обеспечивает построение интеллектуальных информационно-измерительных систем в различных предметных областях [31-48]. В системе «Эйдос» реализовано большое количество программных интерфейсов, обеспечивающий автоматизированный ввод в систему данных различных типов: текстовых, табличных и графических.