вающих им преимущества по сравнению с другими методами классифи- |
|||
каций, в том числе отсутствие ограничений на число анализируемых при- |
|||
знаков, характеризующих объекты группировки. |
|||
|
1 |
Постановка задачи. Формулировка цели. Выбор объектов |
|
|
Блок |
||
|
наблюдения и признаков районирования |
||
|
|
||
ИНТЕГРАЦИИ |
Блок 2 |
Подготовка исходной информации на принципах |
|
многомерного шкалирования |
|||
Стандартизация информации (нормирование) |
|||
|
|||
ПРИНЦИП |
|
Вычислительная схема : матрица |
|
Блок 3 |
Мера сходства: «евклидово расстояние» |
||
Оценка результатов классификации по функционалу |
|||
|
|
||
|
|
качества |
|
|
4 |
Оценка вариантов интеграции: формальная и |
|
|
Блок |
||
|
неформальная. Группировка таксонов |
||
|
|
||
|
Рис. 2.12. Блок-схема районирования по интразональным факторам |
||
Для целей автоматического районирования в нашей задаче объектами являются ОТЕ. Их состояние формально описывается путем задания набора показателей. Они могут быть количественными, качественными, балльными (ранговыми) и т.д. Исходным материалом для оценки служит выражение каждого показателя в натуральном виде, соответствующем размерности по непрерывной шкале (см. табл. 2.3).
При включении показателей в модель выполняется проверка факторов на мультиколлинеарность так же, как и в случае районирования по зональным факторам. Исходная информация представляется в виде прямоугольной матрицы [54]:
x11

Хij
= .
xn1
.... |
x |
|
|
i =1,2,...,n |
|
|
|
||
..... |
1m |
, |
|
, |
( 2.16) |
||||
|
. |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
..... |
x |
|
|
|
|
j =1,2,...,m |
|
|
|
|
|
nm |
|
|
|
|
|
|
|
где число строк равно количеству принятых показателей районирования (i = 1,2,…,n), а количество столбцов (j=1,2,…,m) соответствует числу опе-
55
рационных территориальных единиц (ОТЕ), сформированных на данном объекте.
Для устранения влияния размерности в матрице признаки приводят к
стандартной форме (нормируют), т.е. переходят от векторных оценок |
к |
||
скалярным оценкам |
: |
|
|
|
, |
(2.17) |
|
где |
− соответственно максимальное, минимальное и |
||
среднеарифметическое значение j-го признака на i-м объекте. |
|
|
|
Стандартизированные данные задают в виде новой матрицы и характеризуют нулевым математическим ожиданием и дисперсией, равной единице.
Для перехода от множества исходных показателей к единственному, по которому следует различать операционные территориальные единицы (ОТЕ), принят агломеративный иерархический алгоритм [132], идея которого состоит в последовательном объединении объектов, сначала наиболее близких, а затем все более отдаленных друг от друга. Заключительным этапом алгоритма является объединение всех анализируемых объектов в один класс. В процессе проведения расчетов возможен промежуточный анализ получаемых данных. Процесс действия иерархической процедуры объединения наблюдений в классы можно геометрически представить в виде графа типа «агломеративное дерево» (рис. 2.13) [1]. Между уровнями графа существует логическое соотношение: элементы уровня низшего порядка включаются как составляющие в массивы элементов более высокого уровня.
Каждая вершина дерева изображает класс объектов. Под иерархическим деревом понимается последовательность пар
где
– строго возрастающая последователь-
ность: − разбиение объектов на классы, соответствующие уровню
На первом уровне |
каждая ОТЕ представляет собой от- |
дельный класс. |
|
56
Рис. 2.13. Геометрическое представление таксономического анализа в виде «иерархического дерева» [1]
Обозначим список учитываемых признаков с указанием множества
значений, принимаемых каждым из них, через |
, список |
классов, которые нужно различать, через |
, решающее пра- |
вило через D. Тогда в соответствии со схемой, предложенной Н.Г. Загоруйко [61], классификационная задача формулируется следующим образом: разделить совокупность ОТЕ, заданных набором характеризующих их значений признаков, на однородные группы (таксоны), т.е. при заданных значениях Х и D найти S:
(Х, D) → S . |
( 2.18) |
В качестве меры сходства/различия между двумя объектами xi , xk X в n-мерном нечетком пространстве признаков используется евклидово расстояние между объектами xi и xk , вычисляемое по формуле [93]
|
n |
|
|
d(xi , xk ) = ∑(µj (xi ) −µj (xk ))2 , |
(2.19) |
||
|
j=1 |
|
|
где µj (xi ), µj (xk ) – меры обладания j-м свойством соответственно i-го и k-го объектов.
В качестве объектов в нашем случае рассматриваются операционные территориальные единицы. Свойствами ОТЕ принята совокупность показателей по геокриологическим характеристикам грунтовых оснований на ОТЕ (см. рис. 2.8). Евклидово расстояние используется в случае, когда компоненты вектора наблюдений взаимно независимы, однородны по своему физическому смыслу, и все они важны с точки зрения отнесения объекта к тому или иному классу. В этом случае факторное пространство
57
совпадает с понятием геометрической близости в этом пространстве. Независимость показателей оценивалась коэффициентами парной корреляции. Для оценки качества разбиения на классы нами проанализированы и приняты рекомендации работы [35], которые ранее использовались для целей классификации в работах [18, 73]. В соответствии с [35] функционал качества классификации отображает проекцию всех систем классов на действительную прямую . При этом используют следующие показатели : Q1 – сумму попарных внутриклассовых расстояний, характеризующую внутриклассовый разброс наблюдений; Q2 – сумму попарных межклассовых расстояний, которая характеризует меру удаленности (близости) классов. Данные функционалы формируются на каждом шаге объединения ОТЕ и рассчитываются по формулам
|
|
|
(2.20) |
где |
− число классов в классификации, |
– число объектов в классе l. |
|
|
Суммирование происходит так, |
что i принимает все значения от 1 |
|
до |
, а j – для каждого i все значения больше i; |
− евклидово рас- |
|
стояние между объектами Xi и Xj ; |
|
|
|
|
|
|
(2.21) |
где |
– евклидово расстояние между классами |
. Суммирование |
|
производится так, что i принимает все значения от 1 до К, а значения j для каждого i выбираются так, чтобы они были больше i.
При решении задачи классификации функционал Q1 нужно минимизировать, т.е. стремиться к максимальному сходству ОТЕ в пределах одного класса, а Q2 наоборот максимизировать, т.е. добиваться максимального различия классов между собой.
В итоге можно принимать то количество классов, при котором
. |
(2.22) |
Выражение (2.22) является только ориентиром для анализа и принятия окончательного решения о количестве классов. В каждом отдельном случае вопрос решается индивидуально. В процессе реализации алгоритма при наличии в выборке аномальных наблюдений (т.е. таких, которые существенно отличаются по своим значениям показателей от остальных ОТЕ) их следует поместить в отдельные классы, формируемые с учетом
58
региональных признаков. Остальные группы ОТЕ создадут общий класс. Излишнее дробление на классы нецелесообразно для проектирования и организации работ по участкам. Далее в подразделе 2.5 описан пример классификации для конкретного объекта по результатам инженерных изысканий и приведены соответствующие пояснения. Алгоритм классификации ЛДК по интразональным факторам применительно к цели линейного дорожного районирования в условиях ММГ, сформулированной в подразделе 2.1, представлен следующими укрупненными этапами:
−содержательная постановка задачи, определение цели классифи-
кации;
−разработка ландшафтного дорожного профиля трассы [29,60];
−определение групп признаков (факторов) и показателей оценки;
−определение качественных и количественных характеристик показателей по группам признаков на ОТЕ;
−формирование информационного массива на основе инженерных изысканий по ОТЕ;
−реализация интегрального принципа инженерно-географического районирования на основе агломеративного иерархического алгоритма.
−анализ результатов. Формирование однородных участков по совокупности природных признаков.
Втабл. 2.4 представлена математическая постановка последовательного решения задачи по всем этапам ЛДР. Приведены данные программного обеспечения расчетов.
иоценка их адекватности в условиях ММГ
Реализация методики ЛДР рассмотрена применительно к автомобильной дороге М 56 «Лена» от Невера до Якутска км 93 - км 123. При описании района изысканий приведены только самые основные характеристики. Согласно административно-территориальному делению трасса автомобильной дороги проходит по территории Тындинского района Амурской области. Исходные данные были получены на основе инженерных геологических изысканий по трассе дороги (научно-технический отчет ОАО «ИркутскгипродорНИИ» на основании технического задания, выданного ЗАО «Транспроект», 2010 г.). Трасса проходит в зоне практически сплошного распространения многолетней мерзлоты – до 95 % площади.
59