- генетические алгоритмы. Они применяются при решении задач оптимизации. Эти методы были открыты при изучении эволюции и происхождения видов. Генетические алгоритмы нужны для настройки нейронных сетей, а также решения различных задач, когда можно составить описание возможных вариантов решения в виде вектора параметров, и известен критерий, определяющий эффективность каждого варианта. Генетические алгоритмы применяются для составления расписаний, портфелей ценных бумаг, заполнения контейнеров при перевозке (пересылке) грузов, выбор маршрутов движения, конфигурации оборудования и т.д.;
- нейронные сети. Они реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алгоритмов анализа данных. Нейронные сети применяются для решения самых различных задач - восстановление пропусков в данных, поиск закономерностей, классификация и кластеризация данных, прогнозирование и моделирование.
Инструменты добычи данных поставляются заказчикам двумя способами:
- в составе OLAP-систем;
- в виде самостоятельных систем Data Mining.
Функциональность Data Mining в той или иной степени полноты реализации включена в аналитические системы различных производителей -Oracle, Hyperion, SAS и т.д. Однако, наиболее «продвинутыми» в этом плане являются специализированные системы математического анализа данных. В России авторитетным разработчиком систем в технологии KDD является компания "Лаборатория BaseGroup".
2.3 Средства построения Хранилищ и Витрин данных
Хранилища и Витрины данных создаются с применением специализированных средств построения Хранилищ\витрин данных. К этим средствам относятся:
- средства проектирования Хранилищ данных;
- средства извлечения, преобразования и загрузки данных;
- готовые предметно-ориентированные ХД.
Средства проектирования Хранилищ данных входят в состав реляционных и многомерных СУБД от таких производителей как Microsoft, Oracle, IBM, Sybase и других. Также часто применяются универсальные CASE-инструменты, такие как BPWin и ErWin.
После описания структур хранения данных специальными системными утилитами выполняется их генерация. Такой подход к созданию Хранилища данных позволяет построить индивидуальное Хранилище или Витрину данных в сжатые сроки. В тоже время такой подход затрудняет перенос наработок от одного заказчика к другому и обмен практическим опытом в решении аналитических задач.
Альтернативным способом построения Хранилищ данных является применение других специализированных средств - Студий для построения Хранилищ данных. Такие продукты предлагают набор шаблонов и заготовок для быстрого создания Хранилища.
В составе Студии может предоставляться базовая модель Хранилища данных, ориентированная на определенную бизнес-сферу. С помощью таких инструментов можно значительно быстрее создать Хранилище данных, воспользовавшись опытом предыдущих решений и начать его эксплуатацию. Продукты этого класса,в частности, предлагает компания Sybase - это продукт Industry Warehouse Studio.
ETL-средства (extraction, transformation, loading) - средства извлечения, преобразования и загрузки данных) обеспечивают три основных процесса, используемые при переносе данных из одного приложения или системы в другие.
ETL-средства извлекают информацию из исходной базы данных, преобразуют ее в формат, поддерживаемый базой данных назначения, а затем загружают в нее преобразованную информацию. Эти средства обычно входят в состав функциональности реляционных и многомерных СУБД или Студий для построения Хранилищ данных.
Однако существуют и специализированные системы, реализующие только ETL-функции. Классической ETL-системой является, например, продукт Ascential DataStage компании Ascential Software.
Существует еще один способ построения Хранилищ и Витрин данных - это применение готовых предметно-ориентированных Хранилищ данных. Это самый надежный способ построить Хранилище данных в сжатые сроки. Готовые к эксплуатации Хранилища данных характеризуются наличием в них механизмов средств построения Хранилищ/Витрин данных, взаимосвязанных посредством единого словаря метаданных. К ним относятся - процедуры извлечения, преобразования, очистки и загрузки данных, функции генерации баз данных и процедур обработки, механизмы построения выборок данных, интерфейсы просмотра и анализа данных.
Ограничением в применении готовых Хранилищ данных является их предметная ориентация. Например, финансовое Хранилище данных невозможно применить для решения задач оптимизации химического производства. Примером готового предметно-ориентированного Хранилища данных является система Контур Корпорация от компании Intersoft Lab. Применение предметно-ориентированных Хранилищ данных отражает общемировую тенденцию развития рынка BI, наметившуюся в последнее время - предоставления платформ для "быстрой" разработки аналитических приложений.
2.4 Управленческие информационные системы и приложения
Существует еще один очень разносторонний класс аналитических систем. Это - конечные решения для управленцев и аналитиков. Исторически сложилось так, что технологическая основа реализации таких систем существенно различается. Одни из них построены на современных аналитических инструментах, другие - с применением базовых информационных технологий. Чтобы легче ориентироваться в этих системах вводится 3 классификации:
- по виду решаемой задачи;
- по масштабу решаемой задачи;
- по технологическому построению.
Аналитические системы классифицируются по виду задач, решаемых с их помощью. Среди видов задач можно выделить:
- Анализ финансового состояния банка или предприятия, выполняемый по внешним публичным данным, таким как баланс, отчет о финансовых результатах, иногда - приложение к балансу и отчет о движении денежных средств. Системы - Audit Expert (Про-Инвест), Альт-финансы (Альт), АБФИ (Вестона), Аналитик, АФСП, АДП (ИНЭК) и другие.
- Инвестиционный анализ - для комплексной оценки эффективности инвестиционных проектов и принятия решения об их финансировании, Project Expert (Про-Инвест), Альт-Инвест (Альт) и другие.
- Подготовка бизнес-планов, учитывающих вариации схем производства, сбыта и финансирования, комплексного анализа маркетинговой ситуации, чувствительности проекта по основным параметрам. Системы - Project Expert (Про-Инвест), Альт-Инвест (Альт) и другие.
- Маркетинговый анализ, позволяющий оценить положение компании на рынке, провести сравнительный анализ ее сбытовой деятельности с конкурентами, сформировать оптимальную структуру сбыта, определить доходность различных сегментов рынка и товаров, долю рынка компании, темпы роста и другое. Системы - Marketing Expert (Про-Инвест), Касатка и другие.
- Управление проектами, применяемое для разработки расписания исполнения проекта, определения критического пути и резервов времени исполнения операций проекта; потребности проекта в финансировании, материалах и оборудовании, анализ рисков и планирование расписания с учетом рисков и так далее. Системы - MS Project (Microsoft), Open Plan (Welcom Software Technology) и другие.
- Бюджетирование, обеспечивающее планирование, учет и анализ по центрам финансовой ответственности, бизнесам, продуктам в разрезе активов и пассивов, доходов и расходов, выполнение аллокаций и расчет финансового результата. Системы - Hyperion Pillar, Comshare MPC, Контур Корпорация. Бюджет (Intersoft Lab) и другие.
- Финансовое управление, включающее помимо задач бюджетирования задачи финансового планирования, управленческого учета, трансфертного управления ресурсами, оценки бизнесов по методу ABC, анализа активов, пассивов, рисков. Системы - Oracle Financial Services Applications (Oracle), Контур Корпорация. Финансовое управление (Intersoft Lab) и другие.
На практике встречается гораздо больше видов задач, но здесь был перечислен ряд только тех задач, которые нашли свое воплощение в тиражных аналитических системах. Некоторые из этих систем могут решать только одну задачу, другие являются комплексом, включающим в себя широкий перечень взаимосвязанных задач.
Аналитические системы также классифицируются по масштабу решаемой задачи:
- Системы автоматизации труда одного специалиста. Это так называемые DeskTop-системы, предназначенные для автоматизации труда узкого специалиста. Как правило, для эксплуатации таких систем не требуется помощь службы автоматизации.
- Системы для коллективной работы группы сотрудников. Такие системы содержат средства, обеспечивающие коллективную работу пользователей в режиме реального времени с единой базой данных в рамках прав доступа. Такие системы уже требуют выполнения функций администрирования и сопровождения.
- Системы для применения в территориально распределенной корпорации. Эти системы включают в себя свойства аналитических систем для групп пользователей, а также средства взаимодействия с удаленными подразделениями корпорации (филиалами) в виде технологий сбора данных, дистрибуции НСИ и отчетов. Системы данного класса сложны в эксплуатации, но при этом обеспечивают наиболее полное решение аналитических и управленческих задач.
По технологическому построению аналитические системы можно условно разделить на монолитные и настраиваемые:
- Монолитные аналитические системы характеризуются тем, что аналитическая методика в них реализуется в коде самой программы, а не в виде настройки универсального аналитического инструмента. В этом случае аналитическая система не требует, как правило, выполнения существенных работ по своей настройке (за исключением систем класса Data Mining). Она может использоваться практически сразу после установки. В то же время такие системы не "гибкие" и плохо поддаются изменениям в соответствии с требованиями пользователя. Монолитные системы разрабатываются с применением базовых средств программирования и СУБД.
- Настраиваемые аналитические системы характеризуются тем, что при их создании применяются универсальные аналитические инструменты и специализированные средства, такие как OLAP, Студии, ETL, Data Mining. Их применение позволяет повысить качество аналитической системы, дает перспективы развития, но в то же время приводит к удорожанию конечного решения. Прикладные аналитические системы, выполненные в виде настроек универсальных аналитических инструментов, требуют большего объема работ при внедрении, однако позволяют реализовывать уникальные аналитические методики, принятые в организации.
3. Общая структура информационной аналитической системы
Полная структура информационно-аналитической системы, построенной на основе хранилища данных, показана на рисунке 2. В конкретных реализациях отдельные компоненты этой схемы часто отсутствуют.
|
Информационное хранилище |
Рисунок 2.Структура информационной аналитической системы
3.1 Подсистема хранения данных
Многомерное хранилище данных может быть организовано в виде одной из следующих структур:
- физической структуры, называемой MOLAP, в которую с определенной периодичностью загружаются данные из файлов - источников, принадлежащих базам оперативных данных
- виртуальной структуры, называемой ROLAP, которая динамически используется при запросах. ROLAP - система рассматривается просто как надстройка над реляционными базами данных, обеспечивающая удобный интерфейс пользователя. Типичными инструментальными средствами, поддерживающими ROLAP, является Business Objects.
- гибридной структуры, называемой НOLAP, которая используется при построении многоуровневых информационных хранилищ, применяемых на разных уровнях управления больших корпораций.
Анализ параметров использования ROLAP и MOLAP информационных хранилищ показывает, что внедрение и эксплуатация ROLAP - систем является более простым и дешевым по сравнению с MOLAP - системами, но уступают последним в эффективности оперативного анализа данных.
3.2 Подсистема метаинформации
Репозиторий представляет собой описание структуры информационного хранилища: состава показателей, иерархии агрегаций измерений, форматов данных, используемых функций, физического размещения на сервере, прав доступа пользователей, частоты обновления.
В репозитории задается схема отображения структуры файлов-источников данных на структуре ИХ, а также схема отображения структуры ИХ на витринах данных. Через репозиторий осуществляется интерпретация запросов к ИХ на проведение оперативного анализа данных.
3.3 Подсистема преобразования данных (загрузки хранилища)
Подсистема загрузки ИХ создается только для MOLAP - систем. Для ROLAP - систем в процессе выполнения запросов осуществляется преобразование данных из файлов - источников. В том и другом случаях требуется выполнение следующих основных функций:
- сбор данных,
- очистка данных,
- агрегирование данных.
Сбор данных предполагает передачу данных из источников в ИХ в соответствии со схемой отображения, представленной в репозитории.
В процессе очистки данных осуществляется проверка целостности, исключение дублирования данных, отбраковка случайных данных, восстановление отсутствующих данных, приведение данных к единому формату.