видны в соотношении цена/качество, отсутствие проблем локализации и пр.
К подобным информационно-аналитическим инструментам можно отнести ИАС «Семантический архив» и аналитическую платформу (АП) «Deductor», которые предназначены для решения большого спектра задач и способны выполнять следующие функции:
обеспечение своевременного поступления надежной и всесторонней информации по интересующим вопросам;
описание сценария действий конкурентов, которые могут затрагивать текущие интересы организации;
осуществление постоянного мониторинга событий во внешней конкурентной среде и на рынке, которые могут иметь значение для интересов организации и системы защиты информации;
обеспечение безопасности собственных информационных ресурсов;
обеспечение эффективности сбора, анализа и распространения информации, исключение дублирования исходных
ипроизводственных данных;
обеспечение эффективной обработки поступающей информации и возможности моделирования событий;
возможность прогнозирования развития событий;
управление рисками и др.
Эффективное применение этих средств - один из факторов выживаемости и успеха предприятия в условиях острой конкурентной борьбы. Однако необходимо отметить следующее обстоятельство: такие программные продукты весьма дороги и пока малодоступны для массового потребителя. А это не позволяет повсеместно использовать их для обучения студентов, а отсутствие практики плохо сказывается на усвоении материала. Кроме того, на рынке очень мало пособий по анализу данных с использованием АП «Deductor», а учебников по ИАС «Семантический архив» нет вообще.
Учитывая эти факты, было разработано учебное пособие для изучения двух описанных выше отечественных аналитических систем.
Пособие позволяет с минимальными усилиями приобрести навыки работы с этими мощными программными средствами, а также изучить с их помощью основные методы обработки и анализа данных.
Учебное пособие включает в себя как теоретические разделы, так и практические рекомендации по решению аналитических задач на
8
примере выполнения комплекса лабораторных работ. Лабораторные работы включают в себя: цель, теоретическое описание, практические рекомендации по выполнению работы, задания для закрепления материла. В учебнике наглядно показана работа с ИАС: интерфейс, последовательные диалоговые окна.
Пособие, прежде всего, предназначено для студентов специальностей направления «Информационная безопасность», желающим получить основы работы со средствами аналитической разведки.
Разделы учебника будут полезны преподавателям при проведении лабораторных работ, поскольку содержат достаточно теории для выполнения лабораторных работ и не требуют поиска дополнительной литературы и подготовки. Работа рассчитана также на широкий круг специалистов и инженеров, занимающихся обработкой данных.
9
1. АНАЛИТИЧЕСКАЯ ПЛАТФОРМА «DEDUCTOR»
1.1. Описание платформы
Аналитическая платформа (АП) – это комплекс программных продуктов, связанных единой архитектурой. АП относятся к группе программных продуктов и технологий под общим названием Business Intelligence2 и автоматизируют функции анализа бизнеса и поддержки принятия решений. Подобные системы стали появляться на мировом рынке информационных технологий в 80-90 годах прошлого столетия.
АП «Deductor», разработанная компанией BaseGroup Labs,
является одной из лучших отечественных разработок в данной области.
Технологии и методики анализа данных, реализованные в этой платформе, позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: начиная от создания хранилища данных и заканчивая построением моделей.
В ней сосредоточены самые современные методы извлечения, очистки, манипулирования и визуализации данных. С применением АП «Deductor» становятся доступными механизмы моделирования, прогнозирования, кластеризации, поиска закономерностей и многие другие технологии обнаружения знаний (Knowledge Discovery in Databases), добычи данных (Data Mining) и многомерного анализа
(OLAP).
1.2. Возможности платформы
«Deductor» предназначен для решения широкого спектра задач, прикладная область значения не имеет, т.к. механизмы, реализованные в АП, с успехом применяются на финансовых рынках, в страховании, торговле, телекоммуникациях, промышленности, медицине, маркетинге и других сферах деятельности.
Рассмотрим наиболее популярные задачи, решаемые при помощи
«Deductor»:
2 Это процесс извлечения многоаспектной информации и превращение её в знания для эффективного управления бизнесом, осуществляемый конечными пользователями с помощью специальных технологий, методов и средств.
10
Создание систем отчетности. Содержащиеся в хранилище данные можно просматривать, используя различные визуализаторы, например, OLAP кубы, таблицы, диаграммы, гистограммы.
Data Mining проекты. Data Mining переводится как «добыча» или «раскопка данных». Это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных областях человеческой деятельности. Он может применяться везде, где возникает потребность в глубоком анализе данных, но чаще всего речь идет об анализе коммерческой информации.
Некоторые задачи, решаемые при помощи методов Data Mining:
анализ и управление рисками;
сегментация клиентов, продуктов, услуг;
определение особенностей поведения клиентов;
промышленная диагностика, обнаружение источников и причин возникновения дефектов;
идентификация критических ситуаций;
оценка кредитоспособности физических и юридических лиц и многое другое.
Механизмы очистки данных. На практике исходные данные чаще всего бывают «сырыми». Очищенные данные содержат наиболее ценную для анализа информацию, из которой исключены противоречивые и дублирующиеся данные, устранены аномалии и шумы. Во многих случаях достаточно провести только очистку данных, и выводы будут очевидны. Кроме того, очистка данных позволяет получить лучшие результаты при дальнейшем построении моделей.
Прогнозирование. Это одна из самых востребованных задач анализа. В Deductor включены механизмы построения прогностических моделей, в том числе с использованием самообучающихся алгоритмов. Достаточно построить модель, прогнозирующую изменение на 1 шаг, и автоматически использовать
еена произвольное количество отсчетов вперед. Это позволяет получать качественные прогнозы, способные подстраиваться под изменяемую ситуацию.
Моделирование. Построение моделей – универсальный способ анализа. В большинстве случаев при исследовании процесса или объекта мы строим его модель, но не всегда эта модель
11
формализована, т.е. описана таким образом, чтобы ею мог воспользоваться другой человек, подавая свои входные данные и получая результат.
ВDeductor основной акцент сделан на самообучающиеся методы
имашинное обучение. Такие алгоритмы являются универсальными, решающими большой спектр задач, и при этом просты в применении. Полученные результаты можно просмотреть в виде таблиц, кубов, карт, деревьев и прочее.
Анализ «Что, если…?». При принятии управленческих решений полезным инструментом является сценарное моделирование «Что, если…?», которое позволяет моделировать будущие показатели деятельности с учетом имеющихся взаимосвязей. В частности, моделирование «Что, если...?» предназначено для анализа влияния исходных показателей на целевой показатель. Для реализации этого механизма в Deductor существует специальный визуализатор. При этом способ построения модели значения не имеет, работа со всеми алгоритмами производится одинаково. Результаты анализа можно просмотреть как в табличном, так и графическом виде.
1.3. Состав системы
«Deductor» состоит из пяти частей, показанных ниже на рисунке.
Состав АП «Deductor»
Deductor Studio является аналитическим ядром всей платформы, основанном на работе следующих механизмов:
мастера импорта исходного набора данных;
мастера обработки;
12