Материал: Работа в аналитической платформе Deductor Studio

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Работа в аналитической платформе Deductor Studio

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

Глава I. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

1.1 Описание платформы Deductor

1.2 Назначение   

1.3 Преимущества платформы Deductor 

1.4 Организационная структура аналитической платформы Deductor

Глава II. ПРАКТИЧЕСКАЯ ЧАСТЬ

2.1 Принципы работы 

2.2 Визуализация информации

2.3 Работа в аналитической платформе

2.3.1 Начало работы в аналитической платформе

2.3.2 Понятие проекта 

2.3.3 Понятие сценария и узла обработки

2.3.4 Базовые операции над узлами сценария  

2.3.5 Экспорт в текстовый файл

2.4 Создание базы данных и построение диаграмм  

ЗАКЛЮЧЕНИЕ

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

ВВЕДЕНИЕ

deductor платформа данный визуализация

На сегодняшний день в мире работают сотни миллионов персональных компьютеров. Ученые, экономисты, политики считают, что к началу третьего тысячелетия: количество компьютеров в мире сровняется с числом жителей развитых стран; большинство этих компьютеров будет включено в мировые информационные сети; вся накопленная человечеством к началу третьего тысячелетия информация, будет переведена в компьютерную форму, а вся информация будет готовиться при помощи компьютеров; вся информация будет бессрочно храниться в компьютерных сетях.

С появлением вычислительной техники, значительно упростились способы хранения, передачи и обработки информаций.

Для принятия обоснованных и эффективных решений в производственной деятельности, в управлении экономикой и в политике современный специалист должен уметь с помощью компьютеров и средств связи получать, накапливать, хранить и обрабатывать данные, представляя результат в виде наглядных документов. В современном обществе информационные технологии развиваются очень стремительно, они проникают во все сферы человеческой деятельности.

Современный уровень развития аппаратных и программных средств с некоторых пор сделал возможным повсеместное ведение баз данных оперативной информации на разных уровнях управления. В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, органы государственной власти и управления накопили большие объемы данных. Они хранят в себе большие потенциальные возможности по извлечению полезной аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения.

Поэтому нахожу актуальным на сегодняшний день уметь обрабатывать информацию и визуализировать данные в графически понятном виде для возможности последующего выполнения анализа и принятия правильных решений.

В настоящее время в комплексе современных инструментальных средств, обеспечивающих поддержку бизнеса, значительную роль играют аналитические инструментальные средства. Развитие инфраструктуры компании и спектр решаемых аналитических задач зависит от уровня зрелости организации, ее стратегических и тактических целей, а также степени подготовки специалистов и их мотивации для использования инновационных технологий.

В условиях сложной экономической ситуации становится актуальным обеспечение специалистов предприятий малого бизнеса автоматизированным инструментарием оперативного принятия управленческих решений. Оперативное принятие управленческих решений, адекватных изменяющимся условиям экономической и социальной среды, позволит гибко управлять хозяйственной деятельностью предприятия малого бизнеса.

В социуме присутствует такая важная общая характеристика, как самоорганизация - одна из форм синергизма. Обобщающий взгляд, характерный для синергетики, обладает большой эвристической ценностью при анализе таких явлений, как «экономика, основанная на знаниях» (knowedge-based есоnоmу, инновационная экономика), экономические катастрофы и ряд других. Основой современной «новой экономики» представляется инновационный взрыв в сфере информационных технологий (компьютеры, программное обеспечение, телекоммуникации и Internet). Использование новых информационных технологий: методов искусственного интеллекта, компьютерных средств когнитивного моделирования и т.д., открывает новые возможности специалистам предприятия малого бизнеса. Включение представления знаний в автоматизированную систему искусственного интеллекта рассматривается во взаимосвязи с качественными и количественными параметрами когнитивной модели с позиций синергетики.

Управление знаниями рассматривается как совокупность процессов, управляющих созданием, распространением, обработкой и использованием знаний в рамках организации. Технологической основой систем управления знаниями являются хранилища данных. Анализ информации в хранилищах данных базируется на технологиях интеллектуального анализа данных, целью которого является извлечение знаний из накопленных данных за некоторый промежуток времени.

Таким образом, появляются новые технологии организации, хранения и обработки экономической информации. Примером таких технологий являются так называемые Business Intelligence средства, предоставляющие конечному пользователю возможности доступа и последующего анализа прикладных структурированных данных с целью прогнозирования и принятия решений в сфере экономики и бизнеса.

К средствам Business Intelligence относятся хранилища данных Data Warehouse, генераторы отчетов и средства аналитической обработки. OLAP, а также средства поиска закономерностей - Data Mining. Business intelligence средства (или искусство преобразовывать данные в знания) являются одним из аспектов управления знаниями. Вышеуказанные средства в полной мере реализует аналитическая платформа Deductor.- аналитическая платформа, основа для создания законченных прикладных решений в области анализа данных. Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от консолидации данных до построения моделей и визуализации полученных результатов. До появления аналитических платформ анализ данных осуществлялся в основном в статистических пакетах. Их использование требовало высокой квалификации пользователя. Большинство алгоритмов, реализованных в статистических пакетах, не позволяло эффективно обрабатывать большие объемы информации. Для автоматизации рутинных операций приходилось использовать встроенные языки программирования. Стремительный рост объемов информации, накапливаемый на машинных носителях, привел к возрастанию потребности бизнеса по анализу массивов данных. Результатом запроса стало появление хранилищ данных, машинного обучения, Data Mining, Knowledge Discovery in Databases, что позволило популяризировать анализ данных и решить некоторые бизнес задачи с большим экономическим эффектом. Венцом развития анализа данных стали специализированные программные системы - аналитические платформы, которые полностью автоматизировали все этапы анализа - от консолидации данных до эксплуатации моделей и интерпретации результатов. Первая версия Deductor увидела свет в 2000 г., и с тех пор идет непрерывное развитие платформы. В 2007 г. выпущена пятая по счету версия системы, в 2009 г. - версия 5.2. Сегодня Deductor - это яркий представитель как настольной, так и корпоративной системы анализа данных последнего поколения.

Глава I. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

.1 Описание платформы Deductor

Организации накапливают огромные массивы данных, однако не в состоянии получить от этой работы реальную отдачу. Имея исторические данные, можно решить критически важные для бизнеса задачи: оптимизировать процессы, управлять рисками, повышать доходность, удерживать клиентов...

Для таких задач не достаточно визуализации: отчетов, OLAP, информационных моделей - пользователи тонут в горах графиков. Для получения реальной отдачи нужно использовать методы глубокой аналитики (Data Mining), позволяющие не только просмотреть диаграммы, но автоматически находить закономерности, строить прогнозы, выявлять аномалии, т.е. помогать делать выводы.- аналитическая платформа, в которой реализованы технологии позволяющие решить весь спектр задач полноценного анализа данных от консолидации и отчетности до прогнозирования и оптимизации.

.2 Назначение

Решения на базе Deductor, позволяют пользователям быстро принимать обоснованные управленческие решения, благодаря реализации полного цикла аналитической обработки:

Консолидация данных из десятков разнородных источников

Очистка, систематизация и обогащение собранной информации

Отчетность, визуализация, OLAP-анализ, расчет KPI

Моделирование, прогнозирование, оптимизация

Самообучение на новых данных и адаптация моделей

.3 Преимущества платформы Deductor

Для руководителя:

минимизация затрат: любая аналитика - одна платформа;

эволюционное развитие от простой отчетности до сложной оптимизации;

апробированная платформа - сотни проектов со сложной аналитикой;

десятки партнеров, тысячи обученных специалистов.

Для аналитика:

полный спектр технологий анализа: Data Warehouse, ETL, OLAP, Data Mining, KDD;

аналитика от простых формул до самообучающихся алгоритмов;

модификация логики анализа без привлечения программистов;

поддержка: система дистанционного обучения, кейсы, отраслевые курсы.

Для IT-специалиста:

встроенная интеграция с десятком источников данных;

высокая производительность;

техническая поддержка непосредственно от разработчиков.

.4 Организационная структура аналитической платформы Deductor

Аналитическая платформа Deductor состоит из пяти частей:

• Warehouse - хранилище данных, консолидирующее информацию из разных источников;

• Studio - приложение, позволяющее пройти все этапы построения прикладного решения, рабочее место аналитика;

• Viewer - рабочее место конечного пользователя, одно из средств тиражирования знаний (т. е. когда построенные аналитиком модели используют пользователи, не владеющие технологиями анализа данных);

• Server - служба, обеспечивающая удаленную аналитическую обработку данных;

• Client - клиент доступа к Deductor Server. Обеспечивает доступ к серверу из сторонних приложений и управление его работой. Разработчиками представляются три типа аналитической платформы Deductor: Enterprise; Professional; Academic. В нашем случае представлен пакет Academic. Версия Academic предназначена для образовательных и обучающих целей. Ее функционал аналогичен версии Professional за исключением:

• отсутствия пакетного запуска сценариев, работа в программе может вестись только в интерактивном режиме;

• отсутствия импорта из промышленных источников данных: 1С, СУБД, файлы MS Excel, Deductor Data File;

• также недоступны некоторые другие возможности.

Версия Enterprise предназначена для корпоративного использования и имеет расширенный потенциал.

Версия Professional предназначена для небольших компаний и однопользовательской работы. В ней отсутствуют серверные компоненты, поддержка OLE, виртуальное хранилище, а традиционное хранилище данных можно создавать только на СУБД FireBird. Автоматизация выполнения сценариев обработки данных осуществляется только через пакетный режим.

аналитик;

пользователь;

администратор;

программист.

Студенты могут выступать в качестве аналитиков и пользователей аналитической платформы. Функции аналитика:

создание в Deductor Studio сценариев - последовательности шагов, которую необходимо провести для получения нужного результата;

построение, оценка и интерпретация моделей;

настройка панели отчетов для пользователей Deductor Viewer;

настройка сценария на поточную обработку новых данных.

Функция пользователя - это просмотр готовых отчетов в Deductor Viewer.Состав и назначение модулей Warehouse - многомерное хранилище данных, предназначенное для решения задачи консолидации информации. Использование единого хранилища позволяет обеспечить простой и прозрачный доступ к данным, контроль целостности и непротиворечивости информации, высокую скорость обработки. Благодаря глубокой степени интеграции любую информацию из хранилища данных можно получить в приложениях Deductor с минимальными усилиями. Хранилище данных ориентировано именно на аналитическую обработку, поэтому включает в себя все, что необходимо для комфортной работы при анализе. Оно содержит интегрированный семантический слой, то есть механизм, автоматически преобразовывающий бизнес-термины в операции с базой данных и обратно. Благодаря наличию семантического слоя пользователь оперирует такими бизнес-понятиями, как «клиент», «товар», «прибыль», а система автоматически выполняет необходимые действия c базой данных и предоставляет пользователю нужную информацию. Применение хранилища данных позволяет не быть привязанным к учетной системе, хранить данные не только за последний период, а за весь необходимый для анализа срок, консолидировать информацию из разнородных источников. Использование специализированных методов хранения и извлечения данных значительно увеличивает скорость получения информации. Хотя наличие единого источника данных не является обязательным условием работы аналитической системы, практически всегда ее создание начинается с построения хранилища данных. Warehouse поддерживает прозрачную работу с тремя СУБД: Firebird, MS SQL и Oracle. Вне зависимости от используемой СУБД работа с хранилищем происходит совершенно одинаково с использованием единого унифицированного механизма доступа. Поддержка нескольких СУБД в качестве платформы хранилищ, данных позволяет в каждом конкретном случае применять наиболее пригодную для данного случая базу данных. В нашем случае используется бесплатное (FireBird) программное обеспечение. Кроме того, в Deductor реализована поддержка концепции виртуальных хранилищ, данных - Virtual Warehouse. Виртуальное хранилище данных обеспечивает прозрачный для аналитика доступ к сведениям, хранящимся в любых реляционных СУБД. Взаимодействие с Virtual Warehouse происходит аналогично работе с традиционным хранилищем данных. Аналитик оперирует бизнес-понятиями, заданными в семантическом слое, и от него скрыты все сложности выборки данных, как и в случае с Deductor Warehouse. Пользователь задает при помощи простого Мастера, какая информация его интересует, а система автоматически трансформирует их в запросы к базе данных. Таким образом, эмулируется работа хранилища данных, а данные реально не перегружаются в специализированную систему, все операции производятся «на лету». Virtual Warehouse позволяет представить информацию, хранящуюся в реляционных базах данных, в удобном для аналитика многомерном виде. Deductor Studio - это рабочее место аналитика. В этом приложении осуществляется формализация знаний эксперта. Программа включает все необходимые для анализа инструменты обработки: механизмы импорта данных из разнородных источников, методы очистки и предобработки, алгоритмы построения моделей и механизмы экспорта данных.

Все действия по анализу данных сводятся всего к 4 операциям:

. Импорт данных.

В процессе импорта данные получаются из источника и загружаются специальным образом в программу. В дальнейшем с ними можно производить любые доступные операции, работа со всякой импортированной таблицей происходит одинаково. Поддерживается импорт из наиболее распространенных СУБД (Oracle, MS SQL, MySQL, Interbase…), стандартных файлов обмена данными (dbf, txt, csv…), офисных приложений (MS Excel, MS Access…), бизнес-программ (1C v7, v8…). Кроме того, в программу встроен механизм импорта с применением стандартов доступа к данным ODBC и ADO.

. Обработка данных.

Обработкой называется любое действие над данными, приводящее к их преобразованию, например, очистка данных либо построение моделей. Ее результатом является набор данных, который можно опять обработать каким-либо способом. Благодаря этому обеспечивается возможность построения сценариев обработки, то есть последовательных операций над данными, приводящих к нужному результату. Поддерживается широкий набор механизмов обработки: методы очистки (заполнение пропусков, редактирование аномалий, фильтрация…), инструменты предобработки (квантование, группировки, сортировки…), методы построения моделей (нейронные сети, самоорганизующиеся карты, деревья решений…).

. Визуализация.

Полученные результаты можно просмотреть различными способами, начиная от простых таблиц и диаграмм до многомерных кубов и специализированных визуализаторов. Система построена таким образом, что самостоятельно определяет возможные способы визуализации и предлагает наиболее удобные способы отображения данных для каждого случая.

. Экспорт данных.

Результаты обработки могут быть выгружены во множество приемников данных. Таким образом, обработанная и проанализированная информация выходит за пределы аналитической платформы, попадает в бизнес-приложения, офисные программы и прочее. В Studio реализованы самые современные самообучающиеся алгоритмы анализа. Анализ данных в Deductor Studio базируется на построении сценариев обработки.

Алгоритм типового сценария представляется следующим образом:

. аналитик загружает анализируемые данные в Excel или, в нашем случае, в текстовый редактор;

. производит операцию импорта;

. проверяет данные на наличие ошибок и исправляет их, например, продажи с нулевой суммой или возврат товара поставщику, этот процесс называется операцией очистки;

. группируются данные для получения итоговой информации по месячным продажам определенного товара - это операции трансформации;

. аналитик подбирает модель полинома или другую формулу, которые объясняли, исторические продажи - это этап построения модели;

. применяется построенная модель для получения прогноза на следующий период, реализуется процесс прогнозирования;

. последний этап анализа - отправка результатов прогноза заинтересованному лицу. Этот процесс реализуется экспортом полученных результатов. Работая с Deductor, аналитик строит сценарий по описанному алгоритму. Studio не имеет механизмов ввода и ручной правки данных. В случае, если аналитик, получив данные, обнаружит в них, например, ошибки, он должен будет описать правило работы с такими данными. Например, он должен будет отфильтровать данные о продажах с нулевой суммой. Это является обязательной операцией, так как вручную в Deductor Studio удалить непригодные записи невозможно. То, что он сформулирует, автоматически станет частью сценария. Такая работа требует чуть больше усилий и времени, чем простое удаление данных из таблицы, но подобный сценарий обработки тиражируем. При появлении новых данных не нужно опять искать некорректные записи, а воспользоваться правилом их обработки в сценарии, и очистка данных может быть выполнена автоматически. Эта особенность позволяет говорить о Deductor как об инструменте тиражирования знаний.