комбинацию реляционной и многомерной моделей и позволяла бы сочетать высокую производительность, характерную для многомерной модели, и возможность хранить сколь угодно большие массивы данных, присущую реляционной модели.
Многомерные хранилища обычно содержат агрегатные данные (например, суммы, средние значения, количество значений) для различных выборок. Чаще всего такие агрегатные функции образуют многомерный набор данных, называемый кубом, оси которого (называемые измерениями) содержат параметры, а ячейки - зависящие от них агрегатные данные (иногда их называют мерами).
Концепция в общем смысле представляет некоторую систему взглядов на процесс или явление. Составными частями концепции являются совокупность принципов и методология. Под методологией понимается совокупность методов решения проблемы. Принцип – правила, которыми следует руководствоваться в деятельности. Часто принципы формулируются в виде ограничений и требований, в частности, требований к базам данных.
1.6. Реляционные хранилища данных
Вопросы для рассмотрения: Применение реляционной модели для создания хранилищ данных (ХД). Архитектуры реляционных ХД: «звезда», «снежинка». Особенности реализации реляционных ХД.
Рекомендуемая литература: 1.
Перечень дополнительных ресурсов: 3,4.
Наименование вида самостоятельной работы: изучение вопросов темы, оформление отчета по лабораторной работе, подготовка к тесту по тематике курса.
Применение реляционной модели при создании ХД в ряде случаев позволяет получить преимущества, особенно в части эффективности работы с большими массивами данных и использования памяти компьютера. На основе реляционных хранилищ данных (РХД) строятся ROLAP-системы. Данные делятся на измерения и факты. Измерения — это категориальные атрибуты, наименования и свойства объектов, участвующих в некотором бизнес-процессе.
Под архитектурой ХД понимают совокупность программноаппаратных компонент, совокупность технологических и организационных решений, предпринимаемых для создания, разработки и функционирования ХД, т.е. выбор аппаратного и
программного обеспечения, выбор способов взаимодействия программно-аппаратных компонент, выбор способа решения проектной задачи по разработке и созданию ХД.
Схема типа звезды (Star Schema) - схема реляционной базы данных, служащая для поддержки многомерного представления содержащихся в ней данных.
Особенности ROLAP-схемы типа «звезда»:
Одна таблица фактов (fact table), которая сильно денормализована. Является центральной в схеме, может состоять из миллионов строк и содержит суммируемые или фактические данные,
спомощью которых можно ответить на различные вопросы.
Несколько денормализованных таблиц измерений (dimensional table). Имеют меньшее количество строк, чем таблицы фактов, и содержат описательную информацию. Эти таблицы позволяют пользователю быстро переходить от таблицы фактов к дополнительной информации.
Таблица фактов и таблицы размерности связаны идентифицирующими связями, при этом первичные ключи таблицы размерности мигрируют в таблицу фактов в качестве внешних ключей. Первичный ключ таблицы факта целиком состоит из первичных ключей всех таблиц размерности.
Агрегированные данные хранятся совместно с исходными. Схема типа снежинки (Snowflake Schema) - схема реляционной
базы данных, служащая для поддержки многомерного представления содержащихся в ней данных, является разновидностью схемы типа
"звезда" (Star Schema).
Особенности ROLAP-схемы типа «снежинка»:
Одна таблица фактов (fact table), которая сильно денормализована. Является центральной в схеме, может состоять из миллионов строк и содержать суммируемые или фактические данные,
спомощью которых можно ответить на различные вопросы.
Несколько таблиц измерений (dimensional table), которые нормализованы в отличие от схемы "звезда". Имеют меньшее количество строк, чем таблицы фактов, и содержат описательную информацию. Эти таблицы позволяют пользователю быстро переходить от таблицы фактов к дополнительной информации. Первичные ключи в них состоят из единственного атрибута (соответствуют единственному элементу измерения).
Таблица фактов и таблицы размерности связаны идентифицирующими связями, при этом первичные ключи таблицы
размерности мигрируют в таблицу фактов в качестве внешних ключей. Первичный ключ таблицы факта целиком состоит из первичных ключей всех таблиц размерности.
В схеме "снежинка" агрегированные данные могут храниться отдельно от исходных.
1.7. Реализация реляционных хранилищ данных
Вопросы для рассмотрения: Анализ и преобразование исходных данных. Выбор архитектуры реляционной ХД. Метаданные. Этапы реализации проекта. Реализация аналитической обработки загруженных в ХД данных.
Р Рекомендуемая литература: 1. Перечень дополнительных ресурсов: 3,4.
Наименование вида самостоятельной работы: изучение вопросов темы, оформление отчета по лабораторной работе, подготовка к тесту по тематике курса.
Представление, анализ и преобразование исходных данных. В качестве источников входной информации для построения математических моделей могут быть могут быть использованы отчетные данные предприятий логистики, содержащие экономические показатели о выполнении различных маршрутов доставки грузов. Если в этих отчетных данных отсутствуют сопутствующие необходимые нечисловые факторы, соответствующие условиям выполнения каждого отдельного маршрута, должна быть проведена соответствующая дополнительная работа по сбору исходной информации.
Выбор архитектуры будет определять, где ХД и/или киоски данных будут расположены и как ими будут организационнотехнологически управлять. Например, данные могут быть расположены в центральном офисе организации, т.е. будут поддерживаться централизованно. Данные могут быть распределены по офисам организации или располагаться в филиалах организации, и могут поддерживаться как централизованно, так и независимо друг от друга. Далее приводится краткий обзор типовых архитектур систем складирования данных и программных продуктов, наиболее часто используемых для реализации систем складирования данных.
Метаданные — информация о другой информации, или данные, относящиеся к дополнительной информации о содержимом или объекте. Метаданные раскрывают сведения о признаках и свойствах, характеризующих какие-либо сущности, позволяющие автоматически
искать и управлять ими в больших информационных потоках. Такая информация часто используется в базах данных: Метаданные — это субканальная информация об используемых данных.
Хранилища данных с многоуровневой (в основном трехзвенной) архитектурой, или корпоративные ХД. Архитектура является разновидностью глобального ХД, в которую технологически реализуются три уровня. На первом уровне располагается корпоративное ХД организации. Такие решения подходят для сложной аналитической обработки данных, требующей разработки специальных приложений для анализа. Недостатки. Главным недостатком является высокий уровень затрат на разработку и создание, который при правильной организации проекта окупается.
1.8. Виртуальные хранилища данных
Вопросы для рассмотрения: Введение в визуализацию данных. Визуализаторы общего назначения. OLAP-анализ. Визуализаторы, применяемые для оценки качества моделей. Визуализаторы, применяемые для интерпретации результатов анализа. Визуализация данных в Deductor Studio и SQL Server 2008R2.
Рекомендуемая литература: 1.
Перечень дополнительных ресурсов: 3,4.
Наименование вида самостоятельной работы: изучение вопросов темы.
Визуализация данных — это наглядное представление массивов различной информации. Существует несколько типов визуализации: Обычное визуальное представление количественной информации в схематической форме. К этой группе можно отнести всем известные круговые и линейные диаграммы, гистограммы и спектрограммы, таблицы и различные точечные графики.
OLAP-технология является альтернативой традиционным методам анализа данных, основанным на различных системах реализации SQL-запросов к реляционной БД. OLAP-системы играют важнейшую роль в анализе и планировании деятельности крупных предприятий и являются одним из направлений развития ИТ. В основу кладутся требования людей принимающих решения к предоставляемой информации, сложившейся индивидуальные особенности ведения дел и принятый механизм принятия решения. С точки зрения пользователя основное отличие OLAP-системы заключается: в предметной структурированности информации
(именно предметной, а не технической). Работая с OLAPприложением, пользователь применяет привычные категории и показатели – виды материалов и готовой продукции, регионы продаж, объем реализации, себестоимость, прибыль и т. п. А для того чтобы сформировать любой, даже довольно сложный запрос, пользователю не придется изучать SQL. При этом ответ на запрос будет получен в течение всего нескольких секунд. Кроме того, работая с OLAPсистемой, экономист может пользоваться такими привычными для себя инструментами, как электронные таблицы или специальные средства построения отчетов.
Методы визуализации, в зависимости от количества используемых измерений, принято классифицировать на две группы:
представление данных в одном, двух и трех измерениях;
представление данных в четырех и более измерениях.
В соответствии с количеством измерений представления это могут быть следующие способы:
одномерное (univariate) измерение, или 1-D ;
двумерное (bivariate) измерение, или 2-D ;
трехмерное или проекционное (projection) измерение, или 3-D. Следует заметить, что наиболее естественно человеческий глаз
воспринимает двухмерные представления информации.
При использовании двух- и трехмерного представления информации пользователь имеет возможность увидеть закономерности набора данных:
его кластерную структуру и распределение объектов на классы (например, на диаграмме рассеивания);
топологические особенности;
наличие трендов;
информацию о взаимном расположении данных;
существование других зависимостей, присущих исследуемому набору данных.
Если набор данных имеет более трех измерений, то возможны такие варианты:
использование многомерных методов представления информации (они рассмотрены ниже);
снижение размерности до одно-, двухили трехмерного представления. Существуют различные способы снижения размерности, один из них - факторный анализ - был рассмотрен в одной из предыдущих лекций. Для снижения размерности и
одновременного визуального представления информации на