Материал: 1222

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

двумерной карте используются самоорганизующиеся карты Кохонена.

1.9. Использование хранилищ данных. Различные архитектурные решения ХД, реализация процедур ETL

Вопросы для рассмотрения: Различные архитектурные решения ХД, реализация процедур ETL. Введение в оценку качества данных (ADQ – Assessment Data Quality). Технологии и методы оценки качества данных. Очистка и предобработка данных. Фильтрация данных. Обработка дубликатов и противоречий. Выявление аномальных значений. Восстановление пропущенных значений. Введение в сокращение размерности. Сокращение числа признаков. Сокращение числа значений признаков и записей. Сэмплинг. Использование Deductor Studio для оценки качества, очистки и предобработки данных.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Наименование вида самостоятельной работы: изучение литературы.

В процессе ETL таблицы измерения должны обновляться до обновления таблиц фактов, поскольку релевантные строки таблиц измерений должны быть размещены для загружаемых новых фактов.

Элементы ETL-процесса. Извлечение данных:

Целью процесса извлечения данных является быстрое извлечение релевантных данных из источников данных.

Процесс извлечения данных из источников данных можно разбить на следующие основные типы:

извлечение данных при помощи приложений, основанных на выполнении SQL-команд. Эти приложения функционируют совместно с другими приложениями систем источников данных;

извлечение данных при помощи встроенных в СУБД механизмов импорта/экспорта данных. Использование таких механизмов, как правило, обеспечивает более быстрое извлечение данных, чем с помощью команд SQL;

извлечение данных с помощью специально разработанных приложений.

Преобразование данных:

Процесс преобразования данных источников включает в себя следующие основные действия.

Преобразование типов данных:

преобразования, связанные с кодировкой данных, например,

EBCDIC -> ASCII / UniCode;

преобразование строковых данных;

преобразование форматов данных для представления даты или времени.

Преобразования, связанные с нормализацией или денормализацией схемы данных:

преобразование денормализации схемы с целью увеличения производительности выполнения запросов к ХД;

нормализация схемы ХД с целью обеспечения простоты SQLзапросов.

Преобразования ключей, связанные с обеспечением соответствия бизнес-ключей суррогатным ключам ХД.

Загрузка данных:

Основная цель процесса загрузки данных состоит в быстрой загрузке данных в ХД. Отметим некоторые особенности выполнения процесса загрузки данных в ХД.

Во-первых, загрузка данных, основанная на использовании команд обновления SQL, является медленной. Каждая команда SQL выполняется СУБД по определенному плану выполнения, и ее обработка включает выполнение нескольких фаз. Поэтому загрузка с помощью встроенных в СУБД средств импорта/экспорта является предпочтительной.

Во-вторых, индексы таблиц загружаются медленно. Во многих случаях целесообразно удалить индекс и построить его заново.

В-третьих, следует максимально использовать параллелизм при загрузке данных. Измерения могут производиться одновременно с фактами и секциями таблиц. Аналогично факты и секции таблиц могут загружаться одновременно с измерениями.

Следует заметить, что при загрузке данных должна быть гарантирована ссылочная целостность данных, а агрегаты должны быть построены и загружены одновременно с подробными данными.

Настройка производительности загрузки данных в ХД выполняется администратором ХД с помощью набора процедур, предусмотренных используемой СУБД.

Таким образом, мы рассмотрели в общих чертах основные элементы ETL-процесса. Теперь разберем, как проектировать ETLпроцессы.

Очистка данных занимается выявлением и удалением ошибок и несоответствий в данных с целью улучшения качества данных. Проблемы с качеством встречаются в отдельных наборах данных - таких как файлы и базы данных. Целый ряд исследовательских групп занимается общими проблемами, связанными с очисткой данных, в том числе, со специфическими подходами к Data Mining и преобразованию данных на основании сопоставления схемы. В последнее время некоторые исследования коснулись единого, более сложного подхода к очистке данных, включающего ряд аспектов преобразования данных, специфических операторов и их реализации.

Deductor Studio – это программа, предназначенная для анализа информации из различных источников данных. Она реализует функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других подключений, но наиболее оптимальным является их совместное использование.

2.ЛАБОРАТОРНЫЕ РАБОТЫ

2.1Лабораторная работа 1 «Основы работы с аналитической

платформой Deductor studio»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: получить общие сведения о системе. Освоить начало работы с системой. Изучить архитектуру и настройку среды

Deductor Studio.

Задание:

Загрузить приложение Deductor Studio Academic 5.2.

Создать новый проект и сохранить его под собственным именем.

Заполнить свойства проекта.

Просмотреть файл проекта через любой текстовый редактор.

Провести импорт текстового файла Energy в созданный проект, настроить параметры импорта таким образом, чтобы данные файла отображались корректно.

Экспортировать набор данных в текстовый файл с настройками, предлагаемыми по умолчанию, сохраняя файл с собственным названием на рабочем диске.

Импортировать только что экспортированный файл в Deductor, задав в поле «Мастера импорта» путь сохраненного файла.

Удалить только что вставленный узел.

Сохранить проект.

2.2Лабораторная работа 2 «Трансформация данных в

Deductor Studio»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: ознакомиться и приобрести умения и навыки трансформации данных при подготовке их к анализу, приобретение практических навыков по использованию инструментария Deductor.

Задание:

Изучить информацию о разбиение даты в Deductor Studio.

Изучить информацию об обработке полученных данных в

Deductor Studio.

В Мастере обработки «Дата и Время» на выбрать поле «Дата кредитования» используемым, в появившейся после этого таблице настроек выбрать назначение «Используемое» в столбце «Строка» напротив строки «Год + Неделя».

Изучить информацию о квантовании в Deductor Studio.

Для обработки данных воспользоваться Мастером квантования. В нем выбрать назначение поля «Возраст» используемым, укажем способ разбиения «По интервалам», задать количество интервалов равное 5, в качестве значения выбрать «Метка интервала». На следующем шаге Мастера определить сами метки соответственно возраста кредиторов: «до 30 лет», «от 30 до 40 лет» и т.д. 17. После обработки выбрать в качестве способа отображения «Куб». В Мастере указать «Сумма кредита» в качестве факта, «Возраст» и поле «Дата кредитования (Год +Неделя)» в качестве измерения, остальные поля указать неиспользуемыми. Далее перенесем «Возраст» из доступных измерений в «Измерения в строках», a «Дата кредитования (Год + Неделя)» в «Измерения в столбцах».

Изучить информацию о настройке набора данных в Deductor

Studio.

В Мастере настройки выделить столбец «Дата кредитования (Год + Неделя)» и указать ему новую метку. Подобные действия по изменению произвести и с другими полями.

Изучить информацию о фильтрации данных в Deductor Studio.

В окне Мастера задать несколько условий фильтрации (<ПОЛЕ> <ОТНОШЕНИЕ> <ЗНАЧЕНИЕ>).

Изучить информацию о замене значений в Deductor Studio.

В Мастере замены выделить столбец «Пол» и нажать на кнопку «Добавить список». В появившемся списке пометить галочками оба значения и нажать на «ОК». Выбранные значения добавятся в таблицу подстановок. Далее указать, на что заменять исходные значения. Указать в качестве измерений поля «Пол» и «Цель кредитования», а в качестве факта «Сумма кредита». Остальные поля отметить как «неиспользуемый».

Изучить информацию о группировке данных в Deductor

Studio.

Запустить Мастер обработки. Выбрать в качестве метода обработки «Группировка». На втором шаге Мастера установить назначение поля «Город» как измерение, а назначение поля «Прибыль» как факт. В качестве функции агрегации у поля «Прибыль» указать «Сумма».

Изучить информацию о преобразовании данных к скользящему окну в Deductor Studio.

2.3Лабораторная работа 3 «Создание, заполнение и использование хранилища данных Deductor Warehouse на базе

Firebird»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: получить навыки создания, заполнения и использования хранилища данных.

Задание:

Для создания хранилища данных открыть панель Подключения. (Меню Вид – Подключения или кнопка на панели инструментов).

В окне дерева подключений вызвать контекстное меню и выбрать последовательно команду Мастер подключений.