двумерной карте используются самоорганизующиеся карты Кохонена.
1.9. Использование хранилищ данных. Различные архитектурные решения ХД, реализация процедур ETL
Вопросы для рассмотрения: Различные архитектурные решения ХД, реализация процедур ETL. Введение в оценку качества данных (ADQ – Assessment Data Quality). Технологии и методы оценки качества данных. Очистка и предобработка данных. Фильтрация данных. Обработка дубликатов и противоречий. Выявление аномальных значений. Восстановление пропущенных значений. Введение в сокращение размерности. Сокращение числа признаков. Сокращение числа значений признаков и записей. Сэмплинг. Использование Deductor Studio для оценки качества, очистки и предобработки данных.
Рекомендуемая литература: 1.
Перечень дополнительных ресурсов: 3,4.
Наименование вида самостоятельной работы: изучение литературы.
В процессе ETL таблицы измерения должны обновляться до обновления таблиц фактов, поскольку релевантные строки таблиц измерений должны быть размещены для загружаемых новых фактов.
Элементы ETL-процесса. Извлечение данных:
Целью процесса извлечения данных является быстрое извлечение релевантных данных из источников данных.
Процесс извлечения данных из источников данных можно разбить на следующие основные типы:
извлечение данных при помощи приложений, основанных на выполнении SQL-команд. Эти приложения функционируют совместно с другими приложениями систем источников данных;
извлечение данных при помощи встроенных в СУБД механизмов импорта/экспорта данных. Использование таких механизмов, как правило, обеспечивает более быстрое извлечение данных, чем с помощью команд SQL;
извлечение данных с помощью специально разработанных приложений.
Преобразование данных:
Процесс преобразования данных источников включает в себя следующие основные действия.
Преобразование типов данных:
преобразования, связанные с кодировкой данных, например,
EBCDIC -> ASCII / UniCode;
преобразование строковых данных;
преобразование форматов данных для представления даты или времени.
Преобразования, связанные с нормализацией или денормализацией схемы данных:
преобразование денормализации схемы с целью увеличения производительности выполнения запросов к ХД;
нормализация схемы ХД с целью обеспечения простоты SQLзапросов.
Преобразования ключей, связанные с обеспечением соответствия бизнес-ключей суррогатным ключам ХД.
Загрузка данных:
Основная цель процесса загрузки данных состоит в быстрой загрузке данных в ХД. Отметим некоторые особенности выполнения процесса загрузки данных в ХД.
Во-первых, загрузка данных, основанная на использовании команд обновления SQL, является медленной. Каждая команда SQL выполняется СУБД по определенному плану выполнения, и ее обработка включает выполнение нескольких фаз. Поэтому загрузка с помощью встроенных в СУБД средств импорта/экспорта является предпочтительной.
Во-вторых, индексы таблиц загружаются медленно. Во многих случаях целесообразно удалить индекс и построить его заново.
В-третьих, следует максимально использовать параллелизм при загрузке данных. Измерения могут производиться одновременно с фактами и секциями таблиц. Аналогично факты и секции таблиц могут загружаться одновременно с измерениями.
Следует заметить, что при загрузке данных должна быть гарантирована ссылочная целостность данных, а агрегаты должны быть построены и загружены одновременно с подробными данными.
Настройка производительности загрузки данных в ХД выполняется администратором ХД с помощью набора процедур, предусмотренных используемой СУБД.
Таким образом, мы рассмотрели в общих чертах основные элементы ETL-процесса. Теперь разберем, как проектировать ETLпроцессы.
Очистка данных занимается выявлением и удалением ошибок и несоответствий в данных с целью улучшения качества данных. Проблемы с качеством встречаются в отдельных наборах данных - таких как файлы и базы данных. Целый ряд исследовательских групп занимается общими проблемами, связанными с очисткой данных, в том числе, со специфическими подходами к Data Mining и преобразованию данных на основании сопоставления схемы. В последнее время некоторые исследования коснулись единого, более сложного подхода к очистке данных, включающего ряд аспектов преобразования данных, специфических операторов и их реализации.
Deductor Studio – это программа, предназначенная для анализа информации из различных источников данных. Она реализует функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других подключений, но наиболее оптимальным является их совместное использование.
2.ЛАБОРАТОРНЫЕ РАБОТЫ
2.1Лабораторная работа 1 «Основы работы с аналитической
платформой Deductor studio»
Рекомендуемая литература: 1.
Перечень дополнительных ресурсов: 3,4.
Цель работы: получить общие сведения о системе. Освоить начало работы с системой. Изучить архитектуру и настройку среды
Deductor Studio.
Задание:
Загрузить приложение Deductor Studio Academic 5.2.
Создать новый проект и сохранить его под собственным именем.
Заполнить свойства проекта.
Просмотреть файл проекта через любой текстовый редактор.
Провести импорт текстового файла Energy в созданный проект, настроить параметры импорта таким образом, чтобы данные файла отображались корректно.
Экспортировать набор данных в текстовый файл с настройками, предлагаемыми по умолчанию, сохраняя файл с собственным названием на рабочем диске.
Импортировать только что экспортированный файл в Deductor, задав в поле «Мастера импорта» путь сохраненного файла.
Удалить только что вставленный узел.
Сохранить проект.
2.2Лабораторная работа 2 «Трансформация данных в
Deductor Studio»
Рекомендуемая литература: 1.
Перечень дополнительных ресурсов: 3,4.
Цель работы: ознакомиться и приобрести умения и навыки трансформации данных при подготовке их к анализу, приобретение практических навыков по использованию инструментария Deductor.
Задание:
Изучить информацию о разбиение даты в Deductor Studio.
Изучить информацию об обработке полученных данных в
Deductor Studio.
В Мастере обработки «Дата и Время» на выбрать поле «Дата кредитования» используемым, в появившейся после этого таблице настроек выбрать назначение «Используемое» в столбце «Строка» напротив строки «Год + Неделя».
Изучить информацию о квантовании в Deductor Studio.
Для обработки данных воспользоваться Мастером квантования. В нем выбрать назначение поля «Возраст» используемым, укажем способ разбиения «По интервалам», задать количество интервалов равное 5, в качестве значения выбрать «Метка интервала». На следующем шаге Мастера определить сами метки соответственно возраста кредиторов: «до 30 лет», «от 30 до 40 лет» и т.д. 17. После обработки выбрать в качестве способа отображения «Куб». В Мастере указать «Сумма кредита» в качестве факта, «Возраст» и поле «Дата кредитования (Год +Неделя)» в качестве измерения, остальные поля указать неиспользуемыми. Далее перенесем «Возраст» из доступных измерений в «Измерения в строках», a «Дата кредитования (Год + Неделя)» в «Измерения в столбцах».
Изучить информацию о настройке набора данных в Deductor
Studio.
В Мастере настройки выделить столбец «Дата кредитования (Год + Неделя)» и указать ему новую метку. Подобные действия по изменению произвести и с другими полями.
Изучить информацию о фильтрации данных в Deductor Studio.
В окне Мастера задать несколько условий фильтрации (<ПОЛЕ> <ОТНОШЕНИЕ> <ЗНАЧЕНИЕ>).
Изучить информацию о замене значений в Deductor Studio.
В Мастере замены выделить столбец «Пол» и нажать на кнопку «Добавить список». В появившемся списке пометить галочками оба значения и нажать на «ОК». Выбранные значения добавятся в таблицу подстановок. Далее указать, на что заменять исходные значения. Указать в качестве измерений поля «Пол» и «Цель кредитования», а в качестве факта «Сумма кредита». Остальные поля отметить как «неиспользуемый».
Изучить информацию о группировке данных в Deductor
Studio.
Запустить Мастер обработки. Выбрать в качестве метода обработки «Группировка». На втором шаге Мастера установить назначение поля «Город» как измерение, а назначение поля «Прибыль» как факт. В качестве функции агрегации у поля «Прибыль» указать «Сумма».
Изучить информацию о преобразовании данных к скользящему окну в Deductor Studio.
2.3Лабораторная работа 3 «Создание, заполнение и использование хранилища данных Deductor Warehouse на базе
Firebird»
Рекомендуемая литература: 1.
Перечень дополнительных ресурсов: 3,4.
Цель работы: получить навыки создания, заполнения и использования хранилища данных.
Задание:
Для создания хранилища данных открыть панель Подключения. (Меню Вид – Подключения или кнопка на панели инструментов).
В окне дерева подключений вызвать контекстное меню и выбрать последовательно команду Мастер подключений.