Пример создания сценария, вкладка «Статистика»
Изучим возможности мастера обработки (кнопка
в левой части главного окна либо клавиша F7). После запуска мастера обработки появится список возможных способов обработки данных.
Список доступных способов обработки данных
18
Все способы разделены на четыре основные группы: очистка данных, трансформация данных, Data Mining, пр. Каждый способ обработки имеет название и краткое описание. Выбор способа зависит от целей обработки данных (например, сортировка и фильтрация данных, построение дерева решений и пр.).
Мастер визуализации позволяет определить способ отображения данных, указать метки и добавить описание к проекту. Запустить его можно с помощью кнопки
либо клавишей F5.
Готовый проект можно экспортировать, воспользовавшись мастером экспорта (кнопка
основного окна либо клавиша F8). Указав параметры, проект можно перенести в один из доступных форматов.
1.4.Задание
1.Опишите назначение и возможности АП «Deductor».
2.Запустите программу «Deductor Studio Academic»,
ознакомьтесь с назначением кнопок и контекстным меню главного окна программы.
3.Воспользуйтесь мастером импорта данных (импортируйте любой файл, например из C:\Program Files\ BaseGroup\ Deductor\ Samples\ *.txt ).
4.Ознакомьтесь с доступными способами обработки данных.
5.Изучите возможности мастера визуализации и экспорта.
Какие параметры доступны для мастера экспорта данных?
6.Создайте отчет.
Лабораторная работа №2. Реализация алгоритма построения дерева решений
2.1. Основная цель
Изучить алгоритм «Построение дерева решений» и научиться обрабатывать с его помощью данные.
2.2. Теоретическая часть
Своевременная разработка и принятие правильного решения - это одна из главных задач работы управленческого персонала
19
организации, т.к. необдуманное решение может дорого обойтись компании. Зачастую на практике результат одного решения заставляет нас принимать следующее решение и т. д. Когда же нужно принять несколько решений в условиях неопределенности, когда каждое решение зависит от исхода предыдущего, то применяют схему, называемую деревом решений.
Дерево решений это графическое изображение процесса принятия решений, в котором отражены альтернативные решения, соответствующие вероятности, и выигрыши для любых комбинаций альтернатив.
Дерево решений представляет один из способов разбиения множества данных на классы или категории. Корень дерева неявно содержит все классифицируемые данные, а листья определенные классы после выполнения классификации. Промежуточные узлы дерева представляют пункты принятия решения о выборе.
Структура дерева решений
Построение дерева решений
Пусть нам задано некоторое обучающее множество T, содержащее объекты, каждый из которых характеризуется m атрибутами, причем один из них указывает на принадлежность объекта к определенному классу.
Пусть через {C1, C2, ... Ck} обозначены классы, тогда существуют
3ситуации:
множество T содержит один или более примеров, относящихся к одному классу Ck. Тогда дерево решений для Т – это лист, определяющий класс Ck;
20
множество T не содержит ни одного примера, т.е. пустое множество. Тогда это снова лист, и класс, ассоциированный с листом, выбирается из другого множества отличного от T, скажем, из множества, ассоциированного с родителем;
множество T содержит примеры, относящиеся к разным классам. В этом случае следует разбить множество T на некоторые подмножества. Для этого выбирается один из признаков, имеющий два и более отличных друг от друга значений O1, O2, ... On. T разбивается на подмножества T1, T2, ... Tn, где каждое подмножество Ti содержит все примеры, имеющие значение Oi для выбранного признака. Эта процедура будет рекурсивно продолжаться до тех пор, пока конечное множество не будет состоять из примеров, относящихся к одному и тому же классу.
Вышеописанная процедура лежит в основе многих современных алгоритмов построения дерева решений, этот метод известен еще под названием «разделение и захват». Очевидно, что при использовании данной методики построение дерева решений будет происходить сверху вниз.
Области применения дерева решений
Дерево решений является прекрасным инструментом в системах поддержки принятия решений, интеллектуального анализа данных (Data Mining). В областях, где высока цена ошибки, они послужат отличным подспорьем аналитика или руководителя.
Дерево решений успешно применяется для решения практических задач в следующих областях:
Банковское дело. Оценка кредитоспособности клиентов банка при выдаче кредитов.
Промышленность. Контроль качества продукции (выявление дефектов), испытания без разрушений (например, проверка качества сварки) и т.д.
Медицина. Диагностика различных заболеваний.
Молекулярная биология. Анализ строения аминокислот.
Это далеко не полный список областей, где можно использовать дерево решений, т.к. еще многие потенциальные области применения не исследованы.
21
2.3. Практическая часть
Для загрузки данных примера импортируйте файл C:\Program Files\BaseGroup\Deductor\Samples\CreditSample.txt в АП «Deductor» с
помощью мастера импорта. Все параметры импорта примите установленными по умолчанию. В окне выбора способа отображения данных выберите «Таблица», если он не выбран по умолчанию.
В результате в основном окне появится таблица, заполненная из указанного файла.
Итог импорта данных
Запустите мастер обработки данных. В появившемся окне в разделе Data Mining выберете метод обработки «Дерево решений» и нажмите «Далее».
22