Материал: 2329

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Мастер обработки данных

На вкладке «Настройка значения столбцов» необходимо задать назначения столбцов данных. Почти все столбцы автоматически получили значение «Входные». Значение поля «Выдать кредит», которое принимает только два значения «Да» или «Нет», необходимо установить в «Выходное». Также необходимо обозначить столбцы «Код» и «№ паспорта» как «Неиспользуемые» (так как значения этих столбцов уникальны, а это не позволит их классифицировать).

23

Окно настройки назначений столбцов

Далее следует окно настройки разбиения исходного множества данных на подмножества. Оставьте это окно без изменений и нажмите кнопку «Далее».

Следующий этап – настройка параметров обучения дерева решений. Необходимо учитывать, что чем больше значение параметра «Уровень доверия, используемый при отсечении узлов дерева», тем больше будет дерево решений в итоге.

С помощью кнопки «Пуск» запускаем процесс построения дерева решений. По окончании процесса вы увидите график, отображающий уровень распознавания данных, количество узлов созданного дерева и правил, полученных в результате обработки.

24

Процесс построения дерева решений

В последующем окне выбора способа отображения данных выберите «Дерево решений». А в последнем окне мастера обработки, по желанию, укажите имя и метку.

Результатом всех вышеописанных действий будет построенное дерево решений, которое отобразится в основном окне программы. На основании этого метода можно ответить на вопрос «Давать ли человеку кредит и если да, то при каких условиях».

25

Готовое дерево решений

Из полученного дерева можно вывести правила выдачи кредитов. Например:

Если срок проживания в данной местности меньше 6,5 лет, то кредит не давать.

Если срок проживания в данной местности больше 6,5 лет, займ обеспечен, возраст больше 20,5 лет, не имеется недвижимость, но имеется банковский счет, то кредит давать.

2.4.Задание

1.Постройте дерево решения для описанного выше примера. Попробуйте использовать различные значения параметров обучения дерева решения и сравните полученные деревья.

2.Выведите 5 правил из построенного дерева решений.

3.Приведите 4-5 примеров, для которых можно использовать метод обработки дерево решений, реализуйте один из них.

4.Составьте отчет.

26

Лабораторная работа №3. Логистическая регрессия и ROC-анализ

3.1. Основная цель

Научиться обрабатывать данные и прогнозировать события, используя возможности логистической регрессии и ROC-анализ.

3.2. Теоретическая часть

Логистическая регрессия — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.

Вообще, регрессионная модель предназначена для решения задач предсказания значения непрерывной зависимой переменной, при условии, что эта зависимая переменная может принимать значения на интервале от 0 до 1. В силу такой специфики ее часто используют для предсказания вероятности наступления некоторого события в зависимости от значений некоторого числа предикторов.

При изучении линейной регрессии мы исследуем модели вида y a b1x1 b2x2 ... bnxn .

Здесь зависимая переменная y является непрерывной, и мы определяем набор независимых переменных xi и коэффициенты при них bi, которые позволили бы нам предсказывать среднее значение y с учетом наблюдаемой ее изменчивости.

Во многих ситуациях, однако, y не является непрерывной величиной, а принимает всего два возможных значения. Обычно единицей в этом случае представляют осуществление какого-либо события (успех), а нулем - отсутствие его реализации (неуспех).

Среднее значение y - обозначенное через p, есть доля случаев, в которых y принимает значение 1. Математически это можно записать как p = P(y = 1) или p = P("Успех").

ROC-кривая или кривая ошибок - показывает зависимость количества верно классифицированных положительных объектов (по оси y) от количества неверно классифицированных отрицательных объектов (по оси x).

В терминологии ROC - анализа первые называются истинно положительным, вторые – ложно отрицательным множеством. При этом предполагается, что у классификатора имеется некоторый

27