Материал: 2329

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Установите параметры построения ассоциативных правил, используя информацию, изложенную в теоретической части данного раздела.

Настройка параметров построения ассоциативных правил

Далее запустите процесс поиска ассоциативных правил, нажав кнопку «Пуск».

Выбираем способ отображения данных «Правила» в разделе «Data Mining». В завершение указываем значения полей «Имя», «Метка», «Описание».

5.4.Задание

1.Выполните действия, описанные выше, используя различные параметры построения ассоциативных правил. Сравните полученные результаты, объясните их.

2.Ответьте на вопросы:

какой товар с наибольшей достоверностью берут с вафлями?

человек взял мед и сыры, какой один из товаров он скорее всего не возьмёт?

назовите 5 самых популярных наборов товаров (в наборе может быть один или несколько товаров).

48

3.Опишите 4-5 ассоциативных правил, полученных в ходе выполнения работы.

4.Где еще, кроме торговли, можно использовать ассоциативные правила? Приведите примеры.

5.Составьте отчет.

3.ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА «СЕМАНТИЧЕСКИЙ АРХИВ»

3.1. Общее описание

Информационно-аналитическая система «Семантический архив» разработана компанией «Аналитические бизнес решения».

ИАС «Семантический архив» предназначена для автоматизации деятельности аналитических служб коммерческих организаций и государственных структур различного профиля.

Система позволяет организовывать сбор текстовой информации из открытых источников (электронные СМИ, аналитические отчеты экспертов), осуществлять их автоматизированную обработку, эффективное хранение, проведение анализа и генерацию отчетов.

Система предоставляет аналитикам возможность сформировать формальные досье на различные объекты мониторинга – персоны, компании, государственные структуры, а также хранить описания их взаимоотношений и событий, происходящих с ними. Часть отношений и событий могут иметь ссылки на текстовые материалы, в которых они упоминались.

ИАС «Семантический архив» представляет собой программный комплекс, включающий в себя программные компоненты, работающие на сервере и клиентских рабочих местах.

3.2. Возможности системы

Рассмотрим возможности ИАС «Семантический архив»:

создание документального архива прессы и внутренних документов компании с развитыми функциями поиска информации, обеспечивающей повышение качества и скорости работы аналитической службы;

49

создание архива формальных досье (с развитыми функциями поиска) на персоны и организации, входящие в сферу интересов компании;

система автоматизирует деятельность операторов по регулярному мониторингу действий персон и компаний по материалам СМИ и другим источникам;

система автоматизирует деятельность аналитиков при решении аналитических задач (выявление неявных связей между персонами и компаниями, выявление корреляций между происходящими событиями);

система автоматизирует процесс подготовки отчетов и аналитических записок для руководства.

3.3. Технология работы системы

Поставляемые с системой Интернет-роботы позволяют собирать новости из Интернета, оператор имеет возможность вставлять документы с жесткого диска и импортировать данные из внешних баз данных.

В системе реализовано автоматическое выделение объектов мониторинга из текстов документов и автоматизированное (с участием оператора) выделение событий и отношений между ними.

3.4. Типы автоматизированных рабочих мест (АРМ)

Типы рабочих мест системы:

конструктор;

оператор;

аналитик.

Хранение данных в системе реализовано в объектноориентированном виде, что дает аналитикам возможность работать с системой в терминах предметной области.

Уникальным отличием системы от подобных систем является возможность изменения структуры хранилища (добавление новых реквизитов и типовых объектов в процессе эксплуатации системы).

Изменение структуры хранилища может осуществлять сам аналитик без привлечения программистов.

В системе реализован полнотекстовый поиск, поиск по реквизитам документов и по свойствам объектов, отношений и

50

событий. Аналитик имеет возможность анализировать связи между объектами с помощью семантической сети.

Такой способ визуализации позволяет аналитику увидеть "окружение объекта". Результаты анализа могут быть представлены в виде отчетов различных форматов.

3.5. Технологический цикл работы

Технологический цикл работы включает в себя 5 этапов:

1.Сбор данных. Автоматизированный сбор данных из различных источников

2.Обработка данных. Автоматизация обработки включает описание пользователем-оператором свойств документа, выделение смысловых конструкций – знаний из текста.

3.Формирование аналитических запросов. Формирование информационного среза по документам, объектам и событиям, входящим в область интересов компании. Анализируя параметры найденных объектов, событий или отношений, их связи с «соседними» сущностями, аналитик выявляет интересующие его факты.

4.Анализ взаимосвязей. Анализ взаимосвязей объектов путем навигации на семантической сети или автоматический поиск цепочек связей.

5.Формирование дайджестов и отчетов. Одной из разновидностей отчета является досье на различных участников исследований или ситуаций в комплексе. Сформированный отчет будет отражать зафиксированный информационный срез модели предметной области.

3.6.Технология обработки документов

1.Описание оператором реквизитов документа (автор, издание, дата публикации и т.д.).

2.Автоматическое выделение из текста объектов мониторинга (персон, компаний, партий и пр.).

3.Автоматизированное выделение (с участием оператора) различных фактов, относящихся к объектам мониторинга, - отношений, состояний и событий.

51

3.7. Технология описания факта

Описание факта из документа сводится к заполнению полей информационной «карточки». Всего в системе хранится около 300 «шаблонных карточек», описывающих основные типовые отношения и события в экономическом, юридическом, личностном и других аспектах.

Поля карточки могут быть свойством, связью с элементом размерности и связью с объектом.

Всистеме существует три размерности: «Время», «Географический регион» и «Сфера деятельности».

Общими для всех фактов свойствами являются важность, достоверность и банк данных.

У каждого типа фактов могут быть свои уникальные свойства (сумма контракта, объем производства и т.д.).

Всистеме регистрируются связи выделяемых фактов с объектами, имеющимися в информационном хранилище. Такая организация хранилища позволяет в дальнейшем визуализировать объекты и факты в виде семантической сети.

3.8.Основные функции системы

Косновным функциям системы можно отнести следующие:

мониторинг новостных сайтов с помощью специализированных Интернет-роботов (поставляемых с системой опционально);

периодическое импортирование информации из различных реляционных баз данных;

индексация текстовой и фактографической информации, хранящейся в системе (с целью обеспечения функции быстрого поиска текстовых материалов, объектов мониторинга, отношений и событий);

полнотекстовый и параметрический поиск;

визуализация информации в виде таблицы документов, объектов или событий;

визуализация параметров событий (цена акций компании, количество голосов электората) средствами бизнес-графики;

визуализация событий и их привязка к карте;

52