Установите параметры построения ассоциативных правил, используя информацию, изложенную в теоретической части данного раздела.
Настройка параметров построения ассоциативных правил
Далее запустите процесс поиска ассоциативных правил, нажав кнопку «Пуск».
Выбираем способ отображения данных «Правила» в разделе «Data Mining». В завершение указываем значения полей «Имя», «Метка», «Описание».
5.4.Задание
1.Выполните действия, описанные выше, используя различные параметры построения ассоциативных правил. Сравните полученные результаты, объясните их.
2.Ответьте на вопросы:
какой товар с наибольшей достоверностью берут с вафлями?
человек взял мед и сыры, какой один из товаров он скорее всего не возьмёт?
назовите 5 самых популярных наборов товаров (в наборе может быть один или несколько товаров).
48
3.Опишите 4-5 ассоциативных правил, полученных в ходе выполнения работы.
4.Где еще, кроме торговли, можно использовать ассоциативные правила? Приведите примеры.
5.Составьте отчет.
3.ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА «СЕМАНТИЧЕСКИЙ АРХИВ»
3.1. Общее описание
Информационно-аналитическая система «Семантический архив» разработана компанией «Аналитические бизнес решения».
ИАС «Семантический архив» предназначена для автоматизации деятельности аналитических служб коммерческих организаций и государственных структур различного профиля.
Система позволяет организовывать сбор текстовой информации из открытых источников (электронные СМИ, аналитические отчеты экспертов), осуществлять их автоматизированную обработку, эффективное хранение, проведение анализа и генерацию отчетов.
Система предоставляет аналитикам возможность сформировать формальные досье на различные объекты мониторинга – персоны, компании, государственные структуры, а также хранить описания их взаимоотношений и событий, происходящих с ними. Часть отношений и событий могут иметь ссылки на текстовые материалы, в которых они упоминались.
ИАС «Семантический архив» представляет собой программный комплекс, включающий в себя программные компоненты, работающие на сервере и клиентских рабочих местах.
3.2. Возможности системы
Рассмотрим возможности ИАС «Семантический архив»:
создание документального архива прессы и внутренних документов компании с развитыми функциями поиска информации, обеспечивающей повышение качества и скорости работы аналитической службы;
49
создание архива формальных досье (с развитыми функциями поиска) на персоны и организации, входящие в сферу интересов компании;
система автоматизирует деятельность операторов по регулярному мониторингу действий персон и компаний по материалам СМИ и другим источникам;
система автоматизирует деятельность аналитиков при решении аналитических задач (выявление неявных связей между персонами и компаниями, выявление корреляций между происходящими событиями);
система автоматизирует процесс подготовки отчетов и аналитических записок для руководства.
3.3. Технология работы системы
Поставляемые с системой Интернет-роботы позволяют собирать новости из Интернета, оператор имеет возможность вставлять документы с жесткого диска и импортировать данные из внешних баз данных.
В системе реализовано автоматическое выделение объектов мониторинга из текстов документов и автоматизированное (с участием оператора) выделение событий и отношений между ними.
3.4. Типы автоматизированных рабочих мест (АРМ)
Типы рабочих мест системы:
конструктор;
оператор;
аналитик.
Хранение данных в системе реализовано в объектноориентированном виде, что дает аналитикам возможность работать с системой в терминах предметной области.
Уникальным отличием системы от подобных систем является возможность изменения структуры хранилища (добавление новых реквизитов и типовых объектов в процессе эксплуатации системы).
Изменение структуры хранилища может осуществлять сам аналитик без привлечения программистов.
В системе реализован полнотекстовый поиск, поиск по реквизитам документов и по свойствам объектов, отношений и
50
событий. Аналитик имеет возможность анализировать связи между объектами с помощью семантической сети.
Такой способ визуализации позволяет аналитику увидеть "окружение объекта". Результаты анализа могут быть представлены в виде отчетов различных форматов.
3.5. Технологический цикл работы
Технологический цикл работы включает в себя 5 этапов:
1.Сбор данных. Автоматизированный сбор данных из различных источников
2.Обработка данных. Автоматизация обработки включает описание пользователем-оператором свойств документа, выделение смысловых конструкций – знаний из текста.
3.Формирование аналитических запросов. Формирование информационного среза по документам, объектам и событиям, входящим в область интересов компании. Анализируя параметры найденных объектов, событий или отношений, их связи с «соседними» сущностями, аналитик выявляет интересующие его факты.
4.Анализ взаимосвязей. Анализ взаимосвязей объектов путем навигации на семантической сети или автоматический поиск цепочек связей.
5.Формирование дайджестов и отчетов. Одной из разновидностей отчета является досье на различных участников исследований или ситуаций в комплексе. Сформированный отчет будет отражать зафиксированный информационный срез модели предметной области.
3.6.Технология обработки документов
1.Описание оператором реквизитов документа (автор, издание, дата публикации и т.д.).
2.Автоматическое выделение из текста объектов мониторинга (персон, компаний, партий и пр.).
3.Автоматизированное выделение (с участием оператора) различных фактов, относящихся к объектам мониторинга, - отношений, состояний и событий.
51
3.7. Технология описания факта
Описание факта из документа сводится к заполнению полей информационной «карточки». Всего в системе хранится около 300 «шаблонных карточек», описывающих основные типовые отношения и события в экономическом, юридическом, личностном и других аспектах.
Поля карточки могут быть свойством, связью с элементом размерности и связью с объектом.
Всистеме существует три размерности: «Время», «Географический регион» и «Сфера деятельности».
Общими для всех фактов свойствами являются важность, достоверность и банк данных.
У каждого типа фактов могут быть свои уникальные свойства (сумма контракта, объем производства и т.д.).
Всистеме регистрируются связи выделяемых фактов с объектами, имеющимися в информационном хранилище. Такая организация хранилища позволяет в дальнейшем визуализировать объекты и факты в виде семантической сети.
3.8.Основные функции системы
Косновным функциям системы можно отнести следующие:
мониторинг новостных сайтов с помощью специализированных Интернет-роботов (поставляемых с системой опционально);
периодическое импортирование информации из различных реляционных баз данных;
индексация текстовой и фактографической информации, хранящейся в системе (с целью обеспечения функции быстрого поиска текстовых материалов, объектов мониторинга, отношений и событий);
полнотекстовый и параметрический поиск;
визуализация информации в виде таблицы документов, объектов или событий;
визуализация параметров событий (цена акций компании, количество голосов электората) средствами бизнес-графики;
визуализация событий и их привязка к карте;
52