Материал: Прототип системы интеллектуального поиска документов на основе онтологии предметной области

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Прототип системы интеллектуального поиска документов на основе онтологии предметной области













ДИПЛОМНЫЙ ПРОЕКТ

Прототип системы интеллектуального поиска документов на основе онтологии предметной области

Содержание

 

Введение

1. Формирование требований к АС

2. Разработка концепции АС

3. Техническое задание

4.1 Общие положения

4.2 Назначение и цели создания системы

4.3 Характеристика объектов автоматизации

4.4 Требования к системе

4.5 Состав и содержание работ по созданию (развитию) системы

4.6 Порядок контроля приемки системы

Виды, состав, объем и методы испытаний системы

4.7 Требования к документированию

5. Технический проект

5.1 Общее описание системы

Описание системы

Уровень представления. Пользовательский графический интерфейс

5.2 Схема структурная комплекса технических средств

5.3 Описание информационного обеспечения системы

5.4 Описание программного обеспечения

5.5 Описание алгоритма (проектной процедуры)

6. Рабочая документация

6.1 Руководство пользователя

Заключение

Список используемой литературы

Приложения

Введение


Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и целенаправленно развивается как тематическая электронная библиотека и база для исследований и учебных курсов в области экономики, управления, социологии, лингвистики, философии, филологии, международных отношений и других гуманитарных наук. УИС РОССИЯ поддерживается на базе Научно-исследовательского вычислительного центра МГУ имени М.В. Ломоносова и с 2000 года открыта для коллективного доступа. Доступ к УИС РОССИЯ бесплатный, но по обращению Руководителя и предварительной регистрации, предоставляется всем образовательным и научным учреждениям, государственным и негосударственным некоммерческим организациям и публичным библиотекам по IP-адресам, а также специалистам по индивидуальной регистрации. С системой работают свыше 250 коллективных пользователей <#"877770.files/image001.gif">

Рисунок 1 - Варианты использования системы

Процесс реализации пользовательского варианта использования "Произвести поиск" приведен на рис.2:

Рисунок 2 - Диаграмма деятельности процесса реализации пользовательского варианта использования "Произвести поиск"

Перечень объектов автоматизации, на которых используется система

Перечень функций, реализуемых системой

В функции, реализуемой системой заключается осуществление информационного поиска документов по пользовательскому запросу, применяя расширение исходного пользовательского поискового запроса при помощи онтологии предметной области. Данная функция включает в себя:

-       Морфологическая обработка поискового запроса;

-       Онтологическая обработка поискового запроса;

-       Формирование расширенных поисковых запросов;

-       Осуществление поиска документов по поисковым запросам;

-       Формирование списков результатов поиска по метаинформации.


Описание системы

Структура системы

Архитектура разработанной системы является модульной и представляет собою взаимодействующие между собой функциональные компоненты, каждый из которых осуществляет определенную стадию обработки пользовательского поискового запроса.

Рисунок 3 - Диаграмма компонентов системы по функциональным слоям

Функциональные модули системы логически распределены по программным уровням абстракции системы, что делает архитектуру системы слоистой, каждый слой которой содержит соответствующие функциональные модули, необходимые доя осуществления его функционирования. Таким образом, архитектура системы разработана в соответствии со стандартной Трехуровневой архитектурой программного обеспечения, состоящей из следующих логических программных уровней: "Уровень представления", "Уровень бизнес-логики", "Уровень данных". Такой подход к организации программной архитектуры делает разработанную систему:

-       Масштабируемой - возможности расширения функционала системы значительно упрощаются в связи логическим разделением компонентов системы с сохранением высокоуровневой Трехуровневой архитектуры системы;

-       Конфигурируемой - изолированность уровней друг от друга позволяет (при правильном развертывании архитектуры) быстро и простыми средствами переконфигурировать систему при возникновении сбоев или при плановом обслуживании на одном из логических уровней;

-       Надежной - разделение функциональных компонентов системы по логическим уровням делает систему надежнее в силу сосредоточения определенного функционала только на одном из уровней системы, исключая таким образом "смешивание" функционала на каждом из уровней, а так же "разброса" какой либо функции системы по нескольким (разным) логическим уровням системы.

В соответствии с разработанной архитектурой система состоит из следующих уровней:

-       Уровень представления. Предназначен для предоставления доступа к системе. Данный уровень содержит функциональные компоненты:

-       Пользовательский графический интерфейс;

-       Набор API-интерфейсов системы;

-       Контроллер системы;

-       Уровень бизнес-логики. Предназначен для реализации бизнес-логики - обработки поискового запроса в системой. Данный уровень содержит функциональные компоненты:

-       Поисковое ядро;

-       Модуль морфологии;

-       Модуль онтологии;

-       Модуль формирования запросов;

-       Модуль поиска;

-       Модуль документов;

-       Уровень данных. Предназначен для обеспечения доступа к:

-       сервисам морфологии;

-       базам онтологий;

-       подсистеме полнотекстного поиска;

-       базе данных метаинформации документов.

Данный уровень содержит функциональные компоненты:

Интерфейс доступа к сервисам морфологии;

-       Интерфейс доступа к базам онтологий;

-       Интерфейс доступа к подсистеме полнотекстного поиска (поисковому движку);

-       Интерфейс доступа к базе данных документов

Сведения об АС, необходимые для обеспечения эксплуатации системы

Данные сведения приведены в п.3.4 "Описание программного обеспечения" Настоящего Документа.

Описание функционирования системы и частей системы

Уровень представления. Пользовательский графический интерфейс

Данный компонент системы реализует графический пользовательский интерфейс для обеспечения взаимодействия пользователя с поисковой системой. Средства взаимодействия пользователя с поисковой системой реализуются средствами:

-       скриптового языка JavaScript и языка разметки HTML на стороне пользователя системы (клиента) web-браузере;

-       языка генерации web-страниц Java Server Pages и языка программирования Java на стороне сервера системы;

В состав графического интерфейса пользователя входят:

-       Текстовое поле, предназначенное для ввода текста пользовательского поискового запроса;

-       Список онтологий предметных областей, позволяющий отмечать онтологии, которые необходимо использовать для расширения пользовательского поискового запроса;

-       Текстовое поле, предназначенное для ввода ссылок на онтологии предметных областей, которые необходимо использовать для расширения пользовательского поискового запроса, загрузив их внешних источников (web-ресурсов) в сети Интернет;

-       Кнопка "Отправить", предназначенная для отправки введенных пользователем данных на сервер с целью запуска процесса обработки пользовательского поискового запроса и выдачи результатов;

-       Кнопка "Очистить", предназначенная для очистки введенных пользователем данных во всех формах web-страницы.

Данный модель обеспечивает динамическое формирование графического интерфейса пользователя системы по описанной схеме - генерацию web-страницы по запросу пользователя к серверу системы.

Набор API-интерфейсов

Данный компонент системы представляет собой набор программных интерфейсов, предназначенных для возвращения результатов выполнения запроса в формате XML. Данный функционал предназначен для обеспечения совместимости системы со смежными системами.

Контроллер системы

Данный компонент системы предназначен для приема пользовательских запросов к системе с последующей проверкой представленных параметров поиска и в случае отсутствия ошибок в полученных данных - отправкой запроса поисковому ядру системы.

Уровень бизнес-логики

Компоненты этого уровня обеспечивают реализацию бизнес-логики процесса интеллектуального поиска документов с использованием онтологии предметной области.

Поисковое ядро

Данный компонент уровня бизнес-логики системы реализует инициирование и управление всем процессом обработки пользовательского поискового запроса системой. Задачи управления процессом обработки запроса включают:

-       Создание объекта поиска (структуры данных, используемой для хранения результатов всех этапов обработки запроса);

-       Инициирование выделения памяти и загрузку необходимых для обработки запроса модулей;

-       Передачу загруженным модулям объекта поиска и управления;

-       Инициирование выгрузки из памяти функциональных модулей по завершению обработки поискового запроса;

-       Выдача результатов поиска.

Модуль морфологии

Данный модуль предназначен для осуществления первичной морфологической обработки поискового запроса. В задачи модуля морфологии входит:

-       "Очистка" текста запроса - удаление из текста запроса не участвующих в онтологической обработке запроса символов;

-       Разделение текста запроса на элементы - выделения из текста запроса слов;

-       Нормализация элементов запроса - приведение выделенных из текста запроса слов к нормальной форме: именительный падеж, единственное число;

-       Повышение регистра первой буквы и понижение остальных букв каждого нормализованного элемента запроса;

В процессе морфологической обработки запроса модуль использует интерфейсы доступа к сервисам морфологии уровня данных. При этом, в силу специфики архитектуры системы на уровне модуля морфологии соблюдается полная абстракция от используемого сервиса морфологии.

По завершению морфологической обработки запроса модуль формирует список нормализованных элементов запроса, представленных в том же порядке, в котором они идут в исходном поисковом запросе.

Модуль онтологии

Данный модуль предназначен для осуществления онтологической обработки поискового запроса, направленной на расширение исходного запроса путем формирования дополнительных поисковых запросов из связанных с исходными элементами запроса указанными пользователем связями и найденными в онтологии элементами:

-       синонимов элементов запроса;

-       подклассов элементов запроса;

-       надклассов элементов запроса.

Данный процесс поиска соответствующих элементов в онтологии в системе определен как "Поиск верхнего уровня".

В процессе онтологической обработки запроса модуль использует интерфейсы доступа к онтологиям предметных областей уровня данных для загрузки указанных пользователем онтологий предметных областей из базы онтологий или внешних Интернет-ресурсов.

По завершению онтологической обработки запроса модуль формирует списки результатов поиска "Верхнего уровня".

Модуль формирования запросов

Данный модуль предназначен для формирования дополнительных поисковых запросов из найденных в процессе осуществления поиска "Первого уровня" соответствующих элементов онтологий предметных областей. Для каждой использованной в процессе поиска онтологии производится формирование расширенного поискового запроса.

Модуль поиска

Данный модуль предназначен для осуществления поиска документов по исходному пользовательскому и построенным при помощи указанных онтологий дополнительным (расширенным) запросам.

В процессе реализации поиска по всем запросам модуль использует интерфейс доступа к подсистеме полнотекстового поиска уровня данных. При этом, в качестве подсистемы полнотекстового поиска (поискового движка) используется система Sphinx [35]. В силу специфики архитектуры на уровне модуля поиска соблюдается полная абстракция от используемого в системе поискового движка.

По завершению поиска документов по представленным запросам модуль формирует списки идентификаторов документов-результатов поиска для каждого из запросов.

Модуль документов

Данный модуль предназначен для загрузки метаинформации документов-результатов поиска и формированию "карточек" документов.

В загружаемую метаинформацию документов входят:

-       имя поля - название соответствующего параметра документа;

-       значение поля - значение соответствующего параметра документа;

-       маска "карточки" документа - описание формата "карточки документа, используемой при отображении документа в списке результатов поиска;

В процессе обработки результатов поиска модуль использует интерфейс доступа к базе данных документов уровня данных. При этом, в силу специфики архитектуры на уровне модуля документов соблюдается полная абстракция от используемой в системе для хранения метаинформации документов СУБД.

Уровень данных

Данный уровень предоставляет более высокоуровневым компонентам системы интерфейсы для доступа к данным, таким как:

-       сервис морфологии;

-       база онтологий;

-       внешние Интернет-ресурсы (хранилища) онтологий;

-       подсистема полнотекстового поиска;

-       база данных документов

Доступ к данным осуществляется посредством соответствующих программных интерфейсов, реализуемых на данном уровне системы.

Описание взаимосвязи АС с другими системами

Перечень систем, с которыми связана данная АС

Для реализации бизнес-логики процесса обработки поискового запроса разработанная система связана со следующими системами:

-       Сервис морфологии - для реализации морфологической обработки поискового запроса;

-       База онтологий - для реализации онтологической обработки запроса;

-       Внешние Интернет-ресурсы онтологий - для реализации онтологической обработки запроса;

-       Подсистема полнотекстового поиска (поисковой движок) - для реализации поиска документов по запросам;