Статья: Исследование зависимости времени извлечения данных из XML-файлов от объема выборки файлов в условиях избыточности данных

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

И в случае работы SAX-парсера, и в случае работы DOM-парсера, набор тегов передается конструктору объекта Notification для последующей записи объекта в репозиторий.

Полученные значения времени извлечения информации при использовании8АХ-парсера отражены в таблице 1, при использовании DOM - в таблице 2.

Таблица 2

Зависимость времени выполнения парсинга XMLфайлов методом DOM от количества файлов в выборке и набора извлекаемых тегов

Количество

файлов

Число извлекаемых

тегов

Время выполнения преобразования, мс

1

2

3

4

5

среднее

1000

4

5416

4995

6167

5996

4764

5467,6

1000

8

6177

5419

5931

5829

6295

5930,2

1000

16

6653

5075

7175

6176

6195

6254,8

5000

4

12468

12816

13952

13684

12746

13133,2

5000

8

14678

13574

15488

15584

15406

14946

5000

16

20476

20862

20429

21064

20274

20621

100000

4

18294

20536

17833

17962

18015

18528

100000

8

20402

20107

20259

21359

19793

20384

100000

16

25478

27485

22263

22557

21995

23955,6

Заключение

В результате данной работы было выявлено, что для целей извлечения данных из XMLдокументов рационально использовать метод SAX, поскольку в общем случае время, затрачиваемое на обработку файла методом DOM может превышать в 1,5 раза время обработки файла методом SAX для получения содержимого аналогичного набора тегов.

Стоит учитывать, что метод SAX подходит только для извлечения информации, и в случае необходимости модификации данных неприменим, в отличие от DOM. Однако в случае решения задачи получения данных, этой особенностью можно пренебречь.

На основании полученных данных с ftp возможно проводить дальнейшие исследования, позволяющие формировать рекомендации для поставщиков и заказчиков. Например, выявление оптимального расположения оптовых баз, или оптимальной начальной цены контракта для обеспечения конкуренции.

Литература

1. Бретт Маклахлин. Java и XML, 2-е издание, Символ-Плюс, 2016. 544 страницы.

2. Интеграция XML данных -- другой путь

3. Выгрузка условий конкурсов с zakupki.gov.ru // [habrahabr.ru]. 2015.

4. Чеботарев, А. XML: свобода, ограниченная только фантазией// Компьютеры Программы. 2003. №5. С. 52-55.

5. Лыгина, Н.И., Пудич, А.С.. Исследование правильности и эффективности средств парсинга информации на веб-ресурсах// Инновационная наука, №. 3-1, 2017, С. 59-67.