И в случае работы SAX-парсера, и в случае работы DOM-парсера, набор тегов передается конструктору объекта Notification для последующей записи объекта в репозиторий.
Полученные значения времени извлечения информации при использовании8АХ-парсера отражены в таблице 1, при использовании DOM - в таблице 2.
Таблица 2
Зависимость времени выполнения парсинга XMLфайлов методом DOM от количества файлов в выборке и набора извлекаемых тегов
|
Количество файлов |
Число извлекаемых тегов |
Время выполнения преобразования, мс |
||||||
|
1 |
2 |
3 |
4 |
5 |
среднее |
|||
|
1000 |
4 |
5416 |
4995 |
6167 |
5996 |
4764 |
5467,6 |
|
|
1000 |
8 |
6177 |
5419 |
5931 |
5829 |
6295 |
5930,2 |
|
|
1000 |
16 |
6653 |
5075 |
7175 |
6176 |
6195 |
6254,8 |
|
|
5000 |
4 |
12468 |
12816 |
13952 |
13684 |
12746 |
13133,2 |
|
|
5000 |
8 |
14678 |
13574 |
15488 |
15584 |
15406 |
14946 |
|
|
5000 |
16 |
20476 |
20862 |
20429 |
21064 |
20274 |
20621 |
|
|
100000 |
4 |
18294 |
20536 |
17833 |
17962 |
18015 |
18528 |
|
|
100000 |
8 |
20402 |
20107 |
20259 |
21359 |
19793 |
20384 |
|
|
100000 |
16 |
25478 |
27485 |
22263 |
22557 |
21995 |
23955,6 |
Заключение
В результате данной работы было выявлено, что для целей извлечения данных из XMLдокументов рационально использовать метод SAX, поскольку в общем случае время, затрачиваемое на обработку файла методом DOM может превышать в 1,5 раза время обработки файла методом SAX для получения содержимого аналогичного набора тегов.
Стоит учитывать, что метод SAX подходит только для извлечения информации, и в случае необходимости модификации данных неприменим, в отличие от DOM. Однако в случае решения задачи получения данных, этой особенностью можно пренебречь.
На основании полученных данных с ftp возможно проводить дальнейшие исследования, позволяющие формировать рекомендации для поставщиков и заказчиков. Например, выявление оптимального расположения оптовых баз, или оптимальной начальной цены контракта для обеспечения конкуренции.
Литература
1. Бретт Маклахлин. Java и XML, 2-е издание, Символ-Плюс, 2016. 544 страницы.
2. Интеграция XML данных -- другой путь
3. Выгрузка условий конкурсов с zakupki.gov.ru // [habrahabr.ru]. 2015.
4. Чеботарев, А. XML: свобода, ограниченная только фантазией// Компьютеры Программы. 2003. №5. С. 52-55.
5. Лыгина, Н.И., Пудич, А.С.. Исследование правильности и эффективности средств парсинга информации на веб-ресурсах// Инновационная наука, №. 3-1, 2017, С. 59-67.