га акватории на базе покровных антенн в местах размещения нефте- и газодобывающих платформ в районе Арктического шельфа». СПб ГЭТУ. Проект №13.G25.31.0054. Сроки: 2010-2012.
Публикации
Основные теоретические и практические результаты диссертации опубли кованы в 20 печатных работах, среди которых 4 статьи в ведущих рецензи руемых изданиях, рекомендуемых в действующем перечне ВАК, 2 раздела в
2-х монографиях, 5 работ – в материалах международных научно-технических конференций, 9 свидетельств о регистрации программ для ЭВМ1.
Структура и объем диссертации
Диссертация состоит из введения, 4 глав, заключения и библиографии. Общий объем диссертации 136 страниц, из них 127 страниц текста, включая 29
рисунков и 8 таблиц. Библиография включает 82 наименования на 9 страницах.
Во введении обоснована актуальность диссертационной работы, сфор мулирована цель и аргументирована научная новизна исследований, показана практическая значимость полученных результатов, представлены выносимые на защиту научные положения.
В первой главе рассматриваются типы и особенности распределённых систем обработки данных: кластерных и грид систем, арендуемой инфраструк туры облачных сред, а также проводится анализ применяемых в них методов планирования задач.
Проведённый анализ основных методов и систем планирования в РСОД (Slurm, Torque, Moab, Maui, HTCondor и DIET) показал следующее:
1.Методы, используемые в существующих системах планирования, зачастую опираются на наличие информации о ресурсных требованиях задач обра ботки данных, перекладывая проблему настройки на конечного пользова
1Часть программных свидетельств получена до смены фамилии. Свидетельство о перемене имени с
Громов И.А. на Голубев И.А. I-AK № 539834.
6
теля.
2.Методы планирования, не требующие информации о ресурсных требова ниях, обладают следующим основным недостатком - отсутствие учёта сов местных требований для групп задач, приводит к неэффективному ис пользованию вычислительных ресурсов.
Всвязи с этим требуется разработка нового метода планирования задач в РСОД в условиях неполноты информации о ресурсных требованиях, позволя ющего сократить временные затраты на выполнение прикладных задач обра ботки данных. Для этого в настоящей работе предлагается проанализировать связь между атрибутами задач (метаданными) и метрическими характеристи ками использования вычислительных ресурсов.
Во второй главе рассматриваются основные типы метаданных и этапы их жизненного цикла: извлечения, хранения и использования. Проводится клас сификация задач обработки данных исходя из их ресурсных требований. Нали чие связи между метаданными и ресурсными метриками иллюстрируется на примере задачи декодирования видео данных. Для сравнения задач на основе метаданных предлагается использовать методы машинного обучения на основе прецедентов.
Проведённый анализ позволил сделать следующие выводы:
1.Каждая из задач обработки данных характеризуется одновременно:
∙множеством характеристик данных,
∙множеством ресурсных требований,
∙классом ресурсных требований (наиболее значимый для производи тельности ресурс),
∙метриками загрузки вычислительных ресурсов.
2.Наличие корреляции между характеристиками данных и метрической ин формацией позволяет строить прогностические модели используя предыс торию выполнения задач.
3.Оценка ресурсных требований новых задач может быть выполнена посред
7
ством поиска близких по метаданным задач с помощью методов машин ного обучения на основе прецедентов.
В третьей главе изложены основные научные результаты.
Модель задачи планирования для РСОД представляет собой кортеж
= ( , , , , , , , )
где:
- множество задач;
- множество атрибутов данных (метаданных), связанных с задачами;
- множество узлов-обработчиков;
- множество характеристик узлов;
- множество метрик загрузки ресурсов вычислительных узлов;
- отображение множества на множество ;
- оценки вычислительных затрат выполнения задач из множества на узлах-обработчиках из множества ;
- коэффициенты назначения задач из множества на узлы-обработчики из множества .
В процессе обработки данных в РСОД происходит назначение поступивших задач на узлы обработки в соответствии с некоторым методом планирования :
: ( , ) → ,
где:
– задача из очереди ожидания,
– вычислительный узел-обработчик,
- элемент матрицы назначения, которая является результатом работы системы планирования задач.
С каждым единичным назначением ( , ) связана некоторая оценка ресурс ных затрат , а метод планирования строит матрицу ресурсных затрат и
8
матрицу назначения :
11 12
21 22
= ... ...
1 2
· · · |
|
|
|
1 |
|
11 |
|
· · · |
|
|
|
|
|
|
|
|
2 |
|
|
... |
... |
|
, = ... |
|
|
|
|
|
|
|
|
· · · |
|
|
|
|
|
1 |
12 |
· · · |
1 |
|
|
.22 |
·.· · |
.2 |
|
, |
.. .. |
.. |
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
· · · |
|
|
|
|
|
|
|
|
|
|
|
|
|
0 если задание не назначено на узел
=
1 если задание назначено на узел
где [1, ]; [1, ]; = | |; = | |. При этом выполняется условие:
∑
= 1, , .
=1
- то есть каждое задание назначается на выполнение только на одном вычисли тельном узле.
Цель метода планирования состоит в том, чтобы решить задачу о назна чениях, подобрав коэффициенты {0, 1}, с целью сокращения суммарных
ресурсных затрат:
∑∑
= −→ .
=1 =1
Для применения алгоритмов решения задачи о назначениях (например, Венгерского алгоритма) необходимо задать способ получения неизвестных оце нок , который рассмотрен в предложенном методе планирования.
Метод планирования задач в РСОД на основе метаданных и ре сурсных метрик представляет собой последовательность применения функ ций на этапе сбора предыстории выполнения:
= .2 .1,
ина этапе прогнозирования:
= . ,
9
который позволяет получить коэффициент назначения для каждой пары
(задача, вычислительный узел).
I.На этапе сбора данных предыстории применяются следующие функции: I.1. Функция .1 : ( , ) →( 1, 2, · · · ) ,
–задаёт способ получения метрик загрузки вычислительных ресур
сов, где:
- задача обработки данных, - узел-обработчик, - множество кортежей метрик загрузки ресурсов, полученных
в результате выполнения.
I.2. Функция .2 : ( 1, 2, · · · ) →
– задаёт способ получения оценок вычислительных затрат
для задач предыстории.
В результате строится множество троек ( , , ) , где: – оценка вычислительных затрат выполнения задачи на узле . Эти данные ис пользуются для прогнозирования затрат выполнения новых задач.
II.На этапе прогнозирования применяются следующие функции:
II.1. Функция : × → .
–задаёт способ получения ближайших к новой паре ( , )
троек ( , , ) . из предыстории, для кото рых известны оценки вычислительных затрат .
II.2. Функция . : × × . → – задаёт способ по лучения оценок вычислительных затрат на выполнение новых задач на доступных вычислительных узлах, где:
. = { 1, 2, · · · }, для некоторого - оценки вычисли тельных затрат из полученного множества . .
II.3. Функция : →
– задаёт способ получения коэффициентов назначения на основе по лученных оценок, где:
- коэффициент оценки вычислительных затрат выполнения
10