Материал: z2evbAG14A

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

га акватории на базе покровных антенн в местах размещения нефте- и газодобывающих платформ в районе Арктического шельфа». СПб ГЭТУ. Проект №13.G25.31.0054. Сроки: 2010-2012.

Публикации

Основные теоретические и практические результаты диссертации опубли­ кованы в 20 печатных работах, среди которых 4 статьи в ведущих рецензи­ руемых изданиях, рекомендуемых в действующем перечне ВАК, 2 раздела в

2-х монографиях, 5 работ – в материалах международных научно-технических конференций, 9 свидетельств о регистрации программ для ЭВМ1.

Структура и объем диссертации

Диссертация состоит из введения, 4 глав, заключения и библиографии. Общий объем диссертации 136 страниц, из них 127 страниц текста, включая 29

рисунков и 8 таблиц. Библиография включает 82 наименования на 9 страницах.

Основное содержание работы

Во введении обоснована актуальность диссертационной работы, сфор­ мулирована цель и аргументирована научная новизна исследований, показана практическая значимость полученных результатов, представлены выносимые на защиту научные положения.

В первой главе рассматриваются типы и особенности распределённых систем обработки данных: кластерных и грид систем, арендуемой инфраструк­ туры облачных сред, а также проводится анализ применяемых в них методов планирования задач.

Проведённый анализ основных методов и систем планирования в РСОД (Slurm, Torque, Moab, Maui, HTCondor и DIET) показал следующее:

1.Методы, используемые в существующих системах планирования, зачастую опираются на наличие информации о ресурсных требованиях задач обра­ ботки данных, перекладывая проблему настройки на конечного пользова­

1Часть программных свидетельств получена до смены фамилии. Свидетельство о перемене имени с

Громов И.А. на Голубев И.А. I-AK № 539834.

6

теля.

2.Методы планирования, не требующие информации о ресурсных требова­ ниях, обладают следующим основным недостатком - отсутствие учёта сов­ местных требований для групп задач, приводит к неэффективному ис­ пользованию вычислительных ресурсов.

Всвязи с этим требуется разработка нового метода планирования задач в РСОД в условиях неполноты информации о ресурсных требованиях, позволя­ ющего сократить временные затраты на выполнение прикладных задач обра­ ботки данных. Для этого в настоящей работе предлагается проанализировать связь между атрибутами задач (метаданными) и метрическими характеристи­ ками использования вычислительных ресурсов.

Во второй главе рассматриваются основные типы метаданных и этапы их жизненного цикла: извлечения, хранения и использования. Проводится клас­ сификация задач обработки данных исходя из их ресурсных требований. Нали­ чие связи между метаданными и ресурсными метриками иллюстрируется на примере задачи декодирования видео данных. Для сравнения задач на основе метаданных предлагается использовать методы машинного обучения на основе прецедентов.

Проведённый анализ позволил сделать следующие выводы:

1.Каждая из задач обработки данных характеризуется одновременно:

множеством характеристик данных,

множеством ресурсных требований,

классом ресурсных требований (наиболее значимый для производи­ тельности ресурс),

метриками загрузки вычислительных ресурсов.

2.Наличие корреляции между характеристиками данных и метрической ин­ формацией позволяет строить прогностические модели используя предыс­ торию выполнения задач.

3.Оценка ресурсных требований новых задач может быть выполнена посред­

7

ством поиска близких по метаданным задач с помощью методов машин­ ного обучения на основе прецедентов.

В третьей главе изложены основные научные результаты.

Модель задачи планирования для РСОД представляет собой кортеж

= ( , , , , , , , )

где:

- множество задач;

- множество атрибутов данных (метаданных), связанных с задачами;

- множество узлов-обработчиков;

- множество характеристик узлов;

- множество метрик загрузки ресурсов вычислительных узлов;

- отображение множества на множество ;

- оценки вычислительных затрат выполнения задач из множества на узлах-обработчиках из множества ;

- коэффициенты назначения задач из множества на узлы-обработчики из множества .

В процессе обработки данных в РСОД происходит назначение поступивших задач на узлы обработки в соответствии с некоторым методом планирования :

: ( , ) → ,

где:

– задача из очереди ожидания,

– вычислительный узел-обработчик,

- элемент матрицы назначения, которая является результатом работы системы планирования задач.

С каждым единичным назначением ( , ) связана некоторая оценка ресурс­ ных затрат , а метод планирования строит матрицу ресурсных затрат и

8

матрицу назначения :

11 12

21 22

= ... ...

1 2

· · ·

 

 

 

1

 

11

· · ·

 

 

 

 

 

 

2

 

 

...

...

 

, = ...

 

 

 

 

 

 

 

 

· · ·

 

 

 

 

 

1

12

· · ·

1

 

 

.22

·.· ·

.2

 

,

.. ..

..

 

 

 

 

 

 

 

 

 

 

 

 

2

· · ·

 

 

 

 

 

 

 

 

 

 

 

0 если задание не назначено на узел

=

1 если задание назначено на узел

где [1, ]; [1, ]; = | |; = | |. При этом выполняется условие:

= 1, , .

=1

- то есть каждое задание назначается на выполнение только на одном вычисли­ тельном узле.

Цель метода планирования состоит в том, чтобы решить задачу о назна­ чениях, подобрав коэффициенты {0, 1}, с целью сокращения суммарных

ресурсных затрат:

∑∑

= −→ .

=1 =1

Для применения алгоритмов решения задачи о назначениях (например, Венгерского алгоритма) необходимо задать способ получения неизвестных оце­ нок , который рассмотрен в предложенном методе планирования.

Метод планирования задач в РСОД на основе метаданных и ре­ сурсных метрик представляет собой последовательность применения функ­ ций на этапе сбора предыстории выполнения:

= .2 .1,

ина этапе прогнозирования:

= . ,

9

который позволяет получить коэффициент назначения для каждой пары

(задача, вычислительный узел).

I.На этапе сбора данных предыстории применяются следующие функции: I.1. Функция .1 : ( , ) →( 1, 2, · · · ) ,

задаёт способ получения метрик загрузки вычислительных ресур­

сов, где:

- задача обработки данных, - узел-обработчик, - множество кортежей метрик загрузки ресурсов, полученных

в результате выполнения.

I.2. Функция .2 : ( 1, 2, · · · ) →

– задаёт способ получения оценок вычислительных затрат

для задач предыстории.

В результате строится множество троек ( , , ) , где: – оценка вычислительных затрат выполнения задачи на узле . Эти данные ис­ пользуются для прогнозирования затрат выполнения новых задач.

II.На этапе прогнозирования применяются следующие функции:

II.1. Функция : × → .

задаёт способ получения ближайших к новой паре ( , )

троек ( , , ) . из предыстории, для кото­ рых известны оценки вычислительных затрат .

II.2. Функция . : × × . → – задаёт способ по­ лучения оценок вычислительных затрат на выполнение новых задач на доступных вычислительных узлах, где:

. = { 1, 2, · · · }, для некоторого - оценки вычисли­ тельных затрат из полученного множества . .

II.3. Функция : →

– задаёт способ получения коэффициентов назначения на основе по­ лученных оценок, где:

- коэффициент оценки вычислительных затрат выполнения

10