Материал: Разработка программного комплекса для анализа состояния системы хранения данных EMC Centera

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Графический оконный интерфейс пользователя - предоставляется программой Centera Viewer для осуществления операций администрирования над СХД Centera.

Текстовый интерфейс вида «командная строка» - предоставляется программой Centera Viewer для доступа к части операций администрирования, может быть использован приложением пользователя для автоматизированного администрирования СХД Centera путём автоматизированной посылки набора команд и анализа результатов их выполнения.

Все интерфейсы клиентского ПО СХД Centera описаны в документации пользователя, которая доступна при приобретении СХД Centera.

1.2 Способы получения информации о состоянии СХД Centera

Отчёты и уведомления об изменении состояния

СХД Centera имеет настраиваемую возможность автоматической отправки пользователю и обслуживающему персоналу следующей информации:

Сводный отчёт об общих параметрах настройки и состоянии большинства функциональностей СХД Centera, доступных пользователю (Health Report). Отправляется регулярно через настроенный пользователем интервал времени.

Оповещение об изменении состояния СХД Centera, которое требует вмешательства или заслуживает внимания со стороны пользователя или обслуживающего персонала (Alert). Отправляется сразу после обнаружения в системе такого изменения состояния.

Данные отчёты и уведомления отсылаются на сервер электронной почты по протоколу SMTP, впоследствие они могут быть обработаны пользовательской службой для автоматического анализа текущих параметров состояния СХД Centera. Данный источник информации полезен для общей оценки состояния системы, а также для прослеживания динамики системы на продолжительном промежутке времени (несколько недель или даже месяцев).

Графический интерфейс пользователя программы Centera Viewer

Графический интерфейс пользователя предоставляет широкий спектр возможностей по получению информации о состоянии СХД Centera:

Сводные таблицы с основными параметрами конфигурации и использования узлов системы.

Подробные отчёты о состоянии аппаратного обеспечения

Статистические данные, отображающие динамику работы как основных компонентов бизнес-логики СХД, так и их составных частей

Специализированные окна с состоянием и конфигурацией базовых функциональностей СХД Centera, доступных для пользователя

Редактор конфигурации, содержащий тонкие настройки бизнес-логики

Доступ к журналам аудита и бизнес-логики СХД Centera

Все вышеперечисленные средства графического интерфейса пользователя позволяют отследить текущее состояние СХД Centera, а также некоторые из них позволяют сохранять и динамику изменения этих параметров состояния СХД в виде отчётов, доступных для последующего анализа.

Регулярные оповещения об активности СХД Centera по протоколу SNMP

Для регулярных оповещений об активном статусе СХД Centera могут быть использованы отправки по протоколу Simple Network Management Protocol (SNMP) пользовательской SNMP-системе, которая осуществляет мониторинг состояния ресурсов вычислительной сети.

Данный метод сбора информации позволяет лишь оценить наличие канала связи от пользовательской SNMP-станции до СХД Centera и работоспособность компонента бизнес-логики СХД, отвечающего за отсылку SNMP-отправлений (SNMP traps).

Интерфейс командной строки

Набор команд, предоставляемый пользователю через данный интерфейс, позволяет не только конфигурировать СХД Centera; но и в удобной текстовой форме получать краткие и полные отчёты о текущих настройках функциональностей СХД, состоянии кластера, прогрессе и деталях выполнения долгосрочных операций, результаты выполнения завершившихся операций.

Интерфейс удобен в пользовании, потому что содержит понятную структуру перечня доступных команд, их именование, легко читаемое оформление вывода результатов выполнения этих команд, а также необходимую и достаточную (в большинстве случаев администрирования системы) детализацию выводимых результатов работы команд.

Интерфейс администрирования Management API

Данный интерфейс предоставляет доступ к протоколу Management API, через который осуществляются любые имеющиеся операции администрирования СХД Centera. Команды протокола вместе с параметрами трудны для запоминания, а результаты представляются в неудобном для чтения формате. Тем не менее, этот интерфейс позволяет администрировать систему в случаях; когда ни графический интерфейс пользователя программы Centera Viewer, ни интерфейс командной строки не могут предоставить нужных средств (например, если необходимая команда администрирования заложена в протоколе, но в силу её специфики не включена в список доступных команд в пользовательском интерфейсе).

Данный интерфейс недоступен обычному пользователю и используется только персоналом, сертифицированным корпорацией EMC для обслуживания СХД Centera.

Командная строка ОС EMC Centera Linux

Этот интерфейс используется только для проведения сервисных операций и только сертифицированным обслуживающим персоналом, так как даёт доступ к множеству механизмов администрирования, слабо защищённых от случайного или ошибочного действия администратора.

Данный интерфейс позволяет осуществлять администрирование СХД на очень низком уровне:

отслеживать состоянием ОС и управлять им

получать доступ ко всем имеющимся на СХД журналам как ОС и программной платформы СХД, так и бизнес-логики

производить тонкую настройку и управление компонентами программной платформы (в штатной ситуации такое управление осуществляется автоматически бизнес-логикой)

получать статистические данные по использованию ресурсов системы (дискового пространства, загрузки сетевых интерфейсов, центрального процессора, памяти)

Командная строка может быть доступна как удалённо (через сетевое соединение используя протокол Secure Shell); так и локально, когда сервисный инженер приходит к пользователю и подключает консоль непосредственно к узлу кластера или же подключает переносной сервисный компьютер во внутреннюю сеть кластера.

.3 Cуществующие средства анализа состояния СХД Centera

Для удобства администрирования СХД Centera в клиентском программном обеспечении реализованы некоторые средства автоматизированного анализа состояния системы.Centera Console

Программный продукт, агрегирующий информацию о состоянии с одного или нескольких кластеров Centera. Проводит общий анализ полученных данных и предупреждает пользователя об аппаратных и некоторых программных сбоях в системе, а также о скором или наступившем исчерпании ресурсов СХД Centera.

Анализ проводится из полученных с кластеров Centera сводных отчётов (Health Report) и уведомлений (Alert).Viewer

Развитый программный продукт, имеющий не только средста сбора информации о состоянии кластера, но и средства анализа полученной информации:

Анализ состояния аппаратного обеспечения СХД Centera, в качестве результата выводится статус имеющиегося аппаратного обеспечения с цветовым выделением неисправных или нестабильных аппаратных компонентов.

Поверхностный анализ настроек узлов и функциональностей СХД: в случае подозрительной (противоречивой, неоптимальной или недопустимой) настройки выводится список предупреждений и ошибок с результатами диагностики.

Создание пользовательских аналитических отчётов, базирующихся на выборочных статистических показателях СХД Centera, и имеющих средства цветового выделения этих показателей в зависимости от их значений. Созданные отчёты можно сохранять, равно как и результаты проведённых с помощью их анализов, для повторного использования в дальнейшем.

Вспомогательные программы для обслуживающего персонала

В процессе использования СХД Centera у заказчиков было разработано множество вспомогательных программ, предназначенных для выполнения конкретных сервисных операций или даже отдельных шагов этих операций. Среди их числа есть только одна программа, которая применима для большого спектра задач администрирования с точки зрения получения информации о состоянии системы и её анализа. Назовём её Centera Analyzer.

Основное отличие данной программы от остальных вспомогательных программ является наличие базы симптомов при известных сбоях в функционировании СХД Centera. Когда выявляется какое-либо ранее неизвестное повторяющееся отклонение от нормального режима работы СХД, то в базу симптомов добавляются описания симптомов и в следующий раз Centera Analyzer оперативно проведёт проверку всех известных ему симптомов и выдаст диагноз, если какая-либо из известных ему проблем найдена на кластере.

Данная программа вкупе с прочими имеющимися могла бы полностью покрыть весь спектр задач, требующих анализа состояния СХД Centera, если бы не появление ситуаций, в которых сбой происходит из-за ранее неизвестного сбоя, симптоматика которого ещё не изучена.

1.4 Оценка эффективности средств анализа состояния СХД Centera при разных видах сбоя системы

Особое внимание в данной работе следует уделить анализу состояния СХД Centera во время сбоев, поскольку для штатного режима работы уже создано необходимое количество программных средств как сбора информации о состоянии системы, так и её анализа. В то же время проблема анализа состояния СХД во время сбоя остаётся актуальной, поскольку создать все нобходимые программные средства для этого практически невозможно - каждая новая проблема требует своего подхода для анализа состояния системы. Однако выделить основные методики сбора информации и её анализа, востребованные в большинстве случаев работы с СХД Centera, находящейся в аварийном режиме, всё же можно.

Определение источников информации и методов её получения для средств анализа состояния СХД Centera

Вся информация о состоянии СХД Centera поступает от одного или нескольких компонентов системы, описанных в п. 1.1.3, используя один или более способов получения информации, описанных в разд. 1.2.

Использование источников информации и способов её получения имеющимися средствами анализа состояния приведено на Рис. 1.1.

Рис. 1.1. Схема потоков информации о состоянии СХД Centera от её источников до средств получения

Определение наиболее распространённых видов сбоя в СХД Centera

СХД Centera широко используется (более 1000 установленных систем) у конечных пользователей в течение последних 6 лет. За этот период накоплено много статистических данных по характеру, интенсивности и критичности программных и аппаратных сбоев. Эти сведения использовались для постоянного улучшения качества программного и аппаратного обеспечения СХД Centera, а также для предотвращения и обработки возникших сбоев. Этот комплекс мер позволил значительно снизить количество сбоев СХД Centera, возникающих у пользователей.

В настоящей работе имеет смысл рассматривать только виды сбоев, которые возникали в установленных кластерах Centera с сентября 2008 года, когда была выпущена новая версия ПО Centera с номером 4.0, которая пратически вытеснила все предыдущие версии ПО Centera, имеющиеся у конечных пользователей. Также следует заметить, что данная версия ПО содержит множество улучшений по сравнению с предыдущими версиями, что повлекло за собой изменение распределения количества сбоев по спектру их возможных разновидностей.

За время использования ПО СХД Centera версий 4.0 и выше были также накоплены статистические данные по разновидностям сбоев, частоте их возникновения и их критичности для работоспособности СХД Centera. Из всего перечня наблюдавшихся сбоев стоит выделить наиболее часто встречавшиеся, которые влекут за собой недоступность СХД Centera для чтения/записи/модификации данных или администрирования, а также вызывающие отказ работоспособности одной из основных функциональностей СХД Centera:

«Нарушение принципа SPOF» - нарушение принципа Single Point Of Failure (одиночный выход из строя): выход из строя за короткий промежуток времени двух или более дисковых накопителей, нарушающий защищённость пользовательских данных, достигнутых с помощью избыточности.

«Сбой внутренней ВС» - некорректное поведение внутренней вычислительной сети кластера, при котором нарушается обмен данными между узлами.

«Повреждение системной конфигурации» - повреждение системных данных, приводящее к невозможности системы правильно инициализировать свои функциональности.

«Истощение доступных ресурсов ОС» - некорректное поведение ПО СХД Centera вследствие программной или человеческой ошибки, при котором один или несколько видов предоставленных ОС ресурсов расходуются практически полностью, что приводит к значительному снижению производительности СХД Centera при обработке запросов пользователя или даже отказу в обработке таких запросов.

«Сбой функционирования компонента» - некорректное поведение ПО СХД Centera вследствие программной или человеческой ошибки, проявившейся в специфическом программном окружении или специфической конфигурации СХД Centera, вследствие которого нарушается работа одного или нескольких компонентов системы, хотя в остальном система остаётся работоспособна.

Определение методов анализа состояния СХД Centera, применяемых при сбоях

При каждом виде сбоя требуется проанализировать симптомы сбоя и по ним составить представление о виде сбоя, далее используя определённый набор методов анализа состояния СХД Centera выявить подробности о некорректно функционирующем компоненте системы, причины и последствия сбоя. Для каждого из видов сбоя, как правило, применяется определённый набор методов анализа состояния системы, а также соответствующие этим методам средства анализа состояния системы. Это соответствие между видами сбоев, методами и средствами анализа приведено в табл. 1.1.

Как видно из табл. 1.1 перечень используемых средств анализа включает в себя средства ОС EMC Centera Linux, которые являются по сути простейшими программными средствами, включёнными в дистрибутив ОС, и не обладающими удобным функционалом для проведения анализа. С помощью этих средств требуется решать набор типовых задач анализа состояния СХД Centera, которые встречаются во многих случаях устранения сбоев СХД. Этот набор можно ограничить следующим списком, отсортированным по убыванию частоты возникновения этих задач:

Используемые методы и применяемые средства анализа состояния СХД Centera при различных видах сбоев

Таблица 1.1

Вид сбоя

Применяемые методы анализа состояния системы

Используемые средства анализа состояния СХД Centera

Нарушение принципа SPOF

Составление цепочки событий отказа дисковых накопителей и регенерации данных, на них хранимых.

Графический интерфейс Centera Viewer


Составление списка данных, находящихся под угрозой утраты; а также поиск имеющихся копий таких данных.

Вспомогательные программы для обслуживающего персонала

Сбой внутренней ВС

Анализ состояния коммутаторов ВС и сетевых интерфейсов узлов

Средства командной строки ОС EMC Centera Linux


Анализ журналов ОС и программной платформы за время сбоя.

Просмотр журналов средствами ОС EMC Centera Linux


Анализ трафика внутренней ВС на предмет выявления отклонений от нормальной работы ВС.

Команда tcpdump ОС EMC Centera Linux

Повреждение системной конфигурации

Анализ текущей системной конфигурации

Графический интерфейс Centera Viewer



Просмотр файлов конфигурации средствами командной строки ОС EMC Centera Linux

Истощение доступных ресурсов ОС

Анализ состояния ресурсов ОС и их потребителей

Средства командной строки ОС EMC Centera Linux


Анализ журналов ОС, программной платформы и бизнес-логики СХД Centera для выявления причин истощения выделенных ресурсов ОС

Просмотр журналов средствами ОС EMC Centera Linux

Сбой функциони-рования компонента

Анализ статистических показателей бизнес-логики СХД Centera

Графический интерфейс Centera Viewer


Анализ состояния функциональных компонентов СХД Centera

Средства командного интерфейса СХД Centera


Анализ текущей системной конфигурации

Графический интерфейс Centera Viewer



Просмотр файлов конфигурации средствами командной строки ОС EMC Centera Linux


Анализ журналов (в том числе и отладочных журналов) ОС, программной платформы и бизнес-логики СХД Centera

Просмотр журналов средствами ОС EMC Centera Linux


Анализ трафика внутренней и/или внешней ВС на предмет выявления отклонений от ожидаемого сетевого взаимодействия функционального компонента

Команда tcpdump ОС EMC Centera Linux