Графический оконный интерфейс пользователя - предоставляется программой Centera Viewer для осуществления операций администрирования над СХД Centera.
Текстовый интерфейс вида «командная строка» - предоставляется программой Centera Viewer для доступа к части операций администрирования, может быть использован приложением пользователя для автоматизированного администрирования СХД Centera путём автоматизированной посылки набора команд и анализа результатов их выполнения.
Все интерфейсы клиентского ПО СХД Centera описаны в документации пользователя, которая доступна при приобретении СХД Centera.
1.2 Способы получения информации о
состоянии СХД Centera
Отчёты и уведомления об изменении состояния
СХД Centera имеет настраиваемую возможность автоматической отправки пользователю и обслуживающему персоналу следующей информации:
Сводный отчёт об общих параметрах настройки и состоянии большинства функциональностей СХД Centera, доступных пользователю (Health Report). Отправляется регулярно через настроенный пользователем интервал времени.
Оповещение об изменении состояния СХД Centera, которое требует вмешательства или заслуживает внимания со стороны пользователя или обслуживающего персонала (Alert). Отправляется сразу после обнаружения в системе такого изменения состояния.
Данные отчёты и уведомления отсылаются на сервер электронной почты по протоколу SMTP, впоследствие они могут быть обработаны пользовательской службой для автоматического анализа текущих параметров состояния СХД Centera. Данный источник информации полезен для общей оценки состояния системы, а также для прослеживания динамики системы на продолжительном промежутке времени (несколько недель или даже месяцев).
Графический интерфейс пользователя программы Centera Viewer
Графический интерфейс пользователя предоставляет широкий спектр возможностей по получению информации о состоянии СХД Centera:
Сводные таблицы с основными параметрами конфигурации и использования узлов системы.
Подробные отчёты о состоянии аппаратного обеспечения
Статистические данные, отображающие динамику работы как основных компонентов бизнес-логики СХД, так и их составных частей
Специализированные окна с состоянием и конфигурацией базовых функциональностей СХД Centera, доступных для пользователя
Редактор конфигурации, содержащий тонкие настройки бизнес-логики
Доступ к журналам аудита и бизнес-логики СХД Centera
Все вышеперечисленные средства графического интерфейса пользователя позволяют отследить текущее состояние СХД Centera, а также некоторые из них позволяют сохранять и динамику изменения этих параметров состояния СХД в виде отчётов, доступных для последующего анализа.
Регулярные оповещения об активности СХД Centera по протоколу SNMP
Для регулярных оповещений об активном статусе СХД Centera могут быть использованы отправки по протоколу Simple Network Management Protocol (SNMP) пользовательской SNMP-системе, которая осуществляет мониторинг состояния ресурсов вычислительной сети.
Данный метод сбора информации позволяет лишь оценить наличие канала связи от пользовательской SNMP-станции до СХД Centera и работоспособность компонента бизнес-логики СХД, отвечающего за отсылку SNMP-отправлений (SNMP traps).
Интерфейс командной строки
Набор команд, предоставляемый пользователю через данный интерфейс, позволяет не только конфигурировать СХД Centera; но и в удобной текстовой форме получать краткие и полные отчёты о текущих настройках функциональностей СХД, состоянии кластера, прогрессе и деталях выполнения долгосрочных операций, результаты выполнения завершившихся операций.
Интерфейс удобен в пользовании, потому что содержит понятную структуру перечня доступных команд, их именование, легко читаемое оформление вывода результатов выполнения этих команд, а также необходимую и достаточную (в большинстве случаев администрирования системы) детализацию выводимых результатов работы команд.
Интерфейс администрирования Management API
Данный интерфейс предоставляет доступ к протоколу Management API, через который осуществляются любые имеющиеся операции администрирования СХД Centera. Команды протокола вместе с параметрами трудны для запоминания, а результаты представляются в неудобном для чтения формате. Тем не менее, этот интерфейс позволяет администрировать систему в случаях; когда ни графический интерфейс пользователя программы Centera Viewer, ни интерфейс командной строки не могут предоставить нужных средств (например, если необходимая команда администрирования заложена в протоколе, но в силу её специфики не включена в список доступных команд в пользовательском интерфейсе).
Данный интерфейс недоступен обычному пользователю и используется только персоналом, сертифицированным корпорацией EMC для обслуживания СХД Centera.
Командная строка ОС EMC Centera Linux
Этот интерфейс используется только для проведения сервисных операций и только сертифицированным обслуживающим персоналом, так как даёт доступ к множеству механизмов администрирования, слабо защищённых от случайного или ошибочного действия администратора.
Данный интерфейс позволяет осуществлять администрирование СХД на очень низком уровне:
отслеживать состоянием ОС и управлять им
получать доступ ко всем имеющимся на СХД журналам как ОС и программной платформы СХД, так и бизнес-логики
производить тонкую настройку и управление компонентами программной платформы (в штатной ситуации такое управление осуществляется автоматически бизнес-логикой)
получать статистические данные по использованию ресурсов системы (дискового пространства, загрузки сетевых интерфейсов, центрального процессора, памяти)
Командная строка может быть доступна
как удалённо (через сетевое соединение используя протокол Secure Shell); так и
локально, когда сервисный инженер приходит к пользователю и подключает консоль
непосредственно к узлу кластера или же подключает переносной сервисный
компьютер во внутреннюю сеть кластера.
.3 Cуществующие средства анализа
состояния СХД Centera
Для удобства администрирования СХД Centera в клиентском программном обеспечении реализованы некоторые средства автоматизированного анализа состояния системы.Centera Console
Программный продукт, агрегирующий информацию о состоянии с одного или нескольких кластеров Centera. Проводит общий анализ полученных данных и предупреждает пользователя об аппаратных и некоторых программных сбоях в системе, а также о скором или наступившем исчерпании ресурсов СХД Centera.
Анализ проводится из полученных с кластеров Centera сводных отчётов (Health Report) и уведомлений (Alert).Viewer
Развитый программный продукт, имеющий не только средста сбора информации о состоянии кластера, но и средства анализа полученной информации:
Анализ состояния аппаратного обеспечения СХД Centera, в качестве результата выводится статус имеющиегося аппаратного обеспечения с цветовым выделением неисправных или нестабильных аппаратных компонентов.
Поверхностный анализ настроек узлов и функциональностей СХД: в случае подозрительной (противоречивой, неоптимальной или недопустимой) настройки выводится список предупреждений и ошибок с результатами диагностики.
Создание пользовательских аналитических отчётов, базирующихся на выборочных статистических показателях СХД Centera, и имеющих средства цветового выделения этих показателей в зависимости от их значений. Созданные отчёты можно сохранять, равно как и результаты проведённых с помощью их анализов, для повторного использования в дальнейшем.
Вспомогательные программы для обслуживающего персонала
В процессе использования СХД Centera у заказчиков было разработано множество вспомогательных программ, предназначенных для выполнения конкретных сервисных операций или даже отдельных шагов этих операций. Среди их числа есть только одна программа, которая применима для большого спектра задач администрирования с точки зрения получения информации о состоянии системы и её анализа. Назовём её Centera Analyzer.
Основное отличие данной программы от остальных вспомогательных программ является наличие базы симптомов при известных сбоях в функционировании СХД Centera. Когда выявляется какое-либо ранее неизвестное повторяющееся отклонение от нормального режима работы СХД, то в базу симптомов добавляются описания симптомов и в следующий раз Centera Analyzer оперативно проведёт проверку всех известных ему симптомов и выдаст диагноз, если какая-либо из известных ему проблем найдена на кластере.
Данная программа вкупе с прочими имеющимися могла бы полностью покрыть весь спектр задач, требующих анализа состояния СХД Centera, если бы не появление ситуаций, в которых сбой происходит из-за ранее неизвестного сбоя, симптоматика которого ещё не изучена.
1.4 Оценка эффективности средств
анализа состояния СХД Centera при разных видах сбоя системы
Особое внимание в данной работе следует уделить анализу состояния СХД Centera во время сбоев, поскольку для штатного режима работы уже создано необходимое количество программных средств как сбора информации о состоянии системы, так и её анализа. В то же время проблема анализа состояния СХД во время сбоя остаётся актуальной, поскольку создать все нобходимые программные средства для этого практически невозможно - каждая новая проблема требует своего подхода для анализа состояния системы. Однако выделить основные методики сбора информации и её анализа, востребованные в большинстве случаев работы с СХД Centera, находящейся в аварийном режиме, всё же можно.
Определение источников информации и методов её получения для средств анализа состояния СХД Centera
Вся информация о состоянии СХД Centera поступает от одного или нескольких компонентов системы, описанных в п. 1.1.3, используя один или более способов получения информации, описанных в разд. 1.2.
Использование источников информации и способов её получения имеющимися средствами анализа состояния приведено на Рис. 1.1.
Рис. 1.1. Схема потоков информации о
состоянии СХД Centera от её источников до средств получения
Определение наиболее распространённых видов сбоя в СХД Centera
СХД Centera широко используется (более 1000 установленных систем) у конечных пользователей в течение последних 6 лет. За этот период накоплено много статистических данных по характеру, интенсивности и критичности программных и аппаратных сбоев. Эти сведения использовались для постоянного улучшения качества программного и аппаратного обеспечения СХД Centera, а также для предотвращения и обработки возникших сбоев. Этот комплекс мер позволил значительно снизить количество сбоев СХД Centera, возникающих у пользователей.
В настоящей работе имеет смысл рассматривать только виды сбоев, которые возникали в установленных кластерах Centera с сентября 2008 года, когда была выпущена новая версия ПО Centera с номером 4.0, которая пратически вытеснила все предыдущие версии ПО Centera, имеющиеся у конечных пользователей. Также следует заметить, что данная версия ПО содержит множество улучшений по сравнению с предыдущими версиями, что повлекло за собой изменение распределения количества сбоев по спектру их возможных разновидностей.
За время использования ПО СХД Centera версий 4.0 и выше были также накоплены статистические данные по разновидностям сбоев, частоте их возникновения и их критичности для работоспособности СХД Centera. Из всего перечня наблюдавшихся сбоев стоит выделить наиболее часто встречавшиеся, которые влекут за собой недоступность СХД Centera для чтения/записи/модификации данных или администрирования, а также вызывающие отказ работоспособности одной из основных функциональностей СХД Centera:
«Нарушение принципа SPOF» - нарушение принципа Single Point Of Failure (одиночный выход из строя): выход из строя за короткий промежуток времени двух или более дисковых накопителей, нарушающий защищённость пользовательских данных, достигнутых с помощью избыточности.
«Сбой внутренней ВС» - некорректное поведение внутренней вычислительной сети кластера, при котором нарушается обмен данными между узлами.
«Повреждение системной конфигурации» - повреждение системных данных, приводящее к невозможности системы правильно инициализировать свои функциональности.
«Истощение доступных ресурсов ОС» - некорректное поведение ПО СХД Centera вследствие программной или человеческой ошибки, при котором один или несколько видов предоставленных ОС ресурсов расходуются практически полностью, что приводит к значительному снижению производительности СХД Centera при обработке запросов пользователя или даже отказу в обработке таких запросов.
«Сбой функционирования компонента» - некорректное поведение ПО СХД Centera вследствие программной или человеческой ошибки, проявившейся в специфическом программном окружении или специфической конфигурации СХД Centera, вследствие которого нарушается работа одного или нескольких компонентов системы, хотя в остальном система остаётся работоспособна.
Определение методов анализа состояния СХД Centera, применяемых при сбоях
При каждом виде сбоя требуется проанализировать симптомы сбоя и по ним составить представление о виде сбоя, далее используя определённый набор методов анализа состояния СХД Centera выявить подробности о некорректно функционирующем компоненте системы, причины и последствия сбоя. Для каждого из видов сбоя, как правило, применяется определённый набор методов анализа состояния системы, а также соответствующие этим методам средства анализа состояния системы. Это соответствие между видами сбоев, методами и средствами анализа приведено в табл. 1.1.
Как видно из табл. 1.1 перечень используемых средств анализа включает в себя средства ОС EMC Centera Linux, которые являются по сути простейшими программными средствами, включёнными в дистрибутив ОС, и не обладающими удобным функционалом для проведения анализа. С помощью этих средств требуется решать набор типовых задач анализа состояния СХД Centera, которые встречаются во многих случаях устранения сбоев СХД. Этот набор можно ограничить следующим списком, отсортированным по убыванию частоты возникновения этих задач:
Используемые методы и применяемые средства анализа состояния СХД Centera при различных видах сбоев
Таблица 1.1
|
Вид сбоя |
Применяемые методы анализа состояния системы |
Используемые средства анализа состояния СХД Centera |
|
Нарушение принципа SPOF |
Составление цепочки событий отказа дисковых накопителей и регенерации данных, на них хранимых. |
Графический интерфейс Centera Viewer |
|
|
Составление списка данных, находящихся под угрозой утраты; а также поиск имеющихся копий таких данных. |
Вспомогательные программы для обслуживающего персонала |
|
Сбой внутренней ВС |
Анализ состояния коммутаторов ВС и сетевых интерфейсов узлов |
Средства командной строки ОС EMC Centera Linux |
|
|
Анализ журналов ОС и программной платформы за время сбоя. |
Просмотр журналов средствами ОС EMC Centera Linux |
|
|
Анализ трафика внутренней ВС на предмет выявления отклонений от нормальной работы ВС. |
Команда tcpdump ОС EMC Centera Linux |
|
Повреждение системной конфигурации |
Анализ текущей системной конфигурации |
Графический интерфейс Centera Viewer |
|
|
|
Просмотр файлов конфигурации средствами командной строки ОС EMC Centera Linux |
|
Истощение доступных ресурсов ОС |
Анализ состояния ресурсов ОС и их потребителей |
Средства командной строки ОС EMC Centera Linux |
|
|
Анализ журналов ОС, программной платформы и бизнес-логики СХД Centera для выявления причин истощения выделенных ресурсов ОС |
Просмотр журналов средствами ОС EMC Centera Linux |
|
Сбой функциони-рования компонента |
Анализ статистических показателей бизнес-логики СХД Centera |
Графический интерфейс Centera Viewer |
|
|
Анализ состояния функциональных компонентов СХД Centera |
Средства командного интерфейса СХД Centera |
|
|
Анализ текущей системной конфигурации |
Графический интерфейс Centera Viewer |
|
|
|
Просмотр файлов конфигурации средствами командной строки ОС EMC Centera Linux |
|
|
Анализ журналов (в том числе и отладочных журналов) ОС, программной платформы и бизнес-логики СХД Centera |
Просмотр журналов средствами ОС EMC Centera Linux |
|
|
Анализ трафика внутренней и/или внешней ВС на предмет выявления отклонений от ожидаемого сетевого взаимодействия функционального компонента |
Команда tcpdump ОС EMC Centera Linux |