Исследование алгоритма восстановления пропусков в измеряемых сигналах на основе модели авторегрессии для системы мониторинга состояния дамб
А.П. Козионов, А.Л. Пяйт, И.И. Мохов
(ООО "Сименс", Санкт-Петербург)
Аннотация
Нередко измерения датчиков содержат пропуски, вызванные, вызванные сбоями, отключениями систем передачи или сбора данных, неправильными настройками систем и другими внешними и внутренними факторами. В работе рассматривается подход и алгоритм восстановления пропусков в измеряемых сигналах на основе модели авторегрессии. Представленный алгоритм сравнивается с алгоритмом на основе метода "Гусеница-SSA" и алгоритмом на основе преобразования Фурье.
Введение
Для мониторинга состояния дамб применяются алгоритмы машинного обучения, анализирующие частотно-временные свойства сигналов (вейвлет-преобразование, оконное преобразование Фурье и т.д.) [1], [2], [3], [4]. Алгоритмы чувствительны к пропускам измерений. Одной из серьезных проблем систем мониторинга состояния дамб является качество измерений датчиков, вызванное сбоями, отключениями систем передачи или сбора данных, неправильными настройками систем и другими внешними и внутренними факторами, поэтому необходимы алгоритмы улучшения качества измерений. Восстановление пропусков измерений представляет собой наиболее сложную задачу проблематики улучшения качества измерений. Настоящая проблема актуальна не только для рассматриваемой системы, но и для других систем, где имеется дело с полевыми измерениями: системы водоснабжения [5], метеорологические системы [6] и т.д.
Пропуски в измерениях могу варьироваться от минут до нескольких дней. Для обучения алгоритмов мониторинга дамб (алгоритмы на основе машинного обучения) необходимы исторические данные. Алгоритмы восстановления пропусков должны оценивать пропущенные значения сигналов с учетом частотно-временных зависимостей, присутствующих в сигналах. Примеры сигналов (условно, "сигнал А" и "сигнал Б") порового давления (давление воды в порах почвы) с дамбы и пропусков представлены на рисунке 1 (дамба в городе Бостон, Великобритания). Периодические колебания соответствуют периодам приливов и отливов.
алгоритм восстановление пропуск авторегрессия
Рис.1. Примеры сигналов и пропусков в сигналах, формат даты ДД/ММ, 2011-2012 годов: а) - "сигнал А"; б) - "сигнал Б"; в) - укрупненный участок "сигнала А"
В настоящей работе мы представляем подход и алгоритмы восстановления пропусков в измеряемых сигналах. Предлагаемый подход основан на адаптивных алгоритмах восстановления пропусков в сигналах в условиях априорной неопределенности моделей сигналов. Алгоритмы, представленные в работе, используют исторические данные для восстановления сигналов. Настоящий подход исследовался авторами настоящей работы [1], [2], [3], для системы раннего предупреждения UrbanFlood [7]. Так же авторами представлен алгоритм на основе модели авторегрессии для восстановления пропусков в сигналах. Апробация алгоритмов проводилась на данных с дамбы, расположенной в городе Бостон (Великобритания).
Существует несколько способов восстановления пропусков в сигналах: сплайны, линейная интерполяция, интерполяционные фильтры [8]. Общий недостаток этих методов в том, что они выполняют интерполяцию без восстановления частотно-временных свойств сигналов на участках пропусков. В работе [9] представлен алгоритм восстановления на основе разложения по эмпирическим модам, но данное разложение не является стабильным и может привести к неудовлетворительному результату еще на этапе разложения сигнала [10]. При использовании алгоритмов на основе нейронных сетей возникает проблема обучения модели и стабильности результатов восстановления [6]. Стоит также отметить алгоритмы 3d-var и 4d-var [11], используемые в метеорологии, но для них требуются априорно заданные модели сигналов и помех. В случае применения алгоритмов многомерного восстановления сигналов, накладываются ограничения, связанные с зависимостью процедуры восстановления от доступности других данных (сигналов).
Одним из наиболее интересных алгоритмов адаптивного восстановления данных является алгоритм на основе метода "Гусеница-SSA", представленный в статье [12]. "Гусеница-SSA" [14] это адаптивный непараметрический метод разложения временных рядов (англ. SSA - singular spectrum analysis, спектрально-сингулярный анализ). Алгоритм восстановления на основе метода "Гусеница-SSA" рассматривается в работах [12], [15]. Идея алгоритма восстановления пропусков схожа с алгоритмом прогнозирования на основе метода "Гусеница-SSA" и заключается в оценке сигнала в местах пропусков моделями извлеченных компонент разложения.
Также интересные результаты показаны при использовании алгоритма на основе преобразования Ломба-Скаргла (преобразование Фурье для сигналов с неравномерной дискретизацией) [13]. Алгоритм применим для сигналов, имеющих ярко выраженные периодические составляющие. Идея алгоритма заключается в том, чтобы с использованием спектра Фурье оценивать в сигнале базовые частоты и восстанавливать с их помощью пропущенные значения.
Эти алгоритмы могут применяться к одномерным сигналам и имеют достаточно высокую точность восстановления.
Алгоритм синхронизации и восстановлению пропусков в измеряемых сигналах
Алгоритм синхронизации и восстановления пропусков в измеряемых сигналах состоит из четырех основных этапов (рисунок 2).
Этап 1-й - проверка измерений (валидация) и обнаружение пропусков. Под ошибками измерений подразумеваются выбросы в измерениях, различные специфичные ошибки, например, последовательности нулей, специальные значения измерений, соответствующие сбоям датчиков и т.д. Алгоритм обнаружения пропусков проверяет измерения на наличие пропущенных значений путем сравнения временных дискретов каждого измерения с задаваемой величины дискретизации ЕВС. Если превышает величину дискретизации ЕВС, то отмечается пропуск между измерениями.
Этап 2-й - интерполяция сигналов на единую временную сетку (ЕВС). На этом этапе выполняется интерполяция измерений, с разной частотой дискретизации, на единую временную сетку (ЕВС). Требуемая величина дискретизации ЕВС задается исходя из условий эксплуатации.
Этап 3-й - восстановление пропусков. Алгоритмы восстановления пропусков оценивают пропущенные значения измеряемых сигналов в местах пропусков, которые могут варьироваться от одного пропущенного измерения до сотен, в зависимости от типа измерений. Этот этап является наиболее сложным, и далее в статье будут исследоваться алгоритмы этого этапа.
Этап 4-й - запись результатов в базу данных. Восстановленные и синхронизированные сигналы записываются в базу данных, места восстановленных значений помечаются специальным флагом в базе данных.
Рис.2. Алгоритм синхронизации измерений и восстановления пропусков в измеряемых сигналах
Постановка задачи восстановления пропусков измеряемых сигналов
После этапа синхронизации сигналов имеются измерения с постоянной частотой дискретизации, описываемые временными рядами , где - множество отсчетов времени, .
Значения в некоторых отсчетах времени отсутствуют (пропуски). Необходимо найти оценку значений сигнала в местах пропусков. Априорно модель сигнала неизвестна. Имеются исторические записи сигналов (временных рядов).
Алгоритм восстановления пропусков на основе модели авторегрессии
Настоящий алгоритм был предложен авторами в качестве альтернативы двум предыдущим алгоритмам. Авторегрессионным называется процесс, в котором значение временного ряда находится в линейно зависимости от предыдущих значений временного ряда. Если значение временного ряда зависит от значений, отстоящих от 1 до лагов (отсчетов времени) назад, то мы наблюдаем авторегрессионный процесс порядка . Отсюда следует, что авторегрессионная модель (АР) представляет собой модель, в которой моделируемые значения задаются линейной функцией предыдущих наблюдений. По существу, авторегрессионная модель есть аналог линейной многофакторной модели (множественной регрессии) с той лишь разницей, что в качестве независимых переменных выступают предыдущие значения временного ряда. Авторегрессионный можно описать следующим образом [16]:
, (10)
где - коэффициенты авторегрессии, - белый шум, - порядок модели авторегрессии.
Для оценки коэффициентов авторегрессии используется метод наименьших квадратов (МНК) [16].
Модель авторегрессии сигнала позволяет вычислять оптимальный прогноз на заданное число шагов вперед, и давать оценку ошибки прогноза. Согласно [16] дисперсия ошибки прогноза на шагов вперед для модели авторегрессии порядка [16] оценивается следующим образов:
, (11)
где - дисперсия шума модели, - веса, рассчитывающиеся рекуррентно [16]:
, (12)
Идея алгоритма восстановления пропусков на основе модели авторегрессии заключается в прогнозировании значений временного ряда как вперед во времени, так и назад, с последующим оптимальным усреднением результатов.
Таким образом, необходимы две модели временного ряда, прямая во времени (прогнозирующая), описываемая выражением (10), и обратная (интерполяционная):
, (13)
Модель, прогнозирующая вперед (прямая), будет давать лучшие оценки в начале пропуска, а модель, прогнозирующая назад (обратная) - лучшие оценки в конце пропуска, так как точность прогноза падает с увеличением количества шагов прогнозирования, в соответствии в выражением (11).
Зная оценки значений в местах пропусков прямой и обратной модели и соответственно и дисперсии ошибки оценки прогноза прямой и обратной моделей, формула (11), для каждого момента времени и соответственно, можно применить оптимальное усреднение результатов прогноза, методом наилучшей линейной несмещенной оценки, чтобы получить оценку пропущенных значений:
, (14)
Алгоритм восстановления состоит из следующих шагов (рисунок 3): как в предыдущих алгоритмах сначала исходный временной ряд центрируется, путем вычитания среднего и заполнения пропусков нулевыми значениями. Далее оцениваются прямая и обратная модели. Оценка модели авторегрессии проводится методом перекрестной проверки, заключающегося в искусственном создании пропусков разной величины в сигналах, восстановления пропусков разными моделями и выбора такой модели, которая давала бы наименьшую ошибку на всех пропусках [17]. На третьем шаге выполняется оценка значений в местах пропусков обеими моделями. На последних шагах выполняется оптимальное усреднение результатов и прибавление среднего.
Рис.3. Блок-схема алгоритма восстановления пропусков на основе модели авторегрессии
Анализ результатов моделирования
В настоящей работе мы провели апробацию алгоритмов на реальных данных системы мониторинга состояния дамбы, города Бостон, Великобритания. В дамбу была установлена сеть многопараметрических датчиков, которые измеряют поровое давление (давление воды в порах почвы), температуру почвы и отклонение от вертикали (инклинометры). Дискретизация сигналов составляла 15 минут. В настоящей работе был проведён анализ датчиков порового давления.
Для моделирования было выбрано 14 сигналов, по 7 сигналов из различных точек установки в дамбе. Примеры трех сигналов для моделирования представлены на рисунке 4. Для получения точностных характеристик восстановления пропусков, в каждом из сигналов в случайных местах создавались искусственные пропуски величиной от 15 минут (1 отсчет) до 2 недель (1344 отсчета). Для всех сигналов, пропуск каждой величины генерировался по 1000 в случайные моменты времени.
Алгоритм на основе модели авторегрессии сравнивался с алгоритмом на основе метода "Гусеница-SSA" [12], алгоритмом на основе преобразования Фурье [13] и с линейной интерполяцией.
Рис.4. Сигналы для моделирования, формат даты ДД/ММ/ГГГГ, пунктирной рамкой выделен пример места, где создавался искусственный пропуск. Пунктирной рамкой выделены участки сигналов, представленные для демонстрации результатов на рисунке 5
Для расчета характеристик точности восстановления были выбраны метрики: - коэффициент детерминации (р-квадрат) и СКО (среднеквадратическое отклонение) ошибки оценки.
рассчитывается следующим образом:
, (13)
где - дисперсия ошибки оценки пропущенных значений, - дисперсия сигнала.
С уменьшением дисперсии ошибки оценки стремится к 1, с увеличением ошибки оценки стремится к отрицательным значениям. Значение , мы считали минимально допустимым.
На рисунке 5 представлены зависимости и СКО ошибки оценки соответственно для разных величин пропусков от 15 минут (1 отсчет) до 2 недель (1344 отсчета). Примерно одинаковую точность показывают алгоритмы восстановления на основе "Гусеница-SSA" и АР-модели, далее следует алгоритм на основе преобразования Фурье и наихудшая точность соответствует линейной интерполяции. Алгоритм на основе "Гусеница-SSA" и пересекает значение , для величины пропуска 755 отсчетов (~ 1,12 недели) с (мбар). АР-модели пересекает , для величины пропуска 672 (1 неделя) с (мбар). Для величины пропуска до 10 отсчетов (150 минут) все алгоритмы показывают примерно одну точность восстановления, это говорит о том, что для восстановления небольших пропусков (до 10 отсчетов) можно использовать линейную интерполяцию, на этапе синхронизации измерений. Значения ниже 0 не показаны (линейная интерполяция), так как соответствуют слишком низкой точности, не интересной для анализа.
Рис.5. Анализ точности восстановления: а) - зависимость коэффициента детерминации от величины пропуска для всех алгоритмов; б) - зависимость СКО ошибки оценки от величины пропуска для всех алгоритмов