Статья: Исследование алгоритма восстановления пропусков в измеряемых сигналах на основе модели авторегрессии для системы мониторинга состояния дамб

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Исследование алгоритма восстановления пропусков в измеряемых сигналах на основе модели авторегрессии для системы мониторинга состояния дамб

А.П. Козионов, А.Л. Пяйт, И.И. Мохов

(ООО "Сименс", Санкт-Петербург)

Аннотация

Нередко измерения датчиков содержат пропуски, вызванные, вызванные сбоями, отключениями систем передачи или сбора данных, неправильными настройками систем и другими внешними и внутренними факторами. В работе рассматривается подход и алгоритм восстановления пропусков в измеряемых сигналах на основе модели авторегрессии. Представленный алгоритм сравнивается с алгоритмом на основе метода "Гусеница-SSA" и алгоритмом на основе преобразования Фурье.

Введение

Для мониторинга состояния дамб применяются алгоритмы машинного обучения, анализирующие частотно-временные свойства сигналов (вейвлет-преобразование, оконное преобразование Фурье и т.д.) [1], [2], [3], [4]. Алгоритмы чувствительны к пропускам измерений. Одной из серьезных проблем систем мониторинга состояния дамб является качество измерений датчиков, вызванное сбоями, отключениями систем передачи или сбора данных, неправильными настройками систем и другими внешними и внутренними факторами, поэтому необходимы алгоритмы улучшения качества измерений. Восстановление пропусков измерений представляет собой наиболее сложную задачу проблематики улучшения качества измерений. Настоящая проблема актуальна не только для рассматриваемой системы, но и для других систем, где имеется дело с полевыми измерениями: системы водоснабжения [5], метеорологические системы [6] и т.д.

Пропуски в измерениях могу варьироваться от минут до нескольких дней. Для обучения алгоритмов мониторинга дамб (алгоритмы на основе машинного обучения) необходимы исторические данные. Алгоритмы восстановления пропусков должны оценивать пропущенные значения сигналов с учетом частотно-временных зависимостей, присутствующих в сигналах. Примеры сигналов (условно, "сигнал А" и "сигнал Б") порового давления (давление воды в порах почвы) с дамбы и пропусков представлены на рисунке 1 (дамба в городе Бостон, Великобритания). Периодические колебания соответствуют периодам приливов и отливов.

алгоритм восстановление пропуск авторегрессия

Рис.1. Примеры сигналов и пропусков в сигналах, формат даты ДД/ММ, 2011-2012 годов: а) - "сигнал А"; б) - "сигнал Б"; в) - укрупненный участок "сигнала А"

В настоящей работе мы представляем подход и алгоритмы восстановления пропусков в измеряемых сигналах. Предлагаемый подход основан на адаптивных алгоритмах восстановления пропусков в сигналах в условиях априорной неопределенности моделей сигналов. Алгоритмы, представленные в работе, используют исторические данные для восстановления сигналов. Настоящий подход исследовался авторами настоящей работы [1], [2], [3], для системы раннего предупреждения UrbanFlood [7]. Так же авторами представлен алгоритм на основе модели авторегрессии для восстановления пропусков в сигналах. Апробация алгоритмов проводилась на данных с дамбы, расположенной в городе Бостон (Великобритания).

Существует несколько способов восстановления пропусков в сигналах: сплайны, линейная интерполяция, интерполяционные фильтры [8]. Общий недостаток этих методов в том, что они выполняют интерполяцию без восстановления частотно-временных свойств сигналов на участках пропусков. В работе [9] представлен алгоритм восстановления на основе разложения по эмпирическим модам, но данное разложение не является стабильным и может привести к неудовлетворительному результату еще на этапе разложения сигнала [10]. При использовании алгоритмов на основе нейронных сетей возникает проблема обучения модели и стабильности результатов восстановления [6]. Стоит также отметить алгоритмы 3d-var и 4d-var [11], используемые в метеорологии, но для них требуются априорно заданные модели сигналов и помех. В случае применения алгоритмов многомерного восстановления сигналов, накладываются ограничения, связанные с зависимостью процедуры восстановления от доступности других данных (сигналов).

Одним из наиболее интересных алгоритмов адаптивного восстановления данных является алгоритм на основе метода "Гусеница-SSA", представленный в статье [12]. "Гусеница-SSA" [14] это адаптивный непараметрический метод разложения временных рядов (англ. SSA - singular spectrum analysis, спектрально-сингулярный анализ). Алгоритм восстановления на основе метода "Гусеница-SSA" рассматривается в работах [12], [15]. Идея алгоритма восстановления пропусков схожа с алгоритмом прогнозирования на основе метода "Гусеница-SSA" и заключается в оценке сигнала в местах пропусков моделями извлеченных компонент разложения.

Также интересные результаты показаны при использовании алгоритма на основе преобразования Ломба-Скаргла (преобразование Фурье для сигналов с неравномерной дискретизацией) [13]. Алгоритм применим для сигналов, имеющих ярко выраженные периодические составляющие. Идея алгоритма заключается в том, чтобы с использованием спектра Фурье оценивать в сигнале базовые частоты и восстанавливать с их помощью пропущенные значения.

Эти алгоритмы могут применяться к одномерным сигналам и имеют достаточно высокую точность восстановления.

Алгоритм синхронизации и восстановлению пропусков в измеряемых сигналах

Алгоритм синхронизации и восстановления пропусков в измеряемых сигналах состоит из четырех основных этапов (рисунок 2).

Этап 1-й - проверка измерений (валидация) и обнаружение пропусков. Под ошибками измерений подразумеваются выбросы в измерениях, различные специфичные ошибки, например, последовательности нулей, специальные значения измерений, соответствующие сбоям датчиков и т.д. Алгоритм обнаружения пропусков проверяет измерения на наличие пропущенных значений путем сравнения временных дискретов каждого измерения с задаваемой величины дискретизации ЕВС. Если превышает величину дискретизации ЕВС, то отмечается пропуск между измерениями.

Этап 2-й - интерполяция сигналов на единую временную сетку (ЕВС). На этом этапе выполняется интерполяция измерений, с разной частотой дискретизации, на единую временную сетку (ЕВС). Требуемая величина дискретизации ЕВС задается исходя из условий эксплуатации.

Этап 3-й - восстановление пропусков. Алгоритмы восстановления пропусков оценивают пропущенные значения измеряемых сигналов в местах пропусков, которые могут варьироваться от одного пропущенного измерения до сотен, в зависимости от типа измерений. Этот этап является наиболее сложным, и далее в статье будут исследоваться алгоритмы этого этапа.

Этап 4-й - запись результатов в базу данных. Восстановленные и синхронизированные сигналы записываются в базу данных, места восстановленных значений помечаются специальным флагом в базе данных.

Рис.2. Алгоритм синхронизации измерений и восстановления пропусков в измеряемых сигналах

Постановка задачи восстановления пропусков измеряемых сигналов

После этапа синхронизации сигналов имеются измерения с постоянной частотой дискретизации, описываемые временными рядами , где - множество отсчетов времени, .

Значения в некоторых отсчетах времени отсутствуют (пропуски). Необходимо найти оценку значений сигнала в местах пропусков. Априорно модель сигнала неизвестна. Имеются исторические записи сигналов (временных рядов).

Алгоритм восстановления пропусков на основе модели авторегрессии

Настоящий алгоритм был предложен авторами в качестве альтернативы двум предыдущим алгоритмам. Авторегрессионным называется процесс, в котором значение временного ряда находится в линейно зависимости от предыдущих значений временного ряда. Если значение временного ряда зависит от значений, отстоящих от 1 до лагов (отсчетов времени) назад, то мы наблюдаем авторегрессионный процесс порядка . Отсюда следует, что авторегрессионная модель (АР) представляет собой модель, в которой моделируемые значения задаются линейной функцией предыдущих наблюдений. По существу, авторегрессионная модель есть аналог линейной многофакторной модели (множественной регрессии) с той лишь разницей, что в качестве независимых переменных выступают предыдущие значения временного ряда. Авторегрессионный можно описать следующим образом [16]:

, (10)

где - коэффициенты авторегрессии, - белый шум, - порядок модели авторегрессии.

Для оценки коэффициентов авторегрессии используется метод наименьших квадратов (МНК) [16].

Модель авторегрессии сигнала позволяет вычислять оптимальный прогноз на заданное число шагов вперед, и давать оценку ошибки прогноза. Согласно [16] дисперсия ошибки прогноза на шагов вперед для модели авторегрессии порядка [16] оценивается следующим образов:

, (11)

где - дисперсия шума модели, - веса, рассчитывающиеся рекуррентно [16]:

, (12)

Идея алгоритма восстановления пропусков на основе модели авторегрессии заключается в прогнозировании значений временного ряда как вперед во времени, так и назад, с последующим оптимальным усреднением результатов.

Таким образом, необходимы две модели временного ряда, прямая во времени (прогнозирующая), описываемая выражением (10), и обратная (интерполяционная):

, (13)

Модель, прогнозирующая вперед (прямая), будет давать лучшие оценки в начале пропуска, а модель, прогнозирующая назад (обратная) - лучшие оценки в конце пропуска, так как точность прогноза падает с увеличением количества шагов прогнозирования, в соответствии в выражением (11).

Зная оценки значений в местах пропусков прямой и обратной модели и соответственно и дисперсии ошибки оценки прогноза прямой и обратной моделей, формула (11), для каждого момента времени и соответственно, можно применить оптимальное усреднение результатов прогноза, методом наилучшей линейной несмещенной оценки, чтобы получить оценку пропущенных значений:

, (14)

Алгоритм восстановления состоит из следующих шагов (рисунок 3): как в предыдущих алгоритмах сначала исходный временной ряд центрируется, путем вычитания среднего и заполнения пропусков нулевыми значениями. Далее оцениваются прямая и обратная модели. Оценка модели авторегрессии проводится методом перекрестной проверки, заключающегося в искусственном создании пропусков разной величины в сигналах, восстановления пропусков разными моделями и выбора такой модели, которая давала бы наименьшую ошибку на всех пропусках [17]. На третьем шаге выполняется оценка значений в местах пропусков обеими моделями. На последних шагах выполняется оптимальное усреднение результатов и прибавление среднего.

Рис.3. Блок-схема алгоритма восстановления пропусков на основе модели авторегрессии

Анализ результатов моделирования

В настоящей работе мы провели апробацию алгоритмов на реальных данных системы мониторинга состояния дамбы, города Бостон, Великобритания. В дамбу была установлена сеть многопараметрических датчиков, которые измеряют поровое давление (давление воды в порах почвы), температуру почвы и отклонение от вертикали (инклинометры). Дискретизация сигналов составляла 15 минут. В настоящей работе был проведён анализ датчиков порового давления.

Для моделирования было выбрано 14 сигналов, по 7 сигналов из различных точек установки в дамбе. Примеры трех сигналов для моделирования представлены на рисунке 4. Для получения точностных характеристик восстановления пропусков, в каждом из сигналов в случайных местах создавались искусственные пропуски величиной от 15 минут (1 отсчет) до 2 недель (1344 отсчета). Для всех сигналов, пропуск каждой величины генерировался по 1000 в случайные моменты времени.

Алгоритм на основе модели авторегрессии сравнивался с алгоритмом на основе метода "Гусеница-SSA" [12], алгоритмом на основе преобразования Фурье [13] и с линейной интерполяцией.

Рис.4. Сигналы для моделирования, формат даты ДД/ММ/ГГГГ, пунктирной рамкой выделен пример места, где создавался искусственный пропуск. Пунктирной рамкой выделены участки сигналов, представленные для демонстрации результатов на рисунке 5

Для расчета характеристик точности восстановления были выбраны метрики: - коэффициент детерминации (р-квадрат) и СКО (среднеквадратическое отклонение) ошибки оценки.

рассчитывается следующим образом:

, (13)

где - дисперсия ошибки оценки пропущенных значений, - дисперсия сигнала.

С уменьшением дисперсии ошибки оценки стремится к 1, с увеличением ошибки оценки стремится к отрицательным значениям. Значение , мы считали минимально допустимым.

На рисунке 5 представлены зависимости и СКО ошибки оценки соответственно для разных величин пропусков от 15 минут (1 отсчет) до 2 недель (1344 отсчета). Примерно одинаковую точность показывают алгоритмы восстановления на основе "Гусеница-SSA" и АР-модели, далее следует алгоритм на основе преобразования Фурье и наихудшая точность соответствует линейной интерполяции. Алгоритм на основе "Гусеница-SSA" и пересекает значение , для величины пропуска 755 отсчетов (~ 1,12 недели) с (мбар). АР-модели пересекает , для величины пропуска 672 (1 неделя) с (мбар). Для величины пропуска до 10 отсчетов (150 минут) все алгоритмы показывают примерно одну точность восстановления, это говорит о том, что для восстановления небольших пропусков (до 10 отсчетов) можно использовать линейную интерполяцию, на этапе синхронизации измерений. Значения ниже 0 не показаны (линейная интерполяция), так как соответствуют слишком низкой точности, не интересной для анализа.

Рис.5. Анализ точности восстановления: а) - зависимость коэффициента детерминации от величины пропуска для всех алгоритмов; б) - зависимость СКО ошибки оценки от величины пропуска для всех алгоритмов