(15)
где - -ый выходной сигнал сети при обратном распространении, - входной сигнал сети при обратном распространении, - коэффициент усиления функционально преобразователя при обратном распространении, - -ый синоптический вес. Учитывая поведение функционально преобразователя (14), выражение (15) принимает вид:
(16)
Структурная схема нейрона при обратном распространении показана на рис. 4. В данном исследовании были реализованы различные виды нейронов, формируемые различными блоками функционального преобразования, входящими в состав нейрона.
Программная реализация
Для реализации прототипа программного обеспечения при помощи языка универсального моделирования (UML) [7] была разработана иерархия классов, в качестве языка программирования использовался Python, предоставляющий с одной стороны простую форму записи математических выражений, с другой - широкие возможности в области объектно-ориентированного программирования. Программная реализация разделена на две части - базовую и дополнительную. Базовая часть выполнена в качестве пакета и включает необходимую для работы приложения логику, однако не содержит инструментов ввода и вывода данных. Дополнительная часть предназначена для работы в интерактивном режиме в составе системы компьютерной математики Sage, пакете программ со свободной лицензией, объединенных единым пользовательским и программным интерфейсами. Дополнительная часть использует возможности Sage для ввода и вывода данных: генерация обучающих последовательностей, отображение графов, построение графиков и таблиц.
Результаты численного моделирования
Разработанный программный прототип был использован для численного моделирования применения нейронной сети для решения задачи аппроксимации и классификации входных данных.
Рис. 5. а) Входные данные и результат аппроксимации, б) конфигурация нейронной сети, построенная прототипом программного обеспечения
В качестве входного сигнала в задаче аппроксимации была использована аддитивная смесь суммы импульсов в форме функции Гаусса и шума:
, (17)
где Ai - амплитуда импульса, сi - параметр ширины импульса, фi - временная задержка прихода импульса, M - количество импульсов, n(t) - белый гауссовский шум. Практическое использование модель такого сигнала находит, например, в задачах идентификации точечных рассеивателей в сверхкороткоимпульсной радиолокации [8].
Входные данные показаны на рис. 5, a) точками, которые аппроксимированы ломанными для удобства восприятия. На рис. 5, б) представлен граф нейронной сети, построенный непосредственно с помощью средств разработанного программного прототипа.
Зависимость среднеквадратической ошибки (СКО) за время обучения для метода градиентного спуска показана на рис. 6 (а), как видно из рисунка, увеличение исходного коэффициента скорости обучения с 0.6 (непрерывная линия) до 1,2 (штрихпунктирная линия) позволяет несколько ускорить процесс обучения и добиться лучших результатов за меньшее время. Однако дальнейшее увеличение коэффициента скорости обучения приводит к слишком быстрой корректировке синаптических весов. Это приводит к тому, что веса осциллируют вокруг оптимальных значений, не достигая их, - аналогичный колебательный характер принимает и СКО.
а) б)
Рис. 6: Изменение среднеквадратической ошибки за время обучения для методов а) градиентного спуска, б) градиентного спуска с инерцией
Для демонстрации эффекта инерции выбран коэффициент скорости обучения , затем проведено обучение сети при трех различных коэффициентах инерции . Результаты влияния эффекта инерции показаны на рис. 6 (б). Увеличение коэффициента инерции в ряде случаев приводит к незначительному изменению скорости обучения, причём дальнейшее увеличение приводит к негативному эффекту - дестабилизации процесса обучения сети в целом.
а) б)
Рис. 7: Изменение среднеквадратической ошибки за время обучения а) для метода Delta-Bar-Delta, б) всех представленных методов
Наибольший интерес представляет метод Delta-Bar-Delta, результаты применения которого показаны на рис. 7 а). В [8] высказано предположение, что в большинстве случаев оптимальным набором параметров для данного метода являются следующие значения параметров формул (7, 8): , которым на рис. 7 соответствует непрерывная линия. Как видно из этого графика, отклонение параметров от оптимальных значений могут в конкретном случае приводить как к положительным, так и к отрицательным результатам. В случае чрезмерного уменьшения коэффициента скорости обучения (пунктирная линия) наблюдается значительное отставание в обучении. Уменьшение коэффициента г, определяющего степень влияния градиентов ошибки, полученных в предыдущих эпохах и, одновременное, увеличение коэффициента , и, как следствие, ускорение роста коэффициента скорости, позволяет получить значительное улучшение качества обучения.
В зависимости от использованного метода обучения за некоторое количество итераций синаптические веса нейронной сети приближаются к оптимальным значениям. На рис. 5, а) треугольниками показан полученный выходной сигнал сети, аппроксимированный ломаной линией совместно с исходным сигналом.
Под классификацией понимают процедуру отнесения объекта (одного примера входных данных) к одному из двух или более классов. Для демонстрации применения нейронных сетей для решения этой задачи в работе рассматривается двумерный случай классификации. Практическое приложение этой задачи следующее. Посредством квадратурного демодулятора наблюдается один из двух узкополосных случайных процессов (СП). Известно, что плотность вероятности каждого из процессов описывается выражением:
(18)
где уI, уQ - дисперсии, а mI, mQ - математические ожидания составляющих СП.
Рис 8. а) данные двух классов и граничные линии по уровням 0.1, 0.5 и 0,9, б) нейронная сеть для решения задачи классификации
В качестве входных данных для нейронной сети выступают координаты точек (рис. 8, а) на плоскости {I, Q}, принадлежащие одному из двух различаемых классов, соответствующих двум случайным процессам, параметры выражения (18) для которых различны. Выход сети должен определять принадлежность точки к первому или второму классу. Создана сеть с двумя входными нейронами, двумя нейронами в скрытом слое с сигмоидными функциями активации. Выходной нейрон сети так же имеет сигмоидную функцию активации, что необходимо для получения ограниченного по величине выходного сигнала. Предполагается, что выходной сигнал сети будет близок к нулю, если точка принадлежит к классу «A» и близок к единице, если точки принадлежит к классу «B». Созданная нейронная сеть показана на рис. 8, б.
Обучение сети проведено методом Delta-Bar-Delta [6] с коэффициентом скорости обучения 0,4, без коэффициента инерции и параметрами г =0,3, ц=0,7, к =0,5. На рис. 8, а) показана итоговая граница по уровню 0,5, которая принята при классификации. Подробное теоретическое решение этой задачи методом оптимального Байесовского классификатора представлено в монографии [2].
В работе рассмотрены сети прямого прохождения сигнала, построенные на основе простых адаптивных элементов. Разработан прототип программного обеспечения, реализующий адаптивные элементы в рамках объектно-ориентированного подхода. Была разработана специализированная библиотека классов на языке Python для работы в среде Sage. В работе представлены результаты численного моделирования, проведенные с данным ПО. Примеры включают в себя обучение сетей, предназначенных для решения задач аппроксимации и классификации. Дальнейшее развитие данной методики состоит в расширении списка адаптируемых элементов, включение в него элементов с многомерными входами и выходами. Также большой практический интерес, по мнению авторов, представляет использование в адаптивных элементах методов второго порядка [5], которое потребует некоторого расширения и последующего обобщения рассмотренных подходов.
Литература
аппроксимация сверхкороткоимпульсный радиолокационный сигнал
1. M.H. Hassoun, Fundamentals of Artificial Neural Networks, The MIT Press, 1995, 511 p.
2. С. Хайкин, Нейронные сети: полный курс, 2-е изд., испр.: Пер. с англ. - М.: ООО «И.Д. Вильямс», 2006, 1104 стр.
3. K.S. Narendra, K. Parthasarathy, Identification and Control of Dynamical Systems Using Neural Networks // IEEE Transactions on Neural Networks, Vol. 1, No. 1, March 1990, pp. 4-27.
4. M.T. Hagan, H.B. Demuth, M.H. Beale, Neural Network Design, Martin Hagan, 2002, 736 p.
5. R. Battiti, First- and Second-Order Methods for Learning: Between Steepest Descent and Newton's Method // Neural Computation, MIT, Vol. 4, No. 2, March 1992, pp. 141-166.
6. S. Samarasinghe, Neural Networks for Applied Sciences and Engineering: From Fundamentals to Complex Pattern Recognition, Auerbach Publications; 1 ed., 2006, 570 p.
7. Г. Буч, Дж. Рамбо, А. Джекобсон, Язык UML. Руководство пользователя, Изд-во: «ДМК Пресс», 2007, 496 стр.
8. Коновалюк М.А., Горбунова А.А., Кузнецов Ю.В., Баев А.Б., Алгоритм извлечения информации из комплексного радиолокационного изображения сложной цели, 4-я всероссийская конференция «Радиолокация и радиосвязь», Москва, ИРЭ РАН, дек. 2010 г.