ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Факультет информатики, математики и компьютерных наук
Программа подготовки бакалавров по направлению 01.03.02 Прикладная математика и информатика
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
Распознаваний эмоций в звуке
Попова Анастасия Сергеевна
Рецензент
д.ф.-м.н., профессор кафедры ПМИ Калягин В. А.
Научный руководитель
Старший преподаватель кафедры ПМИ Пономаренко А. А.
Нижний Новгород, 2018
Содержание
Постановка задачи
Введение
Речеобразование и работа с записью голоса
Обзор литературы
Обзор инструментов
Набор данных
Рекуррентная нейронная сеть, LSTM
Апробируемый подход
Вычислительный эксперимент
Выводы и направления дальнейших работ
Список литературы
Приложения
Постановка задачи
Улучшить точность работы алгоритма для распознавания эмоций человека по аудиозаписи его голоса, разработанный в рамках курсовой работы на 3 курсе на основе сверточных нейронных сетей. Провести анализ и сравнение полученных результатов. Провести серию экспериментов серию экспериментов на открытом наборе данных. Сделать обзор литературы. Сравнить результаты.
Введение
Классификация человеческих эмоций в потоке мультимедийных данных актуальная и активно разрабатываемая область компьютерных наук. Задача классификации эмоций имеет большой потенциал к использованию во многих прикладных отраслях, таких как робототехника, системы слежения и других системах в которых происходит интерактивное взаимодействия с пользователем (например, коллцентры, умные дома или различные приложения-помощники). Решение этой задачи позволяет получить от пользователя обратную связь естественным образом, без требования со стороны пользователя каких-либо дополнительных действий, тем самым упрощая и ускоряя взаимодействия вычислительной техники и человека и приближая решения компьютера к человеческим.
К сожалению, существующие методы распознавания эмоций в речевых сигналах не достигли достаточной степени надежности. В настоящей работе исследуется возможность повышения точности распознавания за счет применения современных архитектур рекуррентных нейронных сетей LSTM (Lоng-Shоrt Term Memоry). Результаты этой работы могут быть интересны широкому кругу специалистов в области автоматической обработки речи.
Речеобразование и работа с записью голоса
Речевои? сигнал человека получается из-за скоординированных движении? его речевого аппарата. Передвижение этих воздушных масс происходит из-за давления, которое создается дыхательнои? мускулатурои? ле?гких. Речевои? тракт состоит из гортани и воздушных полостей, которые в процессе разговора меняют свою форму.
Рис.1 Органы речеобразования человека.
Органы речеобразования человека принято делить на активные (подвижные при формировании звуков) и пассивные (вспомогательные) органы. Активными органами являются голосовые связки, язык, губы, не?бныи? язычок и не?бная занавеска, задняя спинка зева и нижняя челюсть. Пассивные органы речи определяют форму и резонансные свои?ства полостеи?. К пассивным органам относятся зубы, альвеолы, тве?рдое небо и верхняя челюсть [1].
Воздух сначала проходит через трахею, потом через перстневидныи? хрящ и щель между голосовыми связками, которые как раз и отвечают за голосовые характеристики сказанного.
Голосвые связки с помощью колебания воспроизводят звуки различной частоты, что и задает основной тон голоса. После чего звук фильтруется в системе воздушных областей речевого тракта[2]. Решающую роль в формировании звуков речи играют движения не?бнои? занавески, языка, губ и нижнеи? челюсти. Носовая полость служит резонатором, усиливая колебания определе?нных частот [3].
Голосовая волна - это реакция систем голосового тракта на работу одного или более источников звука [4]. Это простое правило, выраженное в терминологии акустики и электроннои? инженерии предполагает, что голосовая волна может быть однозначно описана характеристиками источников и фильтров.
Система речеобразования источник-фильтр показана на схеме (Рис. 2), где отображены источник звука и соедине?нные фильтрующие секции, каждая из которых представляет собои? часть воздушных полостеи? голосового тракта. Также показано соединение носовых полостеи? с голосовым трактом на границе глоточных и ротовых полостеи?.
Рис. 2. Система речеобразования источник-фильтр
Передаточной функцией называется полная последовательность фильтрующих функций. Пусть источник звука обозначается S, а передаточная функция T, тогда человеческую речь можно представить в виде функции P = S * T.
Одна из главных особенностей звука его частота. Для голоса важны два разных параметра - тон и частота. Они обозначают разные характеристики, но тесно связаны друг с другом. Частота - это свойство самого звука, а тон - более субъективное ощущение. Длительность цикла колебании? варьируется между периодами тона. Такие изменения задают интонацию человеческой речи, что очень важно для распознавания эмоций.
Зачастую для получения подобного разложения голоса используют преобразование Фурье. Оно представляет звуковой сигнал в виде суммы простейших гармонических колебаний в зависимости от частоты. Значениями полученной функции будут комплексные числа, которые связаны с фазами и амплитудами сигнала.
Звук обычно записывается с помощью микрофона, а потом его оцифровывают.
Микрофон преобразовывает звуковые колебания (механические колебания воздуха) в электрические колебания, которые потом можно обработать.
Сигнал, записанный с микрофона непрерывен во времени, такие сигналы принято называть аналоговыми. Для последующей работы со звуком аналоговый сигнал необходимо перевести в цифровой, то есть представить его в виде последовательного набора цифровых значений, которые изменяются во времени дискретно. Для перевода аналогового сигнала в цифровой используется аналогово-цифровой преобразователь (АЦП) [5], который замеряет аналоговый сигнал с определенной частотой, получая цифровой сигнал. Обычно АЦП производят измерения с частотой 44,1 КГц, что обусловлено особенностями человеческого слуха.
При обработке речи существует несколько базовых методов а так же их комбинации.
Некоторые из наиболее известных направлении? обработки:
- Временные преобразования: интерполяция сигнала по времени, наложение копии? сигнала со сдвигом для достижения эффекта хора или эха.
- Амплитудные преобразования: изменения интенсивности колебании? в сигнале для развития звучания во времени.
- Фазовые преобразования: сдвиг или модуляция фазы сигнала для изменения восприятия расположения источника звука.
- Частотные преобразования: изменение частотного спектра сигнала для изменения тона звучания, частотная фильтрация, формантные преобразования.
Для анализа эмоций обычно используют амплитудные и частотные преобразования, при этом, если сигнал долгий, то рассматривается последовательность перекрывающихся фреймов.
Обзор литературы
На сегодняшний день уже успешно решены множество задач, связанных с обработкой звука, существует множество алгоритмов обработки аудио сигнала и методов их классификации, имеющих различную точность.
Ранее в литературе был предложен ряд методов классификации эмоций человека как отдельно для аудио или изображений [6,7], так и одновременно для видео. На изображениях ищут улыбку, оценивают положение и форму рта, широту глаз, угол бровей [8][9][10]. В свою очередь, в звуковом сигнале оценивают средний уровень энергии, дисперсию, характеристики изменения высоты голоса [11][12][13].
До 2015 года большая часть опубликованных работ описывает методы, которые в качестве классификатора используют классические модели (SVM [14], KNN[15], скрытые Марковские модели [15])
В своей работе В. Лим, Д. Янг и Т. Лии [39] предлагают довольно оригинальный и вместе с тем несколько усложненный способ решения задачи. Идея данной работы состоит в том, чтобы на первом этапе их нейросетевой модели выделить наиболее значимые признаки из сигнала чтобы на втором этапе выполнять распознание этих признаков на наличие в них эмоциональной состовляющей. Так, для первого этапа авторы используют сверточную нейронную сеть, примененную к спектрограммам, полученным с помощью оконного Фурье-преобразования сигнала. Похожая идея используется в более ранней моей работе [16][17]. Признаки, извлеченные на первом этапе, подаются на вход рекуррентной нейронной сети (LSTM) распределенного по времени, что делает финальное предсказание принадлежности к той или иной эмоции. Однако, кажется странным, во-первых, применять дополнительный классификатор после этапа извлечения информации из спектрограмы сверточной нейронной поскольку уже на этом этапе необходимые (существенные) признаки должны быть найдены (выучены), во-вторых, в качестве классификатора использовать модель рекуррентной нейронной сети поскольку спектрограммы уже содержат в себе информацию, агрегированную по времени. Неудивительно, что экспериментально авторы показали, что качество предсказаний одной сверточной нейросетевой модели сравнимо с качеством работы CNN + LSTM, т. е. использование рекуррентной нейросетевой модели оказалось неоправданным. К тому же, в своей постановке, авторы имеют дело со множественными метками класса для каждого момента времени из-за анализа сигнала «с перекрытием», что только усложняет этап принятия решения.
а) б) в)
Рис. 3. а) - осциллограмма - последовательность уровней, соответствующая колебанию мембраны микрофона, записи фразы «Kids are taking by the dооr» произнесенной актёром с эмоцией счастья. б) - соответствующая ей мелспектрограмма. в) - первые 5 мел-кепстральных коэффициентов.
Постановка задачи А. Балакришнан и А. Реге [40] несколько отличается от нашей тем, что авторы делают мультилэйбл классификацию, т. е. каждому семплу ставится в соответствии набор эмоций из заданного множества. Тем не менее, они выполняют три эксперимента, два из которых сравнимы с нашими: в первом используется полносвязная нейронная сеть, во втором -- сверточная, в третьем -- рекуррентная (LSTM). Авторы приходят к выводу, что использование рекуррентных сетей наиболее оправдано с точки зрения качества решения поставленной задачи. Авторы так же используют MFCC коэффициенты, хотя и не ограничиваются ими.
Черных [37] используют данные аналогично А. Балакришнан и А. Реге и концентрируют свое внимание на рекуррентных нейросетевых моделях. Помимо «стандартной» архитектуры с использованием LSTM блоков, авторы проводят эксперименты с добавлением к такой архитектуре блока CTC (Cоnnectiоnist Tempоral Classificatiоn), что значительно стабилизирует процедуру обучения и дает прирост около 3% по сравнению с базовой архитектурой.
В настоящее время ряд задач стали эффективно решаться рекуррентными нейронными сетями с долгой краткосрочной памятью. С их использованием возросло качество решений задач, где необходимо обрабатывать последовательности данных, например, работа со звуком, распознавание речи, алгоритмы, работающие с текстами и многие другие. В своей работе мы пытались улучшить точность распознавания эмоций с помощью нейронной сети LSTM.
Тем не менее, сравнение алгоритмов классификации звука является условным, так как во многих случаях эксперименты проводились на различных тестовых данных и с различными задачи распознавания.
Рис. 4 Иллюстрация работы алгоритма J. Haitsma а) построение спектрограммы б) вычисление распределения энергии пo диапазонам с) кодировании распределения энергии
Базовой техникой обработки аудио сигнала является быстрое преобразование Фурье[18][19]. Например, популярные алгоритмы J. Haitsma[20] и A. Wang[21] оба основаны на анализе частотно-временных признаков, полученных с помощью оконного преобразования Фурье. Так на первом этапе работы этих алгоритмов происходит предобработка файлов и строится спектрограмма звука с помощью быстрого преобразования Фурье. Далее в алгоритме J. Haitsma для каждого момента времени вычисляется суммарная энергия в поддиапазоне. Временное распределение энергии кодируется так:
В алгоритме A. Wang используется другой подход к распознаванию. Он основан на поиске пиков амплитуды спектрограммы и и связывания их в пары (созвездия).
Рис. 5. Иллюстрация работы алгоритма A. Wang а) Построение спектрограммы б) Поиск пиков с) Объединение пиков в пары
Главный минус этого алгоритма состоит в том, что этот алгоритм достаточно сложный всвязи с тем, что пики должны быть устойчивыми к искажениям звука. Эта сложность хорошо описана в статьях [22, 23]. Поэтому, необходимо большое количество пиков по всей площади спектрограммы. Каждый пик спектрограммы в данном алгоритме - это точка локального максимума энергии. Обычно, количество пиков определено для одного фрейма. Используя эти ограничения, удается получить пики с максимальной вероятностью выживания.