Дипломная работа: Система голосового управления кабиной лифта

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

1.3 Применение систем распознавания голоса

Интегрирование технологии распознавании речи началось в начале 90-ых годов прошлого века. Уже тогда она позволила снизить затраты за счет автоматизации некоторых функций и предоставления новых услуг, появление которых было ограниченно из-за невыгодности и неэффективности использования «живых» операторов. В качестве примеров применения этой технологии можно привести следующее:

· Автоматизация справочных систем (АСС). АСС были созданы для оказания помощи операторам в определении телефонных номеров в ответ на запросы клиентов по телефону. Такие системы пока не практичны (из-за похожести названий), но для небольших каталогов такие системы широко используются (например, в корпоративной среде);

· Голосовые системы набора номера. Применялись для голосового набора по имени (так называемый набор по псевдонимам, например, «Позвонить Домой») чтобы клиенты могли выполнять вызовы без нажатия кнопок, связанных с вызываемым номером телефона;

· IVR (Interactive Voice Response, интерактивный голосовой интерфейс). Системы предварительно записанных голосовых сообщений, выполняющая функцию маршрутизации вызовов, несмотря на свои преимущества могут вызывать разочарование и неудобство использования у клиентов компании. Однако есть способ усовершенствовать этот сценарий. Термин "интеллектуальное управление вызовами" (ICS, intelligent call steering) не подразумевает нажатия кнопок. Систем спрашивает клиента, чего он хочет, анализирует ответ, а затем переадресовывает звонок на наиболее подходящий ресурс.

· Автомобильные системы. Как правило, активация происходит простым нажатием кнопки на руле, что позволяет водителя не отвлекаться от дороги, после звукового запроса система переходит в режим "прослушивания", в котором она может принимать входной речевой сигнал для распознавания. Простые голосовые команды могут использоваться для осуществления телефонных звонков, выбора радиостанций или воспроизведения музыки с совместимого смартфона, MP3-плеера или флэш-накопителя с загруженной музыкой. Функции распознавания голоса различаются в зависимости от марки и модели автомобиля. Некоторые из последних моделей автомобилей предлагают естественное распознавание речи вместо фиксированного набора команд, позволяя водителю использовать полные предложения и общие фразы. Таким образом, в таких системах пользователю нет необходимости запоминать набор фиксированных командных слов;

· Медицинская документация. Реализация распознавания речи возможна также в секторе здравоохранения. Например, в процессе медицинского документирования. Существует два способа обработки: фронт-энд распознавание речи - это когда поставщик диктует в движок распознавания речи, распознанные слова отображаются в том виде, в каком они произносятся, а диктатор отвечает за редактирование и подписание документа. А также внутреннее или отложенное распознавание речи - это когда поставщик диктует в цифровой системе диктовки, голос направляется через устройство распознавания речи, а распознанный черновой вариант документа направляется вместе с оригинальным голосовым файлом в редакцию, где проект редактируется и составляется отчет. В настоящее время в отрасли широко используется отложенное распознавание речи;

· Высокопроизводительный истребитель. Значительные усилия в последнее десятилетие были направлены на тестирование и оценку распознавания речи в истребителях. Подобные программы, связанные с различными авиационными платформами, получают развитие в США, Франции, Великобритании. В этих программах распознавание речи успешно используются в истребителях, в том числе для настройки радиочастот, управления системой автопилота, задания координат точки и параметров выпуска оружия, а также управления дисплеем полета.

· Образование и повседневная жизнь. Распознавание речи может быть полезным при изучении иностранного языка: помощь в становлении правильного произношения и в развитии беглости речи. Слепые или слабовидящие учащиеся могут воспользоваться этой технологией для написания, а затем для прослушивания текста для проверки на компьютере, а также использовать компьютер, управляя голосом, вместо того чтобы смотреть на экран и клавиатуру. Учащиеся с ограниченными физическими возможностями или страдающие от повторяющихся деформаций/других травм верхних конечностей могут быть освобождены от необходимости беспокоиться о почерке и написания текста при использовании программы "речь в текст". Они также могут использовать технологию распознавания речи, чтобы свободно пользоваться Интернетом или компьютером дома без необходимости физического управления мышью и клавиатурой. Не стоит также забывать об применении данной технологии в бытовых условиях, Известный концепт «Умный дом» позволяет повысить степень комфорта и автоматизации не только для людей с ограниченными возможностями, но и для детей и их родителей, и пожилых людей. Управления освещением, розетками, бытовыми приборами, медицинскими аппаратами, охранной системой, системами автоматического полива и уборки помещений - это далеко не все автоматизированные системы, контроль которых возможен посредством голосового управления.

1.4 Погрешности и проблемы распознавания

На текущий день любая технология распознавания речи не способна добиться 100% точности, оставляя за собой некоторый процент погрешности. Идеальному распознаванию мешает ряд факторов, устранить которые возможно в той или иной мере:

· Физические

· Математические

· Антропогенные

· Технические.

Одним из главных факторов, мешающих полноценной работе системы, является любой дополнительный шум. Человеческая речь находится примерно на одном уровне громкости с окружающим нас «белым» шумом, что так же затрудняет работу системы. Кроме того, шум может исходить из нескольких источников, может появляться от недостаточно экранированных электронных устройств самой системы, может быть даже частично заглушать человеческий голос (на промышленных предприятиях и т. п.), и даже являться речью другого человека, слова которого также должны быть изолированы от распознавания. Решениями данных проблем является использование более качественных микрофонов, с системами автоматического шумоподавления, проектирование архитектуры помещений с учётом акустического баланса, а также системы, состоящие из нескольких микрофонов, что позволит вычленять и отсекать лишний звуковые сигналы.

К математическим проблемам относится сложность обработки речевого сигнала в контексте других слов и морфем, повышения в геометрический прогрессия объёма обработки, при увеличении количества слов в словаре, а также ограничения при использовании того или иного алгоритма. Например, недостатками распространённого и популярного в системах распознавания алгоритма НММ (СММ) являются следующие особенности:

· Теоретические ограничения самого метода. НММ основан на свойстве Маркова, которое гласит, что вероятность нахождения в данном состоянии в данный момент времени t зависит только от состояния в момент времени t-1. Это не всегда верно в отношении голосовых сигналов, когда зависимости иногда распространяются на несколько состояний;

· Кадры фиксированной длины. Данное требование ограничивает возможности по выделению и извлечению элементов (предварительная обработка). В случае, если длина кадра динамически определяется по переднему краю, то возможность извлечь лучшее отображение существенно повышается;

· Применение метода проб и ошибок при выборе топологии модели. Результаты различных исследований показывают, что архитектура слева направо работает лучше, чем эргодическая. Однако, формального способа принятия решения об архитектуре до сих пор не существует. Отсутствует также и метод определения количества состояний и перестановок, необходимых для модели, наличия альтернативных путей прохождения через модель, универсальной топологии для всех моделей HMM;

· Количество параметров, необходимых для настройки HMM. Для простого, состоящего из четырех состояний HMM с пятью непрерывными каналами потребуется оценить в общей сложности 50 параметров. 40 параметров являются средними и среднеквадратическими отклонениями, которые сами по себе являются агрегированными значениями. В сумме количество необходимых параметров получается достаточно велико, что не позволяет его использовать на низкопроизводительных процессорах;

· Объем данных, необходимых для обучения HMM. В результате большого количества параметров, которые необходимо оценить в типичном наборе НММ, трудно получить большие данные по обучению. Иногда такие методы, как полунепрерывная НММ, кластеризация и интерполяция трифонов успешно используются для улучшения неблагоприятных последствий недостаточной подготовки. Несмотря на эти ограничения, они хорошо работают, когда применяются к определенным видам проблем распознавания речи.

Несмотря на вышеперечисленные недостатки, алгоритм скрытого моделирования Маркова остаётся оптимальным при использованиях в системах с небольшим ограниченным словарём (например, командных слов), благодаря своей универсальности и доступности.

К погрешностям антропогенного характера относится различные особенности человеческой речи. Несмотря на то, что постепенно системы, благодаря обучающим подборкам, становятся всё более универсальными и точность распознавания всё меньше зависит от пола, национальности, возраста и других характеристик человека, спонтанная речь трудно распознаётся из-за различных фальстартов, заиканий, покашливаний, смеха и нечленораздельных звуков (например, «кгхм», «ээээ», «ммм»). Такие «человеческие» особенности затрудняют работу самых точных алгоритмов, поскольку их на данный момент их невозможно точно отделить от остальной речи.

Наименьшую значимость имеют технические факторы, потому как постоянный рост вычислительных мощностей наряду с уменьшением габаритов, позволяет получать достаточную степень точности распознавания даже на не самых производительных смартфонах. Однако, современные системы ещё не способны обеспечить полноценное распознавание непрерывной речи с большим словарём без подключения к облачным сервисам.

Начиная с середины прошлого века, процент, верно, распознанных слов постоянно возрастал, миную различные стадии стагнации. Текущая ситуация такова, что от 100% результатов нас отделяет тонкая, но сложнорешаемая грань.

1.5 Анализ рынка продуктов распознавания голоса

На современном мировом рынке технология распознавания речи является одной из самых перспективных и стремительно развивающихся. На рост инвестиций в эту сферу частично сказался интерес военных, частично массовая популярность голосовых поисковиков, и в некоторой мере различные умные гаджеты. Самыми популярными направлениями, основываясь на данных Tractica, являются:

· Здравоохранение

· Голосовой поиск

· Управление Умным домом

· Безопасность и Аутентификация

Рисунок 2 - Доход от программного обеспечения распознавания речи

Рисунок 3 - Доли мирового рынка распознавания речи в 2017 году

Концепция «Умный дом» входит в более общую идею «Интеллектуального искусственного окружения». Эту концепцию Philips, технологическая компания и группа исследователей, впервые представили более 20 лет назад, и сегодня её можно считать конечной конвергенцией Интернета вещей (IoT) и искусственного интеллекта (AI). Это физическая среда может быть интегрирована с датчиками и интеллектуальными системами, которые знают людей и могут взаимодействовать с ними, постоянно адаптируясь к их потребностям. Ожидается, что к 2020 году количество IoT устройств превысит планку в 20 млрд, к тому же популярные сейчас интуитивно понятные голосовые ассистенты стремительно входят в жизнь всё большего числа людей, что в совокупности приведёт к желанию использовать голосовой интерфейс во всех областях, в том числе и в управление лифтом.

Самыми крупными игроками на мировом рынке распознавания считается Google, Amazon, Apple, Microsoft. Главным образом внимание сосредоточенно на системах с голосовой активацией, например персональных AI ассистентах в телефоне (Сortana, Siri). В российском сегменте лидирующие позиции занимает голосовой помощник «Алиса». Однако постепенно догоняя, раскрывается область и таких многопрофильных систем как Amazon Echo и Google Home, которые уже способны контролировать и взаимодействовать с достаточно обширным набором устройств, подключенных к Интернету. Посредством введение таких технологий в бытовую жизнь, маркетологи повышают степень привыкания к такому способу взаимодействия с девайсами, что уже привело к достаточному большому распространению голосоактивирующих систем среди пожилой части населения.

Несмотря на относительно невысокую стоимость подобных систем (65$ - Amazon Echo), они являются ограниченными и проприетарными системами, что не позволяет расширить спектр их возможностей и достичь более узкопрофильных целей. В этом случае на помощь приходит программное обеспечение (ПО) с открытым исходным кодом. Благодаря своей гибкости и независимости подобное ПО способно подстраиваться под более широкий спектр задач, позволяя применять технологию распознавания речи не только для управления домашними устройствами.

Самыми известными системами распознавания речи с открытом кодом являются HTK, CMU Sphinx (pocketsphinx), Kaldi, Julius, iAtros, RWTH ASR. Результаты проведенного анализа скорости и точности группой исследователей [X], можно увидеть в следующей таблице.

Таблица 1 - Результаты сравнения по точности и скорости

Система

WER, %

WRR, %

SF

HTK

19,8

80,2

1.4

CMU Sphinx

(pocketsphinx/sphinx4)

21.4/22.7

78.6/77.3

0.5/1

Kaldi

6.5

93.5

0.6

Julius

23.1

76.9

1.3

iAtros

16.1

83.9

2.1

RWTH ASR

15.5

84.5

3.8

Где, WER - Word Error Rate, (процент ошибок), WRR - Word Recognition Rate (процент распознанных слов), SF - Speed Factor (скорость распознавания). Рассмотрев данную таблицу, можно увидеть, что лидирующими системами в соотношении скорости-точности являются CMU Sphinx и Caldi. Важными для моего проекта преимуществами CMU Sphinx, в отличии от остальных систем, являются: