Статья: Проблемы производства судебной фоноскопической экспертизы в свете развития цифровых технологий

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Тем не менее следует отметить, что различные модификации речевых сигналов не должны «автоматически» делать фонограмму недостоверным доказательством: иной фонограммы с немодифицированным звуковым сигналом, которая содержит какую-либо информацию о речевом событии, может не существовать;

а вносимые в речевой сигнал изменения обладают определенным доказательственным значением, поскольку характеризуют отдельные свойства личности преступника и обстоятельства совершения преступления, поэтому необходимо по возможности дать криминалистическую оценку признаков, свидетельствующих об использовании компьютерно-технических средств для изменения голоса или об иных способах цифровой обработки фонограмм.

Фонограмма, каким-либо образом измененная, т.е. являющаяся неаутентичной, может в зависимости от предмета доказывания иметь доказательственное значение. Например, при решении вопроса о фальсификации доказательств (ст. 303 УК РФ) или если перед экспертом стоит задача, связанная с установлением факта имитации голоса и речи диктора (дела, связанные с расследованием телефонных мошенничеств, с участием пранкеров и т.п.), выявленные экспертом изменения и должная их криминалистическая оценка могут быть использованы в том числе и в доказывании.

В качестве некоторых рекомендаций по анализу фонограмм с предположением об изменении голоса при помощи различных программ можем предложить следующее:

«установить наличие/отсутствие признаков внесения изменений в фонограмму на основе положений методики технического исследования фонограмм. При этом важно установить источник указанных изменений, они могут быть следствием применения компьютерно-технических средств для изменения голоса, монтажа фонограммы, их появление может объясняться особенностями работы устройств, образующих канал записи фонограмм. Путем инструментального анализа установить, по возможности, конкретное программное средство, используемое злоумышленником (анализ бинарной структуры файла, в том числе служебной информации, анализ спектрального представления сигнала);

дать криминалистическую оценку выявленных изменений. Об использовании компьютерно-технических средств для изменения голоса могут свидетельствовать наличие в метаданных файла информации о применении конкретного программного обеспечения (которое используется именно для целей изменения голоса), несогласованность между лингвистическими и акустическими признаками, между обликовыми характеристиками диктора» Лебедева А. К. Судебно-экспертное исследование обликовых характеристик личности по фонограммам речи. С. 166..

Голосовой синтез

Совсем недавно была разработана технология голосового синтеза от Vera Voice. В основе данной технологии, как и иных современных технологий голосового синтеза, лежит «ансамбль из нейронных сетей», позволяющий скопировать любой голос и произнести им что угодно. Чтобы синтезировать голос, нейросети должны проанализировать несколько часов аудиозаписей обладателя голоса и оцифрованный текст, который он зачитывает. Правда, данный проект, разработанный компанией Screenlife Technologies Т. Бекмамбетова и командой проекта «Робот Вера», предлагает озвучивать тексты голосами знаменитостей, например голосом К. Собчак, В. Познера.

Технологии голосового синтеза уже никого не пугают. Еще несколько лет назад озвученная с помощью специальных программных алгоритмов речь слабо походила на речь человека, но в настоящее время, когда технологии голосового синтеза постоянно совершенствуются, часто возникают вопросы, является ли речь результатам голосового синтеза или была произнесена конкретным человеком в определенной коммуникативной ситуации.

Однако несмотря на благие цели создателей, подобные технологии могут использоваться злоумышленниками в противоправных целях, например для имитации речевого события, для того чтобы «подставить» какого-либо человека (по делам о получении/даче взятки, об изготовлении и распространении наркотических средств), для сокрытия своей личности (в случае совершения анонимных звонков с сообщениями о готовящихся террористических актах), при расследовании преступлений против свободы личности (похищение человека, незаконное лишение свободы).

Таким образом, экспертам-фоноскопистам необходимо быть готовыми к тому, что перед ними может быть поставлен вопрос, связанный с установлением факта использования технологий голосового синтеза для создания спорной фонограммы. В настоящее время методических подходов для решения этой задачи не имеется, а существуют лишь отдельные научные статьи. Для начала опишем алгоритм технологии голосового синтеза, чтобы определить возможные пути решения данной задачи.

Самые первые технологии голосового синтеза, которые, по сути, являлись просто монтажом фонограммы, основывались на цифровом «склеивании» заранее записанных слов и фраз. Подобный подход дает достаточно высокое качество речи и в наши дни является довольно распространенным (например, объявления на вокзалах, аэропортах, метро и т.д.). Тем не менее подобные системы могут воссоздавать крайне небольшой набор фраз.

Для того чтобы озвучивать большие объемы текстов, предлагают «методы конкатенации и метод полного синтеза речи по правилам, который, в свою очередь, может быть реализован несколькими способами»18. Метод конкатенации также основан на склеивании, но уже полуслогов (полуслог -- это сочетание целого согласного и половины гласного звука). Что касается конкатенационного метода синтеза речи, то, как указывают специалисты, он дает хорошие результаты при аккуратной обработке и сшивке фонем. Однако следует отметить, что при склеивании фонем, «в моменты состыковки фонем возникают “артефакты” (на слух воспринимаемые как резкое изменение амплитуды и/или частоты звука), связанные с недостаточными требованиями на гладкость сшивки»19.

Таким образом, при использовании подобных методов синтеза речи методами слуховой перцепции и акустико-инструментальными методами можно обнаружить некоторые признаки использования технологии голосового синтеза. Главное, эксперт должен обращать пристальное внимание на появление подобных артефактов на спектрограмме спорной фонограммы. При прослушивании фонограммы при проведении лингвистического анализа следует внимательно изучать особенности интонационных конструкций (ИК), так как ненормативное употребление ИК очень ярко проявляется при использовании подобного метода, а также иные просодические признаки существенно искажаются.

Технологии синтеза голоса у «Яндекса» реализует подход Unit Selection. Для подготовки к синтезу голоса также необходимо записать значительный объем речи диктора. Однако технология синтеза у «Яндекса» имеет существенное преимущество, для синтеза голоса здесь не склеивают фрагменты реальной речи, а обучают «акустическую модель на речи диктора». Для этого опять же используются нейронные сети, в результате, как указывают разработчики, «для любого текста речь получается плавной, а интонации естественными»20. И это действительно так, при прослушивании фонограмм-образцов, размещенных на ресурсе «Яндекса», действительно, проблемы, связанные с неправильной передачей интонационных конструкций русского языка, практически решены. Да, есть определенные «сломы» интонационного контура, но их уже значительно меньше, чем при реализации технологий простого «склеивания».

Безусловно, для успешной реализации голосового синтеза текст, который необходимо озвучить, следует подготовить.

Во-первых, следует раскрыть все сокращения, которые есть в тексте, числа и т.п. При озвучивании могут возникать проблемы с расстановкой ударений, с учетом того, что в русском языке ударение является свободным и может падать на любой слог. Кроме того, существуют слова омографы, если человек ставит ударение в зависимости от контекста, то системе это сделать гораздо сложнее.

Таким образом, алгоритм расставления знаков препинания в тексте для озвучивания аналогичен расстановке знаков препинания при составлении дословного содержания, т.е. в соответствии с синтагматическим членением высказываний. Для выражения интонации ставят вопросительные, восклицательные знаки. Технология голосового синтеза Яндекса предлагает пользователям возможности выбора эмоциональной окраски голоса. Как указывается разработчиками, для некоторых голосов «нейронная сеть обучалась на трех разных датасетах с репликами диктора, в которых фразы произносились с разной интонацией: радостной, раздраженной, нейтральной». Кроме того, разработчики Яндекса указывают, что при синтезе премиум-голосов перед стартом сервиса SpeechKit «оценивается весь текст целиком, а не отдельные предложения. Это позволяет получить значительно более уместные интонации, присущие речи живого человека».

В компании «Тинькофф» (технология голосового синтеза (Tacotron 2, Wavenet) сообщают о результатах оценивания качества синтезированного сигнала: по мнению людей, синтезированный голос похож на человеческий на 4.3 балла из 5. Кроме того, в ближайшее время здесь обещают введение функции «управление интонациями», что может существенно осложнить диагностику факта создания фонограммы путем голосового синтеза.

Технологии голосового синтеза действительно существенно могут осложнить производство судебно-экспертного фоноскопического исследования, особенно в части применения акустико-инструментальных методов анализа цифровых фонограмм. Как считает Г. Н. Зубов, «в результате такого синтеза речь разных людей (например, участников одного или нескольких разговоров, записанных в одних и тех же условиях) может звучать очень похоже, а спектрально-формантные характеристики могут быть близки до неразличения при использовании типовых, традиционных методов исследования» Зубов Г. Н. «Я не я, и голос не мой» : О возможностях фальсификации фонограмм с помощью современных технологий синтеза устной речи. Соответственно, следует совершенствовать методы акустико-инструментальной группы с учетом особенностей современных технологий голосового синтеза, иначе это может привести к серьезным ошибкам при решении задачи идентификации диктора.

Кроме того, как отмечает Г. Н. Зубов, «гораздо более серьезную угрозу для возможности обнаружения подделки представляют технологии синтеза, основанные на использовании искусственного интеллекта и моделей речевого тракта» Зубов Г. Н. Указ. соч., а, как мы писали выше, большинство современных технологий синтеза голоса работают именно с учетом возможностей искусственного интеллекта, нейросетей.

Таким образом, факт использования различных цифровых технологий для внесения изменений в фонограмму, для создания новой фонограммы не свидетельствует только о невозможности производства судебной фоноскопической экспертизы по поставленным вопросам. Современное общество стремится к цифровизации всех сфер жизнедеятельности, и не стоит бояться этих изменений, а необходимо говорить о разработке новых и совершенствовании существующих методических подходов к производству судебных фоноскопических экспертиз.

Библиография

1. Галяшина Е. И. Проблемы криминалистической диагностики фальсификации фонограмм, получаемых при проведении оперативно-розыскных мероприятий // Научная школа уголовного процесса и криминалистики Санкт- Петербургского государственного университета и современная юридическая наука. -- СПб., 2016. -- С. 334--357.

2. Галяшина Е. И. Современные проблемы экспертизы цифровых фонограмм // Современные проблемы цифровизации криминалистической и судебноэкспертной деятельности : материалы Научно-практической конференции с международным участием (г. Москва, 5 апреля 2019 г.). -- М. : РГ-Пресс, 2019 -- С. 54--61.

3. Галяшина Е. И. Судебное речеведение : учебник. -- М. : Норма ; Инфра-М, 2020. -- 320 с.

4. Зубов Г. Н. «Я не я, и голос не мой» : О возможностях фальсификации фонограмм с помощью современных технологий синтеза устной речи

5. Конт-Спонвиль А. Философский словарь. -- М., 2012.

6. Лебедева А. К. Особенности судебно-экспертного исследования голоса, измененного при помощи компьютерно-технических средств // Известия Тульского государственного университета. -- Экономические и юридические науки. -- 2016. -- № 3--2. -- С. 323--328.

7. Лебедева А. К. Судебно-экспертное исследование обликовых характеристик личности по фонограммам речи: правовые и методические аспекты : дис. ... канд. юрид. наук : 12.00.12. -- М., 2017. -- 213 с.

8. Лютова Д. А. Основные задачи и методы технологий распознавания говорящего по голосу // Вестник МГЛУ. -- 2010. -- № 592.

9. Никоноров С. А., Боголюбов А. Н. Вейвлет-анализ аудиосигналов и синтез речи // Ученые записки физического факультета Московского университета.