Статья: Проблема формирования баз данных (на материале лексики подъязыка логистика)

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Проблема формирования баз данных (на материале лексики подъязыка "логистика")

О.И. Кузьмин

аспирант

кафедры прикладной и экспериментальной лингвистики

Института прикладной и математической лингвистики

Московского государственного лингвистического университета

Аннотация

В статье представлены краткая справка и характеристика частных случаев употребления лексических единиц подъязыка логистики, предложены способы улучшения качества автоматизированного перевода и разрешения возникающих семантических трудностей, а также рассмотрены способы формирования новых лингвистических баз данных и улучшения уже существующих. В этой связи разработка профессиональных словарей (глоссариев) поможет повысить степень точности перевода и избежать возможных ошибок.

Ключевые слова: большие данные; базы данных; искусственный интеллект; автоматизированный перевод; машинный перевод; подъязыки; логистика. лексический перевод автоматизированный

O.I. Kuzmin

Postgraduate Student

Department of Applied and Experimental Linguistics

Institute of Applied and Mathematical Linguistics Moscow State Linguistics University

THE PROBLEM OF DATABASES CREATION (based on the vocabulary of the sublanguage "logistics")

This article represents a brief reference and characteristics of particular cases of using the vocabulary of the sublanguage "logistics", suggests ways to improve the quality of automated translation and resolve emerging semantic difficulties. Moreover, it was studied the ways to form new linguistic databases and improve existing ones. In this regard, the development of professional dictionaries (glossaries) will help to increase the degree of translation accuracy and avoid possible errors.

Key words: Big Data; databases; artificial intelligence; automated translation; machine translation; sublanguages; logistics.

Введение

Несмотря на то, что определение "большие данные" (Big Data) появилось относительно недавно, история появления и развития данного понятия корнями уходит в глубокое прошлое. На протяжении веков особый интерес ученых представлял вопрос хранения, обработки и анализа информации. Примером этому могут послужить первые летописные источники (например, "Повесть временных лет"), а также античные библиотеки (Вавилонская и Александрийская), которые использовались для хранения больших объемов текстовой информации. Российская государственная библиотека, основанная в 1862 году и находящаяся в Москве, также может послужить прекрасной иллюстрацией базы данных [Володин 2002]. В рукописных и печатных источниках скрыта опасность утраты ценной информации вследствие вероятного пожара. К сожалению, так и были навсегда безвозвратно утеряны многие великие труды.

Технологический прогресс не стоял на месте, и после появления в XX веке первых ЭВМ и СУБД от американской компании IBM, а также Интернетка колоссально возросло количество мультиязычной текстовой информации. В связи с этим остро встали вопросы, связанные со сбором, хранением и анализом данных. С помощью современных цифровых технологий (в том числе облачных) многие письменные источники начали переводиться в цифровые. Так, Оксфордская библиотека (Oxford library), ранее существовавшая только в бумажном виде, была успешно оцифрована, как и многие другие российские и иностранные библиотеки. Цифровая информация сегодня хранится на огромных серверах (дата-центрах). Доступ к ней возможен из любой точки мира, где есть подключение к Интернету. Массивы цифровых текстовых данных начали использоваться для обучения алгоритмов систем машинного перевода с целью улучшения их качества. Таким образом, большие данные - это необходимый материал и основа для функционирования современных онлайн-переводчиков.

Однако такие преимущества современных технологий, как доступность информации и разнообразность цифровых источников, на которых обучаются системы машинного перевода, усложнили процессы межъязыковой трансформации текста предметных областей. В большей степени ошибки систем отчетливо проявляются именно при работе с профессиональными подъязыками. Согласно Л.Л. Нелюбину, "подъязык - это язык области знания, предметной области (язык математики, физики, военный язык, дипломатический язык и т п." [Нелюбин 2003]. Иными словами, для большей точности работы систем необходимо учитывать не только особенности каждого языка, но и подключать лексический материал конкретных предметных областей. Реализовать это в полной мере на данный момент невозможно из-за недостаточного описания лексических единиц подъязыков. Для разработки такого материала необходимы специализированные программные решения, основанные на базах данных, которые содержат мультиязычные лингвистические единицы подъязыков.

В ходе изучения особенностей, характерных для подъязыка логистики, были отобраны массивы мультиязычных текстов, содержащие ошибки машинного перевода с / на немецкий, английский и русский языки. Также был разработан специализированный глоссарий подъязыка логистики для последующего внедрения в системы CAT (Computer-aided translation). Актуальность темы обусловлена возрастающими объемами мультиязычной текстовой информации в Интернете, с одной стороны, и отсутствием программных подходов к переводу подъязыков, основанных на структуризации и классификации лингвистических единиц, - с другой. Для этого предлагается рассмотреть эффективность работы программных решений, подходящих для перевода текстов подъязыков. После тестирования программ и на основе выявленных ошибок был проведен анализ и выработаны определенные рекомендации по совершенствованию существующих систем автоматизированного перевода.

История больших данных

Если говорить о первом упоминании словосочетания большие данные, то оно датировано 2008 годом и связано с именем Клиффорда Линча, который был редактором журнала "Nature". В специальном выпуске журнала "Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?" он отметил резкий рост объемов и способов обработки информации, а также спрогнозировал возможный скачок от количества данных к качеству полученных результатов [Lynch 2008].

В 2010 году появились первые системы для решения задачи обработки и хранения информации. Крупнейшие мировые разработчики информационных технологий IBM, Oracle, Microsoft, Hewlett-Packard начали активно исследовать и развивать технологии, основанные на использовании "больших данных". 2011-2014 годы - этап перехода от теоретических исследований к практическим областям применения. В вузах появилась дисциплина "наука о данных", которая занимается вопросами аналитики, анализа данных, управлением информационными потоками. C 2015 году по настоящее время происходит развитие всех областей, связанных с искусственным интеллектом, его применением в повседневной жизни людей. Эти процессы происходят в непосредственной зависимости от увеличения объемов данных, методов их обработки и хранения. Вследствие повсеместного применения современных цифровых технологий в 2019 году в соответствии с Указом Президента РФ от 10.10.2019 года № 490 был взят курс на развитие информационных технологий, основанных на анализе больших данных, и повсеместное внедрение искусственного интеллекта до 2030 года. В прошлом году на конференции "Artificial Intelligence Journey" (AI Journey 2020) президент отметил, что развитие информационных технологий будет регулировать и определять дальнейшую судьбу человечества в ближайшие годы, а глобальная цифровая трансформация жизни общества является неизбежным процессом. Многие ученые и футурологи современности искренне верят в будущую синергию человека и машины, о чем публично заявляют в своих выступлениях [Kurzweil 1990].

Любая система имеет свои определенные характеристики, следовательно, они есть и у "больших данных". В процессе исследования было установлено правило VVV, которым должна обладать каждая система данных, претендующая на звание "Big Data". Первое - это объем (volume), который должен составлять более 150 ГБ в сутки. Второе - это скорость обновления (velocity): информация регулярно обновляется и обрабатывается в реальном времени с помощью специальных технологий, основанных на понимании принципов работы "больших данных". Третье - это разнообразие (variety): информация в массивах может иметь неоднородные форматы, быть структурированной частично, полностью и скапливаться бессистемно. Развитие современных систем дополняет данные требования еще двумя критериями: изменчивость (variability) - потоки данных могут иметь пики и спады, периодичность. Всплески неструктурированной информации сложны в управлении, требуют мощных технологий обработки. Значение данных (value) - информация может иметь разную сложность для восприятия и переработки, что затрудняет работу интеллектуальным системам. Задача машин - определить степень важности поступающей информации, чтобы быть в состоянии оперативно ее структурировать и расположить в порядке приоритетности.

В ходе многочисленных аналитических исследований было отмечено, что к 2019-2020 годам важность "больших данных" и работа с большими мультимодальными информационными массивами возросла кратно в сравнении с началом десятилетия. Также произошли процессы интеграции этих систем во все сферы экономики, культуры, политики, спорта и т. п. [Mayer-Schonberger, Cukier 2013].

Области применения больших данных и баз данных

С появлением новых технологий возник вопрос применения знаний в практической деятельности для разработки программ и сервисов, направленных на улучшение уровня жизни человека. В этой связи было предложено использовать большие данные как основу всех цифровых вычислительных процессов. Данный термин, несомненно, связан со стремительным ростом количества информации в Интернете и скоростью работы вычислительной техники как инструмента для ее обработки. И в этой связи, конечно, интересна семантическая сторона вопроса. C одной стороны, это потоки бессистемной информации, которая хранится на цифровых носителях. С другой - объемы настолько велики, что стандартные методы работы над информацией в данном случае не подходят. Поэтому необходимо внести коррективы в значение данного термина. Большие данные - это не просто случайный набор данных, а информация, связанная между собой некими общими характеристиками и собирательными свойствами. Для выявления закономерностей необходимы особые технологии поиска (инструменты) для обработки и манипулирования неструктированными данными [Franks, Davenport 2012]. Такие сервисы и технологии активно развиваются в последние годы в связи со стремительным распространением и использованием искусственного интеллекта по всему миру и возникновением спроса на новые цифровые технологии, которые умеют генерировать и своевременно предоставлять необходимую информацию по запросу [Chen et al. 2014].

Благодаря современным цифровым технологиям и вычислительным ресурсам большие данные начали активно применяться в статистическом переводе (Statistical machine translation - SMT). Появилась 138 возможность сопоставлять большие массивы мультиязычных текстовых данных, вследствие чего система обучалась выдавать более корректные результаты. С появлением нейросетевых технологий и глубокого обучения (deep learning), основанного на искусственных нейронных сетях, появилась возможность обучения программ без прямого участия человека. Вследствие этого были улучшены стабильность и точность работы, а также отмечен высокий уровень качества перевода. Однако при машинном переводе текстов, в которых содержатся лексические единицы, характерные исключительно для данной сферы употребления (профессионализмы), сразу же возникают ошибки, неточности и лексические искажения [Maucec, Donaj 2019].

При стандартном подходе к обработке информации и формированию баз данных используется простой набор правил. Такой алгоритм лежит в основе машинного перевода. Однако встречаются особые случаи, которые скорее являются исключениями и не могут быть очевидно интерпретированы автоматической программой. В этой связи базы данных являются хорошим инструментом для улучшения качества машинного перевода. Как и в случае с большими данными, термин "база данных" имеет множество субъективных интерпретаций, но не имеет четкого определения. Одно из определений звучит следующим образом: база данных - организованная в соответствии с определенными правилами и поддерживаемая в памяти компьютера совокупность данных, характеризующая актуальное состояние некоторой предметной области и используемая для удовлетворения информационных потребностей пользователей [Когаловский 2002]. В качестве примера базы данных можно привести популярный веб-сервис Reverso.Context URL: https://context.reverso.net.. Это онлайн-база данных для поиска частных случаев употребления лексических единиц в контексте. Несомненно, что использование таких сервисов помогает переводчику подобрать правильное значение слова, но стоит отметить тот факт, что базы данных не предлагают готовый вариант перевода, а содержат лишь справочную информацию. Конечно, большие базы данных являются подспорьем переводчику, но окончательные решения и ответственность за качество перевода всё равно остаются за человеком.

При работе с предметной областью предлагается формировать базы данных подъязыков, содержащие те понятия, которые приняты и употребительны в конкретной языковой среде. Разработанные базы данных должны также предлагать варианты перевода, чтобы редактор мог выбрать из уже имеющихся слов, а не переводить отдельные слова или словосочетания самостоятельно. Конечно, сбор материалов, на основе которых будет формироваться база данных, требует ресурса и достаточно много времени. Стоит отметить, что системы, основанные на базах данных, существуют уже сегодня. Многие переводчики в крупных компаниях и организациях используют систему TRADOS, которая предлагает возможность составления базы данных терминов и памяти переводов на основе единиц конкретного подъязыка. Естественно, что для поддержания системы в рабочем состоянии необходимо постоянно обновлять уже существующие лексические данные URL: sdltrados.com..

Для эффективного перевода подъязыков предлагается использовать гибридный способ: машинный перевод (который обучается на больших данных) в совокупности со специально разработанными базами данных (глоссарий и память переводов). Синергия обоих подходов позволит ликвидировать минусы и недостатки каждой из систем. Большие данные работают с текстовыми массивами и позволяют системам машинного перевода использовать широкое многообразие базовых языковых структур. Однако в процессе ознакомления с результатами перевода отмечаются семантические ошибки, связанные с неточностью выбора слова или словосочетания конкретного подъязыка. Для таких задач лучше подходят базы данных, которые отыскивают как фрагменты текстов, так и отдельные текстовые единицы.

Формирование баз данных подъязыка логистики

Недостаточное описание подъязыков предметных областей и отсутствие программных методов трансформации лексических единиц приводит к многочисленным неточностям при переводе. Так, например, в подъязыке логистики существуют как отдельные единицы, так и целые лексические пласты, которые имеют особые значения в данной предметной области. Такие единицы образуют семантическое ядро, используя которое, специалисты понимают друг друга, формируют общие представления и приходят к взаимопониманию по конкретным вопросам.

При использовании машинного перевода невозможно избежать смысловых ошибок в подъязыках. Для анализа и формирования базы данных были использованы специально отобранные тексты подъязыка логистики, содержащие уникальные лексические единицы и словосочетания, автоматический перевод которых затруднителен. На основе текстов был разработан уникальный глоссарий подъязыка логистики. Для исправления допущенных машинным переводом ошибок была использована система CAT, в которую был загружен разработанный глоссарий.

Из опыта работы с языковыми парами английский - немецкий в подъязыке логистики были выявлены специализированные термины, перевод которых крайне затруднителен. Одним из них является словосочетание электронные пломбы - прибор, который не только защищает груз, но и коммуницирует с грузоотправителем, перевозчиком и грузополучателем с помощью сотовой и спутниковой связи. Для английского языка эквивалентным вариантом перевода является слово e-seals. Машинный перевод этих слов предлагает крайне отдаленные от действительности варианты, так как его алгоритмы не предполагают поиск по данной предметной области и не могут подобрать правильный эквивалент перевода. Такая же ситуация наблюдается и в немецком языке. Эквивалентом словосочетания электронные пломбы является elektronische Verschlusse. Машинный перевод не в состоянии правильно подобрать необходимый эквивалент, а выбирает только самое частотное значение, которое встречалось в Интернете в сочетании со стоящими рядом словами. Вследствие этого происходит смысловое искажение целых фрагментов текста.