Статья: Проблема формирования баз данных (на материале лексики подъязыка логистика)

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Одним из примеров игнорирования автоматизированными системами семантических особенностей профессионализмов являются слова der Bahnverkehr и der Schienenverkehr. Принципиальной разницы в значениях нет, но они имеют особые оттенки смыслов. Так, die Schiene - рельс, а der Schienenverkehr - рельсовое движение (движение по рельсам) (https://www.wortbedeutung.info/Schienenverkehr.). В русском языке слова железная дорога и железнодорожный транспорт относятся к материалу изготовления рельсов, а не к самим рельсам или железнодорожному пути. Слово der Bahnverkehr имеет более широкое значение, которое включает в себя не только сам процесс движения состава, но и инфраструктуру и дополнительные факторы, влияющие на процесс железнодорожных грузоперевозок (https:// www.wortbedeutung.info/Bahnverkehr).

Часто пользователи автоматизированных систем сталкиваются с тем, что текст или отрывок содержит профессионализмы, которые используются только специалистами в данных областях, и процесс перевода из-за этого может стать крайне затруднительным. Слова подъязыка логистики не являются исключением. Например, словосочетания широкая колея, узкая колея, стандартная колея и ширина колеи в соответствующих контекстах приобретают особые значения. В немецком языке эти понятия означают Spurweite (ширина колеи) и Breitspur (широкая колея), в английском standart-gauge railway (стандартная колея) и track gauge (ширина колеи). Стандартная (европейская) колея шириной 1 435 мм применяется для транспортировки грузов железнодорожным транспортом по территории Европы. На территории России и стран СНГ используется широкая (русская) колея, которая равна 1 520 мм. В русскоязычной парадигме существует убеждение, что европейская колея 1 435 мм является узкой, так как в соотношении с русской расстояние между рельсами меньше, следовательно, на территории России такое название и закрепилось. В европейских странах, наоборот, узкая колея та, что меньше их стандарта в 1 435 мм. Конечно, такие особенности отражаются в подъязыке, и возникает разница в лексических единицах, основанных на представлениях, которые сложились на протяжении определенного времени в тех или иных странах.

Примерами профессионализмов, для которых необходимо формирование базы данных с учетом семантических значений, являются такие словосочетания, как двадцатифутовый эквивалент (ДФЭ), в английском - twenty-foot equivalent unit (TEU) - условная единица измерения вместимости грузовых транспортных средств (контейнеров). Накладная ЦИМ / СМГС, в английском - CIM / SMGS consignment note - специальная товарная накладная, регламентирующая правила перевозки по сетям железных дорог. Список таких слов более обширный, это указывает на необходимость создания баз данных профессиональной лексики подъязыков и специальных технологий, которые будут способны находить такие единицы в больших корпусах текста.

На сегодняшний день неразрешимой проблемой машинного перевода до сих пор остается полисемия [Ермолаева 2020]. Некоторые слова имеют несколько значений в зависимости от области употребления. Так, многозначным является слово мультимодальность, которое входит в несколько областей одновременно, но в то же время имеет в каждой различные значения. В логистике мультимодальная перевозка (multimodal transportation) означает перевозку грузов с помощью различных видов транспорта (автомобильная, морская, железнодорожная и т д.). В лингвистике слово мультимодальность имеет несколько другое значение, которое относится к каналам получения и передачи информации (графические, аудиальные и визуальные). Таким образом, как отдельное слово, так и целое словосочетание способно приобретать новое значение, и, несомненно, это должно быть каталогизировано и внесено в базу данных.

Заключение

Перевод текстов профессиональной отрасли знаний является даже более сложным процессом, чем перевод общеупотребительных лексических единиц, относящихся к бытовой сфере общения. Успешный перевод с подъязыка на подъязык предполагает не только знание языков и выполнение прямого перевода слова или предложения, но и владение профессиональной терминологий каждой отдельной отрасли. Недостаточная разработка лексических единиц подъязыков вызывает необходимость разработки программных продуктов совместно со специалистами каждой предметной области для подробного описания каждого подъязыка и заполнения существующих лакун [Eiger, Panasiuk 2005].

Подъязык "логистика" изобилует профессиональной терминологией, которая понятна только для людей, которые непосредственно связаны с данной тематикой. Машинный перевод при переводе корпусов текстов допускает определенное количество лексических ошибок и семантических неточностей, что приводит к смысловому искажению всего текста и снижению общего качества полученного перевода. Детальное формирование баз данных подъязыков (разработка глоссариев и использование памяти переводов) является на данный момент ключом к улучшению общего качества перевода, а также перевода подъязыков.

В рамках исследования был проведен сравнительно-сопоставительный анализ результатов машинного перевода и отредактированных CAT (система текстов с использованием специализированного глоссария. Также был разработан метод классификации ошибок, акцентировано внимание на частных случаях употребления лексических единиц подъязыков. Вычисленная частотность, с которой пользователю предлагалось заменить вариант машинного перевода на вариант, указанный в специализированном глоссарии, доказывает факт необходимости применения специально разработанных баз данных в автоматических системах для улучшения качества перевода.

Стоит отметить, что достижение высокого качества перевода без использования дополнительных программных надстроек, а также пред- и постредактирования переведенного текста на сегодняшний день невозможно [Оськина 2017]. В будущем онлайн-системы машинного перевода будут содержать дополнительный инструментарий, который можно будет адаптировать под каждого пользователя для перевода текста с любого подъязыка на любой подъязык.

Список литературы / references

1. Володин Б.Ф. Всемирная история библиотек. СПб. : Профессия, 2002. [Volodin, B. F. (2002). Vsemirnaya istoriya bibliotek (World Library History). St. Petersburg: Professiya. (in Russ.)].

2. Ермолаева А.А. Полисемия в контексте нейронного машинного перевода // Молодой ученый. 2020. № 32 (322). С. 175-177. [Yermolaeva, A. A. (2020). Polisemiya v kontekste neyronnogo mashinnogo perevoda (Polisemy in the context of neural mashine translation). Molodoy uchenyy, 32(322), 175-177. (in Russ.)].

3. Когаловский М.Р. Энциклопедия технологий баз данных. М. : Финансы и статистика, 2002. [Kogalovskiy, M. R. (2002). Entsiklopediya tekhnologiy baz dannykh (Encyclopedia of Database Technologies). Moscow: Finansy i statistika. (In Russ.)].

4. Нелюбин Л.Л. Толковый переводоведческий словарь. 3-е изд., перер. М. : Флинта: Наука. 2003. [Nelyubin, L. L. (2003). Tolkovyy perevodcheskiy slovar' (Explanatory translation dictionary). 3rd izd., pererab. Moscow: Flinta : Nauka. (In Russ.)].

5. Оськина К.А. Мультиязыковая типология семантем концепта "Новейшие информационные технологии": дис. ... канд. филол. наук. М., 2017. [O'skina

6. K. A. (2017). Mul'tiyazykovaya tipologiya semantem kontsepta "Noveyshiye informatsionnyye tekhnologii" (Multilingual typology of semantemes of the concept "The latest information technologies"): PhD in Philology. Moscow. (In Russ.)].

7. Lynch C. Big Data: how do your data grow? // Nature. 2008. Vol. 455. № 7209. P 28-29.

8. Kurzweil R. The Age of Intelligent Machines. Cambridge. MA: MIT Press, 1990. Mayer-Schonberger V., Cukier K. Big Data: A Revolution That Will Transform How We Live, Work and Think. Boston: Houghton Mifflin Harcourt, 2013.

9. Chen M. [et. al.]. Big Data. Related Technologies, Challenges, and Future Prospects / M. Chen, S. Mao, Y. Zhang, V. Leung C. DOI 10.1007/978-3-31906245-7. N Y : Springer International Publishing, 2014.

10. Franks B., Davenport T. Taming the Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics, John Wiley & Sons Limited. 2012.

11. Maucec M. S., Donaj G. Machine Translation and the Evaluation of Its Quality. 2019.

12. Eiger G. W., Panasiuk I. (2005): Konzepte und Lakunen: Zur Frage der Determinierung interkultureller Unterschiede. In: Igor Panasiuk, Hartmut Schroder (Hrsg.): Lakunen-Theorie: Ethnopsycholinguistische Aspekte der Sprach- und Kulturforschung (Im Druck).