14
ФГБУН «Институт лингвистических исследований Российской академии наук»
Концепция разработки и создания цифрового академического словарного корпуса (АСК) русского языка (РЯ)
Сергей Владимирович Лесников
Аннотация
Рассмотрены академические толковые словари русского языка (РЯ) как основа академического (автоматизированного, архивного) словарного (системного) корпуса (конкорданса, кортежа, компедиума) (АСК) [1-6] РЯ, а также алгоритм, концепция и принципы разработки и создания АСК РЯ. АСК конструируется в форме ГИЗАУРУСА (гипертекстового тезауруса) [7; 8] в нелинейной форме с учетом реляционных, иерархических и сетевых парадигматических связей, что позволит посредством соответствующей классификации и систематизации, дигитализации и ретродигитизации академических толковых словарей РЯ структурировать и объединить лексикографические материалы, обеспечив тем самым их оперативный ввод в научный оборот с целью оптимизации научных исследований в современной лексикографии. Научная значимость АСК определяется необходимостью централизованного описания русской лексики, так как многочисленные разработки в исследуемой области, каждая в отдельности имеют собственные задачи и направления исследования, что не позволяет увидеть полную языковую картину РФ, которую может показать информационно-поисковый (ИП) АСК. Для этой цели предполагается смоделировать, разработать и создать работоспособный интерактивно пополняемый ИП АСК РЯ, позволяющий объединить в единую базу различные лексикографические источники.
Ключевые слова: база данных; гизаурус; гипертекстовый тезаурус; метаязык; искусственный интеллект; корпус; лексикография; лингвистика; поиск; русский язык; словарь; справочник; текст; энциклопедия
Abstract
The concept of developing and creating a digital academic vocabulary corpus (AVC) of the Russian language (RL)
Sergey V. Lesnikov. Institute for Linguistic Studies of the Russian Academy of Sciences We consider the academic explanatory dictionaries of the Russian language (RL) as the basis of academic (automated, archival) vocabulary (systematic) corpus (concordance, tuple, compendium) (AVC) [1-6] of the Russian language, as well as the algorithm, concept and principles of development and creation of academic vocabulary corpus of the Russian language. Academic vocabulary corpus is constructed in the form of HYSAURUS (hypertext thesaurus) [7; 8] in a nonlinear form, taking into account relational, hierarchical and network paradigmatic relations, which will allow to structurize and integrate lexicographic materials through suitable classification and systematization, digitalization and retrodigitization of academic explanatory dictionaries of the Russian language, thereby ensuring their prompt entry into scientific circulation with the aim of optimization scientific research in contemporary lexicography. Scientific significance of the academic vocabulary corpus is determined by the need for a centralized description of Russian vocabulary, since numerous developments in this area have their own tasks and direction of research, which does not allow to see the full linguistic view of the Russian Federation, which the information-retrieval academic vocabulary corpus can show. For this purpose, we suppose to simulate, develop and create a workable interactively replenished information-retrieval academic vocabulary corpus of the Russian language, allowing to combine various lexicographic sources into a single database.
Keywords: database; hysaurus; hypertext thesaurus; metalanguage; artificial intelligence; corpus; lexicography; linguistics; search; Russian language; dictionary; handbook; text; encyclopedia
На современном этапе развития русского языка необходима фиксация, описание и репрезентация академических словарей и энциклопедий русского языка, так как многие культурные реалии уходят в прошлое и становятся частью истории. В связи с глобальной индустриализацией и урбанизацией лексика уходит в прошлое и уносит за собой огромный массив истории русского народа. Необходимость создания академического словарного корпуса (АСК) РЯ для обобщающего исследования русской лексики как части исторической картины нашей страны очевидна. Кроме того, получение репрезентативного академического словарного корпуса позволит предоставить квалифицированный доступ к богатству материальной и духовной народной культуры как для специалистов, так и для всех социальных групп общества, включая студентов, аспирантов, магистрантов, школьников и всех интересующихся историей и культурой нашей страны.
Под ГИЗАУРУСом понимается гипертекстовая реляционная база данных с гиперссылками (цифровой идеографический словарь, отображающий семантические отношения между лексическими единицами и предназначенный для поиска слов по их значениям) [9; 10, с. 29]. Один из основателей и идеологов Машинного фонда русского языка (МФРЯ) Ю.Н. Караулов писал: «Гипертекст - или нелинейный текст, - такая организация записи отдельных отрывков, фрагментов множества текстов (контекстов), которая позволяет комбинировать их в том или ином порядке, основываясь на задаваемых заранее переменных связях между ними, с целью получения каждый раз разных линейных последовательностей (текстов)» [11, с. 154].
При этом Академический словарно-грамматический фонд (АСГФ) «должен состоять из нескольких подфондов, число которых не следует заранее ограничивать. Одним из таких подфондов станет свод академических словарей - наиважнейших источников зафиксированных на сегодняшний день знаний о русском языке. Такой свод должен образовать однородное семейство баз данных, в пределах которого каждый из словарей продолжал бы существование в качестве отдельной базы данных и в то же время был бы связан средствами СУБД и номенклатурой своих составляющих со всеми другими словарями. Этот объединенный словарь мог бы не только выполнять справочные функции, но и быть источником нового систематического изучения лексики» [12, с. 32]. МФ РЯ [13] формировался в виде нескольких систем комплексной автоматизации лингвистических исследований и предусматривал «накопление на машинных носителях всего лексического богатства русского языка, создание фонда лингвистических алгоритмов и программ, фонда полностью завершенных систем автоматического анализа и синтеза русского текста, нескольких информационно-справочных систем по языкознанию» [14, с. 8].
Л.В. Щерба утверждал, что в основе словарей академического типа «лежит единое (реальное) языковое сознание определенного человеческого коллектива в определенный момент времени» [15, с. 266-267] и словарь академического типа рассматривал как нормативный, описывающий лексическую систему свременного языка, то есть в нем не должно быть фактов, противоречащих современному употреблению: «к нормативному (или академическому) словарю обращаются для самопроверки, а иногда и для нахождения нужного в данном контексте слова» [15, с. 267].
«Словарь должен быть достаточно полным, включающим все богатство современного русского литературного языка. Словарь должен быть историческим... Словарь должен дать всестороннюю семантическую, стилистическую и грамматическую характеристику слов: правописания, всего многообразия значений, особенностей фразеологического и стилистического употребления слов, образующую роль слова в группах родственных слов. В научном отношении Академический Словарь русского языка должен представлять собою такой источник, на основе которого в дальнейшем мог бы быть создан ряд малых словарей-справочников разного типа. Полный охват Академическим Словарем всех слов русского языка оправдывает его многотомность., но мы не должны бояться такого объема издания, так как по своей научной значимости Словарь в этом случае будет таким фундаментальным документом, в котором будет отражена история развития русского языка за 200 лет и зафиксировано полностью все богатство содержания современного русского литературного языка» Проект словаря современного русского литературного языка. Москва; Ленинград: АН СССР, 1938 . «В Словарь включается лексика русского литературного языка от эпохи Пушкина до наших дней. Поскольку задача Словаря - охватить словарное богатство русского литературного языка указанного времени, в него включаются как устойчивый, так и подвижный словарный состав. К последнему относятся устаревшие теперь слова, но бывшие употребительными в тот или иной период за охватываемую Словарем эпоху, а также слова, вновь появившиеся и вошедшие в употребление в литературном языке. Включение в Словарь устаревшей лексики, стоящей вне пределов словарных норм современного литературного языка, но употреблявшейся в литературном языке XIX и начала XX века, прежде всего, диктуется тем, что русская классическая литература является неотъемлемым достоянием современной культуры, читается и изучается широкими массами населения.
Помещение в Словаре новых слов совершенно необходимо в связи с бурным развитием. науки и техники, промышленности и сельского хозяйства и т. д., находящим свое отражение в непрерывном обогащении лексики современного литературного языка.
Новые слова, получающие общелитературное значение, нуждаются в филологическом объяснении и регистрации в академическом толковом словаре»2 Инструкция для составления «Словаря совре-. менного русского литературного языка» (в пятнадцати С. 3-4.томах). Москва; Ленинград: АН СССР, 1958. С. 10..
«Академический словарь, как и любой словарь - это вид информационного справочного издания. Не случайно словарь, переведенный на ЭВМ, при наличии комплекса программ быстро превращается в автоматизированную информационно-справочную систему.
И в этом отношении академический словарь представляет собой вторичный текст, вторичный документ по отношению к своему первичному объекту - текстам. Тексты первичны, словарь вторичен.
По самой своей специфике толковый академический словарь - это многогранное и, главное, разноаспектное, полипараметри- ческое описание языковых фактов текстов.
Слово в языке, слово в его употреблении и в текстах описывается в академическом словаре исходя из самых разных лингвистических дисциплин (лексикология, грамматика, стилистика, литературоведение), а иногда и с разных исследовательских позиций. Однако именно в этом и состоит главное достоинство такого словаря, таким он и должен быть. Любой алфавитный академический словарь - это своеобразная многосторонняя лингвистическая энциклопедия слова.
При этом и в зарубежной лексикографии наблюдается вполне закономерная тенденция к увеличению числа параметров описания слова в словаре; и это понятно - чем больше параметров, тем шире информационный диапазон словаря и круг потребителей самого словаря» [16, с. 73].
В качестве основы АСК РЯ предполагается использовать оцифрованные академические толковые словари РЯ, изданные Императорской АН, АН СССР, РАН (315 томов, выпусков, частей) (подробнее см. [17]). Здесь самые значительные и объемные: Словарь русского языка (1891-1937, 53 вып.); БАС1 Словарь современного русского литературного языка (1948-1965, 18 тт.); БАС2 (19911994, 6 тт.); БАС3 (2004-2017, 24 тт.); СРНГ Словарь русских народных говоров (19652018, 51 вып.) [18]; Словарь русского языка XI-XVII (1975-2015, 30 вып.); Новые слова и значения (1977-2014, 24 тт.) [19]; Словарь русского языка XVIII века (1984-2013, 20 вып.).
Основной задачей создания академического словарного корпуса русского языка на основе академических толковых словарей является развернутое описание употребления русской лексики, а также показ лексического и семантического богатства русского языка во всем его многообразии за последние несколько веков, что, безусловно, будет способствовать повышению культуры в русской речи не только в нашей стране, но и во всем мире, что налагает особую ответственность на авторов-составителей и редакторов АСК РЯ на отбор академических толковых словарей РЯ (изданных Императорской АН, АН СССР, РАН), и при этом должен быть безупречным: язык толкований значений слов, иллюстраций, фразеологизмов и речений; отбор цитатного материала, показ сочетаний слов и т. д.
В основе концепции (определяющей цель и содержание) разработки и создания АСК лежат следующие принципы:
1) при отборе лексикографического материала - максимально полный охват слов и выражений и их значений из разнообразных корпусов словарей и текстов с использованием современных информационных ресурсов;
2) на уровне макроструктуры АСК - те- заурусный, тематический, идеографический и концептный принципы систематизации материалов по категориям, разделам и рубрикам;
3) на уровне микроструктуры АСК - расширенные зоны: вокабулы (заглавного слова, лемм, вариантов лексических единиц); значения (дефиниции, изъяснения, интерпретации) и полисемии (многозначности, оттенков значения, переносных значений, отсылочных значений); комментариев и иллюстраций семантики лексических единиц русского языка.
Концепция АСК предполагает гипертекстовое, интегральное, всестороннее, единообразное и кумулятивное описание и представление лексических единиц русского языка.
В основе проекта разработки и создания АСК лежит идея комплексного многоаспектного лексикографического описания системы русского языка, включающей предметный, географический, грамматический, исторический, источниковедческий, прагматический, семантический, стилистический, фонетический, этимологический и другие аспекты и отражающей реальную лексико-грамматическую структуру лексических единиц во всем многообразии.
При формировании АСК выдерживаются следующие принципы:
- нормативность, системность [20] и интегральность;
- актуальность, проверяемость и реальность источников лексических единиц;
- а) функциональность (совместное рассмотрение структуры и системы многоаспектного поиска с приоритетом функций над структурой);
- целенаправленность с выделением глобальной цели (оптимальность подсистем не является оптимумом для системы поиска);
- единство (совместное рассмотрение системы как целого и как совокупности частей; синхрония, диахрония и панхрония) и единообразие;
- развитие (учет изменяемости системы, ее способности к развитию, накапливанию информации с учетом динамики окружающей среды, напр., использование статистики пользовательских запросов и новых лексикографических источников);
- иерархичность (учет использования соподчинения и ранжирования частей, напр., систематизация по тематическому, хронологическому и частотному параметрам) и структурность (напр., структурные уровни языка: графический морфологический, семантический, синтаксический, фонетический, этимологический);