Статья: Концепция разработки и создания цифрового академического словарного корпуса (АСК) русского языка (РЯ)

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

- агрегирование (объединение и укрупнение значений);

- децентрализация (распараллеливание запросов по распределенным на разных серверах лексическим базам данных);

- неопределенность (по возможности учет вероятностного наступления события, напр., за счет накопления статистики).

Кратко изложим алгоритм разработки и создания АСК.

1. Анализ современного состояния корпусной лингвистики (анализ существующих словарных источников и потребностей адресата - конечного пользователя АСК) [21]. Выбор источников и кластеризация предметной области. При выборе источников учитывается:

- наиболее точное соответствие лексического материала предметной области [8];

- технологическая насыщенность и важность источников.

Разработка многоуровневой структуры (макроструктура - композиция, внутренняя организация, принципы отбора источников; микроструктура и мультимедиоструктура) и параметров АСК [22]. Конструирование интерактивного отображения словарных статей АСК, то есть интерфейса (напр., краткий свернутый, развернутый с иллюстрациями, контекстами и иллюстрациями, расширенный - полный, многоязычный).

Эксплицирование метаязыка АСК [23; 24].

2. Аналитико-теоретическая разработка алфавитно-пермутационного, базового, генерального, предметного и др. словников (аск- рипторы, дескрипторы, доминанты, лексические единицы, одиночные слова (существительные, прилагательные, глаголы, наречия); именные словосочетания; лексически значимые компоненты сложных слов; сокращения слов и словосочетаний; реляторы; термины и терминологизмы; фразеология и паремия) [25].

В Генеральный словник входят вокабулы (заголовки словарных статей) с указанием, в каких словарях можно найти информацию о том или ином слове, а также включается информация не столько по электронным версиям первоисточников, которые загружены в словарную базу данных, так как такие вокабулы и так найдутся по запросу «целиком слово», сколько по словникам книжных (бумажных) словарей и словникам других словарных порталов. гизаурус словарь дигитализация русский

Идея Генерального словника РЯ восходит к научной программе «Машинный фонд русского языка (МФРЯ)» [13; 14], главный конструктор которого В.М. Андрющенко предполагал, что первым компонентом МФРЯ «является Генеральный словник русских словарей, который может быть создан как семейство однородных баз данных на основе Сводного словника, созданного в Словарном секторе Института русского языка АН СССР, и других «словнико -подобных» словарей, таких как «Грамматический словарь русского языка» А.А. Зализняка, Орфографический словарь и др. Объектом хранения в этой базе данных является вокабула, то есть слово, являющееся потенциальным заголовком какой-либо словарной статьи и именем определенного лексического значения, а его атрибутами - номера или идентификаторы значений, а значениями атрибутов - имена и входы баз данных, в которых данное слово или его формы зафиксированы в качестве значений атрибутов каких-либо объектов - словарных статей, текстов, грамматических правил, статистических сводок, научных статей и т. п. Очевидно, что многоаспектный поиск по заданным значениям атрибутов с соответствующими логическими условиями может давать ответы на такие запросы, как: «Найти перечень словарных статей определенных словарей, для которых имеется информация в терминологической базе данных», «Найти значения вокабулы, стилистически маркированные в словарях», «Найти все глаголы с дефектными парадигмами и сопоставить структуры их словарных статей» и т. п.» [12, с. 31]. «Важная часть словарной работы - отбор лексики в толковый словарь... Поскольку словники различных, в том числе и толковых, словарей русского языка не совпадают, представляется целесообразным создание справочника, в котором бы все словники наиболее значительных словарей были и объединены. Таким справочником является Сводный словник словарей русского языка. Сводный словник словарей русского языка может стать основой для Генерального словника в машинном фонде лексики, создаваемом на основе словарей» [26, с. 64-65].

3. Выявление семантических полей посредством определения кортежей условной эквивалентности [27]; использование фреймового подхода [27; 28] для реализации ги- зауруса (гипертекстового тезауруса [29]). Распределение лексических единиц по семантическим, тематическим, идеографическим полям (зонам, параметрам).

4. Установление парадигматических (способы выражения: аналитический, графический, лексикографический, табличный), иерархических, ассоциативных, грамматических, межъязыковых, семантических... связей [30]. Исследование денотативно-сигнификативных, синтагматических и экпрессив- но-прагматических характеристик лексических единиц.

5. Автоматизирование процесса создания словарных статей и лексико-систематических (тематические, категориальные, смешанные), пермутационных, иерархических и др. указателей и списков специальных категорий лексических единиц (ЛЕ) (общие категории: названия дисциплин и отраслей деятельности; предметы, материалы; методы, процессы, операции, явления; свойства, величины, параметры, характеристики; отношения, структуры, модели, законы, правила, абстрактные понятия) [31].

6. Автоматизация процессов построения АСК: а) частотный, статистический, компьютерный, математический анализ; б) коррекция словарных статей; в) сортировка словников; г) проверка взаимности и непротиворечивости ссылок; д) составление указателей; е) конвертация в требуемых форматах и кодировках [32]. Построение ги- зауруса с использованием компьютеров [33] позволяет автоматизировать следующие процессы построения гизауруса [34]: частотный анализ, коррекция статей, алфавитная сортировка словника, проверка взаимности и непротиворечивости ссылок, составление указателей, распечатка в требуемых формах [35]. Рефакторинг программного, методического, технического и организационных обеспечений АСК [36].

7. Экспертиза, регистрация, ввод АСК в научный оборот и технологическое внедрение [37].

При моделировании АСК предполагается учесть ряд обстоятельств.

1. Компьютерные словари (наследуя недостатки книжных словарей) имеют следующие особенности и проблемы:

- неполнота генерального словника и в целом словаря;

- трудности поддержания словаря в актуальном состоянии;

- требуют наличия специфичных программных и аппаратных средств. При этом одним из главных достоинств электронных версий словарей является то, что электронные словари многофункциональны, доступны и неуклонно становятся дешевле, чем их бумажные аналоги.

2. Словник и содержимое книжных словарей в процессе постепенного и длительного их издания требует значительного дополнения, расширения и уточнения. В период моделирования АСК будут появляться новые словари РЯ, а также множество аспектных, терминологических словарей и энциклопедий, которые могут существенно обогатить АСК.

3. Дифференциальный принцип отбора словников (нормативный, терминологический, аспектный и др.) для академических словарей, оказавшийся продуктивным при описании лексики в книжных версиях, для цифровой версии АСК не является принципиальным, так как в компьютерной форме лексическая база данных автоматически становится полной и зависит лишь от полноты введенных источников (текстов записей информантов, картотек и любых источников лексикографических материалов), что позволяет в компьютерной форме конструировать АСК в тезаурусной (наиболее полной) форме.

4. Порядок расположения фразеологизмов и устойчивых словосочетаний в академических словарях, как правило, подчинен избранному для лексики словаря алфавитному или гнездовому принципам, что затрудняет поиск нужного словосочетания не только в объемных вокабулах, но и в словаре или энциклопедии в целом. Именно поэтому в АСК предполагается реализовать несколько входов: авторский, алфавитный, библиографический, через веб-интерфейс, посредством генерального словника, географический и территориальный, гнездовой, источниковедческий, систематический и пермутационный, тематический, предметный, хронологический, а также по ключевым словам, и словосочетания и др., что безусловно по возможностям отличает АСК от книжных версий академических толковых словарей РЯ.

Среди областей применения АСК РЯ можно выделить следующие:

- составление, уточнение и оптимизация поисковых запросов;

- автоматическое выделение из текстов документов наиболее содержательных фрагментов, обеспечивающее пользователю возможность быстро просматривать массивы документов больших объемов;

- установление гипертекстовых ссылок (связей) между похожими документами и/или их фрагментами, что дает возможность пользователю, найдя один релевантный документ, запросить похожие на него документы;

- реферирование и аннотирование, редактирование текстов;

- повышение полноты и точности поиска в полнотекстовых БД на естественном языке;

- автоматизированное индексирование текстов, документов и запросов;

- анализ терминологического состава той или иной отрасли знания;

- терминологический контроль и нормализация лексики конкретной отрасли знания, обеспечение единого и формализованного представления информации в ИПС и БД/БЗ;

- эксплицитное, явное выражение парадигматических отношений, существующих между лексическими единицами.

Кроме этого, АСК РЯ может быть использован как средство:

- описания (инвентаризации) существующего уровня знаний в той или отрасли наук;

- описания истории развития специальных знаний в определенной предметной области;

- исследования особенностей развития отраслевых знаний, включая количественное исследование вклада отдельных ученых и научных школ в развитие общей теории с учетом как количества, так и новизны (в зависимости от статуса вводимого термина - основной термин или синоним уже существующего наименования понятия) и иерархического статуса понятий, вводимых соответствующим термином;

- систематизации терминологии (в тезаурусе, где система понятий эксплицитна, то есть явно выражена, иерархия понятий всегда представлена наглядно);

- стимулирования развития знаний (например, выявить пробелы (пропуски, лакуны), малоизученные понятия и «точки сгущения» в терминологических и понятийных системах, что может служить ориентиром в последующих исследованиях и позволит выявить аналогии подсистем понятий, а также определить тенденции выделения подсистем понятий и рубежи знаний, от которых возможно дальнейшее развитие данной области).

Академический словарный корпус русского языка, фактически являясь информационно-поисковой лексикографической системой, даст богатый материал для различного рода научных исследований не только в области русского языка, но и других современных языков, что в перспективе позволит на основе цифровых технологий при соответствующей классификации и систематизации словарей объединить лексикографические материалы, обеспечить их оперативный ввод в научный оборот с целью оптимизации научных исследований в современной лексикографии. В итоге АСК может стать гипертекстовым, облачным, реляционно-распределенным, агрегированным репозитарием словарей, справочников, глоссариев, лексиконов, энциклопедий русского языка. АСК, учитывая академические первоисточники, фактически являясь нормативным, преследует цели справочного характера, помогая пользователям находить справки о лексических единицах русского языка, ранее эксплицитно зафиксированных в академических толковых словарях.

Практическая значимость и ценность академического словарного корпуса (АСК) толковых словарей русского языка (РЯ) определяется следующими факторами и потенциальными возможностями: а) возможность в интерактивном режиме составлять, уточнять, тем самым оптимизировать поисковые запросы; б) автоматически/автоматизированно/интерактивно выделять из АСК РЯ наиболее содержательные фрагменты, выборки и проекции, обеспечивающее пользователю возможность быстро просматривать массивы больших объемов лексикографических материалов (в частности, по некоторым параметрам, зонам и полям словарных статей или их комбинациям); в) использовать установленные гипертекстовые ссылки (связи) между похожими (снятие омонимии и разделение многозначности) словарными статьями и/или их фрагментами, что дает возможность пользователю, найдя одну релевантную лексическую единицу, запросить похожие на неё лексемы; г) возможность реферирования и аннотирования, создания и редактирования словарных статей АСК РЯ (с фиксацией истории авторского комментирования и модификации) в интерактивном режиме в Интернете.

Список литературы

1. Лесников С.В. Академический словарный корпус (АСК) русского языка // Русский язык: исторические судьбы и современность: материалы 6 Междунар. конгр. исслед. рус. яз. М.: МГУ, 2019. С. 213214.

2. Лесников С.В. Академический словарный корпус (АСК) русского языка // Слово и словарь = Vocabulum et vocabularium: сб. науч. ст. Минск: Беларуская навука, 2019. Вып. 16. С. 111-114.

3. Лесников С.В. Архитектура и суть информационно-поискового корпуса академических словарей русского языка // Научный обозреватель. 2019. № 3 (99). С. 25-28. URL: https ://lsw.ru/! lesnikow/Lesnikov Nauchoboz3-2019-s25-28.htm (дата обращения: 22.03.2019).

4. Лесников С.В. Конструирование информационно-поискового свода академических словарей русского языка (Свод АСРЯ) // Лексический атлас русских народных говоров (Материалы и исследования). 2018. СПб.: ИЛИ РАН, 2018. С. 226-257.

5. Лесников С.В. Предпосылки конструирования и базовые первоисточники академического словарного корпуса русского языка // Наука и инновации: современные концепции: сб. науч. ст. по итогам работы Междунар. науч. форума. М.: Изд-во Инфинити, 2019. Т. 2. С. 76-83.

6. Лесников С.В. Формирование терминологического фонда русского языка // Наука сегодня: вызовы и решения: материалы Междунар. науч.-практ. конф. Вологда: ООО «Маркер», 2019. С. 98-102.

7. Булыгина Д.С., Лесников С.В. Алгоритм автоматизированного конструирования гипертекстового тезауруса (гизауруса) русского языка на основе оцифрованных словарей и справочников новых слов и значений для интерактивного лексикографического корпуса «Лексико-семантическая неология в русском языке начала XXI века» // Достижения вузовской науки 2019: сб. ст. 9 Междунар. науч.- исслед. конкурса: в 2 ч. Пенза: МЦНС «Наука и Просвещение», 2019. Ч. 1. С. 19-125.

8. Лесников С.В. Конструирование гипертекстового генерального свода лексики русского языка: русский гизаурус // Язык и культура: материалы Междунар. науч. конф. М.: ОЛЯ РАН, научн. журнал «Вопросы филологии», Ин-т иностранных языков, 2001. С. 280-281.

9. Лесников С.В. Гипертекстовый информационно-поисковый тезаурус (гизаурус) «Метаязык науки» (структура; математическое, лингвистическое и программное обеспечения; разделы лингвистика, математика, экономика) // Русский язык: исторические судьбы и современность: материалы 5 Междунар. конгр. исслед. рус. яз. М.: МГУ, 2014. С. 268-269.

10. Лесников С.В. Словарь русских словарей. М.: Азбуковник, 2002. 334 с.

11. КарауловЮ.Н. Активная грамматика и ассоциативно-вербальная сеть. М.: ИРЯ РАН, 1999. 180 с.