Дипломная работа: Анализ поведенческих особенностей ударения в русском языке в зависимости от морфемного состава слова

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам
На следующем этапе в начальной форме слова производится поиск всех аффиксов, которые могут встречаться в части речи, выявленной на предыдущем этапе. Для реализации такого метода потребовалось создать списки всех морфем (префиксов и суффиксов) внутри каждой из трёх рассматриваемых частей речи. Поиск морфем в строке осуществляется путём поиска максимальной подстроки в строке. В случае префиксов такой поиск производится с начала строки, а для поиска суффиксов ? с конца строки. Поскольку сформированные списки содержат не только сами суффиксы, но и их возможные сочетания с флексиями, стемминг лексемы не производится. Информацию о таких сочетаниях стало возможным получить в результате самостоятельного исследования возможных грамматических характеристик для каждой из морфем. Внутри одной лексемы возможно встретить не только один суффикс, но комбинацию из нескольких суффиксов (брезгливость, высказывание). Несмотря на то, что информация о ряде суффиксальных сочетаний также даётся в рамках списков, многие из них остались не рассмотрены, и поведение ударения в случае комбинации из нескольких суффиксов нуждается в дополнительном изучении. При работе системы анализируется последний суффикс, входящий в состав лексемы. Выбор метода, применяющего поиск максимальной подстроки в строке, мотивирован тем, что для исследования требуется инструмент, позволяющий с очень высокой точностью произвести разделение на морфемы. В ходе создания системы были протестированы различные алгоритмы и модули, направленные на проведение морфемного анализа в слове, однако наибольшую эффективность для задачи определения ударения показал подход, при котором информация поступает из составленных списков морфем, поскольку они содержат наиболее полный состав морфемы для рассматриваемых частей речи и учитывают сочетаемость таких морфем с флексиями слов, в которых они могут встречаться. Здесь стоит также отметить, что ряд морфем может частично совпадать по написанию с другими морфемами данной части речи (ср.: -ук и -чук; -ит и -енит, -инит в именах существительных). Несмотря на то, что метод выбора максимальной подстроки в строке в ряде случаев может ошибочно определить морфему (например, выделение суффикса -овец в слове ловец, суффикса -лищ(е) в слове пепелище), в подавляющем большинстве случаев именно он способствует выделению верного аффикса в слове. Кроме того, не стоит забывать, что в рамках закона аналогии слова подчиняются определенным закономерностям вследствие фонетического сходства, благодаря чему даже при ошибочном включении части корня в состав суффикса высока вероятность, что ударение в таком слове также соответствует тенденции для слов с похожим конечным сегментом. Разумеется, подход, в рамках которого эти случаи разграничиваются и обрабатываются отдельно друг от друга, мог бы принести большие результаты, подробнее способы улучшения существующего алгоритма будут изложены в разделе «Пути улучшения алгоритма». Ошибки в выделении морфем также широко распространены среди заимствований и имён собственных, имеющих особые тенденции поведения ударения, ввиду чего в этих категориях слов могут встречаться ошибки при определении позиции ударения. Подробные случаи будут также изложены в разделе «Пути улучшения алгоритма».
На следующем этапе работы программа анализирует выделенные морфемы и производит анализ, направленный на выделение ударной позиции в изначальной словоформе. Информация о тактике поведения ударения в словоформах с той или иной морфемой хранится в виде правил, при которых учитывается и акцентный тип лексемы. Правила позволяют однозначно указать и выделить ударный слог слова.
На последнем этапе производится проверка, направленная на выявление исключений. В случае, если лексема содержится в списках исключений, постановка ударения в словоформе производится в соответствии с описанными правилами.
В результате работы система возвращает полученный на вход текст с расставленными ударениями в тех словах, где это оказалось возможным, при этом предоставляя информацию о том, на основе чего был сделан выбор об ударении (часть речи слова, выделенный суффикс и правило, по которому он падает на какой-либо из участков слова). Такая информация может оказаться полезной для студентов, изучающих русский язык как иностранный, а также в рамках других исследований, направленных на установление зависимостей поведения ударения.
Пользовательский интерфейс был реализован в виде сайта совместно в рамках проекта «sStress» (http://linghub.ru/stress/), где другим подходом к определению места ударения в тексте послужило создание нейронного акцентуатора (Ponomareva и др., 2017).
4.2. Пути улучшения алгоритма
Улучшения существующего метода возможны в шести различных направлениях:
? поиск подходов, направленных на установление мотивирующего слова;
? обработка иностранных слов, заимствований, топонимов и имён собственных;
? улучшение алгоритма разбиения слова на морфемы;
? исследования, направленные на изучение поведения ударения в словах с последовательностью суффиксов;
? расширение списка частей речи;
? рассмотрение случаев вариативного ударения в слове, а также случаев побочного ударения и переноса ударения на предлог.
Отсутствие возможности определить мотивирующее слово в словоформе ? проблема, с которой связана большая часть случаев неприменимости автоматического подхода к постановке ударения. Так, ударение у слов с одной и той же морфемой может отличаться лишь в зависимости от части речи или прочих характеристик мотивирующего слова. Также нередки случаи, когда ударение в слове падает на тот же слог, что и в мотивирующем слове. Таким образом, результаты дополнительных исследований, направленных на поиск мотивирующего слова для каждой конкретной лексемы, могут существенно увеличить полноту работы программы.
При работе системы наиболее часто возникают ошибки, связанные с именами собственными, в том числе топонимами, и заимствованиями. Ошибки такого рода возникают вследствие особых тенденций поведения ударения или ошибочного морфемного деления слова. Например, в существительных суффикс -он всегда выступает ударным, однако в случае имён собственных с таким же конечным сегментом, ударение может быть определено неправильно (ср.: Джон Лемннон и *Ленномн). Исследование, направленные на обнаружение тенденций поведения ударения в таких случаях, а также составление списков имён собственных и заимствований могли бы улучшить работу программы.
Как уже упоминалось выше, часть ошибок связана с неправильным разбиением слова на морфемы. Такое может происходить в случае, если существует две морфемы различной длины, пересекающихся по написанию (например, -ит и -енит). Ошибки могут возникать в тех случаях, когда корень заканчивается тем же сегментом, что и начало более длинного суффикса (селенит с суффиксом -ит) и когда корень целиком включает сегмент, аналогичный самому длинному суффиксу (зенит). Несмотря на то, что в большинстве случаев тенденции падения ударения в таких словах одинаковы (керченимт, селенимт, зенимт), и система во всех случаях выставляет правильное ударение, такие случаи было бы более корректно обрабатывать отдельно. Для того, чтобы это стало возможным, необходимо собрать список всех распространенных корней русского языка и при морфемном анализе слова проверять, существует ли в таком списке сегмент, оставшийся после удаления всех найденных префиксов, суффиксов и окончаний.
Также уже отмечалась необходимость более детального исследования случаев, когда в слове встречается последовательность из нескольких суффиксов. Исследование может направлено как на выделение и анализ всех употребимых сочетаний, так и, продолжая исследования А. А. Зализняка, на разбор поведения и доминантности каждого суффикса в окружении других морфем.
Кроме того, было бы полезно рассмотреть и учесть случаи поведения морфем в наречиях, причастиях и деепричастиях, а также случаи переноса ударения на предлог. Неоспоримым плюсом будет также определение и постановка побочного ударения в словах и анализ случаев слов, в которых сейчас возможны разные варианты постановки ударения.
5. АНАЛИЗ КАЧЕСТВА СИСТЕМЫ
5.1 Создание базы данных с золотым стандартом слов
Для тестирования работы системы необходимо было создание золотого стандарта: списка словоформ с расставленными ударениями. Такой золотой стандарт слов был собран по материалам акцентологического подкорпуса Национального корпуса русского языка, в золотой стандарт были включены также имена собственные и слова, недавно пришедшие в язык. После сбора данных они были обработаны, в частности, было принято решение оставить только те слова, которые содержат больше одного слога и несут на себе только одно ударение. В результате был создан список уникальных словоформ, включающий 5335 вхождений, среди которых 2548 имён существительных, 929 имён прилагательных и 1055 глаголов.
На основе слов золотого стандарта было проведено исследование статистических данных, касающихся тенденций в месте постановки ударения в словах с разным количеством слогов. Были проанализировано распределение слов с разным количеством слогов внутри золотого стандарта (см. таблицу 1), а также распределение позиции ударения в словах с разным количеством слогов (см. график 1 и 2).
Таблица 1. Распределение слов с разным количеством слогов

Кол-во слогов в слове

2

3

4

5

6

7

8

10

Кол-во вхождений

2255

1878

790

296

85

23

5

1

График 1. Распределение ударений (с начала слова) в словах с разным количеством слогов
График 2. Распределение ударений (с конца слова) в словах с разным количеством слогов
Подобное исследование было также проведено внутри каждой из частей речи. Для имён существительных данные представлены на графиках 3 и 4, для имён прилагательных ? на графиках 5 и 6, для глаголов ? на графиках 7 и 8.
График 3. Распределение ударений (с начала слова) в именах существительных с разным количеством слогов
График 4. Распределение ударений (с конца слова) в именах существительных с разным количеством слогов
График 5. Распределение ударений (с начала слова) в именах прилагательных с разным количеством слогов
График 6. Распределение ударений (с конца слова) в именах прилагательных с разным количеством слогов
График 7. Распределение ударений (с начала слова) в глаголах с разным количеством слогов
График 8. Распределение ударений (с начала слова) в глаголах с разным количеством слогов
Результаты проведенного исследования подтвердили две тенденции, изложенные в (Фунтова, 2010), а именно тенденцию ударения к тяготению к центру слову и предпочтением второй половины слова.
5.2 Анализ точности и полноты
Для анализа точности и полноты текста сначала было проанализировано качество распознавания частей речи модулем pymorhy2. Для проведения такого анализа были использованы данные словаря, содержащего в себе части речи для всех словоформ слова. Из 5335 случаев, входящих в золотой стандарт, часть речи была распознана для 3887 словоформ (73%), остальные 1448 словоформ содержали омонимичные разборы или отсутствовали в словаре. При поиске пересечений было выявлено 145 случаев, когда часть речи, распознанная модулем, не совпадала с частью речи, предложенной в словаре. Все эти случаи были проанализированы вручную, в ходе чего было обнаружено, что для большинства словоформ возможны два морфологических разбора (прилагательное или наречие для противоположно, прилагательное или компаратив для мудрее, причастие или краткое прилагательное для виден). Ошибочный морфологический разбор модулем pymorphy2 встретился только в слове капучино, которое было выделено как краткое прилагательное. В ряде случаев модуль pymorphy2 показал лучшие результаты, нежели словарно-ориентированный модуль. Например, в случае словоформ несет и позовет модуль pymorphy2 отнёс их к глаголам, а словарно-ориентированный модуль ? к именам существительным. Так же произошло со словоформами землею и огнем, которые модуль pymorphy2 причислил к именам существительным, а словарно-ориентированный модуль ? к глаголам. Таким образом, анализ качества работы модуля pymorphy2 показал, что он справляется с задачей определения части речи в подавляющем большинстве словоформ (99%).
На следующем этапе была проанализирована точность и полнота работы программы. Для этого системой были обработаны словоформы, входящие в золотой стандарт. В результате работы системы ударение не было проставлено в 4014 случаях из 5335 (таким образом, покрытие составило 25%), вследствие наличия в золотом стандарте слов, не относящихся к категориям имен существительных, прилагательных или глаголов, а также отсутствия в словоформах морфем, способных однозначно указать на ударение в слове. При рассмотрении словоформ золотого стандарта, относящихся только к этим трём частям речи, покрытие составило 29% (ударение было определено для 1321 случая из 4532). В частности, позиция ударения была установлена для 764 случаев имён прилагательных, 1656 случаев имён существительных и 791 случая глаголов.