Дипломная работа: Анализ поведенческих особенностей ударения в русском языке в зависимости от морфемного состава слова

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам
На следующем этапе было проведено сравнение места ударения, выделенного программой, с местом ударения, определённом в золотом стандарте. В 9 случаях программа не справилась с постановкой ударения, приписав ударение согласному. Такие случаи были связаны с разными корнями в формах единственного и множественного числа (детей и ребёнок), а также с усечением основы в случаях морфем, указывающих на ударный суффикс слова (господ и господин, татар и татарин, замер и замереть). В 903 случаях, в частности, в 126 именах прилагательных, 628 существительных и 149 глаголах, ударение в словоформе было определено верно. В 409 случаях программа определила неправильное место ударения в словоформе. Такие случаи были проанализированы вручную, при этом для каждой словоформы была установлена причина, по которой позиция ударения оказалась неправильной.
Так, неправильное определение места ударение встретилось в 39 прилагательных. В 7 случаях ошибочная постановка ударения была связана с тем, что в слове присутствовала комбинация суффиксов, не рассмотренная в рамках теоретической части. В частности, слова с морфемами -ост-н- встретились 2 раза, но в них был выделен только суффикс -н-, а слова с морфемами -у-ющ- ? 5 раз, но в них не был распознан аффикс -. Случаи ошибочного определения места ударения вследствие неправильного выделения суффикса словоформы возникли в 11 случаях, самым частотным стал суффикс -н-, распознанный как -отн- в составе слов болотная, потное, плотная. Случаи нехарактерного поведения ударения встретились 21 раз (6 раз для морфемы -енн-, 5 раз для -ир-ова-нн- и по 2 раза для морфем -им-, -ущ- и -янн-).
У существительных встретилось 261 словоформ, в которых было ошибочно определено место ударения. В 16 случаях такое произошло вследствие неправильного выделения суффикса в именах собственных (-ин для Пушкин, Путин, Бабурин; -он для Элтон, Джексон, Леннон; -ень для Маккартни, неправильно лемматизированном как *Маккартень). В 4 случаях ошибочная позиция ударения вызвана комбинацией суффиксов, не все из которых были распознаны. Так, в слове бомбардировщик присутствуют морфемы -ард-ир-ов-щик, первые две из которых не были распознаны программой; в слове внутренности ? -енн-ост- ошибочно выделена цепочка -нн-ост-; в слове зондирование - не был выделен аффикс -ир-. Случаи неправильного выделения суффикса наиболее частотны, их количество составило 203 случая (неправильные разборы: -да в вода, -ир в Владимир, -ад в сад, -ба в труба, -ва в глава и др.). Нехарактерная позиция ударения была обнаружена в 31 случае морфем, в частности, *бабумшка, *девумшка, *матумшка, *молодумшка с самоударным морфом -ушка; *жамлование, *испомльзование, *исслемдование с самоударным морфом -ование и в ряде других. В семи случаях неправильное определение места ударения было связана с ошибочным определением начальной формы слова модулем pymorphy2, среди них: лесах и леса, неверье и неверие, поля и поль, полков и полок.
В 109 глаголах также ударение было определено неверно. Большая часть ошибок (78 случаев) связана с нехарактерным поведением морфемы: 26 случаев из них касаются сочетания -и-...-ся с ударением на суффиксе (но окомнчился, осмемлился, познакоммился и др.). 30 случаев ошибочного определения позиции ударения приходятся на случаи неправильного выделения суффикса в слове. Самый частотный случай (21 словоформ) связан с суффиксами -к-а-, когда корень слова оканчивался на сегмент : возникать, втекать, завтракать. Наконец, один случай приходился на случай омонимии: в золотом стандарте ударение в слове свемжей падает на первый слог, а система поставила ударение на втором (свежемй), но оба эти варианта являются допустимыми.
На следующем этапе было выбрано по 100 примеров из категорий с правильной и неправильной позициями ударения, а также из категории слов, где ударение поставлено не было. Создание такой выборки было необходимо для того, чтобы определить, в каких случаях ошибочная постановка ударения вызвана неправильно определённой морфемной структурой слова. Такая выборка включила в себя 65 имён существительных, 16 имён прилагательных и 19 глаголов для случаев с правильно определённым местом ударения; 67 имён существительных, 8 имён прилагательных и 25 глаголов для случаев с ошибочно определённой позицией ударения; 44 имени существительных, 19 имён прилагательных, 20 глаголов и 17 слов других частей речи для случаев, когда ударение определено не было. На основе данных был проведён анализ количества словоформ, в которых присутствуют или отсутствуют морфемы из списков, способные однозначно указать на ударение. Здесь стоит повторно отметить, что у существительных чрезвычайно высок процент слов, в которых конечный сегмент слова аналогичен по написанию с суффиксом, но полностью или частично входит в состав корня. При этом, такие слова в большинстве сохраняют тенденцию, проявляющуюся в словах с аналогичными суффиксами (ср.: комбамйн-ер и дизамйнер, в которых на позицию ударения влияет конечный сегмент -айнер; литр-амж и пилот-амж, багамж и колламж, где ударение определяет сегмент -аж). Таким образом, в случае правильного определения позиции морфемы нам не так важно, включает ли слово саму морфему или аналогичный ей сегмент, если он указывает на место ударения. Тем не менее, в Таблице 2 и при подсчете точности и полноты будут отдельно рассмотрены случаи, в которых ударение определено правильно вследствие наличия нужной морфемы, и случаи, когда такая морфема в слове отсутствует (т. е. слово заканчивается на аналогичный ей сегмент).
Таблица 2. Распределение случаев случайной выборки в соответствии с наличием или отсутствием морфем, однозначно указывающих на ударение, и правильностью постановки ударения.
однозначная

морфема есть

однозначной

морфемы нет

ударение определено

43

57

ударение не определено

31

69

ударение отсутствует

0

100

В Таблице 3 показаны характеристики, зависящие от наличия или отсутствия определённого места ударения и наличия морфем. Мы экстраполировали полученные данные (см. Таблицу 2) на подвыборке золотого стандарта, содержащей имена существительные, прилагательные и глаголы. Результаты отражены в Таблице 3. 9 случаев, в которых система обнаружила неправильную работу и поставила ударение на согласный звук, в таблице не представлены.
Таблица 3. Количество словоформ, в зависимости от наличия или отсутствия определённого места ударения и наличия морфем.

Ударение определено правильно

Ударение определено неправильно

Ударение не определено

Морфемный состав определён правильно

Морфемный состав определён неправильно

389

514

409

3211

В соответствии с данными, полученными в результате исследования, Accuracy (соотношение случаев правильно определённого ударения к подвыборке золотого стандарта, включающей имена существительные, прилагательные и глаголы) составила 20%. Полнота (соотношение случаев, когда программа поставила ударение, к общему объёму золотого стандарта) составила 25%.
По сравнению с другими системами для определения места ударения, разработанными для русского языка, например («Морфер», http://morpher.ru/accentizer/) и (Ponomareva и др., 2017), предложенный подход даёт не самый высокий результат. Тем не менее, он обладает рядом преимуществ, к примеру, обладает способностью не только указывать на место ударения в слове, но и объяснять закономерности, на основании которых было принято решении о месте падения ударения.
ЗАКЛЮЧЕНИЕ
В результате работы было проведено подробное теоретическое исследование и создана система, способная автоматически расставлять ударения в словах русского языка, обладающих рядом морфем, однозначно указывающих на позицию ударения.
В рамках исследования все цели и задачи были выполнены в полном объеме. Так, по материалам «Русской грамматики» были собраны полные списки морфем, встречающихся внутри трёх основных частей речи (именах существительных, прилагательных и глаголах). Для каждой из реализаций морфем была собрана информация о стратегиях поведения ударения в словах, в которых она содержится. Для каждой морфемы был проведён подробный анализ, включающий анализ поведения ударения со всеми её реализациями и сбор информации о том, может ли такая морфема однозначно указать на позицию ударения в слове. По результатам проведённого исследования была создана автоматическая система, способная в случае обнаружения в слове ряда морфем, однозначно выделить ударную гласную в слове.
Таким образом, это исследование позволило приблизиться к пониманию закономерностей поведения в русском языке в зависимости от морфемного состава слов. Кроме того, была структурирована и подробно описана информация по морфемам, способным однозначно указать на расположение ударения в слове. Подробная информация о поведении всех реализаций морфем содержится в таблицах, созданных в ходе исследования.
Дальнейшие исследования, направленные на усовершенствование морфемного подхода к постановке ударения, могут в первую очередь быть направлены на улучшение алгоритма разбиения словоформы на морфемы, поскольку ошибочные морфемные разборы значительно снижают качество работы системы. Также для улучшения качества работы может быть реализована обработка заимствований, неологизмов и имён собственных, которые характеризуются особыми стратегиями поведения ударения в них. Поиск методов, направленных на обнаружение мотивирующего слова, а также расширение списков анализируемых частей речи, позволит существенно увеличить полноту системы. Кроме того, в рамках морфемного метода могут проведены дополнительные исследования, направленные на изучение стратегий поведения ударения в словоформах с последовательностью суффиксов, а также исследования, направленные на анализ случаев вариативности в словах с определённым набором морфем, случаев переноса ударения на предлог и побочного ударения.
СПИСОК ЛИТЕРАТУРЫ:
1. Алексеевский, Липунова 2016 -- Д. А. Алексеевский, А. Е. Липунова. Автоматическое определение ударных позиций в словах русского языка по корпусу ошибок // Труды международного семинара «Диалог16» по компьютерной лингвистике и ее приложениям (электронный документ).
http://www.dialog-21.ru/media/3444/alexeyevskydalipunovaae.pdf. 2016.
2. Барбук 2013 -- С. Барбук.Некоторые особенности русского ударения // Мова і культура, 2013. Вып. 16, т. 5. С. 164-169.
3. Вольская, Коваль, Опарин, Погарева, Скрелин, Смирнова, Таланов 2005 -- Н. Вольская, А. Коваль, С. Опарин, Е. Погарева, П. Скрелин, Н. Смирнова, А. Таланов. Синтезатор русской речи по тексту нового поколения // Труды международного семинара «Диалог05» по компьютерной лингвистике и ее приложениям (электронный документ). http://www.dialog-21.ru/media/2431/volskayan.pdf. 2005.
4. Голев 1999 -- Голев Н. Д. Омофонический и омографический фонды современного русского языка часть 1. Общие вопросы. Лексические омофоны и омографы //Известия Алтайского государственного университета, 1999. №. 4.
5. Гришина, Зеленков, Орехов 2015 -- Е. А. Гришина, Ю. Г. Зеленков, Б. В. Орехов. Наивная поэзия в акцентологическом корпусе // Труды Института русского языка им. ВВ Виноградова, 2015. №. 6, С. 257-272.
6. Еськова 1994 -- Н. А. Еськова. Краткий словарь трудностей русского языка: Грамматические формы. Ударение. Около 1200 слов. М., 1994.
7. Зализняк 1974 -- А. А. Зализняк. Обратный словарь русского языка. М.: Советская энциклопедия, 1974.
8. Зализняк 1977 -- А. А. Зализняк. Грамматический словарь русского языка: Словоизменение. Ок. 100 000 слов. М.: Русский язык, 1977.
9. Зализняк 1985 -- А. А. Зализняк. От праславянской акцентуации к русской. М., 1985.
10. Зеленков, Зобнин, Маслов, Титов 2014 -- Ю. Г. Зеленков, А. И. Зобнин, М. Ю. Маслов, В. А. Титов. Илья Сегалович и развитие идей компьютерной лингвистики в Яндексе // Труды международного семинара «Диалог14» по компьютерной лингвистике и ее приложениям (электронный документ). http://www.dialog-21.ru/digests/dialog2014/materials/pdf/ZelenkovYuG.pdf. 2014.
11. Каленчук, Касаткина 1996 -- М Л. Каленчук, Р. Ф. Касаткина. Просодия слова и побочное ударение // Просодический строй русской речи. М., 1996.
12. Кодзасов 2009 -- С. В. Кодзасов. Исследования в области русской просодии. М.: Языки славянских культур, 2009.
13. Колесов 1972 -- В. В. Колесов. История русского ударения: Именная акцентуация в древнерусском языке. Ленинград: Издательство Санкт-Петербургского университета, 1972.
14. Крысин 2008 -- Л. П. Крысин (отв. ред.). Современный русский язык. Активные процессы на рубеже XX-XXI веков. М.: Языки славянских культур, 2008.
15. Лебедева 1986 -- Ю.Г. Лебедева. Звуки, ударение, интонация: Учеб. пособие по фонетике русского языка для иностранцев. М., 1986.
16. Лефельд 1987 -- В. Лефельд. Некоторые наблюдения над изменениями акцентной нормы современного русского языка // Revue des йtudes slaves, 1987. Т. 59, №. 3, С. 617-624.