Помимо правил, касающихся морфем и статистической информации в слове, в рамках правилового подхода могут быть также использованы фонетические законы, согласно которым безударный звук в слове редуцируется и произносится менее отчётливо, а, следовательно, вероятность допустить орфографическую ошибку в безударной гласной намного выше, чем в ударной. К примеру, в слове определемние на письме возможно встретить ошибочное написание *апридилемние, но практически никогда (за исключением опечаток в слове) - *определимние. Описанный подход применим для расстановки ударений только в том случае, когда программа на вход получает большой объём текста, поскольку в данном случае информация о позициях безударных гласных для каждой словоформы может быть получена только в ходе обработки текста. Подробнее об исследовании, основанном на таком подходе, можно прочитать в (Липунова, 2015).
Рассмотрим также случай, когда наравне с правиловым применяется словарный подход. Словари, в том числе орфоэпические, часто хранят информацию лишь о начальной форме слова, поэтому для корректной работы программы на всех грамматических формах необходимо составить базу данных с этими формами и информацией о расположении ударения в них. Такая база данных может быть составлена вручную или автоматически, если в качестве дополнительного инструмента использовать информацию об их акцентном типе. Но в случае одновременного применения правилового и словарного подходов такая база данных может и не понадобиться. К примеру, выше упоминалось, что для существительных среднего рода действует закономерность: в случае, если ударение в начальной форме наосновное, в форме множественного числа оно будет падать на флексию (мемсто ? местам), в обратном случае - на основу (селом ? сёла). Чтобы определить место расположения ударения в словах такого типа, необходимо:
? использовав дополнительный лингвистический модуль, определить часть речи и грамматические характеристики слова и установить начальную форму слова;
? обратиться к словарю для определения места расположения ударения в начальной форме этого слова;
? произвести стемминг для определения того, куда падает ударение (на основу или на флексию);
? используя полученную информацию о грамматической форме слова, поставить в нём ударение в зависимости от того, куда падает ударение в начальной форме.
Разумеется, подобное правило может быть применено только к случаям, когда слово является существительным среднего рода. Ударение в словах других родов или принадлежащих иным частям речи распознано не будет. Даже при применении более чем одной закономерности практически невозможна ситуация, при которой будет покрыт весь объём слов, поскольку, как уже говорилось выше, в настоящее время отсутствует стройная система правил, описывающая все случаи поведения ударения. Также не стоит исключать и случаи, в которых закономерность может нарушаться, такие ситуации типичны и распространены вследствие изменения языковых норм. Таким образом, применение такого подхода может не давать высокой полноты и точности, но одинаково хорошо работает на всех словах русского языка вне зависимости от того, занесены ли они в словари. Также правиловый подход помогает объяснить пользователю закономерность, по которой ударение может быть поставлено в одном из слов, что может быть использовано в рамках различных исследовательских задач или при изучении русского языка как иностранного.
Суммируя вышесказанное, становится понятно, что у подхода, основанного исключительно на правилах, есть свои преимущества и недостатки. В частности, правиловый подход оправдан при исследовательских задачах, в рамки которых входит выявить эффективность применения подобного метода. С точки зрения практической пользы наиболее эффективной покажет себя программа, основанная на базе данных, но включающая в себя элементы правилового подхода для слов, которые не входят в такую базу. Одним из примеров подобных программ является вышеупомянутая система синтеза речи «Оратор», которая использует правиловый подход и статистические данные для выявления места ударения в несловарных словах.
Большинство систем синтеза речи при нахождении слов, не найденных в базах данных или словарях, определяет место ударения в слове по формуле (n+1)/2, где n - это количество слогов в слове. По этой формуле ударение в незнакомых словах обычно падает на середину слова в случае нечётного количества слогов, а в случае чётного количества слогов оно падает на серединный слог, который ближе к началу слова. Такой алгоритм основан на грубых статистических данных и нередки случаи, когда ударение, поставленное по такому правилу, ошибочно падает не на ударный слог (особенно частотна такая ситуация в случае сложных слов). Система синтеза речи «Оратор», когда-то тоже использовавшая эту формулу, разработала улучшенный алгоритм, позволяющий с большей степенью точности определять ударение в слове. Улучшенный алгоритм состоит из следующих шагов:
1. В составе слова находятся стандартные префиксы, являющиеся всегда безударными;
2. В составе слова ищутся суффиксы, которые притягивают на себя ударение (-ованн-, -енок-), а также суффиксы, которые всегда выступают безударными (-шик-, -ыва-);
3. В случае, если в слове обнаружено два корня, анализируется вторая часть сложного слова, поскольку часто в таких случаях она является безударной (-способный, -видный);
4. В конечном сегменте слова ищутся стандартные окончания неизменяемых слов, которые также могут выступать безударными;
5. В тех случаях, когда алгоритм не выявил в слове ни один из перечисленных элементов, программа устанавливает ударение на последней гласной основы.
Кроме того, программа способна распознать омонимичные формы и снять омонимию, используя информацию о левом и правом контексте слова, и на основе этой информации принять решение о месте ударения. В первую очередь контекст анализируется на предмет слов, согласованных по роду, числу и падежу со словом, в котором необходимо снять омонимию и выставить ударение. Такой метод позволяет обрабатывать случаи частеречной омонимии. Так, в словосочетании «простой метод» слово простой согласовано с следующим за ним существительным, а, следовательно, является прилагательным (ср.: простой метод - простой поездов). В случае, когда необходимо снять омонимию внутри одной части речи, используется система анализа дальнего контекста, при которой учитывается сочетаемость разных слов в предложении и на основе этой информации делается выбор в пользу того или иного значения омонима. Например, в случаях, когда внутри одного предложения присутствуют слова «стоит» и наименование любой денежной единицы, наиболее вероятен выбор ударения на первый слог: «стомит», а не «стоимт».
Подробнее изучить то, как устроена система «Оратор» можно в статьях (Вольская и др., 2005) и (Хомицевич и др., 2008).
Мы рассмотрели словарный и правиловый подходы, теперь остановимся на подходе с машинным обучением, применяемым для выбора места ударения. Для того, чтобы обучить систему расставлять ударения методом машинного обучения необходимо собрать список признаков, на которых система пройдёт обучение. Это могут быть любые статистические данные на достаточно объёмной выборке: ударные слоги в различных словах, порядковый номер ударного слога, длина слова, морфема, на которую падает ударение, и др. Подход, включающий машинное обучение, при правильном выборе признаков и метода обучения способен дать очень хорошие результаты. На настоящий момент очень многие системы пользуются машинным обучением для решения задачи детекции места ударения в слове. В качестве примера систем, в рамках которых был реализован такой подход, можно привести статьи (Гришина и др., 2015), (Зеленков и др., 2014), (Ponomareva и др., 2017).
2.2.2. Практические реализации расстановки ударений в других языках
Так же, как и в русском языке, для определения ударения в других языках применяются подходы, основывающиеся на словарях, правилах и машинном обучении. В статье «Automatic assignment of lexical stress in Italian» (Martin, 1989) автор описывает устройство системы ударений в итальянском языке, в котором ударение может падать на одну из последних четырёх гласных в случае имён существительных, прилагательных, местоимений и наречий, и на одну из последних шести - в случае глаголов. Автор упоминает предыдущие исследования в области акцентологии, в ходе которых было установлено, что ударение в итальянском языке коррелирует с структурой слова фонетически, фонологически и морфологически. С точки зрения морфемного подхода к определению ударения итальянский напоминает русский язык, поскольку ударение в нём разноместно, и, так же, как и в русском, в нём выделяется определенный набор морфем, которые всегда притягивают ударение или же, наоборот, всегда безударны. В частности, префиксы в итальянском безударны всегда; корни, суффиксы и флексии могут быть ударны или безударны (в зависимости от употребляемой морфемы), а в случае падения ударения на корень ударным будет последний или предпоследний его слог.
Программа, описанная в статье, основана на правилах и вероятностях того, что определённые морфемы в слове окажутся ударными. Для корректной работы программы вручную были собраны списки морфем (60.000 вхождений, включая корни слов) и информация о поведении ударения в них. В ходе работы применялись дополнительные модули, позволяющие установить начальную форму слова, определить его грамматические характеристики, произвести морфемный разбор и на основе информации из базы данных определить, какая из гласных слова с большей вероятностью окажется ударной. В случае нахождения омонимичных словоформ система в выдаче приводит все возможные разборы и коннотации словоформы.
На примере этого исследования мы видим, что зависимость ударения от морфемного состава слова характерна не только для русского языка, но встречается и в других языках.
Также в других языках широко распространен и подход, включающий в себя методы машинного обучения. Список признаков для румынского, словенского и английского языков, выбранные методы машинного обучения и результаты можно найти в исследованиях (Ciobanu, Dinu, Dinu, 2014), (Gams, 2002) и (Pearson, 2000).
3. МОРФЕМНЫЙ ПОДХОД К ПОСТАНОВКЕ УДАРЕНИЯ
В этой главе представлен морфемный подход к определению ударения в слове. В первую очередь здесь описывается теоретическая база исследования, в которую входят два масштабных труда: «От праславянской акцентуации к русской» А. А. Зализняка и «Русская грамматика» (Грамматика, 1980), и приводится информация об акцентных типах частей речи, которая необходима для определения места ударения в косвенных падежах. Также подробно рассматриваются случаи, в которых при применении морфемного подхода становится возможным определить место ударения в слове, а также те случаи, в которых применение подхода не приносит значительных результатов. В последнем разделе приводится полный анализ материала, собранного по результатам теоретической части исследования.
3.1 Теоретическая база исследования
Как уже неоднократно отмечалось выше, в языковой системе русского языка существуют закономерности, указывающие на зависимость ударения от морфемного состава слова. Наиболее комплексно система таких зависимостей разобрана в двух трудах, которые и легли в основу данного исследования: «От праславянской акцентуации к русской» (Зализняк, 1985) и «Русская грамматика» (Грамматика, 1980).
В книге «От праславянской акцентуации к русской» автор описывает систему ударений, сложившуюся в современном русском языке. Особое внимание он уделяет аффиксам, к которым предлагает применять технику акцентных маркировок, способных указать на место расположения ударения в рамках произвольной словоформы. Несмотря на то, что подобная техника определения места ударения намного менее действенна для современного русского языка, нежели для древнерусского и старославянского языков, обладавших более чёткой системой языковых правил, с помощью неё всё же можно проследить ряд акцентных зависимостей в современной языковой системе. А. А. Зализняк предлагает следующую классификацию, применимую для всех типов морфем кроме флексии. В рамках предлагаемой классификации выделяются следующие основные маркировки, описывающие свойства каждой из морфем.
1. Маркировки, указывающие на позицию ударения относительно морфемы:
1.1. v («самоударность») - ударение падает на морфему;
1.2. < («левоудареность») - ударение падает на гласную слева от морфемы;
1.3. > («правоударность») - ударение падает на гласную справа от морфемы. В случае, когда такая гласная отсутствует, ударение падает на флексию;
2. Маркировка, указывающая на доминантность морфемы, т.е. преимущество морфемы в борьбе за ударность. Доминантность описывается символом D;
3. Ряд маркировок, использующихся для дополнительной маркировки суффиксов.
Последовательно записанные маркировки всех морфем, входящих в состав основы наблюдаемой словоформы, составляют цепь маркировок для данной словоформы. При применении к такой цепи базисных правил становится возможным однозначно определить место ударения в словоформе. Базисные правила, согласно А. А. Зализняку, формулируются следующим образом:
1. Ударение привязано к самой правой морфеме, имеющей доминантность, но если таковой является морфема, имеющая маркировку >D и стоящая не последней в цепи, то ударение привязывается к следующей справа морфеме;
2. Если в цепи маркировок отсутствуют маркировки с D, то ударение привязывается к самой левой морфеме, имеющей маркировку v или <;
3. Если таких маркировок тоже не находится, то ударение привязывается к самой правой морфеме, имеющей маркировку >.
Разберём такое правило на примере слов бандитимзм, горомшинка и слепымш. Для этих слов цепь маркировок будет выглядеть следующим образом: банд(v)-ит(vD)-изм(vD), горош(v)-ин(v)-к(<)-(а) и слеп(>)-ыш(>) [примеры из (Зализняк 1985: 38)]. В слове бандитимзм постановка ударения обусловлена первым базисным правилом, согласно которому ударение привязывается к самой правой доминантной морфеме (если это не морфема с маркировкой >D, стоящая не последней в цепи). В слове горомшинка отсутствуют морфемы с доминантностью, но присутствуют самоударные и левоударные морфемы. Согласно второму базисному правилу ударение в этом слове падает на самую левую морфему. Поскольку морфема -к- не содержит гласных, ударение привязывается к ближайшей гласной слева от неё. В цепи маркировок слова слепымш отсутствуют доминантные, самоударные и левоударные морфемы, следственно ударение, согласно третьему базисному правилу, падает на самую правую морфему основы.
Для применения базисных правил необходимо иметь в распоряжении полную цель маркировок в словоформе, включая и маркировку корня. Количество аффиксов в русском языке фиксировано и не слишком обширно, однако в случае корней ситуация затруднена их большим количеством в русском языке. Таким образом, использовать систему автоматической расстановки ударений, опираясь только на классификацию, описанную А. А. Зализняком, возможно лишь при наличии полного списка маркировок всех существующих корней русского языка. Не имея данных о маркировке корня, однозначно определить место ударения представляется возможным лишь для тех словоформ, которые оканчиваются морфемами с маркировками vD или >D (согласно первому базисному правилу).