Юрий Лотман в своей книге «Структура художественного текста» (М., 1972) утверждает, что любые события происходят только на грани-
це: «Событием в тексте является перемещение персонажа через гра-
ницу семантического поля». Чем резче проведена граница, тем сильнее событийность ее пересечения, тем напряженнее сюжет. Под событием в математической лингвистике понимается не конкретный лингвистический факт, а лишь возможный исход лингвистического опыта или наблюдения.
Рассмотрим другие модельные примеры испытаний. Пусть опыт состоит в бросании двух костей, которые будем считать различными, например, одна синяя, а другая — красная (или одну кость бросим дважды: первое бросание, второе бросание). В этом случае исходами являются
пары (1, 2), (3, 5), (6, 4), (3, 3) и т. д. — всего A62 = 62 = 36 элементарных
событий. Если мы три раза подбрасываем монету, то в этом случае исходами испытания будут упорядоченные тройки: ООО, ООР, ОРО, РОО,
ОРР, РОР, РРО, РРР — всего A23 = 23 = 8 элементарных событий. Нако-
нец, если из колоды в 36 игральных карт вытаскивается наудачу (не глядя) 6 любых карт, то тогда множество элементарных событий содержит C366 элементов.
Элементарное событие характеризуется тем, что при каждом испытании на-
ступает одно и только одно из них. Любое событие, связанное с данным испытани-
ем, распадается на элементарные, т. е. представляется в виде объединения множества элементарных событий. Например, событие, связанное с бросанием кости, — «число очков четное» или «число очков превосходит 2».
В теории вероятностей не рассматривается техническая сторона испытания, а только то, какие события в нем могут наблюдаться, и что в результате проведенного эксперимента действительно наблюдалось. В каждой области знания точные законы регулировали отнюдь не все. Они намечали лишь границы, в пределах которых возможна «игра случая». С этой точки зрения слово случайность приобретает объективный смысл, так как то, что было случайностью для одного, должно быть случайностью и для других.
Определение случайного события. Событие, наступление или не-
наступление которого в некотором испытании зависит от ряда случайных факторов, называется случайным событием.
Результатом лингвистического испытания является лингвистиче-
ское событие. Например, пусть испытание (опыт, эксперимент) состоит в угадывании буквы, которой предшествует последовательность букв КОТОРО. Множество всех исходов (результатов) этого испытания — это событие, состоящее в появлении букв: Г (которого), Е (которое), Й (ко-
122
торой), М (которым, которому). Каждое из этих событий может произойти, а может и не произойти, т. е. это случайные события.
Реальную лингвистическую задачу в качестве иллюстрации понятия случайного сформулировал и решил замечательный венгерский ма-
тематик Дьердь Пойа: «С каким языком теснее всего связан английский язык — с венгерским или польским?»
Эту задачу можно решить, найдя закономерности, присущие этим языкам, а чтобы они носили общий характер, Пойа рассмотрел не 3, а 10 европейских языков: английский, шведский, датский, голландский, немецкий, французский, испанский, итальянский, польский и венгерский. Он сравнил наименования чисел (от одного до десяти) на этих 10 языках, как наиболее устойчивые на протяжении многолетней истории объекты, и воспользовался критерием похожести языков, основанном на сравнении первых букв в соответствующих словах. Это позволило ему обосновать статистическую гипотезу о том, что английский язык теснее связан с польским языком, чем с венгерским.
Источником случайных лингвистических событий может, например,
служить то, что из-за недостаточности сведений о начальном состоянии лингвистического объекта (явления) оно описывается лишь в основных своих чертах. Перечисление или классификация лингвистических событий, принадлежащих лингвистическому испытанию, имеет сравнительно ограниченный познавательный интерес. Гораздо важнее оценить степень возможности появления того или иного случайного события.
Определение вероятности. Числовая характеристика степени возможности наступления какого-либо определенного случайного события в тех или иных определенных, могущих повторяться неограниченное число раз, испытаниях, называется вероятностью.
Для случайного события постулируется мера возможности его появления, т. е. определенная вероятность его наступления при данных условиях. Каждому случайному событию ставится в соответствие, характеризующее его, число р, 0 ≤ р ≤ 1 (от первой буквы французского слова probabilite — вероятность), которое и называется вероятностью этого события. Цель математики случайного, которую принято называть теорией вероятностей, состоит в том, чтобы давать определенное знание о случайных, неопределенных событиях с помощью исчисления вероятностей. Для лингвистики и филологии особый интерес представляют
«классическое» и «статистическое» определения вероятности.
Поясним теперь смысл выражения «степень возможности появления случайного события в данном испытании» и каким образом она характеризуется числом р. Это означает следующее: если испытание по-
вторили n раз, то интересующее нас событие при этом произойдет
123
приблизительно n р раз. Можно сказать и по другому: если при n-кратном повторении испытания событие произошло m раз, то частота появления события, а именно число m/n приблизительно равно числу р и чем больше n, тем выше точность этого утверждения. Поэтому связь между испытанием и событием, которая характеризуется вероятностью события в этом испытании, т. е. числом р, выявляется только при многократном повторении этого испытания. При этом теория опериру-
ет вероятностями, а практика — статистическими данными исходов испытаний.
Рассмотрим сначала статистическое определение вероятности, поскольку в лингвистической практике статистические исследования являются основным способом оценки вероятностей событий. Даже стилистическое отличие каждого большого поэта и писателя имеет свои количественные статистические характеристики литературного языка.
Если в одних и тех же условиях при n испытаниях случайное событие А произошло m раз, то отношение mn называется относительной
частотой события А в n испытаниях. Частота может быть вычислена лишь после того, как проведена серия испытаний (экспериментов), и, вообще говоря, частота изменяется, если провести другую серию из n испытаний или если изменить n.
Например, как ответить на вопрос, какие звуки встречаются в рус-
ских литературных текстах чаще: гласные или согласные?
Для этого надо исследовать различные литературные тексты, подсчитывая в них число гласных и число согласных. Может быть, удастся заметить, что, например, буква «а» встречается в 5 раз чаще, чем буква «ч», а буква «о» встречается в 55 раз чаще, чем буква «ф». В результате дальнейших исследований можно придти к выводу, что, например, событие «встретить в литературном тексте букву е» является более вероятным, чем событие «встретить в литературном тексте букву а». Это и есть на данном этапе качественная оценка вероятности по частоте.
Определение статистической вероятности. При достаточно больших значениях n относительная частота mn случайного события A
мало отличается от некоторого числа р(А), которое называют статистической вероятностью события А, т. е. справедливо приближенное равенство:
р(А) ≈ mn .
Заметим, что «статистика» (от немецкого слова statistik) — это функция от результатов наблюдений.
124
Приведенное эмпирическое определение статистической устойчивости относительных частот случайного события характеризует естественнонаучное содержание понятия вероятности, но не является его формальным определением, так как опирается на такие понятия, как «достаточно большие», «случайного события», «мало отличается». Однако, вопервых, мы не собираемся строить теорию, исходя из этого определения, а во-вторых, для определения вероятности случайного события на основе аксиоматической теории требуется глубокое знание ряда разделов высшей математики. С точки зрения реального смысла, вкладываемого в понятие вероятности: вероятность случайного события А — это чис-
ло близкое к относительной частоте наступления события А в длинной серии тождественных испытаний.
Часто в процессе совершенствования экспериментов возникает такое положение дел, когда полной устойчивости исходов испытания добиться не удается, но возникает явление статистической устойчивости, которая характеризуется устойчивостью частот наступления различных событий, связанных с исходом эксперимента. Исчерпывающая проверка устойчивости частот невозможна, хотя в некоторых случаях наличие статистической устойчивости достаточно достоверно. По-
этому следует обратить внимание на то, что точное численное значение статистической вероятности остается, вообще говоря, неизвестным.
Рассмотрим, например, статистическую вероятность глагола «быть» в русском литературном языке. Текст «Капитанской дочки» Пушкина состоит из 29 343 словоупотреблений. Формы слова «быть» встречаются здесь 430 раз. Отсюда следует, что статистическая вероятность события А1 = {появления в тексте «Капитанской дочки» форм слова БЫТЬ} равна
р(А1) = |
m |
= |
430 |
≈ 0,0147. |
|
||||
|
n |
|
29343 |
|
|
|
|
|
Всем известны двуязычные словари (например, англо-русский), толковые и энциклопедические словари. Но существуют еще и особые — так называемые «частотные словари». Частотный словарь указывает, сколько раз употребляется то или иное слово в тексте. Наряду со «словарем языка писателя» он необходим для анализа литературоведческой стилистики. Согласно данным «Материалов к частотному словарю А. С. Пушкина», все произведения Пушкина содержат 544 777 словоупотреблений, из них формы слова «быть» употреблены автором 8771 раз. Поэтому статистическая вероятность события А2 = {появления в любом произведении Пушкина форм слова БЫТЬ} равна
р(А2) = |
m |
= |
8771 |
≈ 0,0161. |
|
||||
|
n |
|
544 777 |
|
|
|
|
|
125
При небольшом числе испытаний относительные частоты события могут изменяться от одной группы событий к другой. Например, в
случайно выбранном куске текста из произведений Пушкина длиной в 100 слов формы глагола «быть» может не появиться ни разу, поэтому относительная частота равна 0, а в другом отрывке той же длины формы этого глагола могут появиться три раза и соответственно относительная частота возрастет до 0,03. Однако при последовательном увеличении объема выбираемых текстов разных авторов относительная частота глагола «быть» колеблется около величины 0,01, которая равна статистической вероятности в этом случае.
Почти любая лингвистическая работа использует иногда неосознанно статистические методы, поскольку в языке есть частые и редкие явления, поэтому без выделения частых явлений невозможны какиелибо лингвистические выводы. Количественные оценки частот лингвистических явлений на «языке цифр», которого, к сожалению, боятся некоторые филологи, помогают не только выдвигать гипотезы и иллюстрировать выводы, но и делать их более доказательными. По мнению профессора Б. И. Ярхо, одного из пионеров успешного применения статистических методов в области стиховедения, «сила статистического доказательства заключается, конечно, в максимальной объективности категории числа». Но «математический акт» не должен совершаться до тех пор, пока не будет вложен литературоведческий смысл в соответствующие статистические операции.
В любом осмысленном тексте не все буквы появляются одинаково часто, т. е. они отличаются своей относительной частотой. Например, человеку, получившему шифрованное достаточно длинное сообщение, достаточно подсчитать частоту появления в нем шифровальных знаков и сопоставить ее с относительной частотой появления букв русского алфавита, с которой они приблизительно встречаются вдлинных текстах:
Бук- |
Час- |
Буква |
Частота |
Бук- |
Частота |
Буква |
Частота |
Бук- |
Час- |
ва |
тота |
|
|
ва |
|
|
|
ва |
тота |
А |
0,075 |
Ж |
0,009 |
М |
0,031 |
Т |
0,065 |
Ш |
0,007 |
Б |
0,017 |
З |
0,018 |
Н |
0,065 |
У |
0,025 |
Щ |
0,004 |
В |
0,046 |
И |
0,075 |
О |
0,110 |
Ф |
0,002 |
Ы |
0,019 |
Г |
0,016 |
Й |
0,012 |
П |
0,023 |
Х |
0,011 |
Э |
0,003 |
Д |
0,030 |
К |
0,034 |
Р |
0,048 |
Ц |
0,005 |
Ю |
0,007 |
Е |
0,087 |
Л |
0,042 |
С |
0,055 |
Ч |
0,015 |
Я |
0,022 |
126