Материал: Теория к экзамену по Анализу данных

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

14. Сравнение наблюдаемой относительной частоты с гипотетической вероятностью появления события.

Пусть проведено п независимых испытаний (п – достаточно большое число), в каждом из которых некоторое событие А появляется с одной и той же, но неизвестной вероятностью р, и найдена относительная частота появлений А в этой серии испытаний. Проверим при заданном уровне значимости α нулевую гипотезу Н0, состоящую в том, что вероятность р равна некоторому значению р0.

Примем в качестве статистического критерия случайную величину

, (19.1) имеющую нормальное распределение с параметрами M(U) = 0, σ(U) = 1 (то есть нормиро-ванную). Здесь q0 = 1 – p0. Вывод о нормальном распределении критерия следует из теоремы Лапласа (при достаточно большом п относительную частоту можно приближенно считать нормально распределенной с математическим ожиданием р и средним квадратическим отклонением ).

Критическая область строится в зависимости от вида конкурирующей гипотезы.

1) Если Н0р = р0, а Н1р ≠ р0, то критическую область нужно построить так, чтобы вероятность попадания критерия в эту область равнялась заданному уровню значимости α. При этом наибольшая мощность критерия достигается тогда, когда критическая область состоит из двух интервалов, вероятность попадания в каждый из которых равна . Поскольку U симметрична относительно оси Оу, вероятность ее попадания в интервалы (-∞; 0) и (0; +∞) равна 0,5, следовательно, критическая область тоже должна быть симметрична относительно Оу. Поэтому икропределяется по таблице значений функции Лапласа из условия , а критическая область имеет вид .

Замечание. Предполагается, что используется таблица значений функции Лапласа, заданной в виде , где нижний предел интегрирования равен 0, а не -∞. Функция Лапласа, заданная таким образом, является нечетной, а ее значения на 0,5 меньше, чем значения стандартной функции Ф(х) (см. лекцию 6).

Далее нужно вычислить наблюдаемое значение критерия:

. (19.2)

Если |Uнабл| < uкр, то нулевая гипотеза принимается.

Если |Uнабл| > uкр, то нулевая гипотеза отвергается.

2) Если конкурирующая гипотеза Н1р > p0, то критическая область определяется неравенством U > uкр, то есть является правосторонней, причем р(U > uкр) = α. Тогда . Следовательно, икр можно найти по таблице значений функции Лапласа из условия, что . Вычислим наблюдаемое значение критерия по формуле (19.2).

Если Uнабл < uкр, то нулевая гипотеза принимается.

Если Uнабл > uкр, то нулевая гипотеза отвергается.

3) Для конкурирующей гипотезы Н1р < p0 критическая область является левосторонней и задается неравенством U <- uкр, где икр вычисляется так же, как в предыдущем случае.

Если Uнабл > - uкр, то нулевая гипотеза принимается.

Если Uнабл < - uкр, то нулевая гипотеза отвергается.

Пример. Пусть проведено 50 независимых испытаний, и относительная частота появления события А оказалась равной 0,12. Проверим при уровне значимости α = 0,01 нулевую гипотезу Н0р = 0,1 при конкурирующей гипотезе Н1р > 0,1. Найдем Критическая область является правосторонней, а икр нахо-дим из равенства Ф(икр) = Из таблицы значений функции Лапласа определяем икр = 2,33. Итак, Uнабл < uкр, и гипотеза о том, что р = 0,1, принимается.

Пусть генеральная совокупность Х имеет нормальное распределение, и требуется проверить предположение о том, что ее математическое ожидание равно некоторому числу а0. Рассмотрим две возможности.

1) Известна дисперсия σ2 генеральной совокупности. Тогда по выборке объема п найдем выборочное среднее и проверим нулевую гипотезу Н0М(Х) = а0.

Учитывая, что выборочное среднее является несмещенной оценкой М(Х), то есть М() = М(Х), можно записать нулевую гипотезу так: М() = а0. Для ее проверки выберем критерий

. (19.3)

Это случайная величина, имеющая нормальное распределение, причем, если нулевая гипотеза справедлива, то М(U) = 0, σ(U) = 1.

Выберем критическую область в зависимости от вида конкурирующей гипотезы:

- если Н1М() ≠ а0, то икр, критическая область двусторонняя, , и, если |Uнабл| < uкр, то нулевая гипотеза принимается; если |Uнабл| > uкр, то нулевая гипотеза отвергается.

- если Н1М() > а0, то икр, критическая область правосторонняя, и, если Uнабл < uкр, то нулевая гипотеза принимается; если Uнабл > uкр, то нулевая гипотеза отвергается.

- если Н1М() < а0, то икр, критическая область левосторонняя, и, если Uнабл > - uкр, то нулевая гипотеза принимается; если Uнабл < - uкр, то нулевая гипотеза отвергается.

2) Дисперсия генеральной совокупности неизвестна.

В этом случае выберем в качестве критерия случайную величину

, (19.4)

где S – исправленное среднее квадратическое отклонение. Такая случайная величина имеет распределение Стьюдента с k = n – 1 степенями свободы. Рассмотрим те же, что и в предыдущем случае, конкурирующие гипотезы и соответствующие им критические области. Предварительно вычислим наблюдаемое значение критерия:

. (19.5)

- если Н1М() ≠ а0, то критическая точка tдвуст.кр. находится по таблице критических точек распределения Стьюдента по известным α и k = n – 1.

Если | Tнабл | < tдвуст.кр., то нулевая гипотеза принимается.

Если | Tнабл | > tдвуст.кр., то нулевая гипотеза отвергается.

- если Н1М() > а0, то по соответствующей таблице находят tправост.кр.(α, k) – критичес-кую точку правосторонней критической области. Нулевая гипотеза принимается, если

Tнабл < tправост.кр..

- при конкурирующей гипотезе Н1М() < а0 критическая область является левосторон-ней, и нулевая гипотеза принимается при условии Tнабл > - tправост.кр.. Если Tнабл < - tправост.кр.., нулевую гипотезу отвергают.

15. Сравнение двух дисперсий нормальных генеральных совокупностей.

На практике часто требуется сравнить точность измерения различными приборами и методами.

Пусть имеются две нормально распределенные совокупности X и Y. (Если одну и ту же нормально распределенную случайную величину измеряют двумя приборами, то генеральные совокупности измеряемых значений будут разными – X и Y.)

Из этих генеральных совокупностей извлекают выборки объемом n1 и n2 и находят «исправленные» выборочные дисперсии  и .

Зададим уровень значимости критерия α.

По данным значениям  ,  и α проверим нулевую гипотезу, состоящую в том, что генеральные дисперсии равны.

Итак,  :  =  (Y).

«Исправленные» дисперсии являются несмещёнными оценками генеральных дисперсий, т. е.

М ) =  (X), M ) =  (Y),

Поэтому можно представить нулевую гипотезу таким образом:

 : М ) = M )

Проверим равенство математических ожиданий «исправленных» выборочных дисперсий. В качестве критерия проверки нулевой гипотезы примем отношение большей «исправленной» дисперсии  к меньшей  , т. е. случайную величину: F = 

Величина F имеет распределение Фишера-Снедекора со степенями свободы k1 = n- 1, k= n- 1, где n1 – объем выборки для большей «исправленной» дисперсии, n2 – для меньшей.

Предположим, что большая дисперсия относится к измерениям X, а меньшая – к измерениям Y.

Тогда в качестве альтернативной гипотезы можно принять

 : D(X) > D(Y).

В этом случае критическую область находят из условия:

P ( F > Fкр (α, k1, k2)) = α (правосторонняя область).

Критическую точку находят по таблице распределения Фишера-Снедекора.