Допустим, что мы проверяем истинность m нулевых гипотез, которые в дальнейшем будем обозначать через ,,… . В отношении каждой из этих гипотез мы применяем определенный статистический критерий и делаем заключение о том, отвергаем ли мы гипотезу или нет. Результаты такого анализа можно отобразить в следующей таблице:
Таблица 2. Ошибки первого и второго рода при множественной проверке гипотез.
Представленную выше таблицу необходимо понимать следующим образом:
· В первой строчке мы видим, что всего число верных нулевых гипотез равняется , из которых часть U гипотез в результате анализа определяется правильно, а соответственно остальная V часть ошибочно отвергается.
· Аналогичная ситуация происходит и во второй строчке, существует число неверных (альтернативных) гипотез, которые в свою очередь содержат число S безошибочно отвергнутых гипотез и соответственно число T ошибочно принятых.
· Стоит заметить, что количество отвергнутых R и количество принятых W гипотез известно, в то время как и нам неизвестны.
Получается, необходимо минимизировать количество ложно отвергнутых гипотез (ошибка первого рода), а так же количество ложно принятых гипотез. Если число ложно отвергнутых гипотез не меньше одного (V?1), то в таком случае совершается как минимум одна ошибка первого рода, а вероятность такой ошибки в случае множественной проверки гипотез принято называть «групповой вероятностью ошибки» или FWER (англ. «familywiseerrorrate»).
(19)
Пытаясь контролировать групповую вероятность ошибки на определенном, заданном уровне значимости б, необходимо, чтобы выполнялось неравенство.
Процедура Бонферрони
Метод Бонферрони (названный в честь предложившего его итальянского математика Карло Эмилио Бонферрони; CarloEmilioBoferroni) является одним из наиболее простых и известных методов контроля групповой вероятности ошибки.
Основная идея метода заключается в том, что для контроля ??WER на уровне ?? достаточно, чтобы отвергались только те гипотезы , для которых выполняется условие: ,
где ? p-value, полученное при проверке соответствующей гипотезы , а ??? количество проверяемых гипотез. Деление исходного уровня значимости ?? на ??-- это и есть поправка Бонферрони.
Теорема (Процедура Бонферрони):
Пусть даны следующие гипотезы ,,…. Тогда если текущая гипотеза отвергается при , то выполняется неравенство (групповая вероятность совершить хотя бы одну ошибку не превышает заданный уровень значимости при одновременной проверке гипотез ,,…).
Доказательство:
Обозначим I, как неизвестное подмножество истинных нулевых гипотез, тогда | I | - мощность этого множества.Допустим, что гипотезы верны при , все остальные ложные. Тогда из неравенства Бонферрони следует:
¦
Хотя метод Бонферрони и прост в реализации, а так же позволяет ограничить вероятность ошибки первого рода, он обладает одним существенным недостатком: при возрастании числа проверяемых гипотез мощность этого метода резко снижается, поскольку каждую гипотезу проверяют на уровне значимости . Однако, существуют другие методы, результаты которых превосходят по мощности процедуру, основанную на поправке Бонферрони.
Процедура Холма
Метод Холма - метод, обеспечивающий безусловный контроль над FWER на уровне б.
Зададим уровень значимости б. Далее, упорядочим гипотезы ,,… по неубыванию соответствующих им p-value: .
Шаг 1. Если , то следует принять все нулевые гипотезы ,,… и остановиться. Иначе, необходимо отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости.
Шаг 2. Если , то следует принять все нулевые гипотезы ,… и остановиться. Иначе, необходимо отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости.
Шаг K. Если , то принять все нулевые гипотезы … и остановиться. Иначе, необходимо отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости.
Шаг M. Если , то принимаем гипотезу и процедура останавливается.
Этот метод гарантирует, что ,
Доказательство
Холм контролирует FWER следующим образом.
Пусть ,,… - семейство гипотез, а отсортированные p-значения. Пусть будет набором индексов, соответствующих (неизвестным) истинным нулевым гипотезам, имеющим членов.
Допустим, мы ошибочно отвергаем истинную гипотезу. Мы должны доказать, что вероятность этого события не превышает б. Пусть h будет первой отвергнутой истинной гипотезой (первой в порядке, заданном тестом Холма). Тогда , … , все отвергнутые ложные гипотезы и . Оттуда мы получаем
(20)
Поскольку h отклоняется, у нас есть по определению теста. Используя (20), получается что правая часть не более . Таким образом, если мы ошибочно отвергаем истинную гипотезу, должна быть истинная гипотеза с p-value не более .
Итак, определяем случайную переменную . Каким бы ни был (неизвестный) набор истинных гипотез , у нас есть , исходя из Неравенства Бонферрони. Следовательно, вероятность отклонить истинную гипотезу не превышает б.¦
Глава II. Проведение экспериментов и анализ характеристик тестов
Перед непосредственным применением тестов для проверки гипотезы на реальных данных, необходимо изучить основные характеристики, проанализировать поведение теста без учета априорной информации и теста с учетом априорной информации и выбрать из этого анализа лучший.
Для тестирования статистических процедур применялся метод Монте-Карло. Дляэтогоспомощьюфункцииnumpy.random.multivariate_normal(mean, cov, size), гдеmean-вектор математического ожидания, cov-ковариационная матрица, size-размер выборки, генерировались повторные наблюдения, имеющие псевдослучайное многомерное нормальное распределение.
2.1 Эксперименты сравнения тестов без учета и с учетом априорной информации
Сравнение процедур без учета и с учетом априорной информации, осуществлялось по средствам сравнения ошибок первого рода и мощности обеих процедур.
Для того, чтобы показать различия процедур, брались 3 вида ковариационных матриц: ковариационная матрицаакций индекса NASDAQ100; ковариационная матрица, элементы которой превышают заданный порог; единичная матрица.Уровень значимости брался равным б=0,05. Количество повторных генераций = 1000.
Ошибка первого рода
Для оценки ошибки первого рода при генерации наблюдений многомерного нормального распределения брался нулевой вектор, в качестве ковариационной матрицы брались 3 различные ковариационные матрицы, описанные выше.
Далее, для полученных наблюдений проводим проверку гипотез теста с учетом априорной информации и без ее учета. Для каждых тестов подсчитывалась доля отклонения верной гипотезы - количество отверженных гипотез деленное на количество всех проверяемы гипотез.Ниже представлены результаты для различных ковариационных матриц.
|
Ковариационная матрица акций индекса NASDAQ100 |
|||||||||||
|
б |
N |
10 |
25 |
50 |
75 |
100 |
250 |
500 |
750 |
1000 |
|
|
0.05 |
Без учета а.и. |
0.105 |
0.073 |
0.05 |
0.05 |
0.049 |
0.046 |
0.053 |
0.054 |
0.055 |
|
|
С учетом а.и. |
0.061 |
0.043 |
0.048 |
0.046 |
0.048 |
0.037 |
0.045 |
0.05 |
0.056 |
||
|
0.01 |
Без учета а.и. |
0.033 |
0.018 |
0.016 |
0.007 |
0.02 |
0.007 |
0.014 |
0.01 |
0.009 |
|
|
С учетом а.и. |
0.007 |
0.01 |
0.009 |
0.01 |
0.008 |
0.008 |
0.008 |
0.01 |
0.01 |
||
|
Пороговая ковариационная матрица |
|||||||||||
|
б |
N |
10 |
25 |
50 |
75 |
100 |
250 |
500 |
750 |
1000 |
|
|
0.05 |
Без учета а.и. |
0.089 |
0.08 |
0.058 |
0.062 |
0.055 |
0.051 |
0.045 |
0.04 |
0.054 |
|
|
С учетом а.и. |
0.049 |
0.056 |
0.05 |
0.054 |
0.05 |
0.058 |
0.045 |
0.041 |
0.053 |
||
|
0.01 |
Без учета а.и. |
0.041 |
0.013 |
0.011 |
0.017 |
0.01 |
0.007 |
0.006 |
0.005 |
0.011 |
|
|
С учетом а.и. |
0.008 |
0.008 |
0.015 |
0.009 |
0.015 |
0.009 |
0.006 |
0.009 |
0.004 |
||
|
Единичная матрица |
|||||||||||
|
б |
N (б=0.05) |
10 |
25 |
50 |
75 |
100 |
250 |
500 |
750 |
1000 |
|
|
0.05 |
Без учета а.и. |
0.103 |
0.054 |
0.058 |
0.04 |
0.057 |
0.043 |
0.046 |
0.049 |
0.048 |
|
|
С учетом а.и. |
0.055 |
0.042 |
0.048 |
0.042 |
0.062 |
0.038 |
0.045 |
0.048 |
0.047 |
||
|
0.01 |
Без учета а.и. |
0.045 |
0.018 |
0.013 |
0.013 |
0.014 |
0.008 |
0.011 |
0.01 |
0.007 |
|
|
С учетом а.и. |
0.011 |
0.006 |
0.009 |
0.013 |
0.008 |
0.009 |
0.009 |
0.011 |
0.006 |
Вывод: из приведенных выше таблиц и графиков видно, что тестам проверки гипотезы о равенстве нулю, как с учетом априорной информации, так и без учета, удается контролировать заданный уровень значимости(0.05 и 0.01) на выборках, размерностью больше 100. Однако, на выборках меньшего размера тесту без учета априорной информации контролировать уровень значимости не удается, что нельзя сказать о другом тесте. Таким образом, можно сказать, что тест с учетом априорной информации менее чувствителен к размеру выборки.
Мощность
Для оценки мощности, которая рассчитывалась как доля верно отвергнутых гипотез, при генерации наблюдений многомерного нормального распределения брались различные значения вектора математических ожиданий. Эксперименты по прежнему проводились для 3 различных матриц. Ниже представлены результаты тестирования мощности.
Из графиков видно, что для ковариационной матрицы NASDAQ100 и пороговой ковариационной матрицы мощности обоих тестов при различных значениях м, где это значение не равно 0, на промежутке от -1 до 1 максимальны, т.е. равны 1. В случае единичной матрицы значения мощностей обоих тестов примерно одинаковы и равны единице для м, значения которых по модулю больше и равны 0.5. Посмотрим как ведут себя мощности тестов при меньших значениях м.
Из рисунков 10 и 11 можно увидеть что для ковариационной матрицы NASDAQ100 мощность теста с учетом априорной информации имеет большую мощность в отличие от теста без учета априорной информации. Однако, для пороговой ковариационной и единичной матриц тест с учетом априорной информации имеет некоторое отставание в мощности(Рис.13-15).
2.2 Эксперименты множественной проверки гипотез. Использование процедур Бонферрони и Холма
На данном этапе проводились эксперименты в предположении, что среди N акций есть K известных и U неизвестных акций (N=K+U). В этом случае задача становится задачей множественной проверки гипотез и в этом случае, как обсуждалось в главе Х, имеется групповая вероятность ошибки первого рода. Поэтому, помимо использования тестов с учетом априорной информации и без в экспериментах будут рассмотрены использование этих тестов вместе с процедурами Бонферрони и Холма.
Эксперименты проверки ошибок первого рода и мощности осуществлялись по тому же принципу - метод Монте-Карло. Уровень значимости брался равный 0.05, количество повторений - 1000, в качестве ковариационной матрицы бралась ковариационная матрица для первых 30 акций индекса NASDAQ100.
Ошибка первого рода
Для проверки ошибки первого рода проводилось несколько экспериментов: подсчет доли отвергнутых гипотез при изменении размера выборки n, при изменении количества неизвестных акций(U) и при изменении количества известных акций(K).
Из графиков видно, что наименьшее количество ошибочно отвергнутых гипотез было у процедур Бонферрони и Холма с учетом априорной информации, это значение было очень близко к нулю даже при маленьких размерах выборки. Стоит также отметить, что приразмере выборки меньшего 100 обычному тесту без учета априорной информации не удается контролировать уровень значимости (Рисунок 16), в то время как обычный тест с учетом информации имел близкую к нулю долю ошибок первого рода.
Мощность
Для проверки мощности брался вектор математического ожидания, состоящий из K нулей для известных акций и U не нулевых значений для неизвестных акций. На данном этапе проводились следующие эксперименты: подсчет (количество верно отвергнутых акций) мощности при изменении значения математического ожидания неизвестных акций на диапазоне [-1,1]; подсчет мощности при малых значениях математического ожидания [0.001,0.01]; подсчет мощности при изменении количества неизвестных акций; подсчет мощности при изменении количества известных акций; подсчет мощности при изменении размера выборки.
Таким образом, можно сделать следующие выводы:
· наибольшую мощность имеет тест без учета априорной информации;
· все тесты на интервале от 0.1 до 1 имеют максимальную мощность;
· тесты никак не реагируют на увеличение количества известных акций;
· на увеличение количества неизвестных акций реагируют тесты с использованием процедур Бонферрони и Холма, их мощность с увеличением числа акций уменьшается;
· уже при размере выборки n = 250 и более мощность всех тестов близка к максимальному значению - 1 даже при низких значениях альтернативы - 0.005.
Вывод по всем экспериментам на сгенерированных данных: Для проверки гипотезы о том, что все акции на рынке равны 0, в том случае, когда нет никакой информации о доходностях акций, целесообразней использовать тест без учета априорной информации с использованием процедуры Холма, так как доля ошибок первого рода с его использованием близка к нулю, а мощность несильно уступает обычному тесту без учета априорной информации и при размере выборки больше 250 имеют одинаковую высокую мощность (Рисунок 23).В том случае, когда на рынке имеется информация о доходностях некоторых акций, целесообразней всего использовать тест с учетом априорной информации без каких-либо дополнительных процедур, так как доля ошибок первого рода уже при малых размерах выборки близка к нулю, что совпадает с результатами процедур Бонферрони и Холма, а мощности с их использованием сильно уступают другим тестам.