ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ
ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Факультет информатики, математики и компьютерных наук
Программа подготовки бакалавров по направлению
ВЫПУСКНАЯ КВАЛИФИЦИРОВАННАЯ РАБОТА
Множественная проверка гипотез о средней доходности
Елькина Варвара
Нижний Новгород, 2020
Оглавление
Введение
Актуальность темы дипломной работыС появлением фондового рынка, актуальными стали вопросы его изучения и прогнозирования. В настоящее время уже существует множество различных работ, как наших, так и зарубежных авторов, посвященных изучению проблем фондового рынка. Но, проанализировав их, можно сделать вывод о том, что практически все они носят общеэкономический характер, заключая в себе трактовку методов технического и фундаментального анализа, применяемых на Западе. В то же время, возможность применения современных статистических методов исследования для оценки состояния и прогнозирования фондового рынка открывает новые возможности. Именно важность применения на практике методов математической статистики и обусловило выбор темы данной дипломной работы: «Множественная проверка гипотез о средней доходности». априорная информация учет бонферрони
Цели и задачи дипломной работы. Целью дипломной работы является построение статистических процедур множественной проверки гипотез о равенстве нулю средней доходности.
Для реализации поставленных целей были определены следующие задачи:
· Изучение способов построения статистических тестов проверки гипотез о равенстве нулю для средних доходностей акций.
· Вывод оптимальной статистической процедуры с учетом зависимости акций.
· Изучение процедур и методов множественной проверки гипотез.
· Исследование характеристик статистических тестов на искусственно сгенерированных данных, подбор параметров и значений.
· Анализ влияния информации о зависимости акций.
· Построение процедур множественной проверки гипотез и проверка работы этих процедур на реальных данных.
Объект исследования.Объектом исследования являются логарифмические доходности акций.
Проверяемое предположение. Возможно ли считать, что реальные данные не противоречат гипотезе о том, что средняядоходность акций фондовых рынков различных стран равна нулю.
Источники исследования.Информационной базой дипломной работы послужили данные о ценах акций Московскойбиржи и американского внебиржевого рынка NASDAQза периоды с 2018 по 2019 и с 2008 по 2018, которые были получены с сайтаYahooFinance.
Обработка информации, моделирование и вычисления реализованы с использованием компьютерной программы JupyterNotebook, язык программирования - Python.
Глава I. Теоретические основы
1.1 Постановка задачи
Пусть наблюдается изменение котировок акций за определенный промежуток времени. Количество рассматриваемых акций на данном фондовом рынке будем обозначать через N, а число дней, за которое осуществлялось наблюдение, - через n.
Как было сказано ранее, основой данной работы является информация о доходностях акции за определенный промежуток времени, которая находится по формуле:
где - цена акции iза день t (i = 1,…,N; t = 1,…,n)
Также в работе делаем следующие предположения:
· является наблюдением случайной величины
· Случайные величины при t=1,…,nи фиксированном iнезависимы и имеют одинаковое распределение.
· Случайный вектор ()имеет многомерное нормальное распределение с вектором средних значений , где , и ковариационной матрицей , где .
Основной теоретический вопрос: возможно ли считать, что реальные данные не противоречат гипотезе о том, что средняядоходность акций фондовых рынков различных стран равна нулю.
Для проверки этого вопроса, необходимо узнать для каких акций, при каком объеме данных и для каких фондовых рынков гипотеза о значении средней доходности равной 0 будет отвергаться. А значит задача сводится к задаче множественной проверки гипотез и выбору одной гипотезы из набора следующих гипотез:
где - суммарное число гипотез.
1.2 Методы теории множественных решений
Набор гипотез описанный выше можно записать через следующие порождающие гипотезы
(2)
Таким образом, можно записать
(3)
Стоит отметить, что в данном случае все пресечения параметрических областей для соответствующих гипотез не пустые.
Для проверки порождающих или индивидуальных гипотез используется следующий тест:
(4)
Где - решение о принятии гипотезы ; - решение об отвержении гипотезы (принятии альтернативной гипотезы ); - статистика теста.
Нетрудно видеть, что все пересечения областей принятия и отвержения гипотез не пустые, т.е.
Тогда между разбиением (1) пространства и разбиением (2) параметрического пространства существует взаимнооднозначное соответствие. Таким образом, множество тестов (4) совестимо с задачей (1), статистическую процедуру которой можно записать в следующем виде:
(5)
Пусть будет обозначать потери в случае отвержения гипотезы , когда гипотеза истинная, т.е. потери от ошибки первого рода, и пусть будет обозначать потери в случае принятия гипотезы , когда она ложная, т.е. потери от ошибки второго рода(i = 1,2,…,N).
Обозначим через потери в случае принятии решения при верной гипотезе , где j,k=1,2,…,L. Связь потерь , и является ключевой во множественной проверке гипотез и называется аддитивной функцией потерь. В работе предполагается, что условие аддитивности выполняется. Это означает, что потери от неправильной классификации акций равны сумме потерь от неправильной классификации отдельных акций.
Рассмотрим пару примеров, чтобы разобраться. При таком условии имеем , потому что и отличались одной компонентой, и гипотеза должна быть верной, хотя было принято решение. По такому же принципу получаем , , , . Таким образом, можем записать в общем виде
(6)
Где
Качество любой статистической процедуры измеряется функцией риска [4]. В данном случае функция риска определяется следующим образом.
Тогда
С учетом аддитивности функции потерь функция риска принимает вид:
(7)
Основной результат теории Лемана гласит: если статистические процедуры все не смещены, то процедура множественного решения тоже не смещена, а также если все оптимальны в классе несмещенных статистических процедур, то процедура принятия решения также оптимальна.[2]
Обозначим через функцию потерь
(8)
Функция принятия решения называется W-несмещенной если для всех м и м'
(9)
Риск для теста (4) порождающих гипотез для и функция потерь ()
(10)
Риск для теста (4) порождающих гипотез для и функция потерь ()
(11)
Тогда можно записать
Таким образом (4) будет W-несмещенным если
(12)
Преобразуем неравенства с учетом
Получим
(13)
Таким образом, можно видеть, что условие W-несмещенности для данной функции потерь эквивалентно
Согласно (7) условие W-несмещенности для аддитивной функции потерь для статистической процедуры множественного решения (5) имеет вид:
(14)
1.3 Оптимальный несмещенный тест без учета априорной информации
В статье [1] рассматривается задача проверки гипотез против альтернатив для многомерного нормального распределения, где , и доходности всех акций неизвестны. Для этой задачи выводится несмещенный статистическийтест, который выглядит следующим образом:
(15)
Стоит отметить, что данный статистический тест зависит только от элементов диагонали ковариационной матрицы.
Таким образом, несмещенный статистический тест для гипотез против альтернативы , где i=1,…,N, можно записать в следующем виде:
(16)
где - решение об не отвержении гипотезы, -решение об отвержении гипотезы, -квантиль нормального распределения для заданного уровня значимости .
1.4 Вывод статистики оптимального несмещенного теста с учетом априорной информации
Рассмотрим случай, когда на рынке всего N акций, средняя доходность неизвестна, а средние доходности известны. Необходимо относительно построить несмещенный тест гипотезы против альтернативы с учетом априорной информации.
Запишем функцию плотности
Для того, чтобы говорить, что существует равномерно наиболее мощный несмещенный критерий, необходимо показать, что тест имеет Неймановскую структуру [7]. Другими словами, что функция плотности удовлетворяет экспоненциальному семейству распределений и может быть записана в виде:
(17)
Распишем выражениепод экспонентой
Таким образом, функцию плотности можно записать следующим образом
Выведем статистику, выделив информацию о под экспонентой
Итоговую плотность можно записать в следующем виде
Эта плотность удовлетворяет (17). Таким образом статистика имеет вид:
Далее, нормируем статистику, чтобы она удовлетворяла стандартному нормальному распределению
Таким образом, итоговый тест для проверки гипотезы против альтернативы с учетом априорной информации имеет следующий вид
(18)
Где - решение об не отвержении гипотезы, -решение об отвержении гипотезы, -квантиль нормального распределения для заданного уровня значимости
1.5 Методы множественной проверки гипотез.
Задача (1) представляет собой задачу множественной проверки гипотез - класс задач прикладной статистики, который возникает в случае одновременного построения статистических выводов. Как правило, при проверке каждой статистической гипотезы предполагается возможность ошибки первого рода (т.е. отклонение верной нулевой гипотезы).
Однако, при решении такого вида задач возникает проблема: чем больше проверяется гипотез с использованием одних и тех же данных, тем больше будет вероятность допустить хотя бы одну ошибку первого рода, это означает, что практически наверняка будет сделана хотя бы одна ошибка о неверном отвержении гипотезы. Такое явление принято называть эффектом множественного сравнения (англ. multiplecomparisons или multipletesting). Рассмотрим более подробно эту проблему.
Найдем вероятность совершить хотя бы одну ошибку первого рода в ?? независимых тестах:
??(совершить хотя бы одну1 ошибку) = ??,
?? (не совершить 1 ошибку) = 1 ? ??,
?? (не совершить ни одной1 ошибку в ?? независимых тестах) = ,
??(совершить хотя бы одну ошибку в ?? независимых тестах) = .
Как показано выше, совместное построение ?? независимых заключений становится причиной того, что вероятность совершить хотя бы одну ошибку первого рода получается ограничена сверху величиной вида , которая уже при малых m становится недопустимо большой.
|
Число m независимых тестов |
Вероятность совершить хотя бы одну ошибку первого рода б = 0.05 |
|
|
5 |
0,226219 |
|
|
10 |
0,401263 |
|
|
15 |
0,536709 |
|
|
20 |
0,641514 |
|
|
25 |
0,72261 |
Большая вероятность совершения хотя бы одной ошибки первого рода означает, что практически наверняка будет совершена хотя бы одна ошибка о неверном отвержении гипотезы. Для устранения эффекта множественных сравнений существует большой арсенал методов, которые будут рассмотрены далее.
Групповая вероятность ошибки первого рода
Прежде чем приступить к рассмотрению процедур множественной проверки статистических гипотез, необходимо выяснить, для чего именно эти процедуры служат с математической точки зрения.