Материал: Теория к экзамену по Анализу данных

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

1.Основные задачи математической статистики. Виды и способы отбора.

Математическая статистика – это математическая наука посвященная разработке методов описания и анализа статистических экспериментальных данных, полученных в результате наблюдений массовых случайных явлений.

Методы математической статистики нашли широкое применение в различных областях науки (физике, биологии, медицине, экономике, социологии и др.) и могут применяться для решения различных задач. Однако можно сформулировать три основные (типичные) задачи математической статистики, наиболее часто встречающиеся на практике.

1. Определение закона распределения случайной величины. По результатам независимых наблюдений случайной величиныX требуется оценить неизвестную функцию распределенияF (x) или плотность вероятности f (x) этой случайной величины.

2. Задача проверки правдоподобия гипотез. Из обширного круга задач, связанных с проверкой статистических гипотез, наиболее типичными являются две задачи. Первая: как согласуются результаты эксперимента с гипотезой о том, что исследуемая случайная величина имеет плотность распределенияf (x) ? Вторая: не противоречит ли полученная оценка неизвестного параметра выдвинутой гипотезе о значении данного параметра?

3. Задача оценки неизвестных параметров распределения. Предполагается, что закон распределения исследуемой случайной величины известен до опыта из физических или теоретических предположений (например, нормальный). Возникает более узкая задача – определить некоторые параметры (числовые характеристики) случайной величины, т. е. по экспериментальным данным необходимо оценить значения этих параметров. С этой задачей отыскания "подходящих значений" числовых характеристик тесно связана задача оценки их точности и надежности.

Виды выборок:

Генеральная совокупность – это совокупность объектов, из которой производится выборка.

Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов.

Объем совокупности – это число объектов этой совокупности. Объем генеральной совокупности обозначается N, выборочной – n.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

На практике обычно пользуются бесповторным случайным отбором.

Способы отбора

На практике применяются различные способы отбора, которые можно разделить на 2 вида:

1. Отбор не требует расчленения генеральной совокупности на части (а) простой случайный бесповторный; б) простой случайный повторный).

2. Отбор, при котором генеральная совокупность разбивается на части. (а) типичный отбор; б) механический отбор; в) серийный отбор).

Простым случайным называют такой отбор, при котором объекты извлекаются по одному из всей генеральной совокупности (случайно).

Типичным называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типичной» части. Например, если деталь изготавливают на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности. Таким отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных «типичных» частях генеральной совокупности.

Механическим называют отбор, при котором генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 20 % изготовленных станком деталей, то отбирают каждую 5-ую деталь; если требуется отобрать 5 % деталей- каждую 20-ую и т.д. Иногда такой отбор может не обеспечивать репрезентативность выборки (если отбирают каждый 20-ый обтачиваемый валик, причем сразу же после отбора производится замена резца, то отобранными окажутся все валики, обточенные затупленными резцами).

Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергают сплошному обследованию. Например, если изделия изготавливаются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков.

На практике часто применяют комбинированный отбор, при котором сочетаются указанные выше способы.

2. Вариационные ряды и их графическое отображение.

Вариационный ряд-это таблица из 2-х строк, в первой из которых указывается в порядке возрастания различные значения исследуемого признака (варианта признака), а во 2-ой-частота появления этого признака.

х_i	Х₁	Х₂	…	х_n
n_i	n₁	n₂	…	n_k

Условие n_k=n, где n-объем статистических данных.

Вариационный ряд можно представить в виде гистограммы, полигона распределения и кумулятивной прямой.

Полигон распределения-это ломанная, вершина которой соот-ет точкам с координатами (x_i,n_i), где x_i-варианты признака, n_i-частота признака.

Гистограмма распределения – ступенчатая фигура, состоящая из прямоугольников с основаниями, равными h(шаг гистограммы) и высотой n_i (частота) или n_i/n(относительная частота). Гистограмма распределения используется для графического изображения интервального вариационного ряда.

Для построения гистограммы распределения дискретного вариационного ряда необходимо:

Определить число интервалов гистограммы

m=1+3,322lg(n) – формула Стреджеса.

Определить частоту признаков в каждом интервале

m_i– число элементов, оказавшихся в i-том интервале гистограмме

Определить высоту каждого интервала гистограммы m_i(m_i/n)

По гистограмме распределения можно получить первое представление о виде ЗР исследуемого признака (СВ).

Кумулятивная прямая- это кривая накопленных частот. Накопленная частота n_i^нак показывает сколько наблюдалось возможных значений признака меньших некоторого х

W_i^нак=n_i^нак/n

Для дискретного вариационного ряда кумулятивная прямая представляет собой ломанную, соединяющую Для интервального вариационного ряда кумулятивная прямая начинается с точки (х₀;0), где х₀-наименьшие возможные значения признака. Последующие точки соответствуют координатам конца интервалов.

Выборочное среднее и выборочная дисперсия. Мода и медиана.

Мода (М_о) – это такое значение варианты, что предшествующее и следующее за ним значения имеют меньшие частоты встречаемости.

Для одномодальных распределений мода – это наиболее часто встречающаяся варианта в данной совокупности.

Для определения моды интервальных рядов служит формула:

M₀=x_ниж+i*((n₂-n₁)/(2n₂-n₁+n₃)),

где х_ниж – нижняя граница модального класса, т.е. класса с наибольшей частотой встречаемости n₂; n₂– частота модального класса; n₁ – частота класса, предшествующего модальному; n₃ – частота класса, следующего за модальным; i – ширина классового интервала.

Медиана (М_е)- это значение признака. Относительно которого ряд распределения делится на 2 равные по объему части.

Выборочная средняя – это среднее арифметическое значение вариант статистического ряда

Выборочная дисперсия – среднее арифметическое квадратов отклонения вариант от их среднего значения:

Показатели вариации.

Вариация — это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение и является необходимым звеном в экономическом анализе. Необходимость изучения вариации связана с тем, что средняя, являясь равнодействующей, выполняет свою основную задачу с разной степенью точности: чем меньше различия индивидуальных значений признака, подлежащих осреднению, тем однороднее совокупность, а, следовательно, точнее и надежнее средняя, и наоборот. Следовательно по степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию.

Изменение вариации признака в совокупности осуществляется с помощью абсолютных и относительных показателей.

Абсолютные показатели вариации включают:

размах вариации
среднее линейное отклонение
дисперсию
среднее квадратическое отклонение

Размах вариации — это разность между максимальным и минимальным значениями признака

Среднее линейное отклонение — это средняя арифметическая из абсолютных отклонений отдельных значений признака от средней.

Среднее линейное отклонение простое:

Среднее квадратическое отклонение

Наиболее совершенной характеристикой вариации является среднее квадратическое откложение, которое называют стандартом (или стандартным отклонение). Среднее квадратическое отклонение () равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической:

Среднее квадратическое отклонение простое:

Дисперсия - представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины.

Дисперсия простая:

Дисперсия взвешенная:

Выборочные моменты, асимметрия, эксцесс.

Выборочным коэффициентом асимметрии называется число , определяемое формулой. Выборочный коэффициент асимметрии служит для характеристики асимметрии полигона (см. далее) вариационного ряда. Если полигон асимметричен, то одна из ветвей его, начиная с вершины, имеет более пологий «спуск», чем другая. В случае отрицательного коэффициента асимметрии более пологий «спуск» полигона наблюдается слева, в противном случае – справа. В первом случае асимметрию называют левосторонней, а во втором – правосторонней. Выборочным эксцессом или коэффициентом крутизны называется числоE^˜k, определяемое формулой . Выборочный эксцесс служит для сравнения на «крутость» выборочного распределения с нормальным распределением. Ранее подчеркивалось, что эксцесс для случайной величины, распределенной нормально, равен нулю. Поэтому за стандартное значение выборочного эксцесса принимаютE^˜k = 0. Если выборочному распределению соответствует отрицательный эксцесс, то соответствующий полигон имеет более пологую вершину по сравнению с нормальной кривой. В случае положительного эксцесса полигон более крутой по сравнению с нормальной кривой.

Статистические оценки параметров распределения. Несмещенность, состоятельность, эффективность.

Рассматривая x₁, x₂, …, x_n как независимые случайные величины x₁, x₂, …, x_n, можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – это значит найти функцию от наблюдаемых случайных величин, которая и даёт приближённое значение оцениваемого параметра.

Для того, чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определённым требованиям.

Смотрите также:


«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
Значение, сущность и содержание социально — педагогической деятельности в организации для детей-сирот и детей, оставшихся без попечения родителей
Проактивные методы PR-деятельности российских авиационных компаний «Россия», «Азимут»
__RGR2
__RGR2
_10_Эмиль Золя для эл версии
_11_А. Франс для эл версии
_2 тема-Дефекты (тезисы)

Материал: Теория к экзамену по Анализу данных

1.Основные задачи математической статистики. Виды и способы отбора.

2. Вариационные ряды и их графическое отображение.

Выборочное среднее и выборочная дисперсия. Мода и медиана.

Показатели вариации.

Среднее линейное отклонение простое:

Среднее квадратическое отклонение

Выборочные моменты, асимметрия, эксцесс.

Статистические оценки параметров распределения. Несмещенность, состоятельность, эффективность.

Смотрите также: