Материал: ЛекцМаркИссл(т.1-3)

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Например, автомобилестроительная компания провела два независи­мых исследования с целью определения степени удовлетворенности по­требителей своими автомобилями. Первая выборка включала 100 потреби­телей, купивших данную модель в течение последних шести месяцев. Вто­рая выборка включала 1000 потребителей. В ходе телефонного интервью­ирования респонденты отвечали на вопрос: «Удовлетворены вы или не удовлетворены купленной вами моделью автомобиля?» Первый опрос выявил 30% неудовлетворенных, второй — 35%.

Поскольку существуют ошибки выборки и в первом и во втором случаях, то можно сделать следующий вывод. Для первого случая: около 30% опрошенных выразили неудовлетворенность купленной моделью автомобиля. Для второго случая около 35% опрошенных выразили не­удовлетворенность купленной моделью автомобиля. Какой же общий вывод можно сделать в данном случае? Как избавиться от термина «око­ло»? Для этого введем показатель ошибки: 30% ± х% и 35% ± у% и срав­ним х и у. Используя логический анализ, можно сделать вывод, что боль­шая выборка содержит меньшую ошибку и что на ее основе можно сде­лать более правильные выводы о мнении всей совокупности потребите­лей. Видно, что решающим фактором для получения правильных выводов является размер выборки. Данный показатель присутствует во всех форму­лах, определяющих содержание различных методов статистического вы­вода.

При проведении маркетинговых исследований чаще всего использу­ются следующие методы статистического вывода: оценка параметров и проверка гипотез.

Оценка параметров генеральной совокупности представляет из себя процесс определения, исходя из данных о выборке, интервала, в кото­ром находится один из параметров генеральной совокупности, напри­мер среднее значение. Для этого используют следующие статистические показатели: средние величины, среднюю квадратическую ошибку и жела­емый уровень доверительности (обычно 95 или 99%).

Ниже пойдет разговор об их роли при проведении оценки парамет­ров.

Средняя квадратическая ошибка является, как отмечалось выше, ме­рой вариации выборочного распределения при теоретическом предполо­жении, что исследовалось множество независимых выборок одной и той же генеральной совокупности.

Она определяется по следующей формуле:

где sx — средняя квадратическая ошибка выборочной средней;

s — среднее квадратическое отклонение от средней величины в выборке;

n — объем выборки.

Если используются процентные меры, выражающие альтернативную изменчивость качественных признаков, то

где s — средняя квадратическая ошибка выборочной средней при использова­нии процентных мер;

р — процент респондентов в выборке, поддержавших первую альтернативу;

q = (100 — q) — процент респондентов в выборке, поддержавших вторую

альтернативу;

n — объем выборки.

Видно, что средняя ошибка выборки тем больше, чем больше вариа­ция, и тем меньше, чем больше объем выборки.

Поскольку всегда существует выборочная ошибка, то необходимо оценить разброс значений изучаемого параметра генеральной совокуп­ности. Предположим, исследователь выбрал уровень доверительности, равный 99%. Из свойств нормальной кривой распределения вытекает, что ему соответствует параметр Z= ±2,58. Средняя для генеральной сово­купности в целом вычисляется по формуле

Если используются процентные меры, то

Это означает, что если вы хотите, чтобы при 99%-ном уровне довери­тельности диапазон оценок включал истинную для генеральной совокуп­ности оценку, то необходимо умножить среднюю квадратическую ошиб­ку на 2,58 и добавить полученный результат к процентному значению р (верхняя предельная оценка). Если же произвести вычитание данного произведения, то найдем нижнюю предельную оценку.

Как эти формулы связаны со статистическим выводом?

Поскольку производится оценка параметра генеральной совокупно­сти, то здесь указывается диапазон, в который попадает истинное зна­чение параметра генеральной совокупности. С этой целью для выборки берутся статистическая мера центральной тенденции, величина диспер­сии и объем выборки. Далее делается предположение об уровне довери­тельности и рассчитывается диапазон разброса параметра для генераль­ной совокупности.

Например, для членов выборки (100 читателей какой-то газеты) было установлено, что среднее время чтения газеты составляет 45 минут при средней квадратической ошибке в 20 минут. При уровне доверительнос­ти, равном 95%, получим

41,1 — 48,9 минуты.

При 99%-ном уровне доверительности получим

39,8 — 50,2 минуты.

Видно, что доверительный интервал шире для 99% по сравнению с 95%-ным уровнем доверительности.

Если используются проценты и оказалось, что из выборки в 100 человек 50% опрошенных по утрам пьет кофе, то при уровне довери­тельности в 99% получим следующий диапазон оценок:

Таким образом, логика статистического вывода направлена на получе­ние конечных заключений об изучаемом параметре генеральной совокуп­ности на основе выборочного исследования, осуществленного по зако­нам математической статистики. Если используется простое заключение, не основанное на статистических измерениях, то конечные выводы носят субъективный характер и на основе одних и тех же фактов разные специ­алисты могут сделать разные выводы.

При использовании статистического вывода используются форму­лы, носящие объективный характер, в основе которых лежат обще­признанные статистические концепции. В результате конечные выводы носят намного более объективный характер.

В ряде случаев делаются суждения относительно какого-то параметра генеральной совокупности (величине средней, дисперсии, характере рас­пределения, форме и тесноте связи между переменными) исходя только из некоторых предположений, размышлений, интуиции, не­полных знаний. Такие суждения называются гипотезами.

Статистической гипотезой называется предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на дан­ные выборки.

Под проверкой гипотезы понимается статистическая процедура, приме­няемая для подтверждения или отклонения гипотезы, основанной на результатах выборочных исследований. Проверка гипотезы осуществляет­ся на основе выявления согласованности эмпирических данных с гипоте­тическими. Если расхождение между сравниваемыми величинами не вы­ходит за пределы случайных ошибок, гипотезу принимают. При этом не делается никаких заключений о правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных.

Проверка гипотезы проводится в пять этапов:

1. Делается некоторое предположение относительно какой-то характе­ристики генеральной совокупности, например о средней величине опре­деленного параметра.

2. Формируется случайная выборка, проводится выборочное исследо­вание и определяются статистические показатели выборки.

3. Сравниваются гипотетическое и статистическое значения исследу­емой характеристики.

4. Определяется, соответствуют или нет результаты выборочного ис­следования принятой гипотезе.

5. Если результаты выборочного исследования не подтверждают ги­потезу, последняя пересматривается — она должна соответствовать дан­ным выборочного исследования.

Вследствие вариации результатов выборочных исследований невоз­можно сделать абсолютно точный вывод о достоверности гипотезы, проводя простое арифметическое сравнение величин характеристик. Поэтому статистическая проверка гипотезы включает использование: выборочного значения характеристики, среднего квадратического от­клонения, желательного уровня доверительности и гипотетического зна­чения характеристики для генеральной совокупности в целом.

Для проверки гипотез о средних величинах применяется следующая формула:

(3.8)

где х — средняя для выборки;

μh — гипотетическое значение средней;

sxs— средняя квадратическая ошибка средней.

Например, готовя рекламу учебной программы по подготовке торго­вых агентов в колледже, руководитель программы считал, что выпускни­ки программы получают в среднем 1750 долларов в месяц. Таким обра­зом, гипотетическая средняя для генеральной совокупности равна 1750 долларам. Для проверки данной гипотезы было проведено телефонное обследование торговых агентов разных фирм.

Выборка составила 100 человек, средняя для выборки равнялась 1800 долларам и среднее квадратическое отклонение составляло 350 долларов. Возникает вопрос, является ли большой разница (50 долларов) между гипотетической зарплатой и ее средним значением для выборки. Про­водим расчеты по формуле (3.8):

Видно, что средняя квадратическая ошибка средней величины была равна 35 долларам, а частное от деления 50 на 45 составляет 1,43 (норми­рованное отклонение), что меньше ±1,96 — величины, характеризующей уровень доверительности 95%. В данном случае выдвинутую гипотезу мож­но признать достоверной.

При использовании процентной меры испытание гипотезы осуществ­ляется следующим образом. Предположим, что, исходя из собственного опыта, один из автолюбителей выдвинул гипотезу, согласно которой только 10% автолюбителей используют ремни безопасности. Однако на­циональные выборочные исследования 1000 автолюбителей показали, что 80% из них используют ремни безопасности. Расчеты в данном случае проводятся следующим образом:

где р — процент из выборочных исследований;

πH— процент из гипотезы;

sp — средняя квадратическая ошибка при расчетах в процентах.

Видно, что первоначальная гипотеза отличалась от найденных 80% на величину 55,3, умноженную на среднеквадратическую ошибку, т.е. не может быть признана достоверной.

В ряде случаев целесообразно использовать направленные гипотезы. Направленные гипотезы определяет направления возможных значений какого-то параметра генеральной совокупности. Например, заработная плата составляет больше 1750 долларов. В данном случае используется только одна сторона кривой распределения, что находит отражение в применении знаков «+» и «—» в расчетных формулах.

Здесь, правда, возникает вопрос. Если можно провести выбороч­ные исследования, то зачем выдвигать гипотезы? Обработка резуль­татов выборочных исследований дает возможность получить средние величины и их статистические характеристики, не выдвигая ника­ких гипотез. Поэтому проверка гипотез скорее применяется в случа­ях, когда невозможно или чрезвычайно трудоемко проводить пол­номасштабные исследования и когда требуется сравнивать результаты нескольких исследований (для разных групп респондентов или прове­денных в разное время). Такого рода задачи, как правило, возникают в социальной статистике. Трудоемкость статистико-социологических исследований приводит к тому, что почти все они строятся на не­ сплошном учете. Поэтому проблема доказательности выводов в социальной статистике стоит особенно остро.

Применяя процедуру проверки гипотез, следует помнить, что она может гарантировать результаты с определенной вероятностью лишь по «бес­пристрастным» выборкам, на основе объективных данных.

Анализ различий. Проверка существенности различий заключается в сопоставлении от­ветов на один и тот же вопрос, полученных для двух или более незави­симых групп респондентов. Кроме того, в ряде случаев представляет интерес сравнение ответов на два или более независимых вопросов для одной и той же выборки.

Примером первого случая может служить изучение вопроса: что пред­почитают пить по утрам жители определенного региона: кофе или чай. Первоначально было опрошено на основе формирования случайной вы­борки 100 респондентов, 60% которых отдают предпочтение кофе; через год исследование было повторено, и только 40% из 300 опрошенных человек высказалось за кофе. Как можно сопоставить результаты этих двух исследований? Прямым арифметическим путем сравнивать 40% и 60% нельзя из-за разных ошибок выборок. Хотя в случае больших различий в цифрах, скажем, 20% и 80%, легче сделать вывод об изменении вкусов в пользу кофе. Однако если есть уверенность, что эта большая разница обусловлена прежде всего тем, что в первом случае использовалась очень малая выборка, то такой вывод может оказаться сомнительным. Таким образом, при проведении подобного сравнения в расчет необходимо при­нять два критических фактора: степень существенности различий между величинами параметра для двух выборок и средние квадратические ошиб­ки двух выборок, определяемые их объемами.

Для проверки, является ли существенной разница измеренных сред­них, используется нулевая гипотеза. Нулевая гипотеза предполагает, что две совокупности, сравниваемые по одному или нескольким призна­кам, не отличаются друг от друга. При этом предполагается, что дей­ствительное различие сравниваемых величин равно нулю, а выявленное по данным отличие от нуля носит случайный характер.

Для проверки существенности разницы между двумя измеренными средними (процентами) вначале проводится их сравнение, а затем по­лученная разница переводится в значение среднеквадратических ошибок и определяется, насколько далеко они отклоняются от гипотетического нулевого значения.

Как только определены среднеквадратические ошибки, становится известной площадь под нормальной кривой распределения и появляет­ся возможность сделать заключение о вероятности выполнения нулевой гипотезы.

Рассмотрим следующий пример. Попытаемся ответить на вопрос: «Есть ли разница в потреблении прохладительных напитков между девушками и юношами?» При опросе был задан вопрос относительно числа банок прохладительных напитков, потребляемых в течение недели. Описатель­ная статистика показала, что в среднем юноши потребляют 9, а девушки 7,5 банки прохладительных напитков. Средние квадратические отклоне­ния, соответственно, составили 2 и 1,2. Объем выборок в обоих случаях составлял 100 человек. Проверка статистически значимой разницы в оцен­ках осуществлялась следующим образом:

где х1 и х2 — средние для двух выборок;

s1 и s2 — средние квадратические отклонения для двух выборок;

n1 и n2 — объем, соответственно, первой и второй выборок.

Числитель данной формулы характеризует разницу средних. Кроме того, необходимо учесть различие формы двух кривых распределения. Это осу­ществляется в знаменателе формулы. Выборочное распределение теперь рассматривается как выборочное распределение разницы между средни­ми (процентными мерами). Если нулевая гипотеза справедлива, то рас­пределение разницы является нормальной кривой со средней равной нулю и средней квадратической ошибкой, равной 1.

Видно, что величина 6,43 существенно превышает значение ±1,96 (95%-ный уровень доверительности) и ±2,58 (99%-ный уровень довери­тельности). Это означает, что нулевая гипотеза не является истинной.

На рис. 4.6 приводятся кривые распределения для этих двух сравнива­емых выборок и средняя квадратическая ошибка кривой разницы. Сред­няя квадратическая ошибка средней кривой разницы равна 0. Вследствие большого значения среднеквадратических ошибок вероятность справед­ливости нулевой гипотезы об отсутствии разницы между двумя средними меньше 0,001.

Рис. 3.1. Проверка нулевой гипотезы

Результаты испытания интерпретируются следующим образом. Если бы гипотеза была истинной, то, образовав большое число выборок, проводя каждый раз аналогичные сравнения, пришли бы к выводу, что 99% раз­ницы будет лежать в границах ±2,58 среднеквадратической ошибки нуле­вой разницы. Безусловно, может быть сделано только одно сравнение и можно полагаться только на концепцию выборочного распределения.

Определение и интерпретация связей между двумя переменными. Очень часто маркетолог ищет ответы на вопросы типа: «Увеличится ли показатель рыночной доли при увеличении числа дилеров?», «Есть ли связь между объемом сбыта и рекламой?» Такие связи не всегда имеют

причинно-следственный характер, а могут иметь просто статистическую природу. В поставленных вопросах можно определенно говорить о влиянии одного фактора на другой. Однако степень влияния изучаемых факторов может быть различной; скорее всего, влияние могут оказывать также какие-то другие факторы. Выделяют четыре типа связей между двумя перемен­ными: немонотонная, монотонная, линейная и криволинейная.

Немонотонная связь характеризуется тем, что присутствие (отсутствие) одной переменной систематически связано с присутствием (отсутствием) другой переменной, но ничего неизвестно о направлении этого взаимо­действия (приводит ли, например, увеличение одной переменной к уве­личению или уменьшению другой). Например, известно, что посетители закусочных в утренние часы предпочитают заказывать кофе, а в середине дня — чай.

Немонотонная связь просто показывает, что утренние посетители пред­почитают также заказывать яйца, бутерброды и бисквиты, а в обеденное время скорее заказывают мясные блюда с гарниром.

Монотонная связь характеризуется возможностью указать только общее направление связи между двумя переменными без использования каких-либо количественных характеристик. Нельзя сказать, насколько, напри­мер, определенное увеличение одной переменной приводит к увеличе­нию другой переменной. Существуют только два типа таких связей: уве­личение и уменьшение. Например, владельцу обувного магазина извест­но, что более взрослые дети обычно требуют обувь больших размеров. Однако невозможно четко установить связь между конкретным возрастом и точным размером обуви.

Линейная связь характеризует прямолинейную зависимость между дву­мя переменными. Знание количественной характеристики одной пере­менной автоматически предопределяет знание величины другой перемен­ной:

у = а + bх, (3.9)

где у — оцениваемая или прогнозируемая зависимая переменная (результа­тивный признак);

а — свободный член уравнения;

х — независимая переменная (факторный признак), используемая для определения зависимой переменной;

b — коэффициент регрессии, измеряющий среднее отношение отклоне­ния результативного признака от его средней величины к отклоне­нию факторного признака от его средней величины на одну едини­цу его измерения — вариация у, приходящаяся на единицу вариа­ции х.

Коэффициенты а и b рассчитываются на основе наблюдений величин у и х с помощью метода наименьших квадратов [19].

Предположим, что торговый агент продает детские игрушки, посещая квартиры случайным образом. Отсутствие посещения какой-то квартиры означает отсутствие продажи, или а = 0. Если в среднем каждый десятый визит сопровождается продажей на 62 доллара, то стоимость продажи на один визит составит 6,2 доллара, или b = 6,2.

Тогда

у = 0 + 6,2х.

Таким образом, можно ожидать, что при 100 визитах доход составит 620 долларов. Надо помнить, что эта оценка не является обязательной, а носит вероятностный характер.

Криволинейная связь характеризует связь между переменными, нося­щую более сложный характер по сравнению с прямой линией. Например, связь между переменными может описываться S-образной кривой.