Семантическая дифференциальная шкала содержит серию двух полярных определений, характеризующих различные свойства изучаемого объекта. Так как многие маркетинговые стимулы основаны на мыслительных ассоциациях и отношениях, не выраженных явно, то данный тип шкалы часто используется при определении имиджа товарной марки, магазина и т.п.
При применении вышеназванных шкал возникает вопрос о целесообразности использования нейтральной точки. Все зависит от того, имеют или нет респонденты нейтральное мнение. Однозначной рекомендации по этому вопросу дать не представляется возможным.
То же самое можно сказать и относительно того, строить шкалу симметричной или несимметричной.
Существует великое множество вариантов шкал, построенных на основе изложенных принципов. Окончательный выбор обычно делается на основе испытания уровня надежности и точности измерений, проведенных с помощью различных вариантов шкал.
Описанные выше способы построения шкал не дают полного представления о свойствах полученных оценок. Необходимы дополнительные процедуры для выявления присущих этим оценкам ошибок. Назовем это проблемой надежности измерения.
В строгом смысле слова понятие надежности измерений правомерно относить именно к инструменту, с помощью которого производится измерение, но не к самим свойствам (параметрам, атрибутам), подлежащим измерению. В отношении свойств, как и заключительных выводов из исследования, правильнее говорить, что они достоверны (или относительно достоверны) и потому, что фиксированы надежным инструментом.
Проблема надежности решается путем выявления правильности измерения, устойчивости и обоснованности.
При изучении правильности устанавливается общая приемлемость данного способа измерения (шкалы или системы шкал). Непосредственно понятие правильности связано с возможностью учета в результате измерения различного рода систематических ошибок. Систематические ошибки имеют некоторую стабильную природу возникновения: либо они являются постоянными, либо меняются по определенному закону.
Устойчивость характеризует степень совпадения результатов измерения при повторных применениях измерительной процедуры и описывается величиной случайной ошибки. Она определяется постоянством подхода респондента к ответам на одинаковые или подобные вопросы.
Наиболее сложный вопрос надежности измерения — его обоснованность. Обоснованность связана с доказательством того, что измерено вполне определенное заданное свойство объекта, а не некоторое другое, более или менее на него похожее.
При установлении надежности следует иметь в виду, что в процессе измерения участвуют три составляющие: объект измерения, измеряющие средства, с помощью которых производится отображение свойств объекта на числовую систему, и субъект (интервьюер), производящий измерение. Предпосылки надежного измерения кроются в каждой отдельной составляющей.
Прежде всего, когда в качестве объекта измерения выступает человек. то он в отношении измеряемого свойства может обладать значительной степенью неопределенности. Так, зачастую у респондента нет четкой иерархии жизненных ценностей, а следовательно, нельзя получить и абсолютно точные данные, характеризующие важность для него тех или иных явлений. Он может быть плохо мотивирован, вследствие чего невнимательно отвечает на вопросы. Однако только в последнюю очередь следует искать причину ненадежности оценок в самом респонденте.
С другой стороны, может быть, что измеряющие средства (способ получения оценки) не в состоянии дать максимально точных значений измеряемого свойства. Например, у респондента существует развернутая иерархия ценностей, а для получения информации используется шкала с вариациями ответов только «очень важно» и «совсем неважно». Как правило, из приведенного набора все ценности помечаются ответами «очень важно», хотя реально у респондента имеется большее число уровней значимости.
Наконец, при наличии высокой точности первых двух составляющих измерения субъект, производящий измерение, допускает грубые ошибки; нечетко составлены инструкции к анкете; интервьюер каждый раз по-разному формулирует один и тот же вопрос, используя различную терминологию.
Например, в процессе интервью, в ходе которого должна быть выявлена система ценностей опрашиваемого, интервьюер не смог довести до респондента суть опроса, не смог добиться доброжелательного отношения к исследованию и пр.
Каждая составляющая процесса измерения может быть источником ошибки, связанной либо с устойчивостью, либо с правильностью, либо с обоснованностью. Однако, как правило, исследователь не в состоянии разделить эти ошибки по источникам их происхождения и поэтому изучает ошибки устойчивости, правильности и обоснованности всего измерительного комплекса в совокупности. При этом правильность (как отсутствие систематических ошибок) и устойчивость информации — элементарные предпосылки надежности. Наличие существенной ошибки в этом отношении уже сводит на нет проверку данных измерения на обоснованность.
В отличие от правильности и устойчивости, которые могут быть измерены достаточно строго и выражены в форме числового показателя, критерии обоснованности определяются либо на основе логических рассуждений, либо на основе косвенных показателей. Обычно применяется сравнение данных одной методики с данными других методик или исследований.
Прежде чем приступать к изучению таких компонентов надежности, как устойчивость и обоснованность, необходимо убедиться в правильности выбранного инструмента измерения.
Измерение может быть вполне точным и вместе с тем неправильным, постоянно воспроизводя какую-то систематическую ошибку, как это случается с испорченным термометром, в котором ртутный столбик изначально был фиксирован на неверной исходной отметке и постоянно завышает температуру, скажем, на 0,8 градуса.
При измерении социальных, маркетинговых атрибутов проблема правильности, т.е. отсутствия отклонений от истинного значения измеряемого свойства, намного сложнее, ибо часто мы в принципе не способны установить, каковы же эти истинные значения измеряемых свойств (скажем, мнений людей по каким-то вопросам). Мы можем лишь, сопоставляя разные способы фиксирования данного свойства, добиваться устранения замеченных систематических ошибок.
Возможно, что последующие этапы окажутся излишними, если в самом начале выяснится полная неспособность данного инструмента измерения на требуемом уровне дифференцировать изучаемую совокупность, иначе говоря, если окажется, что систематически не используется какая-то часть шкалы либо та или иная градация шкалы или вопроса. И наконец, возможно, что исходный признак не обладает дифференцирующей способностью в отношении объекта измерения.
Прежде всего нужно ликвидировать или уменьшить такого рода недостатки шкалы и только затем использовать ее в исследовании.
К числу недостатков используемой шкалы прежде всего следует отнести отсутствие разброса ответов по значениям шкалы. Попадание ответов в один пункт свидетельствует о полной непригодности измерительного инструмента — шкалы. Такая ситуация может возникнуть или из-за «нормативного» давления в сторону общепринятого мнения, или из-за того, что градации (значения) шкалы не имеют отношения к распределению данного свойства у рассматриваемых объектов (нерелевантны).
Например, при опросе все ответы концентрируются в позитивном или только в негативном конце шкалы. Конечно, это может быть и результатом единодушия оценок, но может быть и результатом того, что сама шкала неудачна, например, содержит какой-то пункт, сформулированный с сильным нормативным давлением на опрашиваемых. Допустим, задан вопрос об употреблении алкоголя, и крайне негативный вариант ответа гласит: «Я пью систематически и обычно до бесчувственного состояния». Сомнительно, чтобы даже заведомый алкоголик отметил такой пункт как показатель своего отношения к спиртному. Скорее всего, он выберет суждение менее неприятного свойства, например: «Я выпиваю довольно часто». Крайне отрицательный пункт шкалы здесь «не работает», он отпугивает. Вследствие этого шкала спроектирована неправильно.
Другой пример. Если все опрашиваемые респонденты согласны с утверждением «хорошо, когда строительный инструмент является универсальным», нет ни одного ответа «не согласен», то подобная шкала не поможет дифференцировать отношение респондентов к разным типам строительных инструментов.
Использование части шкалы. Довольно часто обнаруживается, что практически работает лишь какая-то часть шкалы, какой-то один из ее полюсов с прилегающей более или менее обширной зоной.
Так, если респондентам для оценки предлагается шкала, имеющая положительный и отрицательный полюса, в частности от +3 до -3, то при оценивании какой-то заведомо положительной ситуации респонденты не используют отрицательные оценки, а дифференцируют свое мнение лишь с помощью положительных. Для того чтобы вычислить значение относительной ошибки измерения, исследователь должен знать определенно, какой же метрикой пользуется респондент — всеми семью градациями шкалы или только четырьмя положительными. Так, ошибка измерения в 1 балл мало о чем говорит, если мы не знаем, какова действительная вариация мнений.
Для вопросов, имеющих качественные градации ответов, можно применять подобное требование в отношении каждого пункта шкалы: каждый из них должен набирать не менее 5% ответов, в противном случае считаем этот пункт шкалы неработающим. Требование 5%-ного уровня наполнения каждой градации шкалы не следует рассматривать как строго обязательное; в зависимости от задач исследования могут быть выдвинуты большие или меньшие значения этих уровней.
Определение грубых ошибок. В процессе измерения иногда возникают грубые ошибки, причиной которых могут быть неправильные записи исходных данных, плохие расчеты, неквалифицированное использование измерительных средств и т.п. Это обнаруживается в том, что в рядах измерений попадаются данные, резко отличающиеся от совокупности всех остальных значений. Чтобы выяснить, нужно ли эти значения признать грубыми ошибками, устанавливают критическую границу, так чтобы вероятность того, что крайние значения превысят ее, была бы достаточно малой и соответствовала бы некоторому уровню значимости а. Это правило основано на том, что появление в выборке чрезмерно больших значений хотя и возможно как следствие естественной вариабельности значений, но маловероятно.
Если окажется, что какие-то крайние значения совокупности принадлежат ей с очень малой вероятностью, то такие значения признаются грубыми ошибками и исключаются из дальнейшего рассмотрения. Выявление грубых ошибок особенно важно проводить для выборок малых объемов: не будучи исключенными из анализа, они существенно искажают параметры выборки. Для этого используются специальные статистические критерии определения грубых ошибок.
Итак, дифференцирующая способность шкалы как первая существенная характеристика ее надежности предполагает: обеспечение достаточного разброса данных; выявление фактического использования респондентом предложенной протяженности шкалы; анализ отдельных «выпадающих» значений; исключение грубых ошибок. После того как установлена относительная приемлемость используемых шкал в указанных аспектах, следует переходить к выявлению устойчивости измерения по этой шкале.
Существует несколько приемов проверки устойчивости измерений: повторное измерение (тестирование); включение в анкету эквивалентных вопросов и разделение выборки на две части.
Наиболее распространенный прием контроля на устойчивость — повторное измерение — состоит во вторичном проведении проверяемого измерения в одной и той же выборке через определенный промежуток времени. Зачастую достаточно сложно установить длительность промежутка между двумя измерениями. С одной стороны, он должен быть возможно меньше, чтобы избежать вероятных изменений измеряемого признака. С другой стороны, он должен быть достаточно большим, чтобы исключить эффект запоминаемости первичного исследования. Последнее противоречило бы требованию независимости опытов друг от друга. Дать общую установку в отношении длительности промежутка времени между опытами практически невозможно. Последняя определяется целью исследования, в котором применяется данная процедура, сложностью для запоминания даваемых ответов, изменчивостью условий проведения измерений, стабильностью параметров измерения, мотивационными изменениями и др. Обычно один и тот же объект измеряется дважды с двух-, трехнедельным временным интервалом и с помощью одинаковой процедуры. Шкала считается устойчивой, если совпадения между первой и второй сериями измерений будут достаточно высокими.
В отличие от проверки на устойчивость измерения физических объектов исследователь сталкивается здесь с особой проблемой — влиянием психологической установки человека, возникающей после первого измерения. Люди могут намеренно или непроизвольно подгонять данные второго измерения к предыдущему. Или же, напротив, интуитивно сопротивляясь повторному эксперименту, они покажут новые результаты.
Простейший способ снять влияние установки первого измерения - производить повторное измерение спустя достаточное время после первого (например, через две недели) и на достаточно большой выборке испытуемых (около 50 человек).
Включение в анкету эквивалентных вопросов предполагает использование в одной анкете вопросов по той же проблеме, но сформулированных по-другому. Их респондент должен воспринимать как разные вопросы. Главная опасность данного метода заключается в степени эквивалентности вопросов; если это не достигается, то респондент отвечает на разные вопросы.
Разделение выборки на две части основано на сравнении ответов на вопросы двух групп респондентов. Предполагается, что эти две группы являются идентичными по своей композиции и что средние оценки ответов для этих двух групп являются очень близкими. Все сравнения делаются только на групповой основе, поэтому сравнение внутри группы проводить невозможно.
Вследствие данного недостатка этот метод оценки устойчивости измерений является наименее популярным.
О высокой устойчивости шкалы можно говорить лишь в том случае, если повторные измерения с ее помощью одних и тех же объектов дают сходные результаты. Если устойчивость проверяют на одной и той же выборке, то часто оказывается достаточным сделать два последовательных замера с определенным временным интервалом — таким, чтобы этот промежуток был не слишком велик, чтобы сказалось изменение самого объекта, но и не слишком мал, чтобы респондент мог по памяти «подтягивать» данные второго замера к предыдущему (т. е. его протяженность зависит от объекта изучения и колеблется от двух до трех недель).
Для повышения устойчивости измерения необходимо выяснить различительные возможности пунктов используемой шкалы, что предполагает четкую фиксацию респондентами отдельных значений: каждая оценка должна быть строго отделена от соседней. На практике это означает. что в последовательных пробах респонденты четко повторяют свои оценки. Следовательно, высокой различимости делений шкалы должна соответствовать малая ошибка.
Эту же задачу можно описать в терминах чувствительности шкалы. которая характеризуется количеством делений, приходящихся на одну и ту же разность в значениях измеряемой величины, т. е. чем больше градаций в шкале, тем больше ее чувствительность. Однако чувствительность нельзя повышать простым увеличением дробности, ибо высокая чувствительность при низкой устойчивости является излишней (например, шкала в 100 баллов, а ошибка измерения ±10 баллов).
Но и при малом числе градаций, т.е. при низкой чувствительности, может быть низкая устойчивость, и тогда следует увеличить дробность шкалы. Так бывает, когда респонденту навязывают категорические ответы «да», «нет», а он предпочел бы менее жесткие оценки. И потому он выбирает в повторных испытаниях иногда «да», иногда «нет».
Итак, следует найти некоторое оптимальное соотношение между чувствительностью и устойчивостью. Рекомендуется использовать столько градаций в шкале, чтобы абсолютная ошибка измерения не превышала 0,5 деления шкалы (балла).
Если ошибка меньше 0,5 балла, то в последовательных опросах ответы в среднем будут совпадать. В то же время если ошибка вообще отсутствует, то не исключено, что шкала обладает заниженной чувствительностью.
Существуют способы, позволяющие добиться требуемой чувствительности.
На основе данных двух последовательных проб определяем пороги различаемости градаций шкалы. В том случае если обнаружено смешение градаций, применяют один из двух способов.
Первый способ. В итоговом варианте уменьшают дробность шкалы (например, из шкалы в 7 интервалов переходят на шкалу в 3 интервала).
Второй способ. Для предъявления респонденту сохраняют прежнюю дробность шкалы и только при обработке укрупняют соответствующие ее пункты.
Второй способ кажется предпочтительнее, поскольку', как правило, большая дробность шкалы побуждает респондента и к более активной реакции. При обработке данных информацию следует перекодировать в соответствии с проведенным анализом различительной способности исходной шкалы.
Итак, предложенные способы анализа целесообразны при отработке окончательного варианта методики. Анализ устойчивости отдельных вопросов шкалы позволяет:
а) выявить плохо сформулированные вопросы. и\ неадекватное понимание разными респондентами;
б) уточнить интерпретацию шкалы, предложенной для оценки того или иного явления, и выявить более оптимальный вариант дробности значения шкалы.
Изучение устойчивости окончательного варианта методики даст представление о надежности данных (связанной с устойчивостью), которые будут получены в основном исследовании:
Обоснованность измерения. Проверка обоснованности шкалы предпринимается лишь после того, как установлены достаточные правильность и устойчивость измерения исходных данных. Как уже отмечалось, проверка обоснованности — достаточно сложный процесс и, как правило, не до конца разрешимый. И поэтому нецелесообразно сначала применять трудоемкую технику для выявления обоснованности, а после этого убеждаться в неприемлемости данных вследствие их низкой устойчивости.
Обоснованность данных измерения — это доказательство соответствия между тем, что измерено, и тем, что должно было быть измерено.
Например, предположим, что при опросе телезрителей им предлагают указать, каким из перечисленных в списке передачам изучаемый канал телевидения уделяет «слишком много», «достаточно» и «слишком мало» времени. Если с помощью этой шкалы исследователь намерен фиксировать среднее время, отводимое телепередачам, его измерение будет необоснованным. В действительности он измеряет отношение людей к данным передачам, а не объем времени, отводимого для их трансляции.
Обоснованное измерение объема времени на передачи разного типа — документальный анализ сетки программ данного телевизионного канала.
Некоторые исследователи предпочитают исходить из так называемой матичной обоснованности, т. е. обоснованности в понятиях использованной процедуры. Например, считают, что удовлетворенность товаром — это то свойство, которое содержится в ответах на вопрос: «Удовлетворены ли вы товаром?» В серьезном маркетинговом исследовании такой сугубо эмпирический подход может оказаться неприемлемым.
Остановимся на возможных формальных подходах к выяснению уровня обоснованности методики. Их можно разделить на три группы:
1) конструирование типологии в соответствии с целями исследования на базе нескольких признаков;
2) использование параллельных данных;
3) судейские процедуры.
Подходы первой группы считать полностью формальными методами — это всего лишь некоторая схематизация логических рассуждений, начато процедуры обоснования, которая может быть на этом и закончена, а может быть подкреплена более мощными средствами.
Реализация подходов второй группы требует использования по крайней мере двух источников для выявления одного и того же свойства. Обоснованность определяется степенью согласованности соответствующих данных.
В третьем случае мы полагаемся на компетентность судей, которым предлагается определить, измеряем ли мы нужное нам свойство или что-то иное.
Конструированная типология. Один из способов — использование контрольных вопросов, которые в совокупности с основными дают большее приближение к содержанию изучаемого свойства, раскрывая различные его стороны.
Обоснованность в подобного рода типологии не доказывается каким-либо формальным критерием и опирается на логические доводы.
Единственное требование, которое может быть выдвинуто при конструировании такого рода типологии, — это положительная корреляция между составляющими ее признаками. Отсутствие положительной взаимосвязи между вопросами может свидетельствовать о том, что мы не понимаем сущности измеряемого явления.
Выявление уровня обоснованности измерений обычно основано не только на логических рассуждениях, но и на использовании опыта и здравого смысла.
Параллельные данные. Нередко целесообразно разработать два равноправных приема измерения заданного признака, что позволяет установить обоснованность методов относительно друг друга, т.е. повысить общую обоснованность путем сопоставления двух независимых результатов.
Классифицируем параллельные процедуры' в зависимости от соотношения методов и исполнителей: