Система выборочных исследований

Основные понятия, используемые при проведении выборочных исследований. Виды выборки 

Проанализируем основные понятия, используемые при проведении маркетинговых исследований. На этом этапе необходимо получить информацию о параметрах «группы», среди членов которой будут проводиться маркетинговые исследования. Такая «группа» в статистике называется генеральной совокупностью или просто совокупностью. Если быть более точным, то под генеральной совокупностью понимаются все представители, носители какого-либо важного признака всех избирателей, всех потребителей товаров и т.п. Иногда совокупность бывает небольшой, и ее изучают целиком. Реально всю совокупность охватить невозможно, поэтому изучают только ее часть, которая и называется выборкой.

Выборка – основное понятие маркетинговых исследований. Так как выборка составляет только часть совокупности, то полученные данные от выборки естественно не будут точными. И это различие данных от выборки и от обследования всей совокупности будут называться ошибкой выборки.

Ошибка выборки обуславливается двумя факторами:

·  методом формирования выборки;

·  размером выборки.

Формирование выборки, основывается на знании контура выборки, под которым понимается список всех единиц совокупности, из которых выбираются единицы выборки. Контур выборки обычно содержит ошибку, называемую ошибкой контура выборки. Она характеризует степень отклонения от истинных размеров совокупности. Исследователь обязан проинформировать заказчика работы о размерах ошибки контура выборки.

В процессе формирования выборки исследователи сталкиваются с рядом проблем. Необходимо в первую очередь определить, кто является единицей выборки. Также важно правильно найти метод, с помощью которого выбираются единицы выборки из контура выборки. И в завершении необходимо решить вопрос об объеме выборки, о числе изучаемых единиц выборки.

В процессе формирования выборки используют вероятностные случайные и не вероятностные (неслучайные) методы.

Если все единицы выборки имеют вероятность быть включенными в выборку, то выборка называется вероятностной. Если вероятность неизвестна, то выборка называется неслучайной (невероятностной).

Вероятностные методы включают в свой состав:

·  простой случайный отбор;

·  систематический отбор;

·  кластерный отбор;

·  стратифицированный отбор.

Простой случайный отбор означает, что вероятность быть избранным в выборку известна и является одинаковой для всех единиц совокупности.

Вероятность быть включенными в выборку определяется отношением объема выборки к размеру совокупности.

Простой случайный отбор осуществляется с помощью следующих методов:

·  формированием выборки вслепую;

·  с помощью таблицы случайных чисел.

В процессе формирования выборки вслепую единицы совокупности в соответствии с их фамилиями, названиями или другими признаками вносятся в карточки, которые в перемешанном виде помещаются в какую-то непрозрачную емкость (ящик, коробку и т.п.) Из этой емкости кто-то случайным образом вытягивает число карточек, определяемых объемом выборки. Использование таблицы случайных чисел имеет свои особенности. В ней содержатся числа, порядок включения которых в таблицу осуществлен случайным образом. Затем единицам совокупности присваивают порядковые номера. В таблице случайных чисел выбирают любую начальную точку, и двигаясь в произвольном направлении и произвольно меняя направления движения, выбирают необходимое количество номеров из числа присвоенных, равное заранее установленному объему выборки.

Использование простого случайного отбора гарантирует, что каждая единица совокупности известна и имеет равные шансы быть включенным в выборку. Но использование этих методов требует предварительного определения каждой единицы совокупности. Сформировать больших размеров совокупность достаточно сложно, а часто и невозможно.

Этот недостаток существенно снижается при использовании компьютера для присвоения единицам совокупности номеров. Последнее заметно облегчает формирование выборки. При телефонном интервью компьютер может генерировать случайным образом телефонные номера: он имеет генератор случайных чисел.

В процессе использования метода систематического отбора, также как и при использовании простого случайного отбора, необходимо получить полный список единиц генеральной совокупности. В дальнейшем вместо присвоения порядковых номеров используется показатель «интервал скачка», рассчитываемый как отношение размера совокупности к объему выборки.

Например, если использовать телефонный справочник и интервал скачка был бы определен равным 250, то это означает, что каждый 250-й телефонный номер включается в выборку.

Для определения начальных страниц и колонки справочника используются случайные числа.

Метод систематического отбора является наиболее экономичным и требует меньше затрат времени в сравнении с методом простого случайного отбора. Вместе с тем, данный метод дает менее репрезентативные результаты в сравнении с методами простого случайного отбора. Метод систематического отбора может широко использоваться, когда для различных совокупностей существуют справочники, списки и другие материалы.

Метод кластерного отбора основан на делении совокупности на подгруппы, каждая из которых представляет совокупность в целом.

Для уяснения этого метода рассмотрим простой пример: исследуется мнение населения какого-либо региона относительно какого-то товара. Регион разбивается на четко определяемые части, например области. Исследователь предполагает, что выделенные кластеры являются идентичными и мнения населения этих областей характерно для региона в целом. Далее одна из областей выбирается  случайным образом, определяется совокупность для этой области, проводится в ней соответствующие исследования, а выводы обобщаются на совокупность всего региона. В основе рассмотренных выше методов лежит предположение, что любая совокупность характеризуется симметричным распределением ее важнейших характеристик. И каждая выборка достаточно полно характеризует всю совокупность, различные крайности в выборке уравновешивают друг друга. Но такая ситуация в реальной жизни встречается редко. К примеру, население больших, средних и малых городов сельской местности данного региона отличается по уровню образования, дохода, образу жизни и т.п.

При несимметричном распределении совокупности последняя разделяется на различные подгруппы, например, по уровню дохода. Выборки сформированные из этих подгрупп являются по существу сегментами рынка. Такой метод носит название стратифицированного отбора.

В процессе использования данного метода, следует выбрать некоторую наблюдаемую характеристику (признак), характеризующую каждую единицу совокупности, например, уровень дохода. В дальнейшем для каждой страты (подгруппы) с помощью случайного отбора формируется выборка. Если размер выборки для определенной страты пропорционален размеру страты по отношению ко всей совокупности, то выборка называется пропорционально стратифицированной.

В случае непропорционально стратифицированной выборки необходимо использовать весовые коэффициенты, уравновешивающие размеры страт.

При применении невероятностных методов отбора формирование выборки осуществляется без использования понятий теории вероятностей, вследствие чего невозможно рассчитать вероятность включения в выборку единиц совокупности.

Остановимся на следующих невероятностных методах отбора:

·  отбор на основе принципа удобства;

·  отбор на основе суждений;

·  формирование выборки в процессе обследования, опроса;

·  формирование выборки на основе квот.

Суть метода отбора на основе принципа удобства состоит в том, что формирование выборки осуществляется наиболее удобным с позиции исследователя образом, например, с точки зрения минимизации затрат или доступности респондентов. Выбор места исследования, состав выборки производится субъективным образом (например, опрос покупателей осуществляется в магазине, ближайшем к месту жительства исследователя).

Данный метод чаще применяется для поиска респондентов с заданными характеристиками. Например, в магазине после заданных вопросов выясняют, что из себя представляют опрашиваемые и только некоторые из их числа подвергаются дальнейшему обследованию. Данный метод относительно дешев и прост.

Формирование выборки на основе суждения – опирается на использовании мнения квалифицированных специалистов, экспертов относительно состава выборки. Этот подход может служить для формирования фокус-групп. Формирование выборки в процессе опроса опирается на расширение числа опрашиваемых на основе предложений респондентов, принимавших участие в обследованиях.

Первоначально формируется выборка намного меньшая, чем требуется в проводимом исследовании, затем она по мере проведения обследования расширяется. Данный метод чаще всего используется при ограниченном контуре выборки (например, при исследовании продукции производственно-технического назначения).

Формирование выборки на основе квот (квотный отбор) предполагает предварительное, исходя из целей исследования, определение численности групп респондентов, отвечающих определенным требованиям.

К примеру, принимается решение исследовать семейных и несемейных покупателей. Интервьюер проводит опрос пока не выберет установленную квоту. Такой метод используется, когда существуют четкие суждения о характеристиках респондентов, мнение которых целесообразно изучить в проводимом исследовании. Этот метод дает возможность контролировать деятельность интервьюеров, ограничивая выбор респондентов определенными требованиями. В реальной практике часто используют параллельно несколько методов формирования выборки.

Основные этапы проектирования выборки 

Маркетологи выделяют следующие этапы разработки выборки:

·  определение соответствующей совокупности;

·  получение «списка» совокупности;

·  проектирование выборочного плана;

·  определение методов доступа к совокупности;

·  достижение нужной численности выборки;

·  проверка выборки на соответствие требованиям;

·  если необходимо формируется новая выборка.

На первом этапе определяется целевая совокупность, зависящая от целей исследования, здесь важно установить характеристики, которым должны удовлетворять единицы совокупности и которые позволяет ее отличать от других совокупностей.

На втором этапе устанавливается, откуда может быть получен перечень единиц совокупности (это важно для определения контура выборки). На этом этапе необходимо использовать соответствующие справочники, данные переписи населения и местных органов власти, материалы различных консультационных организаций.

На втором этапе также оценивается ошибка контура выборки, для чего важно и в этих целях необходимо:

·  определить насколько список людей (юридических лиц), включенных в контур выборки отличается от совокупности в целом;

·  установить, какой континент людей не вошел в состав контура выборки.

На третьем этапе с учетом ранее выполненных работ осуществляется проектирование самой выборки. В этом случае важно найти баланс между:

·  структурой выборки;

·  затратами на сбор данных;

·  и объемом выборки.

Достижение нужной численности выборки требует выполнения двух шагов операций:   установления единицы выборки и от одной единицы должна быть получена требуемая информация.

На ряд выбранных респондентов невозможно выйти и что не каждый выбранный респондент выразит желание отвечать на вопросы. Таких респондентов необходимо заменить. И это обычно решается: во-первых, выбором следующего по списку респондента; либо, во-вторых, использованием выборки больших размеров; либо, в-третьих, формированием повторной выборки.

Первый метод наиболее часто применяется в случае систематической выборки, Например, в качестве контура выборки используется телефонный справочник и необходимо опросить каждого сотого абонента. Если  не удается получить ответ от первого респондента, то звонят абоненту, следующему по справочнику, и так делают, пока не удастся получить ответы на задаваемые вопросы. Только после этого осуществляется скачок в 100 номеров.

Второй метод это использование выборки больших размеров и осуществляется он в случае, когда заранее известен процент респондентов, не принимавших участие в опросе. К примеру известно, что на письма при почтовом опросе отвечает только 20 % респондентов (во многих случаях этот процент и того меньше). Поэтому, чтобы получить окончательную выборку численностью в 200 человек, письма необходимо отправить тысяче потенциальных респондентов.

Суть третьего метода – метода формирования повторной выборки заключается в том, что если процент ответов намного ниже, чем ожидалось, то контуры исходной выборки расширяются за счет дополнительных имен, найденных, например, случайным образом.

Определение объема выборки 

На практике решение вопроса об объеме выборки является компромиссным между предположением о точности результатов обследования и возможностями их практической реализации (т.е. исходя из затрат на проведение опроса).

На практике используется несколько подходов к определению объема выборки. Обратим внимание на самые простые из них. Первый из них называется произвольным подходом и основан он на применении «правила большого пальца».

Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5 % от совокупности. Данный подход простой и доступный в исполнении, не позволяет получать точные результаты. Его достоинством является относительная дешевизна затрат. В соответствии со вторым подходом объем выборки может быть установлен исходя из заранее оговоренных условий. Заказчик маркетингового исследования, например, знает, что при изучении общественного мнения выборка обычно составляет 1000 – 1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры.

Третий подход означает, что в некоторых случаях главным аргументом при определении объема выборки может быть стоимость проведения опроса. Хотя при этом ценность и достоверность получаемой информации не принимается в расчет.

В случае четвертого подхода объем выборки определяется на основе статистического анализа. Данный подход предполагает определение минимального объема выборки с учетом требований к надежности и достоверности получаемых результатов.

Пятый подход считается наиболее теоретически обоснованным и правильным подходом в определении объема выборки. Он основан на расчете доверительного интервала.

Доверительный интервал – это диапазон, крайние точки которого характеризуют процент определенных ответов на какой-то вопрос. Данное понятие тесто связано с понятием «среднее квадратичное отклонение получаемого признака в генеральной совокупности». Чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав, например 9,5 % ответов.

Из свойств нормальной кривой распределения вытекает, что конечные точки доверительного интервала, равного к примеру 9,5 % определяются как произведение: 1,96 (нормированное отклонение) и среднего квадратичного отклонения.

Числа 1,96 и 2,58 (для 99 % доверительного интервала) обозначаются как z.

Существуют таблицы «Значение интеграла вероятности», которые дают возможность определить величины z для различных доверительных интервалов. Доверительный интервал равный 95% или 99% является стандартным при проведении маркетинговых исследований.

Например, проведено исследование числа визитов автовладельцев в сервисные мастерские за год. Доверительный интервал для среднего числа визитов был рассчитан равным 5 – 7 визитам при 99 % уровне доверительности. Это означает, что если появится возможность, провести независимо 100 раз выборочные исследования, то для 99 выборочных исследований среднее значение числа визитов попадут в диапазон от 5 до 7 визитов, Если сказать иначе, то 99 % автовладельцев попадут в доверительный интервал.

Допустим, было проведено исследование до 50 независимых выборок. Средние оценки для этих выборок образовали нормальную кривую распределения, которое называется выборочным распределением.

Средняя оценка для совокупности в целом равна средней оценке кривой распределения. Понятие «выборочное распределение» рассматривается также в качестве одного из базовых понятий теоретической концепции, лежащее в основе определения V выборки.

Естественно ни одна компания не в состоянии сформировать 10, 20, 50 независимых выборок. Обычно используется только одна выборка.

Математическая статистика позволяет получить некую информацию о выборочном распределении, владея точными данными о вариации единственной выборки.

Индикатором степени отличия оценки, истинной для совокупности в целом, которая ожидается для типичной выборки, является средне квадратическая ошибка. К примеру, исследуется мнение потребителей о новом товаре и заказчик данного исследования указал, что его устроит точность полученных результатов, равная плюс минус 5%.

Предположим, что 30 % членов выборки высказались за новый продукт. Это означает, что диапазон возможных оценок для всей совокупности составляет 25 – 35 %. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Определим объем выборки на основе расчета доверительного интервала. Исходной информацией, необходимой для реализации данного подхода, является:

·  величина вариации, которой, как считается, обладает совокупность;

·  желаемая точность;

·  уровень достоверности, которому должны удовлетворять результаты проводимого обследования.

Когда на заданный вопрос существует только два варианта ответов, выраженных в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

где n – объем выборки;

z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности (табл. 1);

р – найденная вариация для выборки;

q = (100 – p);

е – допустимая ошибка.

 

Таблица1

Значение нормированного отклонения оценки z от среднего значения

в зависимости от доверительной вероятности (а) полученного результата

 

а, % 60 70 80 90 90 95 97 99,0 99,7
z 0,84 1,03 1,29 1,44 1,65 1,96 2,18 2,58 3,0

Например, предприятием, выпускающим покрышки, проводится опрос автолюбителей, использующих радиальные покрышки.

Поэтому на вопрос: «Используете ли Вы радиальные покрышки?» возможны только 2 ответа: «Да» или «Нет». Если предположить, что совокупность автолюбителей обладает низким показателем вариации, то это означает, что почти каждый опрошенный использует радиальные покрышки. В данном случае может быть сформирована выборка достаточно малых размеров. В формуле (1) произведение pg выражает вариацию, свойственную совокупности. Например, пусть 90 % единиц совокупности используют радиальные покрышки. Это означает, что pg = 900. Если принять, что показатель вариации выше (р = 70 %), то pg = 2100. Наибольшая вариация достигается в случае, когда одна половина совокупности (50 %) использует радиальные покрышки, а другие не используют. В этом случае произведение достигает значения равного 2500.

При проведении опроса важно указывать точность полученных оценок. Например, было установлено, что 44 % респондентов используют радиальные покрышки. Результаты измерения необходимо представить в виде: процент автолюбителей, использующих радиальные покрышки, составляет 44 плюс – минус е %. Величина допустимой ошибки заранее совместно определяется заказчиком исследования и исполнителем.

Уровень достоверности при проведении маркетинговых исследований обычно оценивается с учетом двух его значений: 95% или 99%. Первому значению соответствует значение  z = 1,96; второму – z = 2,58. Если выбирается уровень доверительности равный 99 %, то это говорит о следующем: мы уверены на 99 % (иными словами доверительная вероятность равна 0,99) в том, что процент членов совокупности, попавший в диапазон плюс – минус е %, равен проценту членов выборки, попавших в тот же диапазон ошибки. Принимая вариацию равной 50 %, точность равной 10 % при 95 %-м уровне доверительности рассчитаем размер выборки:

n = 1,962 (50 х 50) / 102 = 96.

При уровне доверительности равном 99 %, и е = ±3 %, n = 1067.

При определении показателя вариации для конкретной совокупности целесообразно проводить предварительно качественный анализ исследуемой совокупности и установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно определение объема выборки на основе использования средних значений, а не процентных величин. Предположим, что выбран уровень достоверности равный 95 % (z = 1.96,), среднеквадратическое отклонение (S) рассчитано и равно 100, и желаемая точность (погрешность) составляет ±10. Тогда объем выборки составит

Реально на практике, если выборка формируется заново и схожие опросы не проводились, S неизвестно.

В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

Мы в основном говорили о совокупности очень больших размеров, характерных для рынков потребительских товаров. Но в отдельных случаях совокупности не являются столь большим, и например на рынках отдельных видов продукции производственного назначения.

Обычно, если выборка составляет менее 5 % совокупности, то совокупность считается большой, и расчеты проводятся по вышеприведенным правилам.

Если же V выборки превышает 5 % совокупности, то последняя считается малой, и в вышеприведенные формулы вводится поправочный коэффициент. Объем выборки в данном случае определяется следующим образом:

,

где n1 – объем выборки для малой совокупности,

n – объем выборки (или для процентных мер или для средних), рассчитанный по приведенным выше формулам,

N – объем генеральной совокупности.

Например, изучается мнение членов совокупности, состоящей из 1000 компаний, относительно строительства химического комбината в границах города Томска. Вследствие отсутствия информации о вариации принимается наихудший случай: 50:50. Исследователь вынес решение использовать уровень доверительности равный 95 %. Заказчик исследования указал, что его устроит точность результатов плюс минус 5 %. В этом случае используется следующая формула для процентной меры:

Данный подход к формированию V выборки с определенными оговорками может быть использован и при расчете численности панели и экспертной группы.

Приведенные формулы расчета выборки основаны на предположении, что все правила формирования выборки были соблюдены, и единственной ошибкой является ошибка, обусловленная ее объемом.