какая должна быть выборка для исследования
Полезные статьи → Как правильно рассчитать объем выборки?
Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.
Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.
Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку.
Что такое репрезентативная выборка?
Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.
Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.
Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.
Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор:
Доверительная вероятность и доверительная погрешность
Что означают термины «доверительная вероятность» и «доверительная погрешность»? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).
Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.
После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога. А как провести панельный опрос можно подробнее узнать здесь.
Как определить размер выборки?
Статистика знает все. И Ильф и Е. Петров, «12 Стульев»
Представьте себе, что вы строите крупный торговый центр и желаете оценить автомобильный поток въезда на территорию парковки. Нет, давайте другой пример… они все равно этого никогда не будут делать. Вам необходимо оценить вкусовые предпочтения посетителей вашего портала, для чего необходимо провести среди них опрос. Как увязать количество данных и возможную погрешность? Ничего сложного — чем больше ваша выборка, тем меньше погрешность. Однако и здесь есть нюансы.
Теоретический минимум
Не будет лишним освежить память, эти термины нам пригодятся далее.
Уже в самих определениях ошибки первого и второго рода имеется простор для дебатов и толкований. Как с ними определиться и какую выбрать в качестве нулевой? Если вы исследуете уровень загрязнения почвы или вод, то как сформулируете нулевую гипотезу: загрязнение присутствует, или нет загрязнения? А ведь от этого зависит объем выборки из общей популяции объектов.
Исходная популяция, также как и выборка может иметь любое распределение, однако среднее значение имеет нормальное или гауссово распределение благодаря Центральной Предельной Теореме.
Относительно параметров распределения и среднего значения в частности возможно несколько типов умозаключений. Первое из них называется доверительным интервалом. Он указывает на интервал возможных значений параметра, с указанным коэффициентом доверия. Так например 100(1-α)% доверительный интервал для μ будет таким (Ур. 1).
Второе из умозаключений — проверка гипотезы. Оно может быть примерно таким.
Если нам нужно проверить значение μ для одной выборки из общей совокупности, то критерий обретет вид.
Как видим погрешность действительно уменьшается вместе с ростом количества входных данных. Откуда легко вывести искомое (Ур. 4).
Практика — считаем с R
Проверим гипотезу о том, что среднее значение данной выборки количества насекомых в ловушке равно 1.
и наконец получаем критический интервал для среднего значения: 1.05 — 2.22.
В итоге, следует отбраковать H0 и принять H1 так как с вероятностью 95%, μ > 1.
Поправка на ветер
На самом деле нет никаких причин, полагать, что нам будет известна σ (дисперсия), в то время как μ (среднее) нам еще только предстоит оценить. Из-за этого уравнение 4 имеет мало практической пользы, кроме особо рафинированных примеров из области комбинаторики, а реалистичное уравнение для n несколько сложнее при неизвестной σ (Ур. 5).
Обратите внимание, что σ в последнем уравнении не с шапкой (^), а тильдой (
). Это следствие того, что в самом начале у нас нет даже оценочного стандартного отклонения случайной выборки — , и вместо нее мы используем запланированное —
. Откуда же мы берем последнее? Можно сказать, что с потолка: экспертная оценка, грубые прикидки, прошлый опыт и т. д.
А что на счет второго слагаемого правой стороны 5-го уравнения, откуда оно взялось? Так как , необходима поправка Гюнтера.
Помимо уравнений 4 и 5 есть еще несколько приблизительно-оценочных формул, но это уже заслуживает отдельного поста.
Как определить оптимальный размер выборки массового опроса
В каждой профессии есть свой набор любимых вопросов. Для исследователей рынка этот список возглавляет, безусловно, вопрос о размере выборки. Обычно его формулируют так:
Главное заблуждение о размере выборки
Многие уверены, что чем больше размер целевой группы, тем больше должен быть размер выборки. Поэтому, якобы, чтобы узнать мнение жителей маленького города, достаточно опросить человек 200-300, ну а для выяснения мнения по России в целом и 5000 будет мало.
Между тем, этот стереотип не имеет ничего общего с реальностью. Размер выборки не зависит от численности целевой группы (на языке статистики она называется «генеральной совокупностью») и определяется двумя совершенно другими факторами. Единственное исключение из этого правила – случаи, когда генеральная совокупность очень маленькая, например, 1-2 тысячи человек, но такие ситуации в реальной практике маркетинговых исследований встречаются редко.
Две разновидности ошибки выборки
Любое выборочное наблюдение (то есть когда мы опрашиваем не всех подряд, а делаем случайный отбор из генеральной совокупности) сопряжено с погрешностью данных. Эту погрешность обычно называют «ошибкой выборки». Она может быть двух видов:
Задача исследователя – собрать данные так, чтобы минимизировать систематическую ошибку выборки. Тогда можно будет свести статпогрешность лишь к случайной ошибке, которую можно рассчитать по формулам.
Как рассчитать размер случайной ошибки выборки
Случайная ошибка выборки зависит не только от объема выборки, но и от дисперсии, то есть степени однородности данных. Чем однороднее данные (т.е. чем меньше разброс полученных значений, или дисперсия), тем меньше ошибка выборки.
Существует формула расчета случайной ошибки выборки, однако для удобства рекомендуем пользоваться онлайн-калькуляторами, например, вот этим. Он позволяет легко провести два вида расчета:
В качестве параметра доверительной надежности (одно из полей в калькуляторе) обычно используется значение в 95%. Это означает, что в 95% случаев распределение признака в генеральной совокупности попадет в рассчитанный доверительный интервал (т.е. само значение признака в выборке плюс-минус размер статистической погрешности). Реже используется значение надежности в 97% или 99% – оно, соответственно, означает, что подобное попадание произойдет в 97% или 99% случаев. В данном случае надежность выборки повышается, но увеличивается размер выборки.
Самое сложное при определении размера выборки – поиск компромисса между требуемой точностью и стоимостью сбора данных. Этот процесс усложняется тем, что увеличение размера выборки в четыре раза приводит к увеличению точности лишь в два раза (соответствует квадратному корню от величины прироста выборки).
Кейс: определение размера выборки для оценки потенциала рынка продаж столичной недвижимости покупателям из регионов
В ноябре-декабре 2016 года мы провели исследование спроса на квартиры в новостройках Москвы и Санкт-Петербурга со стороны жителей разных городов России. Исследование включало в себя три метода сбора данных: массовый репрезентативный опрос населения в возрасте от 20 до 60 лет (проводился с использованием технологии CATI), а также серию экспертных интервью с риэлторами и глубинных интервью с потенциальными покупателями квартир.
Исследование охватывало 33 города, отличающихся повышенным спросом на петербургскую и московскую недвижимость. Плановая выборка исследования, рассчитанная по формулам, составила 21 500 респондентов. Этот объем значительно больше «стандартного» объема выборки, используемого в маркетинговых исследованиях. С чем же связан такой большой размер выборки?
Все дело в том, что клиенту были нужны оценки отдельно по каждому городу, а не просто «в целом по стране». Фактически мы работаем не с 1 выборкой, а с 33 отдельными выборками по каждому городу. Доля людей, заинтересованных в покупке квартиры в Санкт-Петербурге или Москве, была экспертно определена в рамках 5% от числа жителей опрашиваемых городов.
В зависимости от важности города для заказчика, руководитель проекта со стороны Агентства определил допустимую статистическую погрешность, в которую должны укладываться итоговые результаты. Для этого мы использовали специальный макрос в MS Excel, но эти расчеты можно также выполнить с помощью калькулятора выборки. В результате размер выборки варьировал от 500 до 1000 респондентов по каждому из городов исследования, что в сумме и дало заявленные 21 500 человек.
Резюме
Чтобы рассчитать выборку маркетингового исследования, используйте следующий алгоритм:
Выборка эмпирического исследования
Выборка в дипломной работе по психологии – это испытуемые или респонденты, которые приняли участие в эмпирическом исследовании.
Если говорить более строго, научно, то выборка – это какая-то часть некоторой большой группы (генеральной совокупности), которая отражает ее свойства. В этом случае говорят, что выборка репрезентативна. И поэтому полученные на выборке результаты распространяют на всю генеральную совокупность.
Существуют разнообразные процедуры формирования репрезентативной выборки: простой случайный отбор, стратифицированный случайный отбор и др. Они описываются в книгах по экспериментальной психологии и математической статистике. Выполнение этих процедур важно при проведении серьезных психологических исследований. В практике написания курсовых, дипломных и магистерских работ в современных российских ВУЗзах репрезентативность выборки, как правило, не оговаривается и специальные процедуры не применяются. При этом по умолчанию предполагается, что выборка репрезентативна.
Например, вы исследовали взаимосвязь тревожности женщин и срока их беременности. Вы взяли в качестве испытуемых своих знакомых. Получили результат, что чем выше срок, тем выше тревожность. На защите можно смело говорить о том, что «выявлена положительная взаимосвязь тревожности и срока беременности у женщин среднего возраста». То есть, вы смело распространяете полученный на маленькой группе результат на всех женщин. Хотя, строго говоря, не известно, была ли ваша выборка репрезентативна группе всех беременных женщин среднего возраста в нашей стране.
Очень часто именно выборкой определяется тема исследования. Преподаватели часто расспрашивают студента-психолога об обстоятельствах его жизни (где работает и т.п.). На основании этой информации и делается вывод, на какой выборке удобнее провести исследование.
Например, если вы – педагог, то в качестве выборки могут выступить учащиеся. Сотруднику организации научный руководитель может предложить взять в качестве испытуемых его коллег-сотрудников. Домохозяйка может выбрать в качестве респондентов своих знакомых женщин. Часто студенты берут в качестве выборки тоже студентов и проводят эмпирическое исследование на своих сокурсниках.
В связи с формированием экспериментальной выборки при написании выпускной работы по психологии у студентов могут возникнуть следующие вопросы:
Объем (численность) выборки
Иногда преподаватели уверенно говорят студентам, что результаты их исследования будут недостоверны, если объем выборки будет меньше 30, 50, 70, 100 человек и т.д. Строго говоря, это не корректное утверждение. В данном случае важно понимать, что во всех статистических расчетах действует такое правило: чем меньше объем выборки, тем жестче критерии, при которых результат статистического расчёта считается достоверным.
Например, вы проводите анализ взаимосвязей показателей агрессивности и тревожности младших школьников в группе из 30 человек. Если принять достаточным уровень статистической значимости в 0,05 (5%), то значимыми будут коэффициенты корреляции больше либо равные 0,36. А ваш коллега – студент-психолог – проводит анализ взаимосвязей карьерных ориентаций и стажа сотрудников организации в группе из 10 человек. В его случае значимыми будут считаться коэффициенты ранговой корреляции не ниже 0,64 при том же уровне значимости.
Итак, статистически достоверные результаты эмпирического исследования можно получить на любой выборке (от 10 человек). При этом чем меньше экспериментальная выборка, тем жестче критерии статистической достоверности полученных на ней результатов.
Однако, чем меньше выборка, тем в меньшей степени она отражает генеральную совокупность, тем заметнее в ней влияние отдельных результатов на общий показатель. То есть, формально можно брать выборку в 10 человек, но практически в эмпирическом исследовании этого недостаточно.
Строгих правил по численности выборки для получения статистически достоверных результатов психологического исследования нет, но есть следующие рекомендации:
Есть одна вполне невинная хитрость, позволяющая увеличить численность экспериментальной выборки. Например, если в ВУЗе требуют большие выборки (80-100 человек), а набрать столько испытуемых проблематично, можно сделать следующее. Реальное эмпирическое исследование провести на небольшой выборке, например, 20 человек. А далее увеличить объем выборки в кратное количество раз (2, 3, 4 и т.д.), то есть получить выборку в 40, 60, 80 человек и т.д. Такая процедура существенно не повлияет на результат. В этом случае станут более мягкими критерии значимости статистических критериев (см. выше правило соотношения объема выборки и жесткости критериев статистической значимости результатов).
Например, вы пишете дипломную работу на тему «Исследование взаимосвязи ощущения одиночества и субъективного благополучия у женщин среднего возраста, занимающих руководящие должности». Руководитель потребовала, чтобы выборка была не меньше 60 человек. Вы резво взялись за дело. Но вскоре выяснилось, что найти женщин-руководителей среднего возраста, готовых участвовать в тестировании, не так просто. Вы протестировали 15 человек и больше найти не можете. Что делать?
Берете данные по этим 15 испытуемым в сводной таблице результатов и копируете 4 раза. Получается выборка из 60 человек. Главное, что взаимосвязи, которые вы выявите на этой увеличенной выборке, будут отражать реальные корреляции ощущения одиночества и субъективного благополучия в исходной выборке из 15 человек. Изменения будут незначительны – станут значимыми некоторые корреляции, которые в выборке из 15 женщин были не значимы.
Характеристики выборки
При описании выборки в дипломной работе по психологии указываются социально-демографические характеристики испытуемых: пол, возраст, образование, семейный статус, профессия и пр.
Существует множество характеристик, которые можно указать при описании выборки. Какие включить в описание, а какие – нет?
Строго говоря, нужно указывать характеристики выборки, которые имеют отношение к сути исследования. Например, если сравниваем женщин-руководителей и простых сотрудниц, то важно при описании выборки указать профессиональный статус.
При описании выборки всегда указывают пол, возраст и образование (для взрослых испытуемых). Остальные характеристики указывают по необходимости, если они важны. Например, при исследовании корпоративной культуры сотрудников организации вряд ли необходимо указывать их семейный статус, так как он имеет очень отдаленное отношение к теме исследования.
Некоторые научные руководители требуют описывать выборку с указанием максимального количества характеристик.
Контрольная и экспериментальная группы
В каких случаях в дипломной работе по психологии возникает необходимость введения экспериментальной и контрольной групп? Если тема ВКР связана с выявлением индивидуально-психологических различий испытуемых, имеющих какую-то особенность и не имеющих ее. Например, в качестве таких особенностей могут быть:
Смысл эмпирического исследования с экспериментальной и контрольной группой состоит в том, что различия психологических показателей, выявленные между этими группами, укажут на влияние критерия разделения на личность человека. Например, если лица с заболеванием окажутся более тревожны, чем без заболевания, то можно будет сделать вывод о том, что данная болезнь ведет к росту тревожности или что повышенная тревожность выступает одной из причин данной болезни. Или если окажется, что у семейных выше осмысленность жизни, то вывод будет в том, что семья повышает осмысленность жизни. И, наконец, если выяснится, что у пожарных выше выраженность психологического стресса, то сделаем вывод о том, что работа в МЧС создает предпосылки развития стресса.
Так вот, чтобы выводы о влиянии критерия разделения на группы на выраженность тех или иных психологических показателей были обоснованы, между экспериментальной и контрольной группами не должно быть никаких других различий, кроме того, которое выбрано. Например, состоящие и не состоящие в браке испытуемые не должны различаться ни по каким другим характеристикам. То есть, у них должны быть примерно одинаковые возраст, социальный статус и пр. Только в этом случае можно будет сказать, что выявленный более высокий уровень осмысленности жизни у семейных по сравнению с не состоящими в браке связан именно с тем, что у представителей экспериментальной группы есть семья.
Если экспериментальная и контрольная группа не выровнены по другим социально-демографическим показателям, то, возможно, на осмысленность жизни повлиял какой-то другой фактор. Например, если состоящие в браке работают дизайнерами, а не состоящие в браке – безработные, то различия в уровне осмысленности жизни могут быть связаны не с наличием супруга, а с наличием интересной работы.
Естественно, невозможно выровнять экспериментальную и контрольную группу по всем социально-демографическим показателям. Нужно ограничиться некоторыми ключевыми: возраст, образование, социальный и семейный статус.
Существует устойчивый миф, что для корректной статистической обработки результатов численность выборки в контрольной и экспериментальной группе должна быть одинаковой. В моей практике были случаи, когда научные руководители требовали выравнивать численность испытуемых в контрольной и экспериментальной группе, когда исследование было уже проведено. Такие требования указывают на непонимание сущности статистических расчётов, которые имеют дело с усредненными величинами. А среднее значение величины в группе (среднее арифметическое) не зависит от численности группы, так как при его расчете сумма показателей всех участников группы делится на число человек.
Пример описания экспериментальной и контрольной групп:
Характеристика выборки. В исследовании приняли участие 50 подростков, разделенных на две группы:
Надеюсь, эта статья поможет вам самостоятельно написать диплом по психологии. Если возникнет необходимость, обращайтесь (все виды работ по психологии; статистические расчеты). Заказать
Влияние размера статистической выборки на качество научного исследования
Любая научная работа (особенно в психологии, медицине) предполагает проведение некоего эксперимента для сбора доказательств и оценки реальной ситуации. Притом чем больше факторов учитывает автор, тем точнее результаты исследования и возможности их использования в дальнейшем.
Любая научная работа (особенно в психологии, медицине) предполагает проведение некоего эксперимента для сбора доказательств и оценки реальной ситуации. Притом чем больше факторов учитывает автор, тем точнее результаты исследования и возможности их использования в дальнейшем.
В любом эксперименте важно определить оптимальный объем выборки, который бы позволили получить достоверный результат. В этой статье Вы узнаете, какое число испытуемых считается достаточным, и как грамотно подобрать объем выборки для собственного исследования.
Влияет ли объем выборки на результаты исследования?
Результаты исследования зависят от множества факторов: объем и достоверность первоначальных данных, цель (достижимая и реалистичная или не поддающаяся измерению и достижению), качество материалов (достоверные, актуальные и пр.) и т.д. Если научное изыскание предполагает проведение практических мероприятий, то одним из важнейших моментов являются определение объема выборки.
От чего зависит качество проводимого исследования?
Объем выборки представляет собой число испытуемых, которое будет принимать участие в эксперименте и подлежать оценке. Количество респондентов, их действия напрямую отражаются на результатах исследования. Если в эксперименте будет участвовать малая часть испытуемых, то не всегда будет возможно получить репрезентативные результаты.
Большое число участников же в значительной степени усложняет ход исследования, но позволяет получить более точные результаты при условии, если исследователь внимательно следит за ходом событий и учитывает все факторы, погрешности и отклонения и пр.
Таким образом, объем выборки влияет не только на точность измерений, но и качество исследования.
Нужна помощь преподавателя?
Мы всегда рады Вам помочь!
Больше – лучше, или наоборот?
Казалось бы, чем больше число испытуемых, тем точнее результаты. На самом деле, здесь палка о двух концах.
Как определить объем выборки для исследования?
С одной стороны, большое число испытуемых позволяет получить более точные результаты исследования, определить динамику или тенденции развития событий. В то же время внушительное количество респондентов требует более пристального внимания со стороны автора: моментальное фиксирование результатов, контроль за каждым индивидом, оценка всех действий и достижений/итогов и пр. Сможет ли автор в одиночку уследить за 100-200 и более испытуемыми.
Во-вторых, большой объем выборки провоцирует рождение более высоких затрат на организацию и проведение эксперимента: привлечение сторонних экспертов для контроля за ходом исследования, подготовка дополнительных материалов для испытуемых (анкеты или опросники, задания, создание специальных условий (например, для проживания и пр.)) и т.д.
Небольшой объем выборки – самый оптимальный в плане затратности, но он дает менее точные результаты. Если в эксперименте принимает участие всего 2-4 человека, то это не значит, что выборка будет репрезентативной. В данной ситуации автор оценит лишь частный случай, но не данные генеральной совокупности.
Поэтому чтобы результаты исследования были пригодными для более широкой аудитории, важно, чтобы выборка оказалась репрезентативной, а для этого необходимо подобрать оптимальное число испытуемых.
Какой объем выборки считается оптимальным?
Объем выборки зависит не только от вида исследования, но и его масштабов. Например, в социологических опросах принято проводить соответствующие мероприятия (например, задать вопросы всем подряд или конкретной группе) с целью определения общественного мнения. Как правило, в таких проектах принимает участие свыше 1000 человек.
Как определить оптимальный объем выборки для исследования
В психологических и медицинских экспериментах и исследованиях количество испытуемых гораздо меньше, так как обработка данных здесь может занять более длительное время, а информация обладает таким свойством как актуальность, которая может быть утрачена из-за медлительности. Оптимальным числом для таких научных изысканий считается 10-30 человек, притом все испытуемые подлежат строгой классификации по конкретному признаку.
Оптимальный объем выборки – это то количество изучаемых объектов и явлений, которое позволяет получить достоверный и максимально точный (приближенный) результат с минимальными погрешностями, который можно «репрезентовать» на более широкий круг лиц. В случае нерепрезентативности выборки исследователь получит «частный эксперимент» с субъективной оценкой происходящего.
Как определить оптимальный объем выборки для научного исследования?
Каждый исследователь самостоятельно определяет, какой объем выборки для него оптимальный. Данный параметр зависит от ряда условий:
Оптимальный объем выборки предполагает подбор стольких испытуемых, за которыми посильно проследить и оценить их результаты без лишних затрат времени, материальных и иных ресурсов с учетом располагаемых сил.
Как провести качественное научное исследование?
Если исследование предполагает оценку конкретной ситуации в определенной отрасли, то достаточно подобрать 10-30 участников, соответствующих конкретных условиям и требованиям.
Если же научное изыскание носит глобальный масштаб, то необходимо подобрать опытную и сильную команду, грамотно распределить обязанности, а затем, исходя из общих возможностей команды, определить объем выборки: до 100 участников, от 101 до 500, более 500 и пр.
В идеале на каждого «контролера» должно приходиться не более 10-20 испытуемых, чтобы качество получаемых данных было высоким, а жизнь контролера проходила не только в стенах «лаборатории». Поэтому объему выборки необходимо уделять особое внимание, так как именно этот критерий позволяет получить более качественные результаты научных и иных изысканий.
Трудности с учебой?
Помощь в написании студенческих и
аспирантских работ!