Найти в Дзене
В помощь учёному

Как рассчитать минимальный объём выборки

Статья для чайников. Так что просветлённые гуру и адепты Святой Статистики пусть не спешат бросать в меня помидоры. У меня была задача дать простую подсказку молодому учёному на случай, когда его душат вопросом: "Как заранее вы определяли объём выборки?" или "Почему вы считаете, что используемого количества наблюдений достаточно для обоснованных выводов?". Начну с абсурдности поставленных вопросов и наиболее популярных, но устаревших методик. А в заключении дам самый простой и вменяемый способ для расчёта минимального объёма выборки. Для начала нужно понять, насколько строго нужно ответить на эти вопросы и насколько серьёзными их стоит считать. И ещё следует учесть, что основная масса методик чрезвычайно сложна для восприятия биологами и медиками. Даже исследователи из старой школы бывают недостаточно компетентны. Отсюда возникают необоснованные и категоричные претензии оппонентов или рецензентов, на которые несчастному аспиранту нужно хотя бы что-то ответить. Начнём с самых популярных
Оглавление

Статья для чайников. Так что просветлённые гуру и адепты Святой Статистики пусть не спешат бросать в меня помидоры. У меня была задача дать простую подсказку молодому учёному на случай, когда его душат вопросом: "Как заранее вы определяли объём выборки?" или "Почему вы считаете, что используемого количества наблюдений достаточно для обоснованных выводов?". Начну с абсурдности поставленных вопросов и наиболее популярных, но устаревших методик. А в заключении дам самый простой и вменяемый способ для расчёта минимального объёма выборки.

Что изначально следует учесть

Для начала нужно понять, насколько строго нужно ответить на эти вопросы и насколько серьёзными их стоит считать.

  • Во-первых, необходимо учесть, что то самое "p < 0,05" взято с потолка. Об этом я писал здесь. Следовательно, подбирать объём выборки (n) под уровень статистической значимости, выглядит не такой уж и адекватной задачей.
  • Во-вторых, большинство методик определения объёма выборки корнями уходят в прошлое. В те времена, когда персональных компьютеров не было и считать приходилось на калькуляторе и листочке в клеточку. Упрощение требовало определённых компромиссов, что также несколько искажало представление о действительности.
  • В-третьих, множество методик расчётов пришло из социологии. Для многих медицинских или биологических исследований их использование не всегда оправдано. Одно дело, оценить какое количество анкет нужно собрать у перехода, чтобы оценить уровень благополучия пенсионеров, а другое дело исследования, связанные с оценкой побочных действий фармацевтического препарата. На кону разные вещи.
  • В-четвёртых, большая часть популярных рекомендаций изначально нацелена на человека, но не на экспериментальные модели (крысы, клетки, образцы материалов и т.п.). При этом обоснования этих рекомендаций зачастую слишком поверхностны.

И ещё следует учесть, что основная масса методик чрезвычайно сложна для восприятия биологами и медиками. Даже исследователи из старой школы бывают недостаточно компетентны. Отсюда возникают необоснованные и категоричные претензии оппонентов или рецензентов, на которые несчастному аспиранту нужно хотя бы что-то ответить. Начнём с самых популярных "вредных советов", которые обычно приходится слышать.

"Плохие", но известные и часто рекомендуемые способы определения минимального объёма выборки

Существуют различные методики определения выборки, основанные на объёме генеральной совокупности, уровне статистической значимости, мощности, доверительном интервале, гетерогенности выборки и т.п.

Чем проще методика и меньше параметров она учитывает, тем заведомо больший объём выборки она рекомендует.

Метод Панитто

Отличный пример простейшего метода. Метод Панитто требует данных только о генеральной совокупности. И при генеральной совокупности, равной 500, объём выборки должен быть не ниже 222. Вычисления требуют использования уже готовых таблиц или формул [Лихванцев и др. 2020].

Метод Отдельновой

Другой известный метод — метод Отдельновой — требует информации о желаемом уровне значимости. Минимальный объём выборки (n) начинается с 44 при уровне статистической значимости α=0,05. И то при условии, что ваше исследование классифицировано, как "исследование с низкой точностью".

Номограмма Альтмана

Есть графические методы типа номограммы Альтмана для клинических исследований с участием людей (см. рис. ниже.). Эта методика является самой распространённой. Однако, номограмма основывается на рекомендациях по проведению клинических исследований от 1987 года, которые уже устарели. Кроме того, для экспериментальных исследований, например, с животными и клетками она не подходит! Хотя есть немало исследователей, которые рекомендуют её всем и каждому в любом случае.

Сами посмотрите на эту номограмму. Понятно? Удобно? С первого раза и не разберёшься! Хотя для времён, когда персональных компьютеров не было, но под рукой всегда была линейка — вполне годный способ.

Номограмма Альмана. Пользоваться ей непривычно, но не сложно. Достаточно соединить линии со значениями правой и левой шкалы и на пересечении получить объём выборки. По умолчанию на правой шкале "Power" (Мощность или 1- β)  выбирают 0,8 и ориентируются на верхнюю линию с "Significance level" (уровень статистической значимости) со значением 0,05. На левой шкале выбирают, на какое количество раз будут отличаться средние при сравнении двух групп. Для разницы между средними в 50% объём выборки должен составлять около 70.
Номограмма Альмана. Пользоваться ей непривычно, но не сложно. Достаточно соединить линии со значениями правой и левой шкалы и на пересечении получить объём выборки. По умолчанию на правой шкале "Power" (Мощность или 1- β) выбирают 0,8 и ориентируются на верхнюю линию с "Significance level" (уровень статистической значимости) со значением 0,05. На левой шкале выбирают, на какое количество раз будут отличаться средние при сравнении двух групп. Для разницы между средними в 50% объём выборки должен составлять около 70.

Как уже было сказано, номограмма Альтмана устаревшая и не универсальная методика. К тому же в отличие от того же метода Отдельновой будет требовать формирования заведомо большой выборки. Ясное дело, что аспиранту это не очень понравиться. Всеми правдами и неправдами он будет пытаться найти ту методику, которая не будет вынуждать его формировать большие группы. Никто не хочет делать лишнюю работу.

Таблицы из рекомендаций к проведению клинических исследований

Помимо номограммы можно пользоваться готовыми таблицами из рекомендаций к проведению клинических исследований. Они периодически обновляются. По одной из таких таблиц объём групп в клиническом исследовании при α=0,05 (или p < 0,05) может составлять 14 человек. Такое возможно допустить при выполнении целого ряда условий: при достаточной гомогенности групп, большой разницы средних и небольших стандартных отклонениях, а также использовании одностороннего теста (one-tiled), вместо обычного и более жёсткого двустороннего (two-tiled).

-2

"Хорошие" способы определения минимального объёма выборки

Метод повторения или дублирования

Начать стоит с самого простого. Я называю его методом повторения или дублирования. По-хорошему, метод требует проведения пилотного исследования, чтобы получить хоть какие-то данные о дисперсиях в каждой группе. Обычно достаточно 6-ти наблюдений. Смысл в том, чтобы дублировать существующие данные до тех пор, пока p не снизится ниже заветных 0,05. Далее оцениваем объём выборки, при котором это произошло, на что и ориентируемся. Плюсом является то, что метод можно использовать для любого статистического теста, который собираетесь использовать. Минус связан с тем, что, если изначально разброс значений в каждой группе оказался высоким, то дублирование информации до бесконечности может ни к чему не привести. Из чего иногда можно сделать полезный вывод: а может и не стоит продолжать исследование, ведь разницы всё равно не будет.

Дублирование или многократное повторение позволяет подобрать ожидаемый размер выборки. На рисунке приведён пример с копированием уже существующих данных. В результате понятно, что при n=15 объём выборки недостаточен, а при 30 статистически значимые различия скорее всего удастся установить.
Дублирование или многократное повторение позволяет подобрать ожидаемый размер выборки. На рисунке приведён пример с копированием уже существующих данных. В результате понятно, что при n=15 объём выборки недостаточен, а при 30 статистически значимые различия скорее всего удастся установить.
Вариацией на эту тему является бутсреппинг. Это генерация чисел в соответствии с заданной моделью. В результате на основе данных, например, о медиане или среднем удаётся из нескольких чисел в ряду получить тысячу. Метод в неумелых руках скорее "читерский", чем обоснованный. Обычно представлен в навороченных и сложных программах для статистики типа IBM SPSS. Рекомендовать эту методику новичкам явно не стоит. Просто, если спросят, вы теперь хотя бы будете знать, что такой метод есть.

Использование специальных программ, типа G-Power

Другой метод также требует проведения пилотного исследования или хотя бы представления об арифметическом среднем и доверительном интервале. Он подразумевает использование специального программного обеспечения. Мне очень нравится программа G Power. Она бесплатная, подходит для Windows и Mac Os, и достаточно проста.

Скачать можно здесь. (На сайте разработчика промотайте страницу с описанием программы чуть ниже и увидите раздел Dawnload и ссылку на скачивание).

Вот алгоритм её использования. Описание действий под иллюстрацией.

-4
  1. Выберите тест. Для определения объёма двух групп для межгруппового сравнения выберите "t-test", "Means...", "... Compute sample size ...", "Two". Это подходит для большинства случаев, когда вы имеете дело с распределением близким к нормальному и оцениваете две несвязанные группы.
  2. Определите d (параметр зависимый от разницы средних и доверительного интервала).
  3. Для этого укажите предполагаемое или известное в ходе пилотного эксперимента среднее для каждой группы и укажите доверительный интервал. Можно указывать в процентах. Это особенно удобно, когда вы не проводили пилотного исследования и не знаете значений в реальных размерностях. (Можно укаказать один доверительный интервал, если он одинаков для двух групп. Для этого нужно поставить галочку на верхнем пункте: см. рис. выше)
  4. Передайте данные о d в основное окно.
  5. Задайте уровень статистической значимости α=0,05 (то самое значение p при котором различия будут считаться статистически значимыми) и мощность 1 - β = 0,8.
  6. Вычислите минимальный объём выборки.
  7. Оцените результат. Будет указан объём каждой группы (n) и совокупности (N).
  8. При необходимости можно построить график, на котором более точно оценить как объём выборки будет завесить от того или иного параметра.

Заключение

Для довершения картины хочется сказать про традиции, а также про ограничения самих статистических тестов, которыми в итоге будете пользоваться.

По умолчанию достаточной выборкой принято считать 1000, приемлемой — 100, а минимальной 20 или даже 12, но не меньше. Чем, это обосновано, никто уже не вспомнит. Однако многие вспоминают эти цифры, когда речь идёт про определение объёма выборки. И с этим тоже приходится считаться.

Также следует помнить, что некоторые методики нельзя использовать при малом объёме выборки и это заведомо оговаривается авторами этих методов. Например, метод Манна-Уитни нельзя использовать при объёме выборки менее 6-ти, как и многие другие непараметрические тесты. Также отдельно оговаривается, что при частом повторении значений объём выборки должен быть увеличен. В то же время есть и обратные примеры, когда ограничения умышленно игнорируются в угоду стандартизации. Например, t-тест и критерий Бонферрони по умолчанию используют для оценки результатов РТ-ПЦР и МТТ-теста даже если в каждой выборке всего по 2 значения (см. "help" к ПО от BioRad).

Как показывает практика, на объём выборки гораздо больше оказывает воздействие не статистический расчёт, а иные жизненные ограничения. Вот основные из них.

  • Редкость наблюдаемого события. Понятно, что набрать 100 человек с редким заболеванием бывает просто невозможно. Приходится довольствоваться тем, что есть.
  • Временные ограничения. Вы же не собираетесь набирать 100 человек в течение 20 лет, если время обучения в аспирантуре 3 года, а пропускная способность вашей клиники составляет не более 10 пациентов в год (итого 30 пациентов)? Сюда же относится и сложность методики оценки, применение которой может отнимать очень много времени, что также следует учесть.
  • Ресурсные ограничения. Речь прежде всего о деньгах. Если по-хорошему для эксперимента нужно 100 крыс, а у вас есть деньги только на 30? Что делать? Иногда лучше сделать исследование на ограниченном количестве объектов, чем не делать совсем. Разумеется, нужно понимать, что за исследование на 3-х крысах можно и не браться вовсе: слишком уж малая выборка, которая не покажет ничего. В результате только средства и время зря потратите. Но так или иначе деньги решают многое. Сюда же относятся ограничения в оснащении и количестве персонала.
  • Низкая значимость исследования. Если исследование является только лишь дополнением или "бантиком" для основной части работы, то достаточно придерживаться самого минимального объёма групп.

И само собой не забывайте про здравый смысл и то, как и какой объект исследования вы оцениваете.

Успехов!

Опубликовано 05.08.2024; UPD#1: 14.04.25

***

Ещё больше статей на канале!

Не стесняйтесь комментировать и задавать вопросы. Ставьте лайк и подписывайтесь!

Жду предложений по новым статьям!

© Васильев А.В.

Копирование и распространение без согласия автора не допускается.