4569 подписчиков

"Ошибка выжившего": вы не знаете, откуда это пошло и как использовать

8 июня8 июн

10 мин

Вы наверняка слышали термин "ошибка выжившего". Чаще всего его транслируют на каком-нибудь бизнес тренинге от очередного финансового гуру. Но точно ли вы понимаете откуда эта теория пошла? В чем она заключалась? И как эту теорию использовать для ваших задач сейчас? Я вас удивлю. (По крайней мере я сам удивился.) Итак.., что же это за выживший? И почему у него есть какая-то ошибка? Термин и идея оформлялись постепенно, но классическая история — про Вторую мировую войну и анализ повреждений самолётов. Союзники изучали вернувшиеся с боевых вылетов самолёты и отмечали, куда чаще всего попадали пули/осколки. Интуитивная рекомендация военных была: «усиливать бронёй места, где больше дыр». Это логично - куда попадают чаще всего - то и усилим. Когда решение о бронировании уже почти было принято, Абрахам Вальд (Abraham Wald), математик из Statistical Research Group (SRG), предложил сумасшедшее решение - "давайте усилим те части самолетов, где дыр нет совсем". Он указал на логическую ловушку: м

Оглавление

Как появился: история и происхождение
В чём суть
Современная бизнес интерпретация

Вы наверняка слышали термин "ошибка выжившего". Чаще всего его транслируют на каком-нибудь бизнес тренинге от очередного финансового гуру.

Но точно ли вы понимаете откуда эта теория пошла? В чем она заключалась? И как эту теорию использовать для ваших задач сейчас?

Я вас удивлю. (По крайней мере я сам удивился.)

Итак.., что же это за выживший? И почему у него есть какая-то ошибка?

Как появился: история и происхождение

Термин и идея оформлялись постепенно, но классическая история — про Вторую мировую войну и анализ повреждений самолётов.

Союзники изучали вернувшиеся с боевых вылетов самолёты и отмечали, куда чаще всего попадали пули/осколки. Интуитивная рекомендация военных была: «усиливать бронёй места, где больше дыр». Это логично - куда попадают чаще всего - то и усилим. Когда решение о бронировании уже почти было принято, Абрахам Вальд (Abraham Wald), математик из Statistical Research Group (SRG), предложил сумасшедшее решение - "давайте усилим те части самолетов, где дыр нет совсем".

Он указал на логическую ловушку: мы видим только выжившие самолёты. Значит, дырки на них — это попадания, которые они смогли пережить.

Следовательно, бронировать нужно было наоборот — те зоны, где на вернувшихся самолётах дырок мало (потому что самолёты с такими попаданиями не возвращались: двигатель, топливная система, кабина и т.п.).

Именно этот кейс стал историческим объяснением survivorship bias. Позже термин широко закрепился в психологии, экономике, менеджменте и аналитике данных.

В чём суть

Ты наблюдаешь выборку, прошедшую фильтр «выжил/успел/не сломался», и принимаешь её за «всю реальность».

Формально: у тебя есть процесс с отбором/отсевом, и данные о выбывших частично или полностью отсутствуют. Тогда оценка причин, вероятностей и эффектов смещается.

Признаки, что тут может быть ошибка выжившего:

Есть «воронка» (подача → отбор → выполнение → релиз → успех).
Ты анализируешь только финальную стадию.
Про «неудачников» данных мало/нет/их никто не собирает.
Выводы слишком оптимистичны и «как будто закономерны».

Современная бизнес интерпретация

Мы любим истории успеха за простоту: герой сделал X — и получил Y. Хочется верить, что если повторить X (бросить университет, “пилить MVP ночами”, не слушать критиков, нанять “звёзд”), то результат будет похожим.

Проблема в том, что почти всегда мы смотрим на выборку выживших: тех, кто дошёл до книги, интервью, кейса, подкаста и обложки. Ты видишь не реальность, а витрину. Это и есть ошибка выжившего.

Ниже — пять причин, почему «рецепты успеха» часто вводят в заблуждение, и как читать их так, чтобы извлекать пользу, а не иллюзии.

1) Мы видим только «доживших» до интервью/книги/кейса

Истории успеха — это данные, прошедшие несколько фильтров:

Фильтр результата: в поле зрения попадают те, у кого есть заметный успех (рост, деньги, влияние).
Фильтр видимости: публичными становятся не все успешные, а те, кто готов и умеет рассказывать.
Фильтр медиа: медиа выбирают истории с понятной драматургией (“падал → поднялся → победил”), а не статистически честные.
Фильтр сохранности: провалы растворяются: компании закрываются, люди уходят в другие сферы, проекты исчезают без следа.

Из-за этого создаётся ложное ощущение частоты: будто “сделать X” часто приводит к успеху. На самом деле ты видишь условную сотню победителей — и не видишь тысячи, которые сделали X, но не прошли в финал и потому не стали историей.

Как это выглядит в жизни:

“Самоучки часто становятся топами” — потому что их путь более “сюжетный”.
“Смелость окупается” — потому что смелые провалы плохо продаются как вдохновляющий контент.
“Он упрямо стоял на своём — и выиграл” — а те, кто стоял на своём и проиграл, обычно не получают микрофон.

Полезная мысль для читателя: истории успеха — это не выборка, а выборка после отбора.

2) Путают «коррелирует» и «является причиной»

Даже если у многих успешных было X, это ещё не значит, что X привёл к успеху. Часто причинность устроена иначе.

X может быть следствием успеха (post-hoc / reverse causality)

“Они много выступали → стали известными.”
Нередко наоборот: “стали известными → их начали звать выступать”.

В бизнесе это ещё заметнее:

“нанимали лучших” — да, после того как появился рост и деньги;
“инвестировали в бренд” — когда уже есть ресурс и основания.

X может быть побочным признаком (“они могли себе это позволить”)

“Фаундер 2 года не брал зарплату” звучит как дисциплина. Но иногда это означает финансовую подушку, поддержку семьи, параллельный доход. Повторить X без этих условий — не стратегия, а риск.

X может быть маркером другой причины

“Бросил университет” может быть не причиной, а сигналом:

раннего доступа к сильному окружению,
высокой уверенности в навыке,
конкретных возможностей здесь и сейчас (тайминг).

X может быть совпадением

Истории успеха — это очень маленькая, сильно отфильтрованная выборка. В такой выборке “закономерности” возникают даже там, где их нет.

Практический тест: если можно представить успешный кейс без X, то X вряд ли “ключевая причина”, максимум — один из факторов или условие, работающее в конкретной среде.

3) Игнорируют base rate (базовую вероятность)

Мозг легко подменяет одну вероятность другой.

Тебе показывают: P(X | успех) — среди успешных часто встречается X.
Тебе нужно для решения: P(успех | X) — насколько X повышает шанс успеха.

Это разные вещи.

Почему появляется иллюзия:

X может быть распространённой практикой среди всех (например, “работали много”, “делали презентации”, “переезжали в столицу”).
Тогда среди успешных X тоже будет часто — просто потому что X часто встречается вообще.

Правильный вопрос вместо “многие успешные делали X?”

Насколько меняется вероятность успеха у тех, кто сделал X, по сравнению с теми, кто X не делал, при сопоставимых стартовых условиях?

Без этого любой совет вида “делай X — и будет успех” часто является просто перефразированием “успех случается у некоторых людей”.

4) Не учитывают контекст эпохи и рынка

Многие “пути” работают не потому, что они универсальны, а потому что совпали с условиями.

Один и тот же подход может быть валиден только при:

стадии рынка (ранний рынок vs зрелый, когда уже плотная конкуренция),
стоимости и доступности дистрибуции (дешёвый трафик тогда, дорогой сейчас),
регуляциях и инфраструктуре (раньше “быстро запустили”, сейчас нужно соответствие требованиям),
типе конкуренции (тогда никого не было, сейчас — десятки сильных игроков).

Поэтому “повтори путь” часто невыполним буквально: ты пытаешься повторить маршрут в городе, который перестроили.

Хорошая формулировка вместо копирования:

не “делай как они”,
а “какой универсальный принцип тут был?” (быстрые итерации, близость к пользователю, контроль unit-экономики) и “какой элемент был чисто эпохой?” (дешёвые каналы, отсутствие регуляции, свободная ниша).

5) «Рецепты успеха» страдают от подбора фактов и рационализации

После того как результат известен, мозг начинает “объяснять” его красивой причинной цепочкой. Это ретроспективная упрощённая модель.

В реальности у компании/человека было:

множество параллельных решений,
тупики и развороты,
случайные удачи,
внешние факторы.

Но постфактум история выбирает 5–10 элементов, которые “смотрятся причиной”, и превращает их в “стратегию”.

Опасность здесь двойная:
1) ты копируешь легенду, а не механизм;
2) ты переоцениваешь управляемость успеха и недооцениваешь риск.

Как отличить механизм от легенды:

ищи не “что они сделали”, а “что они пробовали и что не сработало”;
ищи альтернативы: какие развилки были, почему выбрали этот вариант, что изменило решение;
смотри на числа и ограничения (ресурсы, рынок, каналы), а не только на философию.

Как читать истории успеха правильно: мини‑алгоритм «анти‑выживший»

Используй кейсы как источник гипотез, но проверяй их на смещение. Вот простой порядок:

1) Назови “X” одним предложением
“Они делали X, поэтому стали успешными”.

2) Спроси: “Кого нет в данных?”
Где те, кто делал X и не добился успеха? Каков масштаб кладбища?

3) Раздели корреляцию и причинность
X — причина, следствие, маркер другого фактора или совпадение?

4) Проверь base rate
Тебе нужно P(успех|X). Если её нет — не делай сильных выводов.

5) Отдели универсальное от контекстного
Что в кейсе — принцип, а что — эпоха/рынок/канал?

6) Сформулируй безопасную гипотезу вместо “рецепта”
Не “делай X”, а “X может помочь при условиях Z; риски такие-то; проверка такая-то”.

Как используют "ошибку выжившего" на практике

1) Медицина и биостатистика

Как учитывают:

Survival analysis (анализ выживаемости)
Считают риск события во времени и корректно обрабатывают случаи, когда наблюдение закончилось, а событие ещё не произошло.
Censoring (цензурирование)
Не выкидывают “недонаблюдённых” пациентов (которые выбыли/не успели дойти до исхода), а учитывают, что по ним есть частичная информация.
Intention-to-treat (ITT) в рандомизированных исследованиях
Анализируют всех, кого распределили по группам, даже если кто-то “не дотерпел” до конца протокола — чтобы не получить эффект “выживших/дисциплинированных”.

Суть: не сравнивают только “доживших до финала” — учитывают выбывание как часть данных.

2) Экономика и социология (эконометрика)

Как учитывают:

Sample selection bias / Selection models
Отдельно моделируют (или хотя бы явно признают) механизм, почему одни попали в выборку, а другие нет.
Heckman correction (коррекция Хекмана)
Классический инструмент, когда результат виден только у прошедших отбор (например, зарплата — только у работающих).

Суть: “мы видим только отобранных” — значит, сначала разбираемся с отбором, иначе оценки будут смещены.

3) Кредитный скоринг и риск‑модели

Как учитывают:

Reject inference
Пытаются учесть, что дефолт наблюдаем только у тех, кому кредит выдали; для отказников меток нет, и это ломает обучение модели.
Champion–Challenger / controlled experiments в выдаче
Иногда специально меняют правила одобрения на малой доле, чтобы собрать метки и уменьшить смещение.

Суть: если обучаться только на “одобренных”, модель будет оптимистична и плохо переносится на всю популяцию заявок.

4) Финансы и бэктестинг стратегий

Как учитывают:

Survivorship-bias-free datasets
Используют данные, где сохранены закрывшиеся фонды и исчезнувшие инструменты, а не только “живые”.
Point-in-time analysis
Анализируют “что было доступно инвестору тогда”, а не “что осталось в базе сейчас”.
Учет delistings (делистингов)
Не дают активу “пропасть без следа”, иначе результаты стратегии выглядят лучше, чем были.

Суть: нельзя оценивать доходности по тем, кто выжил — нужно учитывать тех, кто исчез из рынка.

5) Наука и мета‑анализ

Как учитывают:

Publication bias analysis
Проверяют, что в публикациях есть перекос в сторону “положительных” результатов.
Preregistration / Registered Reports
Меняют процесс: исследование принимают к публикации по плану и методологии ещё до результата, чтобы нулевые результаты тоже выходили в свет.
Поиск “серой литературы”
В мета-анализах пытаются найти диссертации, препринты, отчёты — то, что не попало в журналы.

Суть: если публикуют только “сработало”, общая картина становится завышенно оптимистичной.

6) Продуктовая аналитика и анализ данных в IT

Как учитывают:

Воронки (funnel analysis)
Смотрят не только на успешные прохождения, но и на drop-off на каждом шаге.
Когортный анализ
Фиксируют когорту по моменту старта и смотрят её судьбу, а не анализируют только текущих активных.
Отдельные метрики потерь наблюдаемости (observability gap)
Явно измеряют случаи, где “началось, но не закончилось” (краш, таймаут, обрыв сети, не доставились события).

Суть: “нет события в логах” не означает “не было проблемы”; нужно учитывать тех, кто “выпал из данных”.

7) Надёжность и эксплуатация (SRE/инженерия)

Как учитывают:

Postmortems / RCA с учётом silent failures
Разбирают случаи, когда система сломалась так, что не осталось логов/трейсов (это отдельный класс отказов).
Instrumentation-first подход
Сначала делают так, чтобы “падения без следов” стали видимыми (watchdogs, crash reports, server-side корреляция).

Суть: самые опасные сбои часто как раз те, которые “не попали в статистику”.

Универсальный паттерн (одной строкой)

Если есть фильтр “дошёл/выжил/опубликован/одобрен/не упал”, то анализ только прошедших фильтр почти гарантированно оптимистичен. Реальные практики либо:
1) учитывают выбывание как часть данных, либо
2) моделируют отбор, либо
3) меняют процесс, чтобы данные о “выбывших” тоже появлялись.

Если Вам интересно, что еще можно найти на канале QA Helper, прочитайте статью: Вместо оглавления. Что вы найдете на канале QA Helper - справочник тестировщика?

Пишите в комментариях если вы знали, что это за "ошибка выжившего" (survivorship bias) и я был не прав?