Добавить в корзинуПозвонить
Найти в Дзене
Research Vision Lab

Синтетические респонденты против синтетических данных: чем они реально отличаются и кому верить

Кажется, хайп вокруг искусственного интеллекта начал спадать, а вот вопросы только множатся. Особенно у тех, кто работает с исследованиями: можно ли уже «опросить» ИИ вместо людей и принести клиенту отчёт, не выходя в поле? 10 апреля на встрече MindNet «Синтетические данные VS синтетические респонденты: в чём разница?» столкнулись две яркие позиции. С одной стороны - Максим Акульшин, техдиректор и системный критик ИИ-инструментов. С другой - Эдгар Отченашенко, основатель панели синтетических респондентов «Огород». Между ними - модератор Сергей Проценко, которому приходилось то и дело возвращать горячий разговор к методологии. Разберёмся, о чём на самом деле спорили участники, где они неожиданно сходились и какие вопросы после встречи так и остались без однозначных ответов. Почему вообще возник спор Триггером стало простое, но болезненное наблюдение: многие исследователи уже экспериментируют с «опросами» в ChatGPT/Claude/Perplexity. Формулируют промт «Представь, что ты 500 москвичей 25–
Оглавление
Разница между синтетическими данными и синтетическими респондентами: иллюстрация, где “дом на песке” показывает ненадёжность сырых данных, а “дом на фундаменте” - более осмысленные ответы цифровых респондентов.
Разница между синтетическими данными и синтетическими респондентами: иллюстрация, где “дом на песке” показывает ненадёжность сырых данных, а “дом на фундаменте” - более осмысленные ответы цифровых респондентов.

Кажется, хайп вокруг искусственного интеллекта начал спадать, а вот вопросы только множатся. Особенно у тех, кто работает с исследованиями: можно ли уже «опросить» ИИ вместо людей и принести клиенту отчёт, не выходя в поле?

10 апреля на встрече MindNet «Синтетические данные VS синтетические респонденты: в чём разница?» столкнулись две яркие позиции. С одной стороны - Максим Акульшин, техдиректор и системный критик ИИ-инструментов. С другой - Эдгар Отченашенко, основатель панели синтетических респондентов «Огород». Между ними - модератор Сергей Проценко, которому приходилось то и дело возвращать горячий разговор к методологии.

Разберёмся, о чём на самом деле спорили участники, где они неожиданно сходились и какие вопросы после встречи так и остались без однозначных ответов.

Почему вообще возник спор

Триггером стало простое, но болезненное наблюдение: многие исследователи уже экспериментируют с «опросами» в ChatGPT/Claude/Perplexity. Формулируют промт «Представь, что ты 500 москвичей 25–35 лет…» - и получают таблицу ответов за минуту и ноль рублей.

Снаружи это очень похоже на результаты онлайн-панели. Внутри - по сути художественный текст, который убедительно имитирует общественное мнение.

Эдгар называет это синтетическими данными: ответы, сгенерированные большой языковой моделью напрямую по промту исследователя. Максим именно с такими «опросами в чатике» раньше выходил с критикой:

  • модели кооперативны, то есть стараются «помочь» и выдать правдоподобный ответ, даже если данных нет;
  • ответы зависят от формулировки вопроса и контекста диалога;
  • распределения красивы, но часто не имеют отношения к реальности.

На этом фоне Эдгар выводит на рынок другой продукт - синтетических респондентов. И утверждает: синтетические данные ≠ синтетические респонденты, а путаница терминов только подогревает недоверие к инструментам и мешает их трезво оценивать.

Синтетические данные vs синтетические респонденты по‑взрослому

Встреча несколько раз возвращалась к одной и той же точке: «Объясните по‑простому, в чём разница?». Ниже - квинтэссенция аргументов обеих сторон.

Что такое синтетические данные

В интерпретации Максима и Сергея:

  • Исследователь идёт в ChatGPT/Claude/Perplexity и просит сгенерировать ответы «от лица» целевой группы.
  • Каждая генерация - новый набор псевдо‑респондентов, которые никак не связаны с предыдущими.
  • Основа - одна LLM, обученная на огромном корпусе текстов.
  • Поведение такой «выборки» полностью определяется промтом и внутренними смещениями модели.

Это быстрый, дешёвый, но крайне хрупкий инструмент. Максим подчёркивает: использовать такие данные как замену реальным опросам - всё равно что строить дом на песке.

Что такое синтетические респонденты

Эдгар описывает синтетиков совсем иначе. Ключевые принципы, которые он выделяет:

  • Есть ограниченный пул «цифровых людей», а не бесконечно генерируемые клоны.
  • Каждый синтетик - не просто маска для LLM, а сущность, которая опирается на панельбук знаний: демография, потребление, поведение, иногда профессиональные компетенции (например, по IT или недвижимости).
  • Над всем этим работает мультиагентная система: один агент отвечает за формирование выборки; другой - за обучение и наполнение синтетиков знаниями; третий - за логический контроль анкеты; четвёртый - за актуализацию и т. д.
  • Большие языковые модели используются на этапе обучения и обработки, но не как прямой «ответчик», который вытягивает данные из интернета на лету.

При опросе агенты обращаются к уже обученным синтетикам и спрашивают их, а не запускают генерацию «с чистого листа». В этом, по словам Эдгара, принципиальное отличие от «опроса чат‑бота».

Максим с этим частично соглашается: архитектура действительно сложнее, чем просто LLM по промту. Но фиксирует важный момент: если внутри системы всё равно есть LLM, то её "предвзятости" и уязвимости никуда не деваются. Они просто маскируются под более красивый интерфейс.

Провокация с бородой, дочерями и хобби хорсингом

Провокационный эксперимент с синтетическими респондентами: бородатый респондент, дочери и хобби хорсинг в абсурдной анкете, показывающей уязвимости синтетиков и манипулируемость результатов исследования.
Провокационный эксперимент с синтетическими респондентами: бородатый респондент, дочери и хобби хорсинг в абсурдной анкете, показывающей уязвимости синтетиков и манипулируемость результатов исследования.

Самый запоминающийся эпизод встречи - демонстрация теста, который Максим провёл на опросной платформе синтетических респондентов.

Он честно признаётся: это была провокация, а не полноценное исследование. Цель - не «завалить» сервис, а показать типичные уязвимости синтетиков и то, как сильный исследователь может управлять результатами.

Что он сделал:

Выбрал простую выборку: мужчины 35–45 лет из Рязани. Сформулировал намеренно разрозненную и странную анкету:

  • сначала спрашивал про ребёнка и детский сад, потом - «Сколько у тебя дочерей?»;
  • во второй версии - сначала про бороду, потом - «Если у тебя борода…»;
  • o добавил вопрос «Какое у тебя хобби?» с экзотическими вариантами вроде хобби хорсинга (катание на палке‑лошадке);
  • o включил технически сложные вопросы про тип SSD и поэтов XVII века.

Какие эффекты он показал:

  • Кооперативность: если модель уже «согласилась», что у респондента есть дочь, то дальше она охотно рассказывает, когда она закончила садик.
  • Связанность вопросов: после блока про бороды 100% рязанских мужчин в выборке неожиданно оказываются бородатыми.
  • Заполнение «хвостов»: в списке хобби внезапно появляется заметная доля любителей хобби хорсинга.
  • Иллюзия компетентности: мужчины уверенно выбирают тип SSD и даже демонстрируют осведомлённость о карандашах, хотя в реальности большинство людей этими нюансами не интересуется.

Максим делает из этого два вывода:

  1. Формулировкой вопросов можно сильно «подтолкнуть» синтетиков в нужную сторону даже без изощрённого промт‑инжиниринга.
  2. Это открывает гигантское поле для манипуляций - как сознательных (маркетологу нужно «доказать» эффективность кампании), так и случайных (исследователь просто плохо понимает природу инструмента).

Эдгар отвечает жёстко, но по делу:

  • Анкета нарушает все базовые правила, которые специально вынесены в гайд/инструкцию по пользованию платформы: нет цели исследования, нет логики вопросов, целевая аудитория описана формально.
  • Использовался тариф «лайт» - облегчённая версия панели, задуманная как дешёвый вход для студентов и стартапов. Там меньше контроля, меньше «силы» агентов и больше допущений.
  • Для корректной оценки надо сравнивать не с образом «идеального опроса», а с реальными людьми: выйти в Рязани на улицу и задать те же вопросы живым мужчинам. Эдгар уверен, что найдётся кто‑то, кто по приколу выберет хобби хорсинг.
В итоге эта провокация показала не только уязвимости синтетиков, но и то, как мы неправильно с ними сравниваемся: вместо живых людей - с ответами ИИ. Синтетики вели себя “по‑человечески” - спокойно отвечали на бредовые вопросы бредовыми же ответами или просто тыкали в предложенные варианты.

На чём сошлись: когда синтетика уместна

Несмотря на эмоциональный фон, к середине встречи позиции начали сближаться.

Что готов защищать Эдгар

  • Синтетические респонденты могут быть рабочим инструментом количественных исследований, особенно по массовым темам и базовым метрикам (NPS, простые поведенческие вопросы, FMCG, тесты рекламы).
  • Есть кейсы, где сравнивали результаты опросов с синтетиками и опросов с живыми людьми: по ряду тем разброс получился в пределах нескольких процентных пунктов; по сложным темам расхождения могут быть больше (до 30 п.п.), и это честно признаётся.
  • Инструмент особенно ценен для студентов, стартапов и небольших команд, для которых «поле» слишком дорого: можно быстро проверить гипотезу, отладить анкету, понять направление.

Что готов признать Максим

Использование синтетики в принципе возможно, но только при жёстких условиях:

  • прозрачная архитектура: понятно, какие модели, какие корпуса, какие шаги обучения используются;
  • системные тесты на смещения/предвзятости и устойчивость к изменениям формулировок;
  • обязательная маркировка результатов как синтетических.

Есть задачи, где синтетика особенно полезна:

  • o генерация и проверка гипотез;
  • o тестирование анкет и логики вопросов;
  • o поиск неочевидных зависимостей в уже собранных данных;
  • o аккуратное заполнение пропусков в больших панельных исследованиях.
Узкие и труднодостижимые аудитории в исследованиях: визуальная метафора, где мост из эмпирики ведёт к топ‑менеджерам и редким диагнозам, а фантазии модели без данных оборачиваются высокой ценой ошибки.
Узкие и труднодостижимые аудитории в исследованиях: визуальная метафора, где мост из эмпирики ведёт к топ‑менеджерам и редким диагнозам, а фантазии модели без данных оборачиваются высокой ценой ошибки.

И Максим, и Эдгар сходятся в одном: подменять синтетикой живых людей полностью - пока имеет ряд ограничений и методологически опасно.

Болевые точки, которые вскрыла встреча

За два часа обсуждения всплыло несколько тем, которые явно требуют дальнейшей коллективной проработки.

Стандарты и валидация

Сегодня каждый игрок, работающий с синтетическими респондентами, придумывает свои подходы к проверке качества.

Но отрасли нужны:

  • общие тесты на кооперативность и галлюцинации;
  • процедуры сравнения с живыми опросами на типичных задачах;
  • рекомендации по интерпретации расхождений (условные «±5% ещё ок, вот это уже тревожно»).

Пока этого нет, любые утверждения «у нас всё хорошо» остаются недоказуемыми за пределами конкретных кейсов.

Этика и честная маркировка

Модератор несколько раз возвращался к вопросу: как не допустить ситуации, когда синтетические данные выдаются за реальные.

Нужны понятные правила:

  • как маркировать данные, полученные от синтетических респондентов;
  • можно ли их смешивать с данными живых людей в одном отчёте и на каких условиях;
  • что честно говорить клиенту о методе сбора, ограничениях и возможных смещениях.

Узкие и труднодостижимые аудитории

Позиции Эдгара и Максима дополняют друг друга.

  • Эдгар говорит: «синтетики могут работать по узким группам, если есть хороший обучающий массив и его готовы долго и дорого накапливать/заливать».
  • Максим добавляет ограничение: «если такого массива нет, модель начнёт уверенно фантазировать, а в узких и дорогих сегментах цена ошибки особенно высока».

По сути, это одна связка: можно использовать синтетиков для узких аудиторий, только если есть крепкая эмпирика; иначе - высокие риски и лучше не лезть.

человеческая картинка, художник Максим Акульшин
человеческая картинка, художник Максим Акульшин

Качественные исследования и «цифровые персонажи»

Интересно, что обе стороны признают: технически можно строить «цифровых людей» для качественных задач - имитировать интервью, фокус‑группы, поведенческие сценарии.

Но Эдгар сознательно не идёт в эту зону:

другая экономика, другая бизнес‑модель, слишком высока цена ошибки.

Максим видит здесь потенциал - и одновременно максимальный риск манипуляций и самообмана: ИИ уже умеет говорить слишком убедительно, чтобы ему доверять без жёстких проверок.

Что это всё значит для практикующих исследователей

Если попытаться перевести итоги встречи в рабочие ориентиры, получится примерно следующее.

Синтетические респонденты сегодня подходят для:

  • быстрых тестов идей и анкет;
  • простых количественных задач по массовым темам;
  • учебных и пилотных проектов, где цена ошибки относительно невысока.

условно подходят для:

  • задач с большим историческим массивом данных, по которым панель реально обучена (например, IT или недвижимость в кейсах «Огорода»);
  • аналитики «что, если…» - генерации гипотез и проверки сценариев.

не подходят (или требуют экстремальной осторожности) для:

  • политических и чувствительных тем;
  • редких и труднодостижимых аудиторий без хорошей базы наблюдений;
  • кейсов, где решения стоят слишком дорого, чтобы опираться на вероятностную модель без живой валидации.
Главный урок встречи: синтетические респонденты - это не магия и не враг, это ещё один инструмент в руках исследователя. Он усиливает эксперта, но не отменяет его ответственности за дизайн исследования, интерпретацию и честный разговор с заказчиком.


Запись встречи:
Рутуб