Кажется, хайп вокруг искусственного интеллекта начал спадать, а вот вопросы только множатся. Особенно у тех, кто работает с исследованиями: можно ли уже «опросить» ИИ вместо людей и принести клиенту отчёт, не выходя в поле?
10 апреля на встрече MindNet «Синтетические данные VS синтетические респонденты: в чём разница?» столкнулись две яркие позиции. С одной стороны - Максим Акульшин, техдиректор и системный критик ИИ-инструментов. С другой - Эдгар Отченашенко, основатель панели синтетических респондентов «Огород». Между ними - модератор Сергей Проценко, которому приходилось то и дело возвращать горячий разговор к методологии.
Разберёмся, о чём на самом деле спорили участники, где они неожиданно сходились и какие вопросы после встречи так и остались без однозначных ответов.
Почему вообще возник спор
Триггером стало простое, но болезненное наблюдение: многие исследователи уже экспериментируют с «опросами» в ChatGPT/Claude/Perplexity. Формулируют промт «Представь, что ты 500 москвичей 25–35 лет…» - и получают таблицу ответов за минуту и ноль рублей.
Снаружи это очень похоже на результаты онлайн-панели. Внутри - по сути художественный текст, который убедительно имитирует общественное мнение.
Эдгар называет это синтетическими данными: ответы, сгенерированные большой языковой моделью напрямую по промту исследователя. Максим именно с такими «опросами в чатике» раньше выходил с критикой:
- модели кооперативны, то есть стараются «помочь» и выдать правдоподобный ответ, даже если данных нет;
- ответы зависят от формулировки вопроса и контекста диалога;
- распределения красивы, но часто не имеют отношения к реальности.
На этом фоне Эдгар выводит на рынок другой продукт - синтетических респондентов. И утверждает: синтетические данные ≠ синтетические респонденты, а путаница терминов только подогревает недоверие к инструментам и мешает их трезво оценивать.
Синтетические данные vs синтетические респонденты по‑взрослому
Встреча несколько раз возвращалась к одной и той же точке: «Объясните по‑простому, в чём разница?». Ниже - квинтэссенция аргументов обеих сторон.
Что такое синтетические данные
В интерпретации Максима и Сергея:
- Исследователь идёт в ChatGPT/Claude/Perplexity и просит сгенерировать ответы «от лица» целевой группы.
- Каждая генерация - новый набор псевдо‑респондентов, которые никак не связаны с предыдущими.
- Основа - одна LLM, обученная на огромном корпусе текстов.
- Поведение такой «выборки» полностью определяется промтом и внутренними смещениями модели.
Это быстрый, дешёвый, но крайне хрупкий инструмент. Максим подчёркивает: использовать такие данные как замену реальным опросам - всё равно что строить дом на песке.
Что такое синтетические респонденты
Эдгар описывает синтетиков совсем иначе. Ключевые принципы, которые он выделяет:
- Есть ограниченный пул «цифровых людей», а не бесконечно генерируемые клоны.
- Каждый синтетик - не просто маска для LLM, а сущность, которая опирается на панельбук знаний: демография, потребление, поведение, иногда профессиональные компетенции (например, по IT или недвижимости).
- Над всем этим работает мультиагентная система: один агент отвечает за формирование выборки; другой - за обучение и наполнение синтетиков знаниями; третий - за логический контроль анкеты; четвёртый - за актуализацию и т. д.
- Большие языковые модели используются на этапе обучения и обработки, но не как прямой «ответчик», который вытягивает данные из интернета на лету.
При опросе агенты обращаются к уже обученным синтетикам и спрашивают их, а не запускают генерацию «с чистого листа». В этом, по словам Эдгара, принципиальное отличие от «опроса чат‑бота».
Максим с этим частично соглашается: архитектура действительно сложнее, чем просто LLM по промту. Но фиксирует важный момент: если внутри системы всё равно есть LLM, то её "предвзятости" и уязвимости никуда не деваются. Они просто маскируются под более красивый интерфейс.
Провокация с бородой, дочерями и хобби хорсингом
Самый запоминающийся эпизод встречи - демонстрация теста, который Максим провёл на опросной платформе синтетических респондентов.
Он честно признаётся: это была провокация, а не полноценное исследование. Цель - не «завалить» сервис, а показать типичные уязвимости синтетиков и то, как сильный исследователь может управлять результатами.
Что он сделал:
Выбрал простую выборку: мужчины 35–45 лет из Рязани. Сформулировал намеренно разрозненную и странную анкету:
- сначала спрашивал про ребёнка и детский сад, потом - «Сколько у тебя дочерей?»;
- во второй версии - сначала про бороду, потом - «Если у тебя борода…»;
- o добавил вопрос «Какое у тебя хобби?» с экзотическими вариантами вроде хобби хорсинга (катание на палке‑лошадке);
- o включил технически сложные вопросы про тип SSD и поэтов XVII века.
Какие эффекты он показал:
- Кооперативность: если модель уже «согласилась», что у респондента есть дочь, то дальше она охотно рассказывает, когда она закончила садик.
- Связанность вопросов: после блока про бороды 100% рязанских мужчин в выборке неожиданно оказываются бородатыми.
- Заполнение «хвостов»: в списке хобби внезапно появляется заметная доля любителей хобби хорсинга.
- Иллюзия компетентности: мужчины уверенно выбирают тип SSD и даже демонстрируют осведомлённость о карандашах, хотя в реальности большинство людей этими нюансами не интересуется.
Максим делает из этого два вывода:
- Формулировкой вопросов можно сильно «подтолкнуть» синтетиков в нужную сторону даже без изощрённого промт‑инжиниринга.
- Это открывает гигантское поле для манипуляций - как сознательных (маркетологу нужно «доказать» эффективность кампании), так и случайных (исследователь просто плохо понимает природу инструмента).
Эдгар отвечает жёстко, но по делу:
- Анкета нарушает все базовые правила, которые специально вынесены в гайд/инструкцию по пользованию платформы: нет цели исследования, нет логики вопросов, целевая аудитория описана формально.
- Использовался тариф «лайт» - облегчённая версия панели, задуманная как дешёвый вход для студентов и стартапов. Там меньше контроля, меньше «силы» агентов и больше допущений.
- Для корректной оценки надо сравнивать не с образом «идеального опроса», а с реальными людьми: выйти в Рязани на улицу и задать те же вопросы живым мужчинам. Эдгар уверен, что найдётся кто‑то, кто по приколу выберет хобби хорсинг.
В итоге эта провокация показала не только уязвимости синтетиков, но и то, как мы неправильно с ними сравниваемся: вместо живых людей - с ответами ИИ. Синтетики вели себя “по‑человечески” - спокойно отвечали на бредовые вопросы бредовыми же ответами или просто тыкали в предложенные варианты.
На чём сошлись: когда синтетика уместна
Несмотря на эмоциональный фон, к середине встречи позиции начали сближаться.
Что готов защищать Эдгар
- Синтетические респонденты могут быть рабочим инструментом количественных исследований, особенно по массовым темам и базовым метрикам (NPS, простые поведенческие вопросы, FMCG, тесты рекламы).
- Есть кейсы, где сравнивали результаты опросов с синтетиками и опросов с живыми людьми: по ряду тем разброс получился в пределах нескольких процентных пунктов; по сложным темам расхождения могут быть больше (до 30 п.п.), и это честно признаётся.
- Инструмент особенно ценен для студентов, стартапов и небольших команд, для которых «поле» слишком дорого: можно быстро проверить гипотезу, отладить анкету, понять направление.
Что готов признать Максим
Использование синтетики в принципе возможно, но только при жёстких условиях:
- прозрачная архитектура: понятно, какие модели, какие корпуса, какие шаги обучения используются;
- системные тесты на смещения/предвзятости и устойчивость к изменениям формулировок;
- обязательная маркировка результатов как синтетических.
Есть задачи, где синтетика особенно полезна:
- o генерация и проверка гипотез;
- o тестирование анкет и логики вопросов;
- o поиск неочевидных зависимостей в уже собранных данных;
- o аккуратное заполнение пропусков в больших панельных исследованиях.
И Максим, и Эдгар сходятся в одном: подменять синтетикой живых людей полностью - пока имеет ряд ограничений и методологически опасно.
Болевые точки, которые вскрыла встреча
За два часа обсуждения всплыло несколько тем, которые явно требуют дальнейшей коллективной проработки.
Стандарты и валидация
Сегодня каждый игрок, работающий с синтетическими респондентами, придумывает свои подходы к проверке качества.
Но отрасли нужны:
- общие тесты на кооперативность и галлюцинации;
- процедуры сравнения с живыми опросами на типичных задачах;
- рекомендации по интерпретации расхождений (условные «±5% ещё ок, вот это уже тревожно»).
Пока этого нет, любые утверждения «у нас всё хорошо» остаются недоказуемыми за пределами конкретных кейсов.
Этика и честная маркировка
Модератор несколько раз возвращался к вопросу: как не допустить ситуации, когда синтетические данные выдаются за реальные.
Нужны понятные правила:
- как маркировать данные, полученные от синтетических респондентов;
- можно ли их смешивать с данными живых людей в одном отчёте и на каких условиях;
- что честно говорить клиенту о методе сбора, ограничениях и возможных смещениях.
Узкие и труднодостижимые аудитории
Позиции Эдгара и Максима дополняют друг друга.
- Эдгар говорит: «синтетики могут работать по узким группам, если есть хороший обучающий массив и его готовы долго и дорого накапливать/заливать».
- Максим добавляет ограничение: «если такого массива нет, модель начнёт уверенно фантазировать, а в узких и дорогих сегментах цена ошибки особенно высока».
По сути, это одна связка: можно использовать синтетиков для узких аудиторий, только если есть крепкая эмпирика; иначе - высокие риски и лучше не лезть.
Качественные исследования и «цифровые персонажи»
Интересно, что обе стороны признают: технически можно строить «цифровых людей» для качественных задач - имитировать интервью, фокус‑группы, поведенческие сценарии.
Но Эдгар сознательно не идёт в эту зону:
другая экономика, другая бизнес‑модель, слишком высока цена ошибки.
Максим видит здесь потенциал - и одновременно максимальный риск манипуляций и самообмана: ИИ уже умеет говорить слишком убедительно, чтобы ему доверять без жёстких проверок.
Что это всё значит для практикующих исследователей
Если попытаться перевести итоги встречи в рабочие ориентиры, получится примерно следующее.
Синтетические респонденты сегодня подходят для:
- быстрых тестов идей и анкет;
- простых количественных задач по массовым темам;
- учебных и пилотных проектов, где цена ошибки относительно невысока.
условно подходят для:
- задач с большим историческим массивом данных, по которым панель реально обучена (например, IT или недвижимость в кейсах «Огорода»);
- аналитики «что, если…» - генерации гипотез и проверки сценариев.
не подходят (или требуют экстремальной осторожности) для:
- политических и чувствительных тем;
- редких и труднодостижимых аудиторий без хорошей базы наблюдений;
- кейсов, где решения стоят слишком дорого, чтобы опираться на вероятностную модель без живой валидации.
Главный урок встречи: синтетические респонденты - это не магия и не враг, это ещё один инструмент в руках исследователя. Он усиливает эксперта, но не отменяет его ответственности за дизайн исследования, интерпретацию и честный разговор с заказчиком.
Запись встречи: Рутуб