В последние годы мы видели массу демо-версий и прототипов, которые, казалось бы, упрощают работу исследователей, аналитиков и консультантов. Очередное «чудо» — инструмент Deep Research от OpenAI. Его концепция проста: вы формулируете задачу, а ИИ выдаёт готовые графики, таблицы и выводы, будто бы избавляя вас от утомительного поиска в источниках. Но, судя по примеру с долями рынка смартфонов, который сам OpenAI привёл на своей презентационной странице, «чудо» демонстрирует весьма спорные результаты.
🧩 Суть инструмента: «искусственный стажёр» вместо рутинной работы
По задумке, Deep Research:
- 🤖 Собирает данные из интернета (якобы с авторитетных источников вроде Statista, Statcounter и других);
- 🔎 Анализирует эти данные, чтобы дать сводную картину (например, процент рынка iOS и Android в разных странах);
- 📝 Представляет результат в удобных диаграммах и табличках, оформленных в единый «исследовательский» отчёт.
На первый взгляд, всё выглядит потрясающе: отчёт составляется «за пару минут», экономя человеку часы или дни кропотливого труда. Однако загвоздка в том, что ошибки здесь не просто возможны — они практически неизбежны.
🔍 Пример с Японией: несоответствия и «некорректные источники»
OpenAI в своём образце отчёта показывает, что в Японии iPhone якобы занимает 69%, а Android — 31%.
- 🔎 Statcounter (на который ссылается отчёт) обычно даёт другие цифры, и к тому же «завышает» показатели iPhone, так как учитывает активность (трафик), а не реальное число устройств.
- 🏷️ Statista вообще не является первоисточником: это агрегатор, который часто «закрывает» данные за закрытым доступом. Если копать глубже, то реальный источник там — Kantar Worldpanel, а его данные указывают на обратное соотношение (примерно 63% Android к 36% iOS).
- 🏛️ Официальная статистика (японский регулятор) даёт цифры 53% Android и 47% iOS по установленной базе.
Таким образом, Deep Research не просто «взяло» неправильный источник: оно ещё и некорректно интерпретировало те данные, которые якобы использовало.
⚠️ Почему «80% точности» недостаточно?
Может показаться, что «всё равно модель угадала большую часть чисел», и со временем это станет ещё лучше. Но в таких отчётах:
- 📉 Достаточно одной-двух грубых ошибок, чтобы итоговая сводка потеряла доверие.
- 🧭 Нужно проверять каждую цифру: раз уж нашлось несоответствие в одной колонке, нельзя знать, где ещё ИИ ошибся.
В результате, если мне всё равно приходится перепроверять всю таблицу, Deep Research не экономит мне труд — проще самому собрать данные, чем ловить «придуманные» факты, порождённые нейросетью.
🏗️ Откуда эти проблемы и можно ли их решить?
Системы вроде GPT — это вероятностные языковые модели.
- 🌀 Они хорошо догадываются о том, что вы имели в виду, способны «компилировать» разные источники и связно говорить о чём-то расплывчатом.
- ⚙️ Но они плохи в точном извлечении конкретных фактов — ведь это уже задача, ближе к детерминированной базе данных, а не к вероятностному генератору текстов.
Может ли это исправиться эволюцией моделей?
- 💡 Инкрементное улучшение, скажем с 85% точности до 90%, всё равно оставит бреши. И кто захочет публиковать «исследование», в котором каждая 10-я или 20-я цифра неверна?
- ⚗️ Нужен качественный скачок: чтобы LLM стала гарантированно возвращать факты без ошибок (то есть научилась быть чем-то вроде «идеальной БД»), но пока мы даже не уверены, возможно ли это с текущей парадигмой.
📌 Интеграция vs. «простой текстовый интерфейс»
OpenAI (как и другие компании, развивающие фундаментальные модели) пока не имеет очевидной защиты от конкурентов, да и «продукта» в привычном смысле нет — только API и демо-инструменты вроде Deep Research.
- 🤝 Лучший вариант сейчас — это встраивать LLM в конкретные бизнес-процессы и программы, где есть чёткие «обвязки» и проверка фактов (API-методы, человеческая валидация). Тогда результат будет более осмысленным.
- 🚀 Но если мы хотим «запустить» Deep Research напрямую и полагаться на него, это пока что слишком рискованно для серьёзного анализа.
🤔 Личный взгляд
- 🏆ИИ — это «велосипед для мозга» (по меткому выражению Стива Джобса): он помогает ускорить процесс, но сам никуда не поедет. Важно, чтобы «водитель» имел здравый смысл и экспертизу.
- 💥 «Ошибки в мелочах» могут стоить доверия ко всему отчёту. Для рынка аналитики и консалтинга репутация и точность важнее скорости.
- 🚧 Не стоит сбрасывать ИИ со счетов. Для грубого чернового исследования, для поиска идей или формулировки тем — это отличный инструмент. Но полагаться на него как на готовый продукт «из коробки» рановато.
🏰 Ссылки по теме
- Дополнительные материалы:Статистика Kantar Worldpanel (упоминается как реальный источник цифр по рынку смартфонов)
Statcounter и Statista (варианты источников, используемых Deep Research)
Пока Deep Research остаётся «захватывающей» демонстрацией возможностей больших языковых моделей, в реальном мире аналитики его применение требует большого скептицизма и постоянной перепроверки. Возможно, со временем появятся другие решения, где ИИ соединится с достоверными базами данных и научится отличать «вероятностные догадки» от «фактов». Но на данный момент его миссия — скорее «вдохновить и сэкономить часть рутины», чем «безоговорочно предоставить точные цифры».