212 подписчиков

Когда «глубокое исследование» оказывается не таким уж глубоким: о проблемах ИИ-платформ

26 февраля 202526 фев 2025

4 мин

В последние годы мы видели массу демо-версий и прототипов, которые, казалось бы, упрощают работу исследователей, аналитиков и консультантов. Очередное «чудо» — инструмент Deep Research от OpenAI. Его концепция проста: вы формулируете задачу, а ИИ выдаёт готовые графики, таблицы и выводы, будто бы избавляя вас от утомительного поиска в источниках. Но, судя по примеру с долями рынка смартфонов, который сам OpenAI привёл на своей презентационной странице, «чудо» демонстрирует весьма спорные результаты. По задумке, Deep Research: На первый взгляд, всё выглядит потрясающе: отчёт составляется «за пару минут», экономя человеку часы или дни кропотливого труда. Однако загвоздка в том, что ошибки здесь не просто возможны — они практически неизбежны. OpenAI в своём образце отчёта показывает, что в Японии iPhone якобы занимает 69%, а Android — 31%. Таким образом, Deep Research не просто «взяло» неправильный источник: оно ещё и некорректно интерпретировало те данные, которые якобы использовало. Мож

Оглавление

🧩 Суть инструмента: «искусственный стажёр» вместо рутинной работы
🔍 Пример с Японией: несоответствия и «некорректные источники»
⚠️ Почему «80% точности» недостаточно?

В последние годы мы видели массу демо-версий и прототипов, которые, казалось бы, упрощают работу исследователей, аналитиков и консультантов. Очередное «чудо» — инструмент Deep Research от OpenAI. Его концепция проста: вы формулируете задачу, а ИИ выдаёт готовые графики, таблицы и выводы, будто бы избавляя вас от утомительного поиска в источниках. Но, судя по примеру с долями рынка смартфонов, который сам OpenAI привёл на своей презентационной странице, «чудо» демонстрирует весьма спорные результаты.

🧩 Суть инструмента: «искусственный стажёр» вместо рутинной работы

По задумке, Deep Research:

🤖 Собирает данные из интернета (якобы с авторитетных источников вроде Statista, Statcounter и других);
🔎 Анализирует эти данные, чтобы дать сводную картину (например, процент рынка iOS и Android в разных странах);
📝 Представляет результат в удобных диаграммах и табличках, оформленных в единый «исследовательский» отчёт.

На первый взгляд, всё выглядит потрясающе: отчёт составляется «за пару минут», экономя человеку часы или дни кропотливого труда. Однако загвоздка в том, что ошибки здесь не просто возможны — они практически неизбежны.

🔍 Пример с Японией: несоответствия и «некорректные источники»

OpenAI в своём образце отчёта показывает, что в Японии iPhone якобы занимает 69%, а Android — 31%.

🔎 Statcounter (на который ссылается отчёт) обычно даёт другие цифры, и к тому же «завышает» показатели iPhone, так как учитывает активность (трафик), а не реальное число устройств.
🏷️ Statista вообще не является первоисточником: это агрегатор, который часто «закрывает» данные за закрытым доступом. Если копать глубже, то реальный источник там — Kantar Worldpanel, а его данные указывают на обратное соотношение (примерно 63% Android к 36% iOS).
🏛️ Официальная статистика (японский регулятор) даёт цифры 53% Android и 47% iOS по установленной базе.

Таким образом, Deep Research не просто «взяло» неправильный источник: оно ещё и некорректно интерпретировало те данные, которые якобы использовало.

⚠️ Почему «80% точности» недостаточно?

Может показаться, что «всё равно модель угадала большую часть чисел», и со временем это станет ещё лучше. Но в таких отчётах:

📉 Достаточно одной-двух грубых ошибок, чтобы итоговая сводка потеряла доверие.
🧭 Нужно проверять каждую цифру: раз уж нашлось несоответствие в одной колонке, нельзя знать, где ещё ИИ ошибся.

В результате, если мне всё равно приходится перепроверять всю таблицу, Deep Research не экономит мне труд — проще самому собрать данные, чем ловить «придуманные» факты, порождённые нейросетью.

🏗️ Откуда эти проблемы и можно ли их решить?

Системы вроде GPT — это вероятностные языковые модели.

🌀 Они хорошо догадываются о том, что вы имели в виду, способны «компилировать» разные источники и связно говорить о чём-то расплывчатом.
⚙️ Но они плохи в точном извлечении конкретных фактов — ведь это уже задача, ближе к детерминированной базе данных, а не к вероятностному генератору текстов.

Может ли это исправиться эволюцией моделей?

💡 Инкрементное улучшение, скажем с 85% точности до 90%, всё равно оставит бреши. И кто захочет публиковать «исследование», в котором каждая 10-я или 20-я цифра неверна?
⚗️ Нужен качественный скачок: чтобы LLM стала гарантированно возвращать факты без ошибок (то есть научилась быть чем-то вроде «идеальной БД»), но пока мы даже не уверены, возможно ли это с текущей парадигмой.

📌 Интеграция vs. «простой текстовый интерфейс»

OpenAI (как и другие компании, развивающие фундаментальные модели) пока не имеет очевидной защиты от конкурентов, да и «продукта» в привычном смысле нет — только API и демо-инструменты вроде Deep Research.

🤝 Лучший вариант сейчас — это встраивать LLM в конкретные бизнес-процессы и программы, где есть чёткие «обвязки» и проверка фактов (API-методы, человеческая валидация). Тогда результат будет более осмысленным.
🚀 Но если мы хотим «запустить» Deep Research напрямую и полагаться на него, это пока что слишком рискованно для серьёзного анализа.

🤔 Личный взгляд

🏆ИИ — это «велосипед для мозга» (по меткому выражению Стива Джобса): он помогает ускорить процесс, но сам никуда не поедет. Важно, чтобы «водитель» имел здравый смысл и экспертизу.
💥 «Ошибки в мелочах» могут стоить доверия ко всему отчёту. Для рынка аналитики и консалтинга репутация и точность важнее скорости.
🚧 Не стоит сбрасывать ИИ со счетов. Для грубого чернового исследования, для поиска идей или формулировки тем — это отличный инструмент. Но полагаться на него как на готовый продукт «из коробки» рановато.

🏰 Ссылки по теме

Оригинальная статья Бенедикта Эванса:
The Deep Research problem
Дополнительные материалы:Статистика Kantar Worldpanel (упоминается как реальный источник цифр по рынку смартфонов)
Statcounter и Statista (варианты источников, используемых Deep Research)

Пока Deep Research остаётся «захватывающей» демонстрацией возможностей больших языковых моделей, в реальном мире аналитики его применение требует большого скептицизма и постоянной перепроверки. Возможно, со временем появятся другие решения, где ИИ соединится с достоверными базами данных и научится отличать «вероятностные догадки» от «фактов». Но на данный момент его миссия — скорее «вдохновить и сэкономить часть рутины», чем «безоговорочно предоставить точные цифры».