Проблема одной модели в том, что ей приходится одновременно планировать, искать, писать и проверять саму себя. Именно поэтому бизнес сомневается в таких отчётах: выглядят аккуратно, но могут опираться на слабые или непроверенные данные. Подход Critique разделяет роли. Одна модель исследует и пишет, другая проверяет источники, полноту и фактическую обоснованность перед финальной отправкой отчёта. На бенчмарке DRACO (100 задач, 10 доменов, оценка через GPT-5.2) система набрала 57.4 балла. Это на 13.88% выше лучшего результата из исследования. Основной прирост в ширине и глубине анализа, качестве подачи и точности фактов. Логично, потому что отдельная модель-ревьюер заточена на поиск пробелов, слабых аргументов и сомнительных источников. Главное здесь не «две модели лучше одной», а разделение ролей. Каждая модель делает свою узкую задачу, вместо попытки одной системы быть исследователем, автором, редактором и фактчекером одновременно. И это уже не столько исследовательский прорыв, ск
Microsoft превратила Copilot Researcher в систему из двух моделей: OpenAI отвечает за драфт, Anthropic за аудит
31 марта31 мар
6
1 мин