инференса. 📊 На бенчмарке ResearchRubrics модель получает 61.42, а полный отчет стоит меньше 0,50 RMB. Идея проста: большинство агентов ведут себя как поисковики. Они собирают факты, но не превращают их в проверенный, связный отчет. Здесь исследование понимается как длинный цикл: понять реальную задачу - составить план - искать источники - сравнивать и проверять - исправлять ошибки - писать отчет. 🧩 Цикл разбили на 4 базовых навыка: • планирование • поиск информации • рефлексия и проверка • написание отчета Данные собирали из реальных отчетов, восстанавливая исходные вопросы и планы, а также из вопросов, связанных с базами знаний и документами. ⚙️ Обучение шло в 3 этапа: 1) сначала обучают базовым навыкам 2) затем учат полным цепочкам с инструментами 3) далее добавляют обучение через попытки и проверку, где чек-лист оценивает отчет и награда дается только за полностью пройденный результат 📌 Авторы также представили ADR-Bench, где эксперты сравнивают два отчета бок о бок, а ре
Статья Step-DeepResearch где показано, что даже 32B-модель может делать по-настоящему глубокие исследования при очень низкой стоимости
28 декабря 202528 дек 2025
116
~1 мин