Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

Статья Step-DeepResearch где показано, что даже 32B-модель может делать по-настоящему глубокие исследования при очень низкой стоимости

инференса. 📊 На бенчмарке ResearchRubrics модель получает 61.42, а полный отчет стоит меньше 0,50 RMB. Идея проста: большинство агентов ведут себя как поисковики. Они собирают факты, но не превращают их в проверенный, связный отчет. Здесь исследование понимается как длинный цикл: понять реальную задачу - составить план - искать источники - сравнивать и проверять - исправлять ошибки - писать отчет. 🧩 Цикл разбили на 4 базовых навыка: • планирование • поиск информации • рефлексия и проверка • написание отчета Данные собирали из реальных отчетов, восстанавливая исходные вопросы и планы, а также из вопросов, связанных с базами знаний и документами. ⚙️ Обучение шло в 3 этапа: 1) сначала обучают базовым навыкам 2) затем учат полным цепочкам с инструментами 3) далее добавляют обучение через попытки и проверку, где чек-лист оценивает отчет и награда дается только за полностью пройденный результат 📌 Авторы также представили ADR-Bench, где эксперты сравнивают два отчета бок о бок, а ре

Статья Step-DeepResearch где показано, что даже 32B-модель может делать по-настоящему глубокие исследования при очень низкой стоимости инференса.

📊 На бенчмарке ResearchRubrics модель получает 61.42, а полный отчет стоит меньше 0,50 RMB.

Идея проста: большинство агентов ведут себя как поисковики. Они собирают факты, но не превращают их в проверенный, связный отчет.

Здесь исследование понимается как длинный цикл: понять реальную задачу - составить план - искать источники - сравнивать и проверять - исправлять ошибки - писать отчет.

🧩 Цикл разбили на 4 базовых навыка:

• планирование

• поиск информации

• рефлексия и проверка

• написание отчета

Данные собирали из реальных отчетов, восстанавливая исходные вопросы и планы, а также из вопросов, связанных с базами знаний и документами.

⚙️ Обучение шло в 3 этапа:

1) сначала обучают базовым навыкам

2) затем учат полным цепочкам с инструментами

3) далее добавляют обучение через попытки и проверку, где чек-лист оценивает отчет и награда дается только за полностью пройденный результат

📌 Авторы также представили ADR-Bench, где эксперты сравнивают два отчета бок о бок, а рейтинг строится по системе Elo.

https://arxiv.org/pdf/2512.20491