👥 Microsoft добавила в Copilot Researcher режимы Critique и Council, которые повышают проверяемость ответов: либо через встроенную рецензию второй модели, либо через параллельные отчеты нескольких моделей с краткой сводкой совпадений и расхождений. Это шаг от «одного ответа» к управляемому процессу принятия решения. Critique использует разделение ролей внутри одного ответа. Запрос обрабатывают две модели: первая планирует и генерирует черновик, вторая выступает рецензентом и проверяет результат перед финальной выдачей. Указывается, что вторая модель оценивает: Отдельно отмечается прозрачность: какие модели участвовали, видно в шапке результата. Это делает процесс менее «черным ящиком» по сравнению с типичным режимом генерации. Microsoft приводит бенчмарк DRACO: 100 сложных задач по 10 доменам. Заявлен лучший результат (SOTA) и прирост на 7 очков к лучшему из известных аналогов. При этом других сопоставимых сравнительных тестов пока не опубликовано, поэтому оценка преимущества в разных
Copilot Researcher: Critique и Council как новые механики контроля качества
3 дня назад3 дня назад
2 мин