557 подписчиков

Copilot Researcher: Critique и Council как новые механики контроля качества

3 дня назад3 дня назад

2 мин

👥 Microsoft добавила в Copilot Researcher режимы Critique и Council, которые повышают проверяемость ответов: либо через встроенную рецензию второй модели, либо через параллельные отчеты нескольких моделей с краткой сводкой совпадений и расхождений. Это шаг от «одного ответа» к управляемому процессу принятия решения. Critique использует разделение ролей внутри одного ответа. Запрос обрабатывают две модели: первая планирует и генерирует черновик, вторая выступает рецензентом и проверяет результат перед финальной выдачей. Указывается, что вторая модель оценивает: Отдельно отмечается прозрачность: какие модели участвовали, видно в шапке результата. Это делает процесс менее «черным ящиком» по сравнению с типичным режимом генерации. Microsoft приводит бенчмарк DRACO: 100 сложных задач по 10 доменам. Заявлен лучший результат (SOTA) и прирост на 7 очков к лучшему из известных аналогов. При этом других сопоставимых сравнительных тестов пока не опубликовано, поэтому оценка преимущества в разных

Оглавление

Critique: две модели на один запрос
Что именно проверяет «рецензент»
Результаты по DRACO и ограничения сравнения

Critique: две модели на один запрос

Critique использует разделение ролей внутри одного ответа. Запрос обрабатывают две модели: первая планирует и генерирует черновик, вторая выступает рецензентом и проверяет результат перед финальной выдачей.

Что именно проверяет «рецензент»

Указывается, что вторая модель оценивает:

точность утверждений
структуру ответа
корректность ссылок

Отдельно отмечается прозрачность: какие модели участвовали, видно в шапке результата. Это делает процесс менее «черным ящиком» по сравнению с типичным режимом генерации.

Результаты по DRACO и ограничения сравнения

Microsoft приводит бенчмарк DRACO: 100 сложных задач по 10 доменам. Заявлен лучший результат (SOTA) и прирост на 7 очков к лучшему из известных аналогов. При этом других сопоставимых сравнительных тестов пока не опубликовано, поэтому оценка преимущества в разных типах задач остается ограниченной доступными данными.

Council: параллельные отчеты нескольких моделей

Council рассчитан на ситуации, где один ответ может быть слишком однозначным или зависит от допущений. В этом режиме один и тот же промпт прогоняется через несколько моделей параллельно (в том числе GPT-5.2, Claude Opus и другие).

Что получает пользователь на выходе

Формат результата включает:

отдельные отчеты каждой модели
короткую сводку, где модели сходятся и где расходятся

Практический смысл — быстрее увидеть диапазон аргументов и потенциальные противоречия, не пытаясь «выжать» все альтернативы из одной модели.

Практическая польза и перенос принципа на контент

Critique и Council отражают общий тренд: надежность достигается не только качеством одной модели, но и организацией процесса — проверкой, сопоставлением и прозрачностью этапов. В контентных задачах действует тот же принцип: разделение подготовки и контроля снижает риск ошибок и повышает предсказуемость выпуска.

Kineiro.ru помогает выстроить автономный контент-контур: от анализа темы и структуры до подготовки материалов и публикаций через API площадок (Telegram, ВКонтакте, Одноклассники, Яндекс Дзен и др.), поддерживая единые стандарты качества.

Заключение

Новые режимы Copilot Researcher смещают акцент с «одного ответа» на управляемое производство результата: встроенная рецензия в Critique и параллельные точки зрения в Council. Такой подход делает качество системным свойством процесса, а не удачным исходом одной генерации.