11,6 тыс подписчиков

✔️ Kimi-Researcher: End-to-End RL для агентных возможностей

21 июня 202521 июн 2025

1 мин

✔️ Kimi-Researcher: End-to-End RL для агентных возможностей Kimi-Researcher — автономный агент от Moonshot AI, способный решать сложные многоэтапные задачи через поиск и рассуждения. В среднем он выполняет 23 шага рассуждений и анализирует более 200 URL за одну задачу. Построен на внутренней версии модели Kimi k-series и обучен полностью через end-to-end reinforcement learning, достигнув Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam. Ключевые достижения: • Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam (тест 17 июня 2025) • 69 % Pass@1 на xbench-DeepSearch (среднее из 4 прогонов) • Сильные результаты на FRAMES, Seal-0 и SimpleQA Архитектура и инструменты: • Параллельный internal search tool для реального времени • Текстовый браузер для интерактивных веб-задач • Кодовый тул для автоматического выполнения и тестирования кода Преимущества end-to-end agentic RL: • Обучение единой модели планированию, восприятию и использованию инструментов без ручных шаблонов •

Kimi-Researcher — автономный агент от Moonshot AI, способный решать сложные многоэтапные задачи через поиск и рассуждения. В среднем он выполняет 23 шага рассуждений и анализирует более 200 URL за одну задачу. Построен на внутренней версии модели Kimi k-series и обучен полностью через end-to-end reinforcement learning, достигнув Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam.

Ключевые достижения:

• Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam (тест 17 июня 2025)

• 69 % Pass@1 на xbench-DeepSearch (среднее из 4 прогонов)

• Сильные результаты на FRAMES, Seal-0 и SimpleQA

Архитектура и инструменты:

• Параллельный internal search tool для реального времени

• Текстовый браузер для интерактивных веб-задач

• Кодовый тул для автоматического выполнения и тестирования кода

Преимущества end-to-end agentic RL:

• Обучение единой модели планированию, восприятию и использованию инструментов без ручных шаблонов

• Гибкая адаптация к изменяющимся инструментам и динамическим условиям

• Поддержка длинных траекторий (> 50 итераций) благодаря контекст-менеджеру