✔️ Kimi-Researcher: End-to-End RL для агентных возможностей Kimi-Researcher — автономный агент от Moonshot AI, способный решать сложные многоэтапные задачи через поиск и рассуждения. В среднем он выполняет 23 шага рассуждений и анализирует более 200 URL за одну задачу. Построен на внутренней версии модели Kimi k-series и обучен полностью через end-to-end reinforcement learning, достигнув Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam. Ключевые достижения: • Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam (тест 17 июня 2025) • 69 % Pass@1 на xbench-DeepSearch (среднее из 4 прогонов) • Сильные результаты на FRAMES, Seal-0 и SimpleQA Архитектура и инструменты: • Параллельный internal search tool для реального времени • Текстовый браузер для интерактивных веб-задач • Кодовый тул для автоматического выполнения и тестирования кода Преимущества end-to-end agentic RL: • Обучение единой модели планированию, восприятию и использованию инструментов без ручных шаблонов •
✔️ Kimi-Researcher: End-to-End RL для агентных возможностей
21 июня 202521 июн 2025
4
1 мин