11,4 тыс подписчиков

Релиз Kimi K2

20 апреля20 апр

~1 мин

6. Впечатление смешанное. Главное открытые веса, приличные цифры на бенчмарках (HLE 54.0, SWE-Bench Pro 58.6, SWE-bench Multilingual 76.7), заявленный long-horizon coding на 12+ часов и рост агентских роёв со 100 до 300 субагентов. Доступ через чат, API и Kimi Code. Минусы: часть бенчмарков снята в связке с Python, то есть это оценка системы, а не модели. «Open-source SOTA» значит лидерство среди открытых, сравнений с GPT и Claude в посте нет. • HLE с инструментами: 54.0 • SWE-Bench Pro: 58.6 • SWE-bench Multilingual: 76.7 • BrowseComp: 83.2 • Toolathlon: 50.0 • Charxiv с Python: 86.7 • Math Vision с Python: 93.2 🔗 API: https://platform.moonshot.ai 🔗 Tech blog: https://kimi.com/blog/kimi-k2-6 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.6

Релиз Kimi K2.6. Впечатление смешанное.

Главное открытые веса, приличные цифры на бенчмарках (HLE 54.0, SWE-Bench Pro 58.6, SWE-bench Multilingual 76.7), заявленный long-horizon coding на 12+ часов и рост агентских роёв со 100 до 300 субагентов.

Доступ через чат, API и Kimi Code.

Минусы: часть бенчмарков снята в связке с Python, то есть это оценка системы, а не модели. «Open-source SOTA» значит лидерство среди открытых, сравнений с GPT и Claude в посте нет.

• HLE с инструментами: 54.0

• SWE-Bench Pro: 58.6

• SWE-bench Multilingual: 76.7

• BrowseComp: 83.2

• Toolathlon: 50.0

• Charxiv с Python: 86.7

• Math Vision с Python: 93.2

🔗 API: https://platform.moonshot.ai

🔗 Tech blog: https://kimi.com/blog/kimi-k2-6

🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.6