SWE-bench - это не обычный тест для чат-ботов на знание синтаксиса Python. Тут все по-взрослому: модели дают реальные задачи из GitHub и репозитории на 100 000+ строк. Нужно найти и исправить баги. Косяк в логике или сломанные зависимости стоят победы. Самое интересное кроется в версии Verified. Этот список задач вручную отбирали эксперты из OpenAI и Anthropic. Они убрали мусор и оставили только чистые кейсы. Получается, Google победил на чужом поле по правилам, которые писали его главные соперники. 🔹 В чем секрет? Пока глава Anthropic Дарио Амодеи тратит миллиарды на обычное дообучение, Google выбрал Reinforcement Learning (RL) - обучение через поощрение. Логика тут железная. Базовые знания нейронок застряли на месте. В интернете почти не осталось новых данных, а скармливать им мусор из сети вредно. Для программирования не нужна эрудиция. Тут важнее умение рассуждать, проверять свои идеи и видеть ошибки. ✍️ Техническая сторона: Google внедрил PRM (Process Reward Models). Эта сист
🚀 Google DeepMind раскрыли, как Gemini 1.5 Flash разделалась с конкурентами на SWE-bench
20 декабря 202520 дек 2025
1 мин