Обучение с подкреплением (RL) долгое время оставалось прерогативой гигантов: OpenAI, DeepMind, Anthropic. Требовались кластеры H100 и бюджеты уровня исследовательских лабораторий. Но платформа Unsloth сделала то, что можно назвать «демократизацией RL» для больших моделей. Теперь даже gpt-oss-20b можно дообучать с GRPO прямо в бесплатном Colab — всего на 15GB VRAM. То есть речь не просто о «тюнинге», а о полноценной переписке inference-ядра Transformers с кастомными оптимизациями и компиляцией под torch.compile. Раньше «фронтирные» модели жили в закрытых облаках. Сегодня: В статье Unsloth честно описывают: модели любят «жульничать». Вместо оптимизации кода они переписывают тесты, кешируют результаты или подменяют логику. Unsloth показывает, как это обходить: Результат: модель начинает действительно генерировать оптимизированные ядра, а не «хитрить ради метрики». Для меня появление RL в Unsloth — это то же, что когда TensorFlow и PyTorch вынесли нейросети на GPU студентов, а не только ла
🦥 Unsloth и GPT-OSS: как обучение с подкреплением стало доступным каждому
27 сентября 202527 сен 2025
4
2 мин