Вместо статичной draft-модели система непрерывно учится на реальных запросах через обучение с подкреплением, асинхронно обновляя спекулятора прямо во время инференса. На тестах с Qwen3 и Llama3 это даёт дополнительное ускорение 1.25× поверх хорошо обученного статичного спекулятора и устраняет необходимость в дорогих офлайн-пайплайнах дистилляции. Читать полностью —————— Подпишись, потом забудешь! https://max.ru/join/U4r4IN8vgLwYowRRsU42LWb5HmsSOSvy4ExmqTSQ0yc https://vk.com/chernovdev https://t.me/chernovdev https://chernovdev.ru
Together AI выпустила Aurora — open-source фреймворк, который делает speculative decoding адаптивным
2 апреля2 апр
1
~1 мин