11 тыс подписчиков

⚡️ Sakana AI представили два исследования - Text-to-LoRA и Doc-to-LoRA, которые делают кастомизацию LLM быстрее и значительно проще

27 февраля27 фев

1 мин

Идея в том, чтобы модели могли мгновенно адаптироваться к новым задачам или информации — без долгого fine-tuning, сложных пайплайнов и огромных промптов. Сегодня у LLM есть проблема: чтобы обучить модель под новую задачу или добавить знания, обычно требуется: - дорогое и длительное дообучение - context distillation - или длинные, затратные по памяти промпты Sakana AI предложили другой подход. Они обучили гиперсеть (Hypernetwork), которая генерирует LoRA-адаптеры «на лету». Теперь вместо сложного процесса оптимизации достаточно одного forward-pass, чтобы: - адаптировать модель под новую задачу - или «встроить» в неё новый документ Что показывают эксперименты: Text-to-LoRA - модель специализируется под новую задачу - достаточно текстового описания на естественном языке Doc-to-LoRA - модель может «внутренне запомнить» длинный документ - показывает почти идеальную точность на задачах, где текст в 5 раз длиннее контекстного окна - способна переносить визуальные знания из vision-langua

⚡️ Sakana AI представили два исследования - Text-to-LoRA и Doc-to-LoRA, которые делают кастомизацию LLM быстрее и значительно проще.

Идея в том, чтобы модели могли мгновенно адаптироваться к новым задачам или информации — без долгого fine-tuning, сложных пайплайнов и огромных промптов.

Сегодня у LLM есть проблема:

чтобы обучить модель под новую задачу или добавить знания, обычно требуется:

- дорогое и длительное дообучение

- context distillation

- или длинные, затратные по памяти промпты

Sakana AI предложили другой подход.

Они обучили гиперсеть (Hypernetwork), которая генерирует LoRA-адаптеры «на лету».

Теперь вместо сложного процесса оптимизации достаточно одного forward-pass, чтобы:

- адаптировать модель под новую задачу

- или «встроить» в неё новый документ

Что показывают эксперименты:

Text-to-LoRA

- модель специализируется под новую задачу

- достаточно текстового описания на естественном языке

Doc-to-LoRA

- модель может «внутренне запомнить» длинный документ

- показывает почти идеальную точность на задачах, где текст в 5 раз длиннее контекстного окна

- способна переносить визуальные знания из vision-language модели в текстовую LLM

При этом обе технологии работают с задержкой меньше секунды.

Главное значение работы — снижение порога кастомизации.

Вместо сложного ML-процесса пользователь сможет специализировать модель простым текстовым запросом.

Код и исследования уже открыты для сообщества:

Doc-to-LoRA

Paper: https://arxiv.org/abs/2602.15902

Code: https://github.com/SakanaAI/Doc-to-LoRA

Text-to-LoRA

Paper: https://arxiv.org/abs/2506.06105

Code: https://github.com/SakanaAI/Text-to-LoRA