#ai #dev (канал https://t.me/cybermerlin_pub) Адаптировать большую языковую модель под свою задачу (например, писать код в специфическом стиле) обычно стоит дорого: для полного дообучения (Full Fine-Tuning) LLama 3 70B потребовался бы кластер GPU. **LoRA (Low-Rank Adaptation)** решает эту проблему кардинально иначе: она не трогает исходные веса модели, а лишь добавляет к ним небольшую «поправочную» матрицу. Внутри трансформера находятся огромные матрицы весов (`W`). Вместо того чтобы обучать всю матрицу `W`, LoRA представляет её изменение как произведение двух маленьких матриц: `ΔW = B × A`. Их размерность `r × k` значительно меньше исходной `d × k`. Во время обучения базовые веса замораживаются, а обучаются только `A` и `B`. Это сокращает число обучаемых параметров в тысячи раз. К примеру, для GPT-3 LoRA уменьшает их в **10 000 раз**, а потребление VRAM падает примерно в 3 раза. Исследование на датасете PubMed Medical показало, что LoRA (0.6% обучаемых параметров) дала **ROUGE-1 43.52