80 подписчиков

Как научить нейросеть новому, чтобы она не забыла старое: прорыв от учёных из Иллинойса

15 октября 202515 окт 2025

5 мин

Представьте: вы потратили кучу денег на обучение большой языковой модели (LLM), настроили её под свои задачи, а она взяла и «забыла», как делать то, что умела раньше. Звучит как кошмар? Для многих компаний это реальность. Эмилия Дэвид, 13 октября 2025 Изображение: VentureBeat, сгенерировано с помощью MidJourney Когда компании дообучают (fine-tune) языковые модели под конкретные задачи, часто случается неприятная штука: модель теряет часть своих прежних способностей. Этот эффект называют «катастрофическим забыванием» (catastrophic forgetting). Звучит драматично — и по сути так и есть. Вот вы научили модель работать с вашими внутренними данными, а она перестала справляться с задачами, которые раньше щёлкала как орешки. И приходится переобучать всё заново. Время, деньги, вычислительные мощности — всё летит в трубу. Команда из Университета Иллинойса в Урбана-Шампейн предложила новый подход. Они изучали две конкретные модели, которые работают с изображениями и текстом: LLaVA и Qwen 2.5-VL.

Оглавление

Проблема, которая съедает бюджеты
Что придумали исследователи
В чём фокус: многослойный перцептрон

Эмилия Дэвид, 13 октября 2025

Изображение: VentureBeat, сгенерировано с помощью MidJourney

Проблема, которая съедает бюджеты

Когда компании дообучают (fine-tune) языковые модели под конкретные задачи, часто случается неприятная штука: модель теряет часть своих прежних способностей. Этот эффект называют «катастрофическим забыванием» (catastrophic forgetting). Звучит драматично — и по сути так и есть.

Вот вы научили модель работать с вашими внутренними данными, а она перестала справляться с задачами, которые раньше щёлкала как орешки. И приходится переобучать всё заново. Время, деньги, вычислительные мощности — всё летит в трубу.

Что придумали исследователи

Команда из Университета Иллинойса в Урбана-Шампейн предложила новый подход. Они изучали две конкретные модели, которые работают с изображениями и текстом: LLaVA и Qwen 2.5-VL.

Их главная идея: не надо переобучать всю модель целиком. Достаточно подкрутить только узкие, специфические части. Это экономит вычислительные ресурсы и — что важно — помогает избежать того самого «забывания».

Вот что пишут сами исследователи в своей работе: «Обучение новой мультимодальной модели может стоить миллионы долларов, недели времени и привести к выбросу сотен тонн CO2. Поэтому поиск способов более эффективного и результативного обновления существующих моделей — это насущная необходимость».

Звучит серьёзно, правда?

В чём фокус: многослойный перцептрон

Исследователи сосредоточились на многослойном перцептроне (MLP) — это как внутренний «мозг принятия решений» модели. Именно тут, похоже, и зарыта собака.

Сначала они проверили, действительно ли катастрофическое забывание существует. Создали набор целевых задач, дообучили модели и стали смотреть, что происходит.

И тут — сюрприз! Модели действительно «проваливали» некоторые тесты после дообучения, но потом… частично восстанавливали свои способности. Само собой.

«Мы заметили удивительный результат, — пишут учёные. — Производительность модели резко падала на контрольных тестах после обучения на задаче подсчёта, но потом в основном восстанавливалась на PathVQA — другой специализированной задаче, которая плохо представлена в бенчмарках».

А когда они попробовали настраивать только слои self-attention projection (SA Proj) или только MLP-слои, случилось нечто ещё более неожиданное: настройка только SA Proj привела к отличному обучению целевым задачам вообще без падения производительности на других задачах. Даже после последовательного обучения на пяти разных задачах!

Дело не в забывании, а в смещении

Тут исследователи поняли ключевую вещь: то, что выглядит как забывание, на самом деле — просто смещение в распределении выходных данных. Модель не теряет знания насовсем, она просто временно «переключается» на новый тип задач.

Представьте, что вы всю жизнь говорили на одном языке, а потом две недели говорили только на другом. Первый язык никуда не делся, просто мозг временно настроился на второй. Примерно так же и с моделями.

Решение: точечная настройка вместо тотальной перестройки

Исследователи обнаружили: когда настраиваешь MLP, модель начинает чаще выдавать числовые токены, и это коррелирует с падением точности на других задачах.

Их решение? Настраивать только up/gating проекции MLP, оставляя down projection замороженной. По данным экспериментов, это даёт почти такое же качество обучения, как и полная настройка MLP, но почти без забывания.

Звучит слишком просто, чтобы быть правдой? Но результаты говорят сами за себя.

Что это даёт бизнесу

Ну, во-первых, экономию. Серьёзную экономию. Вместо того чтобы переобучать всю модель (а это, напомню, миллионы долларов и недели работы), можно подкрутить только нужные части.

Во-вторых, это даёт больше контроля над тем, как модель себя ведёт. Меньше неожиданностей, меньше «дрифта» в выходных данных.

Правда, есть ограничение: исследователи проверяли свой метод только на двух моделях, и обе работают с изображениями и текстом. Из-за ограниченных ресурсов они не смогли протестировать подход на других типах моделей.

Но — и это важно — они считают, что их находки можно распространить и на другие LLM, особенно на модели с другими модальностями (например, только текст или аудио).

Другие прорывы в мире AI (коротко)

Кстати, пока одни учёные разбираются с проблемой забывания, другие двигают AI в самых разных направлениях:

MIT разработал технику самообучения моделей — LLM теперь могут улучшать сами себя, генерируя синтетические данные для дообучения. Открытый исходный код, между прочим.
Новая методика симуляции потребительского поведения — исследователи создали способ, позволяющий LLM имитировать человеческое потребительское поведение с пугающей точностью. Индустрия маркетинговых исследований на миллиарды долларов может серьёзно измениться.
Salesforce делает ставку на AI-агентов — на конференции Dreamforce компания представила свой самый агрессивный план по внедрению AI-агентов, называя себя противоядием от «чистилища пилотов», где 95% корпоративных AI-проектов так и не доходят до продакшена.
Новый подход к inference performance — появилась методика, которая решает проблему деградации производительности при масштабировании AI на множество кейсов в enterprise.

Короче, мир AI меняется каждую неделю. Угнаться за всем невозможно, но пытаться надо.

Почему это важно именно сейчас

Вот в чём дело: компании вкладывают в AI огромные деньги. Но между исследовательскими лабораториями и реальным enterprise — пропасть.

Исследователи выпускают новые модели каждые несколько недель. А корпорации застревают в бесконечных согласованиях, проверках рисков, аудитах. Модель, которая в лаборатории работала отлично, в компании месяцами ждёт одобрения комитета.

Результат? Упущенная продуктивность, дублирование расходов, «теневой AI» (когда сотрудники используют свои инструменты в обход корпоративных политик), и многообещающие пилоты, которые так и остаются пилотами навсегда.

Методы вроде того, что предложили учёные из Иллинойса, помогают сократить этот разрыв. Они делают дообучение моделей быстрее, дешевле и предсказуемее. А значит — доступнее для реального бизнеса.

Хотите быть в курсе таких прорывов и не пропускать важные новости из мира искусственного интеллекта?🔔 Подписывайтесь на мой канал «ProAI» в Telegram! Там я разбираю самые интересные исследования, инструменты и тренды AI — просто, понятно и без воды.