📰 MeMo: Нейросеть для нейросети – апгрейд LLM без переобучения и +26% к производительности

СегодняСегодня

2 мин

! Похоже, в мире ИИ намечается небольшая революция. По данным VentureBeat, исследователи из нескольких университетов представили MeMo – фреймворк, который позволяет обновлять знания больших языковых моделей (LLM) без необходимости их полного переобучения. А это, друзья мои, огромный шаг вперед. Проблема обновления LLM – это головная боль для всех, кто работает с корпоративным ИИ. Существующие решения либо слишком дорогие, либо слишком медленные, либо ограничены размером контекстного окна. MeMo предлагает элегантное решение: она кодирует новые знания в отдельную, небольшую модель памяти, которая работает независимо от основной LLM. Эта модульная архитектура совместима как с моделями с открытым исходным кодом, так и с закрытыми, и позволяет избежать сложностей, связанных с RAG-пайплайнами и полным переобучением модели. Эксперименты показывают, что MeMo надежно обрабатывает сложные запросы даже при наличии шумов в конвейерах поиска. Она избегает катастрофического забывания, свойственно

📰 MeMo: Нейросеть для нейросети – апгрейд LLM без переобучения и +26% к производительности!

Похоже, в мире ИИ намечается небольшая революция. По данным VentureBeat, исследователи из нескольких университетов представили MeMo – фреймворк, который позволяет обновлять знания больших языковых моделей (LLM) без необходимости их полного переобучения. А это, друзья мои, огромный шаг вперед.

Проблема обновления LLM – это головная боль для всех, кто работает с корпоративным ИИ. Существующие решения либо слишком дорогие, либо слишком медленные, либо ограничены размером контекстного окна. MeMo предлагает элегантное решение: она кодирует новые знания в отдельную, небольшую модель памяти, которая работает независимо от основной LLM.

Эта модульная архитектура совместима как с моделями с открытым исходным кодом, так и с закрытыми, и позволяет избежать сложностей, связанных с RAG-пайплайнами и полным переобучением модели. Эксперименты показывают, что MeMo надежно обрабатывает сложные запросы даже при наличии шумов в конвейерах поиска. Она избегает катастрофического забывания, свойственного прямой донастройке, и обеспечивает экономичный путь для непрерывного обновления знаний.

Как сейчас обновляют LLM?

Большие языковые модели замораживаются после обучения, и их внутренние знания остаются статичными до тех пор, пока они не подвергнутся последующим, вычислительно затратным обновлениям. В настоящее время разработчики используют три основных подхода для интеграции внешних знаний в LLM, каждый из которых имеет свои недостатки:

* Непараметрические методы, такие как генерация с расширенным поиском (RAG) и обучение в контексте, извлекают соответствующие документы из внешней базы данных и вставляют их непосредственно в подсказку модели. Эти методы популярны, но ограничены размерами контекстного окна. Как заявил VentureBeat Армандо Солар-Лезма, один из соавторов статьи: "Векторные базы данных сталкиваются с принципиально сложной задачей кодирования полной семантики фрагмента текста в один вектор, а затем сопоставления этого вектора с запросом, даже когда релевантность фрагмента... может быть очевидна только в контексте других фрагментов". Исследователи отмечают, что семантическое сходство вложений часто не соответствует тому, что на самом деле требуется в запросе пользователя. Обработка тысяч извлеченных токенов также создает значительные вычислительные издержки и задержки при выводе. Самое проблематичное, что RAG-системы очень чувствительны к шуму. Неуместные или плохо извлеченные отрывки часто ухудшают окончательный ответ модели.

* Параметрические методы, такие как непрерывное предварительное обучение или контролируемая тонкая настройка, пытаются интернализировать новые знания непосредственно в веса LLM. Обновление современных, массивных LLM является непомерно дорогим и, как правило, невозможным для проприетарных моделей с закрытым исходным кодом, скрытых за API. Тонкая настройка также подвержена катастрофическому забыванию. Заставляя модель адаптироваться к новым корпоративным данным, часто размываются ранее приобретенные возможности рассуждения и защитные ограждения.

* Методы скрытой памяти, такие как сжатие контекста, предлагают нечто среднее. Они сжимают знания в компактные "мягкие токены" или представления, которые добавляются в контекст модели во время вывода. Фатальный недостаток здесь - "связь представлений"....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут