Добавить в корзинуПозвонить
Найти в Дзене

📰 ИИ научился думать быстрее: Meta* и Google* сократили использование токенов LLM на 70

% По данным VentureBeat, исследователи из Meta*, Google* (ТОЛЬКО ДЛЯ КОМПАНИЙ Meta, Instagram или Facebook (признана экстремистской организацией на территории РФ)) и ряда университетов разработали AutoTTS – фреймворк, который автоматически проектирует оптимальные стратегии рассуждений для больших языковых моделей (LLM), сокращая использование токенов на 69,5%. Звучит круто, давайте разберемся, что это значит для нас, простых гиков. В чем суть проблемы? Тестирование с масштабированием (TTS) – это метод повышения производительности LLM, который дает им больше вычислительных ресурсов во время обработки запроса. Это позволяет модели генерировать несколько вариантов рассуждений или оценивать промежуточные шаги, прежде чем выдать окончательный ответ. Но раньше эти TTS-стратегии разрабатывались вручную, полагаясь на интуицию людей. Инженеры должны были придумывать правила и пороги для ветвления, углубления или прекращения рассуждений модели. Этот ручной процесс сильно ограничивал возможно

 📰 ИИ научился думать быстрее: Meta* и Google* сократили использование токенов LLM на 70%

По данным VentureBeat, исследователи из Meta*, Google* (ТОЛЬКО ДЛЯ КОМПАНИЙ Meta, Instagram или Facebook (признана экстремистской организацией на территории РФ)) и ряда университетов разработали AutoTTS – фреймворк, который автоматически проектирует оптимальные стратегии рассуждений для больших языковых моделей (LLM), сокращая использование токенов на 69,5%. Звучит круто, давайте разберемся, что это значит для нас, простых гиков.

В чем суть проблемы?

Тестирование с масштабированием (TTS) – это метод повышения производительности LLM, который дает им больше вычислительных ресурсов во время обработки запроса. Это позволяет модели генерировать несколько вариантов рассуждений или оценивать промежуточные шаги, прежде чем выдать окончательный ответ. Но раньше эти TTS-стратегии разрабатывались вручную, полагаясь на интуицию людей. Инженеры должны были придумывать правила и пороги для ветвления, углубления или прекращения рассуждений модели.

Этот ручной процесс сильно ограничивал возможности оптимизации и часто приводил к неоптимальному соотношению между точностью и вычислительными затратами. Как говорят разработчики, "огромное количество возможных подходов остаются неизученными".

AutoTTS приходит на помощь

AutoTTS меняет подход к оптимизации TTS, рассматривая проектирование стратегии как алгоритмическую задачу поиска в контролируемой среде. Вместо того, чтобы вручную создавать правила, инженеры теперь строят среду обнаружения. Они определяют границы, включая пространство состояний и действий, цели оптимизации (баланс между точностью и стоимостью) и механизмы обратной связи.

Далее в игру вступает "исследовательская LLM" (например, Claude Code), которая проектирует TTS "контроллеры". Эти контроллеры – политики или алгоритмы, определяющие, как ИИ модель распределяет свой вычислительный бюджет во время обработки запроса. Исследовательская LLM тестирует и улучшает эти контроллеры на основе обратной связи, пока не найдет оптимальную стратегию распределения ресурсов.

Чтобы сделать этот автоматизированный поиск экономически выгодным, AutoTTS использует "офлайн среду воспроизведения". Вместо того, чтобы каждый раз вызывать базовую модель рассуждений для генерации новых токенов при тестировании новой стратегии, она использует тысячи предварительно собранных траекторий рассуждений. Эти траектории включают "сигналы зондирования" – промежуточные ответы, которые помогают контроллеру оценивать прогресс по различным ветвям рассуждений.

Что внутри ИИ-спроектированного контроллера?

Поскольку исследовательский агент ИИ не ограничен человеческой интуицией, он может обнаруживать сложные правила, которые человек вряд ли бы придумал. Например, один из оптимальных контроллеров, обнаруженных AutoTTS, под названием Confidence Momentum Controller, использует несколько неочевидных механизмов для управления вычислениями:

* Остановка на основе тренда: Вместо того, чтобы останавливаться, когда модель достигает определенного порога уверенности, контроллер отслеживает экспоненциальное скользящее среднее (EMA) уверенности и останавливается, только если общий уровень уверенности высок и тренд активно не снижается.

* Совместное управление шириной и глубиной: AutoTTS обнаружил замкнутую петлю обратной связи, в которой расширение новых ветвей рассуждений и углубление текущих ветвей связаны....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут