143 тыс подписчиков

Tencent AI Lab внедряет новый метод тонкой настройки для языковых моделей

2 марта 20252 мар 2025

3 мин

В последние годы языковые модели проделали значительный путь в понимании и генерации текста. Однако вопрос улучшения их способностей к рассуждениям остается актуальным. Исследователи из Tencent AI Lab и Китайского университета Гонконга разработали новый метод, который обещает изменить подход к обучению таких моделей. Этот метод, названный неконтролируемой тонкой настройкой префиксов (UPFT), акцентирует внимание на первых 8–32 токенах ответов, что позволяет существенно повысить эффективность процесса обучения. Традиционные методы тонкой настройки языковых моделей требуют больших объемов аннотированных данных и сложных процедур генерации ответов, которые затем фильтруются для устранения ошибок. Это не только ресурсоемко, но и зависит от наличия качественных данных. В отличие от этого, UPFT предлагает более экономичный подход, сосредотачиваясь на начальных токенах, которые содержат наиболее информативные элементы рассуждений. Специалисты обнаружили, что в различных траекториях (решения од

Традиционные методы тонкой настройки языковых моделей требуют больших объемов аннотированных данных и сложных процедур генерации ответов, которые затем фильтруются для устранения ошибок. Это не только ресурсоемко, но и зависит от наличия качественных данных. В отличие от этого, UPFT предлагает более экономичный подход, сосредотачиваясь на начальных токенах, которые содержат наиболее информативные элементы рассуждений.

Специалисты обнаружили, что в различных траекториях (решения одной и той же задачи) начальные шаги часто оказываются схожими. Это наблюдение легло в основу метода UPFT, который обучает модели на минимальных префиксах, исключая необходимость в детальных аннотациях. Такой подход позволяет моделям сосредоточиться на создании надежной структуры рассуждений на ранних этапах, что значительно упрощает процесс обучения.

Технически UPFT переосмысляет обучение, основываясь на принципах байесовского рассуждения. Вместо полного анализа всех возможных путей, метод разделяет вероятность получения правильного ответа на два ключевых компонента: покрытие и точность. Покрытие охватывает диапазон возможных путей рассуждений, тогда как точность указывает на вероятность достижения правильного ответа после установления конкретного префикса. Таким образом, UPFT стремится оптимизировать оба аспекта, обеспечивая как разнообразие подходов, так и надежные результаты.

На практике использование UPFT демонстрирует явные преимущества. Сосредоточение на префиксах позволяет сократить объем данных на 95% по сравнению с традиционными методами. Это не только ускоряет процесс обучения, но и снижает требования к памяти. Особенно это актуально в условиях ограниченных вычислительных ресурсов или в ситуациях, когда доступ к большим аннотированным наборам данных затруднен.

Эмпирические исследования подтвердили эффективность нового метода. Модели, обученные с использованием UPFT, показали сопоставимые результаты с теми, которые прошли традиционное обучение, даже при значительно меньшем количестве токенов. Например, в тестах на сложные задачи, такие как AIME2024, модели, использующие UPFT, продемонстрировали заметное улучшение производительности, что подтверждает важность ранних шагов рассуждений.

Кроме того, стоит отметить, что метод UPFT не только повышает качество рассуждений, но и снижает вычислительные затраты. Работа с короткими последовательностями токенов делает обучение более быстрым и менее требовательным к ресурсам. Это может быть особенно полезно для приложений, где важны скорость развертывания и экономия энергии.

Введение неконтролируемой тонкой настройки префиксов представляет собой важный шаг к созданию более эффективных и доступных методов улучшения рассуждений в языковых моделях. Сфокусировавшись на начальных токенах, этот подход минимизирует потребность в обширных аннотированных данных и сложных процедурах обработки. Вместо того чтобы полагаться на крупные наборы данных и выборку отклонений, UPFT предлагает более рационализированный процесс, который может значительно улучшить производительность моделей.

📃 Читайте далее на сайте

Гаджеты и электроника

5,73 млн интересуются