20 подписчиков

OpenAI выводит кастомизацию на новый уровень: настройка o4-mini и GPT-4.1 теперь с усиленной точностью

12 мая 202512 мая 2025

1 мин

OpenAI значительно расширяет возможности для настройки своих моделей. Теперь o4-mini и GPT-4.1 могут быть адаптированы под высокоспецифичные задачи с помощью новой системы Reinforcement Fine-Tuning (RFT), предназначенной для организаций. Что нового? RFT — это метод обучения с подкреплением, который позволяет настройку моделей под узкие области, такие как право, финансы или безопасность, с помощью уникальных программируемых оценщиков. Оценщик не просто оценивает ответы, а делает это с учётом точности, стиля и других критериев, заданных пользователем. Вместо традиционной настройки, основанной на фиксированных ответах, RFT помогает модели приоритизировать ответы, получающие высокие баллы от оценщика. Как это работает? Процесс состоит из пяти этапов: Особенности: Кроме того, OpenAI теперь предлагает контролируемую тонкую настройку для GPT-4.1 nano, который отличается высокой скоростью и экономичностью.

Что нового?

RFT — это метод обучения с подкреплением, который позволяет настройку моделей под узкие области, такие как право, финансы или безопасность, с помощью уникальных программируемых оценщиков. Оценщик не просто оценивает ответы, а делает это с учётом точности, стиля и других критериев, заданных пользователем. Вместо традиционной настройки, основанной на фиксированных ответах, RFT помогает модели приоритизировать ответы, получающие высокие баллы от оценщика.

Как это работает?

Процесс состоит из пяти этапов:

Создание оценщика с критериями сильных ответов.
Загрузка данных для обучения и проверки.
Тонкая настройка с несколькими возможными ответами для каждой подсказки.
Использование градиентного алгоритма для улучшения ответов на основе оценок.
Применение для специализированных областей, например, для обучения модели безопасности, которая должна генерировать структурированные JSON ответы.

Особенности:

Гибкость: можно комбинировать несколько оценщиков для более детальной настройки.
Интеграция: RFT полностью поддерживает инструменты оценки OpenAI.
Эффективность: скидки 50% для тех, кто делится данными для обучения.

Кроме того, OpenAI теперь предлагает контролируемую тонкую настройку для GPT-4.1 nano, который отличается высокой скоростью и экономичностью.