2523 подписчика
Иногда маленький — это тоже хорошо
Исследователи из Google DeepMind показали, что fine-тюнинг меньших и более слабых языковых моделей может давать лучшие результаты, чем использование данных от более крупных и дорогих моделей.
В этой работе мы пересматриваем, действительно ли эта стратегия является оптимальной. Наши результаты показывают, что fine-тюнинг на данных от меньших моделей (например, Flash) дает лучшую производительность, чем fine-тюнинг на данных от более крупных моделей (например, Gemini Pro).
— говорит Hritik Bansal
Ключевая идея заключается в том, что при фиксированном бюджете на выборку данные от меньших моделей обеспечивают большее разнообразие и покрытие, что в итоге позволяет обучать более сильных рассуждающих моделей.
А в нашем чате давно заметили, что Flash порой лучше, чем Pro!
#FREEDUROV
Около минуты
16 сентября 2024