Найти тему
2523 подписчика

Иногда маленький — это тоже хорошо


Исследователи из Google DeepMind показали, что fine-тюнинг меньших и более слабых языковых моделей может давать лучшие результаты, чем использование данных от более крупных и дорогих моделей.

В этой работе мы пересматриваем, действительно ли эта стратегия является оптимальной. Наши результаты показывают, что fine-тюнинг на данных от меньших моделей (например, Flash) дает лучшую производительность, чем fine-тюнинг на данных от более крупных моделей (например, Gemini Pro).
— говорит Hritik Bansal

Ключевая идея заключается в том, что при фиксированном бюджете на выборку данные от меньших моделей обеспечивают большее разнообразие и покрытие, что в итоге позволяет обучать более сильных рассуждающих моделей.

А в нашем чате давно заметили, что Flash порой лучше, чем Pro!



#FREEDUROV
Иногда маленький — это тоже хорошо  Исследователи из Google DeepMind показали, что fine-тюнинг меньших и более слабых языковых моделей может давать лучшие результаты, чем использование данных от более
Около минуты