машинное обучение бейзлайн это

4 дня назад

📌 Андрей Карпаты нашел идеальный баланс токенов и параметров для обучения LLM

Андрей Карпаты опубликовал результаты экспериментов по оптимизации претрейна языковых моделей в условиях фиксированного бюджета. Чтобы найти наиболее эффективный способ расходования вычислительных ресурсов, он провел серию тестов на сервере с 8х GPU H100, обучив 11 моделей разного размера при одинаковых затратах на вычисления. 🟡Главный вывод: существует «золотое сечение». Карпаты обнаружил, что по мере увеличения мощностей оптимальное количество параметров и тренировочных токенов растут синхронно...