30 подписчиков

я почти ровно год назад вспоминал про nanoGPT от Андрея Карпатого, напомню, что суть там в том, чтобы максимально быстро натренировать

20 марта20 мар

~1 мин

аналог GPT2-small со 124 млн параметров на 8 картах H100 до перплексии 3.28 или меньше; самый свежий результат был 2 недели назад - 86 секунд, за год смогли время уменьшить вдвое видимо, посмотрев на это, OpenAI запустили свое соревнование - надо обучить модель размером до 16 Мб (nanoGPT порядка 500 Мб) за 10 минут на тех же 8 картах H100; качество определяют по минимальной персплексии; что прикольно - они дают гранты до 1000 долларов для участия в целом, мы все, как сообщество, находимся в гонке за эффективностью - железные ресурсы у всех ограничены, даже у OpenAI; кстати, мы тоже запустили небольшое соревнование по эффективному сжатию промтов для LLM в рамках AINL, присоединяйтесь! @valuableai

я почти ровно год назад вспоминал про nanoGPT от Андрея Карпатого, напомню, что суть там в том, чтобы максимально быстро натренировать аналог GPT2-small со 124 млн параметров на 8 картах H100 до перплексии 3.28 или меньше; самый свежий результат был 2 недели назад - 86 секунд, за год смогли время уменьшить вдвое

видимо, посмотрев на это, OpenAI запустили свое соревнование - надо обучить модель размером до 16 Мб (nanoGPT порядка 500 Мб) за 10 минут на тех же 8 картах H100; качество определяют по минимальной персплексии; что прикольно - они дают гранты до 1000 долларов для участия

в целом, мы все, как сообщество, находимся в гонке за эффективностью - железные ресурсы у всех ограничены, даже у OpenAI; кстати, мы тоже запустили небольшое соревнование по эффективному сжатию промтов для LLM в рамках AINL, присоединяйтесь!

@valuableai