Найти тему
10,2 тыс подписчиков

🦾 Обучите и запустите GPT-2


Андрей Карпатый выпустил llm.c для CUDA.

Все это в одном файле llm.с и по-прежнему всего ~ 1000 строк кода чистого C.

Текущее время выполнения каждой итерации в е <3 A 100 40GB PCIe, B=4, T=1024:
- llm.c: 111 мс
- PyTorch: 180 мс
- +torch.compile: 86 мс
- +тензорные ядра fp32: 26 мс

Github

🦾 Обучите и запустите GPT-2  Андрей Карпатый выпустил llm.c для CUDA.  Все это в одном файле llm.с и по-прежнему всего ~ 1000 строк кода чистого C.
Около минуты