10,2 тыс подписчиков
🦾 Обучите и запустите GPT-2
Все это в одном файле llm.с и по-прежнему всего ~ 1000 строк кода чистого C.
Текущее время выполнения каждой итерации в е <3 A 100 40GB PCIe, B=4, T=1024:
- llm.c: 111 мс
- PyTorch: 180 мс
- +torch.compile: 86 мс
- +тензорные ядра fp32: 26 мс
• Github
Около минуты
11 апреля 2024