Найти в Дзене
Craft Homelab

Грок-1 – огромная нейросеть с 314 миллиардами параметров

🤯 Недавно наткнулся на интересный проект Grok-1 — это модель с архитектурой Mixture of Experts, где для обработки каждого токена активируются всего два из восьми экспертов. Особенность — огромное число параметров и поддержка длинных последовательностей (до 8192 токенов). Модель построена на JAX и требует мощной видеокарты, но при этом код достаточно простой, чтобы проверить работоспособность без сложных кастомных оптимизаций. Есть крутые фишки вроде rotary embeddings и 8-битного квантизирования. Если интересны масштабные нейросети и эксперимент с MoE — стоит взглянуть! #нейросети #искусственныйинтеллект #машиннообучение #JAX #MoE #программирование #opensource #deepLearning https://github.com/xai-org/grok-1 https://vlad1kudelko.github.io/

Грок-1 – огромная нейросеть с 314 миллиардами параметров 🤯

Недавно наткнулся на интересный проект Grok-1 — это модель с архитектурой Mixture of Experts, где для обработки каждого токена активируются всего два из восьми экспертов. Особенность — огромное число параметров и поддержка длинных последовательностей (до 8192 токенов). Модель построена на JAX и требует мощной видеокарты, но при этом код достаточно простой, чтобы проверить работоспособность без сложных кастомных оптимизаций. Есть крутые фишки вроде rotary embeddings и 8-битного квантизирования. Если интересны масштабные нейросети и эксперимент с MoE — стоит взглянуть!

#нейросети #искусственныйинтеллект #машиннообучение #JAX #MoE #программирование #opensource #deepLearning

https://github.com/xai-org/grok-1

https://vlad1kudelko.github.io/