Найти в Дзене
10,2 тыс подписчиков

⚡️ StarCoder2: открытые веса, датасеты, обучающие скрипты, топ лидерборда HF.


StarCoder2 - это семейство открытых LLM для генерации кода, в трех различных размерах с параметрами 3B, 7B и 15B.

StarCoder2-15B обучен на более чем 4 триллионах лексем и 600+ языках программирования из The Stack v2.

Все модели используют Grouped Query Attention, контекстное окно из 16 384 лексем.

StarCoder2 предлагает три размера модели: модель на 3 миллиарда параметров, обученная ServiceNow, модель на 7 миллиардов параметров, обученная Hugging Face, и модель на 15 миллиардов параметров, обученная NVIDIA с помощью NVIDIA NeMo и ускоренной инфраструктуры NVIDIA:

StarCoder2-3B был обучен на 17 языках программирования из The Stack v2 на 3+ триллионах токенов.
StarCoder2-7B обучался на 17 языках программирования из The Stack v2 на 3,5+ триллионах токенов.
StarCoder2-15B был обучен на 600+ языках программирования из The Stack v2 на 4+ триллионах токенов.

StarCoder2-15B является лучшим в своем классе и по многим показателям превосходит модели 33B+.

📌HF
📌Github

⚡️ StarCoder2: открытые веса, датасеты, обучающие скрипты, топ лидерборда HF.  StarCoder2 - это семейство открытых LLM для генерации кода,  в трех различных размерах с параметрами 3B, 7B и 15B.
Около минуты