11,6 тыс подписчиков

🌟 Zyphra выложила чекпоит ZAYA1-74B-Preview

9 мая9 мая

1 мин

Через 2 дня после релиза ZAYA1-8B Zyphra опубликовала превью более крупной модели ZAYA1-74B. Это промежуточная веха: модель прошла претрейн, мидтрейн и расширение контекста, но RL-постобучения и инстракт-тюнинга на ней ещё не делали. Zyphra ставит ZAYA1-74B-Preview рядом с полноценными моделями и приводит 2 метрики - avg@1 и pass@4. По pass@1 модель ожидаемо отстаёт, а pass@4 уже подбирается к лидерам. Zyphra трактует это как сигнал того, что в базовой модели достаточно разнообразия и способностей, чтобы RL вытащил их в финальные цифры. В подтверждение этой логики Zyphra ссылается на опыт ZAYA1-8B Там между чекпойнтами с похожими pass@k и финальной версией разрыв оказался большим: +20.8 на AIME'26, +32.4 на HMMT'26, +10.0 на LiveCodeBench-v6, +11.7 на GPQA-Diamond, +19.0 на IFEval. 🟡Внутри 74B-Preview масштабированная 8B То же CCA-внимание, но каждый второй слой заменён на внимание со скользящим окном размером 4K. Со слов Zyphra, это почти вдвое сокращает KV-кеш без потерь на д

Через 2 дня после релиза ZAYA1-8B Zyphra опубликовала превью более крупной модели ZAYA1-74B.

Это промежуточная веха: модель прошла претрейн, мидтрейн и расширение контекста, но RL-постобучения и инстракт-тюнинга на ней ещё не делали.

Zyphra ставит ZAYA1-74B-Preview рядом с полноценными моделями и приводит 2 метрики - avg@1 и pass@4.

По pass@1 модель ожидаемо отстаёт, а pass@4 уже подбирается к лидерам. Zyphra трактует это как сигнал того, что в базовой модели достаточно разнообразия и способностей, чтобы RL вытащил их в финальные цифры.

В подтверждение этой логики Zyphra ссылается на опыт ZAYA1-8B

Там между чекпойнтами с похожими pass@k и финальной версией разрыв оказался большим: +20.8 на AIME'26, +32.4 на HMMT'26, +10.0 на LiveCodeBench-v6, +11.7 на GPQA-Diamond, +19.0 на IFEval.

🟡Внутри 74B-Preview масштабированная 8B

То же CCA-внимание, но каждый второй слой заменён на внимание со скользящим окном размером 4K.

Со слов Zyphra, это почти вдвое сокращает KV-кеш без потерь на длинном контексте. Чтобы трюк сработал, при расширении контекста в слоях со скользящим окном сохранили исходное основание RoPE, а у глобальных - растянули.

🟡Контекст наращивали поэтапно: 32k → 128k → 256k.

Претрейн занял около 15T токенов в две фазы: сначала общие веб-данные, затем больше математики, кода и науки. Мидтрейн - 3 фазы примерно по 1T токенов: расширение контекста, ввод reasoning-трасс и фокус на агентных задачах.

🟡Агентика

На ZAYA1-8B этот режим работал слабее, поэтому в корпус 74B-Preview добавили больше агентного материала. Первые цифры на τ-bench Zyphra описывает как многообещающие.

Авторы при этом оговариваются, что pass@k плохо отражает многошаговые сценарии, там важнее следование инструкциям, удержание состояния и устойчивость к промежуточным ошибкам, и значительная часть этих способностей появляется только после агентного RL.

Старшую ZAYA1, кстати, тоже обучали исключительно на AMD . Полноценный RL уже идёт, финальную версию 74B Zyphra планирует выпустить в ближайшие недели.

📌Лицензирование: Apache 2.0 License.

🟡Блогпост

🟡Модель

@machinelearning

#AI #ML #LLM #ZAYA1 #ZYPHRA