Найти тему

А темпы гонки моделей всё не падают:) И Microsoft явно не устал:)) Не успели утихнуть восторги по поводу Gemini Nano и компактных моделей от Mistral, как Microsoft изволил рассказать о своих достижениях в этой области, явно демонстрируя, что не упускает ни одно из перспективных направлений исследования и оптимизации языковых моделей.

Что, если у модели не десятки млрд параметров, которыми теперь принято меряться, а всего 2,7 млрд? И для тренировки использовались скромные по нынешним меркам ресурсы (14 days on 96 A100 GPUs)? Если оптимизировать данные для обучения и сам процесс, то можно получить качество, сравнимое с моделями раз в 20 побольше.
И это еще раз напоминает: хорошо работающие модели, которые можно будет гонять на аппаратуре пользовательского уровня, смартфонах и ноутбуках, уже совсем рядом.
Около минуты