А темпы гонки моделей всё не падают:) И Microsoft явно не устал:)) Не успели утихнуть восторги по поводу Gemini Nano и компактных моделей от Mistral, как Microsoft изволил рассказать о своих достижениях в этой области, явно демонстрируя, что не упускает ни одно из перспективных направлений исследования и оптимизации языковых моделей.

Что, если у модели не десятки млрд параметров, которыми теперь принято меряться, а всего 2,7 млрд? И для тренировки использовались скромные по нынешним меркам ресурсы (14 days on 96 A100 GPUs)? Если оптимизировать данные для обучения и сам процесс, то можно получить качество, сравнимое с моделями раз в 20 побольше.

И это еще раз напоминает: хорошо работающие модели, которые можно будет гонять на аппаратуре пользовательского уровня, смартфонах и ноутбуках, уже совсем рядом.

https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/

Около минуты

12 декабря 2023