Сегодня 19 апреля 2023 года стартап Stability AI (автор нейросети для генерации изображений Stable Diffusion ) выпустила первую из своих языковых моделей StableLM Suite.
Он включает в себя небольшие, эффективные модели, способные генерировать высокопроизводительный текст. Разработчики могут использовать и адаптировать базовые модели StableLM в коммерческих или исследовательских целях в соответствии с условиями лицензии CC BY-NC 4.0. Модели StableLM доступны на GitHub и Hugging Spaces, платформе для размещения моделей и кода ИИ. На данный момент были выпущены модели с параметрами 3B и 7B, в ближайшее время будут выпущены модели с параметрами 15B и 65B.
Эти языковые модели включают GPT-J, GPT-NeoX и набор Pythia, которые были обучены на наборе данных The Pile с открытым исходным кодом. Многие недавние языковые модели с открытым исходным кодом продолжают развивать эти усилия, включая Cerebras-GPT и Dolly-2.
StableLM обучается на новом экспериментальном наборе данных, построенном на базе The Pile, но в три раза большем, с 1,5 триллионами лексем. Мы сообщим подробности об этом наборе данных в ближайшее время. Богатство этого набора данных дает StableLM удивительно высокую производительность в разговорных задачах и задачах кодирования, несмотря на его небольшой размер - от 3 до 7 миллиардов параметров (для сравнения, GPT-3 имеет 175 миллиардов параметров).
Подробности напишу позднее, когда протестирую данную модель StableLM на практике.