StepFun полностью открывает исходный код Step 3.5 Flash, включая базовые веса, веса промежуточного обучения и фреймворк Steptron. Модель MoE на 196B для агентов преодолела отметку в 300 тыс. загрузок. — pandaily.com Китайский стартап, занимающийся разработкой больших языковых моделей, StepFun полностью открыл исходный код Step 3.5 Flash, выпустив не только саму модель, но и ее базовые (предварительно обученные) веса, веса промежуточного обучения (Midtrain) и сопутствующий фреймворк для обучения Steptron — тем самым укрепив свою приверженность открытой инфраструктуре ИИ для разработки агентов. Step 3.5 Flash использует разреженную архитектуру MoE (Mixture-of-Experts) с общим числом параметров 196 миллиардов, при этом во время инференса активируется лишь около 11 миллиардов параметров. Сообщается, что при выполнении задач по кодированию в рамках одного запроса скорость инференса может достигать 350 токенов в секунду (TPS). Модель специально разработана для сценариев с агентами, демонстри