14 подписчиков

Mistral запускает ИИ-модели для локализованного генерирования кода и математического рассуждения

18 января 202518 янв 2025

2 мин

Codestral Mamba может обрабатывать тысячи строк кода, выполняющегося на локальных устройствах, а Mathstral способен решать сложные математические задачи. Французский стартап в области ИИ Mistral представил две новые специализированные языковые модели, предназначенные для улучшения генерации кода и математического рассуждения. Codestral Mamba — это небольшая модель, способная быстро генерировать результаты кода. Несмотря на то, что модель содержит 7 миллиардов параметров, она может быстро генерировать ответы на вопросы, связанные с кодом, даже при обработке более длинных входных текстов. Codestral Mamba может обрабатывать до 256 тыс. токенов, что эквивалентно от 50 тыс. до 200 тыс. строк кода, хотя длина входных данных зависит от языка программирования и стиля кодирования. «Мы ожидаем, что она станет отличным локальным помощником по коду», — говорится в заявлении Mistral, так как её небольшой размер делает её идеальной для локальных приложений, таких как автодополнение кода в реальном

Codestral Mamba может обрабатывать тысячи строк кода, выполняющегося на локальных устройствах, а Mathstral способен решать сложные математические задачи.

Французский стартап в области ИИ Mistral представил две новые специализированные языковые модели, предназначенные для улучшения генерации кода и математического рассуждения.

Codestral Mamba — это небольшая модель, способная быстро генерировать результаты кода.

Несмотря на то, что модель содержит 7 миллиардов параметров, она может быстро генерировать ответы на вопросы, связанные с кодом, даже при обработке более длинных входных текстов.

Codestral Mamba может обрабатывать до 256 тыс. токенов, что эквивалентно от 50 тыс. до 200 тыс. строк кода, хотя длина входных данных зависит от языка программирования и стиля кодирования.

«Мы ожидаем, что она станет отличным локальным помощником по коду», — говорится в заявлении Mistral, так как её небольшой размер делает её идеальной для локальных приложений, таких как автодополнение кода в реальном времени, обнаружение синтаксических ошибок и персонализированная помощь в кодировании.

По производительности Codestral Mamba превосходит конкурирующие модели для генерации кода, такие как CodeGemma от Google, а также модели почти в пять раз крупнее, как, например, CodeLlama от Meta.

Она построена с использованием архитектуры Mamba от Mistral, которая отличается от традиционной архитектуры Transformer, используемой в большинстве языковых моделей.

Вместо использования механизмов внимания модель, основанная на Mamba, использует модели выборочного состояния пространства (SSM), что позволяет ей обрабатывать последовательности линейно, что в свою очередь означает возможность обрабатывать гораздо более длинные и большие входные данные.

Codestral Mamba можно протестировать на платформе Mistral, а также с использованием более крупной модели Codestral 22B.

Модель генерации кода доступна по лицензии Apache 2.0, что позволяет пользователям создавать собственное программное обеспечение и предлагать лицензированный код клиентам. Её можно скачать с Hugging Face.

MathΣtral: решение сложных математических задач

Mistral также запустил ещё одну ИИ-модель на этой неделе — MathΣtral, или Mathstral, которая способна решать сложные математические задачи, требующие многозначного логического рассуждения.

Модель, названная в честь Архимеда, предназначена для понимания и решения сложных математических задач, что делает её возможным помощником для ученых и исследователей.

Mathstral была разработана в сотрудничестве с проектом Numina и демонстрирует передовые результаты рассуждения в различных тестах, согласно данным компании.

Модель получила результаты 56,6% на тесте MATH и 63,47% на тесте MMLU. Результаты Mastral ещё больше увеличиваются при увеличении времени вычислений во время вывода, сообщает стартап, поддерживаемый Microsoft.

«Mathstral — это ещё один пример отличных компромиссов между производительностью и скоростью, которые можно достичь при создании моделей для конкретных целей — философия разработки, которую мы активно продвигаем на платформе la Plateforme, особенно с её новыми возможностями для дообучения», — заявили в Mistral.

Модель может быть дообучена для улучшения её производительности в определённой области математики или науки.