Найти в Дзене
ТехноLOG

Reka Flash 3: Новая открытая 21B-модель для рассуждений и обработки естественного языка

Оглавление

Компания Reka AI представила новую модель машинного обучения Reka Flash 3 — 21-миллиардную языковую модель общего назначения с открытым исходным кодом, разработанную с нуля и оптимизированную для широкого спектра задач. В условиях быстро развивающегося ландшафта искусственного интеллекта это решение направлено на устранение ряда практических проблем, с которыми сталкиваются разработчики и организации.

Технические характеристики и возможности новой модели

Reka Flash 3 была построена с нуля и содержит 21 миллиард параметров, что делает её достаточно мощной для решения сложных задач, но при этом более компактной по сравнению с некоторыми конкурирующими моделями. Модель предназначена для общения, поддержки программирования, выполнения инструкций и даже функциональных вызовов, что позволяет использовать её как универсальный фундамент для различных приложений.

Особого внимания заслуживает техническая сторона Reka Flash 3. Модель способна обрабатывать контекст длиной до 32 тысяч токенов, что значительно облегчает работу с длинными документами и выполнение сложных задач без чрезмерной нагрузки на ресурсы. Еще одной интересной функцией является механизм "budget forcing" через специальные теги <reasoning>. Эта особенность позволяет пользователям ограничивать процесс рассуждения модели определенным количеством шагов, обеспечивая стабильную производительность без излишних вычислительных затрат.

С точки зрения аппаратных требований, Reka Flash 3 имеет полный размер в 39 ГБ (fp16), который можно сжать до всего 11 ГБ с помощью 4-битного квантования. Эта гибкость делает модель подходящей для локального развертывания, что особенно важно в сравнении с более крупными, ресурсоемкими моделями.

Процесс обучения и производительность

Процесс обучения Reka Flash 3 включал в себя смесь общедоступных и синтетических наборов данных, за которыми последовала тщательная настройка инструкций и обучение с подкреплением с использованием методов REINFORCE Leave One-Out (RLOO). Этот продуманный подход был направлен на достижение баланса между возможностями и эффективностью.

В плане производительности Reka Flash 3 демонстрирует умеренный показатель MMLU-Pro в 65.0, но остается конкурентоспособной при использовании с дополнительными источниками знаний, такими как веб-поиск. Её многоязычные возможности отражаются в оценке COMET 83.2 на WMT'23, что указывает на разумный уровень поддержки неанглийских запросов, несмотря на то, что основной фокус модели — английский язык.

Сравнение с конкурентами

В контексте текущего развития рынка ИИ-моделей, Reka Flash 3 занимает интересную позицию. С 21 миллиардом параметров она меньше многих современных крупных моделей, но, согласно данным разработчиков, показывает конкурентоспособную производительность по сравнению с проприетарными моделями, такими как OpenAI o1-mini.

Интересно сравнить Reka Flash 3 с моделью QwQ-32B, которая упоминается в контексте оценки эффективности. Несмотря на меньшее количество параметров, Reka Flash 3 демонстрирует хорошую производительность благодаря тщательно продуманному процессу обучения и оптимизации.

Также стоит отметить, что Reka AI ранее, в феврале 2024 года, представила мультимодальную языковую модель Reka Flash (без номера 3), также с 21 миллиардом параметров, и компактную модель Reka Edge с 7 миллиардами параметров. Новая Reka Flash 3, судя по всему, является следующим поколением или значительно переработанной версией этой модели.

Практическое применение и значение для индустрии

Выпуск Reka Flash 3 является значимым шагом к более доступным решениям в области искусственного интеллекта. В современном ландшафте ИИ разработчики и организации сталкиваются с множеством практических проблем: высокие вычислительные требования, проблемы с задержкой и ограниченный доступ к действительно адаптируемым моделям с открытым исходным кодом. Многие существующие решения требуют дорогостоящей облачной инфраструктуры или слишком велики для применения на устройствах.

Reka Flash 3 предлагает разумный компромисс между производительностью и эффективностью, предоставляя надежную и адаптируемую модель, подходящую для общения, программирования и выполнения инструкций. Её компактный дизайн, расширенное окно контекста в 32 тысячи токенов и инновационный механизм контроля вычислительных ресурсов делают её практичным вариантом для локального развертывания и приложений с низкой задержкой.

В сухом остатке

Reka Flash 3 представляет собой обдуманный шаг в направлении создания более доступных решений в области искусственного интеллекта. Тщательно сбалансировав производительность и эффективность, компания Reka AI создала надежную и адаптируемую модель, подходящую для широкого спектра задач.

Для исследователей и разработчиков, которые ищут модель, одновременно мощную и управляемую, Reka Flash 3 предлагает многообещающую основу, соответствующую практическим потребностям без чрезмерной сложности. В мире, где многие модели ИИ требуют значительных ресурсов или предоставляются только на проприетарной основе, выход модели с открытым исходным кодом такого уровня является значимым событием для всего сообщества.

Модель доступна на Hugging Face по лицензии Apache-2.0, что делает её открытой для широкого использования и модификации сообществом разработчиков ИИ.