62 подписчика

Bolmo: как AI2 сделала байт-уровневые модели практичными и доступными

17 декабря17 дек

3 мин

Представьте: вы разработчик и вам нужно обработать текст на редком языке, с опечатками и странными символами. Традиционные языковые модели? Они часто спотыкаются. И вот компания Allen Institute of AI (Ai2) выпустила Bolmo — семейство моделей, которые работают прямо с байтами, минуя токенизацию. Звучит сложно, но на самом деле это решение реальной проблемы. Ai2 представила две версии: Bolmo 7B и Bolmo 1B. По словам разработчиков, это первые полностью открытые байт-уровневые языковые модели. Но вот что интересно — они переделали существующие Olmo 3 модели, вместо того чтобы обучать с нуля. Результат? Конкурентная производительность, а иногда даже лучше, чем у других байт-уровневых и символьных моделей. Байт-уровневые модели работают напрямую с кодировкой UTF-8. Никаких предопределённых словарей, никакого токенайзера. Что из этого получается? Модели лучше справляются с опечатками, редкими языками и странным текстом — всем тем, что раньше вызывало проблемы при модерации контента или развёр

Оглавление

Почему это вообще нужно
Как они это устроили
Как она работает на практике

Ai2 представила две версии: Bolmo 7B и Bolmo 1B. По словам разработчиков, это первые полностью открытые байт-уровневые языковые модели. Но вот что интересно — они переделали существующие Olmo 3 модели, вместо того чтобы обучать с нуля. Результат? Конкурентная производительность, а иногда даже лучше, чем у других байт-уровневых и символьных моделей.

Почему это вообще нужно

Байт-уровневые модели работают напрямую с кодировкой UTF-8. Никаких предопределённых словарей, никакого токенайзера. Что из этого получается? Модели лучше справляются с опечатками, редкими языками и странным текстом — всем тем, что раньше вызывало проблемы при модерации контента или развёртывании на мобильных устройствах.

Для компаний, работающих в разных странах, с шумными пользовательскими данными или ограниченными ресурсами, это сильно упрощает жизнь. Меньше сложности — больше надёжности. Bolmo попытается сделать такой подход практичным в большом масштабе, не требуя переучивания модели с нуля.

Как они это устроили

Обучение полностью байт-уровневой модели с нуля? Это дорого. Поэтому Ai2 пошли умнее: взяли готовый checkpoint Olmo 3 7B и переделали его в два этапа.

На первом этапе они заморозили большую часть модели и обучили только отдельные компоненты: локальный энкодер, декодер, предиктор границ и голову для языкового моделирования. Это было дешёвым и быстрым — всего 9,8 миллиардов токенов. Второй этап: разморозили всю модель и обучили её дополнительными данными.

Ai2 использовала для обучения Dolma 3 — ту же смесь данных, которая питала Olmo. Кроме того, добавили открытые датасеты кода и символьные данные.

Итоговая идея — выпустить всё: чекпоинты, код и полный научный доклад. Чтобы другие организации могли строить байт-уровневые модели на базе Olmo экосистемы. Звучит как настоящий вклад в open source, а не просто пиар.

Как она работает на практике

По данным исследований, Bolmo 7B показала сильные результаты. Она опережает символьные бенчмарки CUTE и EXECUTE, а также улучшила точность по сравнению с базовой Olmo 3. В кодировании, математике, QA с выбором ответа и понимании символов — везде хорошие показатели.

Сейчас в этой нише работают и другие: Meta выпустила BLT архитектуру, Stanford разработала MrT5, есть ещё Canine. Но Bolmo отличается тем, что это не просто академический проект. Это практичный инструмент.

Почему компаниям это нужно

Большинство современных организаций используют не одну, а несколько моделей разных размеров. Гибридный подход. И вот Ai2 предлагает не выбирать между: либо байт-уровневая модель, либо производительность. Можно иметь обе.

Ключ здесь в динамической иерархической архитектуре. Компрессия становится переключаемым параметром — как включить-выключить свет. Если у вас уже есть куча моделей в production, вы можете добавить Bolmo без полной переделки инфраструктуры.

По сути, Ai2 показывает, что байт-уровневые модели — это не просто теория. Это инструмент, который работает и которым можно пользоваться прямо сейчас. Переделка сильной существующей модели вместо обучения с нуля — это низкорисковый путь для тех, кто хочет надёжность, но боится менять всю архитектуру.

Хотите разбираться в том, как работают продвинутые модели и какие инновации меняют AI прямо сейчас? Это постоянно меняется, и легко отстать от важных новостей.🔔 Следите за развитием байт-уровневых моделей и другими прорывами в мире искусственного интеллекта — подпишитесь на мой канал «ProAI» в Telegram!