Представьте: вы разработчик и вам нужно обработать текст на редком языке, с опечатками и странными символами. Традиционные языковые модели? Они часто спотыкаются. И вот компания Allen Institute of AI (Ai2) выпустила Bolmo — семейство моделей, которые работают прямо с байтами, минуя токенизацию. Звучит сложно, но на самом деле это решение реальной проблемы. Ai2 представила две версии: Bolmo 7B и Bolmo 1B. По словам разработчиков, это первые полностью открытые байт-уровневые языковые модели. Но вот что интересно — они переделали существующие Olmo 3 модели, вместо того чтобы обучать с нуля. Результат? Конкурентная производительность, а иногда даже лучше, чем у других байт-уровневых и символьных моделей. Байт-уровневые модели работают напрямую с кодировкой UTF-8. Никаких предопределённых словарей, никакого токенайзера. Что из этого получается? Модели лучше справляются с опечатками, редкими языками и странным текстом — всем тем, что раньше вызывало проблемы при модерации контента или развёр