Команда Авито сделала собственную языковую модель — A-Vibe. Это как ChatGPT, только со специализацией на русском языке и задачах самой платформы Avito. И вот в чём интрига: по результатам независимого тестирования MERA A-Vibe обошла даже гигантов вроде Google, OpenAI и Anthropic — причём в задачах, где у неё было в разы меньше параметров. Сравнение выглядит примерно так: На первый взгляд может показаться, что это просто ещё одна нейросеть, но за этим стоит умная инженерия — особенно в одной из самых недооценённых областей: токенизации. Сейчас объясним, почему это важно. Токенизация — это способ, с помощью которого модель «режет» текст на части, чтобы понять его. Почти все современные языковые модели используют токенизаторы, изначально созданные для английского языка. Проблема в том, что русский — куда сложнее: длинные слова, падежи, суффиксы, сложные окончания. Из-за этого обычные токенизаторы делят русские слова на кучу мелких фрагментов. Пример: Фраза «информационно-аналитическое обе
Как Авито сделала русскую нейросеть, которая обошла Google и OpenAI
9 апреля 20259 апр 2025
1
2 мин