236 подписчиков

voyage-code-3: новый уровень точности и эффективность в поиске кода

14 января 202514 янв 2025

4 мин

В мире современных AI-инструментов тяжело удивить разработчиков, которые видели уже и большие языковые модели, и сервисы поиска похожего кода. Тем не менее, Voyage AI снова это делает: на сцене появляется voyage-code-3 — следующий шаг в эволюции векторных представлений (эмбеддингов) для решения задач по поиску кода (code retrieval). Что же отличает эту модель от предыдущих поколений и её конкурентов? По заявлениям команды, voyage-code-3 обгоняет конкурентные модели типа OpenAI-v3-large и CodeSage-large в среднем на 13.80% и 16.81% соответственно. И речь не о паре случайных тестов, а о 32 тщательно отобранных датасетах, отражающих самые разные кейсы поиска кода. Одно из ключевых нововведений — поддержка нескольких вариантов размерностей эмбеддингов: 2048, 1024, 512 и 256. Это даёт гибкость: вы заранее кодируете большой вектор, а затем по необходимости используете его «короткую» версию для более дешёвого хранения или быстрого поиска. Ещё один большой плюс — поддержка разных форматов чисе

Оглавление

В чём суть новой модели?
🚀 Скачок по качеству
⚙️ Разные размеры и «матрёшки» (Matryoshka embeddings)

В мире современных AI-инструментов тяжело удивить разработчиков, которые видели уже и большие языковые модели, и сервисы поиска похожего кода. Тем не менее, Voyage AI снова это делает: на сцене появляется voyage-code-3 — следующий шаг в эволюции векторных представлений (эмбеддингов) для решения задач по поиску кода (code retrieval). Что же отличает эту модель от предыдущих поколений и её конкурентов?

В чём суть новой модели?

🚀 Скачок по качеству

По заявлениям команды, voyage-code-3 обгоняет конкурентные модели типа OpenAI-v3-large и CodeSage-large в среднем на 13.80% и 16.81% соответственно. И речь не о паре случайных тестов, а о 32 тщательно отобранных датасетах, отражающих самые разные кейсы поиска кода.

⚙️ Разные размеры и «матрёшки» (Matryoshka embeddings)

Одно из ключевых нововведений — поддержка нескольких вариантов размерностей эмбеддингов: 2048, 1024, 512 и 256.

💡 Секрет «матрёшечного» подхода: «старшая» версия в 2048 измерений содержит внутри себя сразу «срезы» на 1024, 512 и 256, то есть можно «откусить» первые k компонент вектора и получить меньшую размерность без перезапуска модели.

Это даёт гибкость: вы заранее кодируете большой вектор, а затем по необходимости используете его «короткую» версию для более дешёвого хранения или быстрого поиска.

🗄️ Квантование для уменьшения расходов

Ещё один большой плюс — поддержка разных форматов чисел:

float32 (обычное «полное» представление),
int8 (8-бит, знаковый),
uint8 (8-бит, беззнаковый),
binary / ubinary (сжатые до бита на измерение!).

Таким образом, вектор может «весить» до 32 раз меньше (по сравнению с float32). При больших объёмах (например, когда храните миллионы кодовых фрагментов) это может колоссально сэкономить бюджет на инфраструктуру.

Технические подробности реализации

🧩 Matryoshka Learning

В основе лежит идея, что внутри одного большого эмбеддинга есть несколько «слоёв», каждый из которых может функционировать как самостоятельный вектор меньшей размерности. Модель обучается так, чтобы эти более короткие вектора тоже сохраняли высокое качество поиска. При этом разработчики использовали:

🤝 Контрастивное обучение на огромном количестве пар «запрос–код», «код–код», «докстринг–код».
🏗️ Наращивание датасета: от классических публичных репозиториев GitHub до специально собранных реальных примеров использования ассистентов.

🔗 Квантизация в реальных проектах

Большинство современных векторных баз данных (Milvus, Qdrant, Weaviate, Elasticsearch, Vespa AI) уже умеют работать с квантованными эмбеддингами напрямую. Это значит, что не нужно конвертировать векторы в полную точность на этапе поиска.

Это даёт свободу выбора между:

🍃 Меньшим расходом памяти за счёт binary/int8 и
🌟 Чуть более высоким качеством на float32.

Для максимальной эффективности иногда применяют гибридный подход: «черновой» отбор (retrieval) на квантованных векторах, а затем rescoring (то есть повторный, более точный поиск) на уменьшенном списке кандидатов уже с полноценными float32-эмбеддингами.

Зачем это нужно?

Разработчики современных код-ассистентов (Copilot-подобных систем) нередко сталкиваются со следующими задачами:

💻 Text-to-code: поиск подходящих сниппетов по текстовому описанию.
🧩 Code-to-code: нахождение похожего кода (рефакторинг, дубликаты, сопоставление функций).
📝 Docstring-to-code: если у вас есть описание функции, нужно найти исходную реализацию.

Когда в проекте сотни тысяч (а то и миллионы) фрагментов кода, каждый процент повышения точности = экономия времени и нервов для разработчиков. Именно здесь voyage-code-3 показывает себя с наилучшей стороны.

Личное мнение автора

С технической точки зрения подход, который предлагает Voyage AI, выглядит очень продуманным. Меня лично впечатляет:

🤖 Гибкость масштабирования: можно хранить одни и те же эмбеддинги в нескольких вариантах (float32, int8 и т.д.), не теряя при этом совместимость.
⚖️ Баланс «качество–стоимость»: векторная база для кода обычно «тяжёлая», а здесь мы получаем возможность сильно сэкономить (вплоть до x32 по памяти).
🔥 Единый вектор — разные задачи: методы контрастивного обучения помогают научить модель сразу под многозадачные сценарии поиска кода (code retrieval).

Конечно, важно понимать, что в любых подобных сравнительных тестах много нюансов. Ведь есть OpenAI, есть другие вендоры — все они развивают собственные решения. Но судя по цифрам, voyage-code-3 действительно серьёзно продвигает планку точности. Особенно любопытно выглядит идея rescoring на последнем этапе (binary retrieval → float32 перефильтрация). Это что-то вроде «двухфазного» поиска, когда мы сначала экономим ресурсы, а потом получаем высочайшую релевантность.

Итоги и где почитать подробнее

🤔 Стоит попробовать, если вы разрабатываете кодовые ассистенты, поисковики по внутренним репозиториям или же просто хотите оптимизировать хранение больших наборов кода.
🏆 Перспективы: quantization и нестандартные размерности эмбеддингов явно набирают обороты. Скорее всего, мы будем видеть всё больше таких гибридных решений и у конкурентов.

Полезные ссылки

Официальная статья о voyage-code-3:
voyage-code-3: more accurate code retrieval with lower dimensional, quantized embeddings

Если вы ищете способ ускорить и удешевить поиск кода в больших проектах, возможно, именно voyage-code-3 станет тем самым прорывным решением в вашей инфраструктуре.