Добавить в корзинуПозвонить
Найти в Дзене

📰 Shopify построила AI-прокси, которому плевать на смерть моделей — и запустила агента River с Tangle под капотом

Пока стартапы панически мечутся между провайдерами, пытаясь угадать, какой LLM-старожил не рухнет завтра, Shopify спокойно построила себе ширму. Буквально: единый прокси-слой, который делает вид, что моделей вообще не существует. Есть токены, есть эндпоинт — а под капотом может быть Claude, GPT, Gemini или даже кастомная кастрюля. Если одна модель умерла — не вопрос, вторая подхватит. Без простоев, без переписывания кода, без паники. Дьявол в деталях LLM-прокси Штука работает так: Shopify закупает токены у нескольких провайдеров оптом. Все инженеры подключаются к одному прокси — он сам решает, куда отправить запрос. Когда недавно Fable 5 от Anthropic приказал долго жить, никакого «алярма» не было. Прокси просто переключил трафик на Claude Opus или GPT 5.5. Пользователи заметили разве что легкое изменение стиля ответа — и то вряд ли. «Когда модель приходит и уходит, или просто обновляется, прокси позволяет нам размазывать нагрузку по разным провайдерам», — объясняет Фархан Тавар, гла

 📰 Shopify построила AI-прокси, которому плевать на смерть моделей — и запустила агента River с Tangle под капотом

Пока стартапы панически мечутся между провайдерами, пытаясь угадать, какой LLM-старожил не рухнет завтра, Shopify спокойно построила себе ширму. Буквально: единый прокси-слой, который делает вид, что моделей вообще не существует. Есть токены, есть эндпоинт — а под капотом может быть Claude, GPT, Gemini или даже кастомная кастрюля. Если одна модель умерла — не вопрос, вторая подхватит. Без простоев, без переписывания кода, без паники.

Дьявол в деталях LLM-прокси

Штука работает так: Shopify закупает токены у нескольких провайдеров оптом. Все инженеры подключаются к одному прокси — он сам решает, куда отправить запрос. Когда недавно Fable 5 от Anthropic приказал долго жить, никакого «алярма» не было. Прокси просто переключил трафик на Claude Opus или GPT 5.5. Пользователи заметили разве что легкое изменение стиля ответа — и то вряд ли.

«Когда модель приходит и уходит, или просто обновляется, прокси позволяет нам размазывать нагрузку по разным провайдерам», — объясняет Фархан Тавар, глава инженерного отдела Shopify. По его словам, это не просто удобство — это вопрос выживания. Если вы привязаны к одному API, то его смерть или резкое изменение цен может похоронить весь ваш AI-функционал.

Дистилляция: как получить Qwen из Opus и сэкономить 30x

Но прокси — это цветочки. Главный сок — внутренняя система дистилляции. Shopify поняла, что тащить гигантскую модель ради простого ответа на вопрос о статусе заказа — это как стрелять из пушки по воробьям. Поэтому они построили пайплайн, который берет большую модель-учителя (например, Opus 4.8), тренировочные данные и целевую модель (скажем, Qwen 3.5), а через сутки выдает результат: насколько быстрый, дешевый и точный получился узкоспециализированный малыш.

И вот тут самое забавное. Инженер не просит ни у кого разрешения запустить дистилляцию. Просто берет и делает. Если метрики устраивают — катит в прод. Результаты впечатляют: в некоторых случаях модель оказалась в 30 раз дешевле и быстрее оригинальной. При этом точность — не хуже, а для конкретной подзадачи даже лучше.

Тавар признается: «Это не только про стоимость и задержки. Это про точность». Их фирменный AI-ассистент Sidekick, который помогает продавцам автоматизировать рутину, полностью построен на таких дистиллированных моделях. Каждая подзадача — свой крошечный, но злой специалист.

River, Tangle и мечта об автономном выборе модели

Агент River — это «субстрат информации», который пронизывает всю компанию. Он собирает данные о том, кто какие модели использует, сколько тратит, какие промты отправляет. А платформа Tangle позволяет визуализировать весь пайплайн дистилляции в реальном времени. Запустил процесс — и видишь, как из большой модели вылупляется маленькая, прямо на дашборде.

Но самая безумная идея Тавара: сделать так, чтобы дистилляция сама выбирала целевую модель. «Я хочу дать пайплайну учителя, данные и эвалы — и сказать: "На основе того, что ты выучил за время, посмотри на разные классы моделей, размеры, типы и скажи мне, что будет лучшей целью для дистилляции". Может, это окажется настолько маленькая модель, что запустится на телефоне. А может, пайплайн ответит: "Нельзя это сжать до чего-то лучше, чем существующий frontier". И это тоже результат», — мечтает Тавар....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут