📰 Pinterest урезал расходы на AI на 90%, выпотрошив "фронтирную" модель: что случилось с AI images 4k

ВчераВчера

2 мин

? Pinterest, платформа, известная своими бесконечными досками вдохновения и визуальных открытий, совершила неожиданный, но гениальный ход в области искусственного интеллекта. По данным VentureBeat, компания умудрилась сократить расходы на AI на целых 90%, при этом еще и повысив точность работы алгоритмов на 30%. Как им это удалось? Они просто выпотрошили "фронтирную" модель Qwen3-VL и пересобрали ее заново. Проблема "фронтирных" моделей Для тех, кто не в теме, "фронтирные" модели – это самые передовые и мощные AI-решения, которые, как правило, требуют огромных вычислительных ресурсов и, соответственно, стоят целое состояние. Для Pinterest с их 620 миллионами активных пользователей в месяц, использование такой модели для каждой рекомендации изображения превратилось бы просто в неподъемный счет. Решение от Мэтта Мадригала CTO Pinterest Мэтт Мадригал нашел элегантное решение: он просто "вырезал" слой визуализации у Qwen3-VL и перестроил его с использованием собственных проприетарных

📰 Pinterest урезал расходы на AI на 90%, выпотрошив "фронтирную" модель: что случилось с AI images 4k?

Pinterest, платформа, известная своими бесконечными досками вдохновения и визуальных открытий, совершила неожиданный, но гениальный ход в области искусственного интеллекта. По данным VentureBeat, компания умудрилась сократить расходы на AI на целых 90%, при этом еще и повысив точность работы алгоритмов на 30%. Как им это удалось? Они просто выпотрошили "фронтирную" модель Qwen3-VL и пересобрали ее заново.

Проблема "фронтирных" моделей

Для тех, кто не в теме, "фронтирные" модели – это самые передовые и мощные AI-решения, которые, как правило, требуют огромных вычислительных ресурсов и, соответственно, стоят целое состояние. Для Pinterest с их 620 миллионами активных пользователей в месяц, использование такой модели для каждой рекомендации изображения превратилось бы просто в неподъемный счет.

Решение от Мэтта Мадригала

CTO Pinterest Мэтт Мадригал нашел элегантное решение: он просто "вырезал" слой визуализации у Qwen3-VL и перестроил его с использованием собственных проприетарных эмбеддингов. Эмбеддинги, если объяснять простым языком, это способ представления данных в виде чисел, которые позволяют компьютеру понимать связи между разными объектами.

Ставка на собственные данные

"Если у вас есть действительно уникальные данные, с помощью которых вы можете донастроить open-source модель, то качество данных, честно говоря, перевесит или превзойдет размер модели", – объяснил Мадригал в недавнем подкасте VB Beyond the Pilot.

Как Pinterest кастомизировал Qwen для визуального поиска

Pinterest уже давно использует open-source модели для визуального поиска и рекомендаций, начиная с BERT от Google и CLIP от OpenAI. Компания доработала свою собственную версию Pin CLIP на основе последнего, добавив туда собственные визуальные эмбеддинги и метаданные изображений.

Navigator 1: разговорный шопинг-ассистент

"Разговорный" помощник для покупок Pinterest, Navigator 1, был построен на Qwen3-VL и кастомизирован "довольно существенно". Команда Мадригала, по сути, "вырезала" слой визуального кодировщика Qwen и доработала модель на собственных мультимодальных эмбеддингах. Это позволило им захватывать метаданные вокруг пинов и изображений, которые затем можно предварительно вычислять в автономном режиме и регулярно переобучать на новой информации для предоставления персонализированного опыта.

"Open-source модели, особенно с открытыми лицензиями Apache, где вы действительно можете настраивать множество открытых весов и кастомизировать их для уникальных случаев использования – вот где мы обнаружили, что open source настолько мощным для нас", – сказал Мадригал.

Преимущества собственных эмбеддингов

Использование собственных эмбеддингов позволяет команде Pinterest получать контекст вокруг метаданных, пинов и изображений. Кроме того, модель работает лучше во время выполнения и логического вывода. Без этих эмбеддингов разработчикам пришлось бы вызывать и кодировать каждое возвращаемое изображение во время выполнения, по одному за раз. Это приводит к задержке, которая "в 20 раз хуже" с точки зрения логического вывода, сказал Мадригал....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут