Добавить в корзинуПозвонить
Найти в Дзене
ProAi

Baseten делает ставку на обучение моделей: как компания хочет освободить предприятия от зависимости OpenAI

Представьте: вы купили кучу дорогих GPU у облачного провайдера, а потом должны заходить по SSH по пятницам, запускать обучение и молиться, чтобы к понедельнику оно завершилось успешно. Звучит как кошмар? Для многих это реальность. И вот компания Baseten, которую недавно оценили в 2,15 миллиарда долларов, решила эту проблему в лоб. На этой неделе компания объявила о выпуске Baseten Training — платформы для обучения и дообучения открытых AI-моделей. Но это не просто еще один инструмент в море подобных. Это настоящий разворот стратегии компании, которая раньше сосредоточивалась только на выводе моделей в боевых условиях (инференс). Ответ прост: клиентам это нужно. И нужно срочно. Как рассказал CTO компании Амир Хагигхат, люди буквально умоляли их о решении. Один из клиентов жаловался: «Я купил H100s, а дальше что? Хожу как идиот по пятницам, включу обучение, и во вторник проверяю — а оно может вообще не работать!» Вообще, тут происходит интересное. Большинство открытых моделей (от Meta, A
Оглавление
   Baseten развивает независимость бизнеса от OpenAI, предлагая гибкое обучение моделей ИИ с фокусом на кастомизации и конфиденциальности корпоративных данных.
Baseten развивает независимость бизнеса от OpenAI, предлагая гибкое обучение моделей ИИ с фокусом на кастомизации и конфиденциальности корпоративных данных.

Baseten развернулась в сторону обучения AI-моделей

Представьте: вы купили кучу дорогих GPU у облачного провайдера, а потом должны заходить по SSH по пятницам, запускать обучение и молиться, чтобы к понедельнику оно завершилось успешно. Звучит как кошмар? Для многих это реальность. И вот компания Baseten, которую недавно оценили в 2,15 миллиарда долларов, решила эту проблему в лоб.

На этой неделе компания объявила о выпуске Baseten Training — платформы для обучения и дообучения открытых AI-моделей. Но это не просто еще один инструмент в море подобных. Это настоящий разворот стратегии компании, которая раньше сосредоточивалась только на выводе моделей в боевых условиях (инференс).

Почему Baseten вообще это делает?

Ответ прост: клиентам это нужно. И нужно срочно. Как рассказал CTO компании Амир Хагигхат, люди буквально умоляли их о решении. Один из клиентов жаловался: «Я купил H100s, а дальше что? Хожу как идиот по пятницам, включу обучение, и во вторник проверяю — а оно может вообще не работать!»

Вообще, тут происходит интересное. Большинство открытых моделей (от Meta, Alibaba и других) становятся всё лучше и лучше. Они уже конкурируют с закрытыми системами вроде OpenAI. Вот только путь от скачанной модели к нормальной production-ready версии — это ад и суета. Нужны специалисты, инфраструктура, знания. И компании ищут выход.

Но подождите — разве это не было уже?

Была! И именно тут начинается интересная история про провал и учение. Года два с половиной назад Baseten запустила продукт под названием Blueprints. Идея была крутая: ты приходишь, выбираешь модель, кидаешь данные, указываешь гиперпараметры, а волшебство делается само собой.

Только волшебства не произошло. Пользователи не знали, что выбирать. Когда модель работала плохо, они винили продукт. Baseten вместо инфраструктурной компании превратилась в консультационное агентство, объясняя людям про дедупликацию данных и подбор моделей.

«Мы стали консультантами, а это было совсем не в планах,» — вспоминает Хагигхат. Они убили Blueprints и сказали себе: будем дожидаться, пока заработаем право на расширение.

Что изменилось к 2025 году?

Два момента. Во-первых, оказалось, что большинство доходов Baseten от инференса идет от пользовательских моделей, которые люди обучают где-то в другом месте. Во-вторых, конкуренты начали грязный трюк: запирали пользователей в своих экосистемах через terms of service, запрещая скачивать веса обученной модели.

Хагигхат это описал честно: «Да, я понимаю почему они так делают. Деньги — в инференсе, а не в обучении. Но мы решили идти другим путем.» Baseten разрешает пользователям скачивать веса когда угодно. Это ставка на то, что люди останутся из-за качества, а не из-за блокировки.

А что технически такого крутого?

Несколько вещей, которые действительно выделяют Baseten:

  • Multi-cloud оркестрация — GPU идут не от одного облака, а прыгают между AWS, Google Cloud и прочими. Это значит, что нет привязки к трехлетним контрактам и можно гибко маневрировать мощностями.
  • Запуск за минуту — не за час, а именно за минуту-две задачу в работу.
  • Снимки моделей — автоматические сохранения прогресса, чтобы если что-то упало, не начинать с нуля.
  • Наблюдаемость — видишь, как работает каждый GPU в кластере, куда уходит время, что произошло.

И да, этот многооблачный трюк — когда три недели назад AWS упал, сервисы Baseten просто переехали на другой облако-провайдер. Вот это да.

Кто это уже использует?

Есть два показательных примера. Оксен AI — компания про управление датасетами — просто встроила Baseten в свой продукт. Теперь её клиенты обучают модели как бы через Oxen, а на самом деле это всё Baseten. Для одного стартапа AlliumAI это дало 84% экономию — счет упал с 46 тысяч долларов до 7,5 тысяч.

Parsed работает в более серьезных местах — здравоохранение, финансы, право. Там ошибки дорогие. Они перешли на Baseten и получили 50% ускорение в работе моделей, плюс смогли за 48 часов развернуть HIPAA-совместимую инфраструктуру в Европе. Запустили больше 500 обучающих задач.

Но стоп — это же конкуренция повсюду

Это правда. AWS, Google Cloud, Microsoft Azure, Lambda Labs, CoreWeave, Hugging Face, Replicate, Modal — все хотят кусок пирога. Рынок переполнен.

Но у Baseten есть три козыря. Первый — этот самый multi-cloud Management, который никто больше не делает на таком уровне. Второй — глубокое знание про оптимизацию производительности (они же выводили инференс, значит, знают, как выжать максимум). Третий — разработчик первый, то есть инструмент создан для реальной боевой работы, а не для экспериментов в Jupyter.

К тому же за ними крутые клиенты: Descript (транскрипция), Decagon (служба поддержки через AI), Sourcegraph (помощник для кода).

Что дальше?

Хагигхат честно говорит: «Мы — инфраструктурная компания для инференса. Обучение — это просто средство достичь цели.» И это логично. Когда модель обучена, её надо запустить где-то. Baseten это делает хорошо, и связь между обучением и инференсом сильнее, чем кажется на первый взгляд.

Например, для ускорения инференса они используют специальную технику — speculative decoding. А для неё нужны маленькие обученные модели. Вот и получается, что их собственная команда по оптимизации — большой пользователь Training.

На горизонте: поддержка обучения для картинок, звука и видео, интеграция продвинутых техник. Но главное — они прошли через провал и вышли мудрее. Blueprints учил их не переусложнять.

Почему это важно сейчас?

Потому что открытые модели уже неплохие. GPT-5 закрытая и дорогая. А Llama, Qwen — бесплатные и становятся лучше. Если взять открытую модель и дообучить на своих данных — получится что-то, что работает именно для твоего случая, и ты не зависишь от OpenAI.

Компании это поняли. Они пытаются разные техники — reinforcement learning, supervised fine-tuning, всякие штуки. Baseten предлагает железо для этого, а детали — твоё дело. Это нишя, и очень своевременная.

Завод на то, что AI из экспериментов переходит в production, и там нужны компании, которые делают скучную, но критичную работу — управление GPU, сохранение прогресса, быстрый запуск. Baseten это делает.

Инфраструктура для обучения и развертывания AI-моделей — одна из самых перспективных областей в 2025 году. Как компании избегают зависимости от закрытых моделей и какие инструменты для этого использовать — всё это в моем анализе.🔔 Чтобы следить за развитием AI-инструментов, инфраструктурой для моделей и трендами в machine learning, подпишись на мой канал «ProAI» в Telegram!