Baseten развернулась в сторону обучения AI-моделей
Представьте: вы купили кучу дорогих GPU у облачного провайдера, а потом должны заходить по SSH по пятницам, запускать обучение и молиться, чтобы к понедельнику оно завершилось успешно. Звучит как кошмар? Для многих это реальность. И вот компания Baseten, которую недавно оценили в 2,15 миллиарда долларов, решила эту проблему в лоб.
На этой неделе компания объявила о выпуске Baseten Training — платформы для обучения и дообучения открытых AI-моделей. Но это не просто еще один инструмент в море подобных. Это настоящий разворот стратегии компании, которая раньше сосредоточивалась только на выводе моделей в боевых условиях (инференс).
Почему Baseten вообще это делает?
Ответ прост: клиентам это нужно. И нужно срочно. Как рассказал CTO компании Амир Хагигхат, люди буквально умоляли их о решении. Один из клиентов жаловался: «Я купил H100s, а дальше что? Хожу как идиот по пятницам, включу обучение, и во вторник проверяю — а оно может вообще не работать!»
Вообще, тут происходит интересное. Большинство открытых моделей (от Meta, Alibaba и других) становятся всё лучше и лучше. Они уже конкурируют с закрытыми системами вроде OpenAI. Вот только путь от скачанной модели к нормальной production-ready версии — это ад и суета. Нужны специалисты, инфраструктура, знания. И компании ищут выход.
Но подождите — разве это не было уже?
Была! И именно тут начинается интересная история про провал и учение. Года два с половиной назад Baseten запустила продукт под названием Blueprints. Идея была крутая: ты приходишь, выбираешь модель, кидаешь данные, указываешь гиперпараметры, а волшебство делается само собой.
Только волшебства не произошло. Пользователи не знали, что выбирать. Когда модель работала плохо, они винили продукт. Baseten вместо инфраструктурной компании превратилась в консультационное агентство, объясняя людям про дедупликацию данных и подбор моделей.
«Мы стали консультантами, а это было совсем не в планах,» — вспоминает Хагигхат. Они убили Blueprints и сказали себе: будем дожидаться, пока заработаем право на расширение.
Что изменилось к 2025 году?
Два момента. Во-первых, оказалось, что большинство доходов Baseten от инференса идет от пользовательских моделей, которые люди обучают где-то в другом месте. Во-вторых, конкуренты начали грязный трюк: запирали пользователей в своих экосистемах через terms of service, запрещая скачивать веса обученной модели.
Хагигхат это описал честно: «Да, я понимаю почему они так делают. Деньги — в инференсе, а не в обучении. Но мы решили идти другим путем.» Baseten разрешает пользователям скачивать веса когда угодно. Это ставка на то, что люди останутся из-за качества, а не из-за блокировки.
А что технически такого крутого?
Несколько вещей, которые действительно выделяют Baseten:
- Multi-cloud оркестрация — GPU идут не от одного облака, а прыгают между AWS, Google Cloud и прочими. Это значит, что нет привязки к трехлетним контрактам и можно гибко маневрировать мощностями.
- Запуск за минуту — не за час, а именно за минуту-две задачу в работу.
- Снимки моделей — автоматические сохранения прогресса, чтобы если что-то упало, не начинать с нуля.
- Наблюдаемость — видишь, как работает каждый GPU в кластере, куда уходит время, что произошло.
И да, этот многооблачный трюк — когда три недели назад AWS упал, сервисы Baseten просто переехали на другой облако-провайдер. Вот это да.
Кто это уже использует?
Есть два показательных примера. Оксен AI — компания про управление датасетами — просто встроила Baseten в свой продукт. Теперь её клиенты обучают модели как бы через Oxen, а на самом деле это всё Baseten. Для одного стартапа AlliumAI это дало 84% экономию — счет упал с 46 тысяч долларов до 7,5 тысяч.
Parsed работает в более серьезных местах — здравоохранение, финансы, право. Там ошибки дорогие. Они перешли на Baseten и получили 50% ускорение в работе моделей, плюс смогли за 48 часов развернуть HIPAA-совместимую инфраструктуру в Европе. Запустили больше 500 обучающих задач.
Но стоп — это же конкуренция повсюду
Это правда. AWS, Google Cloud, Microsoft Azure, Lambda Labs, CoreWeave, Hugging Face, Replicate, Modal — все хотят кусок пирога. Рынок переполнен.
Но у Baseten есть три козыря. Первый — этот самый multi-cloud Management, который никто больше не делает на таком уровне. Второй — глубокое знание про оптимизацию производительности (они же выводили инференс, значит, знают, как выжать максимум). Третий — разработчик первый, то есть инструмент создан для реальной боевой работы, а не для экспериментов в Jupyter.
К тому же за ними крутые клиенты: Descript (транскрипция), Decagon (служба поддержки через AI), Sourcegraph (помощник для кода).
Что дальше?
Хагигхат честно говорит: «Мы — инфраструктурная компания для инференса. Обучение — это просто средство достичь цели.» И это логично. Когда модель обучена, её надо запустить где-то. Baseten это делает хорошо, и связь между обучением и инференсом сильнее, чем кажется на первый взгляд.
Например, для ускорения инференса они используют специальную технику — speculative decoding. А для неё нужны маленькие обученные модели. Вот и получается, что их собственная команда по оптимизации — большой пользователь Training.
На горизонте: поддержка обучения для картинок, звука и видео, интеграция продвинутых техник. Но главное — они прошли через провал и вышли мудрее. Blueprints учил их не переусложнять.
Почему это важно сейчас?
Потому что открытые модели уже неплохие. GPT-5 закрытая и дорогая. А Llama, Qwen — бесплатные и становятся лучше. Если взять открытую модель и дообучить на своих данных — получится что-то, что работает именно для твоего случая, и ты не зависишь от OpenAI.
Компании это поняли. Они пытаются разные техники — reinforcement learning, supervised fine-tuning, всякие штуки. Baseten предлагает железо для этого, а детали — твоё дело. Это нишя, и очень своевременная.
Завод на то, что AI из экспериментов переходит в production, и там нужны компании, которые делают скучную, но критичную работу — управление GPU, сохранение прогресса, быстрый запуск. Baseten это делает.
Инфраструктура для обучения и развертывания AI-моделей — одна из самых перспективных областей в 2025 году. Как компании избегают зависимости от закрытых моделей и какие инструменты для этого использовать — всё это в моем анализе.🔔 Чтобы следить за развитием AI-инструментов, инфраструктурой для моделей и трендами в machine learning, подпишись на мой канал «ProAI» в Telegram!