Найти тему
Gem Space Media

Databricks – как ученые стали миллиардерами

История компании Databricks – унифицированной платформы для работы с данными, аналитикой и искусственным интеллектом

“Информация, в отличие от нефти, не иссякнет никогда.” (с) Андреас Вайгенд, ученый, ведущий мировой эксперт по Big Data

Мир, в котором мы живем, уже невозможно представить без продуктов высоких технологий и огромного ежесекундно пополняющегося объема всевозможной информации. Она, как справедливо замечают аналитики – “новая нефть”. Эксперты предполагают, что к уже к 2025-му году будет создано более 1 млрд Гб данных, а глобальный рынок аналитики и Big Data к 2030-му достигнет $684,1 млрд.

Уже сейчас организации, занимающие нишу в этом сегменте экономики, показывают рекордные темпы роста и сверхприбыли. Один из таких проектов – Databricks, который оценивается в $38 млрд и входит в десятку самых дорогих технологических стартапов. Всего за 10 лет он превратился из дальновидного стартапа в одного из лидеров изучения больших данных, разработки и внедрения программного обеспечения для работы в этой области бизнеса. Как это произошло?

Что такое Databricks?

“Мы начали использовать Databricks как платформу для обработки больших данных и искусственного интеллекта, но сфера ее применения расширилась. У нас совершенно другой класс гражданских инженеров и специалистов по обработке данных, которые используют его как современный инструмент бизнес-аналитики для принятия более разумных бизнес-решений.” (с) Дэниел Дживонс, генеральный менеджер отдела расширенной аналитики, Shell

-2

Databricks – платформа для анализа и обработки неструктурированных и полуструктурированных данных, созданная на основе открытого исходного кода и использующая искусственный интеллект. С ее помощью организации могут составлять прогнозы, необходимые для принятия стратегических решений, группы разработчиков и аналитиков – сотрудничать друг с другом и остальными направлениями бизнеса для создания новых продуктов.

Компания продает свою продукцию корпоративным клиентам: крупному, среднему и мелкому бизнесу. Всего у Databricks их более 7 тыс., включая Apple, Amazon, Disney, Microsoft, Atlassian, AT&T, Shell, Rolls Royce, Air Canada и многие другие. При этом каждая из них использует архитектуру Databricks по-своему, например:

  • Regeneron Pharmaceuticals, одна из самых больших фармкампаний в США, использовала ее алгоритмы машинного обучения (МО) для выявления гена, ответственного за врожденную патологию печени, что позволило создать эффективное лекарство;
-3
  • телевизионная компания Comcast Corporation пользуется разработками Databricks для обеспечения работы голосовых пультов дистанционного управления;
  • во время пандемии Covid-19 медицинские службы пользовались аналитическими инструментами Databricks для того, чтобы в режиме реального времени отслеживать заполнение больниц и перенаправлять кареты скорой помощи;
  • Shell использует Databricks, чтобы анализировать показания датчиков защитных клапанов (а их более 200 млн) на своих предприятиях, чтобы своевременно менять их и не допускать аварий;
  • хедж-фонды и инвестиционные компании руководствуются выводами, полученными с помощью Databricks, чтобы решить, в какие секторы экономики вкладывать деньги.
-4

В прошлом году доход компании превысил $1 млрд, и если разделить его на количество клиентов, то получится, что средняя стоимость одного контракта – $143 тыс. Немало, особенно для стартапа, за продукт которого первые годы никто не хотел платить, и вовсе не потому, что он был плох, совсем наоборот. Все дело в том, что исходный код ПО открыт и, по сути, пользоваться им может любой, причем бесплатно, ведь проект изначально не был задуман как коммерческий.

Зарождение проекта

“Мы были группой хиппи из Беркли и просто хотели изменить мир. Мы сказали: да берите это программное обеспечение бесплатно, но они отказались и заплатили $ 1 млн.” (с) Али Годси

Университет Беркли, Калифорния
Университет Беркли, Калифорния

Стартап Databricks родился в 2013-м году в компьютерной лаборатории калифорнийского университета Беркли, где несколько ученых экспериментировали с открытым кодом и искусственным интеллектом. Одним из них был будущий генеральный директор и медийный представитель многомиллиардной компании Али Годси. Он появился на свет в Иране в 1973 году. Когда в начале 80-х к власти в стране пришли фундаменталисты, демократически настроенная семья Годси сбежала в Европу. Детство и юность Али прошли в Швеции. С раннего детства мальчик увлекался компьютерами, самостоятельно научился программировать и писать игры, когда ему еще не было 10-ти. По собственным словам Годси, с 8 лет и до того момента, как стать генеральным директором, не было ни дня, когда бы он не кодил.

Соучредители Databricks
Соучредители Databricks

В Швеции он окончил университет, получил диплом бакалавра компьютерной инженерии, степень MBA по логистике и стратегическому маркетингу, а затем докторскую степень по распределенным вычислительным системам. В 2009-м Али приехал в США по приглашению профессора информатики Беркли Дейва Паттерсона и планировал, что это будет командировка на год. Американский ученый искал коллег в недавно созданную компьютерную лабораторию и ему удалось собрать блестящую команду из инженеров, математиков, экспертов по машинному обучению.

Среди них были будущие основатели Databricks и будущие миллиардеры, а пока только доктора и аспиранты Ион Стойко, Матей Захария, Рейнольд Синем, Патрик Уэнделл, Энди Ковински и Арслан Таваколи-Сираджи. Плодом их совместных трудов стал запуск в 2011-м Apache Spark – платформы параллельной обработки данных с открытым кодом, которая отличалась по тем временам ошеломляющей скоростью и производительностью. Она была создана для конкурса научных проектов, устроенного Netflix.

Логотип “Apache Spark”
Логотип “Apache Spark”

Стриминговый сервис планировал использовать алгоритмы ИИ для анализа предпочтений клиентов и более точных рекомендаций фильмов к просмотру. Команда Беркли победила и эта победа показала, что их продукт ценен, может приносить пользу, а, возможно, и какие-то деньги. Тем более, что жили и работали молодые ученые в Сан-Франциско, в Кремниевой Долине. Два года они безрезультатно предлагали свою идею инвесторам и предполагаемым клиентам, но им она казалась чересчур сложной и “заумной”.

В этом была доля правды – Spark было сложно устанавливать и настраивать, так как для достижения максимальной производительности требовалось учесть множество параметров. Возможно, вскоре партнеры отказались бы от своей идеи и вновь полностью погрузились в научную деятельность, чего некоторые уже хотели, если бы не Бен Хоровиц, один из самых успешных технологических инвесторов.

Появление Databricks

“Информация не должна руководить нами. Она должна расширять спектр наших возможностей.” (с) Андреас Вайгенд, ученый, ведущий мировой эксперт по Big Data

Бен Хоровиц
Бен Хоровиц

В 2013-м году Бен Хоровиц, соучредитель венчурного фонда Andreessen Horowitz услышал о Spark и понял, что, если приложить усилия, на этой основе можно создать не просто прибыльный стартап, а вырастить настоящего “бриллиантового” единорога. Инвестор встретился с разработчиками. Он сообщил, что считает идею крайне перспективной, уже сейчас примерно оценивает ее в $50 млн и готов вложить в начальном раунде $14 млн.

Предложение вселило в Али и его коллег надежду. Они зарегистрировали компанию под названием Databricks и снова взялись за работу – наняли еще нескольких экспертов, сами сели за компьютеры. Ученые оценивали свои перспективы, планировали через пару лет продать стартап за $100, максимум $200 млн и спокойно вернуться к преподаванию и в лаборатории довольно богатыми и независимыми людьми. Сейчас каждый из них “стоит” приблизительно $1,5 млрд.

Али Годси
Али Годси

Через два года стартап представил Databricks, своеобразную “надстройку” над Apache Spark, которая позволяла использовать все мощности платформы, но теперь ей мог пользоваться практически любой, кто мало-мальски умел работать на компьютере. Но уже устоявшаяся репутация классной, но очень сложной и запутанной технологии шла впереди и очень мешала внедрению, не говоря уже о продажах. На помощь снова пришел конкурс – “Кто быстрее всех отсортирует петабайт (1024 терабайт) данных”. Databricks не просто выиграл, он установил мировой рекорд, после чего о компании заговорили все медиа, имеющие хоть какое-то отношение к технологиям.

К Databricks пришла слава, стоимость стартапа к 2017-му взлетела до $500 млн, только вот прибыль составляла всего $1 млн – меньше чем у маленькой кофейни в Сан-Франциско. Как рассказывает Али Годси: “На всех конференциях с нами фотографировались, благодарили, рассказывали как наша технология изменила их жизнь и работу, только никто не хотел ее покупать.” Тем не менее, один покупатель проявил интерес – компания Microsoft в лице генерального директора Сатья Наделла.

Сатья Наделла, CEO Microsoft
Сатья Наделла, CEO Microsoft

Он дал распоряжение проверить, так ли хорош Databricks, как о нем говорят и насколько его инструменты совместимы с Microsoft Azure – собственной облачной платформой корпорации. Получив положительный результат, он заключил контракт со стартапом и этим положил начало его стремительному финансовому взлету. Сравните: В 2017-й Databricks вошел с прибылью $1 млн, а закончил с прибылью в $40 млн, 2018-й – $100 млн, 2019-й – $200 млн, 2020-й – $350 мл, 2021-й – $800 млн, 2022-й – $1 млрд, и даже пандемия не повлияла на ее рост. Как же удалось заставить людей покупать продукт?

Бизнес-модель Databricks

“Внедрение простых возможностей в Databricks – это важный шаг, позволяющий большему количеству сотрудников в организации легко анализировать и исследовать большие объемы данных, независимо от их квалификации.” (с) Али Годси, соучредитель и генеральный директор Databricks

Ранняя команда Databricks
Ранняя команда Databricks

В 2016-м году бразды правления Databricks принял Али Годси, после того, как один из учредителей решил уделять больше времени преподавательской деятельности. На новом посту он предпринял три шага:

  • переориентировал маркетинговую стратегию исключительно на корпоративных клиентов;
  • нанял специалистов не из академических кругов, а бизнесменов и управленцев, нацеленных на прибыль и успех;
  • приоритет в разработке – крупным компаниям.
Али Годси
Али Годси

Databricks работает с открытым исходным кодом и бесплатное ПО любой может скачать, установить и пользоваться. А вот дополнительные фирменные функции необходимо оплачивать. Плата взимается за время пользования тем или иным инструментом посекундно. Это гарантирует, что клиент платит только за то, что ему нужно и когда ему нужно. Тариф зависит от объема используемой вычислительной мощности и региона.

Бизнес-модель привлекает клиентов, так как им не надо устанавливать дорогостоящее оборудование и нанимать специалистов. Также Databricks оказывает консалтинговые услуги, проводит платное обучение. Конечно, все улучшения и дополнения в первую очередь появляются у платных подписчиков, но и общедоступная версия обновляется, но медленнее.

Databricks сегодня и завтра

“Специалисты по обработке и анализу данных превращаются в детективов и художников, способных создавать все более и более точные образы личности на основе оставленных цифровых следов.” (с) Андреас Вайгенд, ученый, ведущий мировой эксперт по Big Data

В 2023-м Databricks запустил Dolly – аналог ChatGPT
В 2023-м Databricks запустил Dolly – аналог ChatGPT

В 2019-м Databricks шумно отпраздновала новую веху – она приняла в команду тысячного по счету работника на полную ставку – сейчас их уже две тысячи. В этом же году прошел следующий раунд финансирования размером в $250 млн, традиционно возглавляемый Andreessen Horowitz (Бен Хоровиц – постоянный член совета директоров с момента основания стартапа), к которому не названной суммой присоединился Microsoft и несколько других крупных компаний. Всего общая сумма инвестиций в Databricks на сегодняшний день $3,5 млрд.

Офис Databricks
Офис Databricks

В марте этого года Databricks запустила Dolly 2.0 – большую языковую модель, аналог и конкурент нейросети ChatGPT. Эта модель использует меньше параметров, чем продукт от OpenAI, но результат, как утверждают разработчики, не уступает знаменитому чат-боту. Нейросеть создана на основе первой версии, обученной за $30 с использованием набора данных, созданного командой Stanford Alpaca и OpenAI API. Над ней работала большая часть сотрудников – 5 тыс. человек, каждый из которых придумал по три оригинальных вопроса и ответа на различные темы: от информационных справок до творческих заданий. Полученные данные и обучающий код были опубликованы с полностью открытым исходным кодом, так что любой может обучать “овечку” для любых целей, включая создание коммерческих приложений.

Али Годси
Али Годси

Несколько лет назад фирма объявила о создании собственного венчурного фонда для того, чтобы на ранних стадиях поддерживать молодые компании, работающие на платформе Databricks, в области ИИ и открытого исходного кода. В дополнение к финансированию они получат эксклюзивный доступ к продуктам, техническую интеграцию и поддержку при выходе на рынок. В портфеле Databricks Ventures 11 стартапов, последний раз фонд участвовал в финансировании 4-го мая этого года – инвестировал в платформу защиты данных Immuta.

“Databricks процветает благодаря предпринимательскому духу основателей, и мы намерены поддержать следующую волну инновационных стартапов, строящих будущее данных, аналитики и искусственного интеллекта, особенно в сообществе с открытым исходным кодом.” (с) Али Годси

Читайте также:

-16

Спасибо за 👍👍👍 и подписку , заходите к нам еще. А если вам нравится, что мы пишем – установите мессенджер Gem4me, там еще много интересных каналов, которые ведут наши пользователи!