Сегодня компания Databricks объявила о приобретении Lilac, бостонского стартапа в области прикладных исследований, предлагающего инструменты для понимания и обработки данных. Условия сделки не разглашаются.
Гигант данных, возглавляемый Али Годси, планирует использовать команду и технологии Лилака на своей платформе анализа данных, ранее известной как Data Lakehouse, предоставляя пользователям из разных областей более удобный способ улучшения качества своих наборов данных для разработки приложений с большими языковыми моделями (LLM) производственного качества.
Сделка является последней попыткой Databricks стать универсальным магазином не только для данных, но и для всего, что связано с генеративным искусственным интеллектом. Совсем недавно она также инвестировала неназванную сумму в Mistral, стартап в области генеративного искусственного интеллекта, который в прошлом году привлек крупнейший посевной раунд в Европе и стал сильным игроком в области генеративного искусственного интеллекта.
Как Lilac упростит изучение данных
Когда в прошлом году Databricks приобрела Mosaic AI в рамках крупной сделки, компания переключилась на будущее, управляемое искусственным интеллектом, в котором пользователи будут использовать данные, безопасно размещенные на ее платформе, для создания приложений генеративного ИИ. С тех пор компания сделала несколько разработок в этой области и даже развернула несколько открытых моделей, чтобы предоставить клиентам все необходимое для создания, развертывания и поддержки высококачественных приложений с большими языковыми моделями (LLM), ориентированных на различные бизнес-сценарии использования.
Однако, как принято говорить в отрасли, данные по-прежнему имеют решающее значение для всех усилий в области ИИ, включая системы LLM. Команды должны убедиться, что у них есть высококачественные данные для обучения моделей, а также для тестирования того, как они работают в реальном мире, включая такие аспекты, как предвзятость и галлюцинации. Это то, с чем Сирень помогает и будет решать с помощью Databricks.
Традиционно командам приходилось использовать трудоемкие ручные методы для изучения неструктурированных данных и устранения пробелов в них. Компания Lilac, основанная бывшими инженерами Google Даниэлем Смилковым и Нихилом Торатом в 2023 году, решает эту проблему с помощью масштабируемого решения с открытым исходным кодом, которое предлагает интуитивно понятный пользовательский интерфейс и функции на основе искусственного интеллекта для анализа, понимания и изменения неструктурированных текстовых данных в большом масштабе.
Согласно веб-сайту компании, специалисты по обработке и анализу данных и исследователи искусственного интеллекта могут многое сделать с помощью Lilac при работе с неструктурированными данными, начиная от кластеризации и присвоения категорий документам, выполнения семантического поиска и поиска по ключевым словам и заканчивая обнаружением личной информации или дубликатов и внесением необходимых правок для их удаления (со сравнением) и адаптации набора данных.
«Команда, стоящая за Lilac, специально создала свой продукт, чтобы обеспечить анализ выходных данных модели на предмет смещения или токсичности, а также подготовку данных для RAG и тонкую настройку или предварительное обучение LLM», — написали руководители Databricks Матей Захария, Навин Рао, Джонатан Франкл, Ханлин Тан и Ахил Гупта в совместном сообщении в блоге.
Они добавили, что весь технологический стек Lilac будет находиться под управлением инструментов Databricks Mosaic AI, чтобы дать разработчикам возможность лучше курировать наборы данных для систем искусственного интеллекта пользовательского поколения. Несмотря на то, что на данном этапе детали интеграции остаются нераскрытыми, она выполнит ту же задачу: упростит адаптацию данных, чтобы командам было проще оценивать и отслеживать результаты своих LLM, а также готовить наборы данных для RAG, тонкой настройки и предварительного обучения.
«Мы считаем, что перенос интерактивного курирования данных Lilac в режиме реального времени на платформу Databricks корпоративного масштаба позволит компаниям иметь гораздо большую видимость и контроль над своими неструктурированными данными. Это позволит создавать настраиваемые продукты ИИ мирового класса, которые будут обслуживать конечных пользователей. Объединение усилий с Databricks позволит совершенно новому классу корпоративных разработчиков раскрыть потенциал своих данных с помощью генеративного ИИ всего за несколько кликов», — написал стартап в отдельном посте, опубликованном на его веб-сайте.
Амбиции в области комплексных инструментов генеративного ИИ
Это приобретение, как упоминалось выше, знаменует собой заметный шаг со стороны Databricks по предоставлению своим клиентам комплексных инструментов для разработки высококачественных приложений ИИ поколения с использованием их собственных данных. На данный момент у пользователей платформы Databricks есть все необходимое для создания систем на базе LLM.
Это включает в себя открытые модели от таких игроков, как Meta, Stability и Mistral, а также специальные инструменты Mosaic, позволяющие экспериментировать с ними, использовать их в качестве оптимизированных конечных точек модели или настраивать их с помощью собственных данных, размещенных на платформе (Mosaic AI Foundation Model Adaptation), для конкретного случая использования.
Snowflake, главный конкурент компании, также движется в том же направлении и представил Cortex, полностью управляемый сервис, помогающий своим клиентам создавать приложения, основанные на мощных открытых моделях.