Команда DUC Technologies приветствует вас. Мы — российская ИТ-компания, которая специализируется на внедрении решений для повышения эффективности и роста бизнеса. Если вы хотя бы раз сталкивались с потерей недель на согласование технических заданий для дашбордов или месяцами ждали внедрения дорогостоящей BI-системы, эта статья будет вам полезна.
Разработка прототипа BI-ассистента на основе LLM
В течение четырех месяцев мы работали над созданием прототипа BI-ассистента, основанного на технологии больших языковых моделей (LLM). Этот ассистент понимает запросы на русском языке и автоматически формирует аналитические дашборды. Мы готовы поделиться архитектурой решения, возникшими трудностями и результатами, полученными на реальных данных.
Ограничения классических BI-инструментов
Такие классические инструменты бизнес-аналитики, как Power BI или Tableau, представляют собой двустороннее решение. Несмотря на их мощность, они отличаются сложностью, высокой стоимостью и требуют привлечения квалифицированных специалистов. Основная проблема заключается в том, что между бизнес-задачей и ее реализацией всегда находится технический специалист. Это создает значительные задержки и может приводить к искажению требований. Необходимость изменить фильтр или добавить столбец приводит к подготовке ТЗ и ожиданию очередного этапа разработки.
Гипотеза создания виртуального ассистента
Мы обратили внимание на тренд развития нишевых решений на основе LLM и решили проверить гипотезу о возможности создания виртуального ассистента, который:
- Воспринимает запросы, сформулированные на естественном русском языке.
- Самостоятельно формирует корректные SQL-запросы к вашей базе данных.
- Обеспечивает визуализацию результата в виде графиков или целых дашбордов.
- Работает с вашими данными без необходимости их миграции в облака зарубежных поставщиков.
Архитектура решения на основе открытых компонентов
Мы отказались от привязки к какой-либо готовой BI-системе. Наше решение строится вокруг трех ключевых модулей.
Семантический слой как основа системы
Семантический слой выполняет функцию «мозга» системы. В векторную базу данных загружается метаинформация: схемы таблиц, названия столбцов, типы данных и их описания. Это позволяет ассистенту корректно интерпретировать запросы, например, понимать, что под «выручкой» подразумевается поле `revenue` в таблице `sales`.
Сервис искусственного интеллекта
На основе пользовательского запроса сервис ИИ с использованием технологии RAG (Retrieval-Augmented Generation) находит контекст в семантическом слое и формирует корректный SQL-запрос. Для этого применяются дообученные большие языковые модели.
Движок визуализации данных
Для визуализации используется Vega-Lite — декларативный язык описания графиков. Модель не создает изображения напрямую, а генерирует JSON-спецификацию, которая затем обрабатывается движком. Этот подход обеспечивает полную независимость от конкретных BI-платформ.
Принцип работы решения по шагам
1. Пользователь вводит запрос, например: «Сравни выручку по холдингам за 2023 и 2024 год».
2. NLP-модуль выполняет разбор запроса.
3. ИИ-сервис на основе семантического слоя генерирует SQL-запрос.
4. Запрос выполняется, полученные данные передаются в движок визуализации.
5. LLM на основе данных генерирует JSON-код для графика в Vega-Lite.
6. Пользователь получает готовый график с возможностью его размещения на дашборде.
Существующие ограничения и потенциальные сложности
Не существует идеальных решений. Наш прототип сталкивается с трудностями, характерными и для продуктов крупных вендоров.
Критическая важность качества данных
Качество выходных данных напрямую зависит от качества входных. Ненормализованные таблицы и неинформативные названия столбцов существенно снижают эффективность работы любой LLM. Необходим как минимум базовый семантический слой.
Обработка сложных запросов
Многоуровневые оконные функции и сложные соединения таблиц представляют трудность. В настоящее время ассистент успешно обрабатывает около 80% типовых запросов, однако для сложной аналитики по-прежнему требуется участие инженера данных.
Минимизация рисков ошибочных действий
Существует вероятность генерации LLM неоптимального или некорректного запроса, который может оказать негативное влияние на работу базы данных. Необходим обязательный механизм предварительного просмотра и проверки запросов перед их выполнением.
Возможность работы бизнеса без BI-аналитика: трансформация роли
Прямой ответ — положительный, но с определенными условиями. Возможность работы без аналитика, занимающегося рутинным написанием SQL-запросов и созданием типовых отчетов, становится реальностью. Однако возрастает потребность в архитекторе данных или инженере данных, который:
- Выполняет подготовку и структурирование данных.
- Осуществляет настройку и поддержку семантического слоя.
- Решает сложные нестандартные аналитические задачи.
- Контролирует качество и безопасность данных.
BI-ассистент не заменяет эксперта, а трансформирует его роль из исполнителя в стратега и архитектора данных.
Практическое применение: кейсы использования
Мы доработали прототип до полноценного продукта — DUC SmartBI. Это виртуальный помощник, который преобразует текстовые запросы на естественном языке в готовые отчеты и дашборды за несколько минут.
Функциональные возможности ассистента
- Подключение к различным СУБД: MySQL, PostgreSQL, ClickHouse, Trino.
- Автоматическое изучение схемы данных и индексация метаданных.
- Возможность уточнения контекста через редактирование описаний полей.
- Автоматическое построение диаграмм, графиков и интерактивных дашбордов.
- Поддержка работы с различными LLM.
- Сохранение истории запросов и отчетов.
Ключевые отличия от классических BI-систем
- Высокая степень автоматизации процессов.
- Гибкость в настройке визуализаций.
- Быстрое подключение к источникам данных.
- Интуитивно понятный интерфейс.
Преимущества для различных специалистов
- Для руководителя это возможность в режиме 24/7 получать ответы на свои вопросы без посредников. Запросы вроде «Покажи динамику выручки и маржинальности по продуктам за год» или «Выведи топ-10 самых прибыльных клиентов» перестают быть головной болью. Вместо того чтобы ставить задачу аналитику и ждать несколько часов (или дней), руководитель получает готовый дашборд с графиками и таблицами буквально через 2-3 минуты после запроса. Это кардинально ускоряет принятие решений.
- Для маркетолога наш ассистент становится незаменимым помощником для оперативного анализа кампаний. Вместо того чтобы мучительно ковыряться в Битрикс24 или Google Analytics, он может просто спросить: «Сравни эффективность рекламных каналов по стоимости привлечения за последний месяц» или «Построй воронку конверсий для leads с контекстной рекланы». Система сама соберет данные, сформирует наглядный отчет и даже предложит варианты визуализации, что экономит часы рутинной работы.
- Для аналитика продукт не заменяет, а усиливает. Он снимает с него лавину рутинных запросов от коллег. Теперь аналитик не тратит время на написание десятков однотипных SQL-запросов,фокусируется на сложных, нестандартных задачах: дообучает семантический слой, проверяет корректность сложных выводов ИИ и занимается глубокой аналитикой. Его роль эволюционирует от исполнителя к архитектору данных.
- Для IT-специалиста – это способ быстро и безопасно дать бизнес-пользователям доступ к данным без постоянного вовлечения разработчиков. Не нужно писать под каждую задачу отдельное API или кастомные отчеты. Достаточно настроить подключение к базе данных (поддерживаем MySQL, PostgreSQL, ClickHouse), и система сама проиндексирует схему. При этом сохраняется полный контроль над безопасностью и логированием всех запросов.
Заключение: перспективы гибридных решений
Проведенная работа подтвердила возможность создания работоспособного BI-ассистента на основе открытых технологий. Он способен эффективно решать до 80% рутинных запросов бизнес-пользователей. Это не означает исчезновение профессии аналитика данных, а свидетельствует о эволюции его роли в сторону архитектуры данных и работы со сложными задачами.
А что вы думаете? Верите ли вы, что ИИ-ассистенты могут понять бизнес-логику? Поделитесь вашим мнением и опытом.