Найти в Дзене
DUC Technologies

Данные для ИИ-аналитики и для отчетов: почему это два разных мира и как не потратить миллионы впустую

Почти каждая компания сегодня мечтает внедрить ИИ и машинное обучение. Но первые же эксперименты часто упираются в проблему: «У нас же есть все данные, почему модель выдает ерунду?». Ответ прост: данные, на которых работают ваши дашборды, бесполезны для ИИ-аналитики. Это не уровень зрелости, а разные вселенные. В этой статье – подробный гайд по тому, как устроены аналитические и AI-ready данные,
Оглавление

Почти каждая компания сегодня мечтает внедрить ИИ и машинное обучение. Но первые же эксперименты часто упираются в проблему: «У нас же есть все данные, почему модель выдает ерунду?». Ответ прост: данные, на которых работают ваши дашборды, бесполезны для ИИ-аналитики. Это не уровень зрелости, а разные вселенные. В этой статье – подробный гайд по тому, как устроены аналитические и AI-ready данные, и почему их нельзя смешивать.

Поговорим о разнице данных для аналитики, в чем разница и как строить архитектуру данных, которая не подведет.
Поговорим о разнице данных для аналитики, в чем разница и как строить архитектуру данных, которая не подведет.

Перед любым разговором о данных стоит задать простой вопрос: а зачем они вообще нужны? Если отбросить весь шум вокруг технологий, в аналитике суть одна: данные нужны, чтобы снижать неопределенность и помогать принимать решения. Форма этих данных полностью зависит от того, кто будет их потреблять и какое решение нужно принять. Одна и та же информация обработанная по разному может использоваться для различных целей..

Ключевой момент, который все упускают: данные, которые прекрасно работают для отчетов перед советом директоров, могут быть совершенно бесполезны для обучения нейросети. И наоборот. Путать эти два типа – дорогая ошибка в современной ИИ- и data-разработке.

Мир аналитики. Данные для людей

Здесь потребитель – человек (аналитик, руководитель, менеджер). Его задача – понять прошлое, чтобы принять решение в настоящем. Поэтому «хорошие» данные здесь выглядят так:

  • Стабильность и доверие. Если метрика сегодня показывает одно, а завтра – другое без видимых причин, доверие к ней падает до нуля. Людям нужна надежная точка опоры.
  • Объяснимость. Люди не верят «черным ящикам». Им нужно проследить логику: откуда взялась цифра, какие были допущения, что на нее повлияло. Без этого нет споров, обсуждений и, как итог, – решений.
  • Агрегация и простота. Человеческий мозг не может обработать миллионы сырых строк. Данные нужно сжать до ключевых показателей, трендов и выводов. Главный вопрос, на который отвечают такие данные: «Что уже произошло?»

Итог: Аналитические данные – это сжатый, отполированный и объясненный нарратив о прошлом. Они создаются после событий, чтобы дать людям ясную картину.

Мир ИИ. Данные для машин

Здесь потребитель – модель (LLM, ML-алгоритм, автономный агент). Ее задача – найти паттерны и спрогнозировать будущее. Ей не нужны дашборды, она «ест» данные напрямую. И ее требования кардинально другие:

  • Максимальный контекст. У модели нет жизненного опыта. Если вы не дадите ей фоновую информацию (что было до этого, какая была цель, какие есть ограничения), она начнет выдумывать, галлюцинировать. И будет делать это с железной уверенностью.
  • Беспощадная полнота. Модель не спросит: «А что здесь имелось в виду?». Пропущенное значение для нее – просто ноль, дыра в логике, которая ведет к ошибочному, но внешне красивому результату.
  • Семантическая насыщенность. Связи между объектами, иерархии, смыслы должны быть явно прописаны в данных. Модель не додумает, что «клиент» связан с «заказом», если эта связь не указана.
  • Актуальность до секунды. ИИ, обученный на вчерашних данных, будет жить во вчерашнем дне. В динамичной среде это мгновенно приводит к неадекватным предсказаниям.

Итог: ИИ-готовые данные – это детализированная, максимально полная «сырая» реальность со всеми её «шумами» и краевыми случаями. Главный вопрос, на который они отвечают: «Что должно произойти дальше?»

-2

Роковая ошибка — смешать два мира

Самая распространенное и дорогое заблуждение – думать, что это «более продвинутая» версия одного и того же. Команда видит чистые, проверенные данные в CRM и решает: «Отлично, давайте скормим это нашей нейросети!».

Результат предсказуем: месяцы пробуксовки, потраченные ресурсы и в лучшем случае – некачественна, нестабильная модель. Почему?

  • Аналитика сжимает, а ИИ требует расширять. Отчетные системы убирают сжимают данные, лишают их детализации. Для ИИ же именно в этом «шуме» – редких событиях и аномалиях – часто скрывается самый ценный сигнал.
  • Вы теряете смысл. Агрегируя данные для дашборда, вы стираете детали и контекст, без которых ИИ слеп. Восстановить их назад невозможно.

Проще говоря: нельзя приготовить из бульонного кубика свежие овощи. Это разные стадии обработки для разных целей.

Нельзя «апгрейдить» аналитику до ИИ. Нужно строить две параллельные, но скоординированные системы.
Нельзя «апгрейдить» аналитику до ИИ. Нужно строить две параллельные, но скоординированные системы.

Два независимых пути

  • Путь аналитики ведет к единой версии правды, управляемости, доверию и ясным бизнес-нарративам.
  • Путь ИИ ведет к богатому контексту, семантической ясности, актуальности и способности моделировать реальность.

Смешивая их, вы застреваете в одном из опасных сценариев:

  1. В отчетах все идеально, а ИИ-проекты проваливаются. Данные для людей есть, для машин — нет.
  2. Модели работают, но их выводы необъяснимы и им не доверяют. Нет связки с проверенной бизнес-логикой.

Есть и золотая середина.

Аналитика дает бизнесу стабильный ответ на вопрос «Что было?». ИИ-системы на основе полных, контекстных данных моделируют варианты «Что будет?». Они используют общие источники, но разные конвейеры обработки.

Александр Сулейкин, фаундер DUC Technologies, к.т.н., доцент НИТУ МИСиС:

«На основе практического опыта могу сказать, что действительно многие считают AI-Ready данные и данные, готовые для аналитики – это одно и то же. Однако, по факту мы имеем дело с разными слоями при построении корпоративной Data и ИИ-архитектуры, где мы имеем постепенное обогащение, очистку и агрегацию данных при движении инфопотоков от источников до построения витрин данных, а также хранение разных типов данных.
Основная рекомендация здесь – это собирать, обогащать и проверять качество данных из учетных и внешних систем компаний для дальнейшего анализа и использования в рамках построения классической аналитики и ИИ-моделей - генеративных и классических. Данные – это пища для классической аналитики, так и для ИИ-моделей.
В рамках построения единой корпоративной Data и ИИ-архитектуры можем говорить про выделения нескольких соответствующих подсистем по хранению объектных/текстовых и реляционных данных, а также проектирования ETL-процессов между подсистемами. Активное развитие GenAI моделей становится сейчас толчком для развития векторных СУБД и ETL-механизмов, которые используются для построения классических RAG-систем, и различных надстроек в виде GraphRAG и др».

Пора перестать говорить о «зрелости данных» в целом. Спросите себя:

  1. Какой вопрос мы решаем? Объяснить прошлое или спрогнозировать будущее?
  2. Кто наш потребитель? Человек, который требует ясности и агрегированных данных, или модель, которая требует контекста и истории?

Ответы определят архитектуру ваших данных, конвейеров и в конечном счете — успех или провал дорогостоящих инициатив в области искусственного интеллекта.

А как у вас? Сталкивались ли вы с проблемой, когда «хорошие» отчетные данные не работали для ИИ или наоборот? Делитесь в комментариях!