Почти каждая компания сегодня мечтает внедрить ИИ и машинное обучение. Но первые же эксперименты часто упираются в проблему: «У нас же есть все данные, почему модель выдает ерунду?». Ответ прост: данные, на которых работают ваши дашборды, бесполезны для ИИ-аналитики. Это не уровень зрелости, а разные вселенные. В этой статье – подробный гайд по тому, как устроены аналитические и AI-ready данные, и почему их нельзя смешивать.
Перед любым разговором о данных стоит задать простой вопрос: а зачем они вообще нужны? Если отбросить весь шум вокруг технологий, в аналитике суть одна: данные нужны, чтобы снижать неопределенность и помогать принимать решения. Форма этих данных полностью зависит от того, кто будет их потреблять и какое решение нужно принять. Одна и та же информация обработанная по разному может использоваться для различных целей..
Ключевой момент, который все упускают: данные, которые прекрасно работают для отчетов перед советом директоров, могут быть совершенно бесполезны для обучения нейросети. И наоборот. Путать эти два типа – дорогая ошибка в современной ИИ- и data-разработке.
Мир аналитики. Данные для людей
Здесь потребитель – человек (аналитик, руководитель, менеджер). Его задача – понять прошлое, чтобы принять решение в настоящем. Поэтому «хорошие» данные здесь выглядят так:
- Стабильность и доверие. Если метрика сегодня показывает одно, а завтра – другое без видимых причин, доверие к ней падает до нуля. Людям нужна надежная точка опоры.
- Объяснимость. Люди не верят «черным ящикам». Им нужно проследить логику: откуда взялась цифра, какие были допущения, что на нее повлияло. Без этого нет споров, обсуждений и, как итог, – решений.
- Агрегация и простота. Человеческий мозг не может обработать миллионы сырых строк. Данные нужно сжать до ключевых показателей, трендов и выводов. Главный вопрос, на который отвечают такие данные: «Что уже произошло?»
Итог: Аналитические данные – это сжатый, отполированный и объясненный нарратив о прошлом. Они создаются после событий, чтобы дать людям ясную картину.
Мир ИИ. Данные для машин
Здесь потребитель – модель (LLM, ML-алгоритм, автономный агент). Ее задача – найти паттерны и спрогнозировать будущее. Ей не нужны дашборды, она «ест» данные напрямую. И ее требования кардинально другие:
- Максимальный контекст. У модели нет жизненного опыта. Если вы не дадите ей фоновую информацию (что было до этого, какая была цель, какие есть ограничения), она начнет выдумывать, галлюцинировать. И будет делать это с железной уверенностью.
- Беспощадная полнота. Модель не спросит: «А что здесь имелось в виду?». Пропущенное значение для нее – просто ноль, дыра в логике, которая ведет к ошибочному, но внешне красивому результату.
- Семантическая насыщенность. Связи между объектами, иерархии, смыслы должны быть явно прописаны в данных. Модель не додумает, что «клиент» связан с «заказом», если эта связь не указана.
- Актуальность до секунды. ИИ, обученный на вчерашних данных, будет жить во вчерашнем дне. В динамичной среде это мгновенно приводит к неадекватным предсказаниям.
Итог: ИИ-готовые данные – это детализированная, максимально полная «сырая» реальность со всеми её «шумами» и краевыми случаями. Главный вопрос, на который они отвечают: «Что должно произойти дальше?»
Роковая ошибка — смешать два мира
Самая распространенное и дорогое заблуждение – думать, что это «более продвинутая» версия одного и того же. Команда видит чистые, проверенные данные в CRM и решает: «Отлично, давайте скормим это нашей нейросети!».
Результат предсказуем: месяцы пробуксовки, потраченные ресурсы и в лучшем случае – некачественна, нестабильная модель. Почему?
- Аналитика сжимает, а ИИ требует расширять. Отчетные системы убирают сжимают данные, лишают их детализации. Для ИИ же именно в этом «шуме» – редких событиях и аномалиях – часто скрывается самый ценный сигнал.
- Вы теряете смысл. Агрегируя данные для дашборда, вы стираете детали и контекст, без которых ИИ слеп. Восстановить их назад невозможно.
Проще говоря: нельзя приготовить из бульонного кубика свежие овощи. Это разные стадии обработки для разных целей.
Два независимых пути
- Путь аналитики ведет к единой версии правды, управляемости, доверию и ясным бизнес-нарративам.
- Путь ИИ ведет к богатому контексту, семантической ясности, актуальности и способности моделировать реальность.
Смешивая их, вы застреваете в одном из опасных сценариев:
- В отчетах все идеально, а ИИ-проекты проваливаются. Данные для людей есть, для машин — нет.
- Модели работают, но их выводы необъяснимы и им не доверяют. Нет связки с проверенной бизнес-логикой.
Есть и золотая середина.
Аналитика дает бизнесу стабильный ответ на вопрос «Что было?». ИИ-системы на основе полных, контекстных данных моделируют варианты «Что будет?». Они используют общие источники, но разные конвейеры обработки.
Александр Сулейкин, фаундер DUC Technologies, к.т.н., доцент НИТУ МИСиС:
«На основе практического опыта могу сказать, что действительно многие считают AI-Ready данные и данные, готовые для аналитики – это одно и то же. Однако, по факту мы имеем дело с разными слоями при построении корпоративной Data и ИИ-архитектуры, где мы имеем постепенное обогащение, очистку и агрегацию данных при движении инфопотоков от источников до построения витрин данных, а также хранение разных типов данных.
Основная рекомендация здесь – это собирать, обогащать и проверять качество данных из учетных и внешних систем компаний для дальнейшего анализа и использования в рамках построения классической аналитики и ИИ-моделей - генеративных и классических. Данные – это пища для классической аналитики, так и для ИИ-моделей.
В рамках построения единой корпоративной Data и ИИ-архитектуры можем говорить про выделения нескольких соответствующих подсистем по хранению объектных/текстовых и реляционных данных, а также проектирования ETL-процессов между подсистемами. Активное развитие GenAI моделей становится сейчас толчком для развития векторных СУБД и ETL-механизмов, которые используются для построения классических RAG-систем, и различных надстроек в виде GraphRAG и др».
Пора перестать говорить о «зрелости данных» в целом. Спросите себя:
- Какой вопрос мы решаем? Объяснить прошлое или спрогнозировать будущее?
- Кто наш потребитель? Человек, который требует ясности и агрегированных данных, или модель, которая требует контекста и истории?
Ответы определят архитектуру ваших данных, конвейеров и в конечном счете — успех или провал дорогостоящих инициатив в области искусственного интеллекта.
А как у вас? Сталкивались ли вы с проблемой, когда «хорошие» отчетные данные не работали для ИИ или наоборот? Делитесь в комментариях!