Найти в Дзене

Вкалывают роботы, а не человек: когда маленькие внедрения ИИ приводят к большим проблемам

Сегодня кажется, что достаточно открыть сайт с нейросетью, написать вопрос и получить готовое решение. Это работает для простых задач. Но загрузить 100 000 строк отзывов и ждать чуда — это путь к «галлюцинации». Команда «Глассен-Айти» и социального монитора «СНИПР» более 10 лет занимается анализом больших данных для государства и бизнеса. Мы видим тренд: 95% запущенных проектов с ИИ оказываются неудачными, а компании не окупают вложения. Дело не в технологиях, а в подходах. Независимый аналитик запросил анализ тональности сообщений. Мы сделали выгрузку из СНИПР — 23 000 строк сообщений пользователей. Аналитик использовал инструмент Perplexity AI (подписка PRO). Результаты сравнения: Заказчик был практически потерян из-за ошибки в данных. Почему популярный инструмент дал сбой? ChatGPT, Perplexity и другие модели имеют ограниченный объем памяти. Excel на 23 000 строк не помещается целиком. Нейросеть читает файл фрагментами. В каждом кусочке теряется связь с предыдущим, создается разорван
Оглавление

Магия против Архитектуры

Сегодня кажется, что достаточно открыть сайт с нейросетью, написать вопрос и получить готовое решение. Это работает для простых задач. Но загрузить 100 000 строк отзывов и ждать чуда — это путь к «галлюцинации».

Команда «Глассен-Айти» и социального монитора «СНИПР» более 10 лет занимается анализом больших данных для государства и бизнеса. Мы видим тренд: 95% запущенных проектов с ИИ оказываются неудачными, а компании не окупают вложения. Дело не в технологиях, а в подходах.

История из жизни: Как нейросеть «придумала» кризис

Независимый аналитик запросил анализ тональности сообщений. Мы сделали выгрузку из СНИПР — 23 000 строк сообщений пользователей. Аналитик использовал инструмент Perplexity AI (подписка PRO).

Результаты сравнения:

  • Нейросеть: 60% негативных упоминаний (вердикт: кризис).
  • Алгоритмизация (пересчет итогов): 16% негатива.
  • С учетом словаря сарказмов: 18% негатива.
  • Ручной анализ (с учетом подтекста и иронии): 22% негатива.

Заказчик был практически потерян из-за ошибки в данных. Почему популярный инструмент дал сбой?

Технические ограничения: Почему ИИ ошибается

Проблема №1: Контекстное окно

ChatGPT, Perplexity и другие модели имеют ограниченный объем памяти. Excel на 23 000 строк не помещается целиком. Нейросеть читает файл фрагментами. В каждом кусочке теряется связь с предыдущим, создается разорванная картина.

Пример из практики:

При анализе анкет студентов 1-го и 5-го курса модель «забывала» про 1-й курс, анализировала 5-й и выдавала «кашу» из противоречивых выводов.

В случае с 23 000 сообщений Perplexity «зацепилась» за эмоциональные слова в начале файла и перенесла агрессию на всю выборку.

Проблема №2: «Коэффициент пессимиста»

Модели обучены на интернет-текстах, где люди пишут, когда эмоциональны. Негатив — это сильный, выразительный текст. При двусмысленности ИИ чаще интерпретирует текст как негатив, чем как позитив или нейтральность.

Фраза: «Ну, это было... что-то».

Человек понимает, что ситуация обычная.

ИИ: расценивает эллипсис и субтекст как скрытое недовольство и «проблемы с тематикой».

Госсектор vs Бизнес: Разные боли

Несмотря на уникальность задач, в итоге они сводятся к одним действиям. Но цели разные:

  • Госсектор: Смотрит за «количественными» показателями. Любит сырые данные или готовые отчеты для оценки текущей эффективности.
  • Бизнес: Смотрит за «качественными» показателями (но и количественными тоже). Использует данные как драйвер для роста и развития.

В 50% случаев проблемы и нарушение сроков вызваны необходимостью переделывать работу из-за непонимания «боли» клиента.

Наш подход: Архитектура вместо магии

Большие данные требуют пайплайнов. Мы используем проверенный процесс обработки:

  1. Предобработка. Удаление мусора, дубликатов, нормализация текста. Данные должны быть очищены.
  2. RAG-архитектура. Контекст по запросу, а не вся база данных. Это позволяет сохранить связь между частями информации.
  3. Верификация. ИИ дает черновик, аналитик — правку. Человек всегда должен проверять результат выборочно.

Российские vs Международные решения

  • Международные (ChatGPT/Perplexity): Мощный интеллект, лучшее качество генерации. Но есть гео-риски (блокировки, VPN), это дорого, медленно и есть риски нарушения 152-ФЗ (передача ПД за рубеж).
  • Российские (GigaChat/Yandex AI): Юридическая чистота (соблюдают 152-ФЗ), адаптация под русский язык. Но требуют архитектуры — наивный подход не работает, есть лимиты запросов.

Чек-лист: Как не бояться ИИ, а бояться халтуры

Чтобы избежать кейса с «выдуманным кризисом», соблюдайте 4 правила:

  1. Данные очищены? Удалены мусор, дубликаты, нормализован текст.
  2. Контекст сохранен? Связь между частями данных не утеряна (ограничивай контекст!).
  3. Перс. данные удалены? Соблюдение 152-ФЗ, анонимизация данных.
  4. Проверено выборочно? Аналитик верифицирует результаты ИИ.

Как итог

Использование готовых ИИ-решений или разворачивание собственных помогает сократить ресурсы на простые и рутинные задачи. Но помните: большие данные в образовании, бизнесе или госсекторе требуют архитектуры, а не магии.

Авторы:

Александр Гуков, исполнительный директор «Глассен-Айти», Социальный монитор «СНИПР»

Максим Борисенко, менеджер проектов «Глассен-Айти», Социальный монитор «СНИПР»