28 подписчиков

Вкалывают роботы, а не человек: когда маленькие внедрения ИИ приводят к большим проблемам

25 марта25 мар

3 мин

Сегодня кажется, что достаточно открыть сайт с нейросетью, написать вопрос и получить готовое решение. Это работает для простых задач. Но загрузить 100 000 строк отзывов и ждать чуда — это путь к «галлюцинации». Команда «Глассен-Айти» и социального монитора «СНИПР» более 10 лет занимается анализом больших данных для государства и бизнеса. Мы видим тренд: 95% запущенных проектов с ИИ оказываются неудачными, а компании не окупают вложения. Дело не в технологиях, а в подходах. Независимый аналитик запросил анализ тональности сообщений. Мы сделали выгрузку из СНИПР — 23 000 строк сообщений пользователей. Аналитик использовал инструмент Perplexity AI (подписка PRO). Результаты сравнения: Заказчик был практически потерян из-за ошибки в данных. Почему популярный инструмент дал сбой? ChatGPT, Perplexity и другие модели имеют ограниченный объем памяти. Excel на 23 000 строк не помещается целиком. Нейросеть читает файл фрагментами. В каждом кусочке теряется связь с предыдущим, создается разорван

Оглавление

Магия против Архитектуры
История из жизни: Как нейросеть «придумала» кризис
Технические ограничения: Почему ИИ ошибается

Магия против Архитектуры

Команда «Глассен-Айти» и социального монитора «СНИПР» более 10 лет занимается анализом больших данных для государства и бизнеса. Мы видим тренд: 95% запущенных проектов с ИИ оказываются неудачными, а компании не окупают вложения. Дело не в технологиях, а в подходах.

История из жизни: Как нейросеть «придумала» кризис

Независимый аналитик запросил анализ тональности сообщений. Мы сделали выгрузку из СНИПР — 23 000 строк сообщений пользователей. Аналитик использовал инструмент Perplexity AI (подписка PRO).

Результаты сравнения:

Нейросеть: 60% негативных упоминаний (вердикт: кризис).
Алгоритмизация (пересчет итогов): 16% негатива.
С учетом словаря сарказмов: 18% негатива.
Ручной анализ (с учетом подтекста и иронии): 22% негатива.

Заказчик был практически потерян из-за ошибки в данных. Почему популярный инструмент дал сбой?

Технические ограничения: Почему ИИ ошибается

Проблема №1: Контекстное окно

ChatGPT, Perplexity и другие модели имеют ограниченный объем памяти. Excel на 23 000 строк не помещается целиком. Нейросеть читает файл фрагментами. В каждом кусочке теряется связь с предыдущим, создается разорванная картина.

Пример из практики:

При анализе анкет студентов 1-го и 5-го курса модель «забывала» про 1-й курс, анализировала 5-й и выдавала «кашу» из противоречивых выводов.

В случае с 23 000 сообщений Perplexity «зацепилась» за эмоциональные слова в начале файла и перенесла агрессию на всю выборку.

Проблема №2: «Коэффициент пессимиста»

Модели обучены на интернет-текстах, где люди пишут, когда эмоциональны. Негатив — это сильный, выразительный текст. При двусмысленности ИИ чаще интерпретирует текст как негатив, чем как позитив или нейтральность.

Фраза: «Ну, это было... что-то».

Человек понимает, что ситуация обычная.

ИИ: расценивает эллипсис и субтекст как скрытое недовольство и «проблемы с тематикой».

Госсектор vs Бизнес: Разные боли

Несмотря на уникальность задач, в итоге они сводятся к одним действиям. Но цели разные:

Госсектор: Смотрит за «количественными» показателями. Любит сырые данные или готовые отчеты для оценки текущей эффективности.
Бизнес: Смотрит за «качественными» показателями (но и количественными тоже). Использует данные как драйвер для роста и развития.

В 50% случаев проблемы и нарушение сроков вызваны необходимостью переделывать работу из-за непонимания «боли» клиента.

Наш подход: Архитектура вместо магии

Большие данные требуют пайплайнов. Мы используем проверенный процесс обработки:

Предобработка. Удаление мусора, дубликатов, нормализация текста. Данные должны быть очищены.
RAG-архитектура. Контекст по запросу, а не вся база данных. Это позволяет сохранить связь между частями информации.
Верификация. ИИ дает черновик, аналитик — правку. Человек всегда должен проверять результат выборочно.

Российские vs Международные решения

Международные (ChatGPT/Perplexity): Мощный интеллект, лучшее качество генерации. Но есть гео-риски (блокировки, VPN), это дорого, медленно и есть риски нарушения 152-ФЗ (передача ПД за рубеж).
Российские (GigaChat/Yandex AI): Юридическая чистота (соблюдают 152-ФЗ), адаптация под русский язык. Но требуют архитектуры — наивный подход не работает, есть лимиты запросов.

Чек-лист: Как не бояться ИИ, а бояться халтуры

Чтобы избежать кейса с «выдуманным кризисом», соблюдайте 4 правила:

Данные очищены? Удалены мусор, дубликаты, нормализован текст.
Контекст сохранен? Связь между частями данных не утеряна (ограничивай контекст!).
Перс. данные удалены? Соблюдение 152-ФЗ, анонимизация данных.
Проверено выборочно? Аналитик верифицирует результаты ИИ.

Как итог

Использование готовых ИИ-решений или разворачивание собственных помогает сократить ресурсы на простые и рутинные задачи. Но помните: большие данные в образовании, бизнесе или госсекторе требуют архитектуры, а не магии.

Авторы:

Александр Гуков, исполнительный директор «Глассен-Айти», Социальный монитор «СНИПР»

Максим Борисенко, менеджер проектов «Глассен-Айти», Социальный монитор «СНИПР»