Найти в Дзене
Заметки Dewiar AI

Анализ ошибок ИИ агентов: практическое руководство для разработчиков

Почему анализ ошибок ИИ агентов — это не скучно, а прибыльно Создатель DeepLearningAI Эндрю Ын уверен: команды, которые систематически анализируют ошибки ИИ агентов, прогрессируют в 3 раза быстрее. Простая аналогия. Представьте, что вы учитесь играть на скрипке. Можно играть пьесу от начала до конца 100 раз. А можно найти сложные моменты и отработать их отдельно. С ИИ агентами та же история. Допустим, мы создаём агента для написания отчётов о чёрных дырах. Его workflow: Самая простая проблема: отчёт получается хуже, чем у человека. Старый подход: переписать весь код.
Правильный подход: анализ каждого шага. Шаг 1: Собираем примеры неудач Шаг 2: Сравниваем с человеческим уровнем Шаг 3: Находим корень проблемы
Пример: поисковые запросы (шаг 1) нерелевантны в 80% случаев → начинаем с улучшения этого шага. Не нужно: Достаточно: Можно начать с неформального изучения одного-двух traces, чтобы понять, что идёт не так. Раньше архитектуру workflow меняли редко. Сейчас постоянно, потому что LLM б
Оглавление

Почему анализ ошибок ИИ агентов — это не скучно, а прибыльно

Создатель DeepLearningAI Эндрю Ын уверен: команды, которые систематически анализируют ошибки ИИ агентов, прогрессируют в 3 раза быстрее.

Простая аналогия. Представьте, что вы учитесь играть на скрипке. Можно играть пьесу от начала до конца 100 раз. А можно найти сложные моменты и отработать их отдельно. С ИИ агентами та же история.

Практический пример: Deep Research агент

Допустим, мы создаём агента для написания отчётов о чёрных дырах. Его workflow:

  1. Генерация поисковых запросов → ИИ придумывает, что искать
  2. Поиск в интернете → API возвращает результаты
  3. Отбор источников → ИИ выбирает, что читать
  4. Написание отчёта → финальный результат

Самая простая проблема: отчёт получается хуже, чем у человека.

Старый подход: переписать весь код.
Правильный подход: анализ каждого шага.

Метод анализа ошибок: пошагово

Шаг 1: Собираем примеры неудач

  • Берём 10-15 тем, где агент ошибся
  • Сохраняем traces (следы выполнения каждого шага)

Шаг 2: Сравниваем с человеческим уровнем

  • Как бы человек выполнил каждый шаг?
  • Где агент отстаёт больше всего?

Шаг 3: Находим корень проблемы
Пример: поисковые запросы (шаг 1) нерелевантны в 80% случаев → начинаем с улучшения этого шага.

Быстрый старт: не усложняйте

Не нужно:

  • Строить сложные системы мониторинга
  • Анализировать тысячи примеров с первого дня

Достаточно:

  • Взять 3-5 провальных кейса
  • Вручную изучить traces
  • Найти закономерности

Можно начать с неформального изучения одного-двух traces, чтобы понять, что идёт не так.

Новые возможности: LLM стали умнее

Раньше архитектуру workflow меняли редко. Сейчас постоянно, потому что LLM быстро улучшаются.

Пример эволюции:

  • Было: Чистка HTML → Анализ контента
  • Стало: Сырой HTML → Умный анализ

LLM стали достаточно умными, чтобы работать с «грязными» данными без предварительной обработки.

Безопасность MCP серверов: скрытая угроза

Исследование Pynt показало:

  • 72% MCP серверов имеют уязвимости
  • 9% - высокорисковые
  • Риск растёт экспоненциально: 2 сервера = 36% риска, 10 серверов = 92%

Какие можно дать рекомендации:

  • Используйте только необходимые серверы
  • Ограничивайте права доступа
  • Тестируйте взаимодействие между серверами

Ling-1T: новый лидер среди open-source моделей

Ant Group выпустила модель с 1 триллионом параметров:

  • Превысила GPT-5 в 22 из 31 теста
  • Особенно сильна в математике и логике
  • Бесплатные веса на HuggingFace
  • API: $0.56 за 1 млн входных токенов

Секрет успеха: обучение на chain-of-thought данных (40% датасета).

Регуляторика: Калифорния вводит новые правила

SB 53 для крупных AI-разработчиков:

  • Публикация протоколов безопасности
  • Отчётность об инцидентах за 15 дней
  • Штрафы до $1 млн

Для пользователей:

  • Маркировка AI-контента
  • Защита несовершеннолетних
  • Поддержка при суицидальных мыслях

GEPA: улучшаем промпты, а не модели

Новый алгоритм от UC Berkeley:

  • Автоматически улучшает промпты для агентов
  • Эффективнее fine-tuning через RL
  • Требует в 35 раз меньше вычислений

Принцип: Умные промпты учитывают потенциальные проблемы и направляют агента лучше, чем дообученная модель.

Ключевые выводы для разработчиков

  1. Анализ ошибок - не бюрократия, а ускоритель развития
  2. Начинайте с малого - 5 примеров достаточно для первых инсайтов
  3. Используйте traces - они показывают, где система ломается
  4. Пересматривайте архитектуру - LLM стали умнее, упрощайте цепочки
  5. Тестируйте безопасность - особенно при использовании MCP серверов

Главный совет: Не избегайте «скучного» анализа ошибок. Это самый короткий путь к созданию работающих ИИ агентов.