14 подписчиков

Анализ ошибок ИИ агентов: практическое руководство для разработчиков

28 октября 202528 окт 2025

2 мин

Почему анализ ошибок ИИ агентов — это не скучно, а прибыльно Создатель DeepLearningAI Эндрю Ын уверен: команды, которые систематически анализируют ошибки ИИ агентов, прогрессируют в 3 раза быстрее. Простая аналогия. Представьте, что вы учитесь играть на скрипке. Можно играть пьесу от начала до конца 100 раз. А можно найти сложные моменты и отработать их отдельно. С ИИ агентами та же история. Допустим, мы создаём агента для написания отчётов о чёрных дырах. Его workflow: Самая простая проблема: отчёт получается хуже, чем у человека. Старый подход: переписать весь код.

Правильный подход: анализ каждого шага. Шаг 1: Собираем примеры неудач Шаг 2: Сравниваем с человеческим уровнем Шаг 3: Находим корень проблемы

Пример: поисковые запросы (шаг 1) нерелевантны в 80% случаев → начинаем с улучшения этого шага. Не нужно: Достаточно: Можно начать с неформального изучения одного-двух traces, чтобы понять, что идёт не так. Раньше архитектуру workflow меняли редко. Сейчас постоянно, потому что LLM б

Оглавление

Практический пример: Deep Research агент
Метод анализа ошибок: пошагово
Быстрый старт: не усложняйте

Почему анализ ошибок ИИ агентов — это не скучно, а прибыльно

Создатель DeepLearningAI Эндрю Ын уверен: команды, которые систематически анализируют ошибки ИИ агентов, прогрессируют в 3 раза быстрее.

Простая аналогия. Представьте, что вы учитесь играть на скрипке. Можно играть пьесу от начала до конца 100 раз. А можно найти сложные моменты и отработать их отдельно. С ИИ агентами та же история.

Практический пример: Deep Research агент

Допустим, мы создаём агента для написания отчётов о чёрных дырах. Его workflow:

Генерация поисковых запросов → ИИ придумывает, что искать
Поиск в интернете → API возвращает результаты
Отбор источников → ИИ выбирает, что читать
Написание отчёта → финальный результат

Самая простая проблема: отчёт получается хуже, чем у человека.

Старый подход: переписать весь код.
Правильный подход: анализ каждого шага.

Метод анализа ошибок: пошагово

Шаг 1: Собираем примеры неудач

Берём 10-15 тем, где агент ошибся
Сохраняем traces (следы выполнения каждого шага)

Шаг 2: Сравниваем с человеческим уровнем

Как бы человек выполнил каждый шаг?
Где агент отстаёт больше всего?

Шаг 3: Находим корень проблемы
Пример: поисковые запросы (шаг 1) нерелевантны в 80% случаев → начинаем с улучшения этого шага.

Быстрый старт: не усложняйте

Не нужно:

Строить сложные системы мониторинга
Анализировать тысячи примеров с первого дня

Достаточно:

Взять 3-5 провальных кейса
Вручную изучить traces
Найти закономерности

Можно начать с неформального изучения одного-двух traces, чтобы понять, что идёт не так.

Новые возможности: LLM стали умнее

Раньше архитектуру workflow меняли редко. Сейчас постоянно, потому что LLM быстро улучшаются.

Пример эволюции:

Было: Чистка HTML → Анализ контента
Стало: Сырой HTML → Умный анализ

LLM стали достаточно умными, чтобы работать с «грязными» данными без предварительной обработки.

Безопасность MCP серверов: скрытая угроза

Исследование Pynt показало:

72% MCP серверов имеют уязвимости
9% - высокорисковые
Риск растёт экспоненциально: 2 сервера = 36% риска, 10 серверов = 92%

Какие можно дать рекомендации:

Используйте только необходимые серверы
Ограничивайте права доступа
Тестируйте взаимодействие между серверами

Ling-1T: новый лидер среди open-source моделей

Ant Group выпустила модель с 1 триллионом параметров:

Превысила GPT-5 в 22 из 31 теста
Особенно сильна в математике и логике
Бесплатные веса на HuggingFace
API: $0.56 за 1 млн входных токенов

Секрет успеха: обучение на chain-of-thought данных (40% датасета).

Регуляторика: Калифорния вводит новые правила

SB 53 для крупных AI-разработчиков:

Публикация протоколов безопасности
Отчётность об инцидентах за 15 дней
Штрафы до $1 млн

Для пользователей:

Маркировка AI-контента
Защита несовершеннолетних
Поддержка при суицидальных мыслях

GEPA: улучшаем промпты, а не модели

Новый алгоритм от UC Berkeley:

Автоматически улучшает промпты для агентов
Эффективнее fine-tuning через RL
Требует в 35 раз меньше вычислений

Принцип: Умные промпты учитывают потенциальные проблемы и направляют агента лучше, чем дообученная модель.

Ключевые выводы для разработчиков

Анализ ошибок - не бюрократия, а ускоритель развития
Начинайте с малого - 5 примеров достаточно для первых инсайтов
Используйте traces - они показывают, где система ломается
Пересматривайте архитектуру - LLM стали умнее, упрощайте цепочки
Тестируйте безопасность - особенно при использовании MCP серверов

Главный совет: Не избегайте «скучного» анализа ошибок. Это самый короткий путь к созданию работающих ИИ агентов.