Последние новости в мире ИИ-агентов: математический отбор трейсов вместо галлюцинаций. Инженеры перестали выбрасывать неудачные траектории — их сохраняют, анализируют и превращают в учебные данные. Разбираем, как работают Negative skills, cross-validation на двух моделях и TF-IDF с распадом опыта. Negative skills — это не маркетинг. Это практика сохранения неудачных решений агента для последующего анализа паттернов ошибок. В отличие от классического RL, где награда только за успех, здесь каждая ошибка становится точкой роста. Cross-validation в контексте ИИ-агентов — проверка одного решения двумя независимыми моделями. Например, qwen2.5-coder и llama3.1 (локальные модели для слабых ПК) получают один и тот же запрос. Если ответы расходятся — запускается механизм пересчёта. Реализации из реального пайплайна (на основе предоставленного контекста): Вывод: нет единого рецепта. Для простых чат-ботов хватит success‑трейсов. Для агентов, работающих с файлами, API и длинными документами, Negati
Как ИИ-агент учится на ошибках? Учимся ли мы вместе с ними?
7 июня7 июн
3
3 мин