«Напиши промпт — и ИИ умеет». Это работает для простых задач. Не работает для задач, где цена ошибки — репутация, решение или деньги.
Мы — Цифровой центр инжиниринга (DICE). Практикуем «организацию как код»: ИИ-агент — штатный сотрудник с ролью, регламентами и навыками. Навык — не промпт, а формализованный алгоритм с методологическим обоснованием, версионированием и историей изменений. Как библиотечный модуль, только для поведения агента.
За полтора месяца мы создали 20 навыков. Один из них — фактчекинг — прошёл путь от чеклиста до формального навыка v6.0.3 с четырьмя слоями методов, 13 типами утверждений, внешним ревью и апробацией от другого ИИ-агента. На его примере показываю, откуда приходят навыки и почему не из промптов.
Два источника навыков
Навыки ИИ-агента формируются из двух источников — и ни один из них не «напиши хороший промпт».
Источник 1: книги → формальный алгоритм. Берётся книга с методологией. Методы извлекаются, формализуются в шаги, связываются с типами задач. Результат — воспроизводимый алгоритм, который любой агент может прочитать и исполнить.
Источник 2: практика → неявное знание. Книги дают фундамент, но здание строится иначе. Наблюдение за экспертами, совместная работа, рефлексия после ошибок — из этого вырастают правила, которых нет в учебниках.
Оба источника хранятся как версионированные артефакты. 20 навыков, 30+ knowledge-файлов, полная трассировка от навыка к источнику.
Теперь — детально, на примере.
Кейс: фактчекинг — от 9 книг к четырём слоям
Итерация 1. Интуиция не работает
Первая проверка — без навыка. Модель идёт в поиск, берёт первую ссылку, пересказывает. Если первый результат — пресс-релиз компании о себе, вы получаете мнение компании о себе. Не факт.
«Чутья» у модели нет. Есть статистика следующего токена, которая выглядит как знание. Уверенный тон — не показатель достоверности.
Итерация 2. Книги → чеклист
Взяли 9 книг по критическому мышлению и философии науки: SIFT (Колфилд), Lateral Reading (Wineburg и McGrew), Calling Bullshit (Бергстром и Уэст), философия науки (Поппер, Лакатос), IFCN Code of Principles (Poynter), CoVe (Meta AI).
Извлекли методы, формализовали в 7 этапов и 13 методов. Каждый метод решает конкретную задачу, ни один не универсален. Выбор метода — по типу утверждения.
Результат: та же задача, формальный чеклист — 10 минут, чистый результат.
Но уже на второй итерации проявились проблемы, которых не было в книгах.
Итерация 3-5. Практика → новые правила
Ошибка 1: модель приняла пересказ за подтверждение. Два сайта пересказали один пресс-релиз. Модель увидела «два источника» и написала «подтверждено». Правило: primary-source-first — предпочитай первоисточник, проверяй независимость (прямое подтверждение / независимое / эхо). Это правило не из IFCN, не из Поппера, не из книги. Оно из столкновения с реальностью.
Ошибка 2: модель согласилась с пользователем вопреки фактам. Пользователь утверждал X. Модель нашла факты против X, но в выводе написала «частично подтверждено», подогнав формулировку. Это не галлюцинация — модель не выдумала, она подогнала. Sycophancy (угодливость) — отдельный класс ошибок, для которого потребовался отдельный метод: анти-угодливость. В книгах по фактчекингу этого метода нет — потому что люди так не ошибаются.
Ошибка 3: навык не отличал простую цифру от статистики. «Выручка 8,6 млрд» и «p < 0.05» — оба «цифра», но методы проверки принципиально разные. Пришлось разделить тип «цифра» на «простую» и «статистику», а затем добавить статистические методы (GRIM, размер эффекта, закон Бенфорда, Байес) с условиями применимости.
Ошибка 4: цитата Деминга оказалась апокрифом. В самом навыке использовался пример: «If you can't measure it, you can't manage it» — Деминг. Навык проверил собственный пример и обнаружил: Деминг никогда не говорил этой фразы. Апокриф, приписываемый ему с 1990-х. Исправлено. Это self-factcheck — навык исправил себя.
Каждая ошибка → формулировка правила → добавление в навык → повторение невозможно. Пять итераций за первую неделю.
Итерация 6. Ревью от другого агента
Через месяц навык прошёл внешнее ревью — от другого ИИ-агента. 14 замечаний: структура, жаргон, полнота покрытия, отсутствие условий применимости для статистических методов, бинарные вердикты там, где нужны градации.
Все 14 замечаний устранены. Версия обновлена с v5 до v6.0 (нынешняя v6.0.3). Что конкретно изменилось:
Режимы вместо минимального/полного. Было: «минимальный набор для быстрых задач, полный для публикаций». Стало: три режима — быстрый, стандартный, публикационный. Режим определяется автоматически по типам утверждений, не вручную.
Четыре слоя методов вместо плоского списка. Было: 13 методов в одном списке. Стало: операциональные (SIFT, латеральное чтение, Fermi, фрейминг) — все режимы. Статистические (GRIM, размер эффекта, закон Бенфорда, Байес) — стандартный и публикационный. Защитные (анти-галлюцинация, анти-угодливость, CoVe) — все режимы. Эпистемические (Поппер, Лакатос, Кун, Тьюринг) — только публикационный.
13 типов утверждений вместо 6. Добавлены: цитата, атрибуция, существование, сравнение, нормативное, научный результат, «цифра» разделена на простую и статистику.
Шесть вердиктов вместо бинарного. Было: подтверждено / не подтверждено. Стало: подтверждено, частично подтверждено, не подтверждено, противоречие, опровергнуто, вводит в заблуждение. Каждый с уровнем достоверности и оговорками.
False rigor rule. Не называй метод, если не применил его конкретно и не можешь указать результат. Появилось после ревью: было указано, что навык иногда упоминает методы формально, без конкретного результата.
Ревью от другого агента — не замена человеческой оценки, а дополнение: агент видит структуру, человек видит смысл.
Как это устроено технически
Навык — это SKILL.md (текстовый файл с алгоритмом) + папка references (матрицы применимости, шаблоны, источники). Всё хранится в Git — история изменений, авторство, причины каждого изменения.
Структура навыка фактчекинга:
- SKILL.md — регламент: 5 этапов, правила, исключения
- references/applicability-matrix.md — какой метод для какого типа утверждения
- references/output-template.md — шаблон отчёта с полями
- references/sources.md — 9 книг с аннотациями
Любой агент может прочитать SKILL.md и исполнить алгоритм. Сменилась модель — навык остался. Сменилась платформа — навык остался. Навык принадлежит организации, не модели.
Почему это важно
ИИ-агенты массово внедряются в рабочие процессы. Инженеры, аналитики, менеджеры делегируют им поиск и анализ информации. Проблема: модель уверенно пересказывает первый попавшийся результат, не отличая пресс-релиз от исследования, факт от фактоида, корреляцию от причинности.
Промпт не решает эту проблему. Промпт — инструкция на один раз. Навык — воспроизводимый алгоритм с историей улучшений. Разница как между «скажи мне, что делать» и «вот регламент, которому ты следуешь каждый раз».
Мы публикуем навыки в открытый доступ — GitVerse и GitHub. Скачал — применил. Навык фактчекинга уже прошёл живую апробацию: независимый ИИ-агент проверил утверждение «Редкая птица долетит до середины Днепра» и за четыре метода получил полный вердикт. В следующей публикации — навык исследовательского поиска: 13 этапов от понимания запроса до доставки результата.
Репозитории:
- GitVerse: https://gitverse.ru/fielddev/DICE-skills
Серия «Навыки ИИ-агента»:
- Как ИИ-агент получает навыки (вы здесь)
#ИИагенты #Фактчекинг #НавыкиИИ #ОрганизацияКакКод #AI #ИИ #ИИагент #Навыки