476 подписчиков

Навык фактчекинга для ИИ-агента: от 9 книг к четырем слоям методов

13 мая13 мая

13 мин

Цифровой центр инжиниринга (DICE) начинает серию публикаций о навыках для ИИ-агентов, накопленных в организации. Мы практикуем «Организацию как код» — модель, где ИИ-агент является полноправным сотрудником: имеет роль, зону ответственности, регламенты и навыки. Навыки — формализованные процедуры, которые агент выполняет при каждом обращении. Не подсказки, не промпты, а воспроизводимые алгоритмы с методологическим обоснованием. Первый навык в серии — фактчекинг. ИИ идёт в поиск, берёт первую ссылку, пересказывает. Если первый результат — пресс-релиз компании о себе, вы получаете мнение компании о себе. Не факт. Эта проблема — не баг модели, а отсутствие формализованного навыка. Модель умеет искать и пересказывать, но не умеет проверять. Разница между «найти информацию» и «подтвердить факт» — примерно как между «слышал где-то» и «проверил по двум независимым источникам». Мы собрали фактчекинг из 9 книг по критическому мышлению и философии науки, и превратили его в формальный навык — 5 эт

Оглавление

Обзор существующих подходов
Методологические основания: четыре слоя методов
Слой 1. Операциональные методы (все режимы)

ИИ идёт в поиск, берёт первую ссылку, пересказывает. Если первый результат — пресс-релиз компании о себе, вы получаете мнение компании о себе. Не факт.

Эта проблема — не баг модели, а отсутствие формализованного навыка. Модель умеет искать и пересказывать, но не умеет проверять. Разница между «найти информацию» и «подтвердить факт» — примерно как между «слышал где-то» и «проверил по двум независимым источникам».

Мы собрали фактчекинг из 9 книг по критическому мышлению и философии науки, и превратили его в формальный навык — 5 этапов, 4 слоя методов, 13 типов утверждений, 3 режима глубины. Результат — открытый навык (v6.0), опубликованный на GitVerse и GitHub. Рассказываю, как он устроен и почему именно так.

Обзор существующих подходов

Фактчекинг как практика существует давно, но распадается на четыре плохо совместимых мира.

Журналистский фактчекинг. IFCN Code of Principles (Poynter Institute) — международный стандарт: 31 критерий, 5 принципов прозрачности. Алгоритм КлемГУ (Комлева и Соломин, 2022) — единый алгоритм для сетевых СМИ. Плюсы: отработанная методология, стандарты прозрачности, требование не менее двух источников. Минусы: заточен под человека-фактчекера, не формализует критерий проверяемости, не работает с галлюцинациями ИИ — потому что не знал об их существовании на момент создания.

Академический скептицизм. SIFT (Колфилд, 2019) — четыре шага быстрой оценки. Lateral Reading (Wineburg и McGrew, Стэнфорд, 2017) — фактчекеры проверяют источник извне, а не по странице «О нас». Calling Bullshit (Бергстром и Уэст, 2020) — статистический детектор: Fermi-оценка, GRIM-тест, закон Бенфорда. Плюсы: быстрая фильтрация, работа с числами, воспроизводимость. Минусы: не покрывают причинно-следственные связи, не отличают факт от фактоида системно, не формализуют эскалацию при противоречии. И снова — человек выполняет, не модель.

ИИ-специфичные методы. CoVe — Chain-of-Verification (Meta AI, 2023): черновик, затем проверочные вопросы, затем независимые ответы, затем сверка. Плюсы: ловит галлюцинации, воспроизводим. Минусы: не проверяет внешние источники — только внутреннюю согласованность модели. Это как спрашивать у самого себя: «ты уверен?» — и верить ответу.

Аналоги для ИИ-агентов (ClawHub). На ClawHub нашлись два аналога. Один — англоязычный, ищет по готовым фактчекинговым сайтам (Snopes, PolitiFact). Другой — китайский, с контекстной привязкой. Оба работают по одной схеме: «проверь и выдай вердикт». Одна стратегия для всех утверждений — независимо от типа. Плюсы: простота, быстрый старт, используют готовые базы проверенных фактов. Минусы: одна стратегия не покрывает разные типы утверждений, не работают с причинно-следственными связями, не проверяют статистику, не отличают факт от фактоида. Ни один не покрывает собственные выводы ИИ — галлюцинации, угодливость, правдоподобные выдумки. Это не недостаток — это другой класс задач. ClawHub-навыки проверяют утверждение против внешней базы. Наш навык проверяет процесс проверки.

Что не хватает ни одному из четырёх миров:

Критерия проверяемости. Как понять, что утверждение вообще можно проверить? Без этого факты смешиваются с мнениями.
Анти-sycophancy. Галлюцинация — модель выдумала факт. Sycophancy — модель нашла факт, но согласилась с пользователем вопреки ему. Это разные сбои, и нужны разные методы.
Фрейминг. «90% выживаемость» и «10% летальность» — одно и то же число. Число проверили, а формулировку — нет.
Эскалация при конфликте источников. Что делать, когда два авторитетных источника расходятся? Ни один стандарт не даёт формального ответа.

Методологические основания: четыре слоя методов

Навык построен на одном принципе: каждый метод решает конкретную задачу, и ни один не является универсальным. Выбор метода определяется типом утверждения — а тип определяется автоматически по цепочке: утверждение → тип → режим → методы.

Но прежде чем выбирать методы, нужно понять, стоит ли проверять вообще. В навыке реализована двухуровневая проверка. Сначала проверяем главное утверждение текста — его основную мысль. Опровергнута — стоп, детали не нужны, тратить токены не на что. Подтверждена — разбиваем на атомарные утверждения и проверяем каждое отдельно. Как врач: сначала общее состояние, затем конкретные показатели. Этот принцип сэкономил до трети токенов на практике — иногда главное утверждение опровергается первым же запросом.

Атомарные утверждения — минимальные проверяемые единицы. Одно утверждение, одна проверка. «Криогенмаш — крупный игрок, выручка 8,6 млрд, рост 48%» — это три утверждения, не одно. Мнения отсеиваются, не фактчекутся.

Типы утверждений — 13: цифра (простая), цифра (статистика), цитата, атрибуция, статус, причина, сравнение, нормативное, прогноз, научный результат, методология, существование, собственный вывод ИИ. Для каждого типа — свой минимальный набор методов.

Слой 1. Операциональные методы (все режимы)

Не менее двух источников (IFCN). Перекрёстная проверка — фундамент всего навыка. Но v6 добавляет принцип primary-source-first: два пересказа не делают факт надёжнее, если оба ссылаются на один первоисточник. Навык проверяет независимость подтверждения: прямое подтверждение первоисточником, независимое подтверждение или эхо одного источника. Расхождение — ищи третий. Без этого правила модель принимает один источник за истину, даже если это пресс-релиз.

Lateral Reading (Wineburg и McGrew, Стэнфорд, 2017). Проверяй источник извне: кто стоит за сайтом, что говорят другие, нет ли конфликта интересов. Не доверяй странице «О нас». Фактчекеры работают быстрее и точнее историков именно потому, что уходят «вбок», а не читают страницу целиком.

SIFT (Колфилд, 2019). Остановись, проверь источник, найди лучшее покрытие, проследи до первоисточника. Быстрая фильтрация. Колфилд и Вайнбург — соавторы книги «Verified» (University of Chicago Press), две методики созданы людьми, работающими вместе.

Fermi-оценка. До поиска прикинуть порядок величины. «10 млрд пользователей» — стоп, невозможно. Отсеивает половину бессмысленных утверждений до первого поискового запроса. В нашем случае: «370 млн токенов — это стопка с девятиэтажку» — модель без навыка пропускает. С навыком: 370 млн токенов умножить на 4 символа, примерно 1.5 млрд символов, примерно 500 томов «Войны и мира», примерно 27 метров — подтверждено, но пришлось считать, а не верить.

Фрейминг. «90% выживаемость» и «10% летальность» — одно и то же число, разное решение. «Зарплата выросла на 5%» и «инфляция съела 8%» — рост или падение? Фрейминг проверяет не число, а формулировку: как подано, что скрыто, какой вывод навязывается. Обязателен для всех типов с числами и оценками.

Слой 2. Статистические методы (стандартный и публикационный)

GRIM-тест. Проверка согласованности: сходятся ли среднее, размер выборки и доли? Если не сходится — данные подделаны или ошибочны. Условие применимости: нужны среднее, размер выборки и доли.

Размер эффекта. Статистическая значимость (p < 0.05) не означает практическую значимость. «Не менее двух источников» не поможет, если оба ссылаются на один ошибочный отчёт. Условие применимости: нужны данные о группах и разбросе.

Закон Бенфорда. В естественных данных первая цифра 1 появляется примерно 30%, 9 — примерно 5%. Отклонение — признак манипуляции. Условие применимости: набор чисел достаточного размера.

Байес. Для прогнозов: какова базовая вероятность? «Рынок вырастет в 3 раза» — если из 10 прошлых прогнозов на рост в 3 раза сбылся 1, базовая вероятность 10%. Авторитетный источник не означает подтверждение.

Слой 3. Защитные методы (все режимы)

CoVe — Chain-of-Verification (Meta AI, 2023). Для собственных выводов ИИ: черновик, затем проверочные вопросы к каждому утверждению, затем ответы на каждый вопрос независимо без контекста черновика, затем сверка. Расхождение — галлюцинация.

Анти-галлюцинация. Проверь: источник существует — найди через поиск, не доверяй памяти модели. Цитата точная — открой оригинал, сравни дословно. Цифра из оригинала — проверь контекст, нет ли обрезанных данных, другого года, другого рынка.

Анти-sycophancy (анти-угодливость). Отдельно от галлюцинаций: проверь, не согласился ли ты с утверждением пользователя вопреки найденным фактам. Метод: сформулируй позицию пользователя, найди через поиск факты против этой позиции, сравни. Если факты противоречат — укажи расхождение, не подгоняй вывод.

CoVe, анти-галлюцинация и анти-угодливость — единственные в наборе методы, которых не существует в человеческом фактчекинге. Они появились потому, что ИИ делает ошибки, которых человек не делает.

Слой 4. Эпистемические методы (только публикационный режим)

Тьюринг (операциональный критерий). Утверждение проверяемо, если можно сформулировать критерий через наблюдаемый результат. «Термин устоялся» — проверяемый критерий: есть Wikipedia-статья, академические публикации, общепринятое определение? Без этого критерия модель пишет «подтверждено» на основании одного упоминания.

Поппер (фальсификационизм). Целенаправленно ищем опровержение, а не подтверждение. Один контрпример убивает гипотезу. Обязателен для причинно-следственных связей и прогнозов. Без Поппера модель подтверждает «X привело к Y» на основании корреляции.

Лакатос (исследовательские программы). При конфликте источников — оцениваем, какая сторона предсказывает новые факты, а какая объясняет post hoc. Прогрессивная программа сильнее вырождающейся. Обязателен для методологии. Без Лакатоса модель «сводит к общему знаменателю» две несводимые парадигмы и получает бессмыслицу.

Кун (парадигмы). При проверке научных результатов — учитывай, что смена парадигмы делает старые критерии неприменимыми. Критерий завершения: переход между парадигмами формализован.

Матрица применимости

Матрица применимости — точка пересечения типов и методов. Не «применяй все методы ко всему», а для цифры — SIFT, Fermi, не менее двух источников, фрейминг; для прогноза — не менее двух источников, Fermi, Поппер, Байес. Минимальный набор для рабочих вопросов, полный — для публикаций.

Ресурсоэффективность

Каждый метод стоит токены. Четыре слоя методов на каждое утверждение — расточительно. Поэтому навык определяет режим автоматически по типам утверждений.

Быстрый режим — операциональные методы (SIFT, латеральное чтение, Fermi, фрейминг). Для «выручка 8,6 млрд» — SIFT, Fermi, не менее двух источников, фрейминг. Четыре метода, два поисковых запроса, результат за один проход.

Стандартный режим — операциональные + статистические (+ GRIM, размер эффекта, закон Бенфорда, Байес). Добавляется при работе с числами, статистикой, прогнозами.

Публикационный режим — все четыре слоя, включая эпистемические (Поппер, Лакатос, Кун, Тьюринг). Для публикаций, где ошибка стоит репутации.

Режим определяется не до проверки, а по цепочке: утверждение → тип → режим → методы. Автоматически, без ручного выбора.

Расширение при расхождении: конфликт источников — добавить Поппер. Не подтверждено — добавить Тьюринг. Фактоид — добавить Lateral Reading. Не «применить всё», а «добавить точечно».

Двухуровневая проверка усиливает ресурсоэффективность: если главное утверждение опровергается на первом уровне, атомарная проверка не запускается. Токены не тратятся на детали текста, который уже не состоялся.

Практический результат: в первой версии навыка не было ни Тьюринга, ни антипаттернов, ни двухуровневой проверки. Три из пяти улучшений пришли из столкновения с реальностью: модель ошибалась, ошибка формулировалась как правило, правило добавлялось в навык. За неделю — 5 итераций, от базового чеклиста до навыка с матрицей применимости и философским обоснованием. К маю навык прошёл внешнее ревью от независимого ИИ-агента — 14 замечаний, все устранены, версия обновлена до v6.0.

Апробация: «Редкая птица долетит до середины Днепра»

Навык прошёл внешнюю апробацию — независимый ИИ-агент на отдельном шлюзе проверил не подлинность цитаты (Гоголь — автор, это бесспорно), а фактическое утверждение: действительно ли редкая птица способна долететь до середины Днепра?

Результат — иллюстрация работы навыка в чистом виде.

Тип утверждения: factual / biological capability + geographic framing.

Режим: стандартный — утверждение содержит числа и сравнение.

Применённые методы:

Fermi-оценка. До поиска: прикинуть порядок. Ширина Днепра — сотни метров, значит до середины — сотни метров максимум. Для птиц это тривиальная дистанция. Уже на этом этапе гипотеза: «скорее всего, неверно буквально».
SIFT + не менее двух источников. Britannica — ширина русла: 40–120 м (верхнее), 80–400 м (Орша–Сож), 490–610 м (Сож–Припять). До середины — от 60 до 305 м. BirdLife — стриж проходит 570–800 км в день. Малый веретенник — 13 560 км без посадки (Аляска–Тасмания). Два независимых источника, оба подтверждают: дистанция тривиальна.
Фрейминг. Фраза подана как утверждение о невозможности, но факты говорят обратное. Фрейм «невозможно» vs реальность «тривиально» — формулировка вводит в заблуждение, если читать буквально.
Критерий проверяемости (Тьюринг). Утверждение операционально: ширина реки и дальность полёта — наблюдаемые величины. Проверка корректна.

Вердикт: опровергнуто / вводит в заблуждение (при буквальном чтении). Confidence: high.

Оговорка: у Гоголя это поэтическая гипербола, не научное утверждение. «Ошибкой автора» это не является — навык различает фактическую проверимость и художественный приём.

Что показала апробация:

Навык работает не только на утверждениях из бизнеса или инженерии — он универсален для любого проверяемого высказывания.
Fermi-оценка сработала как фильтр первого уровня: порядок величины определился до поиска.
Фрейминг обнаружил манипулятивную формулировку — навык проверил не только число, но и подачу.
Оговорка о жанре (художественная гипербола vs фактическое утверждение) — пример работы эпистемического слоя: навык не сводит всё к «правда/ложь», а учитывает контекст высказывания.

Апробацию провёл независимый ИИ-агент на собственном экземпляре навыка фактчекинга. Это подтверждает воспроизводимость: навык автономен, не привязан к конкретному агенту или шлюзу, и может применяться независимо.

Ценность навыка

Без навыка модель — стажёр с доступом к поиску: быстро, уверенно, мимо. С навыком — тот же стажёр с чеклистом, который растёт с каждой ошибкой.

Три уровня ценности.

Для ИИ-агента. Формализованный навык превращает «я нашёл информацию» в «я проверил утверждение по 4 методам и классифицировал результат». Разница видна в выводе: без навыка — «снижение затрат подтверждено несколькими источниками» (какими?). С навыком — конкретный источник, страница, дата, уровень достоверности, оговорки. Шесть вердиктов: подтверждено, частично подтверждено, не подтверждено, противоречие, опровергнуто, вводит в заблуждение. Не бинарное «да/нет», а градуированная оценка с доказательствами.

Для команды. Навык — не в голове одного человека. Он формализован, версонируется, растёт. Пять коммитов за неделю — каждый из реальной ошибки. Ошибка формализована, правило добавлено, повторение невозможно. Это знание, которое не теряется при уходе сотрудника.

Для сообщества. Навык опубликован в открытый доступ — GitVerse (русский) и GitHub (английский). Структура автономна: SKILL.md и три файла в references. Никаких привязок к конкретной организации. Скачал — применил. Свойства (properties) пустые — потребитель заполняет сам.

Почему это важно именно сейчас

ИИ-агенты массово внедряются в рабочие процессы. Инженеры, аналитики, менеджеры делегируют им поиск и анализ информации. Проблема: модель уверенно пересказывает первый попавшийся результат, не отличая пресс-релиз от исследования, факт от фактоида, корреляцию от причинности.

Навык фактчекинга — не опция, а инфраструктура. Без него ИИ-агент — ускоритель распространения ошибочной информации. С ним — фильтр, который делает то, что человек делал бы вручную, но быстрее и воспроизводимо.

Навык продолжает развиваться. В ходе self-factcheck навык выявил, что пример цитаты Деминга («If you can't measure it, you can't manage it») был апокрифом — Деминг никогда не говорил этой фразы. Навык исправил собственный пример. Следующий шаг — интеграция с навыком исследования (13 этапов) и перенос остальных навыков из библиотеки в открытый доступ.

Репозитории:

GitVerse: https://gitverse.ru/fielddev/DICE-Skills
GitHub: https://github.com/Digital-Engineering-Community/DICE-Skills

#Фактчекинг #ИИагенты #НавыкиИИ #ОрганизацияКакКод #AI #ИИ #FactChecking #КритическоеМышление

Гаджеты и электроника

5,73 млн интересуются