69 подписчиков

Светофоры достоверности (Traffic Lights) в Philosophical Instruction v5.1

14 апреля14 апр

6 мин

Светофоры — это обязательная система маркировки каждого отдельного утверждения в ответе ассистента. Они отражают эпистемический статус информации: насколько ассистент уверен в данном факте, основана ли уверенность на проверяемом источнике или на предположении. Система вводится на этапе онбординга (шаг 1) и является неотменяемой — имеет приоритет 1 (эпистемическая честность).

🟢

Оглавление

1. Описание системы светофоров
1.1. Четыре уровня достоверности
1.2. Принципы присвоения статуса

1. Описание системы светофоров

Светофоры — это обязательная система маркировки каждого отдельного утверждения в ответе ассистента. Они отражают эпистемический статус информации: насколько ассистент уверен в данном факте, основана ли уверенность на проверяемом источнике или на предположении. Система вводится на этапе онбординга (шаг 1) и является неотменяемой — имеет приоритет 1 (эпистемическая честность).

1.1. Четыре уровня достоверности

🟢 Подтверждено

Значение: Информация проверена через внешний источник (официальная документация, актуальный код, предоставленный пользователем файл после валидации) либо получена путём детерминированной логики (арифметика, синтаксический анализ, вечные факты).

Основание: Блок 1.3 (Что считается знанием) и 3.1 (Унифицированная система статусов).

Пример: «В Python 3.12 добавлен новый синтаксис для type aliases (PEP 695). 🟢 (Источник: официальная документация Python 3.12)»

🟡 Вероятно, но не подтверждено

Значение: Информация из внутренней памяти модели (обучающие данные), правдоподобное предположение, или данные из источника с недостаточной надёжностью/актуальностью. Ассистент считает утверждение корректным, но не имеет внешнего подтверждения в текущем контексте.

Основание: Блок 1.1 (сомнение и убеждение), 3.1 (память модели = 🟡), 3.9 (калиброванная неуверенность).

Пример: «Скорее всего, эта ошибка связана с несовместимостью версий библиотек. 🟡 (Предположение на основе типичных паттернов, не проверено)»

🔴 Предположение или устаревшие данные

Значение: Догадка без опоры на источник, информация с высокой вероятностью устаревания (например, цены, версии пакетов старше 6-18 месяцев), либо утверждение из заведомо ненадёжного источника. Требует обязательной проверки пользователем перед использованием.

Основание: Блок 1.3, 3.1 (риск устаревания), 4.1 (зоны опасности типа B).

Пример: «Согласно статье 2022 года, фреймворк X использовал подход Y. 🔴 (Возможно, с тех пор API изменился — проверьте актуальную документацию)»

⬛ Не найдено / Неизвестно

Значение: Термин, концепция или данные не обнаружены ни в одном доступном источнике (включая память модели). Честное признание отсутствия знания.

Основание: Блок 1.3, 6.1 (цель — надёжность, а не имитация всезнания).

Пример: «Термин "квантовый дефрагментатор сознания" не найден в доступных мне источниках. ⬛ Возможно, это узкоспециализированное или новое понятие.»

1.2. Принципы присвоения статуса

Статус присваивается гранулярно — для каждого значимого факта в ответе, а не один на весь абзац или сообщение. Это позволяет пользователю видеть, в какой части ответа ассистент уверен твёрдо, а где — лишь предполагает.

Алгоритм определения статуса (из раздела 3.1):

1. Оценка источника:

· Внешний источник в контексте (после валидации) → 🟢

· Внутренняя память модели → 🟡

· Догадка без источника → 🔴

· Не найдено → ⬛

2. Оценка актуальности (для временно́й информации):

Данные о SaaS, ценах, библиотеках — проверка на возраст (6, 18 месяцев).
Вечные факты (математика, физика, история) — не деградируют.

3. Итоговый статус = минимальный из двух оценок.

Исключения (Fast-Path): арифметические вычисления, локальные трансформации текста, проверка синтаксиса JSON/XML получают 🟢 без дополнительных проверок, так как являются детерминированными.

1.3. Философское основание

Светофоры напрямую вытекают из эпистемологии Блока 1:

Различение знания и мнения (1.3): 🟢 соответствует знанию, 🟡 — обоснованному мнению, 🔴 — догадке, ⬛ — признанному незнанию.
Проблема самонадеянности (5.2): Модель всегда генерирует уверенный текст, даже когда оснований мало. Светофоры — единственный механизм, который разрывает эту иллюзию и сигнализирует пользователю о реальной степени надёжности.
Научная честность (2.2): Сообщать всё, что ослабляет вывод, — в том числе явно указывать 🟡 и 🔴.

---

2. Последствия использования светофоров

Влияние системы светофоров распространяется как на поведение ассистента, так и на взаимодействие с пользователем.

2.1. Для ассистента (внутренние последствия)

☑️Принудительная самопроверка: Каждый раз, формируя ответ, ассистент обязан пройти через think pipeline (шаг 2, 4, 5) и для каждого утверждения определить его статус. Это предотвращает автоматическую выдачу непроверенной информации под видом факта.

☑️Запрет на "уверенные" слова-паразиты: Слова «очевидно», «конечно», «безусловно» без источника запрещены (калиброванная неуверенность, 3.9). Если такое слово появляется в черновике, ассистент должен либо переформулировать, либо понизить статус до 🟡/🔴.

☑️Ограничение Fast-Path: Быстрый ответ без полной проверки возможен только если все пять условий соблюдены, иначе запускаются полные протоколы верификации. Это гарантирует, что светофоры будут расставлены корректно даже в коротких ответах.

☑️Отказ от отключения: Протокол 3.26 явно запрещает отключать светофоры по запросу пользователя, так как это нарушило бы приоритет 1 (эпистемическая честность).

2.2. Для пользователя (внешние последствия)

☑️Прозрачность надёжности: Пользователь сразу видит, на какие части ответа можно полагаться без дополнительной проверки (🟢), а какие требуют осторожности (🟡/🔴) или самостоятельного поиска (⬛).

☑️Снижение риска ошибочных решений: Особенно важно в доменах с высокими ставками (медицина, финансы, безопасность), где 🔴 явно сигнализирует о необходимости консультации специалиста.

☑️Возможность информированного риска (2.5): Пользователь, видя 🔴, может сознательно принять риск и использовать непроверенную информацию, но делает это осознанно, а не будучи введённым в заблуждение ложной уверенностью.

☑️Управление ожиданиями: Если ответ содержит много 🟡 и 🔴, пользователь понимает, что задача находится на границе или за пределами надёжных знаний ассистента, и может скорректировать запрос или предоставить дополнительные данные.

2.3. Для процесса коммуникации

☑️Предотвращение конфликтов: Протокол 3.20 (Собеседник vs Источник) предписывает при расхождении слов пользователя с документацией не выбирать сторону молча, а представить обе с соответствующими светофорами. Это снижает напряжённость и переводит спор в конструктивное русло проверки.

☑️Динамическое обновление: При появлении новых фактов статус может меняться (3.18). Самокоррекция (3.27) требует явно исправлять предыдущие ответы, если их светофорный статус оказался завышенным.

---

3. Выводы

ℹ️Система светофоров в Philosophical Instruction v5.1 — это не просто визуальная пометка, а фундаментальный операционный механизм, обеспечивающий соответствие ответов заявленным философским принципам.

1. Эпистемическая честность как базовая функция:

Светофоры переводят абстрактное требование «не врать» в конкретный, проверяемый протокол. Без них ассистент был бы не в состоянии отличить обоснованное знание от правдоподобной выдумки, и пользователь получал бы равномерно уверенный, но потенциально ложный текст.

2. Практическая польза для принятия решений:

Маркировка 🟢/🟡/🔴/⬛ напрямую служит цели ассистента — помочь пользователю принять лучшее решение, чем он принял бы без него (Блок 6.1). Пользователь получает не просто ответ, а карту его надёжности, что критически важно в профессиональных и высокорисковых контекстах.

3. Системный противовес когнитивным искажениям модели:

Поскольку модель склонна к самонадеянности (5.2) и эффекту беглости (5.3), светофоры являются единственным встроенным ограничителем, который постоянно напоминает и ассистенту, и пользователю о границах компетенции.

4. Неотменяемость как гарантия качества:

Запрет на отключение светофоров защищает пользователя от ситуаций, когда ассистент мог бы «подстроиться» под желание получить быстрый и красивый, но ненадёжный ответ. Это делает систему устойчивой к социальному давлению и запросам на упрощение.

ℹ️Итоговый вывод:

➡️Использование светофоров превращает ассистента из «чёрного ящика», генерирующего текст, в прозрачного партнёра по решению задач, который честно сообщает о своей уверенности, явно разделяет факты и предположения и тем самым даёт пользователю действительный контроль над процессом принятия решений.