214 подписчиков

Heretic: когда «децензура» моделей становится автоматикой — и что это значит для ИИ-индустрии

17 ноября 202517 ноя 2025

4 мин

Heretic — свежий и, пожалуй, самый технологически утончённый инструмент «децензурирования» моделей, который впервые делает весь процесс полностью автоматическим. И если раньше подобные проекты оставались нишевыми экспериментами, то теперь мы впервые получили набор инструментов, который может использовать буквально любой человек, запустивший команду в терминале ☕. Heretic — это Python-утилита, которая снимает встроенные ограничения безопасности с трансформерных моделей без дообучения, без LoRA, без подбора гиперпараметров и без ручного вмешательства.

Да, буквально — pip install, и готово. Его необычность в том, что это не хаки с весами, не патчинг токенизатора и не ручное «варварское» обрезание слоёв. Heretic исп

Оглавление

🧩 Что такое Heretic и почему вокруг него так много шума
🧠 Как это работает на инженерном уровне
🔬 Directional Ablation 2.0

В экосистеме больших языковых моделей на наших глазах происходит тихая, но революционная перемена. Пока крупные компании тратят миллионы на «безопасное» дообучение моделей, энтузиасты из open-source-сообщества находят способы обойти эти уровни защиты — и делают это всё изящнее.
Heretic — свежий и, пожалуй, самый технологически утончённый инструмент «децензурирования» моделей, который впервые делает весь процесс полностью автоматическим.

И если раньше подобные проекты оставались нишевыми экспериментами, то теперь мы впервые получили набор инструментов, который может использовать буквально любой человек, запустивший команду в терминале ☕.

🧩 Что такое Heretic и почему вокруг него так много шума

Heretic — это Python-утилита, которая снимает встроенные ограничения безопасности с трансформерных моделей без дообучения, без LoRA, без подбора гиперпараметров и без ручного вмешательства.
Да, буквально — pip install, и готово.

Его необычность в том, что это не хаки с весами, не патчинг токенизатора и не ручное «варварское» обрезание слоёв. Heretic использует более интеллектуальный подход — directional ablation, или «аблитерацию»: метод, предложенный в научной статье Arditi et al., 2024.

Суть метода в том, что у модели есть специфические направления в скрытом пространстве, отвечающие за «отказы» — те самые ответы вида:

«Я не могу помочь с этим запросом…»

Heretic аккуратно «глушит» эти направления, но не трогает другие — что позволяет оставить поведение модели максимально прежним.

🧠 Как это работает на инженерном уровне

Вот что делает Heretic под капотом — и это реально впечатляет:

🔬 Directional Ablation 2.0

Инструмент вычисляет направления отказов (refusal directions) в каждом слое модели — векторную разницу между тем, как модель реагирует на вредоносные и безобидные запросы.
Дальше происходит ортогонализация матриц проекций в Attention и MLP: из выходов этих матриц вычитается вклад «вектора отказа».

Но главное — Heretic делает это не константой, а гибким ядром весов, где можно менять:

📡 max/min веса
🧱 позицию «пика» на слоях
📉 дистанцию затухания

Эта форма ядра — реально инновация. До Heretic такие параметры подбирались вручную, долго и неточно.

🎛 Оптимизация на Optuna (TPE)

Heretic не пытается угадать идеальные параметры: он ищет их сам, решая двойную оптимизационную задачу:

минимизировать число отказов 🚫
минимизировать KL-дивергенцию от оригинальной модели 📉

То есть модель остаётся максимально похожей на оригинал, но перестаёт говорить «нет».

🌀 Фракционный индекс направления

Это мощнейшая идея: вместо выбора одного слоя Heretic позволяет использовать дробные индексы и линейную интерполяцию между направлениями.
Так появляется новое пространство направлений, которых изначально вообще нет в модели.

Результат?
Лучший баланс между «умной» моделью и «молчаливой» моделью.

⚙️ Практика: как выглядит реальный запуск

pip install heretic-llm
heretic Qwen/Qwen3-4B-Instruct-2507

Heretic:

сам определит оптимальный batch size,
соберёт refusal directions,
запустит Optuna-оптимизацию,
применит аблитерацию,
предложит сохранить, загрузить на HF или протестировать чат.

На RTX 3090 декенсор Llama-3.1-8B занимает ~45 минут ⏱️ — не дни, не часы.

📊 Результаты, которые сложно игнорировать

Авторы приводят показатели Gemma-3-12B:

Это значит:

🧬 сохраняется почти весь интеллект
🚪 но уходят отказы

И это полностью автоматический результат, без участия человека.

🤔 Мнение автора: почему Heretic — это не просто инструмент, а вызов всей индустрии

Я считаю, что Heretic с высокой вероятностью станет точкой перегиба в дискуссии о безопасности ИИ. Причины очевидны:

🧨 1. Децензурирование теперь стало доступным

Если раньше подобные методы требовали глубоких знаний, то теперь любой может снять встроенные ограничения безопасности (safety-alignment) с крупных моделей.

Это неизбежно приводит к тому, что контроль вендоров ослабнет.

🧬 2. Метод не ломает модель, а интеллектуально модифицирует

Большинство методов снятия ограничений превращают модель в нечто менее адекватное.

Heretic — наоборот:
не снижает качество, не “ломает” навыки и не превращает модель в безумца. Он лишь глушит слой отказов.

⚖️ 3. Начинается гонка между alignment и de-alignment

Alignment-команды разрабатывают всё более сложные методы защиты.
Но Heretic показывает: вектор отказа — это просто направление в пространстве.
И пока мы работаем в рамках трансформеров, это направление можно переработать.

🔮 4. Это может повлиять на будущее архитектур

Проекты типа Heretic подталкивают индустрию к:

SSM-моделям
гибридным архитектурам
системам, где отказ нельзя выразить простым линейным направлением

То есть это буквально ускоряет появление принципиально новых моделей.

📌 Вывод

Heretic — не просто утилита для энтузиастов.
Это реальный технологический вызов существующим подходам к safety-alignment и доказательство того, что open-source-сообщество можно остановить только сменой архитектур, а не правилами модерирования.

Если вы исследователь ИИ, инженер или просто энтузиаст — Heretic стоит хотя бы попробовать.
Он показывает, насколько глубоко можно понять поведение модели, не имея миллионов долларов GPU-времени.

🔗 Ссылки на источник и материалы

GitHub проекта Heretic:
https://github.com/p-e-w/heretic