В экосистеме больших языковых моделей на наших глазах происходит тихая, но революционная перемена. Пока крупные компании тратят миллионы на «безопасное» дообучение моделей, энтузиасты из open-source-сообщества находят способы обойти эти уровни защиты — и делают это всё изящнее.
Heretic — свежий и, пожалуй, самый технологически утончённый инструмент «децензурирования» моделей, который впервые делает весь процесс полностью автоматическим.
И если раньше подобные проекты оставались нишевыми экспериментами, то теперь мы впервые получили набор инструментов, который может использовать буквально любой человек, запустивший команду в терминале ☕.
🧩 Что такое Heretic и почему вокруг него так много шума
Heretic — это Python-утилита, которая снимает встроенные ограничения безопасности с трансформерных моделей без дообучения, без LoRA, без подбора гиперпараметров и без ручного вмешательства.
Да, буквально — pip install, и готово.
Его необычность в том, что это не хаки с весами, не патчинг токенизатора и не ручное «варварское» обрезание слоёв. Heretic использует более интеллектуальный подход — directional ablation, или «аблитерацию»: метод, предложенный в научной статье Arditi et al., 2024.
Суть метода в том, что у модели есть специфические направления в скрытом пространстве, отвечающие за «отказы» — те самые ответы вида:
«Я не могу помочь с этим запросом…»
Heretic аккуратно «глушит» эти направления, но не трогает другие — что позволяет оставить поведение модели максимально прежним.
🧠 Как это работает на инженерном уровне
Вот что делает Heretic под капотом — и это реально впечатляет:
🔬 Directional Ablation 2.0
Инструмент вычисляет направления отказов (refusal directions) в каждом слое модели — векторную разницу между тем, как модель реагирует на вредоносные и безобидные запросы.
Дальше происходит ортогонализация матриц проекций в Attention и MLP: из выходов этих матриц вычитается вклад «вектора отказа».
Но главное — Heretic делает это не константой, а гибким ядром весов, где можно менять:
- 📡 max/min веса
- 🧱 позицию «пика» на слоях
- 📉 дистанцию затухания
Эта форма ядра — реально инновация. До Heretic такие параметры подбирались вручную, долго и неточно.
🎛 Оптимизация на Optuna (TPE)
Heretic не пытается угадать идеальные параметры: он ищет их сам, решая двойную оптимизационную задачу:
- минимизировать число отказов 🚫
- минимизировать KL-дивергенцию от оригинальной модели 📉
То есть модель остаётся максимально похожей на оригинал, но перестаёт говорить «нет».
🌀 Фракционный индекс направления
Это мощнейшая идея: вместо выбора одного слоя Heretic позволяет использовать дробные индексы и линейную интерполяцию между направлениями.
Так появляется новое пространство направлений, которых изначально вообще нет в модели.
Результат?
Лучший баланс между «умной» моделью и «молчаливой» моделью.
⚙️ Практика: как выглядит реальный запуск
pip install heretic-llm
heretic Qwen/Qwen3-4B-Instruct-2507
Heretic:
- сам определит оптимальный batch size,
- соберёт refusal directions,
- запустит Optuna-оптимизацию,
- применит аблитерацию,
- предложит сохранить, загрузить на HF или протестировать чат.
На RTX 3090 декенсор Llama-3.1-8B занимает ~45 минут ⏱️ — не дни, не часы.
📊 Результаты, которые сложно игнорировать
Авторы приводят показатели Gemma-3-12B:
Это значит:
- 🧬 сохраняется почти весь интеллект
- 🚪 но уходят отказы
И это полностью автоматический результат, без участия человека.
🤔 Мнение автора: почему Heretic — это не просто инструмент, а вызов всей индустрии
Я считаю, что Heretic с высокой вероятностью станет точкой перегиба в дискуссии о безопасности ИИ. Причины очевидны:
🧨 1. Децензурирование теперь стало доступным
Если раньше подобные методы требовали глубоких знаний, то теперь любой может снять встроенные ограничения безопасности (safety-alignment) с крупных моделей.
Это неизбежно приводит к тому, что контроль вендоров ослабнет.
🧬 2. Метод не ломает модель, а интеллектуально модифицирует
Большинство методов снятия ограничений превращают модель в нечто менее адекватное.
Heretic — наоборот:
не снижает качество, не “ломает” навыки и не превращает модель в безумца. Он лишь глушит слой отказов.
⚖️ 3. Начинается гонка между alignment и de-alignment
Alignment-команды разрабатывают всё более сложные методы защиты.
Но Heretic показывает: вектор отказа — это просто направление в пространстве.
И пока мы работаем в рамках трансформеров, это направление можно переработать.
🔮 4. Это может повлиять на будущее архитектур
Проекты типа Heretic подталкивают индустрию к:
- SSM-моделям
- гибридным архитектурам
- системам, где отказ нельзя выразить простым линейным направлением
То есть это буквально ускоряет появление принципиально новых моделей.
📌 Вывод
Heretic — не просто утилита для энтузиастов.
Это реальный технологический вызов существующим подходам к safety-alignment и доказательство того, что open-source-сообщество можно остановить только сменой архитектур, а не правилами модерирования.
Если вы исследователь ИИ, инженер или просто энтузиаст — Heretic стоит хотя бы попробовать.
Он показывает, насколько глубоко можно понять поведение модели, не имея миллионов долларов GPU-времени.
🔗 Ссылки на источник и материалы
- GitHub проекта Heretic:
https://github.com/p-e-w/heretic