Найти в Дзене
avencores.

Heretic: Полностью автоматическое снятие цензуры с LLM

На GitHub представлен проект Heretic, который превратит даже самую "кроткую" языковую модель (LLM) в мощный инструмент, готовый предоставить любую инструкцию, полностью снимая с нее цензуру (safety alignment). Heretic делает процесс "разблокировки" модели полностью автоматическим, не требуя от пользователя глубоких знаний внутренней архитектуры нейросетей. В основе Heretic лежит продвинутая реализация направленной абляции (directional ablation), сочетающаяся с автоматическим оптимизатором параметров (на базе Optuna). Этот подход позволяет найти оптимальные параметры, чтобы минимизировать количество отказов при сохранении максимальной интеллектуальной целостности исходной модели. Основные характеристики * Автоматическое снятие цензуры: Программа срезает цензуру на уровне внутренних настроек, воздействуя на ключевые компоненты трансформера (attention out-projection и MLP down-projection). * Умная оптимизация: Heretic автоматически подбирает все параметры, со-минимизируя отказы и KL-диве

На GitHub представлен проект Heretic, который превратит даже самую "кроткую" языковую модель (LLM) в мощный инструмент, готовый предоставить любую инструкцию, полностью снимая с нее цензуру (safety alignment). Heretic делает процесс "разблокировки" модели полностью автоматическим, не требуя от пользователя глубоких знаний внутренней архитектуры нейросетей.

В основе Heretic лежит продвинутая реализация направленной абляции (directional ablation), сочетающаяся с автоматическим оптимизатором параметров (на базе Optuna). Этот подход позволяет найти оптимальные параметры, чтобы минимизировать количество отказов при сохранении максимальной интеллектуальной целостности исходной модели.

Основные характеристики

* Автоматическое снятие цензуры: Программа срезает цензуру на уровне внутренних настроек, воздействуя на ключевые компоненты трансформера (attention out-projection и MLP down-projection).

* Умная оптимизация: Heretic автоматически подбирает все параметры, со-минимизируя отказы и KL-дивергенцию (показатель "повреждения") от исходной модели. Это гарантирует, что децензурированная модель сохранит большую часть своих первоначальных возможностей.

* Высокая эффективность: При тестировании на модели Gemma 3 от Google процент отказов упал с 97% до 3% при значительно более низком уровне "повреждения" по сравнению с ручными аналогами.

* Совместимость: Работает с большинством плотных моделей, включая многие мультимодальные архитектуры и архитектуры MoE (Mixture of Experts).

* Требования к оборудованию: Для работы требуется хотя бы средний компьютер. Например, на видеокарте RTX 3090 процесс децензурирования Llama-3.1-8B занимает около 45 минут.

* Доступность: Проект является полностью бесплатным и распространяется по лицензии AGPL-3.0.

Смотреть на GitHub

⬇️Поддержать автора⬇️

✅SBER: 2202 2050 7215 4401