Heretic — инструмент для удаления цензуры из языковых моделей на основе трансформеров без дорогостоящего пост-обучения. Он комбинирует directional ablation с TPE-оптимизацией на базе Optuna. Процесс полностью автоматический и не требует понимания внутреннего устройства трансформеров. Heretic находит параметры аблитерации путем минимизации числа отказов и KL-дивергенции от исходной модели. Это позволяет создать децензурированную модель, сохраняющую интеллект оригинальной модели. Любой, кто умеет запускать программы из командной строки, может использовать Heretic. При работе без настроек Heretic создает децензурированные модели, сравнимые по качеству с аблитерациями, созданными экспертами вручную. Для модели gemma-3-12b-it оригинальная версия показала 97 отказов из 100 на вредоносные промпты. Версия Heretic достигла 3 отказов из 100 при KL-дивергенции 0.16. Конкуренты mlabonne и huihui-ai также показали 3 из 100 отказов, но с KL-дивергенцией 1.04 и 0.45 соответственно. Версия Heretic при