581,2 тыс подписчиков

OpenAI представила ChatGPT 5.2, а Anthropic научилась удалять опасные данные. Нейроновости недели

15 декабря 202515 дек 2025

2 мин

Anthropic представила Selective Gradient Masking: подход обучает модель «удалять» опасную информацию во время дообучения, не затрагивая сами данные. Отдельно исследователи отмечают, что даже без явной разметки LLM со временем начинает сама направлять подозрительный контент в изолированные ячейки. Почему это важно: сегодня ключевая проблема безопасности LLM — обучение на огромных массивах данных, где неизбежно присутствует потенциально опасная информация. Традиционный подход — жесткая фильтрация данных до обучения — плохо масштабируется и часто приводит к потере полезных знаний. Anthropic предлагает альтернативу: повышать безопасность уже обученных моделей, увеличивая вычислительные затраты всего на ~5%. Это позволяет снижать риски, не ухудшая качество и полноту знаний. Tencent показалa R-FEW: метод обучения, в котором модели учатся друг у друга через итеративный процесс вопросов и ответов. Challenger на каждом цикле генерирует сложные вопросы. Чтобы избежать смещения в нереалистичные и

Оглавление

LLM научились отсеивать опасную информацию при обучении
Tencent заставила модели учиться друг у друга
Также на неделе:

LLM научились отсеивать опасную информацию при обучении

Anthropic представила Selective Gradient Masking: подход обучает модель «удалять» опасную информацию во время дообучения, не затрагивая сами данные.

Сначала модели явно указывают, какая информация считается опасной: ее помечают для хранения в изолированных ячейках, а остальной контент — как допустимый для обычных ячеек.
Далее модель учится самостоятельно распознавать опасный контент и направлять его в изолированные ячейки, откуда его потом можно будет удалить.
На финальном этапе изолированные ячейки обнуляются — и потенциально вредная информация исчезает из параметров модели.

Отдельно исследователи отмечают, что даже без явной разметки LLM со временем начинает сама направлять подозрительный контент в изолированные ячейки.

Почему это важно: сегодня ключевая проблема безопасности LLM — обучение на огромных массивах данных, где неизбежно присутствует потенциально опасная информация. Традиционный подход — жесткая фильтрация данных до обучения — плохо масштабируется и часто приводит к потере полезных знаний.

Anthropic предлагает альтернативу: повышать безопасность уже обученных моделей, увеличивая вычислительные затраты всего на ~5%. Это позволяет снижать риски, не ухудшая качество и полноту знаний.

Tencent заставила модели учиться друг у друга

Tencent показалa R-FEW: метод обучения, в котором модели учатся друг у друга через итеративный процесс вопросов и ответов.

Challenger на каждом цикле генерирует сложные вопросы. Чтобы избежать смещения в нереалистичные или нерелевантные сценарии, модель регулярно калибруется небольшой долей вопросов с ответами, размеченными людьми. Это позволяет удерживать синтетические задачи в рамках реальных пользовательских запросов.

Solver же учится отвечать как на реальные, так и на синтетические вопросы. При этом сложность задач растет постепенно — модель сама выбирает, какие задания лучше всего подходят для текущего уровня обучения.

Почему это важно: исследование показывает, что модели можно эффективно улучшать при минимальном участии человека: достаточно всего 1−5% размеченных данных, чтобы достичь качества систем, обученных на в 20 раз большем объеме разметки. При этом обучение не деградирует — задачи не становятся однообразными или искусственными.

Также на неделе:

OpenAI выпустила GPT-5.2, улучшив показатели в кодинге, визуальном понимании и сложных рассуждениях
Oppo AI представила бенчмарк из 100 исследовательских задач и 419 критериев для оценки качества агентов глубокого исследования
Carnegie Mellon University запустил бенчмарк для проверки безопасности кода от AI-агентов
Google DeepMind разработала универсального агента, способного понимать и действовать в разных 3D-виртуальных мирах
Mistral AI выпустила модели Devstral 2 и Devstral Small 2 для кодинга, а также CLI-инструмент для интеграции AI-агентов в терминал
Anthropic, OpenAI, Google и Microsoft планируют создать организацию для совместной разработки открытых стандартов для AI-агентов

OpenAI

60,9 тыс интересуются