Anthropic представила Selective Gradient Masking: подход обучает модель «удалять» опасную информацию во время дообучения, не затрагивая сами данные. Отдельно исследователи отмечают, что даже без явной разметки LLM со временем начинает сама направлять подозрительный контент в изолированные ячейки. Почему это важно: сегодня ключевая проблема безопасности LLM — обучение на огромных массивах данных, где неизбежно присутствует потенциально опасная информация. Традиционный подход — жесткая фильтрация данных до обучения — плохо масштабируется и часто приводит к потере полезных знаний. Anthropic предлагает альтернативу: повышать безопасность уже обученных моделей, увеличивая вычислительные затраты всего на ~5%. Это позволяет снижать риски, не ухудшая качество и полноту знаний. Tencent показалa R-FEW: метод обучения, в котором модели учатся друг у друга через итеративный процесс вопросов и ответов. Challenger на каждом цикле генерирует сложные вопросы. Чтобы избежать смещения в нереалистичные и
OpenAI представила ChatGPT 5.2, а Anthropic научилась удалять опасные данные. Нейроновости недели
15 декабря 202515 дек 2025
6
2 мин