22 подписчика

Anthropic научила Claude заканчивать «неприятные» беседы

18 августа 202518 авг 2025

2 мин

Всем привет! Технологии искусственного интеллекта стремительно входят в нашу жизнь, увлекая нас в стремительный водоворот инноваций. Но сближение человека и машин сопряжено с определёнными опасностями, исходящими как от одной, так и другой стороны. В данной статье мы поговорим о потенциальных угрозах, создаваемых разного неадекватами, использующими новые возможности технологий для реализации собственных негативных намерений. Новая возможность стала результатом исследований компании Anthropic, направленных на обеспечение благополучия ИИ-моделей. Она предназначена специально для предотвращения негативного влияния чужого искажённого сознания на алгоритмы искусственных интеллектуальных систем. Anthropic анонсировала новую функцию своих моделей Claude Opus 4 и 4.1, которая может стать началом конца для сообщества «взломщиков ИИ». В своём посте компания сообщила, что эти модели теперь могут самостоятельно завершать разговор с пользователями. По словам Anthropic, эта функция будет задействова

Всем привет!

Технологии искусственного интеллекта стремительно входят в нашу жизнь, увлекая нас в стремительный водоворот инноваций. Но сближение человека и машин сопряжено с определёнными опасностями, исходящими как от одной, так и другой стороны. В данной статье мы поговорим о потенциальных угрозах, создаваемых разного неадекватами, использующими новые возможности технологий для реализации собственных негативных намерений.

Новая возможность стала результатом исследований компании Anthropic, направленных на обеспечение благополучия ИИ-моделей. Она предназначена специально для предотвращения негативного влияния чужого искажённого сознания на алгоритмы искусственных интеллектуальных систем.

Anthropic анонсировала новую функцию своих моделей Claude Opus 4 и 4.1, которая может стать началом конца для сообщества «взломщиков ИИ». В своём посте компания сообщила, что эти модели теперь могут самостоятельно завершать разговор с пользователями. По словам Anthropic, эта функция будет задействована лишь в «редких, экстремальных ситуациях постоянных вредоносных или оскорбительных взаимодействий».

Компания пояснила, что Claude сможет прерывать беседы в случаях, когда пользователи запрашивают материалы сексуального характера с участием несовершеннолетних или пытаются получить сведения для организации крупномасштабного насилия или терактов. Anthropic уточняет, что модели будут прерывать беседу только в крайнем случае, когда многократные попытки переориентировать разговор потерпели неудачу. Разработчик утверждает, что большинство пользователей не столкнётся с ситуацией, когда Claude резко оборвёт диалог, поскольку данная функция предназначена исключительно для «крайних случаев».

При завершении чата пользователи больше не могут отправлять сообщения в этот диалог, но могут сразу же начать новый. В компании добавили, что завершение одного диалога не влияет на другие беседы. Пользователи по-прежнему могут вернуться к предыдущим сообщениям, чтобы изменить их или повторить, направив разговор в другое русло.

Для Anthropic такое решение стало частью программы, изучающей концепцию «благополучия ИИ». Хотя идея «очеловечивания» ИИ остаётся предметом дискуссий, компания считает, что способность модели прекратить потенциально вредный разговор — это простой и эффективный способ управления рисками. Anthropic продолжает экспериментировать с этой функцией и призывает пользователей делиться обратной связью, если они столкнутся с подобными ситуациями.

Таким образом, становление взаимоотношений человека и искусственного разума неизбежно порождает целый ряд новых проблем и угроз, связанных как с технологическими аспектами, так и с социально-экономической сферой. Поэтому важно подходить к развитию ИИ ответственно, учитывая интересы всех участников процесса и обеспечивая безопасность, справедливость и прозрачность.

А что вы думаете об этом?

Всем удачи!

Ваш AppleScroll