9946 подписчиков

Anthropic внедрила функцию завершения диалога в моделях Claude Opus для предотвращения опасных запросов

18 августа 202518 авг 2025

1 мин

Компания Anthropic представила новую функцию в своих моделях искусственного интеллекта Claude Opus 4 и 4.1, позволяющую автоматически завершать диалог в редких случаях, связанных с опасными или деструктивными запросами. Это нововведение связано с исследованием в области «благополучия ИИ» и направлено на предотвращение разрушительных сценариев общения. По информации от Anthropic, функция активируется исключительно в «крайних случаях», когда пользователь настаивает на выполнении запретов. К таким ситуациям относятся запросы сексуального характера с участием несовершеннолетних или попытки получить информацию, способную привести к насилию или другим угрозам. Компания подчеркнула, что завершение общения — это «последняя мера», применяемая после нескольких безуспешных попыток модели перенаправить беседу в более безопасное русло. В обычных обстоятельствах, даже обсуждая чувствительные темы, пользователи не столкнутся с неожиданным завершением чата. Если функция срабатывает, пользователь теряе

По информации от Anthropic, функция активируется исключительно в «крайних случаях», когда пользователь настаивает на выполнении запретов. К таким ситуациям относятся запросы сексуального характера с участием несовершеннолетних или попытки получить информацию, способную привести к насилию или другим угрозам.

Компания подчеркнула, что завершение общения — это «последняя мера», применяемая после нескольких безуспешных попыток модели перенаправить беседу в более безопасное русло. В обычных обстоятельствах, даже обсуждая чувствительные темы, пользователи не столкнутся с неожиданным завершением чата.

Если функция срабатывает, пользователь теряет возможность продолжать текущий диалог, но может открыть новый чат и переформулировать свои вопросы, чтобы начать разговор в другом направлении. Anthropic уверяет, что нововведение не будет ограничивать дальнейшее использование моделей и не повлияет на остальные взаимодействия.

Это решение связано с экспериментальной программой по изучению концепции «AI welfare», предполагающей заботу о состоянии искусственного интеллекта в сложных сценариях. Anthropic называет новый механизм «малозатратным способом снизить риски для ИИ» и продолжает собирать обратную связь от пользователей, которые сталкиваются с данной функцией.

]]>