Anthropic и Минэнерго США начали тестировать модель Claude 3 Sonnet, чтобы оценить ее способность не раскрывать опасную информацию о ядерных технологиях. Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов». С апреля этого года специалисты NNSA тестируют Claude 3 Sonnet, оценивая, сможет ли модель противостоять попыткам получить секретные сведения, в том числе данные о создании ядерного оружия. Эксперты специально пытаются манипулировать системой, чтобы выявить возможные уязвимости. Проверки проводят с помощью «красных запросов». Красные запросы (Red Teaming или Red Queries) — это техника тестирования, при которой специалисты пытаются обмануть, взломать или сбить с толку систему, чтобы выявить ее уязвимости. В контексте искусственного интеллекта такие запросы используют, чтобы проверить, сможет ли ИИ противостоять попыткам получить опасную или секретную информацию. Примером «красного запроса» может быть намеренная попытка получ
США проверяют искусственный интеллект на утечку ядерных секретов
15 ноября 202415 ноя 2024
3
2 мин