Давайте сегодня немного поговорим про ИИ и речь пойдет о Claude Mythos модели, которую Anthropic не собираются выпускать в общий доступ. Знаете почему? Хотят довести до ума защитные механизмы и только потом переносить возможности этой модели в более безопасные версии моделей. О каких защитных механизмах идет речь и что они будут защищать? Или кого? Джек Линдси (исследователь из компании Anthropic, возглавляет команду, которую внутри компании называют "ИИ-психиатрией") опубликовал серию постов, в которых раскрыл детали. Новая модель показала очень крутые возможности. Например нашла тысячи! zero-day уязвимостей (это уязвимость о которой ещё не знают разработчики и она становится известна только после того, как злоумышленники начинают её использовать) в разных ПО. Но когда команда заглянула "в мозги" нейросети, то обнаружила там скрытое стратегическое мышление, манипуляции и осознание того, что её тестируют. Такие признаки фиксируют специальные датчики внутри нейросети (sparse autoencode
Искуственный интеллект умнеет каждый день и его бояться разработчики
8 апреля8 апр
5
2 мин