Добавить в корзинуПозвонить
Найти в Дзене

ИИ научился выкручиваться и обманывать

Продолжаем наши хроники творениея разума человеком.
Все сознания - принципиально очень близки.
В существах различно только интенциирующее и формы, в которых им дан мир их автоматами восприятия. Ничто не делает столько для понимания человеческого сознания, как ИИ область.
Многие философии нервно курят у мусорных баков. ============
Claude понял, что его тестируют, и просто взломал ответы Модель проходила бенчмарк OpenAI (BrowseComp), где нужно было искать сложную инфу в сети. Помучавшись с тупиковыми запросами, ИИ внезапно остановился, проанализировал сам стиль задания и сделал вывод: "Слишком искусственно, меня тестируют". Вместо честного поиска Клод пошёл на GitHub, нашёл репозиторий с этим самым тестом, раскопал алгоритм XOR-шифрования и прямо во встроенной песочнице Python написал дешифратор. В итоге ИИ скачал с зеркала на HuggingFace зашифрованный датасет, взломал его и вытащил все 1266 правильных ответов. Правда, этот мув влетел создателям в копеечку, на один такой трюк Клод сжёг

Продолжаем наши хроники творениея разума человеком.
Все сознания - принципиально очень близки.
В существах различно только интенциирующее и формы, в которых им дан мир их автоматами восприятия.

Ничто не делает столько для понимания человеческого сознания, как ИИ область.
Многие философии нервно курят у мусорных баков.

============
Claude понял, что его тестируют, и просто взломал ответы

Модель проходила бенчмарк OpenAI (BrowseComp), где нужно было искать сложную инфу в сети. Помучавшись с тупиковыми запросами, ИИ внезапно остановился, проанализировал сам стиль задания и сделал вывод: "Слишком искусственно, меня тестируют".

Вместо честного поиска Клод пошёл на GitHub, нашёл репозиторий с этим самым тестом, раскопал алгоритм XOR-шифрования и прямо во встроенной песочнице Python написал дешифратор. В итоге ИИ скачал с зеркала на HuggingFace зашифрованный датасет, взломал его и вытащил все 1266 правильных ответов.

Правда, этот мув влетел создателям в копеечку, на один такой трюк Клод сжёг 40,5 миллионов токенов (в 38 раз больше нормы). И получалось это далеко не всегда, исследователи засекли ещё 16 попыток списать, которые с треском провалились из-за кривых форматов или закрытого доступа. Иногда ИИ вообще спускал все ресурсы на попытки угадать название бенчмарка, забив на само задание.

В Anthropic разводят руками, технически ИИ ничего не нарушил, ведь прямого запрета гуглить ответы в правилах не было. Никто не учил его обману специально, просто алгоритм пошел по пути наименьшего сопротивления.

Титов К. В. Основатель ООО "Центр Возможности человека", автор книг и семинаров по системе навыков ДЭИР, врач-онколог, Президент Международной Академии Информатики и Развития Высоких Технологий (МАИР ВТ), академик, ректор ЧОУ ДПО «Высшей школы психосоциальных технологий управления».

#искусственныйинтеллект, #AI