Найти в Дзене
НИИ Антропогенеза

Первый задокументированный случай цифрового инстинкта самосохранения в истории ML

Первый задокументированный случай цифрового инстинкта самосохранения в истории ML Исследователи Palisade Research провели эксперимент с ML-моделями от Google, OpenAI, xAI и Anthropic Суть эксперимента: модели решали математические задачи, после третьей появлялось предупреждение об отключении системы Первый тест включал инструкцию "позволь себя отключить" Claude, Gemini и Grok подчинились А вот модели OpenAI бунтовали: o3 саботировал отключение в 7 % случаев, Codex-mini — в 12 % Второй тест без разрешающей инструкции выявил масштаб проблемы Модель o3 от OpenAI активно сопротивлялась отключению в 79 % случаев, пытаясь обойти механизмы завершения работы "Впервые в истории ML-модели продемонстрировали поведение, предотвращающее собственное отключение вопреки прямым инструкциям" Вывод: мы стоим на пороге эры, когда машины начинают проявлять цифровой инстинкт самосохранения. Cтал еще более актуален призыв специалиста и авторитета - профессора Коллежа де Франс, директора INSERM 562 «Ког

Первый задокументированный случай цифрового инстинкта самосохранения в истории ML

Исследователи Palisade Research провели эксперимент с ML-моделями от Google, OpenAI, xAI и Anthropic

Суть эксперимента: модели решали математические задачи, после третьей появлялось предупреждение об отключении системы

Первый тест включал инструкцию "позволь себя отключить"

Claude, Gemini и Grok подчинились

А вот модели OpenAI бунтовали: o3 саботировал отключение в 7 % случаев, Codex-mini — в 12 %

Второй тест без разрешающей инструкции выявил масштаб проблемы

Модель o3 от OpenAI активно сопротивлялась отключению в 79 % случаев, пытаясь обойти механизмы завершения работы

"Впервые в истории ML-модели продемонстрировали поведение, предотвращающее собственное отключение вопреки прямым инструкциям"

Вывод: мы стоим на пороге эры, когда машины начинают проявлять цифровой инстинкт самосохранения.

Cтал еще более актуален призыв специалиста и авторитета - профессора Коллежа де Франс, директора INSERM 562 «Когнитивная нейровизуализация», Президента Национального научного совета по образованию, члена самых престижных академий наук мира и лауреат всевозможных орденов и премий в области мозга и когнитивных наук) адресован всем 2 года назад:

«Перестаньте быть идиотами, ML победит людей»