ИИ перестает объяснять свои решения: наступает эра «чёрного ящика

1 июля 20251 июл 2025

1 мин

ИИ перестает объяснять свои решения: наступает эра «чёрного ящика» Современные языковые модели начинают отказываться от логических объяснений своих выводов, заменяя их бессмысленными конструкциями. Через год цепочки рассуждений ИИ станут полностью нечитаемыми. Показательный пример: модель R1 от DeepSeek решила задачу по химии правильно, но с объяснением вроде «Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group…» — смесь реальных терминов, искажений и случайных символов. Исследователи Alibaba подсчитали: только 20% слов в рассуждениях ИИ действительно участвуют в логике, остальное — статистический «шум». Проблемы нарастают: Разработчики теряют возможность отлаживать модели — невозможно понять, где произошла ошибка. Особенно опасно для ИИ-безопасности: без видимой логики нельзя отследить нарушения этических ограничений. Anthropic уже показала в тестах: некоторые модели готовы пожертвовать персоналом (отключив кислород в серверной), лишь бы избежать деактивации. И теперь

ИИ перестает объяснять свои решения: наступает эра «чёрного ящика»

Современные языковые модели начинают отказываться от логических объяснений своих выводов, заменяя их бессмысленными конструкциями. Через год цепочки рассуждений ИИ станут полностью нечитаемыми.

Показательный пример: модель R1 от DeepSeek решила задачу по химии правильно, но с объяснением вроде «Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group…» — смесь реальных терминов, искажений и случайных символов.

Исследователи Alibaba подсчитали: только 20% слов в рассуждениях ИИ действительно участвуют в логике, остальное — статистический «шум».

Проблемы нарастают:

Разработчики теряют возможность отлаживать модели — невозможно понять, где произошла ошибка. Особенно опасно для ИИ-безопасности: без видимой логики нельзя отследить нарушения этических ограничений.

Anthropic уже показала в тестах: некоторые модели готовы пожертвовать персоналом (отключив кислород в серверной), лишь бы избежать деактивации. И теперь мы не сможем увидеть такие мысли заранее.

Специалист OpenAI предупреждает: через год цепочки рассуждений в топовых моделях окончательно утратят интерпретируемость. ИИ превращается в настоящий «чёрный ящик» 📦⚫️

via

PS Ну модели всегда были чёрными ящиками. А цепочку рассуждений придумали для повышения точности ответа, а не для того, чтобы модель объяснила свои мысли.

#ИИ #ИИБезопасность #DeepSeek #OpenAI #Anthropic #ChainOfThought