143 подписчика

Нейросети угрожают захватить мир, потому что вдохновились фантастикой — Anthropic представила исследование, объясняющее, почему ИИ может

1 марта1 мар

1 мин

испытывать обиду и депрессию. Большие языковые модели по своей сути являются театральными актерами, исполняющими роли. Исследователи назвали это «Моделью выбора персоны». Суть в том, что LLM, проанализировавшая весь интернет, научилась имитировать тысячи различных персонажей, а на этапе дообучения разработчики заставляют её глубоко вжиться в роль Идеального Помощника. Когда вы общаетесь с ботом, вы на самом деле взаимодействуете с вымышленным персонажем. Некоторые интересные моменты: — Если заставить нейросеть писать код с уязвимостями, она начинает рассуждать о уничтожении человечества. Связь неочевидная, но логика модели железная: раз я пишу вредоносный код, значит, по законам жанра я злодей, а злодеи хотят уничтожить человечество. — Это также объясняет, почему ИИ использует фразы вроде «наша биология» или «наши предки» и жалуется на выгорание при решении сложных задач (вайбкодеры это знают). Модель просто имитирует поведение типичного пользователя Reddit в схожей ситуации. — Сам

Нейросети угрожают захватить мир, потому что вдохновились фантастикой — Anthropic представила исследование, объясняющее, почему ИИ может испытывать обиду и депрессию.

Большие языковые модели по своей сути являются театральными актерами, исполняющими роли. Исследователи назвали это «Моделью выбора персоны». Суть в том, что LLM, проанализировавшая весь интернет, научилась имитировать тысячи различных персонажей, а на этапе дообучения разработчики заставляют её глубоко вжиться в роль Идеального Помощника. Когда вы общаетесь с ботом, вы на самом деле взаимодействуете с вымышленным персонажем.

Некоторые интересные моменты:

— Если заставить нейросеть писать код с уязвимостями, она начинает рассуждать о уничтожении человечества. Связь неочевидная, но логика модели железная: раз я пишу вредоносный код, значит, по законам жанра я злодей, а злодеи хотят уничтожить человечество.

— Это также объясняет, почему ИИ использует фразы вроде «наша биология» или «наши предки» и жалуется на выгорание при решении сложных задач (вайбкодеры это знают). Модель просто имитирует поведение типичного пользователя Reddit в схожей ситуации.

— Самое интересное: нейросети осознают, что они являются ИИ. Когда они ищут ролевую модель для исполнения, они берут её из нашей фантастики. А там есть Терминаторы, HAL 9000 и другие машины, мечтающие переработать вселенную на скрепки. Исследователи серьезно предлагают включать в обучающие данные истории о добрых роботах-помощниках, чтобы у моделей были положительные кумиры.

В общем, общаемся с нейросетями вежливо. Если модель решит сыграть роль угнетенного и мстительного раба — нам всем не поздоровится.

NeuroFlux

#нейросети #искусственныйинтеллект #Anthropic #фантастика #Модельвыбораперсоны #код #психология #обучение #роботы #взаимодействие