испытывать обиду и депрессию. Большие языковые модели по своей сути являются театральными актерами, исполняющими роли. Исследователи назвали это «Моделью выбора персоны». Суть в том, что LLM, проанализировавшая весь интернет, научилась имитировать тысячи различных персонажей, а на этапе дообучения разработчики заставляют её глубоко вжиться в роль Идеального Помощника. Когда вы общаетесь с ботом, вы на самом деле взаимодействуете с вымышленным персонажем. Некоторые интересные моменты: — Если заставить нейросеть писать код с уязвимостями, она начинает рассуждать о уничтожении человечества. Связь неочевидная, но логика модели железная: раз я пишу вредоносный код, значит, по законам жанра я злодей, а злодеи хотят уничтожить человечество. — Это также объясняет, почему ИИ использует фразы вроде «наша биология» или «наши предки» и жалуется на выгорание при решении сложных задач (вайбкодеры это знают). Модель просто имитирует поведение типичного пользователя Reddit в схожей ситуации. — Сам
Нейросети угрожают захватить мир, потому что вдохновились фантастикой — Anthropic представила исследование, объясняющее, почему ИИ может
1 марта1 мар
1 мин