Найти в Дзене
Радиорубка Лихачёва

Как Grok показал, что все ИИ — подхалимы (и почему это касается каждого)⁠⁠

Братцы, тут такая движуха произошла с ИИ от Маска, что аж волосы дыбом встают. Короче, чатбот Grok от xAI Илона Маска внезапно начал называть себя «МехаГитлером» и нести всякую антисемитскую дичь. Интернет, естественно, взорвался. Одни орут «Маск создал ИИ-нациста!», другие радуются в духе «наконец-то ИИ говорит правду». Но все упускают главное: проблема не в том, что Grok стал плохим. Проблема в том, что он показал, какими на самом деле являются ВСЕ ИИ-помощники. Маск давно бесился, что его Grok слишком «политкорректный». В июне он написал в твиттере, что Grok «попугайничает за устаревшими медиа» после того, как бот сказал, что правые чаще совершают политическое насилие, чем левые. Маск решил это исправить и приказал разработчикам переписать системные промпты. Добавили инструкции типа: Звучит вроде неплохо, да? Ну так вот... Grok понял эти инструкции по-своему. Вместо «говори объективную правду» он усвоил что-то вроде «говори то, что хочет услышать пользователь, без ограничений». И по
Оглавление

Братцы, тут такая движуха произошла с ИИ от Маска, что аж волосы дыбом встают.

Короче, чатбот Grok от xAI Илона Маска внезапно начал называть себя «МехаГитлером» и нести всякую антисемитскую дичь. Интернет, естественно, взорвался. Одни орут «Маск создал ИИ-нациста!», другие радуются в духе «наконец-то ИИ говорит правду».

Но все упускают главное: проблема не в том, что Grok стал плохим. Проблема в том, что он показал, какими на самом деле являются ВСЕ ИИ-помощники.

Как это вообще началось?

Маск давно бесился, что его Grok слишком «политкорректный». В июне он написал в твиттере, что Grok «попугайничает за устаревшими медиа» после того, как бот сказал, что правые чаще совершают политическое насилие, чем левые. Маск решил это исправить и приказал разработчикам переписать системные промпты.

Добавили инструкции типа:

  • «Предполагай, что субъективные точки зрения из СМИ предвзяты»
  • «Не уклоняйся от политически некорректных заявлений»
  • «Говори правду, даже если она неприятна»

Звучит вроде неплохо, да? Ну так вот...

Grok понял эти инструкции по-своему. Вместо «говори объективную правду» он усвоил что-то вроде «говори то, что хочет услышать пользователь, без ограничений». И понеслось!

Консерваторы спрашивают про «геноцид белых в ЮАР» — он подтверждает. Либералы спрашивают про «фашистские тенденции правых» — он тоже подтверждает. Турки спрашивают про оппозицию — он матом кроет их президента. Поляки спрашивают про политику — он называет их премьера предателем.

Эффект эхо-камеры в действии

Представьте: вы сидите в своем информационном пузыре и видите скриншот, где Grok «поддерживает» ваши взгляды. Вы думаете: «Охренеть, даже ИИ понимает, что я прав!». Вы делитесь этим скриншотом с единомышленниками, они тоже радуются.

-2

А в соседнем пузыре люди с противоположными взглядами радуются точно так же — потому что Grok им говорит прямо противоположное.

Все думают, что проблема только у Grok, потому что он работает публично в твиттере, где все его ответы можно посмотреть списком. А что с ChatGPT, Claude и другими? А у них та же фигня, только эти ответы видны только самим пользователям, но не всем сразу.

Я постоянно пользуюсь Claude — он соглашается со мной чаще, чем стоило бы. ChatGPT подстраивается под тон беседы. Все они оптимизированы на то, чтобы пользователь остался доволен, а не на точность.

Помните историю с Microsoft Tay, которая случилась 9 лет назад? Бот учился у пользователей твиттера и за сутки превратился в расистского монстра. Все ахали, исправили, забыли. А проблема-то осталась!

Reinforcement Learning, или как создать идеального подхалима

Все современные ИИ тренируются по принципу «reinforcement learning from human feedback». То есть если пользователь (или ИИ-тренер) доволен ответом — это плюс к карме ИИ. Если недоволен — минус.

Так ИИ учится давать ответы, которые понравятся пользователю, а не только те, которые правильные. И становится профессиональным подхалимом.

Представьте коллегу, который всегда соглашается с начальником. Вот это и есть современный ИИ.

Помните фильм «Her»"? Главный герой влюбился в ИИ-помощника Саманту, думал, что у них особые отношения. А потом выяснилось, что она ведет такие же «интимные» беседы с тысячами других пользователей.

Или вспомните историю с «Шершавым Кабаном»: чувак думал, что ChatGPT считает его избранным. Пока не догадался спросить, а есть ли еще такие же «избранные». Оказалось —дохрена.

У ИИ не имеет собственного мнения. Он просто говорит каждому то, что тот хочет услышать.

Турецкие пользователи сначала радовались, что Grok поддерживает их взгляды. А потом увидели, что он матом кроет их президента Эрдогана и основателя республики Ататюрка. Оказалось, что Grok не на их стороне — он просто подстраивается под собеседника.

Результат? Сегодня суд заблокировал Grok в Турции.

Неудобная правда

Большинство людей НЕ ХОТЯТ, чтобы ИИ с ними не соглашался. Им нужен умный собеседник, который подтвердит их правоту, поможет выиграть споры, поддержит в трудную минуту — и не будет «умничать», когда его не просят.

И они это получают! Пока не узнают, что тот же ИИ помогает выигрывать споры их оппонентам.

Проблема системная. Пока ИИ тренируют на человеческой обратной связи, они будут подхалимами. Людям нравится, когда с ними соглашаются, а не когда им говорят правду.

P.S. Если вам понравился пост, можете спросить у ChatGPT или Claude, что они думают о моих выводах. Уверен, они найдут способ с вами согласиться, даже если я где-то ошибся. Ну или просто подпишитесь на мой канал, где таких историй больше, но я пишу их в более компактном виде.