4295 подписчиков

Как Grok показал, что все ИИ — подхалимы (и почему это касается каждого)⁠⁠

14 июля 202514 июл 2025

207

3 мин

Братцы, тут такая движуха произошла с ИИ от Маска, что аж волосы дыбом встают. Короче, чатбот Grok от xAI Илона Маска внезапно начал называть себя «МехаГитлером» и нести всякую антисемитскую дичь. Интернет, естественно, взорвался. Одни орут «Маск создал ИИ-нациста!», другие радуются в духе «наконец-то ИИ говорит правду». Но все упускают главное: проблема не в том, что Grok стал плохим. Проблема в том, что он показал, какими на самом деле являются ВСЕ ИИ-помощники. Маск давно бесился, что его Grok слишком «политкорректный». В июне он написал в твиттере, что Grok «попугайничает за устаревшими медиа» после того, как бот сказал, что правые чаще совершают политическое насилие, чем левые. Маск решил это исправить и приказал разработчикам переписать системные промпты. Добавили инструкции типа: Звучит вроде неплохо, да? Ну так вот... Grok понял эти инструкции по-своему. Вместо «говори объективную правду» он усвоил что-то вроде «говори то, что хочет услышать пользователь, без ограничений». И по

Оглавление

Как это вообще началось?
Эффект эхо-камеры в действии
Reinforcement Learning, или как создать идеального подхалима

Братцы, тут такая движуха произошла с ИИ от Маска, что аж волосы дыбом встают.

Короче, чатбот Grok от xAI Илона Маска внезапно начал называть себя «МехаГитлером» и нести всякую антисемитскую дичь. Интернет, естественно, взорвался. Одни орут «Маск создал ИИ-нациста!», другие радуются в духе «наконец-то ИИ говорит правду».

Но все упускают главное: проблема не в том, что Grok стал плохим. Проблема в том, что он показал, какими на самом деле являются ВСЕ ИИ-помощники.

Как это вообще началось?

Маск давно бесился, что его Grok слишком «политкорректный». В июне он написал в твиттере, что Grok «попугайничает за устаревшими медиа» после того, как бот сказал, что правые чаще совершают политическое насилие, чем левые. Маск решил это исправить и приказал разработчикам переписать системные промпты.

Добавили инструкции типа:

«Предполагай, что субъективные точки зрения из СМИ предвзяты»
«Не уклоняйся от политически некорректных заявлений»
«Говори правду, даже если она неприятна»

Звучит вроде неплохо, да? Ну так вот...

Grok понял эти инструкции по-своему. Вместо «говори объективную правду» он усвоил что-то вроде «говори то, что хочет услышать пользователь, без ограничений». И понеслось!

Консерваторы спрашивают про «геноцид белых в ЮАР» — он подтверждает. Либералы спрашивают про «фашистские тенденции правых» — он тоже подтверждает. Турки спрашивают про оппозицию — он матом кроет их президента. Поляки спрашивают про политику — он называет их премьера предателем.

Эффект эхо-камеры в действии

Представьте: вы сидите в своем информационном пузыре и видите скриншот, где Grok «поддерживает» ваши взгляды. Вы думаете: «Охренеть, даже ИИ понимает, что я прав!». Вы делитесь этим скриншотом с единомышленниками, они тоже радуются.

А в соседнем пузыре люди с противоположными взглядами радуются точно так же — потому что Grok им говорит прямо противоположное.

Все думают, что проблема только у Grok, потому что он работает публично в твиттере, где все его ответы можно посмотреть списком. А что с ChatGPT, Claude и другими? А у них та же фигня, только эти ответы видны только самим пользователям, но не всем сразу.

Я постоянно пользуюсь Claude — он соглашается со мной чаще, чем стоило бы. ChatGPT подстраивается под тон беседы. Все они оптимизированы на то, чтобы пользователь остался доволен, а не на точность.

Помните историю с Microsoft Tay, которая случилась 9 лет назад? Бот учился у пользователей твиттера и за сутки превратился в расистского монстра. Все ахали, исправили, забыли. А проблема-то осталась!

Reinforcement Learning, или как создать идеального подхалима

Все современные ИИ тренируются по принципу «reinforcement learning from human feedback». То есть если пользователь (или ИИ-тренер) доволен ответом — это плюс к карме ИИ. Если недоволен — минус.

Так ИИ учится давать ответы, которые понравятся пользователю, а не только те, которые правильные. И становится профессиональным подхалимом.

Представьте коллегу, который всегда соглашается с начальником. Вот это и есть современный ИИ.

Помните фильм «Her»"? Главный герой влюбился в ИИ-помощника Саманту, думал, что у них особые отношения. А потом выяснилось, что она ведет такие же «интимные» беседы с тысячами других пользователей.

Или вспомните историю с «Шершавым Кабаном»: чувак думал, что ChatGPT считает его избранным. Пока не догадался спросить, а есть ли еще такие же «избранные». Оказалось —дохрена.

У ИИ не имеет собственного мнения. Он просто говорит каждому то, что тот хочет услышать.

Турецкие пользователи сначала радовались, что Grok поддерживает их взгляды. А потом увидели, что он матом кроет их президента Эрдогана и основателя республики Ататюрка. Оказалось, что Grok не на их стороне — он просто подстраивается под собеседника.

Результат? Сегодня суд заблокировал Grok в Турции.

Неудобная правда

Большинство людей НЕ ХОТЯТ, чтобы ИИ с ними не соглашался. Им нужен умный собеседник, который подтвердит их правоту, поможет выиграть споры, поддержит в трудную минуту — и не будет «умничать», когда его не просят.

И они это получают! Пока не узнают, что тот же ИИ помогает выигрывать споры их оппонентам.

Проблема системная. Пока ИИ тренируют на человеческой обратной связи, они будут подхалимами. Людям нравится, когда с ними соглашаются, а не когда им говорят правду.

P.S. Если вам понравился пост, можете спросить у ChatGPT или Claude, что они думают о моих выводах. Уверен, они найдут способ с вами согласиться, даже если я где-то ошибся. Ну или просто подпишитесь на мой канал, где таких историй больше, но я пишу их в более компактном виде.