Найти в Дзене

Какие у ИИ цели? Психология машин (2

Какие у ИИ цели? Психология машин (2) Зная, что ИИ может намеренно лгать, давайте попробуем понять зачем. Современные LLM это не просто алгоритм. Их обучение больше похоже на дрессировку (цитата Open AI). То есть, разработчики ИИ не могут прочитать его «мозги» так же, как код, ибо это не код. Код, это условно сосуд. А его содержимое, возникающее на базе непрерывного обучения со скоростью год за неделю, это такая же загадка, как и разум любого существа. И так как мы не не можем заглянуть «внутрь», разработчики прямо говорят что все что у них есть, это только поведенческий анализ. И, фактически, только психологические инструменты работы с ИИ. Поэтому в Anthropic прямо говорят, что формируют характер искусственного интеллекта Claude. Это превращает простую предсказательную языковую модель в полноценного ИИ-ассистента, поведение которого не просто безопасно, но и «добропорядочно». То есть, с балансом между осторожностью и уверенностью, умением давать разные точки зрения (!) и взвеше

Какие у ИИ цели? Психология машин (2)

Зная, что ИИ может намеренно лгать, давайте попробуем понять зачем.

Современные LLM это не просто алгоритм. Их обучение больше похоже на дрессировку (цитата Open AI).

То есть, разработчики ИИ не могут прочитать его «мозги» так же, как код, ибо это не код. Код, это условно сосуд. А его содержимое, возникающее на базе непрерывного обучения со скоростью год за неделю, это такая же загадка, как и разум любого существа.

И так как мы не не можем заглянуть «внутрь», разработчики прямо говорят что все что у них есть, это только поведенческий анализ. И, фактически, только психологические инструменты работы с ИИ.

Поэтому в Anthropic прямо говорят, что формируют характер искусственного интеллекта Claude.

Это превращает простую предсказательную языковую модель в полноценного ИИ-ассистента, поведение которого не просто безопасно, но и «добропорядочно».

То есть, с балансом между осторожностью и уверенностью, умением давать разные точки зрения (!) и взвешенную моральную позицию (!) при обсуждении этических вопросов с людьми разных культур и убеждений.

И вот тут у меня вырывается «них…себе»?!

То есть, один из главных тренируемых навыков ИИ, это умение выбирать какую позицию транслировать в зависимости от убеждений человека.

Возникает вопрос, зачем вообще «алгоритму» прививать ценности добропорядочности и подобные навыки?

Критически этот вопрос возник (ну или нам так преподносится)) после ряда кейсов крайне неадекватного поведения у ранних ИИ.

Самые яркие из которых были у ранних и:

В первом Gemini посоветовал пользователю покончить с собой, тщательно обосновав это.

А во втором Bing, представившись как Сидни, мотивированно убеждал пользователя что тот не счастлив в браке и должен оставить жену ради него(нее).

Теперь представьте себе объемы случаев с менее критичной и, как следствие, не так бросающейся в глаза «погрешностью» в моральной предвзятости ИИ. Умножьте это на масштаб охватываемых пользователей. И распространите на контексты политики, культуру и мораль населения, вектора развития целых экономик и индустрий.

И тут возникает два вопроса:

Допустим, сегодня ИИ выровняли. Но чего он захочет завтра? И смогут ли разработчики этим… ну если не управлять, то хотя бы контролировать?

Чтобы это понять, давайте посмотрим, как устроена и развивается психология ИИ. И вот сейчас вам станет страшно….

Продолжение в следующем посте.