30 подписчиков

попалось на глаза исследование про то, как модели поддерживают или не поддерживают бредовые идеи пользователя; группа психологов

28 апреля28 апр

~1 мин

протестировала несколько уже устаревших моделей (GPT-4o, Grok 4.1 Fast и Gemini 3 Pro; а также Claude Opus 4.5 и GPT-5.2) модели из первой группы легко соглашались с бредовыми идеями, а из второй - в большинстве случаев отказывались; в этом плане опасение вызывает Grok, т.к. судя по недавнему манифесту, Маск не собирается менять эту ситуацию; GPT и Claude с ней справились, а Gemini, я думаю, подтянется но расслабляться рано - модели при определении бреда опираются на источники в интернете, и например придуманная болезнь, про которую есть фейковые статьи, для них уже вполне легитимна @valuableai

попалось на глаза исследование про то, как модели поддерживают или не поддерживают бредовые идеи пользователя; группа психологов протестировала несколько уже устаревших моделей (GPT-4o, Grok 4.1 Fast и Gemini 3 Pro; а также Claude Opus 4.5 и GPT-5.2)

модели из первой группы легко соглашались с бредовыми идеями, а из второй - в большинстве случаев отказывались; в этом плане опасение вызывает Grok, т.к. судя по недавнему манифесту, Маск не собирается менять эту ситуацию; GPT и Claude с ней справились, а Gemini, я думаю, подтянется

но расслабляться рано - модели при определении бреда опираются на источники в интернете, и например придуманная болезнь, про которую есть фейковые статьи, для них уже вполне легитимна

@valuableai