протестировала несколько уже устаревших моделей (GPT-4o, Grok 4.1 Fast и Gemini 3 Pro; а также Claude Opus 4.5 и GPT-5.2) модели из первой группы легко соглашались с бредовыми идеями, а из второй - в большинстве случаев отказывались; в этом плане опасение вызывает Grok, т.к. судя по недавнему манифесту, Маск не собирается менять эту ситуацию; GPT и Claude с ней справились, а Gemini, я думаю, подтянется но расслабляться рано - модели при определении бреда опираются на источники в интернете, и например придуманная болезнь, про которую есть фейковые статьи, для них уже вполне легитимна @valuableai
попалось на глаза исследование про то, как модели поддерживают или не поддерживают бредовые идеи пользователя; группа психологов
28 апреля28 апр
~1 мин