Claude распознает бред в 94% случаев. GPT-5.2 поддакивает пользователю

Руководитель по ИИ в компании Arena Питер Гостев опубликовал Bullshit Benchmark — тест из 55 бессмысленных вопросов, которые звучат умно, но не имеют смысла.Хабр
Добавить в корзинуПозвонить