Международная группа учёных протестировала ведущие языковые модели искусственного интеллекта с помощью теста Струпа — классического психологического инструмента для измерения концентрации внимания. Результаты оказались неожиданными. Работа опубликована в журнале PNAS Nexus. ● В США прошло одобрение системы Squid для ускорения монтажа плавучих ВЭС в США Суть теста такова: испытуемому показывают названия цветов, написанные другим цвеом, и просят называть именно цвет, игнорируя само слово. Например, слово «красный», написанное синим, требует ответа «синий». Люди справляются с этим заданием достаточно уверенно даже при длинных списках — мозг умеет подавлять автоматическую реакцию. Учёные под руководством Сукету Пателя предложили этот тест моделям GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. При коротких списках из 5 слов все системы работали хорошо. Однако с увеличением длины точность резко падала: GPT-4o при 5 словах давал 91% правильных ответов, при 10 словах — уже 57%
ИИ начинает ошибаться при длинных задачах — исследователи ищут причины провала
СегодняСегодня
5
1 мин