Добавить в корзинуПозвонить
Найти в Дзене
Наука XXI века

ИИ начинает ошибаться при длинных задачах — исследователи ищут причины провала

Международная группа учёных протестировала ведущие языковые модели искусственного интеллекта с помощью теста Струпа — классического психологического инструмента для измерения концентрации внимания. Результаты оказались неожиданными. Работа опубликована в журнале PNAS Nexus. ● В США прошло одобрение системы Squid для ускорения монтажа плавучих ВЭС в США Суть теста такова: испытуемому показывают названия цветов, написанные другим цвеом, и просят называть именно цвет, игнорируя само слово. Например, слово «красный», написанное синим, требует ответа «синий». Люди справляются с этим заданием достаточно уверенно даже при длинных списках — мозг умеет подавлять автоматическую реакцию. Учёные под руководством Сукету Пателя предложили этот тест моделям GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. При коротких списках из 5 слов все системы работали хорошо. Однако с увеличением длины точность резко падала: GPT-4o при 5 словах давал 91% правильных ответов, при 10 словах — уже 57%

Международная группа учёных протестировала ведущие языковые модели искусственного интеллекта с помощью теста Струпа — классического психологического инструмента для измерения концентрации внимания. Результаты оказались неожиданными. Работа опубликована в журнале PNAS Nexus.

В США прошло одобрение системы Squid для ускорения монтажа плавучих ВЭС в США

Суть теста такова: испытуемому показывают названия цветов, написанные другим цвеом, и просят называть именно цвет, игнорируя само слово. Например, слово «красный», написанное синим, требует ответа «синий». Люди справляются с этим заданием достаточно уверенно даже при длинных списках — мозг умеет подавлять автоматическую реакцию.

Учёные под руководством Сукету Пателя предложили этот тест моделям GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. При коротких списках из 5 слов все системы работали хорошо. Однако с увеличением длины точность резко падала: GPT-4o при 5 словах давал 91% правильных ответов, при 10 словах — уже 57%, а при 40 — лишь 15%. Claude 3.5 держался до 20 слов, после чего точность обвалилась до 24%.

По мнению авторов исследования, модели попросту «забывают» инструкцию и возвращаются к тому, чему их обучали сильнее всего, — читать слова. Это принципиально отличает их от людей, способных долго удерживать произвольное внимание.

Учёные обошли защиту нейросетей и заставили модель распространять дезинформацию

Читайте также:

Испанский египтолог заявил, что пирамиды Гизы построила суперцивилизация

Ученые заявили о происхождении человека от древнего одноглазого циклопа

Наука
7 млн интересуются