Ученые выявили главную слабость искусственного интеллекта

PNAS Nexus: GPT и Claude теряют внимание при длинных задачах почти полностью

Anggalih Prasetya/Shutterstock/FOTODOM

Международная команда исследователей протестировала ведущие языковые модели с помощью теста Струпа — классического психологического инструмента для измерения концентрации. Результаты оказались неожиданными: чем длиннее задача, тем хуже справляется ИИ — вплоть до почти полного отказа. Работа опубликована в журнале PNAS Nexus.

Тест Струпа состоит в следующем: испытуемому показывают слова-цвета, написанные цветными чернилами, и просят называть цвет чернил, игнорируя само слово. Например, слово «красный», написанное синим, требует ответа «синий». Люди справляются с этим устойчиво даже при длинных списках — мозг умеет подавлять автоматическую реакцию.

Ученые под руководством Сукету Пателя предложили этот тест GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. При коротких списках (5 слов) все системы работали хорошо. С ростом длины точность резко падала: GPT-4o при 5 словах давал 91% правильных ответов, при 10 — уже 57%, при 40 — лишь 15%. Claude 3.5 держался до 20 слов, затем рухнул до 24%.

По мнению авторов, модели «забывают» инструкцию и возвращаются к тому, чему обучены сильнее всего — читать слова. Это принципиально отличает их от людей, способных поддерживать устойчивое произвольное внимание.

Ранее ученые раскрыли секрет достижения истинной многозадачности.