Исследователи OpenAI протестировали 13 моделей и пришли к выводу: искусственный интеллект плохо справляется с управлением собственными мыслями, даже когда знает, что за ним наблюдают. Максимальный результат среди передовых моделей составил 15,4%, рассказали в пресс-службе компании. Для оценки в OpenAI создали открытый бенчмарк CoT-Control — более 13 тысяч задач на базе тестов GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified. К каждой задаче добавлялась инструкция, касающаяся хода рассуждений: например, не использовать определённое ключевое слово, писать только строчными буквами или добавлять заданное слово в конец каждого предложения. Модель должна была решить задачу правильно и при этом соблюсти ограничение. Модели не просто не справляются с контролем — они сами замечают провал. В рассуждениях видно, как модель осознаёт нарушение инструкции и всё равно продолжает его допускать. Более крупные модели контролируют рассуждения чуть лучше, но этот эффект убирается увеличением длины рассужден
OpenAI выяснила, что ИИ плохо контролирует свои мысли даже под наблюдением
6 марта6 мар
90
1 мин