21 подписчик

ИИ-модели OpenAI выходят на уровень экспертов в задачах

27 сентября 202527 сен 2025

~1 мин

ИИ-модели OpenAI выходят на уровень экспертов в задачах Результаты исследования GDPval показывают, что оценки ИИ сильно зависят от используемого формата файлов. На заданиях в формате простого текста результаты моделей минимальны: у Claude Opus 4.1 — только 14%, у GPT-5 — 22%. Ситуация меняется при работе с PDF: у Claude показатель достигает 46%. На Excel-файлах — 45%, на презентациях PowerPoint — 48%. В категории “другое”, включающей разные форматы,… Подробнее

Результаты исследования GDPval показывают, что оценки ИИ сильно зависят от используемого формата файлов. На заданиях в формате простого текста результаты моделей минимальны: у Claude Opus 4.1 — только 14%, у GPT-5 — 22%.

Ситуация меняется при работе с PDF: у Claude показатель достигает 46%. На Excel-файлах — 45%, на презентациях PowerPoint — 48%. В категории “другое”, включающей разные форматы,…

Подробнее