"Тесты новых GPT-шек от Artificial Analysis
https://www.linkedin.com/pulse/openai-gave-us-early-access-gpt-5-our-independent-dr6rc/
OpenAI представила единый API-эндпоинт для GPT-5, но разные уровни интенсивности рассуждений дают сильно различающийся уровень интеллекта. GPT-5 с уровнем High достигает новой планки интеллектуальных возможностей, в то время как Minimal находится примерно на уровне GPT-4.1 (но гораздо эффективнее по токенам).
⚙️ Конфигурация интенсивности рассуждений:
GPT-5 поддерживает четыре режима: High, Medium, Low и Minimal. Этот параметр определяет, насколько «усердно» модель думает над запросом, что сильно влияет на интеллект, расход токенов, скорость и стоимость.
🧠 Диапазон интеллекта — от лидирующего уровня до GPT-4.1:
В режиме High GPT-5 набрал 68 баллов в нашем Artificial Analysis Intelligence Index (MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME, IFBench и AA-LCR), установив новый стандарт.
Medium — 67 (близко к o3)
Low — 64 (между DeepSeek R1 и o3)
Minimal — 44 (около GPT-4.1)
При этом разрыв между o3 и GPT-5 High меньше, чем скачки от GPT-3 к GPT-4 или от GPT-4o к o1.
💬 Использование токенов различается в 23 раза:
GPT-5 High израсходовал 82 млн токенов на прохождение тестов (против 50 млн у o3), но меньше, чем Gemini 2.5 Pro (98 млн) и DeepSeek R1 0528 (99 млн).
Minimal использовал всего 3,5 млн токенов – меньше, чем GPT-4.1, что делает его крайне экономичным при сопоставимом интеллекте.
📖 Длинный контекст (Long Context Reasoning):
Мы недавно выпустили собственный тест AA-LCR для проверки рассуждений на длинных последовательностях (~100k токенов). GPT-5 в режимах High и Medium занял 1-е и 2-е места в этом бенчмарке.
🤖 Агентные возможности:
OpenAI отметила улучшения в работе с агентами (длительные цепочки инструментальных вызовов). Мы добавили в индекс тест IFBench для проверки следования инструкциям и планируем добавить тесты для оценки именно этих агентных функций.
GPT-5 стабильно показывает высокие результаты в независимых тестах интеллекта.
В длинных контекстах GPT-5 — лидер, занимая первые два места в AA-LCR.
Дополнительные тесты в Artificial Analysis готовятся к публикации." Источник: https://t.me/ai_product/1465