39 подписчиков

"Тесты новых GPT-шек от Artificial Analysis

9 августа 20259 авг 2025

1 мин

"Тесты новых GPT-шек от Artificial Analysis https://www.linkedin.com/pulse/openai-gave-us-early-access-gpt-5-our-independent-dr6rc/ OpenAI представила единый API-эндпоинт для GPT-5, но разные уровни интенсивности рассуждений дают сильно различающийся уровень интеллекта. GPT-5 с уровнем High достигает новой планки интеллектуальных возможностей, в то время как Minimal находится примерно на уровне GPT-4.1 (но гораздо эффективнее по токенам). ⚙️ Конфигурация интенсивности рассуждений: GPT-5 поддерживает четыре режима: High, Medium, Low и Minimal. Этот параметр определяет, насколько «усердно» модель думает над запросом, что сильно влияет на интеллект, расход токенов, скорость и стоимость. 🧠 Диапазон интеллекта — от лидирующего уровня до GPT-4.1: В режиме High GPT-5 набрал 68 баллов в нашем Artificial Analysis Intelligence Index (MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME, IFBench и AA-LCR), установив новый стандарт. Medium — 67 (близко к o3) Low — 64 (м

https://www.linkedin.com/pulse/openai-gave-us-early-access-gpt-5-our-independent-dr6rc/

OpenAI представила единый API-эндпоинт для GPT-5, но разные уровни интенсивности рассуждений дают сильно различающийся уровень интеллекта. GPT-5 с уровнем High достигает новой планки интеллектуальных возможностей, в то время как Minimal находится примерно на уровне GPT-4.1 (но гораздо эффективнее по токенам).

⚙️ Конфигурация интенсивности рассуждений:

GPT-5 поддерживает четыре режима: High, Medium, Low и Minimal. Этот параметр определяет, насколько «усердно» модель думает над запросом, что сильно влияет на интеллект, расход токенов, скорость и стоимость.

🧠 Диапазон интеллекта — от лидирующего уровня до GPT-4.1:

В режиме High GPT-5 набрал 68 баллов в нашем Artificial Analysis Intelligence Index (MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME, IFBench и AA-LCR), установив новый стандарт.

Medium — 67 (близко к o3)

Low — 64 (между DeepSeek R1 и o3)

Minimal — 44 (около GPT-4.1)

При этом разрыв между o3 и GPT-5 High меньше, чем скачки от GPT-3 к GPT-4 или от GPT-4o к o1.

💬 Использование токенов различается в 23 раза:

GPT-5 High израсходовал 82 млн токенов на прохождение тестов (против 50 млн у o3), но меньше, чем Gemini 2.5 Pro (98 млн) и DeepSeek R1 0528 (99 млн).

Minimal использовал всего 3,5 млн токенов – меньше, чем GPT-4.1, что делает его крайне экономичным при сопоставимом интеллекте.

📖 Длинный контекст (Long Context Reasoning):

Мы недавно выпустили собственный тест AA-LCR для проверки рассуждений на длинных последовательностях (~100k токенов). GPT-5 в режимах High и Medium занял 1-е и 2-е места в этом бенчмарке.

🤖 Агентные возможности:

OpenAI отметила улучшения в работе с агентами (длительные цепочки инструментальных вызовов). Мы добавили в индекс тест IFBench для проверки следования инструкциям и планируем добавить тесты для оценки именно этих агентных функций.

GPT-5 стабильно показывает высокие результаты в независимых тестах интеллекта.

В длинных контекстах GPT-5 — лидер, занимая первые два места в AA-LCR.

Дополнительные тесты в Artificial Analysis готовятся к публикации." Источник: https://t.me/ai_product/1465

Гаджеты и электроника

5,73 млн интересуются