7 подписчиков

1

15 мая15 мая

3 мин

Тест Тьюринга — GPT-4.5 (март 2025) Исследователи Кэмерон Джонс и Бенджамин Берген из Калифорнийского университета Сан-Диего провели строгий трёхсторонний тест Тьюринга. GPT-4.5 был принят за человека в 73% случаев — значительно чаще, чем реальный человек-собеседник (которого принимали за человека примерно в 50–60% случаев). LLaMa-3.1-405B также прошла тест с результатом 56%. Это первое эмпирически подтверждённое прохождение классического теста Тьюринга ИИ-системой. Базовые модели GPT-4o и ELIZA провалились, набрав лишь 21–23%. Источник: arXiv.org 2. Международная математическая олимпиада — Gemini Deep Think и GPT-5 (июль 2025) Gemini Deep Think от Google DeepMind решила 5 из 6 задач IMO 2025, набрав 35 баллов из 42 в течение отведённых 4,5 часов — это результат уровня золотой медали. Решения были получены официальной сертификацией IMO, что делает Gemini первой ИИ-системой, получившей официальное золото олимпиады. OpenAI также заявила о результате уровня золота с GPT-5 и Grok-4 — 5 п

1. Тест Тьюринга — GPT-4.5 (март 2025)

Исследователи Кэмерон Джонс и Бенджамин Берген из Калифорнийского университета Сан-Диего провели строгий трёхсторонний тест Тьюринга. GPT-4.5 был принят за человека в 73% случаев — значительно чаще, чем реальный человек-собеседник (которого принимали за человека примерно в 50–60% случаев). LLaMa-3.1-405B также прошла тест с результатом 56%. Это первое эмпирически подтверждённое прохождение классического теста Тьюринга ИИ-системой. Базовые модели GPT-4o и ELIZA провалились, набрав лишь 21–23%.

Источник: arXiv.org

2. Международная математическая олимпиада — Gemini Deep Think и GPT-5 (июль 2025)

Gemini Deep Think от Google DeepMind решила 5 из 6 задач IMO 2025, набрав 35 баллов из 42 в течение отведённых 4,5 часов — это результат уровня золотой медали. Решения были получены официальной сертификацией IMO, что делает Gemini первой ИИ-системой, получившей официальное золото олимпиады. OpenAI также заявила о результате уровня золота с GPT-5 и Grok-4 — 5 правильных задач из 6. Медаль золотого уровня получают лишь около 1 из 12 участников.

Источники: Google DeepMind Blog, Nature, Ars Technicanature

3. GPQA Diamond — Graduate-level Science Q&A (2025)

GPQA Diamond — тест из 198 вопросов докторского уровня по биологии, физике и химии, составленных и валидированных PhD-специалистами. Средний результат эксперта с учёной степенью — 69,7%. Модели o1, o3, Claude 3.7 Sonnet и Gemini 3 Pro к 2025 году уверенно преодолели этот барьер: лучшие системы демонстрируют свыше 90% точности, что Epoch AI и Stanford HAI квалифицируют как «сверхчеловеческое научное мышление». Специализированная модель Omic AI Scientist достигла результата 93,3%.

Источники: Epoch AI, omic.ai, Stanford HAI 2026 AI Indexhai.stanford

4. ARC-AGI-1 — OpenAI o3 (декабрь 2024 / январь 2025)

Тест ARC-AGI разработан Франсуа Шолле специально для оценки «адаптивного общего интеллекта» — решения принципиально новых задач без опоры на специфические тренировочные паттерны. Средний результат человека — ~85%. OpenAI o3 в режиме высоких вычислений набрал 87,5%, впервые превысив человеческий базовый показатель. Это привело к созданию несравнимо более сложной версии ARC-AGI-2, которую o3 уже практически не мог решать.

Источники: ARC Prize Foundation, LinkedInarcprize

5. ARC-AGI-2 — GPT-5.5 превышает человека (2026)

Созданный как ответ на насыщение ARC-AGI-1, тест ARC-AGI-2 изначально ставил ведущие модели в тупик. Однако к маю 2026 года GPT-5.5 набрал 85% на этом бенчмарке, тогда как средний человек показывает около 66%, а граница «гран-при» — 85%. За ним следуют GPT-5.4 Pro (83,3%) и Gemini 3.1 Pro (77,1%). Все четыре ведущие лаборатории (Anthropic, Google, OpenAI, xAI) теперь публикуют свои результаты на этом бенчмарке.

Источники: BenchLM.ai, LLM Stats, ARC Prize Leaderboardllm-stats

6. Медицинская диагностика — Microsoft MAI-DxO (июнь–июль 2025)

Microsoft представила систему MAI-DxO (AI Diagnostic Orchestrator), основанную на оркестровке нескольких ведущих LLM-моделей (GPT o3, Claude, Gemini, Llama, Grok). На тесте из 304 сложнейших клинических случаев из New England Journal of Medicine MAI-DxO поставил правильный диагноз в 85,5% случаев, тогда как 21 опытный врач из США и Великобритании справился лишь с 20%. Система также выбирала менее дорогостоящие диагностические пути.

Источники: GeekWire, Time Magazine, Microsoft AI Blogmicrosoft

7. USMLE (Медицинский лицензионный экзамен США) — AI превзошёл врачей (2025)

Коллаборация University at Buffalo разработала инструмент SCAI, набравший 95,2% на Step 3 USMLE — выше, чем все другие ИИ-инструменты и большинство практикующих врачей. Параллельно многоагентная система из пяти совещающихся GPT-4 показала консенсусную точность 97%, 93% и 94% на Steps 1, 2 и 3 соответственно — существенно выше среднего показателя студентов-медиков. Исследование OpenAI показало, что PhD-эксперты набирают лишь 69,7% на GPQA Diamond, а o1 — 97,5%.

Источники: University at Buffalo / JAMA Network Open, EMJ Reviewsemjreviews

8. Диагностика в реальных условиях скорой помощи — Harvard/Stanford (2024–2025)