Добавить в корзинуПозвонить
Найти в Дзене
Николай Григорьев

Вот 10 наиболее резонансных случаев 2025–2026 годов, когда нейросети превзошли человеческие показатели на конкретных тестах — строго с

источниками. 1. Тест Тьюринга — GPT-4.5 (март 2025) Исследователи Кэмерон Джонс и Бенджамин Берген из Калифорнийского университета Сан-Диего провели строгий трёхсторонний тест Тьюринга. GPT-4.5 был принят за человека в 73% случаев — значительно чаще, чем реальный человек-собеседник (которого принимали за человека примерно в 50–60% случаев). LLaMa-3.1-405B также прошла тест с результатом 56%. Это первое эмпирически подтверждённое прохождение классического теста Тьюринга ИИ-системой. Базовые модели GPT-4o и ELIZA провалились, набрав лишь 21–23%.hi-tech.mail+3 Источник: arXiv.org — arxiv.org/abs/2503.23674arxiv 2. Международная математическая олимпиада — Gemini Deep Think и GPT-5 (июль 2025) Gemini Deep Think от Google DeepMind решила 5 из 6 задач IMO 2025, набрав 35 баллов из 42 в течение отведённых 4,5 часов — это результат уровня золотой медали. Решения были получены официальной сертификацией IMO, что делает Gemini первой ИИ-системой, получившей официальное золото олимпиады. OpenAI так

Вот 10 наиболее резонансных случаев 2025–2026 годов, когда нейросети превзошли человеческие показатели на конкретных тестах — строго с источниками.

1. Тест Тьюринга — GPT-4.5 (март 2025)

Исследователи Кэмерон Джонс и Бенджамин Берген из Калифорнийского университета Сан-Диего провели строгий трёхсторонний тест Тьюринга. GPT-4.5 был принят за человека в 73% случаев — значительно чаще, чем реальный человек-собеседник (которого принимали за человека примерно в 50–60% случаев). LLaMa-3.1-405B также прошла тест с результатом 56%. Это первое эмпирически подтверждённое прохождение классического теста Тьюринга ИИ-системой. Базовые модели GPT-4o и ELIZA провалились, набрав лишь 21–23%.hi-tech.mail+3

Источник: arXiv.org — arxiv.org/abs/2503.23674arxiv

2. Международная математическая олимпиада — Gemini Deep Think и GPT-5 (июль 2025)

Gemini Deep Think от Google DeepMind решила 5 из 6 задач IMO 2025, набрав 35 баллов из 42 в течение отведённых 4,5 часов — это результат уровня золотой медали. Решения были получены официальной сертификацией IMO, что делает Gemini первой ИИ-системой, получившей официальное золото олимпиады. OpenAI также заявила о результате уровня золота с GPT-5 и Grok-4 — 5 правильных задач из 6. Медаль золотого уровня получают лишь около 1 из 12 участников.youtube36kr+1

Источники: Google DeepMind Blog, Nature, Ars Technicanature+2

3. GPQA Diamond — Graduate-level Science Q&A (2025)

GPQA Diamond — тест из 198 вопросов докторского уровня по биологии, физике и химии, составленных и валидированных PhD-специалистами. Средний результат эксперта с учёной степенью — 69,7%. Модели o1, o3, Claude 3.7 Sonnet и Gemini 3 Pro к 2025 году уверенно преодолели этот барьер: лучшие системы демонстрируют свыше 90% точности, что Epoch AI и Stanford HAI квалифицируют как «сверхчеловеческое научное мышление». Специализированная модель Omic AI Scientist достигла результата 93,3%.omicyoutubeepoch

Источники: Epoch AI, omic.ai, Stanford HAI 2026 AI Indexhai.stanford+2

4. ARC-AGI-1 — OpenAI o3 (декабрь 2024 / январь 2025)

Тест ARC-AGI разработан Франсуа Шолле специально для оценки «адаптивного общего интеллекта» — решения принципиально новых задач без опоры на специфические тренировочные паттерны. Средний результат человека — ~85%. OpenAI o3 в режиме высоких вычислений набрал 87,5%, впервые превысив человеческий базовый показатель. Это привело к созданию несравнимо более сложной версии ARC-AGI-2, которую o3 уже практически не мог решать.linkedin+1

Источники: ARC Prize Foundation, LinkedInarcprize+1

5. ARC-AGI-2 — GPT-5.5 превышает человека (2026)

Созданный как ответ на насыщение ARC-AGI-1, тест ARC-AGI-2 изначально ставил ведущие модели в тупик. Однако к маю 2026 года GPT-5.5 набрал 85% на этом бенчмарке, тогда как средний человек показывает около 66%, а граница «гран-при» — 85%. За ним следуют GPT-5.4 Pro (83,3%) и Gemini 3.1 Pro (77,1%). Все четыре ведущие лаборатории (Anthropic, Google, OpenAI, xAI) теперь публикуют свои результаты на этом бенчмарке.benchlm+1

Источники: BenchLM.ai, LLM Stats, ARC Prize Leaderboardllm-stats+2

6. Медицинская диагностика — Microsoft MAI-DxO (июнь–июль 2025)

Microsoft представила систему MAI-DxO (AI Diagnostic Orchestrator), основанную на оркестровке нескольких ведущих LLM-моделей (GPT o3, Claude, Gemini, Llama, Grok). На тесте из 304 сложнейших клинических случаев из New England Journal of Medicine MAI-DxO поставил правильный диагноз в 85,5% случаев, тогда как 21 опытный врач из США и Великобритании справился лишь с 20%. Система также выбирала менее дорогостоящие диагностические пути.geekwire+2

Источники: GeekWire, Time Magazine, Microsoft AI Blogmicrosoft+2

7. USMLE (Медицинский лицензионный экзамен США) — AI превзошёл врачей (2025)