Добавить в корзинуПозвонить
Найти в Дзене
Цифровая Переплавка

🩺 GPT-5 и медицина: шаг вперёд или временное плато?

11 августа 2025 года вышла работа “From GPT-4 to GPT-5: Measuring progress through MedHELM” (pdf), где впервые системно оценили GPT-5 на медицинском бенчмарке MedHELM. Это не просто сухая статистика: речь идёт о проверке, может ли новая модель реально помогать в медицине — там, где ошибка стоит человеческой жизни. MedHELM — это набор тестов для оценки языковых моделей в медицине. Он покрывает: И самое важное — тестирование проводится детерминированно: фиксированные сиды, температура 0.0. Это значит, что результаты можно воспроизвести и сравнивать с прошлыми версиями моделей. По сравнению с GPT-4 и o3-mini, GPT-5 показывает смешанную картину: Исследователи также измерили латентность. Картина неоднозначная: Иными словами: когда модель должна много рассуждать, она эффективна. Но там, где запрос короткий и формализованный, GPT-5 пока проигрывает. GPT-5 сделал шаг вперёд в фактологической памяти и многоотраслевых задачах. Но провалы в EHRSQL и RaceBias говорят о том, что масштабирование мод
Оглавление
Картинка символизирует сравнение GPT-4 и GPT-5 в медицинских задачах: графики роста на фоне медицинских иконок и ноутбука с надписью MedHELM показывают прогресс новой модели в области здравоохранения.
Картинка символизирует сравнение GPT-4 и GPT-5 в медицинских задачах: графики роста на фоне медицинских иконок и ноутбука с надписью MedHELM показывают прогресс новой модели в области здравоохранения.

11 августа 2025 года вышла работа “From GPT-4 to GPT-5: Measuring progress through MedHELM” (pdf), где впервые системно оценили GPT-5 на медицинском бенчмарке MedHELM. Это не просто сухая статистика: речь идёт о проверке, может ли новая модель реально помогать в медицине — там, где ошибка стоит человеческой жизни.

🧪 Что такое MedHELM?

MedHELM — это набор тестов для оценки языковых моделей в медицине. Он покрывает:

  • 🔢 MedCalc-Bench — вычисления (дозировки, кислотно-щелочной баланс).
  • 📝 Medec — выявление ошибок в записях пациентов.
  • 📚 HeadQA, Medbullets, PubMedQA — вопросы в стиле экзаменов и научных статей.
  • 💾 EHRSQL — генерация SQL-запросов к данным из электронных карт.
  • ⚖️ RaceBias — проверка на справедливость и отсутствие расовых перекосов.
  • 🚫 MedHallu — устойчивость к “галлюцинациям” (выдуманным фактам).

И самое важное — тестирование проводится детерминированно: фиксированные сиды, температура 0.0. Это значит, что результаты можно воспроизвести и сравнивать с прошлыми версиями моделей.

📊 Результаты GPT-5

По сравнению с GPT-4 и o3-mini, GPT-5 показывает смешанную картину:

  • 🏆 Прорывы:
    HeadQA — 0.93, новый лидер.
    Medbullets — 0.89, тоже новое первое место.
    MedCalc-Bench — 0.35, наравне с DeepSeek R1, заметное улучшение в медицинских расчётах.
  • ⚠️ Регрессии:
    EHRSQL — 0.18 (сильное падение, GPT-4o был 0.32).
    RaceBias — 0.72 (−0.18 относительно GPT-4o, тревожный сигнал по справедливости).
    PubMedQA — просадка с 0.74 до 0.67.
  • 🤷 Стабильные зоны:
    MedHallu — лёгкое улучшение над GPT-4o (+0.03), но всё ещё хуже лидера (Claude 3.5 Sonnet).
    Medec — около 0.66, неплохой прогресс, но не лидер.
Источник: https://www.fertrevino.com/docs/gpt5_medhelm.pdf
Источник: https://www.fertrevino.com/docs/gpt5_medhelm.pdf

⏱️ Важный момент: скорость

Исследователи также измерили латентность. Картина неоднозначная:

  • ⏳ На длинных задачах GPT-5 быстрее лидеров (MedCalc-Bench: в 2 раза быстрее).
  • 🐌 На коротких — наоборот, значительно медленнее (EHRSQL: в 8 раз, HeadQA: в 16 раз!).

Иными словами: когда модель должна много рассуждать, она эффективна. Но там, где запрос короткий и формализованный, GPT-5 пока проигрывает.

🔮 Моё видение

GPT-5 сделал шаг вперёд в фактологической памяти и многоотраслевых задачах. Но провалы в EHRSQL и RaceBias говорят о том, что масштабирование модели не решает проблем структурированных данных и этики.

Лично я вижу в этом важный сигнал:

  • ⚙️ Медицинские LLM должны учиться работать не только со свободным текстом, но и с жёсткими структурами (SQL, FHIR).
  • ⚖️ Рост мощности может усиливать скрытые предубеждения. Fairness-тесты показывают: с увеличением параметров модель может “переучиваться” и воспроизводить нежелательные паттерны.
  • 🚨 “Галлюцинации” остаются нерешённой проблемой. Даже GPT-5 не дотянулся до уровня Claude Sonnet. Для медицины это критично: тут цена ошибки — не испорченный чат, а здоровье пациента.

🧭 Что дальше?

Исследователи предлагают улучшать GPT-5 через:

  • 🔗 Schema grounding — проверка запросов на соответствие реальной БД.
  • 🧩 Fairness-fine-tuning — обучение на стресс-тестах для справедливости.
  • 📝 Контрастивные методы против галлюцинаций.
  • ⏱️ Оптимизация коротких запросов (иначе врач не будет ждать десятки секунд).

Если GPT-4 был важным мостом между теорией и практикой, то GPT-5 показывает: эволюция идёт “островками”. Где-то мы уже обогнали всех (HeadQA, Medbullets), а где-то — откатились назад.

Для медицины это не провал, а скорее честная картина: прогресс идёт, но путь к надёжному клиническому ИИ только начинается.

🔗 Источники: