211 подписчиков

🩺 GPT-5 и медицина: шаг вперёд или временное плато?

22 августа 202522 авг 2025

2 мин

11 августа 2025 года вышла работа “From GPT-4 to GPT-5: Measuring progress through MedHELM” (pdf), где впервые системно оценили GPT-5 на медицинском бенчмарке MedHELM. Это не просто сухая статистика: речь идёт о проверке, может ли новая модель реально помогать в медицине — там, где ошибка стоит человеческой жизни. MedHELM — это набор тестов для оценки языковых моделей в медицине. Он покрывает: И самое важное — тестирование проводится детерминированно: фиксированные сиды, температура 0.0. Это значит, что результаты можно воспроизвести и сравнивать с прошлыми версиями моделей. По сравнению с GPT-4 и o3-mini, GPT-5 показывает смешанную картину: Исследователи также измерили латентность. Картина неоднозначная: Иными словами: когда модель должна много рассуждать, она эффективна. Но там, где запрос короткий и формализованный, GPT-5 пока проигрывает. GPT-5 сделал шаг вперёд в фактологической памяти и многоотраслевых задачах. Но провалы в EHRSQL и RaceBias говорят о том, что масштабирование мод

Оглавление

🧪 Что такое MedHELM?
📊 Результаты GPT-5
⏱️ Важный момент: скорость

11 августа 2025 года вышла работа “From GPT-4 to GPT-5: Measuring progress through MedHELM” (pdf), где впервые системно оценили GPT-5 на медицинском бенчмарке MedHELM. Это не просто сухая статистика: речь идёт о проверке, может ли новая модель реально помогать в медицине — там, где ошибка стоит человеческой жизни.

🧪 Что такое MedHELM?

MedHELM — это набор тестов для оценки языковых моделей в медицине. Он покрывает:

🔢 MedCalc-Bench — вычисления (дозировки, кислотно-щелочной баланс).
📝 Medec — выявление ошибок в записях пациентов.
📚 HeadQA, Medbullets, PubMedQA — вопросы в стиле экзаменов и научных статей.
💾 EHRSQL — генерация SQL-запросов к данным из электронных карт.
⚖️ RaceBias — проверка на справедливость и отсутствие расовых перекосов.
🚫 MedHallu — устойчивость к “галлюцинациям” (выдуманным фактам).

И самое важное — тестирование проводится детерминированно: фиксированные сиды, температура 0.0. Это значит, что результаты можно воспроизвести и сравнивать с прошлыми версиями моделей.

📊 Результаты GPT-5

По сравнению с GPT-4 и o3-mini, GPT-5 показывает смешанную картину:

🏆 Прорывы:
HeadQA — 0.93, новый лидер.
Medbullets — 0.89, тоже новое первое место.
MedCalc-Bench — 0.35, наравне с DeepSeek R1, заметное улучшение в медицинских расчётах.
⚠️ Регрессии:
EHRSQL — 0.18 (сильное падение, GPT-4o был 0.32).
RaceBias — 0.72 (−0.18 относительно GPT-4o, тревожный сигнал по справедливости).
PubMedQA — просадка с 0.74 до 0.67.
🤷 Стабильные зоны:
MedHallu — лёгкое улучшение над GPT-4o (+0.03), но всё ещё хуже лидера (Claude 3.5 Sonnet).
Medec — около 0.66, неплохой прогресс, но не лидер.

⏱️ Важный момент: скорость

Исследователи также измерили латентность. Картина неоднозначная:

⏳ На длинных задачах GPT-5 быстрее лидеров (MedCalc-Bench: в 2 раза быстрее).
🐌 На коротких — наоборот, значительно медленнее (EHRSQL: в 8 раз, HeadQA: в 16 раз!).

Иными словами: когда модель должна много рассуждать, она эффективна. Но там, где запрос короткий и формализованный, GPT-5 пока проигрывает.

🔮 Моё видение

GPT-5 сделал шаг вперёд в фактологической памяти и многоотраслевых задачах. Но провалы в EHRSQL и RaceBias говорят о том, что масштабирование модели не решает проблем структурированных данных и этики.

Лично я вижу в этом важный сигнал:

⚙️ Медицинские LLM должны учиться работать не только со свободным текстом, но и с жёсткими структурами (SQL, FHIR).
⚖️ Рост мощности может усиливать скрытые предубеждения. Fairness-тесты показывают: с увеличением параметров модель может “переучиваться” и воспроизводить нежелательные паттерны.
🚨 “Галлюцинации” остаются нерешённой проблемой. Даже GPT-5 не дотянулся до уровня Claude Sonnet. Для медицины это критично: тут цена ошибки — не испорченный чат, а здоровье пациента.

🧭 Что дальше?

Исследователи предлагают улучшать GPT-5 через:

🔗 Schema grounding — проверка запросов на соответствие реальной БД.
🧩 Fairness-fine-tuning — обучение на стресс-тестах для справедливости.
📝 Контрастивные методы против галлюцинаций.
⏱️ Оптимизация коротких запросов (иначе врач не будет ждать десятки секунд).

Если GPT-4 был важным мостом между теорией и практикой, то GPT-5 показывает: эволюция идёт “островками”. Где-то мы уже обогнали всех (HeadQA, Medbullets), а где-то — откатились назад.

Для медицины это не провал, а скорее честная картина: прогресс идёт, но путь к надёжному клиническому ИИ только начинается.

🔗 Источники: