11 августа 2025 года вышла работа “From GPT-4 to GPT-5: Measuring progress through MedHELM” (pdf), где впервые системно оценили GPT-5 на медицинском бенчмарке MedHELM. Это не просто сухая статистика: речь идёт о проверке, может ли новая модель реально помогать в медицине — там, где ошибка стоит человеческой жизни. MedHELM — это набор тестов для оценки языковых моделей в медицине. Он покрывает: И самое важное — тестирование проводится детерминированно: фиксированные сиды, температура 0.0. Это значит, что результаты можно воспроизвести и сравнивать с прошлыми версиями моделей. По сравнению с GPT-4 и o3-mini, GPT-5 показывает смешанную картину: Исследователи также измерили латентность. Картина неоднозначная: Иными словами: когда модель должна много рассуждать, она эффективна. Но там, где запрос короткий и формализованный, GPT-5 пока проигрывает. GPT-5 сделал шаг вперёд в фактологической памяти и многоотраслевых задачах. Но провалы в EHRSQL и RaceBias говорят о том, что масштабирование мод
🩺 GPT-5 и медицина: шаг вперёд или временное плато?
22 августа 202522 авг 2025
2 мин