33 подписчика

Когда ИИ учится читать историю болезни

16 декабря 202516 дек 2025

6 мин

Что значит новый бенчмарк EHRStruct от Наньянского технологического университета Электронная медицинская карта (EHR) — ядро любой современной системы здравоохранения. В ней собраны диагнозы, анализы, лекарства, витальные параметры и долгосрочная динамика пациента. Если большие языковые модели (LLM) действительно претендуют на роль «цифрового ассистента» врача, они должны не просто читать такие данные, а понимать их структуру и логически рассуждать на их основе. Команда Наньянского технологического университета (NTU, Сингапур) сделала важный шаг именно в этом направлении: представила EHRStruct — первый комплексный бенчмарк для оценки того, как LLM справляются со структурированными EHR. Одновременно они создали усиливающий фреймворк EHRMaster, который в связке с Gemini выходит за пределы текущего SOTA. Работа принята на AAAI 2026 (oral), а под неё запущен международный челендж EHRStruct 2026. Что такое EHRStruct и зачем он нужен EHRStruct — это: 11 ключевых задач по работе со стр

Что значит новый бенчмарк EHRStruct от Наньянского технологического университета

Электронная медицинская карта (EHR) — ядро любой современной системы здравоохранения. В ней собраны диагнозы, анализы, лекарства, витальные параметры и долгосрочная динамика пациента.

Если большие языковые модели (LLM) действительно претендуют на роль «цифрового ассистента» врача, они должны не просто читать такие данные, а понимать их структуру и логически рассуждать на их основе.

Команда Наньянского технологического университета (NTU, Сингапур) сделала важный шаг именно в этом направлении: представила EHRStruct — первый комплексный бенчмарк для оценки того, как LLM справляются со структурированными EHR.

Одновременно они создали усиливающий фреймворк EHRMaster, который в связке с Gemini выходит за пределы текущего SOTA. Работа принята на AAAI 2026 (oral), а под неё запущен международный челендж EHRStruct 2026.

Что такое EHRStruct и зачем он нужен

EHRStruct — это:

11 ключевых задач по работе со структурированными EHR;
2200 размеченных примеров, созданных совместно компьютерными учёными и клиницистами;
иерархическая организация задач по трём осям:
тип контекста:
data‑driven (чистая работа с числами и таблицами),
knowledge‑driven (клинические знания, диагностика, лечение);
когнитивный уровень:
понимание (U) vs рассуждение (R);
функциональная категория:
поиск информации, агрегация, арифметика, клиническая идентификация, оценка диагноза, планирование терапии.

По сути, это первая попытка системно и воспроизводимо измерять не только «умеет ли LLM писать текст для врача», но и:

правильно ли она фильтрует записи по условиям (D‑U1/U2);
корректно ли считает и усредняет показатели (D‑R1/R2/R3);
видит ли тренды и умеет по ним рассуждать (D‑R4/R5);
распознаёт ли коды диагнозов (K‑U1);
способна ли предсказывать исходы (смертность, K‑R1);
оценивает ли риск заболеваний (K‑R2);
предлагает ли осмысленные схемы терапии (K‑R3).

Датасет построен на двух источниках:

Synthea — синтетические, но клинически правдоподобные EHR без рисков для приватности;
eICU — реальная ICU‑база с многоклиничной структурированной информацией (жизненные показатели, анализы, интервенции).

Для каждого задания берутся репрезентативные клинические случаи, интегрируются в структурированные таблицы, а вопрос‑ответ формируется при помощи GPT‑4o и валидируется экспертами. На каждую из 11 задач приходится по 200 примеров.

Как оценивали модели и что оказалось на выходе

Исследователи протестировали:

20 LLM — как общие, так и специализированные медицинские;
11 методов усиления работы с табличными/структурированными данными (8 «общих» и 3 мед‑специфичных);
разные форматы входа:
«плоский» текст,
таблица с разделителями,
графовое представление,
естественноязыковое описание.

Основные выводы:

Общие модели обгоняют мед‑специальные.
На большинстве задач со структурированными EHR общие LLM (особенно коммерческие, вроде Gemini) стабильно лучше специализированных медицинских моделей.
Мед‑LLM нередко просто не выдают валидный ответ на сложные структурные задания, тогда как общие сохраняют приемлемую точность.
Data‑driven задачи — сильная сторона LLM.
Фильтрация, агрегация, простая арифметика и тренд‑анализ выполняются заметно лучше, чем:

оценка диагноза,
прогноз исхода,
выбор терапии.
Последние остаются серьёзным вызовом.

Формат входных данных сильно влияет на результат.

Для данных и рассуждения лучше работает естественный язык (структура описана словами).
Для данных и понимания (например, сложная таблица) полезнее граф или структурированное представление.
Для знание‑ориентированных задач (диагностика, лечение) убедительного «универсального» формата пока нет — выигрыши неустойчивы.

Few‑shot помогает, но «больше» не значит «лучше».
Малое число примеров (1–3) до и в промпте повышает качество, но рост до 5‑shot не даёт пропорционального улучшения и иногда даже мешает.
Многозадачное дообучение эффективнее одноцелевого.
Файнтюнинг на наборе разнородных задач по EHR даёт больший прирост, чем натаскивание под один конкретный сценарий — что логично для среды, где врачу нужно сразу много типов рассуждений.
Универсального «тюнинга» нет.

Методы из немедицинских областей хорошо работают на числовой и логической части, но слабы в клиническом знании.
В свою очередь, медицинские подходы лучше справляются с диагнозами и прогнозом, но плохо обобщают на «голые» таблицы.
Это подчёркивает потребность в гибридных схемах, сочетающих структурное и предметное знание.

EHRMaster: как выжать больше из LLM для медицины

На базе полученных результатов команда NTU разработала EHRMaster — код‑ориентированный усиливающий фреймворк, который:

переупаковывает структурированные данные в формы, удобные конкретной модели;
использует программные шаблоны и промежуточные шаги рассуждения;
комбинирует несколько методик обработки (например, предварительную выборку релевантных полей и явную арифметику).

В связке EHRMaster + Gemini удалось:

вывести точность по многим data‑driven задачам (особенно арифметика и агрегации) на почти 100%;
заметно улучшить показатели по сложным knowledge‑driven сценариям (диагноз, исход, терапия), хотя те по‑прежнему остаются нетривиальными.

Иначе говоря, дело не только в «силе» самой LLM, но и в том, как мы подаём ей медицинские данные и организуем цепочку рассуждений.

Почему это важно для медицины и разработчиков AI

Появление EHRStruct и EHRMaster означает:

у сообщества теперь есть единый, публичный и сопоставимый бенчмарк для проверки того, умеет ли модель:
разбираться в сложных электронных картах,
считать и агрегировать показатели,
хотя бы на базовом уровне рассуждать о диагнозах и лечении;
клиники и компании могут сравнивать модели не только по «синтетическим» тестам, а по задачам, ближе к реальной практике;
исследователи получили:
open‑source код (GitHub: YXNTU/EHRStruct),
EHRStruct 2026 Challenge на Codabench как полигон для новых идей.

Ключевой практический вывод работы NTU:

Сейчас лучше всего работают сильные общие LLM, дополненные грамотной упаковкой структурированных данных и специализированными фреймворками вроде EHRMaster. Чисто медицинских моделей и «сырых» LLM без такой прослойки уже недостаточно.

Куда это ведёт дальше

EHRStruct, по сути, задаёт «экзамен» для медицинского ИИ нового поколения. Если раньше внимание было сосредоточено на:

чат‑ботах для врачей,
генерации заключений,
анализе одиночных отчётов или снимков,

то теперь фокус смещается к комплексной работе с EHR как с живой, изменчивой базой данных пациента:

многолетние истории болезней;
десятки таблиц анализов;
витальные показатели в динамике;
множество кодов диагнозов и процедур.

Тот, кто научится уверенно решать этот класс задач — безопасно, объяснимо и в рамках регуляторных требований, — будет ближе всех к реальному «когнитивному ассистенту врача», а не просто к умному автодополнению текста.

Работа NTU показывает, что такая цель пока далека, но инструменты для её измерения и системного продвижения вперёд наконец появились.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/