31 подписчик

3D VLM Merlin решает проблему дефицита рентгенологов

3 дня назад3 дня назад

3 мин

В свежем номере Nature опубликована работа команды Стэнфорда о модели Merlin — первом в своём классе 3D визуально‑языковом (3D VLM) решении, которое нативно обрабатывает объёмные медицинские исследования (CT) и обучается без дорогостоящей ручной разметки. Результаты обещают не просто инструмент помощи радиологам, а изменение парадигмы: автоматизация рутины, ранняя детекция биомаркеров и масштабируемая аналитика рисков пациентов. Статья Nature с подробностями исследования: Nature article Что такое Merlin и чем он отличается В обучающем корпусе: 15 331 исследований CT, более 6 млн изображений (срезов), ~1.8 млн диагностических кодов и ~6 млн текстовых токенов/меток из отчётов. Такой объём «естественных» клинических сигналов позволил модели выучить сопоставления между 3D‑структурами и клиническими понятиями без ручной разметки. Merlin проверяли по 6 большим задачам и 752 подзадачам. В zero‑shot классификации модель распознавала 30 распространённых абдоминальных находок (внутренний F1 = 0.

Результаты обещают не просто инструмент помощи радиологам, а изменение парадигмы: автоматизация рутины, ранняя детекция биомаркеров и масштабируемая аналитика рисков пациентов.

Статья Nature с подробностями исследования: Nature article

Что такое Merlin и чем он отличается

Merlin — это 3D визуально‑языковая модель, разработанная для работы с полными объёмными CT‑сканами (в данном исследовании — преимущественно абдоминальными).
Ключевая особенность: модель одновременно учится связывать трёхмерные изображения, структурированные записи в EHR (диагностические коды) и неструктурированные тексты — отчёты рентгенологов.
Для обучения используется слабый супервижн: вместо ручной пометки снимков Merlin «сам» извлекает супервизию из уже имеющихся в клинике данных (коды, отчёты), что резко снижает потребность в аннотациях и делает подход масштабируемым.

В обучающем корпусе: 15 331 исследований CT, более 6 млн изображений (срезов), ~1.8 млн диагностических кодов и ~6 млн текстовых токенов/меток из отчётов. Такой объём «естественных» клинических сигналов позволил модели выучить сопоставления между 3D‑структурами и клиническими понятиями без ручной разметки.

Merlin проверяли по 6 большим задачам и 752 подзадачам. В zero‑shot классификации модель распознавала 30 распространённых абдоминальных находок (внутренний F1 = 0.741), в внешней валидации по включению выявления переломов — F1 = 0.767.

Модель предсказывает 692 клинических фенотипа с средней AUROC ≈ 0.81; для ~15% фенотипов AUROC > 0.9. В задачах сегментации 3D‑объёмов Merlin, обученная на 10% меток, превзошла специализированную nnU‑Net.

Merlin превосходит как 2D‑VLM, так и схемы «2D→3D uplift» по ряду задач, показывая преимущества настоящей 3D‑визуально‑языковой предтренировки. Внешняя валидация на 44 098 CT‑исследованиях из трёх разных учреждений продемонстрировала стабильную генерализацию — устойчивость к разнице аппаратов, популяций и стилям отчётности.

Любопытный результат: несмотря на обучение только на брюшных CT, Merlin хорошо переносится на грудную область и обходит специализированные базовые модели — признак сильной универсальности 3D‑представлений.

Практическое значение для клиники

Существенное снижение нагрузки радиологов: автоматическая первичная сортировка, генерация структурированных отчётов и ICD‑кодирования, быстрый поиск похожих историй болезни.
Повышение чувствительности к ранним биомаркерам, которые человеческий глаз может пропускать при рутинном обзоре сотен срезов. Это важно для скрининга и стратификации риска.
Снижение ошибок, связанных с человеческой усталостью, и экономия времени — критично при прогнозируемом дефиците радиологов (в статье указывалась нехватка порядка десятков тысяч специалистов к 2036 году).

Ограничения и важные предостережения

Ретроспективные валидации — хороший шаг, но клиническое внедрение требует проспективных, многоцентровых испытаний с интеграцией в рабочий процесс и оценкой влияния на исходы пациентов.
Регуляция и валидация: модели, которые могут влиять на диагнозы и лечение, должны пройти локальную сертификацию, проверку на безопасность и требования по объяснимости.
Оценка на разнообразии популяций: хотя эксперименты показывают хорошую генерализацию, важно проверить поведение модели на редких патологиях, у разных этнических и возрастных групп, и при нестандартной технике съёмки.
Риски «смещения» (bias) и «галлюцинаций» в выводах: автоматические подсказки нельзя принимать за догму — нужен надзор врача.
Вопросы приватности и использования EHR‑данных при дообучении и деплое требуют строгих политик и обезличивания.

Merlin — заметный шаг вперёд: модель, которая нативно понимает 3D‑медизображения и связывает их с клиникой без зависимости от ручных аннотаций. Это не просто инструмент ускорения — это фундамент для новых диагностических рабочих процессов и открытия ранних биомаркеров.

Но для безопасного и эффективного перехода от исследования к практике потребуется тщательная валидация, регуляторные процедуры и продуманная интеграция в клинические рабочие процессы.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/