Найти в Дзене
Digital Tales

ИИ под присмотром: OpenAI представила систему оценки ИИ в медицине

Компания OpenAI, создатель ChatGPT и один из ключевых игроков в гонке за создание универсального искусственного интеллекта, представила HealthBench — масштабную открыто опубликованную систему оценки ИИ-моделей в здравоохранении. Проект призван дать более объективное и клинически обоснованное представление о том, как хорошо современные большие языковые модели справляются с медицинскими задачами. Сегодня ИИ активно проникает в клиническую практику: от чат-ботов в регистратуре до помощи в диагностике, генерации эпикризов и медицинских рекомендаций. Однако остаётся один ключевой вопрос: можно ли доверять медицинским ответам ИИ? Несмотря на впечатляющие успехи ИИ в тестах вроде USMLE (американский лицензионный экзамен для врачей) или успешное прохождение медицинской аккредитации, реальное взаимодействие с пациентами — задача гораздо сложнее. Современные модели могут блестяще решать типовые задачи, но сбоят в нестандартных случаях, не всегда умеют запрашивать недостающие данные, а главное —

Компания OpenAI, создатель ChatGPT и один из ключевых игроков в гонке за создание универсального искусственного интеллекта, представила HealthBench — масштабную открыто опубликованную систему оценки ИИ-моделей в здравоохранении. Проект призван дать более объективное и клинически обоснованное представление о том, как хорошо современные большие языковые модели справляются с медицинскими задачами.

Сегодня ИИ активно проникает в клиническую практику: от чат-ботов в регистратуре до помощи в диагностике, генерации эпикризов и медицинских рекомендаций. Однако остаётся один ключевой вопрос: можно ли доверять медицинским ответам ИИ?

Несмотря на впечатляющие успехи ИИ в тестах вроде USMLE (американский лицензионный экзамен для врачей) или успешное прохождение медицинской аккредитации, реальное взаимодействие с пациентами — задача гораздо сложнее. Современные модели могут блестяще решать типовые задачи, но сбоят в нестандартных случаях, не всегда умеют запрашивать недостающие данные, а главное — их ответы трудно оценить без профессиональной экспертизы.

HealthBench пытается восполнить этот пробел — предложить более гибкую, реалистичную и клинически значимую оценку медицинских ИИ. Иными словами, научить «тестировать» ИИ не на заученные ответы, а на реальное поведение в условиях неопределённости.

Проект основан на 5 000 диалогов между условным пользователем (пациентом или врачом) и искусственным интеллектом. Каждый кейс сопровождается индивидуальной системой критериев, составленной врачом. Всего в базе задействованы 262 специалиста из 60 стран, говорящих на 49 языках и представляющих 26 медицинских направлений. Они создали более 48 тысяч уникальных критериев оценки — от клинической корректности до уместности используемой терминологии и навыков общения с пациентом.

Оценка производится с помощью GPT-4.1, самой передовой модели OpenAI на сегодняшний день. Она сверяет сгенерированные ответы с заданными критериями и выставляет балл — чем выше, тем ближе ответ к «идеальному» с точки зрения клинициста. При этом учитывается вес каждого критерия — например, неправильный диагноз важнее, чем отсутствие приветствия. Тематически HealthBench охватывает семь направлений — от глубины ответа и работы с неопределённостью до глобального здравоохранения и интерпретации медицинских данных.

OpenAI подчёркивает, что HealthBench позволяет не только количественно оценить медицинскую компетентность моделей, но и выявить пробелы — например, в умении уточнять недостающий контекст или поддерживать стабильность в сложных клинических сценариях.

HealthBench уже доступен в открытом доступе на GitHub. Разработчики надеются, что он станет отраслевым стандартом для оценки ИИ в медицине и послужит инструментом для более безопасного внедрения технологий в клиническую практику. А заодно поможет самим разработчикам понимать, где их модели пока ещё ошибаются.

HealthBench выходит на фоне растущего внимания к роли ИИ в здравоохранении в США — в том числе со стороны Project Stargate, анонсированного на пресс-конференции Дональда Трампа с участием генерального директора OpenAI Сэма Альтмана, основателя и CTO корпорации Oracle Ларри Эллисона, который активно инвестирует в ИИ для медицины и разработку онкопрепаратов. Эта инициатива стоимостью $500 млрд предполагает создание масштабной ИИ-инфраструктуры, включая проекты по созданию вакцин от рака.

Пока, впрочем, проект сталкивается с трудностями — от неопределённости с финансированием до роста цен на оборудование для дата-центров, в том числе из-за нестабильности на рынке, связанной с тарифами Трампа.