Компания OpenAI, создатель ChatGPT и один из ключевых игроков в гонке за создание универсального искусственного интеллекта, представила HealthBench — масштабную открыто опубликованную систему оценки ИИ-моделей в здравоохранении. Проект призван дать более объективное и клинически обоснованное представление о том, как хорошо современные большие языковые модели справляются с медицинскими задачами. Сегодня ИИ активно проникает в клиническую практику: от чат-ботов в регистратуре до помощи в диагностике, генерации эпикризов и медицинских рекомендаций. Однако остаётся один ключевой вопрос: можно ли доверять медицинским ответам ИИ? Несмотря на впечатляющие успехи ИИ в тестах вроде USMLE (американский лицензионный экзамен для врачей) или успешное прохождение медицинской аккредитации, реальное взаимодействие с пациентами — задача гораздо сложнее. Современные модели могут блестяще решать типовые задачи, но сбоят в нестандартных случаях, не всегда умеют запрашивать недостающие данные, а главное —