HealthBench - новый стандарт LLM в здравоохранении Команда OpenAI представила результаты масштабного исследования HealthBench — тестового набора из 11 700+ медицинских вопросов, в качестве нового открытого стандарта тестирования больших языковых моделей (LLM)в сфере здравоохранения. Зачем нужен HealthBench? Основной целью является повышение уровня доверия к искусственному интеллекту среди практикующих врачей и улучшение качества медицинских консультаций. Современные LLM способны значительно повысить качество медицинской помощи, однако важно убедиться, что они действуют безопасно и эффективно. HealthBenchпомогает измерять прогресс и выявлять слабые места моделей, способствуя улучшению качества медицинского обслуживания. Ключевые выводы: • GPT-4 демонстрирует высокую точность (до 90% в некоторых категориях), превосходя более ранние модели • В задачах диагностики точность составила 85%, в рекомендациях по лечению — 80% • В интерпретации лабораторных данных точность была ниже (70%),что
HealthBench - новый стандарт LLM в здравоохранении
15 мая 202515 мая 2025
1 мин