знаний и коммуникативных навыков ИИ-ассистентов? Ответ на этот вопрос вы получите из доклада заведующего лабораторией цифрового развития ФГБУ НМХЦ им. Н.И. Пирогова Минздрава России Олега Пензина. Исследователи систематизировали бенчмарки и метрики валидации LLM с учетом специфики российского здравоохранения. Показано, что достижение SOTA-результатов (>90%) на экзаменационных датасетах не гарантирует безопасности в реальных сценариях. Обоснована необходимость перехода от оценки знаний к оценке агентных навыков (сбор анамнеза, эмпатия, соблюдение клинических рекомендаций). Выделены ключевые преимущества отечественных разработок (3MDBench) в части моделирования темперамента пациента и мультимодальности. Аналитический доклад исследователей будет полезен разработчикам СППВР, исследовательским центрам и медицинским организациям, внедряющим ИИ. Послушать его можно будет 13 февраля в рамках секционного заседания 2.3. «Прикладные решения для здравоохранения с использованием методов интеллект
Как повысить эффективность работы LLM в медицинских сценариях и снизить риски внедрения «галлюцинирующих» моделей за счет валидации доменных
3 дня назад3 дня назад
1 мин