В тестировании участвовали 13 моделей от разных разработчиков, включая OpenAI, Google, Anthropic, Mistral AI и xAI.Всего моделям предложили 345 медицинских запросов, охватывающих пять направлений, в том числе неотложную медицину, гинекологию и неврологию.Мой Брянск
Целью бенчмарка стала проверка не только общей корректности ответов, но и способности моделей давать рекомендации в ситуациях с повышенным риском.Особое внимание исследователи уделили триажу — оценке срочности медицинской помощи.Мой Брянск
Качество ответа также зависит от формулировки запроса: неуверенный или неточный язык иногда меняет оценку риска, несмотря на одинаковый клинический смысл.Ограничения медицинских чатботов обсуждаются и в научных изданиях.Мой Брянск
В Nature Medicine указывают на риск уверенных, но ошибочных рекомендаций, а The Lancet подчёркивает необходимость контроля и стандартов безопасности при использовании языковых моделей в медицине.Мой Брянск