В исследовании Microsoft выявили кратное превосходство передовых LLM в точности диагнозов, сравнивая со средними результатами терапевтов. При этом ресурсов на решение проблемы ИИ затрачивает меньше. Резюмируем выводы учёных. В систему для оценки ИИ исследователи внесли 304 сложных диагностических случая из авторитетного медицинского журнала NEJM. В отличие от статичных тестов, здесь имитировали реальный приём у врача: модель или живой специалист получали краткое описание проблемы, должны были самостоятельно запрашивать дополнительные сведения (историю болезни, результаты осмотра) и назначать анализы. При этом вычислялась примерная стоимость каждого шага. Эксперты создали интересный алгоритм для решения задач — MAI-DxO. Он эксплуатирует передовые языковые модели в режиме «нейроконсилиума». ИИ разбивается на несколько модулей, исполняющих роли виртуальных экспертов с разными точками зрения. Они выдвигают гипотезы, критикуют их между собой, предлагают альтернативы и стараются оптимизирова