ChatGPT провалил еще один экзамен в США. Согласно исследованию, широко известный чат-бот OpenAI ChatGPT провалил экзамен уролога в США. Исследование, опубликованное в журнале Urology Practice, показало, что ChatGPT достиг менее 30% правильных ответов в широко используемой программе самооценки урологии (SASP) Американской ассоциации урологов.
«ChatGPT не только имеет низкий уровень правильных ответов на клинические вопросы в урологической практике, но также допускает определенные типы ошибок, которые создают риск распространения медицинской дезинформации», — сказал в отчете Кристофер М. Дейберт из Медицинского центра Университета Небраски.
Учебная программа самооценки AUA (SASP) представляет собой практический экзамен из 150 вопросов, посвященный основному учебному плану медицинских знаний в области урологии. Из исследования были исключены 15 вопросов, содержащих визуальную информацию, такую как изображения или графики.
В целом, ChatGPT, как сообщается, дал правильные ответы менее чем на 30 процентов этих вопросов SASP, 28,2 процента вопросов с несколькими вариантами ответов и 26,7 процента открытых вопросов. Говорят, что чат-бот дал «неопределенные» ответы на несколько вопросов. В этих вопросах точность снизилась, когда LLM (Большая языковая модель) попросили уточнить свои ответы.
В отчете говорится, что для большинства открытых вопросов ChatGPT предоставил недостаточное объяснение. Ответы, данные ChatGPT, были длиннее ответов, предоставленных SASP, но, по словам авторов, «часто избыточны и цикличны по своей природе». «В целом, ChatGPT часто давал расплывчатые обоснования с широкими заявлениями и редко комментировал детали», — сказал доктор Дейберт.
Даже получив обратную связь, «ChatGPT постоянно повторял исходное объяснение, несмотря на то, что оно было неточным», — говорится в отчете.
Исследователи предполагают, что, хотя ChatGPT может хорошо справляться с тестами, требующими припоминания фактов, он, похоже, не справляется с вопросами, относящимися к клинической медицине, которые требуют «одновременного взвешивания множества перекрывающихся фактов.
«Учитывая, что ресурсы LLM ограничены человеческим обучением, необходимы дальнейшие исследования, чтобы понять их ограничения и возможности в различных дисциплинах, прежде чем они станут доступны для общего использования», — сказал доктор Дейберт.