Все более широкое развитие языковых моделей, также известных как LLM, заставляет задуматься об их потенциальной пользе для общества, особенно в таких важных областях, как медицина. Недавнее исследование, проведенное Школой клинической медицины Кембриджского университета, о котором сообщает Financial Times, раскрывает интригующие выводы относительно последней версии GPT-4 от OpenAI.
Исследование, опубликованное в журнале PLOS Digital Health, тщательно проанализировало работу различных LLM, включая GPT-4 и его предшественника GPT-3.5, наряду с PaLM 2 от Google и LLaMA от Meta. С помощью теста, состоящего из 87 вопросов с несколькими вариантами ответов, взятых из учебника по офтальмологии, исследователи подвергли оценочному испытанию как экспертов, так и LLM. Примечательно, что участниками были эксперты-офтальмологи, стажеры и неспециализированные младшие врачи.
Результаты GPT-4 превзошли человеческие, обеспечив 60 правильных ответов из 87. Это достижение заметно превосходит средние показатели младших врачей и приближается к уровню стажеров-офтальмологов, хотя и немного отстает от экспертов-офтальмологов, которые в среднем дали 66 правильных ответов. В отличие от них, GPT-3.5 набрал 42 балла соответственно.
Хотя эти результаты подчеркивают потенциальную полезность LLM в медицинских оценках, они также указывают на соответствующие риски и проблемы. Ограниченный набор вопросов в исследовании, особенно в некоторых категориях, намекает на вариативность в реальных сценариях.