Найти в Дзене
OVERCLOCKERS.RU

GPT-4 смог приблизиться к уровню врачей-экспертов в области офтальмологии

Все более широкое развитие языковых моделей, также известных как LLM, заставляет задуматься об их потенциальной пользе для общества, особенно в таких важных областях, как медицина. Недавнее исследование, проведенное Школой клинической медицины Кембриджского университета, о котором сообщает Financial Times, раскрывает интригующие выводы относительно последней версии GPT-4 от OpenAI. Исследование, опубликованное в журнале PLOS Digital Health, тщательно проанализировало работу различных LLM, включая GPT-4 и его предшественника GPT-3.5, наряду с PaLM 2 от Google и LLaMA от Meta. С помощью теста, состоящего из 87 вопросов с несколькими вариантами ответов, взятых из учебника по офтальмологии, исследователи подвергли оценочному испытанию как экспертов, так и LLM. Примечательно, что участниками были эксперты-офтальмологи, стажеры и неспециализированные младшие врачи. Результаты GPT-4 превзошли человеческие, обеспечив 60 правильных ответов из 87. Это достижение заметно превосходит средние показ

Все более широкое развитие языковых моделей, также известных как LLM, заставляет задуматься об их потенциальной пользе для общества, особенно в таких важных областях, как медицина. Недавнее исследование, проведенное Школой клинической медицины Кембриджского университета, о котором сообщает Financial Times, раскрывает интригующие выводы относительно последней версии GPT-4 от OpenAI.

Исследование, опубликованное в журнале PLOS Digital Health, тщательно проанализировало работу различных LLM, включая GPT-4 и его предшественника GPT-3.5, наряду с PaLM 2 от Google и LLaMA от Meta. С помощью теста, состоящего из 87 вопросов с несколькими вариантами ответов, взятых из учебника по офтальмологии, исследователи подвергли оценочному испытанию как экспертов, так и LLM. Примечательно, что участниками были эксперты-офтальмологи, стажеры и неспециализированные младшие врачи.

Результаты GPT-4 превзошли человеческие, обеспечив 60 правильных ответов из 87. Это достижение заметно превосходит средние показатели младших врачей и приближается к уровню стажеров-офтальмологов, хотя и немного отстает от экспертов-офтальмологов, которые в среднем дали 66 правильных ответов. В отличие от них, GPT-3.5 набрал 42 балла соответственно.

Хотя эти результаты подчеркивают потенциальную полезность LLM в медицинских оценках, они также указывают на соответствующие риски и проблемы. Ограниченный набор вопросов в исследовании, особенно в некоторых категориях, намекает на вариативность в реальных сценариях.