Искусственный интеллект делает заметный шаг от лабораторных тестов к реальной медицине. Новое исследование показало, что модель класса reasoning — OpenAI o1-preview — в ряде сценариев не только сопоставима с врачами, но и превосходит их при диагностике пациентов в отделениях неотложной помощи.
Ключевое отличие таких систем — способность к многошаговому рассуждению. В отличие от классических LLM вроде GPT-4, модель анализирует несколько гипотез, проверяет их и корректирует вывод перед финальным ответом. Это приближает её к клиническому мышлению, где диагноз формируется через последовательное исключение альтернатив. В контролируемых тестах на базе клиникопатологических кейсов из New England Journal of Medicine модель достигла точности около 89% для правильного или близкого диагноза, тогда как GPT-4 показал около 73%. Особенно заметен разрыв на сложных случаях — редких инфекциях, аутоиммунных заболеваниях и кардиологических патологиях. Наиболее показательной стала проверка в условиях, пр