Найти в Дзене

#news На фоне попыток LLM-гигантов выкатить услуги по медицинскому диагностированию от ИИ, своевременное исследование по их эффективности

И с ней совсем не очень: как только юзер подключается к самодиагностированию, карточный домик кремниевого гения начинает сыпаться. Цифры говорят за себя: пока по клиническому сценарию работал исследователь (он же опытный врач), точность LLM’ки в определении диагноза достигала 94,9%. А вот стоило подпустить к ней юзера, и цифра просела до 34,5%. Сюрприз-сюрприз: пользователь не разбирается в медицине, LLM-попугай в сущности тоже ничего о ней не знает, и когда у этих двоих мозговой штурм, результат соответствует. Выводы в целом бьются с эмпирическими данными: когда с LLM’кой взаимодействует профессионал, понимающий, что он делает — польза в работе заметная. А если это делает кто-то некомпетентный — получается вайбкодинг. И соответственно, диагнозы по Гуглу. Кто-нибудь удивлён? @tomhunter

#news На фоне попыток LLM-гигантов выкатить услуги по медицинскому диагностированию от ИИ, своевременное исследование по их эффективности. И с ней совсем не очень: как только юзер подключается к самодиагностированию, карточный домик кремниевого гения начинает сыпаться.

Цифры говорят за себя: пока по клиническому сценарию работал исследователь (он же опытный врач), точность LLM’ки в определении диагноза достигала 94,9%. А вот стоило подпустить к ней юзера, и цифра просела до 34,5%. Сюрприз-сюрприз: пользователь не разбирается в медицине, LLM-попугай в сущности тоже ничего о ней не знает, и когда у этих двоих мозговой штурм, результат соответствует. Выводы в целом бьются с эмпирическими данными: когда с LLM’кой взаимодействует профессионал, понимающий, что он делает — польза в работе заметная. А если это делает кто-то некомпетентный — получается вайбкодинг. И соответственно, диагнозы по Гуглу. Кто-нибудь удивлён?

@tomhunter