Николас Тиллер (Nicholas Tiller) из Калифорнийского университета в Лос-Анджелесе с коллегами из Великобритании, Канады и США провел эксперимент и пришел к выводу, что популярные чат-боты на основе больших языковых моделей с большой уверенностью отвечают на медицинские вопросы, но дают проблематичные ответы почти в половине случаев. Исследователи в феврале 2025 года задали по 10 вопросов (как закрытых, так и открытых) на пять медицинских тем (рак, вакцины, стволовые клетки, питание и спортивная подготовка) чат-ботам Gemini, DeepSeek, Meta AI*, ChatGPT и Grok. Ответы оценивали по два эксперта в каждой категории на основании объективных установленных критериев. Результаты опубликованы в журнале BMJ Open. Эксперты оценили как проблематичные 49,6 процента ответов чат-ботов — 30 процентов как несколько проблематичные и 19,6 процента как высоко проблематичные. Качество ответов значимо не различалось у разных чат-ботов (p = 0,566), но Grok давал больше высоко проблематичных ответов, чем ожидал
Чат-боты уверенно дали проблематичные ответы на половину медицинских вопросов
16 апреля16 апр
49
1 мин