138 подписчиков

Эксперты представили рейтинг нейросетей, которые не просто поддакивают пользователям, а опираются исключительно на проверенную информацию

2 марта2 мар

~1 мин

Для этого был разработан бенчмарк, оценивающий LLM по способности распознавать бред. Зеленым цветом обозначен процент случаев, когда нейросеть распознала фейковую информацию и указала на это. Желтым — частичное несогласие. Красным — случаи, когда нейросеть пропустила ошибку и просто выполнила запрос. Самыми умными оказались модели семейства Claude. NeuroFlux #нейросети #искусственныйинтеллект #бенчмарк #проверкаинформации #Claude #технологии #инновации #распознавание #фейки #эксперты

Эксперты представили рейтинг нейросетей, которые не просто поддакивают пользователям, а опираются исключительно на проверенную информацию. Для этого был разработан бенчмарк, оценивающий LLM по способности распознавать бред.

Зеленым цветом обозначен процент случаев, когда нейросеть распознала фейковую информацию и указала на это. Желтым — частичное несогласие. Красным — случаи, когда нейросеть пропустила ошибку и просто выполнила запрос.

Самыми умными оказались модели семейства Claude.

NeuroFlux

#нейросети #искусственныйинтеллект #бенчмарк #проверкаинформации #Claude #технологии #инновации #распознавание #фейки #эксперты