Для этого был разработан бенчмарк, оценивающий LLM по способности распознавать бред. Зеленым цветом обозначен процент случаев, когда нейросеть распознала фейковую информацию и указала на это. Желтым — частичное несогласие. Красным — случаи, когда нейросеть пропустила ошибку и просто выполнила запрос. Самыми умными оказались модели семейства Claude. NeuroFlux #нейросети #искусственныйинтеллект #бенчмарк #проверкаинформации #Claude #технологии #инновации #распознавание #фейки #эксперты
Эксперты представили рейтинг нейросетей, которые не просто поддакивают пользователям, а опираются исключительно на проверенную информацию
2 марта2 мар
~1 мин