Найти тему
1296 подписчиков

Очень полезный сайт для внедренцев ИИ нашел - ребята исследуют ИИ на предмет количества галлюцинаций (иными словами ошибок). Это очень важно для создания RAG- систем, чтобы не давать ложные или мутные ответы.


Позволю себе цитату:

"Наш новый индекс оценивает, насколько хорошо 22 ведущие модели придерживаются заданного контекста, помогая разработчикам принимать обоснованные решения о балансе между ценой и производительностью. Мы провели тщательное тестирование лучших LLM с вводом от 1 000 до 100 000 токенов, чтобы ответить на вопрос, насколько хорошо они работают в коротких, средних и длинных контекстах."

Кто победитель? Бесплатная китайская Qwen2-72B. В общем рекомендую изучить - там много показателей. Правда учтите, что там тесты были не на русском языке :)

Очень полезный сайт для внедренцев ИИ нашел - ребята исследуют ИИ на предмет количества галлюцинаций (иными словами ошибок).
Около минуты