1296 подписчиков
Очень полезный сайт для внедренцев ИИ нашел - ребята исследуют ИИ на предмет количества галлюцинаций (иными словами ошибок). Это очень важно для создания RAG- систем, чтобы не давать ложные или мутные ответы.
Позволю себе цитату:
"Наш новый индекс оценивает, насколько хорошо 22 ведущие модели придерживаются заданного контекста, помогая разработчикам принимать обоснованные решения о балансе между ценой и производительностью. Мы провели тщательное тестирование лучших LLM с вводом от 1 000 до 100 000 токенов, чтобы ответить на вопрос, насколько хорошо они работают в коротких, средних и длинных контекстах."
Кто победитель? Бесплатная китайская Qwen2-72B. В общем рекомендую изучить - там много показателей. Правда учтите, что там тесты были не на русском языке :)
Около минуты
6 августа 2024