Найти тему

GPT-4 теряет свое положение как "лучший" LLM по сравнению с Claude-3 в тесте LMSYS.


Исследователи из Калифорнийского университета в Беркли, Калифорнийского университета в Сан-Диего и Карнеги-Меллона создали Организацию по большим языковым системам (LMSYS Org или просто LMSYS), чтобы оценить большие языковые модели и чат-боты, которые их используют. Они используют систему рейтинга Эло, чтобы сравнивать модели LLM друг с другом. Модель LLM от OpenAI была смещена с первого места, когда Claude 3 Opus от Anthropic обошел GPT-4 с небольшим преимуществом. Возможно, даже более впечатляющим является попадание Haiku в десятку лучших.
GPT-4 теряет свое положение как "лучший" LLM по сравнению с Claude-3 в тесте LMSYS.
Около минуты