Вышел open-source бенчмарк CL-bench - и это не просто очередной датасет, а попытка сдвинуть фокус всей индустрии. Tencent HY совместно с Fudan University выпустили новую работу: “CL-bench: A Benchmark for Context Learning” - системный бенчмарк для оценки того, *насколько модели реально умеют думать в контексте*, а не просто вспоминать выученное. Это первый ресерч-релиз команды Vinces Yao после его перехода в Tencent - и по амбициям видно, что ребята метят в фундаментальные изменения. Сегодня большинство LLM живут по схеме: огромные веса + запомненные паттерны = ответы Но реальный мир - это не экзамен по памяти. Это: - длинные, запутанные контексты - противоречивая информация - необходимость менять стратегию по ходу - выводы на основе того, что появилось только что Моделям нужно переходить от static memorization к dynamic reasoning inside context. CL-bench как раз проверяет это место разлома: - как модель использует контекст, а не только веса - умеет ли она обновлять понимание -