Ранее обсуждали эту тему с автором методологии CALM из tencent. Современные LLM упираются в фундаментальное ограничение: они генерируют текст по одному токену за шаг. Чем длиннее ответ, тем больше последовательных шагов авторегрессии, и это плохо параллелится по своей природе. Авторы CALM предлагают сместить парадигму: вместо предсказания одного дискретного токена модель предсказывает один непрерывный вектор, который кодирует сразу чанк из K токенов. https://habr.com/ru/articles/1047034/
Моя первая статья на Хабр про CALM и его применение в HR сфере
14 июня14 июн
~1 мин