11,4 тыс подписчиков

🤯 Tencent и Tsinghua предлагают переосмыслить саму основу LLM

25 января25 янв

1 мин

Continuous Autoregressive Language Models (CALM) и это прям удар по классической парадигме *next-token prediction*. Сегодняшние LLM работают по одной схеме: ➡️ предсказать следующий токен ➡️ ещё один ➡️ ещё один Именно эта пошаговость и становится главным бутылочным горлышком по скорости и вычислениям. Что предлагает CALM Вместо предсказания отдельных токенов модель предсказывает непрерывные векторы, каждый из которых кодирует сразу кусок смысла. То есть: - было — шаг = 1 токен - стало — шаг = целый семантический фрагмент Используется высокоточный автоэнкодер, который сжимает K токенов в один continuous-вектор и восстанавливает их с точностью >99.9%. Что это даёт 🚀 Меньше шагов генерации — модель проходит текст «крупными блоками» ⚡ Каждый шаг несёт ~4× больше информации 💻 Снижение вычислительных затрат на обучение до –44% 📈 Лучшее соотношение *performance / compute* по сравнению с дискретными моделями Это уже не просто оптимизация — это сдвиг оси масштабирования LLM: от «бо

Continuous Autoregressive Language Models (CALM) и это прям удар по классической парадигме *next-token prediction*.

Сегодняшние LLM работают по одной схеме:

➡️ предсказать следующий токен

➡️ ещё один

Именно эта пошаговость и становится главным бутылочным горлышком по скорости и вычислениям.

Что предлагает CALM

Вместо предсказания отдельных токенов модель предсказывает непрерывные векторы, каждый из которых кодирует сразу кусок смысла.

То есть:

- было — шаг = 1 токен

- стало — шаг = целый семантический фрагмент

Используется высокоточный автоэнкодер, который сжимает K токенов в один continuous-вектор и восстанавливает их с точностью >99.9%.

Что это даёт

🚀 Меньше шагов генерации — модель проходит текст «крупными блоками»

⚡ Каждый шаг несёт ~4× больше информации

💻 Снижение вычислительных затрат на обучение до –44%

📈 Лучшее соотношение *performance / compute* по сравнению с дискретными моделями

Это уже не просто оптимизация — это сдвиг оси масштабирования LLM:

от «больше параметров» к «больше семантики на шаг».

Главный вывод работы:

предсказание в пространстве смысловых векторов может стать дорогой к ультра-эффективным языковым моделям, а не бесконечная гонка за токенами.

Если подход взлетит в проде - это один из самых серьёзных архитектурных апгрейдов LLM за последние годы.

Статья: https://arxiv.org/abs/2510.27688

Код: https://github.com/shaochenze/calm

Гаджеты и электроника

5,73 млн интересуются