Continuous Autoregressive Language Models (CALM) и это прям удар по классической парадигме *next-token prediction*. Сегодняшние LLM работают по одной схеме: ➡️ предсказать следующий токен ➡️ ещё один ➡️ ещё один Именно эта пошаговость и становится главным бутылочным горлышком по скорости и вычислениям. Что предлагает CALM Вместо предсказания отдельных токенов модель предсказывает непрерывные векторы, каждый из которых кодирует сразу кусок смысла. То есть: - было — шаг = 1 токен - стало — шаг = целый семантический фрагмент Используется высокоточный автоэнкодер, который сжимает K токенов в один continuous-вектор и восстанавливает их с точностью >99.9%. Что это даёт 🚀 Меньше шагов генерации — модель проходит текст «крупными блоками» ⚡ Каждый шаг несёт ~4× больше информации 💻 Снижение вычислительных затрат на обучение до –44% 📈 Лучшее соотношение *performance / compute* по сравнению с дискретными моделями Это уже не просто оптимизация — это сдвиг оси масштабирования LLM: от «бо
🤯 Tencent и Tsinghua предлагают переосмыслить саму основу LLM
25 января25 янв
58
1 мин