В последнюю версию LM-Studio добавили новую функцию - спекулятивное декодирование. Мы джва года ее ждали. Ниже я расскажу, что это такое и как его использовать. Speculative decoding или, по-русски, спекулятивное декодирование - это метод ускорения генерации токенов большими языковыми моделями (LLM) за счет использования дополнительной модели меньшего размера. Спекулятивноедекодирования работает следующим образом. У вас есть две LLM с одинаковым словарем токенов, то есть нельзя использовать модели различных семейств, типа, llama и qwen, а вот llama-3.2-70b и llama-3.2-3b или qwen2.5-coder-32B и qwen2.5-instruct-1B подходят. Основная модель - та у которой больше параметров. Вспомогательная модель, называемая черновик - модель с малым числом параметров, обычно 0,5B-7B. Без спекулятивного декодирования основная модель авторегрессивно генерирует токен за токеном, например, A -> A + B -> A B + C и т.д. При спекулятивном декодировании сначала модель черновик находит тем же авторегрессивны