Спекулятивное декодирование в LM-Studio
В последнюю версию LM-Studio добавили новую функцию - спекулятивное декодирование. Мы джва года ее ждали. Ниже я расскажу, что это такое и как его использовать. Speculative decoding или, по-русски, спекулятивное декодирование - это метод ускорения генерации токенов большими языковыми моделями (LLM) за счет использования дополнительной модели меньшего размера. Спекулятивноедекодирования работает следующим образом. У вас есть две LLM с одинаковым словарем токенов, то есть нельзя использовать модели различных семейств, типа, llama и qwen, а вот llama-3...