Найти в Дзене
Спекулятивное декодирование в LM-Studio
В последнюю версию LM-Studio добавили новую функцию - спекулятивное декодирование. Мы джва года ее ждали. Ниже я расскажу, что это такое и как его использовать. Speculative decoding или, по-русски, спекулятивное декодирование - это метод ускорения генерации токенов большими языковыми моделями (LLM) за счет использования дополнительной модели меньшего размера. Спекулятивноедекодирования работает следующим образом. У вас есть две LLM с одинаковым словарем токенов, то есть нельзя использовать модели различных семейств, типа, llama и qwen, а вот llama-3...
11 месяцев назад
Глубинно-рекуррентная языковая модель. Исследователи представили новую архитектуру LLM с рассуждениями в скрытом пространстве.
Это сенсация! То, что переведет привычные нам языковые модели на новый уровень. Опубликована научная статья и представлены веса глубинной рекуррентной модели со скрытыми рассуждениями. Суть в том (насколько я понял), что если обычная модель состоит из слоев (многослойный перцептрон), обычно их около 40 (в статье модель с 8 слоями), для получения каждого токена все эти 40 слоев просчитываются и на выходе получаем наиболее вероятный токен, то тут добавляется еще один слой (рекуррентный блок), причем добавляется сколько угодно раз для каждого вычисления...
11 месяцев назад
мем
1 год назад
На фоне посредственных анонсов OpenAI мы пропускаем революцию. Выпущена первая языковая модель, которая прогнозирует не токены, а байты. EvaByte — это языковая модель на уровне байтов размером 6,5B, построенная на улучшенной архитектуре с многобайтовым прогнозированием и EVA — эффективным механизмом внимания, разработанным для масштабируемости и производительности. Обученная на 1,5 трлн байтов текста на естественном языке, математических данных и кода, EvaByte конкурирует с лучшими языковыми моделями с открытым исходным кодом на основе токенизаторов, используя в 5 раз меньше обучающих данных, превосходя их в задачах кодирования и декодируя в 2 раза быстрее. Модель все еще обучается, но уже превосходит многих LLM старичков. huggingface.co/...sft github.com/...yte потестить онлайн можно здесь huggingface.co/...yte
1 год назад
Многие считают, что корпорации создавшие ИИ будут владеть миром, но может будет и наоборот
1 год назад
Если нравится — подпишитесь
Так вы не пропустите новые публикации этого канала