практически каждого современного LLM – это архитектура трансформера. - это скелет, который перемещает все эти числа. - это то, что превращает последовательности токенов и веса в предсказания. - разработано для данных последовательностей (например, языка). - трансформеры могут «оглядываться» на предыдущие токены и - решать, какие из них важны для следующего предсказания. - трансформеры работают слоями, снова и снова проходя по одному и тому же алгоритму. - каждый слой уточняет представление, используя внимание для фокусировки на важных частях входных данных и контекста. - каждый раз, когда генерируется новый токен, он проходит через этот стек слоёв – на каждом этапе. - внутри каждого слоя трансформера: - внутреннее внимание: определяет, какие предыдущие токены важны для текущего предсказания. - многослойные персептроны (MLP): дальнейшая обработка представлений токенов, добавление нелинейности и выразительности. - нормы и остатки слоёв: стабилизируют обучение и предсказание, делая Во
практически каждого современного LLM – это архитектура трансформера
6 октября 20256 окт 2025
1 мин