В разработке LLM часто оказывается, что предел их возможностей упирается не в архитектуру или параметры, а в неожиданные эффекты «изнутри» механизма внимания. История с attention sinks — как раз из таких случаев. Любая модель-трансформер хранит в KV-кэше ключи и значения для всех токенов в контексте. Чтобы экономить память и ускорять инференс, инженеры применяют скользящее окно: старые токены выбрасываются, остаются только недавние. И вот сюрприз: стоит удалить самые первые токены (часто это [BOS], пробел или артикль), и модель моментально «сходит с ума» — перплексия взлетает, а текст превращается в белый шум. Исследователи заметили, что первые несколько токенов забирают на себя непропорционально много внимания почти во всех слоях. Это не случайность: softmax в механизме внимания заставляет распределять вес на все позиции, даже если они не нужны. Убираем их — рушится баланс в softmax, сеть теряет стабильность. Вместо полного скользящего окна — гибрид: Результат: LLaMA и другие модели д
🌀 Attention Sinks — маленькая деталь, которая спасает большие языковые модели
9 августа 20259 авг 2025
21
2 мин