Почему русских называют кацапами и что это значит
📌 Тайная слабость нейросетей: почему большие окна работают хуже
Что произошло: Исследование Mechanistic Interpretability показало — увеличение context window не линейно улучшает качество. Модели «теряют» информацию из середины длинных контекстов (middle missing problem). Attention механизм неравномерно распределяет веса — начало и конец окна запоминаются хорошо, середина — нет. Если просто: LRUs (Long Rotation Units) как в холодильнике — свежие продукты видны, а что лежит в середине — забывается. Большой холодильник не значит лучший. Что это значит для тебя: • ML Engineers: при проектировании pipeline важно класть critical info в start/end...