Granite 4.1: как IBM заставила 8B параметров работать как 32B — и почему это вообще возможно
29 апреля IBM выкатила семейство Granite 4.1 под Apache 2.0 — три плотные модели на 3B, 8B и 30B параметров. Заголовок релиза, который повторяют все: 8B-инструкт стабильно догоняет или обходит собственную предыдущую модель IBM Granite 4.0-H-Small на 32B параметров (9B активных при MoE-архитектуре). И делает это плотным декодером без всяких трюков — ни Mixture-of-Experts, ни расширенным рассуждением (extended reasoning). Та же простая архитектура, в которой каждый параметр работает на каждом токене...