Тип: Туториал Источник: Habr Каждую неделю — «умнейшая модель» и «рекордный результат». Как за 10 минут отделить реальный прогресс от красиво упакованной рекламы? 💡 Главные тезисы: → Читайте системную карту, не пресс-релиз — там спрятаны условия тестов, число попыток и слабые места. Пример: при схожих результатах Gemini 3 Pro тратит 1 078 токенов/вопрос, Sonnet 4.6 — всего 246. Одинаковый балл, разная стоимость. → Сравнивайте по выходным токенам, а не входным. Если модель рассуждает — «токены мышления» идут как выход. Именно там сгорает бюджет в типичных задачах. → Тест производительности ≠ ваша задача. MMLU — общая эрудиция, SWE-bench — починка кода, ARC-AGI-2 — абстрактное мышление. Без методологии цифры ничего не значат. → «ИИ заберёт работу»: 89% компаний не увидели измеримого роста производительности за 3 года (исследование NBER, ~6000 топ-менеджеров). Klarna громко заменила сотни операторов ботами — и тихо вернула людей из-за жалоб на качество. 🔍 Наш комментарий: Рабочая сист