1533 подписчика

📌 🧠 Как читать новости об ИИ и отличать прорыв от пресс-релиза

25 февраля25 фев

1 мин

Тип: Туториал Источник: Habr Каждую неделю — «умнейшая модель» и «рекордный результат». Как за 10 минут отделить реальный прогресс от красиво упакованной рекламы? 💡 Главные тезисы: → Читайте системную карту, не пресс-релиз — там спрятаны условия тестов, число попыток и слабые места. Пример: при схожих результатах Gemini 3 Pro тратит 1 078 токенов/вопрос, Sonnet 4.6 — всего 246. Одинаковый балл, разная стоимость. → Сравнивайте по выходным токенам, а не входным. Если модель рассуждает — «токены мышления» идут как выход. Именно там сгорает бюджет в типичных задачах. → Тест производительности ≠ ваша задача. MMLU — общая эрудиция, SWE-bench — починка кода, ARC-AGI-2 — абстрактное мышление. Без методологии цифры ничего не значат. → «ИИ заберёт работу»: 89% компаний не увидели измеримого роста производительности за 3 года (исследование NBER, ~6000 топ-менеджеров). Klarna громко заменила сотни операторов ботами — и тихо вернула людей из-за жалоб на качество. 🔍 Наш комментарий: Рабочая сист

Тип: Туториал

Источник: Habr

Каждую неделю — «умнейшая модель» и «рекордный результат». Как за 10 минут отделить реальный прогресс от красиво упакованной рекламы?

💡 Главные тезисы:

→ Читайте системную карту, не пресс-релиз — там спрятаны условия тестов, число попыток и слабые места. Пример: при схожих результатах Gemini 3 Pro тратит 1 078 токенов/вопрос, Sonnet 4.6 — всего 246. Одинаковый балл, разная стоимость.

→ Сравнивайте по выходным токенам, а не входным. Если модель рассуждает — «токены мышления» идут как выход. Именно там сгорает бюджет в типичных задачах.

→ Тест производительности ≠ ваша задача. MMLU — общая эрудиция, SWE-bench — починка кода, ARC-AGI-2 — абстрактное мышление. Без методологии цифры ничего не значат.

→ «ИИ заберёт работу»: 89% компаний не увидели измеримого роста производительности за 3 года (исследование NBER, ~6000 топ-менеджеров). Klarna громко заменила сотни операторов ботами — и тихо вернула людей из-за жалоб на качество.

🔍 Наш комментарий:

Рабочая система фильтрации ИИ-новостей без паники. Разбор стоимости токенов — особенно ценен: большинство по-прежнему смотрят только на входную цену. Конкретные примеры привязаны к моделям февраля 2026, но сам подход к чтению — универсален и не устареет.

#нейросети #ИИ #бенчмарки