Добавить в корзинуПозвонить
Найти в Дзене
Цифровая Переплавка

✍️ Почему личные тесты LLM важнее, чем бенчмарки

В мире ИИ мы привыкли ориентироваться на громкие лидерборды: кто обогнал кого в MMLU, GSM8K или HumanEval. Но вот Грэм Кинг сделал куда более интересный шаг — взял 130 реальных команд из своей bash-истории и прогнал их через разные модели. Не академические задачки, а вопросы, которые реально возникают у разработчика: от «как на Rust открыть сокет» до «какой пакет поставить в Fedora». Грэм написал скрипт на Rust, который через OpenRouter опрашивал разные LLM: Метрики были простые и практичные: Результаты он оценивал вслепую — не знал, какая модель дала какой ответ. Это убирает эффект предвзятости. И главное — все модели были «достаточно хороши», поэтому решающим фактором стала не точность, а цена и скорость. Мне кажется, это переломный момент. Мы входим в эпоху, где LLM перестают быть «чёрными ящиками с магией» и становятся инструментами с разными ТТХ — как процессоры или сетевые карты. Уже неважно, кто победил на абстрактном тесте. Важно: И тут открытые модели начинают играть первую ск
Оглавление
На иллюстрации изображён мужчина в очках, сидящий за рабочим столом и указывающий на монитор с графиком сравнения LLM-моделей по скорости и стоимости. Рядом на столе лежит клавиатура, мышь и блокнот с заметками, создавая атмосферу аналитической работы.
На иллюстрации изображён мужчина в очках, сидящий за рабочим столом и указывающий на монитор с графиком сравнения LLM-моделей по скорости и стоимости. Рядом на столе лежит клавиатура, мышь и блокнот с заметками, создавая атмосферу аналитической работы.

В мире ИИ мы привыкли ориентироваться на громкие лидерборды: кто обогнал кого в MMLU, GSM8K или HumanEval. Но вот Грэм Кинг сделал куда более интересный шаг — взял 130 реальных команд из своей bash-истории и прогнал их через разные модели. Не академические задачки, а вопросы, которые реально возникают у разработчика: от «как на Rust открыть сокет» до «какой пакет поставить в Fedora».

🔧 Как он это сделал

Грэм написал скрипт на Rust, который через OpenRouter опрашивал разные LLM:

  • 🤖 Claude-Sonnet-4, Gemini 2.5 Pro/Flash, DeepSeek, Qwen, GLM-4.5, Kimi-K2;
  • ⚡ специализированные «кодеры» вроде Mercury-Coder и Qwen3-Coder.

Метрики были простые и практичные:

  • 💲 стоимость,
  • ⏱️ задержка до первого токена,
  • 📡 пропускная способность.

Результаты он оценивал вслепую — не знал, какая модель дала какой ответ. Это убирает эффект предвзятости.

📊 Итоги

  • Gemini 2.5 Flash и Mercury-Coder оказались самыми быстрыми и дешёвыми.
  • 💸 Gemini 2.5 Pro — дорогой и многословный, без заметного прироста качества.
  • 🧩 «Reasoning»-модели помогали только в креативе (например, написать поэму), но для кода и администрирования выигрывала скорость.
  • 🔓 Открытые модели (DeepSeek, Qwen, GLM) часто выдавали чище код, чем закрытые.

И главное — все модели были «достаточно хороши», поэтому решающим фактором стала не точность, а цена и скорость.

🧠 Моё мнение

Мне кажется, это переломный момент. Мы входим в эпоху, где LLM перестают быть «чёрными ящиками с магией» и становятся инструментами с разными ТТХ — как процессоры или сетевые карты. Уже неважно, кто победил на абстрактном тесте. Важно:

  • ⚙️ насколько модель подходит под твой сценарий;
  • 🕒 сколько времени она экономит;
  • 💲 можно ли задавать вопросы без оглядки на счёт.

И тут открытые модели начинают играть первую скрипку: они гибкие, быстрые и прозрачные. Закрытые же теряют аргументы, когда перестают выигрывать в качестве.

🔮 Вывод

В 2025 году уместно говорить не «какая LLM лучше», а «какая лучше для меня». И единственный способ это понять — провести собственные тесты на реальных задачах.

🔗 Источники: