217 подписчиков

✍️ Почему личные тесты LLM важнее, чем бенчмарки

24 августа 202524 авг 2025

1 мин

В мире ИИ мы привыкли ориентироваться на громкие лидерборды: кто обогнал кого в MMLU, GSM8K или HumanEval. Но вот Грэм Кинг сделал куда более интересный шаг — взял 130 реальных команд из своей bash-истории и прогнал их через разные модели. Не академические задачки, а вопросы, которые реально возникают у разработчика: от «как на Rust открыть сокет» до «какой пакет поставить в Fedora». Грэм написал скрипт на Rust, который через OpenRouter опрашивал разные LLM: Метрики были простые и практичные: Результаты он оценивал вслепую — не знал, какая модель дала какой ответ. Это убирает эффект предвзятости. И главное — все модели были «достаточно хороши», поэтому решающим фактором стала не точность, а цена и скорость. Мне кажется, это переломный момент. Мы входим в эпоху, где LLM перестают быть «чёрными ящиками с магией» и становятся инструментами с разными ТТХ — как процессоры или сетевые карты. Уже неважно, кто победил на абстрактном тесте. Важно: И тут открытые модели начинают играть первую ск

Оглавление

🔧 Как он это сделал
📊 Итоги
🧠 Моё мнение

На иллюстрации изображён мужчина в очках, сидящий за рабочим столом и указывающий на монитор с графиком сравнения LLM-моделей по скорости и стоимости. Рядом на столе лежит клавиатура, мышь и блокнот с заметками, создавая атмосферу аналитической работы.

В мире ИИ мы привыкли ориентироваться на громкие лидерборды: кто обогнал кого в MMLU, GSM8K или HumanEval. Но вот Грэм Кинг сделал куда более интересный шаг — взял 130 реальных команд из своей bash-истории и прогнал их через разные модели. Не академические задачки, а вопросы, которые реально возникают у разработчика: от «как на Rust открыть сокет» до «какой пакет поставить в Fedora».

🔧 Как он это сделал

Грэм написал скрипт на Rust, который через OpenRouter опрашивал разные LLM:

🤖 Claude-Sonnet-4, Gemini 2.5 Pro/Flash, DeepSeek, Qwen, GLM-4.5, Kimi-K2;
⚡ специализированные «кодеры» вроде Mercury-Coder и Qwen3-Coder.

Метрики были простые и практичные:

💲 стоимость,
⏱️ задержка до первого токена,
📡 пропускная способность.

Результаты он оценивал вслепую — не знал, какая модель дала какой ответ. Это убирает эффект предвзятости.

📊 Итоги

⚡ Gemini 2.5 Flash и Mercury-Coder оказались самыми быстрыми и дешёвыми.
💸 Gemini 2.5 Pro — дорогой и многословный, без заметного прироста качества.
🧩 «Reasoning»-модели помогали только в креативе (например, написать поэму), но для кода и администрирования выигрывала скорость.
🔓 Открытые модели (DeepSeek, Qwen, GLM) часто выдавали чище код, чем закрытые.

И главное — все модели были «достаточно хороши», поэтому решающим фактором стала не точность, а цена и скорость.

🧠 Моё мнение

Мне кажется, это переломный момент. Мы входим в эпоху, где LLM перестают быть «чёрными ящиками с магией» и становятся инструментами с разными ТТХ — как процессоры или сетевые карты. Уже неважно, кто победил на абстрактном тесте. Важно:

⚙️ насколько модель подходит под твой сценарий;
🕒 сколько времени она экономит;
💲 можно ли задавать вопросы без оглядки на счёт.

И тут открытые модели начинают играть первую скрипку: они гибкие, быстрые и прозрачные. Закрытые же теряют аргументы, когда перестают выигрывать в качестве.

🔮 Вывод

В 2025 году уместно говорить не «какая LLM лучше», а «какая лучше для меня». И единственный способ это понять — провести собственные тесты на реальных задачах.

🔗 Источники:

Пост Грэма Кинга: darkcoding.net/software/personal-ai-evals-aug-2025