В мире ИИ мы привыкли ориентироваться на громкие лидерборды: кто обогнал кого в MMLU, GSM8K или HumanEval. Но вот Грэм Кинг сделал куда более интересный шаг — взял 130 реальных команд из своей bash-истории и прогнал их через разные модели. Не академические задачки, а вопросы, которые реально возникают у разработчика: от «как на Rust открыть сокет» до «какой пакет поставить в Fedora». Грэм написал скрипт на Rust, который через OpenRouter опрашивал разные LLM: Метрики были простые и практичные: Результаты он оценивал вслепую — не знал, какая модель дала какой ответ. Это убирает эффект предвзятости. И главное — все модели были «достаточно хороши», поэтому решающим фактором стала не точность, а цена и скорость. Мне кажется, это переломный момент. Мы входим в эпоху, где LLM перестают быть «чёрными ящиками с магией» и становятся инструментами с разными ТТХ — как процессоры или сетевые карты. Уже неважно, кто победил на абстрактном тесте. Важно: И тут открытые модели начинают играть первую ск