Недавно наткнулась на исследование, где сравнивали три сильнейшие модели для генерации кода: Anthropic Claude Opus 4, Google Gemini 2.5 Pro и OpenAI O4-Mini-High. Причем оценивали не скорость работы и способность выдать работающий результат, а качество и эффективность. Кому интересен первоисточник – вот он https://arxiv.org/abs/2508.13757. Результат оказался любопытным. Все модели хорошо справлялись с задачей «чтобы работало», зато когда исследователи начали смотреть на эффективность и поддерживаемость кода, оценки резко просели. Перевожу с программистского на человеческий: представьте, что вам нужно зайти в дом. Можно открыть дверь ключом, а можно по приставной лестнице залезть на чердак и оттуда уже спуститься вниз. Оба варианта рабочие, но второй довольно странный, согласитесь? Так вот ИИ часто пишет код именно по второму сценарию. В итоге задача, конечно, решается, но ресурсов тратиться неоправданно много и логика более чем экзотичная. Это что касается эффективности. С поддерживаем
Почему я отношусь к AI-ассистентам как младшим разработчикам
ВчераВчера
9
2 мин