Сегодня ИИ-ассистенты стали стандартом в ИТ-индустрии. Согласно недавнему опросу, 95% разработчиков используют нейросети как минимум раз в неделю, а три четверти специалистов доверяют алгоритмам не менее половины своей инженерной работы. На рынке уверенно лидируют такие инструменты, как Claude Code, GitHub Copilot и Cursor. Однако канадские учёные решили выяснить, насколько эти решения действительно надёжны на практике. Учёные под руководством аспиранта Дунфу Цзяна, студента Цзялинь Яна и доцента Вэньху Чэня протестировали 11 ведущих языковых моделей. Искусственному интеллекту предложили 44 задачи, охватывающие 18 различных форматов машиночитаемого кода – от базовых CSV, JSON и YAML до визуальных HTML, React и SVG. Именно эти форматы являются ключевым связующим звеном при внедрении сгенерированного кода в реальные конвейеры разработки. Результаты оказались весьма отрезвляющими. Лучшие проприетарные (закрытые коммерческие) модели смогли достичь точности лишь в 75%. Их аналоги с открытым