Команда Backslash Security представила исследование, в котором была проверена способность генеративных языковых моделей справляться с задачей создания безопасного программного кода. Специалисты изучили поведение семи актуальных версий LLM от OpenAI, Anthropic и Google. Проверку проводили при помощи разных формулировок запросов, от самых простых до ориентированных на соблюдение признанных практик безопасной разработки. По итогам тестирования выяснилось, что даже известные и широко применяемые ИИ-системы создают код с критичными изъянами. Особенно это проявлялось в случаях, когда запросы были составлены без уточнений, касающихся защиты данных или предотвращения типичных уязвимостей. Но даже если авторы запросов специально акцентировали внимание на необходимости соответствия стандартам безопасности, LLM по-прежнему генерировали небезопасные решения. В отчёте указано, что речь идёт о распространённых уязвимостях: внедрение системных команд, XSS-уязвимости как на стороне сервера, так и в по