Нейросети и слив данных: когда начинать бояться?

13 мая13 мая

2 мин

Недавно обсуждала вопрос разработки с ИИ с нашим тимлидом. Он еще больший луддит чем я. Но, чтобы не быть голословным, на примере приложения одного мобильного оператора, расписал что, где и почему опасно. Дело в том, что GitHub Copilot, Cursor и другие привычные ИИ-инструменты работают не как обычный редактор кода. Им нужен контекст. А контекст — это не только пара строк, которые разработчик хочет дописать. Это могут быть логи, stacktrace, куски API, конфиги, структура проекта, иногда даже описание бизнес-логики. Все, что компания обычно старается держать внутри. И вот здесь появляется тот самый риск, который не очень видно на поверхности: 1. Формально код остается внутри, например, в закрытом GitLab. Но его фрагменты, техническая логика, ответы бэкенда или даже сценарии авторизации могут «уходить» во внешний сервис через рабочее место разработчика. Не потому что кто-то что-то специально сливает, а потому что инструменту нужен контекст, чтобы помочь и разработчик этот контекст дает. 2.

Дело в том, что GitHub Copilot, Cursor и другие привычные ИИ-инструменты работают не как обычный редактор кода. Им нужен контекст. А контекст — это не только пара строк, которые разработчик хочет дописать. Это могут быть логи, stacktrace, куски API, конфиги, структура проекта, иногда даже описание бизнес-логики. Все, что компания обычно старается держать внутри.

И вот здесь появляется тот самый риск, который не очень видно на поверхности:

1. Формально код остается внутри, например, в закрытом GitLab. Но его фрагменты, техническая логика, ответы бэкенда или даже сценарии авторизации могут «уходить» во внешний сервис через рабочее место разработчика. Не потому что кто-то что-то специально сливает, а потому что инструменту нужен контекст, чтобы помочь и разработчик этот контекст дает.

2. Эти историю очень трудно контролировать привычными способами. Код-ревью не покажет, какие именно данные были отправлены в ИИ до того, как появился итоговый коммит. Ответственность разработчика тоже не закрывает вопрос полностью, потому что это не про качество кода, а про границы проектной информации.

3. Если говорить совсем приземленно, в такие ИИ-инструменты могут улетать довольно чувствительные вещи: логика токенов, сценарии сессий, платёжные статусы, коды ошибок, конфиги, переменные окружения. В случае с нашим примером — мобильным оператором — это критично, потому что там на этих данных завязано все — от авторизации до тарифов и пользовательских данных.

Я это не к тому, чтобы «запретить ИИ и жить спокойно». Так уже не получится. Я за четкие правила игры. Про договоренности с сотрудниками и клиентом, ограничения на уровне процессов и ОСОЗНАННОЕ использование инструментов, а не «включили и поехали». Потому что в противном случае вместе с удобством появляется еще один внешний канал доступа к данным, который совсем здесь лишний.

Да, для маленьких проектов, например, узкопрофильных интернет-магазинов вопрос слива данных в ИИ можно проигнорировать. В конце концов, кому нужен локальный интернет-магазин, кроме его создателей и 10-20 тыс. клиентов?

Но вот с крупными проектами очень рекомендую задать себе и коллегам вопрос: а что именно мы сейчас отдаем нейросети и насколько скорость оправдывает риск?

Мария Орлова, генеральный ТехноФабрики

Подписывайтесь, будет больше честных и нескучных историй про разработку приложений и сайтов для бизнеса.

Гаджеты и электроника

5,73 млн интересуются