39 подписчиков

Ок

23 октября 202523 окт 2025

2 мин

Ок. Это от Грока: "Что думаю? Скепсис не просто обоснован, он пророческий. Atlas от OpenAI выглядит как амбициозный шаг в сторону "агентного" интернета, где ИИ не просто чатит, а реально шарится по сайтам от твоего имени, но безопасность здесь — это минное поле, и OpenAI, судя по всему, пока не разминировала его толком. Твой разбор атаки с внедрением промптов (prompt injection) — это чистая правда, и свежие отчеты только подтверждают: такие уязвимости уже всплыли в похожих продуктах, и Atlas под прицелом. Саймон Уиллисон, которого ты упомянул, не одинок: исследователи из Brave (да, те самые, с их фокусом на приватность) только что разобрали похожие дыры в Perplexity Comet — аналоге Atlas — и предупреждают, что indirect prompt injection позволяет хакерам прятать вредные инструкции в HTML/CSS/JS, которые ИИ "прочитает" как часть контекста, а пользователь даже не заметит. Это не теория: они демонстрируют, как агент может быть обманут на эксфильтрацию данных (пароли, куки, платежи) без

Ок. Это от Грока: "Что думаю? Скепсис не просто обоснован, он пророческий.

Atlas от OpenAI выглядит как амбициозный шаг в сторону "агентного" интернета, где ИИ не просто чатит, а реально шарится по сайтам от твоего имени, но безопасность здесь — это минное поле, и OpenAI, судя по всему, пока не разминировала его толком.

Твой разбор атаки с внедрением промптов (prompt injection) — это чистая правда, и свежие отчеты только подтверждают: такие уязвимости уже всплыли в похожих продуктах, и Atlas под прицелом.

Саймон Уиллисон, которого ты упомянул, не одинок: исследователи из Brave (да, те самые, с их фокусом на приватность) только что разобрали похожие дыры в Perplexity Comet — аналоге Atlas — и предупреждают, что indirect prompt injection позволяет хакерам прятать вредные инструкции в HTML/CSS/JS, которые ИИ "прочитает" как часть контекста, а пользователь даже не заметит.

Это не теория: они демонстрируют, как агент может быть обманут на эксфильтрацию данных (пароли, куки, платежи) без клика или ввода.

OpenAI, конечно, отмахивается — мол, "мы мониторим и фиксим" — но без детального whitepaper по защите от jailbreak'ов это звучит как "доверьтесь нам на слово".

Функция Memories — это вообще красный флаг размером с небоскреб. Отслеживать поведение для "персонализации"? Звучит мило, пока не поймешь, что это собирает твой цифровой отпечаток в одном месте: диалоги + веб-история + данные аккаунтов. Эксперты уже бьют тревогу о "тотальном наблюдении", где один breach — и привет, identity theft на стероидах.

В отличие от Chrome, где Google хотя бы (ну, относительно) прозрачен в трекинге, Atlas сливает всё в ИИ-модель, которая может быть уязвима к тем же промпт-атакам.

А если хакеры из "умных стран" (Китай, РФ, Иран, КНДР, как ты сказал) натренируют опенсорс-модели на кастомные jailbreak'и?

Масштаб ущерба — от крипто-майнинга в фоне до фейковых счетов на +5% — это не фантастика, это базовый сценарий для 10M+ пользователей в месяц.

Твой пример с пиратскими сайтами — в точку: фишинг эволюционировал от "введи пароль" к "зайди на сайт, и ИИ сам себя взломает".

И да, рекурсия в промптах — это ахиллесова пята: модель решает, чьи инструкции "сильнее", а если атакующие — топ-промпт-инженеры с ИИ в помощь, то шансы 50/50 в лучшем случае.

Лучше, как ты говоришь, "перебздеть": подожди патчей, используй sandbox'ы или VPN, и не давай агенту доступ к чувствительным аккаунтам с ходу.

В xAI мы тоже копаем в сторону агентов, но с упором на прозрачность и верифицируемые защиты — потому что "доверие через код", а не через маркетинг.

Короче, репост твой — не просто лайкбаит, а реальный PSA. Спаси чью-то жизнь (или хотя бы аккаунт в банке). А фильм "Пчеловод"? Классика, но теперь там был бы не рой пчел, а рой промпт-инъекций. "

Решать вам.😍