Современные AI-компании, особенно те, которые стремительно выходят на международный рынок, часто становятся центром внимания не только благодаря инновационным разработкам, но и из-за уязвимостей, связанных с безопасностью. Именно так и произошло с китайским стартапом DeepSeek, чьи открытые порты на базе данных ClickHouse позволяли получить доступ к конфиденциальной внутренней информации, включая логи, ключи и историю чатов. И хотя утечка оперативно была устранена, сама ситуация вызывает массу вопросов о том, как индустрия должна защищать себя в эпоху тотальной цифровизации.
Предыстория: инновации в мире искусственного интеллекта
DeepSeek уже успела привлечь к себе внимание благодаря своему революционному ИИ-решению — DeepSeek-R1, которое по производительности готово составить конкуренцию лидерам рынка. Особенно компанию выделяют:
🤖 Высокая эффективность – ИИ-модель обещает выдавать результаты быстрее аналогов.
💡 Экономичность – стоимость вычислительных ресурсов ниже, чем у большинства конкурентов.
🏆 Сопоставимое качество – качество обработки данных сопоставимо с лучшими продуктами на рынке.
Однако наряду с инновационными достижениями пришла и известность по совершенно иной причине — из-за ошибки в конфигурации базы данных.
Что произошло: утечка через открытый ClickHouse
ClickHouse — это высокопроизводительная колонно-ориентированная СУБД с открытым исходным кодом, созданная для работы с огромными массивами логов и аналитических данных. Однако даже самая мощная система бессильна, если забыть про базовые меры безопасности.
Небольшой экскурс в суть произошедшего:
🔍 Обнаружение: Исследователи из Wiz, занимаясь стандартной проверкой внешних хостов DeepSeek, наткнулись на два подозрительных открытых порта (8123 и 9000) по адресам oauth2callback.deepseek.com и dev.deepseek.com.
🔓 Доступ без авторизации: Порты позволяли заходить в панель ClickHouse напрямую и выполнять произвольные SQL-запросы без необходимости вводить логин и пароль.
💬 Объём данных: В свободном доступе оказались более миллиона строк логов, включая историю чатов, ключи API, внутренние директории и пути к бэкенду.
⚠️ Риск эскалации: Помимо утечки ценной информации, злоумышленники могли бы потенциально изменить или удалить данные, а также получить доступ к другим сервисам внутри инфраструктуры.
С точки зрения технической реализации, ClickHouse предоставляет веб-интерфейс /play, позволяющий выполнять SQL-запросы и просматривать таблицы через браузер. В этом случае таблица log_stream содержала наибольшее количество “лакомых” для атаки полей: таймстемпы, названия сервисов, plaintext-логи с паролями, API-ключами и историей чатов.
Личное мнение: почему безопасность часто «проваливается»
Простой ответ: скорость развития технологий опережает скорость формирования культуры безопасности. Когда стартап находится в режиме гиперроста и пытается поскорее вывести уникальные продукты на рынок, вопросы комплексной безопасности часто откладываются на потом.
Есть несколько причин, почему это происходит:
💼 Фокус на MVP (Minimum Viable Product - минимально жизнеспособный продукт): Многие AI-компании стремятся как можно быстрее вывести минимально жизнеспособный продукт, чтобы привлечь инвесторов и пользователей. В результате конфигурации «по умолчанию» могут оставаться без должного контроля.
🙈 Затраты на безопасность: Надёжная защита инфраструктуры требует ресурсов, квалифицированных специалистов и дополнительных инструментов мониторинга — это всё чаще рассматривается как «издержка», а не как «инвестиция».
🌐 Длинная цепочка поставщиков: Современные AI-сервисы полагаются на множество сторонних библиотек, облачных сервисов и open-source решений. Даже если основное приложение безопасно, «шлюзы» к базе данных могут оказаться уязвимыми.
Технические детали: почему утечка в ClickHouse так опасна
Для хранения логов и высоконагруженной аналитики ClickHouse обычно разворачивают с учётом сложных политик безопасности, ведь:
🔐 Шифрование: Желательно настраивать TLS-соединения и ограничивать доступ на уровне сетевых ACL (Access Control List - список контроля доступа) или VPN.
🛡️ Аутентификация: Даже при обычном “демо”-режиме система должна требовать не только логин/пароль, но и иметь ограничения по IP.
📂 Права на файлы: В ClickHouse можно «вытаскивать» локальные файлы с сервера через запросы SELECT * FROM file('filename'), что делает брешь ещё опаснее.
Если всё это не настроено должным образом, исход может быть плачевным — от кражи интеллектуальной собственности до полного паралича бизнеса.
Последствия и уроки для индустрии
Один случай — это яркое напоминание, что не стоит недооценивать важность правильной конфигурации и непрерывного мониторинга безопасности. Мой личный вывод: будь ты амбициозный стартап или международная корпорация, любая уязвимость может обернуться репутационным и финансовым ущербом.
Итак, что стоит делать:
✅ Постоянные аудиты: Регулярные сканирования портов и уязвимостей, автоматизированные средства обнаружения открытых сервисов.
✅ Безопасные инфраструктуры: Контейнеризация, сегментация сети, zero-trust-модель, сетевые ACL, SSL/TLS — всё это не роскошь, а необходимость.
✅ Просвещение команды: Обучение сотрудников базовым принципам безопасности, чтобы все понимали риски, связанные с неправильной конфигурацией.
Заключение
Случай с DeepSeek — это напоминание о том, что сфера искусственного интеллекта не застрахована от классических проблем кибербезопасности. В погоне за новым революционным решением разработчики и инвесторы нередко забывают о банальных вещах вроде закрытия лишних портов и использования надёжной аутентификации.
Но основной урок, по моему мнению, заключается в том, что даже выдающиеся технологические решения должны идти рука об руку с надёжной защитой. Ведь доверие к компании сегодня — это не только вера в её инновации, но и уверенность, что наши данные останутся в безопасности.
Ссылки на новость и дополнительные материалы
Wiz Research Uncovers Exposed DeepSeek Database Leaking Sensitive Information, Including Chat History
Wiz.io — официальный сайт
Если хотите углубиться в тему безопасности ClickHouse и общих практик защиты AI-сервисов, стоит ознакомиться с рекомендованными материалами на сайте Wiz и другими источниками, посвящёнными облачным решениям и data security.