19,7 тыс подписчиков

БОЛЬШЕ ДАННЫХ БОГУ ДАННЫХ.

Сейчас буду говорить умное, но вы не уходите - постараюсь очень-очень доступно, потому что это чертовски интересно.

Наверняка вы слышали про "искусственный интеллект", который умеет "создавать" картинки. На самом деле под капотом этого чуда находятся математические методы распознавания образов, в частности - нейросети, ноги которых растут из теории первой половины прошлого века.

"Нейросеть" звучит очень заумно и по-терминаторовски (все помнят Skynet из "Терминатора"?), но на самом деле её можно вполне описать и не согрешить против истины таким простым определением: это математическая модель, которой показывают много-много образов, по свойствам которых она учится распознавать конкретные события.

В начале 2000-х мы одним из первых в мире применяли такие методы в кибербезопасности и сейчас без ложной скромности можем называться одним из мировых лидеров по машинному распознаванию кибератак. Действительно, если машине показать десятки миллионов образцов вредоносного кода, да потом сделать с ней "работу над ошибками", то она с высокой эффективностью сможет искать неизвестные зловреды или аномалии, которые к ним приведут.

Но я отвлёкся.

Современные системы генерации изображений, использующих алгоритмы машинного обучения (DALL-E, Imagen и Stable Diffusion) на чём "обучаются"? На настоящих образах, в том числе собранных из Интернета без какого-либо соблюдения авторских прав.

Общественные дебаты и судебные разбирательства вокруг этичности генеративного искусства — это крайне любопытная дискуссия, попытка нащупать баланс между творческими людьми и разработчиками новых технических решений. С одной стороны, авторские права должны соблюдаться. С другой, в нормальной ситуации так уж ли «компьютерное искусство» отличается от «человеческого»? Ведь и в том, и в другом случае творцы так или иначе вдохновляются работами коллег и конкурентов.

Впрочем, я снова отвлёкся :)

Исследования свидетельствуют, что злоумышленники вполне могут добраться до первичного обучающего материала, который был использован для "прокачки" нейросетей! Иными словами, представьте себе какой-нибудь "умный помощник" сотового оператора в ответ на запросы пользователя выдает секретную корпоративную информацию: так уж вышло, что она попала в набор данных для обучения! Или, например, по какому-то хитрому запросу публичная нейросеть генерирует копию паспорта конкретного человека.

В общем, закупаем попкорн и ждём начала эпохи битвы нейросетей. Но совсем не по сценарию "Терминатора". Разумеется, это всё равно будет поединок человеческих умов: за каждой нейросетью стоит алгоритм, разработанный человеком. Надеюсь, вас это немного успокоит :)

Кому не хватило и хочется нырнуть в тему глубже - добро пожаловать на наш блог.

БОЛЬШЕ ДАННЫХ БОГУ ДАННЫХ. Сейчас буду говорить умное, но вы не уходите - постараюсь очень-очень доступно, потому что это чертовски интересно.

2 минуты

24 апреля 2023

264 читали