Найти тему
miek

Атомное сердце будущего

"Я просто беру глыбу мрамора и отсекаю все лишнее, пока помощники не получат скульптуру с Алиэкспресса"
Зураб Микеланджелович Цифровители

Абсолютно невозможно предугадать, какие ошибки сделает нейросеть в простом вроде бы задании. Поэтому там, где робот будет рисовать картинки вместо человека, сразу появится другой человек, чтобы контролировать чугунного инвалида и заставлять его переделывать работу заново. Вот, например, как работает новейшая нейронка "Stable Diffusion 2.0":

Бородатый художник в джинсах рисует портрет женщины
Бородатый художник в джинсах рисует портрет женщины

Всего-то лишь - перепутала кто и кого рисует. Главное, джинсы на месте. Или вот такое:

Кабина грузовика без водителя
Кабина грузовика без водителя

Подумаешь, великая ошибка. Может, это пассажир такой - с куском руля в руке? Гораздо интереснее, когда ошибка такая тонкая, что второпях можно и пропустить:

Серый котенок играет с двумя белыми кроликами
Серый котенок играет с двумя белыми кроликами

Котенок, кролик - какая тебе разница, кожаный мешок? Вас много, я одна.

Самое слабое место генераторов "текст-картинка" всегда было в придании позы человеческому телу. Удивительно, что эту возможность вообще не отключают принудительно, ведь результаты через один вот такие вот:

Рука хирурга со скальпелем над пациентом
Рука хирурга со скальпелем над пациентом

И вот еще:

Золотые и медные монеты на ладони
Золотые и медные монеты на ладони

Даже когда робот старается изо всех сил:

Человеческие ноги в джинсах стоят на мокром асфальте
Человеческие ноги в джинсах стоят на мокром асфальте

Ноги есть, они в джинсах, они стоят, и даже мокрый асфальт на месте. Фуууух, человек, отстань - я все для тебя сделал!

Дело в том, что нейросеть обучают на большом, но конечном множестве картинок, к которым есть текстовое описание. Если в обучающем наборе была картинка, очень похожая на задание - результат будет блестящий. Но стоит немного отступить в сторону, и получите адовый треш:

Джинн плавает возле арабского юноши
Джинн плавает возле арабского юноши

Ну, не знает чугунявый робот про сказки с джиннами, и не видел, как они в воздухе плавают. Правда, откуда недо-Терминатор взял гроб плавающий, все равно непонятно.

Также очень плохо получается у нейронок комбинировать предмет, качество и действие:

Восковая свеча в руке ребенка поджигает лист бумаги
Восковая свеча в руке ребенка поджигает лист бумаги

Особенно если добавить в задание дополнительное условие:

Картина со средневековым рыцарем висит на деревянной стене
Картина со средневековым рыцарем висит на деревянной стене

Я бы на такого коня не стал садиться. И еще:

Аквалангист ныряет с яхты
Аквалангист ныряет с яхты

Лицо персонажа как бы намекает, что издевательства над роботами когда-то будут жестоко наказываться.

Ну и всегда может оказаться, что в самом безобидном случае из недр компьютера вырвется что-то похуже "Сеятеля" Остапа Бендера:

Дикая кошка несет мертвую крысу в лесу
Дикая кошка несет мертвую крысу в лесу

Увеличиваем градус безумия:

Коричневая улитка ползет через морковку
Коричневая улитка ползет через морковку

С изображением техники на удивление все так же плохо (сразу вспоминаются "фрактальные кукумберы" из BirchPunk-а):

Биплан летит над современными самолетами
Биплан летит над современными самолетами

Сюжеты сказок я уже пробовал, но вот вам еще:

Король в короне и сверкающих доспехах едет на черном коне через городские ворота
Король в короне и сверкающих доспехах едет на черном коне через городские ворота

Почему вы недовольны? Царевна-лягушка была же, пусть будет король-лягушка.

А когда у робота сносит голову вообще, можно получить просто мусор:

Орда крыс следует за стариком, дудящим на флейте
Орда крыс следует за стариком, дудящим на флейте

ПРОДОЛЖЕНИЕ СЛЕДУЕТ. ЖДИТЕ ОТВЕТНОГО ГУДКА.