Найти в Дзене

Веселые картинки авторства нейронной сети

Оглавление

Генерация и распознавание образов

Подавляющая часть задач, которые можно возложить на системы искусственного интеллекта, сводится к распознаванию образов. Примеры:

  • техническое зрение видеорегистратора при активации функции "контроль полосы" (если есть): нужно распознать границы полос в кадре (если есть, опять же)
  • знаменитый FineReader и его аналоги
  • преобразование звуковой речи в текст: сводится к спектральному преобразованию коротких фрагментов (фреймов) по быстрому алгоритму Фурье и сопоставлению фонем из базы языка, а потом фонемный текст преобразуется с переменным успехом в письменный
  • диагностика сводится к распознаванию состояния объекта управления, хотя для неё необязательно использовать интеллектуальные алгоритмы, но когда история наблюдений превращается в большие данные, это актуально

Примеров можно много привести. Например, в эпоху до облачных технологий, когда ещё и смартфонов не было, определённую нишу занимала программа-переводчик Magic Goody. Её можно было натренировать на выполнение голосовых команд компьютеру с помощью эталонных фраз. Также можно вспомнить наладонники - предки современных смартфонов - часто оснащались системами распознавания рукописного ввода. И работало всё это локально, так как мобильный интернет 15-20 лет назад был развит несравнимо слабее, а в половине квартир и Wi-Fi был в диковинку. Я впервые купил Wi-Fi маршрутизатор в 2011 году, когда сделали ремонт в родительской квартире и не захотели опутывать её витой парой.

Помимо распознавания, возможна обратная задача, что демонстрируют набравшие популярность голосовые помощники и программы озвучки текста. Во многих планшетах и смартфонах на Android с завода установлен синтезатор речи Google. Не только для функции TalkBack: его могут использовать большинство программ чтения электронных книг вроде FBReader.

Если с генерацией речи компьютеры научились худо-бедно справляться, то с изображениями сложнее. В теории информационных процессов, которая является одной из ключевых дисциплин на моей кафедре, на конкретных примерах показывается, что информационная ёмкость изображения больше информационной ёмкости текста. Даже чёрно-белого изображения с телевизионным разрешением середины прошлого века 📺.

Поэтому если мы просим нейросеть нарисовать "чудо-чудное да диво-дивное", информация из запроса будет разбита на действующие сущности (стемминг и парсинг), затем преобразована в вектор относительно словаря системы. Картины из учебной выборки, векторы которых окажутся ближе всего к запросу, активируют нейроны, которые нарисуют часть фрагментов. А всё остальное, на что информации не хватило, нейросети придётся "додумать", и образы на выходе можно получить причудливые мягко говоря 😎, что в предыдущем посте и было. Один из моих любимых писателей - Станислав Лем - предсказал появление машинного творчества, назвав его "бредом спящих машин". Почти в яблочко!

План эксперимента

К творчеству Лема мы ещё сегодня вернёмся, а пока в защиту чести нейросети, которой я посылал запросы в Telegram, нужно сказать, что она и не скрывает своего устаревания. Да и запросы я отправлял довольно дикие:

  • казаки играют панк-рок на банджо
  • украинец на боевой свинье спасается от гиперзвуковой ракеты
  • инопланетяне похищают Трампа
  • европеец мёрзнет без газа

Были и другие, но их результаты в пост не включал: не понравилось! Выданные образы были как графика игры Scorn (Презрение!) по мотивам картин Ганса Гигера, автора образа "Чужого". Может быть, игру тоже искусственная нейросеть нарисовала, "насмотревшись" картин Гигера?

Органический биомеханический сюрреализм, пугающий, но атмосферный, как всё творчество Гигера
Органический биомеханический сюрреализм, пугающий, но атмосферный, как всё творчество Гигера

Нейросети могут видео создавать по запросу. Можно найти ролик "Эволюция человека", который заканчивается пусть не на таком зловещем образе, как на картинке выше, но точно превращением человека в нечто биомеханическое, похожее на инопланетян-строггов из другой игры - Quake 2 и 4.

Бот предлагал переключится на более совершенный вариант, доступный в голосовом помощнике "Салют" от Сбера. Поэтому дальнейший эксперимент будет проведёт с Салютом.

В качестве запросов на создание картин возьмём список выше и добавим в него ещё, чтобы было 10 штук в сумме. Алгоритм работы в Салюте отличается от предыдущей системы тем, что если телеграм-бот "заказывает" создание трёх картин, то здесь присылают матрицу из девяти миниатюр. Затем можно выбрать варианты для отрисовки в большем размере, что в терминах бота означает "отправить на улучшение". Картины из одного запроса будут представлены в отдельных галереях. Хотя бы одну буду улучшать и описывать по-своему. Итак, поехали!

1. Казаки играют панк-рок на банджо

😁

2. Украинец на боевой свинье спасается от гиперзвуковой ракеты

🐷

3. Инопланетяне похищают Трампа

Рунтрат Илипалин №9 - это кто? Вот это что ли 👉👽👈?

4. Европеец мёрзнет без газа

Крокодил в недоумении 🐱‍👤

5. Следующий король Великобритании

Сеть предсказала грядущего носителя английской короны 👑

Теперь отойдём от политической темы. Обратимся к товрческому наследию Станислава Лема.

6. Космонавт на метеорите обогнал космический корабль

Предсказано развитие космической программы: дроны будут летать в космосе. Шахед-20-тысяч-136 наносит ответный удар 🚀

7. Хищный картофель воюет в открытом космосе

Приятного космического аппетита!🍟

8. Человек в плену у роботов отключил принцессу-роботессу

Это я не смог прокомментировать, потому что не смог интерпретировать... 🤖

И немного по мотивам Уильяма Форда Гибсона.

9. Синий муравей подслушивает переговоры журналистки

Синий муравей немного получился, а с журналисткой полный провал.

В заключение обычная жизненная ситуация:

10. Студент опоздал на занятия по робототехнике

Только представьте, что нарисованный нейросетью чувак произносит "Чего опаздываем?" 👆

Искусство должно быть понято народом! А что бы вы нарисовали?