179 подписчиков

Веселые картинки авторства нейронной сети

10 ноября 202210 ноя 2022

4 мин

Оглавление

Генерация и распознавание образов
План эксперимента

Генерация и распознавание образов

Подавляющая часть задач, которые можно возложить на системы искусственного интеллекта, сводится к распознаванию образов. Примеры:

техническое зрение видеорегистратора при активации функции "контроль полосы" (если есть): нужно распознать границы полос в кадре (если есть, опять же)
знаменитый FineReader и его аналоги
преобразование звуковой речи в текст: сводится к спектральному преобразованию коротких фрагментов (фреймов) по быстрому алгоритму Фурье и сопоставлению фонем из базы языка, а потом фонемный текст преобразуется с переменным успехом в письменный
диагностика сводится к распознаванию состояния объекта управления, хотя для неё необязательно использовать интеллектуальные алгоритмы, но когда история наблюдений превращается в большие данные, это актуально

Примеров можно много привести. Например, в эпоху до облачных технологий, когда ещё и смартфонов не было, определённую нишу занимала программа-переводчик Magic Goody. Её можно было натренировать на выполнение голосовых команд компьютеру с помощью эталонных фраз. Также можно вспомнить наладонники - предки современных смартфонов - часто оснащались системами распознавания рукописного ввода. И работало всё это локально, так как мобильный интернет 15-20 лет назад был развит несравнимо слабее, а в половине квартир и Wi-Fi был в диковинку. Я впервые купил Wi-Fi маршрутизатор в 2011 году, когда сделали ремонт в родительской квартире и не захотели опутывать её витой парой.

Помимо распознавания, возможна обратная задача, что демонстрируют набравшие популярность голосовые помощники и программы озвучки текста. Во многих планшетах и смартфонах на Android с завода установлен синтезатор речи Google. Не только для функции TalkBack: его могут использовать большинство программ чтения электронных книг вроде FBReader.

Если с генерацией речи компьютеры научились худо-бедно справляться, то с изображениями сложнее. В теории информационных процессов, которая является одной из ключевых дисциплин на моей кафедре, на конкретных примерах показывается, что информационная ёмкость изображения больше информационной ёмкости текста. Даже чёрно-белого изображения с телевизионным разрешением середины прошлого века 📺.

Поэтому если мы просим нейросеть нарисовать "чудо-чудное да диво-дивное", информация из запроса будет разбита на действующие сущности (стемминг и парсинг), затем преобразована в вектор относительно словаря системы. Картины из учебной выборки, векторы которых окажутся ближе всего к запросу, активируют нейроны, которые нарисуют часть фрагментов. А всё остальное, на что информации не хватило, нейросети придётся "додумать", и образы на выходе можно получить причудливые мягко говоря 😎, что в предыдущем посте и было. Один из моих любимых писателей - Станислав Лем - предсказал появление машинного творчества, назвав его "бредом спящих машин". Почти в яблочко!

План эксперимента

К творчеству Лема мы ещё сегодня вернёмся, а пока в защиту чести нейросети, которой я посылал запросы в Telegram, нужно сказать, что она и не скрывает своего устаревания. Да и запросы я отправлял довольно дикие:

казаки играют панк-рок на банджо
украинец на боевой свинье спасается от гиперзвуковой ракеты
инопланетяне похищают Трампа
европеец мёрзнет без газа

Были и другие, но их результаты в пост не включал: не понравилось! Выданные образы были как графика игры Scorn (Презрение!) по мотивам картин Ганса Гигера, автора образа "Чужого". Может быть, игру тоже искусственная нейросеть нарисовала, "насмотревшись" картин Гигера?

Нейросети могут видео создавать по запросу. Можно найти ролик "Эволюция человека", который заканчивается пусть не на таком зловещем образе, как на картинке выше, но точно превращением человека в нечто биомеханическое, похожее на инопланетян-строггов из другой игры - Quake 2 и 4.

Бот предлагал переключится на более совершенный вариант, доступный в голосовом помощнике "Салют" от Сбера. Поэтому дальнейший эксперимент будет проведёт с Салютом.

В качестве запросов на создание картин возьмём список выше и добавим в него ещё, чтобы было 10 штук в сумме. Алгоритм работы в Салюте отличается от предыдущей системы тем, что если телеграм-бот "заказывает" создание трёх картин, то здесь присылают матрицу из девяти миниатюр. Затем можно выбрать варианты для отрисовки в большем размере, что в терминах бота означает "отправить на улучшение". Картины из одного запроса будут представлены в отдельных галереях. Хотя бы одну буду улучшать и описывать по-своему. Итак, поехали!

1. Казаки играют панк-рок на банджо