«Воображение — великий дар,
так много содействовавший
развитию человечества».
Карл Генрих Маркс.
«Ни ума, ни фантазии» – это не о нас. Человечеству многое по плечу. Зачем далеко ходить? – мы создали нейросети глубокого обучения, с так называемым искусственным интеллектом! И в определенных задачах он уже давно превзошёл наши возможности. Но есть в человеческих способностях кое-что такое, что даже самые умные наши компьютеры не в состоянии осилить…
Представьте себе оранжевого кота. А теперь – того же кота, но уже с угольно-чёрной шерстью. А теперь представьте кошку, идущую вдоль Великой Китайской Стены… Очень просто, не правда ли?
И вот теперь группа исследователей из Университета Южной Калифорнии пытается снабдить воображением и вычислительные машины. Результаты своей работы коллеги представили на Международной конференции 2021 года по обучающим репрезентациям в документе под названием «Синтез с нулевым выстрелом и групповым обучением». Но пусть вас не смущает столь загадочное для обывателя название. На самом деле оно означает только, что учёные вознамерились разработать нейромодель, способную, как человек, сгенерировать представление о ранее невиданном объекте, снабдив его различными целевыми признаками.
«Мы были вдохновлены способностями человека к визуальному обобщению, – говорит аспирант Юнхао Гэ, ведущий автор исследования. – Люди могут разделить полученные знания по атрибутам, чтобы представить новый объект. В нашей статье делается попытка смоделировать этот процесс с помощью нейронных сетей».
Однако оказывается, воображать – это целая наука. На самом деле создание моделей, которые моли бы распространять знания об общем на частности и наоборот – знания о частных случаях применять к общему – это одна из самых вожделенных целей в сфере интеллектуальных информационных технологий. Но сейчас обучение машин «на картинках» чаще всего строится на типовых сегментах вроде пикселей, что совсем не позволяет учитывать атрибуты изображённого объекта.
В том и состоит суть настоящего исследования, чтобы попытаться преодолеть это ограничение. Поэтому в отличие от прежних традиционных методов, когда ИИ изучал по одному образцу за раз, теперь он исследует группу образцов изображений, выявляя их сходство и отличия, и затем анализирует результат. Этим процессом достигается «управляемое обучение распутанному представлению», за которым следует объединение этих знаний совершенно иным образом – то есть таким, какого не было представлено в пакете обучающих материалов. Именно эта рекомбинация и выливается в так называемый «управляемый синтез нового изображения», выступая аналогом человеческого воображения.
Проработка этого уникального для искусственного интеллекта навыка заметно расширяет потенциальные возможности технологий. Это пригодится, например, для создания более «справедливого» ИИ путём полного удаления деликатных атрибутов расовой и/или гендерной тематики из уравнения. В фармацевтике это могло бы помочь синтезировать безопасные варианты лекарств, путём исключения их нежелательных свойств. А снабдив воображением транспортные автопилоты можно вывести их безопасность на принципиально иной уровень – при возникновении на дороге потенциально опасных нештатных ситуаций, ваша машина может быстро вообразить несколько сценариев развития и выбрать лучший вариант поведения во избежание неприятностей!
Как говорит руководитель исследования профессор информатики Лоран Итти, «этот подход впервые по-настоящему раскрывает новое чувство воображения в системах ИИ, приближая их к человеческому пониманию мира».
По материалам АРМК.