Найти в Дзене
Работа в кармане

Освободят ли иллюстраторов от работы генераторы преобразования текста в изображения с помощью ИИ?

Технологические фирмы стремятся создать алгоритмы искусственного интеллекта , которые могут создавать высококачественные изображения из текстовых подсказок, при этом технология, кажется, развивается так быстро, что некоторые предсказывают, что люди-иллюстраторы и стоковые фотографы скоро останутся без работы. На самом деле ограничения этих систем ИИ означают, что, вероятно, пройдет некоторое время, прежде чем они смогут использоваться широкой публикой. Генераторы преобразования текста в изображение, использующие нейронные сети, в последние годы добились значительного прогресса. Последний, Imagen от Google, идет по пятам за DALL-E 2 , который был анонсирован OpenAI в апреле. В обеих моделях используется нейронная сеть, обученная на большом количестве примеров для категоризации того, как изображения соотносятся с текстовыми описаниями. Получив новое текстовое описание, нейронная сеть многократно генерирует изображения, изменяя их до тех пор, пока они не будут наиболее точно соответство

Технологические фирмы стремятся создать алгоритмы искусственного интеллекта , которые могут создавать высококачественные изображения из текстовых подсказок, при этом технология, кажется, развивается так быстро, что некоторые предсказывают, что люди-иллюстраторы и стоковые фотографы скоро останутся без работы.

На самом деле ограничения этих систем ИИ означают, что, вероятно, пройдет некоторое время, прежде чем они смогут использоваться широкой публикой.

Примеры изображений, созданных Google Imagen AI 
Изображениен/Гугл
Примеры изображений, созданных Google Imagen AI Изображениен/Гугл

Генераторы преобразования текста в изображение, использующие нейронные сети, в последние годы добились значительного прогресса. Последний, Imagen от Google, идет по пятам за DALL-E 2 , который был анонсирован OpenAI в апреле.

В обеих моделях используется нейронная сеть, обученная на большом количестве примеров для категоризации того, как изображения соотносятся с текстовыми описаниями.

Получив новое текстовое описание, нейронная сеть многократно генерирует изображения, изменяя их до тех пор, пока они не будут наиболее точно соответствовать тексту на основе того, что она узнала.

Хотя изображения, представленные обеими фирмами, впечатляют, исследователи задаются вопросом, были ли результаты тщательно отобраны, чтобы показать системы в лучшем свете.

Одна из проблем при оценке этих творений ИИ заключается в том, что обе фирмы отказались выпустить публичные демонстрации, которые позволили бы исследователям и другим людям испытать их. Одной из причин этого является опасение, что ИИ может быть использован для создания вводящих в заблуждение изображений или просто может привести к вредным результатам.

Модели основаны на наборах данных, взятых из больших немодерируемых частей Интернета, таких как набор данных LAION-400M, который, по словам Google, содержит «порнографические изображения, расистские оскорбления и вредные социальные стереотипы». Исследователи Imagen говорят, что, поскольку они не могут гарантировать, что он не унаследует часть этого проблемного контента, они не могут опубликовать его.

OpenAI утверждает, что улучшает «систему безопасности» DALL-E 2, «улучшая текстовые фильтры и настраивая систему автоматического обнаружения и реагирования на нарушения политики в отношении контента», в то время как Google стремится решить проблемы, разработав «словарь потенциального вреда».

Если эти проблемы не будут решены, маловероятно, что крупные исследовательские группы, такие как Google или OpenAI, предложат свои системы преобразования текста в изображения для общего пользования. Вполне возможно, что небольшие команды могли бы выбрать выпуск аналогичной технологии, но огромное количество вычислительной мощности, необходимой для обучения этих моделей на огромных наборах данных, как правило, ограничивает работу над ними крупными игроками.

Несмотря на это, дружественная конкуренция между крупными фирмами, вероятно, означает, что технология продолжает быстро развиваться, поскольку инструменты, разработанные одной группой, могут быть включены в будущую модель другой.

Например, диффузионные модели, в которых нейронные сети учатся обращать вспять процесс добавления случайных пикселей к изображению, чтобы улучшить его, продемонстрировали многообещающие результаты в моделях машинного обучения в прошлом году. И DALL-E 2, и Imagen полагаются на диффузионные модели после того, как этот метод доказал свою эффективность в менее мощных моделях, таких как генератор изображений OpenAI Glide.

Для этих типов алгоритмов, когда у вас есть очень сильный конкурент, это означает, что он поможет вам построить вашу модель лучше, чем другие. Например, в Google несколько команд работают над одной и той же ИИ-платформой.

Наша благодарность за лайки и комментарии. Подписывайтесь на канал и поделитесь этой статьей с друзьями в социальных сетях.