Корейская компания LG на конференции Computer Vision and Pattern Recognition 2023 в Канаде представила нейросеть Captioning AI, которая может создавать текстовые описания к картинкам. Разработчики отмечают, что ИИ может помочь в систематизации баз данных фотографий.
В компании считают свой продукт уникальным, так как он может описывать даже то, что никогда не видел, например опознать пейзаж или человека по фотографии. ИИ может сгенерировать текстовые описания к более чем 10 тыс. изображений менее чем за два дня. Система работает на созданной LG AI Research технологии Zero-Shot Image Captioning, позволяющей нейросети описывать сцены или объекты, опираясь на предыдущий опыт. Также ИИ может описывать фон, активность персонажей и их взаимодействие.
Технология вышла на новый уровень. Например, искусственный интеллект действительно может делать выводы и описывать то, чего он не «видел» никогда раньше — посмотреть на пейзаж или человека и вычислить, о каком именно месте идёт речь. Технологи