Найти тему
Город будущего

Что видит машина: обзор наиболее перспективных разработок в области CV и ML. 2 часть.

Визуальное соответствие в системах компьютерного зрения высокого уровня. Проблема соответствия — это фактически вопрос обнаружения объектов. Машине нужно понять, как соотносятся части изображения между собой, после чего сделать вывод, какая деталь относится к объекту. Человек, открывая глаза, получает данные об окружающем мире, даже не задумываясь — нейросети же нужно выполнить ряд операций. В первую очередь — совмещение серии изображений. Это позволит оценить глубину сцены, после чего оценить соответствие объекта тому или иному слою, ближнему или более дальнему плану изображения. Далее в дело вступают поиск и оценка геометрического соответствия. Также вводится показатель доверия, позволяющий оценить, насколько хорошо выполнен подбор. Надежность работы слоев можно компенсировать и оценить численно.

Представление сцен с помощью графов. Решить задачу повышения качества изображения может анализ и построение сцен на базе формирования графов. Поскольку большинство стандартных систем рассматривает все взаимосвязи как равноценные, в Китае, например, разработчики решили строить графы, соответствующие особенностям человеческого восприятия. А именно: структура, выстроенная от крупного к мелкому — чтобы объекты большего размера имели больший приоритет. Также каждому объекту дается весовой коэффициент, чтобы определить, в какой момент они распознаются. На этой основе строится предварительный график — иерархическое дерево сущностей. И уже на нем базируется гибридная сеть для улучшения этого графа.

Мультимодальные архитектуры в генерации изображений по описанию. Этот тренд в машинном обучении начал особенно активно формироваться в 2021 году. Именно тогда ИИ, работающий с текстом, звуками и картинками, получил наиболее интенсивное развитие — появились, в частности, такие широко известные продукты, как DALL-E, CLIP и CogView. Процедурная генерация изображений по словесному запросу облегчит труд дизайнеров и найдет широкое применение в рекламе. А картинки, свободные от авторских прав, можно генерировать в неограниченных количествах.