Представьте себе шеф-повара, который умеет создавать блюда (генерация), и гурмана, который умеет их оценивать (распознавание). Оба обладают уникальными навыками, но что, если бы эти две способности можно было объединить в одной системе? Именно такую систему недавно разработали ученые из лаборатории компьютерных наук и искусственного интеллекта MIT в сотрудничестве с Google. Они создали систему компьютерного зрения под названием MAGE (Masked Generative Encoder), которая совмещает задачи генерации и распознавания изображений. MAGE работает не с исходными пикселями, а с семантическими токенами, представляющими собой компактные, но абстрактные версии участка изображения. Все эти токены образуют абстрактную версию изображения, которую можно использовать для сложных задач обработки, сохраняя при этом информацию в исходном изображении. Используя эту технику, MAGE может предварительно обучаться на больших наборах данных изображений без меток. Система начинает "чудо", когда использует "модел
МАГИЯ ВОЗМОЖНОСТЕЙ: КАК ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ МЕНЯЕТ ИГРУ В ОБЛАСТИ КОМПЬЮТЕРНОГО ЗРЕНИЯ
2 июля 20232 июл 2023
1
3 мин