Мы предлагаем алгоритм поиска архитектуры на основе видения для обучения задачам манипулирования роботами, который обнаруживает взаимодействия между входными данными действий с низкой размерностью и визуальными входными данными с высокой размерностью. Архитектуры автоматически разрабатываются во время обучения для выполнения самой задачи и способны находить новые способы сочетания вводимых действий и функций изображения, а также функций предыдущих этапов обучения. Полученные новые архитектуры продемонстрировали более высокие показатели успешности выполнения задач, в некоторых случаях с большим отрывом, по сравнению с недавним базовым уровнем производительности. Наши эксперименты с реальными роботами также выявили архитектуры, которые улучшают производительность восприятия на 6%. Это первый подход, демонстрирующий, что адаптированную архитектуру можно одновременно модифицировать и обучать для выполнения задач реального робота.