89 подписчиков
Исследователи из лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) предложили метод под названием "Принудительная диффузия". Этот метод объединяет предсказание следующего токена и модели диффузии последовательности, чтобы сделать модели более гибкими и надежными. 🔍
Обучая нейронные сети очищать токены и предсказывать несколько следующих, "Принудительная диффузия" может улучшать качество искусственных видео и помогать роботам игнорировать визуальные отвлечения для выполнения манипуляционных задач. 🤖
Метод был протестирован на игровом процессе "Minecraft" и красочных цифровых средах, созданных в симуляторе DeepMind Lab от Google. Он произвел более стабильные и высококачественные видео по сравнению с базовыми моделями, такими как Sora и ChatGPT. 🎮
"Принудительная диффузия" может также служить в качестве планировщика движения, направленного на желаемые результаты или вознаграждения, что делает его универсальным для выполнения задач, таких как решение 2D-лабиринтов. 🏆
Команда планирует масштабировать свой метод на более крупные наборы данных и использовать последние трансформерные модели для улучшения производительности. Они стремятся создать "мозг" для роботов, подобный ChatGPT, который поможет выполнять задачи в новых средах без человеческой демонстрации. Это может позволить роботам обобщать новые задачи и улучшать AI-сгенерированные развлечения. 🧠
Исследование будет представлено на NeurIPS в декабре, а статья доступна на сервере препринтов arXiv. Метод "Принудительной диффузии" имеет потенциал сблизить генерацию видео и робототехнику, позволяя роботам помогать в повседневной жизни с использованием знаний, хранимых в видео на просторах интернета. 🌐
#neuroco #нейроконтент #машинноеобучение #языковыемодели #нейросеть #нейронка #ArtificialIntelligence
1 минута
21 октября 2024