Найти тему
TechInsider

Скоро мы сможем сказать роботу: "Спасибо за чай", и он нас поймет

Ученые из Калифорнийского университета Беркли разработали алгоритм, который позволяет роботу без предварительного обучения в цифровой симуляции, сразу начать учиться и действовать в реальном мире. Алгоритм протестирован на разных моделях роботов и на нескольких конкретных задачах. Но цель команды гораздо амбициознее: научить робота искать решение задач, которые ему никто поставил.

    Скоро мы сможем сказать роботу: "Спасибо за чай", и он нас поймет
Скоро мы сможем сказать роботу: "Спасибо за чай", и он нас поймет

Представьте себе такую ситуацию. Вы покупаете робота-помощника. Как он выглядит, на самом деле, не так и важно. Вряд ли он будет похож на WALL-E. Вероятно, он перемещается на четырех ногах или на колесной платформе. У него есть "руки", снабженные захватами. Может быть, на руках пять пальцев, а, может, и больше. У него есть камера или две. Но главное, вы его ничему не учите. Он просто живет. Бродит по дому, сначала натыкается на предметы, потом учится их обходить. Зачем-то наливает воду в чайник, потом выливает. Открывает кран. И все время наблюдает за вами. Он учится сам. Но однажды вы говорите ему: "Завари, пожалуйста, чай", хотя вы его этому никогда не учили, а производители и не могли объяснить роботу, как заваривают чай в вашем доме. Но робот кипятит воду, заваривает чай, наливает его в чашку и ставит чашку на стол. Вы говорите: "Спасибо за чай". На "лице" робота появляется удовлетворенная "улыбка", а вы подумаете: "Так вот он чем на кухне занимался по ночам".

Созданием именно такого робота занимаются ученые из Калифорнийского университета Беркли. Они разработали систему обучения в реальном мире и назвали ее DayDream (Дневной сон).

Сегодня процесс обучения робота (чаще всего это обучение с подкреплением) начинается с детальной цифровой модели. Сначала робот учится действовать "внутри симуляции". Это длительный, дорогой (нужно подготовить очень много данных) и не всегда эффективный процесс. Когда робот попадет в реальную среду он запросто может запутаться, столкнувшись с ситуацией, которой его не обучали. Так не лучше ли отпустить робота сразу в реальную среду, и пусть он учится сам?

Система обучения, разработанная учеными из Беркли, не связана с конкретной реализацией самого робота. Ученые попробовали алгоритм на четырех разных реализациях роботов - и четвероногих, которые могут ходить, и состоящих из одной роботизированной руки с захватом. Роботы действительно учатся.

Непрерывное обучение

   Схема обучения DayDreamUniversity of California, Berkeley
Схема обучения DayDreamUniversity of California, Berkeley

Как трудно в первый раз перевернуться со спины на ноги

Мечта и реальность

«Открытая проблема в робототехнике заключается в том, чтобы предоставить пользователю возможность интуитивно определять задачи для роботов. В нашей работе мы реализовали сигналы вознаграждения, которые робот оптимизирует, в виде функций Python, но, в конечном счете, было бы неплохо обучать роботов на основе человеческих предпочтений, напрямую сообщая им, когда они сделали что-то правильно или неправильно. Человек может это сделать, например, нажав кнопку, и тем самым наградив робота. А можно снабдить роботов пониманием человеческого языка», - говорит один из авторов работы Данияр Хафнер.

Пока команда использовала свой алгоритм только для обучения роботов конкретным задачам, которые были четко определены в начале экспериментов. Но в будущем ученые хотят научить роботов исследовать окружающую среду, не решая четко определенной задачи. В примере, с которого мы начали разговор о "дневном мечтателе" такой неопределенной задачей был навык приготовления чая.

«Перспективным направлением было бы научить роботов исследовать свое окружение из чистого любопытства, а затем еще быстрее адаптироваться к решению заданных пользователями задач», — говорит Хафнер.