Самоконтролируемое обратимое обучение с подкреплением: новый подход от Google AI
Обучение с подкреплением (RL) отлично решает задачи с нуля, но обучить агента понимать обратимость его действий не так-то просто. Например, роботам следует избегать действий, которые могут привести к их поломке. Чтобы оценить обратимость действия, нужны практические знания и понимание физики среды, в которой существует RL-агент. Поэтому исследователи Google AI на конференции NeurIPS 2021 представляем новый способ аппроксимации обратимости действий RL-агентов. Этот подход добавляет отдельный компонент...
Обучение искусственного интеллекта
Обучение с подкреплением: игра в обучение. В мире, где искусственный интеллект (AI) управляет автомобилями и побеждает чемпионов в шахматы, загадочно звучит фраза "обучение с подкреплением". Это не просто ещё одна жаргонная фраза, а мощный метод обучения машин. Давайте разберемся, как AI учится на своих ошибках, делая "ошибки" полезным инструментом. AI и его "школьные годы". Представьте AI как школьника, который учится играть в шахматы. Вместо чтения книг или просмотра лекций, он сам играет и учится на ходу...