Компания Microsoft представила интригующее творение:
Interactive Agent Foundation Model.
Источник: https://arxiv.org/pdf/2402.05929.pdf
Этот первый выпуск, сопровождаемый заголовком, в котором говорится о появлении агентного ИИ как многообещающего пути к искусственному интеллекту общего назначения (ИИОН), посвящен человекоподобным когнитивным способностям и агентам ИИ.
Рисунок 1. Обзор системы агентного ИИ, которая может воспринимать и действовать в различных областях и приложениях. Агентный ИИ становится перспективным направлением развития искусственного общего интеллекта (ИОИ).
Она изучает множество навыков, включая принятие решений, развитое восприятие, память, наблюдательность, моторику, обработку языка и общение.
Наличие этих признаков у агента может означать шаг к AGI.
Изначально созданные для игр и работы в виртуальной, дополненной и смешанной реальности, агенты ИИ могут удивительным образом адаптироваться к роли в диагностике заболеваний, помощи по уходу и даже физическому воплощению.
Рисунок 2. Обзор нашего фреймворка интерактивного агента. Наша базовая модель предназначена для обработки мультимодальной информации, передающей различные уровни абстракции. Такой подход способствует всестороннему пониманию контекста и окружающей среды, что обеспечивает согласованность действий. Обучаясь на различных областях задач и приложениях, мы разрабатываем универсальную базовую модель, которая может быть точно настроена для выполнения оптимальных действий в различных контекстах, прокладывая путь к созданию интеллектуальных агентов
Это воплощение означает придание агентам ИИ физических форм или аватаров, по сути, создание роботов, а также изучение того, как навыки, полученные в симуляторах, таких как видеоигры, передаются роботам в реальной жизни.
В воздухе витает ожидание значительных обновлений от OpenAI, которые ожидаются в ближайшее время.
Многие, в том числе и я, считают, что эти обновления могут совпасть со следующей волной эволюции агентов ИИ и AGI.
В процессе разработки систем ИИ происходит переход от статичных моделей, ориентированных на конкретные задачи, к динамичным системам на основе агентов, которые могут использоваться в широком спектре приложений.
Предлагаемая модель интерактивного агента использует новую парадигму многозадачного обучения агентов, позволяющую обучать агентов ИИ в различных областях, наборах данных и задачах.
Привлекая ваше внимание к уникальному творению, представленному компанией Nvidia, хотя и не обязательно разработанному ею, этот робот отличается от обычного тем, что вместо рук и ног у него колеса.
Этот робот тренировался в Isaac Gym компании Nvidia, симулированной среде, имитирующей физику реального мира, и является примером эффективного переноса навыков, полученных в симуляторе, в реальный мир.
Сюда входит поднятие предметов, открытие дверей и перемещение по различным местностям.
Доктор Джим Фан, создатель Voyager и других инноваций в области ИИ, а также другие люди, находящиеся на переднем крае развития ИИ, сходятся во мнении о концепции основополагающих агентов.
В этом документе Microsoft представляет модель Interactive Agent Foundation Model, использующую многозадачную парадигму обучения агентов, которая объединяет такие стратегии, как автоэнкодеры с визуальной маской, языковое моделирование и предсказание следующих действий, прокладывая путь к созданию гибкой и адаптируемой структуры ИИ.
Основное внимание уделяется применению ИИ в здравоохранении, играх и робототехнике, демонстрируя способность модели генерировать значимые и контекстуально релевантные результаты в каждой области.
Рисунок 3. Мы предлагаем парадигму агентного ИИ для поддержки интерактивных мультимодальных универсальных агентных систем. Как показано на рисунке, в ней имеется 5 основных модулей: (1) Агент в окружающей среде и восприятие с планированием задач и наблюдением, (2) Обучение агента, (3) Память, (4) Действие, и (5) Познание и сознание (мы используем "сознание", чтобы подразумевать степень осознания состояния агента и его окружения). Ключевое отличие нашего подхода от некоторых предыдущих интерактивных стратегий заключается в том, что после обучения действия агента будут напрямую влиять на планирование задач, поскольку агенту не нужно получать обратную связь от окружающей среды, чтобы планировать свои дальнейшие действия.
Сила модели заключается в ее универсальности: она использует данные из роботизированных последовательностей, игрового процесса, масштабных баз видео и текстовой информации для эффективной многозадачности и мультимодального обучения.
Этот подход, позволяющий решать разнообразные задачи с помощью одной модели ИИ, отличается высокой масштабируемостью и представляет собой значительное достижение в развитии общества ИИ.
Это новый набор инструментов для разработки систем искусственного интеллекта, способных к действию, на пути к AGI.
Вместе со смежными работами, такими как модели Foundation (например, GPT-4) и их применение для улучшения взаимодействия между роботами, окружающей средой и людьми, я вижу появление новой агентной парадигмы в ИИ.
Эта парадигма представляет собой переход от исследований к реальным приложениям.
Эта идея и технология могут перевернуть наш мир.
Я продолжу следить за будущими событиями, так как вскоре мы можем увидеть важные анонсы от Microsoft, OpenAI или обеих компаний, возможно, связанные с агентами и этим исследованием.
Следите за развитием ИИ - мы живем в захватывающие времена.
Подписывайтесь на Boosty https://boosty.to/ai_ml/posts/47918799-b9a0-42e9-a627-322ca11754a3?share=post_link чтобы получить доступ к практическим пошаговым инструкциям.