23 подписчика

Нейроагенты - новый шаг в эволюции искусственного интелекта

15 апреля15 апр

3 мин

Мы уже привыкли к тому, что навигаторы в телефонах предсказывают время прибытия, камеры распознают людей при входе, а чат-боты помогают оформить заказ в магазине. Всё это создаёт ощущение, будто ИИ всегда был рядом, хотя на самом деле массовое проникновение этих технологий произошло всего за последние пять‑семь лет. Сегодня практически все технически подкованные люди пользуются для работы или в повседневной жизни большими языковыми моделями (LLM), а разработчики предлагают всё новые и новые сервисы основанные на своих предыдущих продуктах. Да, у всего есть свои достоинства и недостатки, но преимущества предлагаемые передовыми нейросетевыми технологиями трудно переоценить. Однако у LLM есть существенный недостаток. Они неспособны делать что-то самостоятельно. Им нужен человек для взаимодействия с окружающим миром, кто-то с руками, глазами и телом, которое пойдёт и выполнит написанную искусственным интеллектом инструкцию. И этот пробел не долго оставался незаполненным. На сцену выходят н

Сегодня практически все технически подкованные люди пользуются для работы или в повседневной жизни большими языковыми моделями (LLM), а разработчики предлагают всё новые и новые сервисы основанные на своих предыдущих продуктах. Да, у всего есть свои достоинства и недостатки, но преимущества предлагаемые передовыми нейросетевыми технологиями трудно переоценить.

Однако у LLM есть существенный недостаток. Они неспособны делать что-то самостоятельно. Им нужен человек для взаимодействия с окружающим миром, кто-то с руками, глазами и телом, которое пойдёт и выполнит написанную искусственным интеллектом инструкцию. И этот пробел не долго оставался незаполненным. На сцену выходят нейроагенты.

Нейроагенты — это качественно новый этап в развитии искусственного интеллекта: переход от систем, которые просто генерируют ответы, к системам, способным самостоятельно действовать и достигать целей. Построенные на базе современных языковых моделей, они умеют не только понимать человеческий язык, но и превращать его в последовательность осмысленных шагов. Внутри такого агента разворачивается цикл, близкий к человеческому мышлению: постановка задачи, планирование, выполнение, анализ результата и корректировка действий. Это уже не реакция на запрос, а зачаток автономного поведения. Иначе говоря это специальные программы или даже устройства служащие прокладкой между LLM и окружающим миром для решения поставленной задачи.

На платных тарифах ChatGPT есть специальные шаблоны, через которые он получает задачи, проверяет и выдаёт приведенный к нужному формату результат. Так программист может на выходе получить уже фактически готовую программу, а юрист подготовленный для суда определенного региона документ.
Но инженеры уже пошли еще дальше и начали разработки по применению нейроагентов для управления промышленными роботами, телекамерами, автомобилями, летающими аппаратами или комбинациями разных приборов.

Проект RT-2 (Google DeepMind)

Когда инженеры из Google DeepMind подключили языковую модель к роботу, оказалось, что тот способен не просто выполнять команды, а интерпретировать их практически по-человечески. В одном из экспериментов робот получил инструкцию взять «предмет, которым едят суп» — и выбрал ложку, даже если никогда раньше её не видел. RT-2 фактически переносит знания, полученные из текстов и изображений интернета, в физический мир, позволяя машине действовать на основе смысла, а не заранее прописанных сценариев.

Проект SayCan (Google)

В проекте Google под названием SayCan LLM стала инструментом планирования. Получив простую просьбу вроде «принеси воду», система разбивает её на последовательность шагов — от перемещения по комнате до захвата нужного объекта. При этом языковая модель предлагала возможные действия, а робот оценивал, какие из них выполнимы в реальности. Такой тандем превращает абстрактную фразу в конкретное поведение, демонстрируя, как LLM могут выступать в роли дирижёра физических действий.

ChatGPT + робототехника (Microsoft)

Эксперименты Microsoft пошли ещё дальше: здесь языковая модель не только понимает задачу, но и пишет код для её выполнения. Пользователь описывает действие — например, «поставь красный куб на синий» — а ChatGPT генерирует команды, которые напрямую управляют роботизированной рукой. В результате сложное программирование заменяется разговором: человек формулирует намерение на естественном языке, а машина сама переводит его в точные движения, стирая границу между диалогом и управлением техникой.

Вангую, что всего через несколько лет и нейроагенты также шумно войдут в наш мир, как это произошло с LLM. Только уже никто не скажет, что это "всего лишь компьютерная программа".