Найти в Дзене
DigEd

Конец поиска, начало исследований

Оглавление

Первые узкие агенты уже здесь

Автор Итан Моллик

Намек на будущее тихо появился на выходных. Долгое время я обсуждал две параллельные революции в ИИ: рост автономных агентов и появление мощных Reasoners (“рассуждатели”) с момента запуска OpenAI o1. Эти два потока наконец-то сошлись во что-то действительно впечатляющее — системы ИИ, которые могут проводить исследования с глубиной и нюансами человеческих экспертов, но со скоростью машины. Deep Research OpenAI демонстрирует эту конвергенцию и дает нам представление о том, каким может быть будущее. Но чтобы понять, почему это важно, нам нужно начать со строительных блоков: Reasoners и агентов.

Reasoners (рассуждатели)

В течение последних нескольких лет, когда вы использовали чат-бота, он работал просто: вы что-то вводили, и он немедленно начинал отвечать слово за словом (или, более технически, токен за токеном). ИИ мог «думать» только во время производства этих токенов, поэтому исследователи разработали приемы для улучшения его рассуждений — например, сказать ему «думать шаг за шагом, прежде чем отвечать». Этот подход, называемый подсказкой цепочки мыслей, заметно улучшил производительность ИИ.

По сути, рассуждатели автоматизируют процесс, производя «токены мышления» до того, как фактически дать вам ответ. Это был прорыв по крайней мере в двух важных отношениях. Во-первых, поскольку компании ИИ теперь могли заставить ИИ научиться рассуждать на основе примеров действительно хороших решателей проблем, ИИ может «думать» более эффективно. Этот процесс обучения может производить более качественную цепочку мыслей, чем мы можем с помощью подсказок. Это означает, что рассуждатели способны решать гораздо более сложные задачи, особенно в таких областях, как математика или логика, где старые чат-боты терпели неудачу.

Во-вторых, это был прорыв, поскольку оказывается, что чем дольше рассуждатели «думают», тем лучше получаются их ответы (хотя скорость улучшения замедляется по мере того, как они думают дольше). Это большое дело, потому что раньше единственным способом улучшить работу ИИ было обучение все более крупных моделей, что очень дорого и требует большого количества данных. Модели рассуждений показывают, что можно улучшить ИИ, просто позволяя им производить все больше и больше токенов мышления, используя вычислительную мощность во время ответа на ваш вопрос (так называемые вычисления во время вывода), а не во время обучения модели.

Тест Google-Proof Q&A (GPQA) для выпускников представляет собой серию задач с несколькими вариантами ответов, на которые доступ в Интернет не помогает докторам наук с доступом в Интернет получить 34% правильных ответов в этом тесте вне своей специальности и 81% в своей специальности. Он иллюстрирует, как модели рассуждений ускорили рост возможностей ИИ.
Тест Google-Proof Q&A (GPQA) для выпускников представляет собой серию задач с несколькими вариантами ответов, на которые доступ в Интернет не помогает докторам наук с доступом в Интернет получить 34% правильных ответов в этом тесте вне своей специальности и 81% в своей специальности. Он иллюстрирует, как модели рассуждений ускорили рост возможностей ИИ.

Источник данных.

Поскольку Reasoners настолько новы, их возможности быстро расширяются. Всего за несколько месяцев мы увидели существенные улучшения от семейства o1 OpenAI до их новых моделей o3. Тем временем китайский DeepSeek r1 нашел инновационные способы повышения производительности при сокращении расходов, и Google запустил свой первый Reasoner. Это только начало — ожидайте увидеть больше подобных мощных систем, и уже совсем скоро.

Агенты

В то время как эксперты спорят о точном определении агента ИИ, мы можем думать о нем просто как о «ИИ, которому дана цель и который может достичь этой цели автономно». Прямо сейчас идет гонка вооружений лабораторий ИИ по созданию агентов общего назначения — систем, которые могут справиться с любой поставленной перед ними задачей. Я писал о некоторых ранних примерах, таких как Devin and Claude использует компьютер, но OpenAI только что выпустил Operator, возможно, самого отточенного агента общего назначения на сегодняшний день.

Видео ниже, ускоренное в 16 раз, показывает как обещания, так и подводные камни агентов общего назначения. Я даю Operator задание: прочитать мой последний пост о подстеке на OneUsefulThing, а затем перейти в Google ImageFX и создать подходящее изображение, загрузить его и предоставить мне для публикации. То, что происходит, поучительно. Сначала Operator движется с впечатляющей точностью — находит мой веб-сайт, читает пост, переходит в ImageFX (ненадолго останавливаясь, чтобы я ввел свой логин) и создает изображение. Затем начинаются проблемы, и они двоякие: не только Operator блокируется ограничениями безопасности OpenAI на загрузку файлов, но и начинает бороться с самой задачей. Агент методично пробует все мыслимые обходные пути: копирование в буфер обмена, создание прямых ссылок, даже погружение в исходный код сайта. Каждая попытка терпит неудачу — некоторые из-за ограничений браузера OpenAI, другие из-за собственного замешательства агента относительно того, как на самом деле выполнить задачу. Наблюдение за этим решительным, но в конечном итоге провальным циклом решения проблем раскрывает как текущие ограничения этих систем, так и поднимает вопросы о том, как агенты в конечном итоге будут вести себя, когда они столкнутся с препятствиями в реальном мире.

полное видео см. в оригинале
полное видео см. в оригинале

Проблемы Operator подчеркивают текущие ограничения агентов общего назначения, но это не означает, что агенты бесполезны. Похоже, что экономически ценные узкие агенты, которые фокусируются на конкретных задачах, уже возможны. Эти специалисты, работающие на современной технологии LLM, могут достигать замечательных результатов в своих областях. Показательный пример: новое глубокое исследование OpenAI, которое показывает, насколько мощным может быть целенаправленный агент ИИ.

Deep Research (Глубокое исследование)

Deep Research от OpenAI (не путать с Deep Research от Google, подробнее об этом позже) — это по сути узконаправленный исследовательский агент, созданный на основе еще не выпущенного o3 Reasoner от OpenAI и имеющий доступ к специальным инструментам и возможностям. Это одно из самых впечатляющих приложений ИИ, которые я видел в последнее время. Чтобы понять почему, давайте дадим ему тему. Я специально выберу очень техническую и спорную проблему в моей области исследований: когда стартапы должны прекратить исследования и начать масштабироваться? Я хочу, чтобы вы изучили академические исследования по этой теме, сосредоточившись на высококачественных статьях и РКИ, включая рассмотрение проблемных определений и конфликтов между общепринятым мнением и исследованиями. Представьте результаты для обсуждения этой проблемы на уровне выпускников.

-4

ИИ задает несколько умных вопросов, и я поясняю, чего я хочу. Теперь o3 включается и приступает к работе. Вы можете видеть его прогресс и «мышление» по мере его продвижения. Действительно стоит уделить секунду, чтобы взглянуть на несколько примеров этого процесса ниже. Вы можете видеть, что ИИ на самом деле работает как исследователь, исследуя результаты, углубляясь в то, что его «интересует», и решая проблемы (например, находя альтернативные способы получения доступа к платным статьям). Это продолжается пять минут.

Серьезно, уделите минутку, чтобы взглянуть на эти три фрагмента его «мыслительного» процесса
Серьезно, уделите минутку, чтобы взглянуть на эти три фрагмента его «мыслительного» процесса

В конце я получаю черновик на 13 страницах, 3778 слов с шестью цитатами и несколькими дополнительными ссылками. Честно говоря, он очень хорош, даже если бы мне хотелось еще несколько источников. Он сплел воедино сложные и противоречивые концепции, нашел несколько новых связей, которых я не ожидал, цитировал только высококачественные источники и был полон точных цитат. Я не могу гарантировать, что все правильно (хотя я не видел никаких ошибок), но я был бы удовлетворен увидеть что-то подобное от начинающего аспиранта. Вы можете увидеть полные результаты здесь, но пары отрывков ниже было бы достаточно, чтобы показать вам, почему я так впечатлен.

-6

Качество цитат также является настоящим прогрессом здесь. Это не обычные галлюцинации ИИ или неверно процитированные статьи — это законные, высококачественные академические источники, включая основополагающие работы моих коллег Саэрома (Ронни) Ли и Дэниела Кима. Когда я нажимаю на ссылки, они не просто ведут к статьям, они часто перенаправляют меня прямо к соответствующим выделенным цитатам. Хотя все еще есть ограничения — ИИ может получить доступ только к тому, что он может найти и прочитать за несколько минут, а платные статьи остаются вне досягаемости — это представляет собой фундаментальный сдвиг в том, как ИИ может взаимодействовать с академической литературой. Впервые ИИ не просто обобщает исследования, он активно взаимодействует с ними на уровне, который фактически приближается к человеческой научной работе.

-7

Стоит сравнить его с продуктом Google, выпущенным в прошлом месяце также под названием Deep Research (вздох). Google выдает гораздо больше ссылок, но они часто представляют собой смесь веб-сайтов разного качества (отсутствие доступа к платной информации и книгам вредит всем этим агентам). Похоже, что он собирает документы все сразу, в отличие от движимого любопытством открытия исследовательского агента OpenAI. И поскольку (на данный момент) это работает на нерассуждающей, старой модели Gemini 1.5, общее резюме гораздо более поверхностное, хотя все еще прочное и, по-видимому, без ошибок. Это как очень хороший студенческий продукт. Я подозреваю, что разница станет ясна, если вы прочтете немного ниже.

-8

Если рассматривать это в перспективе: оба результата представляют собой работу, которая обычно требует часов человеческих усилий — анализ на уровне близком к докторской степени от системы OpenAI, солидная студенческая работа от Google. OpenAI делает несколько смелых заявлений в своем объявлении, дополненных графиками, предполагающими, что их агент может справиться с 15% высокоэкономически значимых исследовательских проектов и 9% очень высокозначимых. Хотя эти цифры заслуживают скептицизма — их методология не объясняется — мое практическое тестирование показывает, что они не совсем неверны. Deep Research действительно может производить ценный, сложный анализ за считанные минуты, а не за часы. И учитывая быстрые темпы разработки, я ожидаю, что Google не позволит этому разрыву в возможностях сохраняться долго. Мы, вероятно, увидим быстрое улучшение исследовательских агентов в ближайшие месяцы.

Детали собираются воедино

Вы можете начать видеть, как части, которые создают лаборатории ИИ, не просто подгоняются друг к другу — они играют друг с другом. Reasoners обеспечивают интеллектуальную мощность, в то время как агентские системы обеспечивают способность действовать. Прямо сейчас мы находимся в эпоху узких агентов, таких как Deep Research, потому что даже наши лучшие Reasoners не готовы к универсальной автономии. Но узость не ограничивает — эти системы уже способны выполнять работу, которая когда-то требовала команд высокооплачиваемых экспертов или специализированных консультантов.

Эти эксперты и консультанты никуда не денутся — если уж на то пошло, их суждение становится все более важным по мере того, как они переходят от выполнения работы к организации и проверке работы систем ИИ. Но лаборатории считают, что это только начало. Они делают ставку на то, что лучшие модели взломают код универсальных агентов, выйдя за рамки узких задач и став автономными цифровыми работниками, которые смогут перемещаться по сети, обрабатывать информацию во всех модальностях и предпринимать значимые действия в мире. Operator показывает, что мы еще не достигли этой цели, но Deep Research предполагает, что мы, возможно, на пути к этому.

Источник