733 подписчика

ИИ начал улучшать сам себя. Новый проект SIA меняет не только промпты, но и собственные знания

7 июня7 июн

4 мин

До сих пор большинство ИИ-агентов имели одно серьёзное ограничение. Даже самые продвинутые системы могли работать лучше только до тех пор, пока их кто-то улучшал. Разработчики меняли промпты. Оптимизировали инструменты. Корректировали логику работы. Переобучали модели. Но что произойдёт, если агент сможет самостоятельно решать, что именно ему нужно улучшить? И не только менять свои инструкции, но и обновлять собственные знания? Именно такую систему представила компания Hexo Labs. Новый проект получил название SIA (Self-Improving AI), и его главная идея звучит почти как научная фантастика: ИИ самостоятельно анализирует свои ошибки и решает, нужно ли ему изменить поведение или переобучить самого себя. Большинство AI-агентов сегодня работают по довольно простой схеме. Есть модель. Есть набор инструкций. Есть инструменты. Если агент ошибается, разработчик меняет промпт или дорабатывает логику работы. Иногда приходится переобучать модель. Но эти процессы существуют отдельно друг от друга. О

Оглавление

Почему современные агенты быстро упираются в потолок
Что такое SIA
Первая часть — Harness

До сих пор большинство ИИ-агентов имели одно серьёзное ограничение.

Даже самые продвинутые системы могли работать лучше только до тех пор, пока их кто-то улучшал.

Разработчики меняли промпты.

Оптимизировали инструменты.

Корректировали логику работы.

Переобучали модели.

Но что произойдёт, если агент сможет самостоятельно решать, что именно ему нужно улучшить?

И не только менять свои инструкции, но и обновлять собственные знания?

Именно такую систему представила компания Hexo Labs.

Новый проект получил название SIA (Self-Improving AI), и его главная идея звучит почти как научная фантастика:

ИИ самостоятельно анализирует свои ошибки и решает, нужно ли ему изменить поведение или переобучить самого себя.

Почему современные агенты быстро упираются в потолок

Большинство AI-агентов сегодня работают по довольно простой схеме.

Есть модель.

Есть набор инструкций.

Есть инструменты.

Если агент ошибается, разработчик меняет промпт или дорабатывает логику работы.

Иногда приходится переобучать модель.

Но эти процессы существуют отдельно друг от друга.

Одни системы умеют улучшать только промпты.

Другие способны обучать модель на новых данных.

Hexo Labs решила объединить оба подхода.

Что такое SIA

Авторы разделили агента на две независимые части.

Первая часть — Harness

Это внешняя оболочка системы.

Она включает:

системный промпт;
правила использования инструментов;
логику повторных попыток;
обработку ответов;
вспомогательный код.

Проще говоря, это всё, что окружает модель.

Вторая часть — сама модель

Это знания и способности ИИ, записанные в весах нейросети.

Обычно именно эти параметры обновляются во время обучения.

Самое интересное начинается дальше

В системе работают сразу три агента.

Meta-Agent

Создаёт первоначальную версию агента под конкретную задачу.

Task-Specific Agent

Решает поставленную задачу и записывает каждый свой шаг.

Feedback-Agent

Изучает всю историю работы и принимает решение:

изменить оболочку;
или обновить веса модели.

Именно этот агент делает систему по-настоящему необычной.

После каждой попытки он выбирает только одно действие.

Либо улучшает логику работы.

Либо обучает модель чему-то новому.

Как выглядит самообучение на практике

Представьте программиста.

Если он постоянно ошибается из-за плохого рабочего процесса, стоит изменить процесс.

Но если проблема в недостатке знаний, придётся учиться.

SIA действует примерно так же.

Система сначала анализирует источник проблемы.

Затем решает:

«Мне нужно изменить способ работы»

или

«Мне нужно получить новые знания».

На чём построена система

В основе лежит модель:

openai/gpt-oss-120b

Для обновления знаний используется технология:

LoRA (rank 32)

А управляющие агенты работают на:

Claude Sonnet 4.6

Обучение выполняется на ускорителях H100.

Проверка в реальных задачах

Исследователи специально выбрали три совершенно разные области.

Юриспруденция

LawBench — задача определения уголовных статей китайского законодательства.

Здесь агент должен выбрать одну из:

191 категории

Результаты оказались впечатляющими.

ПодходТочностьИсходная модель13.5%Предыдущий уровень SOTA45.0%Только изменение оболочки50.0%Оболочка + обучение модели70.1%

Фактически обновление весов дало дополнительные 20 процентных пунктов точности.

Оптимизация CUDA-кода

Вторая задача связана с созданием высокопроизводительного CUDA-ядра для GPU H100.

Здесь система должна была ускорить вычисления, используемые в AlphaFold2.

Только изменения оболочки позволили немного улучшить результат.

Но после обновления весов произошло настоящее ускорение.

Время выполнения сократилось:

с 12483 до 1017 микросекунд

Это снижение примерно на:

91.9%

Работа с биологическими данными

Третья задача касалась обработки данных секвенирования РНК.

Система оптимизировала метод восстановления пропущенных значений.

Самое интересное, что после обучения модель самостоятельно нашла дополнительный шаг обработки данных, который вообще не появился в процессе изменения оболочки.

Именно он обеспечил заметный прирост качества.

Почему это важно

На первый взгляд может показаться, что речь идёт просто о ещё одном агенте.

Но на самом деле исследование затрагивает гораздо более глубокий вопрос.

Большинство современных систем умеют:

либо менять своё поведение;
либо получать новые знания.

SIA впервые объединяет оба механизма в едином цикле самоулучшения.

Фактически агент начинает самостоятельно решать, какой путь развития для него будет полезнее.

Есть ли ограничения?

Да.

Авторы честно признают, что технология пока далека от совершенства.

Исследование проверялось только на трёх задачах.

Кроме того, существует риск так называемого эффекта Гудхарта.

Если система слишком сильно оптимизируется под одну метрику, она может научиться показывать хорошие результаты именно на тесте, но хуже справляться с реальными задачами.

Также исследователи предупреждают, что найденные решения могут оказаться нестабильными при изменении условий.

Почему это исследование может стать важным шагом для всей индустрии

Сегодня практически все обсуждают создание искусственного общего интеллекта.

Но прежде чем появится AGI, системе необходимо научиться самостоятельно совершенствоваться.

Не ждать разработчика.

Не ждать новых инструкций.

Не ждать очередного этапа обучения.

А самостоятельно определять свои слабые стороны и устранять их.

SIA пока очень далека от подобного уровня.

Но она показывает направление, в котором движется индустрия.

И возможно именно такие системы однажды станут фундаментом для по-настоящему самообучающегося искусственного интеллекта.

🔥 Как думаете, стоит ли давать ИИ возможность самостоятельно менять собственные знания, или такой контроль всегда должен оставаться за человеком?