Найти в Дзене
AI Wiz

R1-Searcher++: как ИИ научится самому добывать и запоминать знания

R1-Searcher++: как ИИ научится самому добывать и запоминать знания

📅 22 мая 2025 года команда учёных из Народного университета Китая и других институтов опубликовала исследование «R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning» .

Они создали новый способ, который учит ИИ думать как человек: сначала использовать свои знания, а затем обращаться к внешним источникам, только если нужно. Давайте разберёмся, как это работает и почему это круто! 🚀

🔍 Проблема, которую решали

Большие языковые модели (LLMs), такие как ChatGPT или Qwen, хранят знания в своих параметрах, но:

— часто галлюцинируют (придумывают факты),

— не умеют "искать", если чего-то не знают,

— и не запоминают информацию, которую "нашли" при помощи поиска.

Большинство решений в виде RAG (Retrieval-Augmented Generation) добавляют поиск, но:

— перегружают модель внешними документами,

— не учат использовать собственные знания,

— не развивают способность к самостоятельному обучению.

🎯 Что предложили?

Модель R1-Searcher++ обучают работать по-человечески:

1️⃣ Сначала подумай: достаточно ли внутреннего знания?

2️⃣ Если нет — поищи внешнюю информацию.

3️⃣ Запомни найденное — используй его в будущем как своё.

⚙️ Как это устроено?

📌 Два этапа обучения:

SFT Cold-start

Модель обучают «поведению»:

— Разделять, где знание своё (<internal>), а где извне (<external>, <document>).

— Правильно оформлять ответы.

Обучение с подкреплением (Reinforcement Learning)

Через специальную систему наград модель учится:

— Оптимально сочетать свои знания и поиск

— Стремиться к кратким и точным ответам

— Не обращаться к поиску без необходимости

— Запоминать найденную информацию для повторного использования

📊 Что получилось?

Модель тестировали на 4 мультихоповых QA-датасетах:

HotpotQA, 2Wiki, Musique, Bamboogle — задачи, где ответ требует цепочки рассуждений и поиска.

R1-Searcher++ показала:

❗️ +4.3% к качеству ответов по сравнению с предыдущим RL-бейзлайном

❗️–42.9% количества поисковых запросов

Лучшую обобщающую способность — справилась даже с онлайн-поиском по Google, несмотря на то, что обучалась на локальной базе (Wikipedia 2019)

🧠 Что важно?

Модель научилась:

✅ Самостоятельно решать, когда обращаться к поиску, а когда — полагаться на свои знания

✅Запоминать информацию, полученную извне

✅ Становиться умнее в процессе обучения — без постоянного дообучения от человека

🔎 Это исследование — шаг к следующему поколению ИИ, где модели не просто воспроизводят заученное, а умеют рассуждать, добывать и накапливать знания самостоятельно.

R1-Searcher++ показывает, что LLM могут становиться умнее не за счёт постоянной донастройки, а через самообучение в процессе взаимодействия с миром. Это приближает нас к действительно адаптивному, рациональному искусственному интеллекту.

#AIWiz #ИскусственныйИнтеллект #Технологии