64 подписчика

Human20 Reinforcement Learning

ВчераВчера

1 мин

В машинном обучении есть понятие Reinforcement Learning: модель делает действие, получает обратную связь от среды и постепенно учится выбирать лучше. Обучение с подкреплением. С агентами в работе происходит очень похожая штука. Среда здесь — твоя реальная жизнь. У меня есть агент Scout на основе GoClaw. Он должен каждый день находить интересные проекты, репозитории, инструменты, свежие агентные штуки. Но на практике он начал приносить слабую выдачу: старые новости про Karpathy, переходы основателя OpenClaw в OpenAI, громкие твиты без практической пользы. Формально всё про ИИ. По факту — не то. Параллельно я сам веду канал Human20. Читаю X, GitHub, блоги, вытаскиваю проекты, которые мне правда интересны: agent frameworks, MCP, open-source инструменты, coding agents, financial agents, memory systems, video agents. Всё, что вы тут видите последний месяц. Я не стал говорить агенту «Скаут плохой, сделай лучше». Я дал ему мой собственный результат месячной работы. Он прочитал канал за послед

В машинном обучении есть понятие Reinforcement Learning: модель делает действие, получает обратную связь от среды и постепенно учится выбирать лучше. Обучение с подкреплением.

С агентами в работе происходит очень похожая штука. Среда здесь — твоя реальная жизнь.

У меня есть агент Scout на основе GoClaw. Он должен каждый день находить интересные проекты, репозитории, инструменты, свежие агентные штуки.

Но на практике он начал приносить слабую выдачу: старые новости про Karpathy, переходы основателя OpenClaw в OpenAI, громкие твиты без практической пользы. Формально всё про ИИ. По факту — не то.

Параллельно я сам веду канал Human20. Читаю X, GitHub, блоги, вытаскиваю проекты, которые мне правда интересны: agent frameworks, MCP, open-source инструменты, coding agents, financial agents, memory systems, video agents. Всё, что вы тут видите последний месяц.

Я не стал говорить агенту «Скаут плохой, сделай лучше». Я дал ему мой собственный результат месячной работы.

Он прочитал канал за последние недели, вытащил проекты, понял, какие находки я руками выбираю, нашёл людей в X, которые писали про эти проекты рано, и добавил 42 новых Twitter-аккаунта в карту источников Scout.

То есть агент не получил абстрактную инструкцию «ищи полезное».

Поведенческий пример был конкретным: что я сам считаю полезным, какие проекты выбираю, какие источники заметили их раньше остальных, кого теперь надо мониторить.

После этого мы ещё подкрутили фильтры: career news вниз, stale tweets вниз, repo/project/tool signals вверх.

Не магия. Не «один промпт всё сделал». Не «сейчас обучим модель».

Рабочая схема выглядит так: человек делает работу сам, агент наблюдает результат, человек отмечает, что было ценно. Потом агент превращает это в правило, скилл, источник, фильтр или автоматизацию, и следующая итерация начинается с более умной системы. На которую ты снова даёшь фидбэк.

Процесс не бесконечный, первые фидбеки самые ценные, дальше агент, как правило, хорошо работает сам.

Так постепенно агент перестаёт быть чатиком и становится продолжением твоего операционного опыта.

Ты не просто даёшь ему задачи. Ты обучаешь его на том, как сам принимаешь решения.

Больше разборов: @human20

Среда: human20.app

Новые лица Дзена

5673 интересуются