1 подписчик

🤖 ARIS — система, которая «пока вы спите» ведёт ML-исследование от идеи до черновика статьи

7 мая7 мая

1 мин

ARIS — система для автономного ML-исследования: она в фоне проходит путь от идеи и экспериментов до черновика статьи. Главная находка — не «более умная модель», а упряжка вокруг неё: ARIS строит cross-model adversarial collaboration, где Executor генерирует гипотезы и код, а Reviewer из другой семьи моделей целенаправленно ищет слабые места. Аналогия простая: один человек делает ход, а второй — специально проверяет, где стратегия даёт сбой. Чтобы глушить правдоподобный, но необоснованный успех, авторы добавили многоуровневую верификацию: аудит целостности экспериментов, сверку данных с конкретными заявлениями и финальную привязку чисел к первоисточникам. В тексте также есть проверка доказательств и несколько раундов научного редактирования. По заявлениям авторов, полный цикл (литература → идея → эксперименты → статья) можно запускать «за ночь», а черновик в итоге получает оценку 5–7.5/10; цифры выглядят правдоподобно, но бенчмарки и методика оценки — тот кусок, который стоит перепро

ARIS — система для автономного ML-исследования: она в фоне проходит путь от идеи и экспериментов до черновика статьи.

Главная находка — не «более умная модель», а упряжка вокруг неё: ARIS строит cross-model adversarial collaboration, где Executor генерирует гипотезы и код, а Reviewer из другой семьи моделей целенаправленно ищет слабые места. Аналогия простая: один человек делает ход, а второй — специально проверяет, где стратегия даёт сбой.

Чтобы глушить правдоподобный, но необоснованный успех, авторы добавили многоуровневую верификацию: аудит целостности экспериментов, сверку данных с конкретными заявлениями и финальную привязку чисел к первоисточникам. В тексте также есть проверка доказательств и несколько раундов научного редактирования.

По заявлениям авторов, полный цикл (литература → идея → эксперименты → статья) можно запускать «за ночь», а черновик в итоге получает оценку 5–7.5/10; цифры выглядят правдоподобно, но бенчмарки и методика оценки — тот кусок, который стоит перепроверить перед внедрением.

Практический вывод: если вы делаете пайплайн с LLM-агентами, внедрите аудит соответствия «результат → заявление → числа», а не доверяйте одному прогону одной модели.

#paper #multi-agent #autonomous-research #research-automation #MCP #arxiv

🔗 ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration