Добавить в корзинуПозвонить
Найти в Дзене
Цифровая Переплавка

NeurIPS 2025: год, когда ИИ перестал удивлять масштабами — и начал удивлять смыслом

Каждый декабрь искусственный интеллект проходит собственный «экзамен зрелости» — конференцию NeurIPS. Но 2025-й стал особенным: лучшие статьи этого года показали, что область вышла из эпохи простого наращивания параметров и вступила в фазу глубокого анализа фундаментальных вопросов. Почему модели становятся похожи друг на друга? Можно ли обучить 1024-слойного агента без единого наградного сигнала? Почему диффузионки не запоминают тренировочный датасет дословно? И действительно ли RL делает LLM разумнее? Парадоксально, но наибольшие открытия этого года — не о новых архитектурах, а о понимании того, как ИИ думает, где он ошибается и как нам избежать «коллективного искусственного разума», угрожающего творческому разнообразию. 🧠 Infinity-Chat и эффект искусственного улья: когда все модели отвечают одинаково Одна из самых «социально острых» работ NeurIPS 2025 — Artificial Hivemind. Ученые создали Infinity-Chat: 💬 26 тыс. реальных открытых запросов, ⭐ 31 тыс. аннотаций, 🔍 таксономию с 6
Оглавление

Каждый декабрь искусственный интеллект проходит собственный «экзамен зрелости» — конференцию NeurIPS. Но 2025-й стал особенным: лучшие статьи этого года показали, что область вышла из эпохи простого наращивания параметров и вступила в фазу глубокого анализа фундаментальных вопросов. Почему модели становятся похожи друг на друга? Можно ли обучить 1024-слойного агента без единого наградного сигнала? Почему диффузионки не запоминают тренировочный датасет дословно? И действительно ли RL делает LLM разумнее?

Парадоксально, но наибольшие открытия этого года — не о новых архитектурах, а о понимании того, как ИИ думает, где он ошибается и как нам избежать «коллективного искусственного разума», угрожающего творческому разнообразию.

🧠 Infinity-Chat и эффект искусственного улья: когда все модели отвечают одинаково

Одна из самых «социально острых» работ NeurIPS 2025 — Artificial Hivemind. Ученые создали Infinity-Chat:

  • 💬 26 тыс. реальных открытых запросов,
  • 31 тыс. аннотаций,
  • 🔍 таксономию с 6 категориями и 17 подтипами запросов.

Главный вывод: крупные языковые модели начинают вести себя как участники одного коллективного интеллекта — выдавая похожие ответы, даже если они обучались на разных данных и принадлежат разным компаниям.

Меня особенно зацепил момент с межмодельной гомогенностью: то, что раньше считалось следствием RLHF, оказалось по сути более глубоким структурным эффектом. Это значит, что «унификация мышления ИИ» — не баг отдельной компании, а фундаментальное свойство современных LLM.

Почему это важно?

Потому что в долгосрочной перспективе однородность ответов может привести к утрате человеческого разнообразия взглядов. Датасет Infinity-Chat, на мой взгляд, станет тем же, чем MNIST стал для компьютерного зрения — эталоном для изучения «креативных провалов» ИИ.

⚙️ Гейтинг-внимание: маленькая нелинейность, которая лечит большие проблемы

Работа Gated Attention for Large Language Models показывает редкий случай, когда простая модификация архитектуры вдруг даёт огромный прирост.

Авторы добавили всего один элемент:

  • 🔧 sigmoid-гейтинг после SDPA (scaled dot-product attention).

И что произошло?

  • 🚀 Улучшилась стабильность обучения,
  • 🌊 исчез «attention sink» — эффект, когда модель внезапно концентрируется на бессмысленных токенах,
  • 📏 выросла способность к экстраполяции (extrapolation) на длинных контекстах,
  • 🧩 улучшились scaling-свойства и MoE, и dense-моделей.

Поразило, насколько локальное изменение может исправлять такие системные проблемы. Если честно, это напоминает эпоху LSTM, когда одна «дверца» управления градиентом изменила всю архитектурную историю. Я уверен, что gating-внимание станет стандартом в будущих LLM — настолько мощно и при этом просто оно работает.

🤖 RL без наград: 1024-слойные агенты, которые учатся двигаться «по ощущению»

Третья яркая работа — исследование 1000-Layer Networks for Self-Supervised RL.

Исследователи доказывают то, что считалось почти невозможным: глубина играет ключевую роль в самообучающемся RL, даже когда нет ни наград, ни демонстраций.

Самое удивительное:

  • 🏃‍♂️ Глубокие агенты начали демонстрировать качественно новые типы поведения,
  • 🧩 при этом способность достигать целей улучшалась не просто количественно — менялись стратегии.

Для меня это важный сигнал: если мы хотим универсальных агентов будущего — не «чирикающих» LLM, а моделей, способных работать в реальном мире — путь может лежать как раз через глубину, а не через усложнение reward-функций.

Это почти противоположность модному подходу RLHF: вместо выравнивания агента под человека, ему дают пространство для поиска собственных решений.

🌫️ Почему диффузионные модели не запоминают датасеты? Исследование, которое закрывает старый вопрос

Работа Why Diffusion Models Don’t Memorize наконец-то даёт строгое объяснение парадокса: U-Net-диффузионки могут быть сверхпараметризованными, но при этом не склонны к прямому запоминанию примеров.

Исследователи показывают:

  • ⏱️ существует два ключевых времени обучения:
    t₁ — момент, когда возникает качественная генерация,
    t₂ — момент, когда начинается запоминание;
  • 📈 t₂ растёт линейно с размером датасета,
  • 🪄 между t₁ и t₂ возникает «окно хорошей генерализации», которое расширяется,
  • 💡 благодаря этому появляется динамическая регуляризация — модель как будто «сама помогает себе» не уйти в overfit.

Такое объяснение — редкая смесь строгой теории (random matrix theory, спектральный анализ) и реалистичных экспериментов.

Лично мне кажется, что эта работа станет ключом к новой волне исследований оптимальных учебных расписаний и, возможно, даже новым типам диффузионных архитектур.

🧩 Runner-ups: когда отрицательные результаты — важнее положительных

Да-да, иногда самая сильная работа — та, что честно доказывает: «Это не работает так, как мы думали».

🧘 RLVR не расширяет способности к рассуждению

Статья о Reinforcement Learning with Verifiable Rewards утверждает:

  • RLVR улучшает эффективность выборки (sampling efficiency),
  • но не создаёт новых reasoning-паттернов,
  • а иногда даже сужает пространство решений.

На практике это может объяснить, почему многие LLM после RLHF становятся менее креативными — reward-модели выжигают редкие, но полезные отклонения.

📉 Online learning: 30-летний теоретический вопрос закрыт

Работа по transductive online learning впервые даёт точные границы ошибок, показав квадратичный разрыв относительно стандартного обучения.

Это чистая теория, но фундаментальная: такие результаты определяют, каким может быть «ИИ, который учится на лету» — без огромных батчей данных.

🔀 Scaling laws и суперпозиции

Исследование суперпозиции (superposition) показывает:

  • нейронные сети представляют больше признаков, чем у них размерностей,
  • именно это ведёт к инверсному scaling-закону, который мы видим в LLM,
  • Chinchilla-законы согласуются с этим механизмом.

Мне кажется, что это разрушает магию вокруг законов масштабирования (scaling laws): теперь они выглядят не мистикой, а следствием геометрии представлений.

🎯 Что объединяет все лучшие работы NeurIPS 2025?

Несмотря на разнообразие тем, можно выделить общие тенденции:

  • 🔍 Глубокий анализ поведения моделей важнее простого достижения SOTA.
  • 🧩 Исследователи всё чаще изучают структурные эффекты (гейты, динамика, суперпозиции).
  • 🌐 Появляется смелость в постановке фундаментальных вопросов — от разнообразия ответов LLM до способность к обобщению (generalization).
  • 🤝 Возвращается культура открытых данных и кодов, что особенно заметно на фоне закрытости индустрии.

NeurIPS 2025 стал годом, когда ИИ перестал быть просто инженерным инструментом — и вновь стал наукой.

🔗 Источники