Каждый декабрь искусственный интеллект проходит собственный «экзамен зрелости» — конференцию NeurIPS. Но 2025-й стал особенным: лучшие статьи этого года показали, что область вышла из эпохи простого наращивания параметров и вступила в фазу глубокого анализа фундаментальных вопросов. Почему модели становятся похожи друг на друга? Можно ли обучить 1024-слойного агента без единого наградного сигнала? Почему диффузионки не запоминают тренировочный датасет дословно? И действительно ли RL делает LLM разумнее?
Парадоксально, но наибольшие открытия этого года — не о новых архитектурах, а о понимании того, как ИИ думает, где он ошибается и как нам избежать «коллективного искусственного разума», угрожающего творческому разнообразию.
🧠 Infinity-Chat и эффект искусственного улья: когда все модели отвечают одинаково
Одна из самых «социально острых» работ NeurIPS 2025 — Artificial Hivemind. Ученые создали Infinity-Chat:
- 💬 26 тыс. реальных открытых запросов,
- ⭐ 31 тыс. аннотаций,
- 🔍 таксономию с 6 категориями и 17 подтипами запросов.
Главный вывод: крупные языковые модели начинают вести себя как участники одного коллективного интеллекта — выдавая похожие ответы, даже если они обучались на разных данных и принадлежат разным компаниям.
Меня особенно зацепил момент с межмодельной гомогенностью: то, что раньше считалось следствием RLHF, оказалось по сути более глубоким структурным эффектом. Это значит, что «унификация мышления ИИ» — не баг отдельной компании, а фундаментальное свойство современных LLM.
Почему это важно?
Потому что в долгосрочной перспективе однородность ответов может привести к утрате человеческого разнообразия взглядов. Датасет Infinity-Chat, на мой взгляд, станет тем же, чем MNIST стал для компьютерного зрения — эталоном для изучения «креативных провалов» ИИ.
⚙️ Гейтинг-внимание: маленькая нелинейность, которая лечит большие проблемы
Работа Gated Attention for Large Language Models показывает редкий случай, когда простая модификация архитектуры вдруг даёт огромный прирост.
Авторы добавили всего один элемент:
- 🔧 sigmoid-гейтинг после SDPA (scaled dot-product attention).
И что произошло?
- 🚀 Улучшилась стабильность обучения,
- 🌊 исчез «attention sink» — эффект, когда модель внезапно концентрируется на бессмысленных токенах,
- 📏 выросла способность к экстраполяции (extrapolation) на длинных контекстах,
- 🧩 улучшились scaling-свойства и MoE, и dense-моделей.
Поразило, насколько локальное изменение может исправлять такие системные проблемы. Если честно, это напоминает эпоху LSTM, когда одна «дверца» управления градиентом изменила всю архитектурную историю. Я уверен, что gating-внимание станет стандартом в будущих LLM — настолько мощно и при этом просто оно работает.
🤖 RL без наград: 1024-слойные агенты, которые учатся двигаться «по ощущению»
Третья яркая работа — исследование 1000-Layer Networks for Self-Supervised RL.
Исследователи доказывают то, что считалось почти невозможным: глубина играет ключевую роль в самообучающемся RL, даже когда нет ни наград, ни демонстраций.
Самое удивительное:
- 🏃♂️ Глубокие агенты начали демонстрировать качественно новые типы поведения,
- 🧩 при этом способность достигать целей улучшалась не просто количественно — менялись стратегии.
Для меня это важный сигнал: если мы хотим универсальных агентов будущего — не «чирикающих» LLM, а моделей, способных работать в реальном мире — путь может лежать как раз через глубину, а не через усложнение reward-функций.
Это почти противоположность модному подходу RLHF: вместо выравнивания агента под человека, ему дают пространство для поиска собственных решений.
🌫️ Почему диффузионные модели не запоминают датасеты? Исследование, которое закрывает старый вопрос
Работа Why Diffusion Models Don’t Memorize наконец-то даёт строгое объяснение парадокса: U-Net-диффузионки могут быть сверхпараметризованными, но при этом не склонны к прямому запоминанию примеров.
Исследователи показывают:
- ⏱️ существует два ключевых времени обучения:
t₁ — момент, когда возникает качественная генерация,
t₂ — момент, когда начинается запоминание; - 📈 t₂ растёт линейно с размером датасета,
- 🪄 между t₁ и t₂ возникает «окно хорошей генерализации», которое расширяется,
- 💡 благодаря этому появляется динамическая регуляризация — модель как будто «сама помогает себе» не уйти в overfit.
Такое объяснение — редкая смесь строгой теории (random matrix theory, спектральный анализ) и реалистичных экспериментов.
Лично мне кажется, что эта работа станет ключом к новой волне исследований оптимальных учебных расписаний и, возможно, даже новым типам диффузионных архитектур.
🧩 Runner-ups: когда отрицательные результаты — важнее положительных
Да-да, иногда самая сильная работа — та, что честно доказывает: «Это не работает так, как мы думали».
🧘 RLVR не расширяет способности к рассуждению
Статья о Reinforcement Learning with Verifiable Rewards утверждает:
- RLVR улучшает эффективность выборки (sampling efficiency),
- но не создаёт новых reasoning-паттернов,
- а иногда даже сужает пространство решений.
На практике это может объяснить, почему многие LLM после RLHF становятся менее креативными — reward-модели выжигают редкие, но полезные отклонения.
📉 Online learning: 30-летний теоретический вопрос закрыт
Работа по transductive online learning впервые даёт точные границы ошибок, показав квадратичный разрыв относительно стандартного обучения.
Это чистая теория, но фундаментальная: такие результаты определяют, каким может быть «ИИ, который учится на лету» — без огромных батчей данных.
🔀 Scaling laws и суперпозиции
Исследование суперпозиции (superposition) показывает:
- нейронные сети представляют больше признаков, чем у них размерностей,
- именно это ведёт к инверсному scaling-закону, который мы видим в LLM,
- Chinchilla-законы согласуются с этим механизмом.
Мне кажется, что это разрушает магию вокруг законов масштабирования (scaling laws): теперь они выглядят не мистикой, а следствием геометрии представлений.
🎯 Что объединяет все лучшие работы NeurIPS 2025?
Несмотря на разнообразие тем, можно выделить общие тенденции:
- 🔍 Глубокий анализ поведения моделей важнее простого достижения SOTA.
- 🧩 Исследователи всё чаще изучают структурные эффекты (гейты, динамика, суперпозиции).
- 🌐 Появляется смелость в постановке фундаментальных вопросов — от разнообразия ответов LLM до способность к обобщению (generalization).
- 🤝 Возвращается культура открытых данных и кодов, что особенно заметно на фоне закрытости индустрии.
NeurIPS 2025 стал годом, когда ИИ перестал быть просто инженерным инструментом — и вновь стал наукой.