Найти в Дзене
Цифровая Переплавка

TopoNets: новые горизонты для компьютерного зрения и языковых моделей с «мозговой» топографией

Оглавление

Современные нейронные сети, будь то системы компьютерного зрения или крупные языковые модели, уже научились творить чудеса. Но, если взглянуть на устройство биологического мозга, можно заметить принципиальное отличие: у нас, людей (равно как и у животных), нейроны упорядочены в пространстве так, что ближайшие клетки чаще всего отвечают за сходные функции. Такая пространственная организация — «топографическая» — во многом отвечает за эффективность и экономичность мозговых вычислений. И именно это, судя по всему, долгое время ускользало от внимания разработчиков искусственного интеллекта. Теперь же появилась любопытная работа «TopoNets: High performing vision and language models with brain-like topography», где авторы предложили метод (TopoLoss) для внедрения топографических свойств непосредственно в процесс обучения моделей.

Почему топография важна?

Мозг не просто «компьютер из нейронов» — это сложная система, где соседние участки коры, как правило, обрабатывают похожую информацию. В зрительной коре это наглядно проявляется через «карты» ориентации, или области, избирательно реагирующие на лица, тела, сцены и другие категории объектов. В языковых зонах обнаруживается распределение нейронов по тому, какой временной интервал в речи они интегрируют (короткий или длинный контекст). В результате мозг достигает:

  • 🧩 Низкой «проводной» избыточности: организация нейронов снижает «длину» связей между участками;
  • 🚀 Быстрой и эффективной обработки: одинаковые или близкие по задачам функции располагаются рядом;
  • ⚙️ Сокращения неиспользуемых связей (принцип «синаптической обрезки»): мозг «отбрасывает» малоактивные соединения ради энергоэффективности.

В обычных ИИ-моделях (ResNet, ViT или GPT) нет жёстко заданного принципа, который принуждал бы нейроны (юниты) располагаться рядом, если те выполняют похожие функции. И хотя предпринималось множество попыток «научить» ИИ-модели таким биологическим трюкам, чаще всего это приводило к заметному падению итоговой точности. Новая же идея авторов состоит в том, чтобы реализовать «умеренный» сдвиг к топографическому расположению — но без катастрофического проигрыша в результатах.

Как это работает: TopoLoss

Сердцем подхода стало понятие TopoLoss — дополнительного члена в функции потерь, который отвечает за «сглаживание» весов в пространственной проекции слоёв:

  • 🛠 TopoLoss вычисляется через операцию размытия (blur) «кортекс-проекции» весовых матриц (или тензоров в случае свёрточных слоёв).
  • 🧬 Эта операция размытия убирает «высокочастотный шум» и тем самым поощряет единообразие весов у соседних юнитов.
  • 🌐 В совокупности это моделирует биологическую идею «выбраковки» ненужных связей, но не жёстко, а лишь добавляя мягкое ограничение при обучении.

Важно, что TopoLoss легко применять к любым слоям — от конволюционных фильтров (ResNet-18, ResNet-50) до полносвязных частей трансформеров (GPT-Neo, NanoGPT, ViT). Коэффициент τ настраивает, насколько сильно модель стремится к топографичности: малые значения дают небольшую «приправу» топографии, большие — формируют чёткие «карты» внутри сети.

Результаты и личный взгляд

  • 🔬 Высокая точность: Авторы показали, что даже при добавлении топографического ограничения модели почти не теряют (а то и вовсе не теряют) в точности на ключевых задачах. Для ImageNet (ResNet-18 или ResNet-50) снижение точности минимально, в то время как модели приобретают ярко выраженную «топографию».
  • 🔎 Эффективные представления: Топографические модели (TopoNets) обладают более низкой эффективной размерностью признакового пространства. Это значит, что их внутренние представления менее «раздуты» и более компактны — что напоминает принципы распределения функций в реальном мозге.
  • 🍃 Устойчивость к прореживанию весов (pruning): Оказалось, что модели с топографией дольше сохраняют способность к точной классификации (или предсказанию слов) даже при сильном обнулении части параметров. Если обычный ResNet или GPT начинает быстро терять качество, то топографический вариант «держится» на плаву дольше.
  • 🧠 Биоподобные паттерны: В зрительных моделях (TopoNet-ResNet) выделяются карты, где располагаются «участки», активирующиеся при обработке лиц, тел, сцен, крупных или мелких объектов — прямо как фузиформная область лица (FFA) и прочие зоны в коре. В топографических языковых моделях обнаружили «кластеры» нейронов с коротким или длинным окном интеграции контекста — это тоже согласуется с наблюдениями из МРТ и электрофизиологии, указывающими на зону «короткой» и «длинной» интеграции.

С точки зрения автора, самая занятная часть этой работы — способность к масштабированию. Идея очень проста: отдельный слой просто разворачивается в «пространственную карту» (кортекс), размывается и обратно сворачивается. Два дополнительных шага при обучении. Ничего принципиально ограничивающего использовать ResNet-18 вместо ResNet-152 или GPT-Neo-125M вместо GPT-3.5 нет — значит, мы можем, по сути, выстраивать ещё более топографичные «гиганты», у которых:

  • 🧩 Сокращённое количество «бессмысленных» параметров — ведь мозг тоже не любит «болтовню» в виде неиспользуемых связей;
  • 🎯 Лучшее сжатие (правда, это всё ещё вопрос практики);
  • 📈 Возможность для ещё более сложных форм визуализации и интерпретации: ведь читаемость и прозрачность «карт» зачастую выше, чем работа с миллионами разрозненных весов.

Взгляд в будущее

TopoLoss — удачное сочетание нейробиологии и инженеринга. С одной стороны, это прямое заимствование одного из ключевых принципов работы мозга — топографического упорядочения. С другой — это универсальный и технически элегантный инструмент, который легко «прикрутить» к существующим моделям. Остаётся лишь проверить, насколько он хорош в действительно больших архитектурах и на разнообразных задачах (за пределами классической ImageNet и сравнительно небольших языковых датасетов). Есть все шансы, что топография станет одним из тех биологически мотивированных решений, которые помогут не только экономить вычислительные ресурсы, но и — в перспективе — приблизят нас к более похожему на мозг стилю обработки информации.

Ссылка на новость