Найти в Дзене
МФТИ — Физтех

В Физтехе создали «карту мыслей» для ИИ. Теперь мы можем узнать, как они думают

Представьте, что можно заглянуть в сознание нейросети и увидеть, как рождаются ее мысли — от первых проблесков до сложных концепций. Теперь это реально. Команда руководителя научной группы LLM Foundations и T-Bank AI Research, аспиранта МФТИ Никиты Балаганского создала уникальный метод визуализации "мысленных процессов" больших языковых моделей. Ученый рассказал нам о том, как устроен этот прорыв в области интерпретируемого ИИ. Как работает эта карта? Метод использует «графы потоков признаков», чтобы отслеживать судьбу каждого понятия внутри ИИ. «Мы создали своего рода генеалогическое древо для "мыслей" нейронной сети. Наш метод позволяет проследить всю родословную конкретной идеи внутри модели. Мы можем увидеть, как из простых признаков, отвечающих за отдельные слова на ранних слоях, рождаются более сложные семантические конструкции на средних, и как они в итоге собираются в абстрактные темы на финальных этапах. Это похоже на то, как ручейки сливаются в реки, а реки — в океан», —

Представьте, что можно заглянуть в сознание нейросети и увидеть, как рождаются ее мысли — от первых проблесков до сложных концепций. Теперь это реально. Команда руководителя научной группы LLM Foundations и T-Bank AI Research, аспиранта МФТИ Никиты Балаганского создала уникальный метод визуализации "мысленных процессов" больших языковых моделей. Ученый рассказал нам о том, как устроен этот прорыв в области интерпретируемого ИИ.

Как работает эта карта?

-2

Метод использует «графы потоков признаков», чтобы отслеживать судьбу каждого понятия внутри ИИ.

«Мы создали своего рода генеалогическое древо для "мыслей" нейронной сети. Наш метод позволяет проследить всю родословную конкретной идеи внутри модели. Мы можем увидеть, как из простых признаков, отвечающих за отдельные слова на ранних слоях, рождаются более сложные семантические конструкции на средних, и как они в итоге собираются в абстрактные темы на финальных этапах. Это похоже на то, как ручейки сливаются в реки, а реки — в океан»,

объяснил Никита Балаганский.

Практическое применение уже сегодня

Главный прорыв заключается в возможности тонкого управления поведением нейросетей. Зная полную траекторию развития темы, можно мягко воздействовать на всю цепочку связанных признаков. В эксперименте исследователи успешно подавили тему «научных концепций» в генерируемом тексте, доказав эффективность подхода. Это первая в мире демонстрация такого многоуровневого управления поведением ИИ.

Почему это важно?

-3

Технология открывает путь к созданию безопасного и предсказуемого искусственного интеллекта, позволяя точечно устранять нежелательные темы — от предвзятости до дезинформации. Метод дает исследователям инструмент для точной настройки стиля и тематики генерации, превращая ИИ из «черного ящика» в прозрачную и управляемую систему.

Уникальность разработки — в ее простоте и эффективности. Метод не требует огромных вычислительных ресурсов, работая с весами уже обученных моделей, что открывает дорогу для массового применения технологии.

Исследование команды ученых, представленное на международной конференции ICML в Ванкувере, знаменует важный шаг от эмпирического создания ИИ к его осознанному проектированию. В планах ученых — применить метод к самым современным языковым моделям и исследовать формирование сложных цепочек рассуждений в нейросетях.

Что думаете о таком будущем ИИ?

Помните культовый фильм «Начало», где герои путешествовали по лабиринтам снов? Теперь ученые МФТИ делают нечто похожее — только вместо снов они исследуют «сны» искусственного интеллекта. Разработанная ими технология позволяет не просто заглянуть в сознание нейросети, но и аккуратно направлять её «мысли» в нужное русло.

Если бы у вас была возможность «заглянуть в мысли» нейросети, что бы вы хотели там увидеть?

Нажмите сюда, чтобы узнать больше