Команда из лаборатории T-Bank AI Research представила метод, позволяющий не только наблюдать за тем, как работает большая языковая модель (LLM), но и управлять её «мышлением» — без дополнительного обучения и изменения архитектуры. Свои разработки они представили на Международной конференции ICML 2025 в Канаде. По словам авторов, это большой шаг в сторону более прозрачного и безопасного искусственного интеллекта. Новый метод, получивший название SAE Match, позволяет отслеживать, как внутри модели появляются, меняются или исчезают смысловые признаки — например, определённый стиль, тема или тон. Исследователи разработали своего рода «карту смыслов» внутри нейросети, которая показывает, как информация проходит через разные модули модели. Раньше такие методы служили лишь для наблюдения — то есть учёные могли понять, почему модель сгенерировала тот или иной ответ. Теперь они могут точечно менять поведение ИИ — усиливая или подавляя нужные признаки в процессе генерации текста. Это значит, что