Добавить в корзинуПозвонить
Найти в Дзене
Ferra.ru

Внутри успешных научных нейросетей нашли общую «картину мира»

Учёные из MIT обнаружили недавно интересную закономерность: разные нейросети, обученные на данных из физического мира (например, для анализа молекул или белков), приходят к очень похожим внутренним представлениям. Проще говоря, у них формируется сходное «понимание» задачи, несмотря на различия в устройстве и данных для обучения. Что это значит для нас — объяснил Никита Драгунов, инженер-исследователь группы «Интерпретируемый ИИ» лаборатории FusionBrain AIRI. Исследователи сравнили 59 моделей с помощью нескольких взаимодополняющих метрик. Они проверили как локальную структуру данных, так и глобальную, оценили информативность моделей и их внутреннюю сложность. Ключевой вывод: чем лучше модель решает свою задачу, тем ближе её внутреннее представление к представлениям других сильных моделей. Это наблюдение справедливо даже для моделей, работающих с принципиально разными типами данных. Интересно, что сходство определяется в первую очередь данными, на которых обучалась модель, а не её архите

Учёные из MIT обнаружили недавно интересную закономерность: разные нейросети, обученные на данных из физического мира (например, для анализа молекул или белков), приходят к очень похожим внутренним представлениям. Проще говоря, у них формируется сходное «понимание» задачи, несмотря на различия в устройстве и данных для обучения. Что это значит для нас — объяснил Никита Драгунов, инженер-исследователь группы «Интерпретируемый ИИ» лаборатории FusionBrain AIRI.

Исследователи сравнили 59 моделей с помощью нескольких взаимодополняющих метрик. Они проверили как локальную структуру данных, так и глобальную, оценили информативность моделей и их внутреннюю сложность. Ключевой вывод: чем лучше модель решает свою задачу, тем ближе её внутреннее представление к представлениям других сильных моделей.

Это наблюдение справедливо даже для моделей, работающих с принципиально разными типами данных. Интересно, что сходство определяется в первую очередь данными, на которых обучалась модель, а не её архитектурой.

Почему это важно? Это открытие поддерживает гипотезу о том, что существует оптимальный, «платонический» способ представления информации о мире, к которому стремятся все качественные модели.

На практике это может ускорить обучение новых нейросетей, так как у нас появляется ориентир — то общее пространство представлений, к которому они должны прийти. Также это упрощает создание мощных мультимодальных систем, объединяющих текст, изображения и научные данные, что полезно для робототехники, разработки лекарств и материаловедения.

Однако авторы предупреждают: сходство не гарантирует, что модели выучили абсолютно верные закономерности. Они могли просто найти одинаковый, но ошибочный «короткий путь» в данных. Интерпретировать их решения нужно с осторожностью.