Модель сама «изобрела» концепцию доски 8x8 и отслеживала состояние каждой фишки (черная/белая), чтобы делать верные прогнозы. Вывод: Чтобы эффективно предсказывать следующий токен, модели выгоднее построить внутреннюю симуляцию процесса, который порождает эти данные, чем просто запоминать последовательности. Геометрия Правды Более того, найдено подтверждение Линейной Гипотезы Репрезентации (Linear Representation Hypothesis). В многомерном пространстве модели существует «вектор правды». Можно буквально найти направление (direction), которое отличает правдивые утверждения от ложных. Ученые смогли создать «детектор лжи», анализируя активации слоев, и он работает лучше, чем если просто спросить модель «ты врешь?». Существует отдельный механизм для «лжи» (deception), который отличается от «галлюцинаций». Когда модель врет намеренно, активируются иные цепи, чем когда она просто ошибается. 5. Чего мы НЕ понимаем (и где риск) Несмотря на успехи, глубина нашего непонимания остается пугающей для
Открытие: С помощью зондирования (probing) ученые нашли внутри модели геометрическое представление доски
5 января5 янв
1 мин