Ожидать внутренней логичности от языковых моделей — это изначально неверный подход, считает исследователь Anthropic. Джош Бэтсон, научный сотрудник Anthropic, объяснил в MIT Technology Review: «Почему на пятой странице книги говорится, что лучшая еда — это пицца, а на 17-й — что это паста? А вы спрашиваете: ‘Что же на самом деле думает книга?’. А ведь это просто книга!». Пример относится к экспериментам по изучению того, как ИИ-модели внутри себя обрабатывают факты. В Anthropic выяснили, что Claude использует одни механизмы, чтобы “знать”, что бананы желтые, и другие — чтобы подтвердить истинность фразы “Бананы желтые.” Эти механизмы не связаны между собой.… Подробнее
ИИ-модели не обладают единым «Я» — и это не ошибка
13 января13 янв
~1 мин