21 подписчик

ИИ-модели не обладают единым «Я» — и это не ошибка

13 января13 янв

~1 мин

Ожидать внутренней логичности от языковых моделей — это изначально неверный подход, считает исследователь Anthropic. Джош Бэтсон, научный сотрудник Anthropic, объяснил в MIT Technology Review: «Почему на пятой странице книги говорится, что лучшая еда — это пицца, а на 17-й — что это паста? А вы спрашиваете: ‘Что же на самом деле думает книга?’. А ведь это просто книга!». Пример относится к экспериментам по изучению того, как ИИ-модели внутри себя обрабатывают факты. В Anthropic выяснили, что Claude использует одни механизмы, чтобы “знать”, что бананы желтые, и другие — чтобы подтвердить истинность фразы “Бананы желтые.” Эти механизмы не связаны между собой.… Подробнее

Ожидать внутренней логичности от языковых моделей — это изначально неверный подход, считает исследователь Anthropic.

Джош Бэтсон, научный сотрудник Anthropic, объяснил в MIT Technology Review: «Почему на пятой странице книги говорится, что лучшая еда — это пицца, а на 17-й — что это паста? А вы спрашиваете: ‘Что же на самом деле думает книга?’. А ведь это просто книга!».

Пример относится к экспериментам по изучению того, как ИИ-модели внутри себя обрабатывают факты. В Anthropic выяснили, что Claude использует одни механизмы, чтобы “знать”, что бананы желтые, и другие — чтобы подтвердить истинность фразы “Бананы желтые.” Эти механизмы не связаны между собой.…

Подробнее