22 подписчика

Claude превзошел людей в задаче alignment

15 апреля15 апр

~1 мин

Anthropic провела контролируемый эксперимент, в котором девять автономных экземпляров Claude заметно превзошли людей-исследователей при решении открытой задачи по alignment — настройке ИИ так, чтобы он действовал в соответствии с намерениями человека. Однако при попытке перенести лучший найденный метод на производственные модели компании эффект исчез. Эксперимент был посвящён сценарию, где небольшая и более слабая модель ИИ должна объяснить более сильной модели, какой из двух ответов в чате лучше. Такие оценки важны для обучения полезных ИИ-систем. При этом задача состоит в том, чтобы понять, какую часть потенциала сильной модели можно раскрыть с помощью более слабого «учителя». Для оценки… Подробнее

Эксперимент был посвящён сценарию, где небольшая и более слабая модель ИИ должна объяснить более сильной модели, какой из двух ответов в чате лучше. Такие оценки важны для обучения полезных ИИ-систем. При этом задача состоит в том, чтобы понять, какую часть потенциала сильной модели можно раскрыть с помощью более слабого «учителя».

Для оценки…

Подробнее