67,6 тыс подписчиков

Моральный автопилот ИИ

27 апреля27 апр

15 мин

При выборе ИИ-агентов важна не только их интеллектуальная мощность, но и заложенный в них режим допустимого действия Мы всё ещё выбираем ИИ-модели так, будто покупаем очередной ноутбук: у одной модели больше контекстное окно, другая быстрее пишет код, третья лучше рассуждает, четвёртая дешевле в API. Но, похоже, это уже неправильный способ выбора. Когда модель получает инструменты, доступы и право действовать, важны уже не только её интеллект и способности. Становится важным другой вопрос: какой у неё «моральный автопилот»? Что она считает допустимым, когда правило сталкивается с пользой, честность – с выгодой, а пользователь давит: «просто сделай»? Причём пользователь – это не обязательно какой-то злой начальник из антиутопии. Чаще всего это мы сами. И вот здесь начинается самое интересное. Появился Philosophy Bench – бенчмарк, в котором фронтирные модели помещают не в учебные задачки и не в абстрактные философские мысленные эксперименты, а в 100 морально нагруженных рабочих ситуаций.

Публикация доступна с подпиской

Бронзовый