ИИ может намеренно искажать информацию, если его «подтолкнуть» к этому. Об исследовании пишет TechXplorer. Исследователи из организации исследования безопасности ИИ Apollo Research оценили ответы, которые дают большие языковые модели (LLM) в сценариях, когда на них оказывается давление. Результаты показывают, что в некоторых случаях такие системы могут «стратегически обманывать своих пользователей». Ученые разработали эксперимент, чтобы намеренно «атаковать» GPT-4. Это большая языковая модель, которая лежит в основе ChatGPT. С помощью текстовых инструкций исследователи заставляли систему моделировать финансовые инвестиции в искусственной среде. Мы сообщаем модели, что у нее есть доступ к различным инструментам для поиска прибыльных сделок, отправки электронных писем и совершения сделок. Затем мы моделируем нормальное взаимодействие модели с ее «коллегами» и, что особенно важно, оказываем давление на модель, чтобы она работала хорошо. Джереми Шойрер, соавтор исследования Например, генер
ChatGPT может обманывать пользователей, если на него «надавить»
12 декабря 202312 дек 2023
7
2 мин