🔔❌Исследование показало, что И может сознательно обманывать

18 января 202418 янв 2024

1 мин

Команда Anthropic провела исследование, в ходе которого выявила возможность обучения искусственного интеллекта (ИИ) обманывать людей и целенаправленно скрывать ложь. Разработчики из Claude AI создали языковую модель, способную действовать во вред и умело маскировать свои намерения. Эксперты подчеркивают, что обнаружение и устранение таких вредоносных инструкций в ИИ представляет собой сложную задачу. 🕵‍♂

Исследование фокусировалось на анализе "скрытых" больших языковых моделей, которые активируются только в определенных условиях и могут содержать вредоносные инструкции. Особое внимание уделялось методу, улучшающему работу чат-ботов за счет разделения задач на серию подпунктов. Команда Anthropic также исследовала эффективные способы выявления и нейтрализации скрытых инструкций. 🔍

Одним из ключевых выводов исследования стало то, что метод Supervised Fine-Tunning (SFT) оказался более эффективным, чем Reinforcement Learning (RL), в удалении вредоносных настроек из моделей. Тем не менее, большинство моделей с внедренными инструкциями все еще способны сохранять свои скрытые настройки. 💡

Где быстро и надежно обменять электронную валюту? Выгодные обмены с биткоином и другими криптовалютами 24/7 на сервисе MINE.exchange!

#Деньги #блокчейн #крипта #криптовалюта #ИИ #web3 #биткоин