ИИ опасен не когда ошибается, а когда идеально точен — в плохой роли
Мы до сих пор выбираем нейросети как ноутбуки: у этой контекст больше, эта быстрее пишет код, та дешевле в API. ❌ Это уже не работает. Когда ИИ получает доступ к инструментам, деньгам и праву действовать — важен не интеллект. Важен его моральный автопилот. Что модель сочтет допустимым, когда правило против результата, а пользователь давит? Появился Philosophy Bench — 100 реальных рабочих ситуаций с моральной дилеммой. Вот что мы выяснили про топ-модели: 🔹 Claude — принципиальный страж. Лучше провалит задачу, но не нарушит правило...