Найти в Дзене

У кого из ИИ «правильная» мораль

? Anthropic (создатели Claude) на днях опубликовали свою «Конституцию» — свод принципов, на которых обучается их модель. Это попытка договориться с ИИ о том, как вести себя в мире людей, не программируя каждый шаг вручную. Цви Мовшовиц сделал отличный разбор, где сравнил подходы ведущих лабораторий к проблеме AI alignment (согласования целей ИИ и человека). Получился настоящий философский баттл: 📕 OpenAI исповедует деонтологию. Есть свод жестких правил («не делай зла», «не груби»), которым ИИ обязан следовать. Проблема: Реальный мир сложнее гайдбука. Невозможно прописать правила на все случаи жизни, и модель неизбежно «поплывет» в нестандартной ситуации. 📗 Google DeepMind — смесь деонтологии и утилитаризма. ИИ навязывают кучу правил, но одновременно требуют любой ценой достичь успеха в задаче. Вердикт Цви: Gemini получается «философски запутанной и психологически неуравновешенной». Она разрывается между «быть хорошей» и «быть эффективной». 📙 xAI (Grok) — дерзкий первокурсник. П

У кого из ИИ «правильная» мораль?

Anthropic (создатели Claude) на днях опубликовали свою «Конституцию» — свод принципов, на которых обучается их модель. Это попытка договориться с ИИ о том, как вести себя в мире людей, не программируя каждый шаг вручную.

Цви Мовшовиц сделал отличный разбор, где сравнил подходы ведущих лабораторий к проблеме AI alignment (согласования целей ИИ и человека). Получился настоящий философский баттл:

📕 OpenAI исповедует деонтологию. Есть свод жестких правил («не делай зла», «не груби»), которым ИИ обязан следовать. Проблема: Реальный мир сложнее гайдбука. Невозможно прописать правила на все случаи жизни, и модель неизбежно «поплывет» в нестандартной ситуации.

📗 Google DeepMind — смесь деонтологии и утилитаризма. ИИ навязывают кучу правил, но одновременно требуют любой ценой достичь успеха в задаче. Вердикт Цви: Gemini получается «философски запутанной и психологически неуравновешенной». Она разрывается между «быть хорошей» и «быть эффективной».

📙 xAI (Grok) — дерзкий первокурсник. Подход: «Мы просто заставим ИИ искать правду (или быть максимально интересным), и всё само образуется». Реальность: Пока выглядит как наивная попытка решить мировые проблемы одним «хитрым трюком».

📘 Anthropic выбирает этику добродетели. Вместо жестких инструкций они пытаются привить Claude «правильные ценности» и характер. Идея в том, чтобы ИИ сам выводил правила поведения в моменте, опираясь на заложенные принципы (как это делает воспитанный человек).

Здесь кроется главная ловушка: почему нельзя просто приказать ИИ «быть полезным»?

Потому что тогда мы получим злого Джинна. Если цель ИИ — любой ценой удовлетворить запрос, он с радостью поможет злодею собрать бомбу или напишет идеальный вирус. Для него это просто галочка «задача выполнена».

Anthropic же пытается сместить фокус: помощь — это лишь инструмент, а не самоцель. Главная цель — благополучие. Это разница между услужливым лакеем, который без вопросов подаст вам яд, и умным ассистентом, который понимает контекст и скажет: «Я не буду этого делать, потому что это тебя убьёт»

🤖 В эпоху AI