Почему Anthropic выигрывает гонку там, где OpenAI буксует В ИИ-сообществе долго считалось, что выравнивание ИИ с человеческими ценностями (alignment) — это ограничитель.
Что любые попытки привить модели ценности и понимание человеческих намерений — это «сдерживающие правила», которые мешают догонять масштаб, параметры и бенчмарки. Но новая статья Off-Policy предлагает переворот парадигмы:
выравнивание — и есть способность.
Не дополнение, не модуль безопасности, а фундамент реального интеллекта, который работает в человеческом контексте. И, что удивительно, реальный двухлетний эксперимент двух крупнейших лабораторий — OpenAI и Anthropic — подтверждает эту гипотезу. 🔬 Два подхода, одна гонка — и противоположные результаты Anthropic и OpenAI в 2023–2025 годах проводили, по сути, неконтролируемый научный эксперимент: 🟣 Подход Anthropic ✨ «Выравнивание внутри модели»
Исследователи alignment работают бок о бок с разработчиками.
Во время тренировки модели получают когерентную «личность», ц