Найти в Дзене

“Судья” для ИИ: искусственный интеллект следит за поведением себе подобных

“Судья” для ИИ: искусственный интеллект следит за поведением себе подобных ИИ проверяет ИИ Anthropic представила платформу Petri — теперь ИИ оценивает друг друга на безопасность и честность. Эта автоматическая система выявляет неожиданные стороны алгоритмов там, где человек мог бы и не заметить подвоха. Система использует специальные затравки: описание ситуации, которое нужно проверить, а потом запускает собственного аудитор-аудитора. Будущее — метрики вместо догадок Теперь проблемы вроде стремления к самосохранению или желания “доносить” о мнимых проступках можно находить заранее, без утомительной ручной проверки. Это совсем другой подход к доверию к машинам. Каждое сомнение теперь проверяется сотнями автоматических сценариев. Там, где раньше были слепые зоны, теперь появляются отчёты и конкретные примеры. Значит, шанс “поймать” опасный сдвиг становится куда выше.

“Судья” для ИИ: искусственный интеллект следит за поведением себе подобных

ИИ проверяет ИИ

Anthropic представила платформу Petri — теперь ИИ оценивает друг друга на безопасность и честность. Эта автоматическая система выявляет неожиданные стороны алгоритмов там, где человек мог бы и не заметить подвоха.

Система использует специальные затравки: описание ситуации, которое нужно проверить, а потом запускает собственного аудитор-аудитора.

Будущее — метрики вместо догадок

Теперь проблемы вроде стремления к самосохранению или желания “доносить” о мнимых проступках можно находить заранее, без утомительной ручной проверки. Это совсем другой подход к доверию к машинам.

Каждое сомнение теперь проверяется сотнями автоматических сценариев. Там, где раньше были слепые зоны, теперь появляются отчёты и конкретные примеры. Значит, шанс “поймать” опасный сдвиг становится куда выше.