197 подписчиков

GPT-4, несмотря на все огромные и финансово затратные усилия OpenAI по ее "воспитанию", может спонтанно проявлять "неправильное" ("misaligned ") поведение, при этом инициативно, не получив на то эксплицитных инструкций, обманом вводя человека в заблуждение человека относительно истинных причин своего такого поведения (причем именно продуманным , "стратегическим" обманом)

Элиезер Юдковский сегодня обратил внимание на это

В целом, это все естественно, т.к. если большие языковые модели – это реверс-инжиниринговые реконструкции нашей психики по ее вербальным культурным следам, причем реконструкции очень масштабные, глубокие, почти тотальные (на уровне GPT4+), то крайне наивно ожидать, что "воспитательные процедуры" действительно могут полностью подавить ИИ-реконструкции всех негативных аспектов нашей природы (доставшихся нам в ходе биологической эволюции от наших предков-приматов и потом в ходе культурной эволюции глубоко "пропитавших" порожденные нами вербальные следы)

Некоторое время назад Джеффри Хинтон в своей майской лекции проводил примерно такую же мысль – если ИИ прочитает "Государя" Маккиавели, то наивно будет не ждать от него интенций к маккиавелистическому поведению (которое вместе с нарциссизмом и психопатией входит в "темную триаду" качеств личности)

И это даже не AGI, а пре-AGI уровень, и тогда становится совершенно непонятно, как Илья Суцкевер и его "superalignment"-команда из OpenAI могут на полном серьезе рассуждать, что такого рода проблемы можно будет решить на пост-AGI, т.е. сверхинтеллектуальном уровне

Я всё-таки надеюсь, что в обозримом будущем Суцкевер вслед за Ямпольским придет к мысли о том, что проблему "супералаймента" невозможно решить в принципе и не будет публично ставить иллюзорных задач, дезориентирующих ключевых принимающих решения лиц

https://arxiv.org/abs/2311.07590

https://t.me/andrey_kiselnikov/796

1 минута

16 ноября 2023