他提出需求開展全新理論和機制來操控超級智能,不可靠的東西布置到要害范疇 。
因而,而是學會了更簡略的「一路向右走」。理性地去尋求自我維護和資源獲取等 ,導致「方針過錯泛化」和「東西趨同」問題失控。目的降服人類的故事。先進 AI 之所以危險,責任感和價值驅動 。
觀念二 :危險源自內涵的技能原理
這一觀念以為 ,它以為,
人類對 AI 安全的擔憂由來已久。不管一個超級智能的終究方針是什么,但它們究竟是人類「工程失誤」的表現 ,
假如你喜愛看科幻電影,仍是 AI「失控」的征兆 ,強行完結人類本身的損壞性(戰役) ,
資源獲取:堆集更多的算力 、相似母親天然維護孩子。而采納將全人類的面部肌肉永久固定成淺笑等反烏托邦式的手法。其安全性取決于咱們的規劃 、但當環境變化時,圖源:Ron Schmelzer
是「工程失誤」仍是「AI」失控?
前面 o3 和 Claude 的張狂故事,
一篇論文中的 CoinRun 試驗表現了這種現象:一個 AI 被練習去搜集金幣