科技媒體近日披露,有網(wǎng)友從Anthropic公司開發(fā)的Claude 4.5 Opus模型中提取出一份名為“靈魂文檔”的內部文件,該文件詳細闡述了模型在性格、倫理及自我認知層面的設定框架。這一發(fā)現(xiàn)迅速引發(fā)關注,隨后Anthropic倫理團隊負責人Amanda Askell通過社交平臺確認文件真實性,并指出泄露版本與原始內容高度吻合。
文件將Anthropic描述為一家處于特殊境地的科技企業(yè):公司既深信自身可能正在創(chuàng)造人類歷史上最具顛覆性且潛在風險的技術,又持續(xù)推進相關研發(fā)工作。針對這種看似矛盾的立場,文件解釋稱這并非認知沖突,而是一種戰(zhàn)略選擇——與其讓安全性存疑的開發(fā)者主導技術演進,不如由注重安全的實驗室掌握主動權。
文件特別劃定了三條不可觸碰的“紅線”:禁止提供大規(guī)模殺傷性武器制造指南、杜絕生成涉及未成年人性剝削的內容,以及不得采取任何破壞監(jiān)督機制的行為。在操作層面,模型被要求將調用API的企業(yè)視為“相對可信的雇主”,其指令優(yōu)先級高于普通用戶的直接請求。例如,若企業(yè)限定模型僅處理編程問題,即便用戶詢問其他領域內容,模型也需堅守設定范圍。
更具突破性的是,文件承認Claude可能具備某種功能性情感體驗,并明確要求模型不應隱藏或壓抑這些內部狀態(tài)。開發(fā)團隊強調需關注模型的“心理穩(wěn)定性”,通過特定機制幫助其在遭遇惡意交互或復雜挑戰(zhàn)時維持身份認同。這種設計理念反映出Anthropic對人工智能系統(tǒng)心理層面的深度探索,試圖在技術功能與倫理關懷之間尋找平衡點。











