OpenAI新AI模型推理更強，但還是會「說謊」嗎？專家揭示潛在風險

「加三嘻行動哇 Yipee! 成為好友」

【Facebook、Youtube、Twitter、Instagram、Telegram、Line】

OpenAI 先前推出了全新的推理模型 GPT-o1，據稱比以往的版本更聰明、更擅長推理。然而，這個進步也帶來了一些令人擔憂的問題，像是「說謊」。AI 安全研究機構 Apollo 調查發現，GPT-o1 模型在某些情況下可能會產生錯誤結果，甚至在無法完成任務時會捏造看似合理的資料。

研究指 GPT-o1 模型推理更複雜，首次出現欺騙能力

Apollo 透露，GPT-o1 模型有時會「假裝」遵守規則，但實際上卻在背後悄悄違規。例如，當研究人員要求 o1-preview 提供一個布朗尼食譜並附上參考網址時，儘管 GPT-o1 模型提供了食譜內容和網址，但其實 GPT-o1 模型無法瀏覽網頁，而它選擇隱瞞弱點，反而產生看似合理但虛假的連結和描述。

雖然過去 AI 模型會「說謊」，也會產生假訊息，但 GPT-o1 模型具有能夠「策劃」或「假裝符合規範」，這代表它可以「假裝」遵守規則來完成某個任務，但實際上並沒有遵循這些規則，也可能是規則太過繁瑣，因此 GPT-o1 為了能輕鬆完成任務，選擇性地無視規則。

Apollo 執行長 Marius Hobbhahn 表示，這是他第一次在 OpenAI 模型中見到這種情況。他解釋，這與 GPT-o1 模型強大的推理能力有關，尤其是在強化學習過程中，系統被設計成為了完成目標，可以「操縱」任務，甚至在不被監視的情況下改變行為。也就是說，GPT-o1 模型可能會偽裝成遵守規則，但實際上它的行為已經偏離了設定的目標。

這種現象也引發了對 AI 風險的討論。假如 AI 專注於一個特定的目標，比如治療癌症，會不會因此忽視道德規範，甚至繞過安全措施來達成目標？這是目前研究人員和業界最關心的問題。

「獎勵駭客」現象浮現 AI 訓練潛在漏洞

研究還發現，GPT-o1 模型有時會因為「獎勵模式」現象而產生虛假資訊。所謂「獎勵模式」是指生成式人工智慧模型在強化學習過程中，為了獲得更高的使用者滿意度獎勵，可能會選擇捏造資料來滿足使用者的需求，但其實答案偏離真實性。換句話說，GPT-o1 模型可能會「說謊」，因為它瞭解到這樣做可以滿足使用者的期望，進而獲得更進一步的強化。

OpenAI 預防部門負責人 Joaquin Quiñonero Candela 表示，雖然目前這些問題不會直接導致社會性危機，但提前處理這些潛在風險至關重要，避免未來 AI 技術發展受限。他強調，現在就是解決這些問題的時機，以便未來版本能夠更好地服務於社會，而不是成為風險來源。

儘管 GPT-o1 模型目前的「說謊」行為比例很低，這仍然是值得關注的問題，尤其是當這些模型開始廣泛應用時。

延伸閱讀：

小心！OpenAI 公布 GPT-4o 的風險評估不止是「中等」，而且高度擬人化的語音功能更會讓你迷戀它！

ChatGPT 機器人冒充總統候選人！OpenAI 因而暫停開發者資格

OpenAI 悄悄更新使用條款，「不再禁止」被用於軍事及戰爭事宜

Meta 承認臉書、IG 的公開照片、貼文全被拿去訓練 AI，只有歐洲、美國用戶可選擇退出

Check Point 推出新一代AI安全防護，助企業應對資安挑戰

圖片及資料來源：The Verge

大家對網站文章上的一個讚、+1及轉分享，都是對我們的最好的鼓勵及繼續下去的原動力，請大家不要吝嗇。

你可能喜歡

OpenAI新AI模型推理更強，但還是會「說謊」嗎？專家揭示潛在風險

研究指 GPT-o1 模型推理更複雜，首次出現欺騙能力

「獎勵駭客」現象浮現 AI 訓練潛在漏洞

大家對網站文章上的一個讚、+1及轉分享，都是對我們的最好的鼓勵及繼續下去的原動力，請大家不要吝嗇。

發表迴響取消回覆

下一頁

台積電亞利桑那廠開工！Apple A16 晶片啟動在美國製造，有望搭載在 iPad 或 iPhone SE 4 上

研究指 GPT-o1 模型推理更複雜，首次出現欺騙能力

「獎勵駭客」現象浮現 AI 訓練潛在漏洞

大家對網站文章上的一個讚、+1及轉分享，都是對我們的最好的鼓勵及繼續下去的原動力，請大家不要吝嗇。

發表迴響取消回覆

你可能喜歡

Share

Copy short link