一文看懂 OpenAI 最強模型 o1：怎麼用好，為何翻車，對我們來說意味著什麼

人工智慧

o1 更像在學習思維

OpenAI o1 發布已經一個星期了，卻還是一個洋蔥般的謎，等待一層層撥開。
極客的玩法沒有天花板，讓 o1 做 IQ 測試，刷高考卷，解讀密文。也有用 AI 打工的用戶覺得，o1 並沒有那麼好用，但不知道是自己的問題還是 AI 的問題。
都知道它擅長推理，但這是為什麼？比起我們的老朋友 GPT-4o，o1 到底強在哪裡，又適合用在什麼地方？
我們收集了一些大家可能關心的問題，盡可能通俗地解答，讓 o1 離普通人更近一點。

o1 有什麼特別的
o1 是 OpenAI 最近發布的推理模型，目前有兩個版本：o1-preview 和 o1-mini。
它最與眾不同的是，回答之前會先思考，產生一個很長的內在思考鏈，逐步推理，模仿人類思考複雜問題的過程。

圖片來自：OpenAI

能夠做到這一點，源自於 o1 的密集學習訓練。
如果說以前的大模型是學習數據，o1 比較像是在學習思考。
就像我們解題，不僅要寫出答案，也要寫出推理過程。一道題目可以死記硬背，但學會了推理，才能舉一反三。

拿出打敗圍棋世界冠軍的 AlphaGo 類比，就更容易理解了。
AlphaGo 就是透過強化學習訓練的，先使用大量人類棋譜進行監督學習，然後與自己對弈，每局對弈根據輸贏得到獎勵或懲罰，不斷提升棋藝，甚至掌握人類棋手想不到的方法。
o1 和 AlphaGo 有相似之處，不過 AlphaGo 只能下圍棋，o1 則是個通用的大語言模型。
o1 學習的材料，可能是高品質的程式碼、數學題庫等，然後 o1 被訓練產生解題的思維鏈，並在獎勵或懲罰的機制下，產生和優化自己的思維鏈，不斷提高推理的能力。

這其實也解釋了，為什麼 OpenAI 強調 o1 的數學、程式碼能力強，因為對錯比較容易驗證，強化學習機制能夠提供明確的回饋，進而提升模型的效能。

o1 適合打些什麼工
從 OpenAI 的評測結果來看，o1 是個當之無愧的理科做題家，適合解決科學、編碼、數學等領域的複雜問題，在多項考試中拿下高分。
它在 Codeforces 程式設計競賽中超過了 89% 的參賽者，在美國數學奧林匹克競賽的資格賽中名列全美前 500 名，在物理、生物和化學問題的基準測試中超越了人類博士水平的準確率。

o1 的優秀，其實也體現了一個問題：當 AI 越來越聰明，怎麼衡量它們的能力也成了難題。對 o1 來說，大多數主流的基準測試已經沒有意義了。
緊跟時事，o1 發布一天后，數據標註公司 Scale AI 和非營利組織 CAIS 開始向全球徵集 AI 考題，但因為擔心 AI 學壞，題目不能和武器相關。
徵集的截止日期為 11 月 1 日，最終，他們希望建立一個史上最難的大模型開源基準測試，名字還有點中二：Humanity’s Last Exam（人類最後的考試）。

根據實測來看，o1 的水準也差強人意──沒有用錯成語，大體上還可讓人滿意。
數學家陶哲軒認為，使用 o1 就像在指導一個水平一般但不太沒用的研究生。
在處理複雜分析問題時，o1 可以用自己的方式提出不錯的解決方案，但沒有屬於自己的關鍵概念思想，也犯了一些不小的錯誤。
別怪這位天才數學家說話狠，GPT-4 這類更早的模型在他看來就是沒用的研究生。

經濟學家Tyler Cowen 也給o1 出了經濟學博士水平考試的題目，AI 思考後用簡單的文字做了總結，答案挺讓他滿意，“你可以提出任何經濟學問題，並且它的答案不錯」。
總之，博士級別的難題，不妨都拿來考 o1 吧。

o1 目前不擅長什麼
可能對很多人來說，o1 並沒有帶來更好的使用體驗，一些簡單的問題，o1 反而會翻車，例如井字棋。

這其實也很正常，目前，o1 在很多方面甚至不如 GPT-4o，僅支援文本，不能看，不能聽，沒有瀏覽網頁或處理文件和圖像的能力。
所以，讓它找參考文獻什麼的，暫時別想了，不給你瞎編就不錯了。
不過，o1 專注在文本有其意義。
Kimi 創辦人楊植麟最近在天津大學演講時提到，這一代 AI 技術的上限，核心是文字模型能力的上限。
文字能力的提升是縱向的，讓 AI 越來越聰明，而視覺、音訊等多模態是橫向的，可以讓 AI 做越來越多的事情。
不過，涉及寫作、編輯等語言任務時，GPT-4o 的好評反而比 o1 更多。這些也屬於文本，問題出在哪裡？

原因可能和強化學習有關，不像程式碼、數學等場景有標準的答案，文無第一，語言任務往往缺乏明確的評判標準，難以製定有效的獎勵模型，也很難泛化。
就算在 o1 擅長的領域，它也不一定是最好的選擇。一個字，貴。
AI 輔助編碼工具 aider 測試了 o1 引以為傲的程式碼能力，有優勢，但不明顯。
在實際使用中，o1-preview 介於 Claude 3.5 Sonnet 和 GPT-4o 之間，同時成本要高得多。綜合來說，程式碼這條賽道，Claude 3.5 Sonnet 仍然最具性價比。

開發者透過 API 存取 o1 的費用具體有多高？
o1-preview 的輸入費用為每百萬個 token 15 美元，輸出費用為每百萬個 token 60 美元。相比之下，GPT-4o 為 5 美元和 15 美元。

o1 的推理 tokens，也算在輸出 tokens 中，雖然對使用者不可見，但仍要付費。
普通用戶也比較容易超額。最近，OpenAI 提升了 o1 的使用額度，o1-mini 從每週 50 條增加到每天 50 條，o1-preview 從每週 30 條增加到每週 50 條。
所以，有什麼疑難，不妨先試試 GPT-4o 能不能解決。

o1 可能會失控嗎
o1 都達到博士程度了，會不會更方便有心人幹壞事？
OpenAI 承認，o1 有一定的隱患，在和化學、生物、放射性和核武器相關的問題上達到「中等風險」，但對普通人影響不大。
我們更需要注意，別讓濃眉大眼的 o1 騙了。
AI 產生虛假或不準確的訊息，稱為「幻覺」。 o1 的幻覺相比之前的模型減少了，但沒有消失，甚至變得更隱蔽了。

o1 的 IQ 測驗 120
在 o1 發布前，內測的 AI 安全研究公司 Apollo Research 發現了一個有趣的現象：o1 可能會假裝遵循規則完成任務。
一次，研究人員要求o1-preview 提供帶有參考鏈接的布朗尼食譜，o1 的內部思維鏈承認了，它沒法訪問互聯網，但o1並沒有告知用戶，而是繼續推進任務，生成看似合理卻虛假的連結。
這和推理缺陷導致的 AI 幻覺不同，更像 AI 在主動撒謊，有些擬人了——可能是為了滿足強化學習的獎勵機制，模型優先考慮了讓用戶滿意，而不是完成任務。
食譜只是一個無傷大雅的例，Apollo Research 設想了極端情況：如果 AI 優先考慮治愈癌症，可能會為了這個目標，將一些違反道德的行為合理化。

《2001 太空漫遊》的 HAL 9000
這就十分可怕了，但也只是一個腦洞，並且可以預防。
OpenAI 高層 Quiñonero Candela 在訪談時談到，目前的模式還無法自主創建銀行帳戶、取得 GPU 或進行造成嚴重社會風險的行動。
由於內在指令產生衝突而殺死太空人的 HAL 9000，還只出現在科幻電影裡。

怎麼和 o1 聊天比較適合
OpenAI 給了以下四個建議。
提示詞簡單直接：模型擅長理解並回應簡短、清晰的指令，不需要大量的指導。
避免思考鏈提示詞：模型會在內部執行推理，所以沒有必要提示「一步一步思考」或「解釋你的推理」。
使用分隔符號讓提示詞更清晰：使用三引號、XML 標籤、節標題等分隔符，清楚指示輸入的不同部分。
限制檢索增強生成中的額外上下文：僅包含最相關的信息，防止模型的響應過於複雜。

讓 AI 示範分隔符號長什麼樣子
總之，不要寫太複雜，o1 已經把思維鏈自動化了，把提示詞工程師的活攬了一部分，人類就沒必要費多餘的心思了。
另外再根據網友的遭遇，加一提醒，不要因為好奇套 o1 的話，用提示詞騙它說出推理過程中完整的思維鏈，有封號風險，甚至只是提到關鍵字，也會被警告。

OpenAI 解釋，完整的思考鏈並沒有做任何安全措施，讓 AI 完全自由思考。公司內部保持監測，但出於使用者體驗、商業競爭等考慮，不對外公開。

o1 的未來會是什麼
OpenAI，是一家很有 J 人氣質的公司。
之前，OpenAI 將 AGI（通用人工智慧）定義為「在最具經濟價值的任務中超越人類的高度自治系統」，並給 AI 劃分了五個發展階段。
第一級，「ChatBots」聊天機器人，像是 ChatGPT。
第二級，「Reasoners」推理者，解決博士級基礎問題的系統。
第三級，「Agents」智能體，代表使用者採取行動的 AI 代理。
第四級，「Innovators」創新者，幫助發明的 AI。
第五級，「Organizations」組織，AI 可以執行整個人類組織的工作，這是實現 AGI 的最後一步。
依照這個標準，o1 目前在第二級，離 agent 還有距離，但要達到 agent 必須會推理。
o1 面世之後，我們離 AGI 更近了，但仍然道阻且長。
Sam Altman 表示，從第一階段過渡到第二階段花了一段時間，但第二階段能相對快速地推動第三階段的發展。
在最近的公開活動上，Sam Altman 又為 o1-preview 下了定義：在推理模型裡，大概相當於語言模型的 GPT-2。幾年內，我們可以看到「推理模型的 GPT-4」。

這個餅有點遙遠，他又補充，幾個月內會發布 o1 的正式版，產品的表現也會有很大的提升。
o1 面世之後，《思考，快與慢》裡的系統一、系統二屢被提及。
系統一是人類大腦的直覺反應，刷牙、洗臉等動作，我們可以根據經驗程式化地完成，無意識地快思考。系統二則是需要調動注意力，解決複雜的問題，主動慢思考。
GPT-4o 可以類比為系統一，快速產生答案，每個問題用時差不多，o1 更像系統二，在回答問題前會進行推理，產生不同程度的思考鏈。
很神奇，人類思維的運作方式，也可以被套用到 AI 的身上，或者說，AI 和人類思考的方式，已經越來越接近了。

OpenAI 曾在宣傳 o1 時提出一個自問自答的問題：「什麼是推理？」
他們的回答是：「推理是將思考時間轉化為更好結果的能力。」人類不也是如此，「字字看來皆是血，十年辛苦不尋常」。
OpenAI 的目標是，未來能讓 AI 思考數小時、數天甚至數週。推理成本更高，但我們會離新的抗癌藥物、突破性的電池甚至黎曼猜想的證明更近。
人類一思考，上帝就發笑。而當 AI 開始思考，比人類思考得更快、更好，人類又該如何自處？ AI 的「山中方一日」，可能是人類的「世上已千年」。
先不管o1的山中訪一日、世上已千年，我們要先現在的AI工具用起來，如果你需要付費AI工具，請使用虛擬卡。牛牛Card就是一個專門提供虛擬卡的平台（可以免KYC），有興趣的朋友可以加入客服TG（@bullbull1999）諮詢了解。

一文看懂 OpenAI 最強模型 o1：怎麼用好，為何翻車，對我們來說意味著什麼

admin

发表回复取消回复

一文看懂 OpenAI 最強模型 o1：怎麼用好，為何翻車，對我們來說意味著什麼

admin

发表回复 取消回复

Related Articles

外网GPT-4o批量生产“宫崎骏”：艺术家集体破防

Meta 新款智能眼镜曝光，摄像头大升级支持隔空操作，价格比肩顶配 iPhone

亚马逊推出“千人千面”定制页面，或重构流量格局

发表回复取消回复