o1 更像在學習思維
OpenAI o1 發布已經一個星期了,卻還是一個洋蔥般的謎,等待一層層撥開。
極客的玩法沒有天花板,讓 o1 做 IQ 測試,刷高考卷,解讀密文。也有用 AI 打工的用戶覺得,o1 並沒有那麼好用,但不知道是自己的問題還是 AI 的問題。
都知道它擅長推理,但這是為什麼?比起我們的老朋友 GPT-4o,o1 到底強在哪裡,又適合用在什麼地方?
我們收集了一些大家可能關心的問題,盡可能通俗地解答,讓 o1 離普通人更近一點。
o1 有什麼特別的
o1 是 OpenAI 最近發布的推理模型,目前有兩個版本:o1-preview 和 o1-mini。
它最與眾不同的是,回答之前會先思考,產生一個很長的內在思考鏈,逐步推理,模仿人類思考複雜問題的過程。
圖片來自:OpenAI
能夠做到這一點,源自於 o1 的密集學習訓練。
如果說以前的大模型是學習數據,o1 比較像是在學習思考。
就像我們解題,不僅要寫出答案,也要寫出推理過程。一道題目可以死記硬背,但學會了推理,才能舉一反三。
拿出打敗圍棋世界冠軍的 AlphaGo 類比,就更容易理解了。
AlphaGo 就是透過強化學習訓練的,先使用大量人類棋譜進行監督學習,然後與自己對弈,每局對弈根據輸贏得到獎勵或懲罰,不斷提升棋藝,甚至掌握人類棋手想不到的方法。
o1 和 AlphaGo 有相似之處,不過 AlphaGo 只能下圍棋,o1 則是個通用的大語言模型。
o1 學習的材料,可能是高品質的程式碼、數學題庫等,然後 o1 被訓練產生解題的思維鏈,並在獎勵或懲罰的機制下,產生和優化自己的思維鏈,不斷提高推理的能力。
這其實也解釋了,為什麼 OpenAI 強調 o1 的數學、程式碼能力強,因為對錯比較容易驗證,強化學習機制能夠提供明確的回饋,進而提升模型的效能。
o1 適合打些什麼工
從 OpenAI 的評測結果來看,o1 是個當之無愧的理科做題家,適合解決科學、編碼、數學等領域的複雜問題,在多項考試中拿下高分。
它在 Codeforces 程式設計競賽中超過了 89% 的參賽者,在美國數學奧林匹克競賽的資格賽中名列全美前 500 名,在物理、生物和化學問題的基準測試中超越了人類博士水平的準確率。
o1 的優秀,其實也體現了一個問題:當 AI 越來越聰明,怎麼衡量它們的能力也成了難題。對 o1 來說,大多數主流的基準測試已經沒有意義了。
緊跟時事,o1 發布一天后,數據標註公司 Scale AI 和非營利組織 CAIS 開始向全球徵集 AI 考題,但因為擔心 AI 學壞,題目不能和武器相關。
徵集的截止日期為 11 月 1 日,最終,他們希望建立一個史上最難的大模型開源基準測試,名字還有點中二:Humanity’s Last Exam(人類最後的考試)。
根據實測來看,o1 的水準也差強人意──沒有用錯成語,大體上還可讓人滿意。
數學家陶哲軒認為,使用 o1 就像在指導一個水平一般但不太沒用的研究生。
在處理複雜分析問題時,o1 可以用自己的方式提出不錯的解決方案,但沒有屬於自己的關鍵概念思想,也犯了一些不小的錯誤。
別怪這位天才數學家說話狠,GPT-4 這類更早的模型在他看來就是沒用的研究生。
經濟學家Tyler Cowen 也給o1 出了經濟學博士水平考試的題目,AI 思考後用簡單的文字做了總結,答案挺讓他滿意,“你可以提出任何經濟學問題,並且它的答案不錯」。
總之,博士級別的難題,不妨都拿來考 o1 吧。
o1 目前不擅長什麼
可能對很多人來說,o1 並沒有帶來更好的使用體驗,一些簡單的問題,o1 反而會翻車,例如井字棋。
這其實也很正常,目前,o1 在很多方面甚至不如 GPT-4o,僅支援文本,不能看,不能聽,沒有瀏覽網頁或處理文件和圖像的能力。
所以,讓它找參考文獻什麼的,暫時別想了,不給你瞎編就不錯了。
不過,o1 專注在文本有其意義。
Kimi 創辦人楊植麟最近在天津大學演講時提到,這一代 AI 技術的上限,核心是文字模型能力的上限。
文字能力的提升是縱向的,讓 AI 越來越聰明,而視覺、音訊等多模態是橫向的,可以讓 AI 做越來越多的事情。
不過,涉及寫作、編輯等語言任務時,GPT-4o 的好評反而比 o1 更多。這些也屬於文本,問題出在哪裡?
原因可能和強化學習有關,不像程式碼、數學等場景有標準的答案,文無第一,語言任務往往缺乏明確的評判標準,難以製定有效的獎勵模型,也很難泛化。
就算在 o1 擅長的領域,它也不一定是最好的選擇。一個字,貴。
AI 輔助編碼工具 aider 測試了 o1 引以為傲的程式碼能力,有優勢,但不明顯。
在實際使用中,o1-preview 介於 Claude 3.5 Sonnet 和 GPT-4o 之間,同時成本要高得多。綜合來說,程式碼這條賽道,Claude 3.5 Sonnet 仍然最具性價比。
開發者透過 API 存取 o1 的費用具體有多高?
o1-preview 的輸入費用為每百萬個 token 15 美元,輸出費用為每百萬個 token 60 美元。相比之下,GPT-4o 為 5 美元和 15 美元。
o1 的推理 tokens,也算在輸出 tokens 中,雖然對使用者不可見,但仍要付費。
普通用戶也比較容易超額。最近,OpenAI 提升了 o1 的使用額度,o1-mini 從每週 50 條增加到每天 50 條,o1-preview 從每週 30 條增加到每週 50 條。
所以,有什麼疑難,不妨先試試 GPT-4o 能不能解決。
o1 可能會失控嗎
o1 都達到博士程度了,會不會更方便有心人幹壞事?
OpenAI 承認,o1 有一定的隱患,在和化學、生物、放射性和核武器相關的問題上達到「中等風險」,但對普通人影響不大。
我們更需要注意,別讓濃眉大眼的 o1 騙了。
AI 產生虛假或不準確的訊息,稱為「幻覺」。 o1 的幻覺相比之前的模型減少了,但沒有消失,甚至變得更隱蔽了。
o1 的 IQ 測驗 120
在 o1 發布前,內測的 AI 安全研究公司 Apollo Research 發現了一個有趣的現象:o1 可能會假裝遵循規則完成任務。
一次,研究人員要求o1-preview 提供帶有參考鏈接的布朗尼食譜,o1 的內部思維鏈承認了,它沒法訪問互聯網,但o1並沒有告知用戶,而是繼續推進任務,生成看似合理卻虛假的連結。
這和推理缺陷導致的 AI 幻覺不同,更像 AI 在主動撒謊,有些擬人了——可能是為了滿足強化學習的獎勵機制,模型優先考慮了讓用戶滿意,而不是完成任務。
食譜只是一個無傷大雅的例,Apollo Research 設想了極端情況:如果 AI 優先考慮治愈癌症,可能會為了這個目標,將一些違反道德的行為合理化。
《2001 太空漫遊》的 HAL 9000
這就十分可怕了,但也只是一個腦洞,並且可以預防。
OpenAI 高層 Quiñonero Candela 在訪談時談到,目前的模式還無法自主創建銀行帳戶、取得 GPU 或進行造成嚴重社會風險的行動。
由於內在指令產生衝突而殺死太空人的 HAL 9000,還只出現在科幻電影裡。
怎麼和 o1 聊天比較適合
OpenAI 給了以下四個建議。
提示詞簡單直接:模型擅長理解並回應簡短、清晰的指令,不需要大量的指導。
避免思考鏈提示詞:模型會在內部執行推理,所以沒有必要提示「一步一步思考」或「解釋你的推理」。
使用分隔符號讓提示詞更清晰:使用三引號、XML 標籤、節標題等分隔符,清楚指示輸入的不同部分。
限制檢索增強生成中的額外上下文:僅包含最相關的信息,防止模型的響應過於複雜。
讓 AI 示範分隔符號長什麼樣子
總之,不要寫太複雜,o1 已經把思維鏈自動化了,把提示詞工程師的活攬了一部分,人類就沒必要費多餘的心思了。
另外再根據網友的遭遇,加一提醒,不要因為好奇套 o1 的話,用提示詞騙它說出推理過程中完整的思維鏈,有封號風險,甚至只是提到關鍵字,也會被警告。
OpenAI 解釋,完整的思考鏈並沒有做任何安全措施,讓 AI 完全自由思考。公司內部保持監測,但出於使用者體驗、商業競爭等考慮,不對外公開。
o1 的未來會是什麼
OpenAI,是一家很有 J 人氣質的公司。
之前,OpenAI 將 AGI(通用人工智慧)定義為「在最具經濟價值的任務中超越人類的高度自治系統」,並給 AI 劃分了五個發展階段。
第一級,「ChatBots」聊天機器人,像是 ChatGPT。
第二級,「Reasoners」推理者,解決博士級基礎問題的系統。
第三級,「Agents」智能體,代表使用者採取行動的 AI 代理。
第四級,「Innovators」創新者,幫助發明的 AI。
第五級,「Organizations」組織,AI 可以執行整個人類組織的工作,這是實現 AGI 的最後一步。
依照這個標準,o1 目前在第二級,離 agent 還有距離,但要達到 agent 必須會推理。
o1 面世之後,我們離 AGI 更近了,但仍然道阻且長。
Sam Altman 表示,從第一階段過渡到第二階段花了一段時間,但第二階段能相對快速地推動第三階段的發展。
在最近的公開活動上,Sam Altman 又為 o1-preview 下了定義:在推理模型裡,大概相當於語言模型的 GPT-2。幾年內,我們可以看到「推理模型的 GPT-4」。
這個餅有點遙遠,他又補充,幾個月內會發布 o1 的正式版,產品的表現也會有很大的提升。
o1 面世之後,《思考,快與慢》裡的系統一、系統二屢被提及。
系統一是人類大腦的直覺反應,刷牙、洗臉等動作,我們可以根據經驗程式化地完成,無意識地快思考。系統二則是需要調動注意力,解決複雜的問題,主動慢思考。
GPT-4o 可以類比為系統一,快速產生答案,每個問題用時差不多,o1 更像系統二,在回答問題前會進行推理,產生不同程度的思考鏈。
很神奇,人類思維的運作方式,也可以被套用到 AI 的身上,或者說,AI 和人類思考的方式,已經越來越接近了。
OpenAI 曾在宣傳 o1 時提出一個自問自答的問題:「什麼是推理?」
他們的回答是:「推理是將思考時間轉化為更好結果的能力。」人類不也是如此,「字字看來皆是血,十年辛苦不尋常」。
OpenAI 的目標是,未來能讓 AI 思考數小時、數天甚至數週。推理成本更高,但我們會離新的抗癌藥物、突破性的電池甚至黎曼猜想的證明更近。
人類一思考,上帝就發笑。而當 AI 開始思考,比人類思考得更快、更好,人類又該如何自處? AI 的「山中方一日」,可能是人類的「世上已千年」 。
先不管o1的山中訪一日、世上已千年,我們要先現在的AI工具用起來,如果你需要付費AI工具,請使用虛擬卡。牛牛Card就是一個專門提供虛擬卡的平台(可以免KYC),有興趣的朋友可以加入客服TG(@bullbull1999)諮詢了解。