AI Agent，下一個爆款級AI應用？

人工智慧

AI Agent的機會來了！
如果說AIGC開啟了內容生成的智慧時代，那麼AI Agent就有機會把AIGC的能力真正產品化。
與ChatGPT等AI應用相比，AI Agent像一位更具象的全能員工，被視為人工智慧機器人的初級形態，軟硬體兼顧的智能體能夠如同人類一般觀察周圍的世界、做出決策並自動採取相應的行動。
AI Agent的想像力到底在哪裡？「大語言模型只能編個貪吃蛇，而AI Agent可以整出一個『王者榮耀』。」這是網路盛傳的回答，似乎並不誇張。比爾蓋茲也曾說過，“誰能主宰AI Agent，那才是大事。因為你將永遠不用去搜尋網站或亞馬遜。”

從技術到場景，摸著石頭過河
從AIGC發展來看，大致經歷了三波浪潮。第一波是以GPT為代表的大模型的出現；第二波是應用層的快速創新，如微軟Copilot，使智能化從Chat轉化為Work；第三波則是深度業務場景的應用，打通業務數位化全流程，服務實體經濟。
在滿足企業智慧化需求、打通業務場景的過程中，AI Agent作為一種理想的產品化落地形態，正在承接日益複雜的提質增效需求，並強化內部和外部協同效能，釋放組織核心生產力，對抗組織熵增帶來的挑戰。
AI Agent通常被視為一種融合感知、分析、決策和執行能力的智能體，它可以具備相當顯著的主動性，成為人類的理想智慧助理。例如，AI Agent可以根據個人在線上互動和參與事務處置時的信息，了解和記憶個體的興趣、偏好、日常習慣，識別個體的意圖，主動提出建議，並協調多個應用程序去完成任務。

Agent的概念由Minsky在其1986年出版的《思維的社會》一書中提出，Minsky認為社會中的某些個體經過協商之後可求得問題的解，這些個體就是Agent。他也認為，Agent應具有社會互動性和智慧性。 Agent的概念因此被引入人工智慧和電腦領域，並迅速成為研究熱點。但苦於數據和算力限制，想要實現真正智慧的AI Agents缺乏必要的現實條件。
AI Agent和大模型的差異在於，大模型與人類之間的交互作用是基於提示詞（prompt）實現的。 ChatGPT誕生後，AI從真正意義上具備了和人類進行多輪對話的能力，並且能針對相應問題給予具體回答與建議。使用者prompt是否清晰明確會影響大模型回答的效果，例如ChatGPT和這些Copilot都需要明確任務才能得到有用的答案。
當AI從被使用的工具變成可以使用工具的主體，這種具備任務規劃和使用工具能力的AI系統可被稱為Auto-Pilot主駕駛，即AI Agent。在Co-Pilot模式下，AI是人類的助手，與人類協同參與到工作流程中；在Auto-Pilot模式下，AI是人類的代理，獨立地承擔大部分工作，人類只負責設定任務目標和評估結果。
AI Agent的工作只需給定一個目標，它就能夠針對目標獨立思考並做出行動，它會根據給定任務詳細拆解出每一步的計劃步驟，依靠來自外界的反饋和自主思考，自己給自己創建prompt，來實現目標。
從1997年「深藍」擊敗西洋棋世界冠軍卡斯帕羅夫開始，華森在智力問答節目《危險邊緣》中擊敗人類冠軍、ResNet在ImageNet影像辨識比賽中的準確率超過人類、AlphaGo在圍棋比賽中戰勝李世石、OpenAI Five在多人策略遊戲Dota2中戰勝人類職業戰隊冠軍、AlphaFold的蛋白質結構預測準確率超過人類等，完成這些任務背後的能力涵蓋了人類智能感知、認知、決策的各個方面，也不斷塑造著AI Agent的技術內核。
事實上，人工智慧自誕生之初就開始探索AI Agent的解決方案。最近經歷了基於規則設計、基於強化學習和目前基於預訓練大模型三種範式。其中基於強化學習的AI Agent代表是AlphaGo和OpenAI Five，這類方法仍然是面向專用任務的特定環境進行互動。預訓練大模型學習到了通用世界知識，並可以透過語言的形式輸入和輸出，因而可以泛化到不同任務和環境。
基於預訓練大模型的AI Agent又包括兩大類，即智慧代理和智能體。預訓練大模型的「通用」能力不僅體現在內容理解和生成上，也擴展到了規劃和使用工具這類思考和決策任務。例如，我們對著一張有幾個孩子和一些小麵包的圖片問“每個孩子可以平均分到幾個小麵包”，大模型可以將任務規劃成檢測小麵包、檢測孩子、做除法三步，並在每一步調用對應的目標檢測模型或除法工具來完成。

在圖靈獎得主Yoshua Bengio設計的AGI五個層次中，AI Agent目前大致處於第三層次－多模態知覺與第四層次－具身與行動之間。
第一個層次是小資料訓練小模型，過去幾十年的傳統方法都處於這個階段。
第二層次是用網路規模的海量資料訓練大模型，以GPT-3為代表。
第三層次是從單模態到多模態，例如GPT-4o和Gemini是文字視覺語音的多模態大模型。
第四個層次是從開環系統到閉環控制，就是說考慮環境回饋並結合自身狀態，給出下一步操作對環境產生影響同時更新自身狀態，例如以AutoGPT為代表的智能體和具身智能機器人。
第五個層次是從單智能體到多智能體協作，也包括機器與人類的協作，由群體智能完成複雜任務，例如多智能體原型AutoGen模擬軟體公司的不同職位協作從而實現高品質的程式碼自動開發和文件自動生成。
從應用情境來看，AI Agent能夠幫助未來企業建構以「人機協同」為核心的智慧化營運新常態。越來越多的商業活動都將委託給AI，而人類只需要聚焦在企業願景、策略和關鍵路徑的決策。人與大量AI實體之間的協同工作模式，將顛覆目前企業的運作基礎，讓企業營運成效獲得倍增。
例如在電商領域，AI Agent能夠根據用戶的購物歷史、瀏覽行為和偏好提供個人化的產品推薦，不僅能提高用戶滿意度，還能增加銷售額和客戶忠誠度；AI Agent還可以作為智能客服，透過自然語言處理和機器學習技術自動回答使用者諮詢，處理訂單問題和退貨要求，從而提高客戶服務效率。
在教育領域，AI Agent可以根據學生的學習進度、興趣和能力提供個人化的學習資源和輔導；而在金融領域，AI Agent可以幫助使用者管理個人財務，提供投資建議，甚至預測股票趨勢。
在交通領域，AI Agent可以透過分析交通數據和即時路況提供最佳的路線規劃和交通建議。
在醫療領域，AI Agent可以幫助醫生進行疾病診斷和治療方案的發展。
在社會互動方面，AI Agent的一個重要場景是虛擬陪伴，從任務複雜度和容錯率兩方面看都是短期容易實現的，已經出現的是像Character.ai、Talkie、Linky等面向成年人的IP類和交友類應用，未來面向老年人和兒童的AI Agent虛擬陪伴可能是更具社會價值的。從技術的角度來看，提升大模型的角色扮演能力、分析和調整大模型的性格特徵等都是兼具研究意義和應用價值的方向。
從AI發展角度來看，大模型為AI Agent和機器人領域所帶來的是更強大的感知能力，這種強感知能力是建立在大參數模型和巨量資料展現出來的智慧。
AI Agent的出現，使得大模型從「超級大腦」進化為人類的「全能助手」。 AI Agent不僅需要具備處理任務和問題的智慧能力，還需要擁有與人類進行自然互動的社交智慧。
在AI Agent和機器人領域，一個最大的難點便是缺乏與物理世界的真實數據，而得不到這些數據，就無從進行訓練；即使是互聯網上得到的信息，在過去也很難根據這些信息進行擴展，並使AI Agent和機器人更好地理解世界。
而大模型則很好地解決了這個問題。如今的大模型已經實現了視覺語言上的智慧湧現，這意味著，透過網路上的數據，機器人的感知已經出現了相當強的泛化，因此能夠更好地理解真實的物理世界。
實際上，除了AI Agent，被大模型隨之帶火的還有自動駕駛。像英國自動駕駛獨角獸Wayve在融資當天，不惜花大量筆墨描繪了一個屬於「AI Agent」的未來，類似的言論也同樣出現在不少機器人公司的內部。
AI大模型對於AI Agent能力提升的重要性，主要體現在三個面向。
首先，大模型顯著提升了AI Agent解決複雜任務的能力，根據理解，把複雜任務拆解成一系列可執行的任務。
之後，在多模態大模型的能力下，AI Agent可以依托視覺、觸覺等在更複雜的場景裡做事。
最後，體現在運動能力上，AI Agent可以根據AI合成的資料做模擬訓練。如果沒有大模型，機器人實現的功能會相對受限。
由此也看出，數據是除了大模型技術外，限制機器人下一步進化最為關鍵的要素。

現今的AI Agent與2015、2016年的自動駕駛更為類似，兩者的困難都在於高品質數據的取得。而如果以L0-L5幾個階段來詮釋，目前大多數AI Agent公司都處於L0到L4的過程中，而到真正的L5則還有一段距離。具體而言，L4狀態指大多數場景下，機器人可以完成某個指定動作；而L5則指任意場景下，機器人可以完成某一動作。
為了取得足夠用於AI Agent和機器人訓練的數據，不少廠商透過真實數據和模擬數據結合的方式解決。在真實資料的取得中，廠商一般透過真人動作和機器人遙操作的方式，將任務過程中的資料「餵」給大模型。而模擬資料則是透過搭建一個盡量真實的場景，設定盡可能多的建模和現實參數，讓虛擬化的機器人進行訓練。
不過，上述的兩種方式還是存在著各自的短板，當前AI Agent還遠遠未達到資料飛輪的啟動時刻。一方面真實數據的成本極高，AI Agent目前還達不到自動駕駛般的普及度。在真實數據夠多之前，廠商需要花長時間和配備數據標準團隊來一點累積。而對於模擬資料而言，最大的問題還是現實模擬不夠真實。 AI Agent在模擬世界能成功，但導入現實世界會有一定的失敗率。
現階段，對AI Agent最大的一個限制，還是資料品質、資料規模、應用場景不足。 AI模型、AI訓練資料集、AI場景落地部署，都遠遠不夠。而隨著更有效率的演算法和演算法的泛化能力提升，未來AI Agent學習一個技能的資料量將會從現在的幾千、幾百，下降到一千甚至幾百幾十的數量級。
參考自動駕駛產業由量產帶來的數據飛輪，為了進一步解決數據問題，不少機器人廠商正在探索從量產中取得數據。
邁出實驗室，還要答好幾題？
AI Agent的想像力不言而喻，但現在的狀況是廠商都在說自己是做Agent的，那麼現階段Agent到底能做什麼，沒人可以說得清楚。
雖然與大模型相比，Agent更貼近產業，但不論是對客戶還是對開發者，Agent帶來的收益是否邁過了成本的門檻仍是未知數。 Agent的發展是基於大模型，而目前大模型賽道的特點是技術門檻高、資金投入多、商業模式尚且發展不成熟。
首先，現有的技術條件下，如何解決大模型幻覺是大模型邁向全面產業應用的困難。所謂大模型幻覺，主要指的是模型輸出了和現實世界不一致的內容，例如捏造事實、分不清虛構與現實、相信謠言和傳說等，也就是常說的「一本正經的胡說八道」。
這個問題若不解決，在實際應用場景中，這不僅會影響模型的準確性和穩定性，還限制了大模型在真實場景中的廣泛應用的可靠性，這就還有很長的一步路走。
眾所周知，AI Agent發展的前提條件是多模態。在許多情況下，如智慧客服場景，使用者可能會透過多種方式提供訊息，多模態具有很好的感知價值。但至今在解決一些邏輯、推理等核心問題上，Agent的能力仍有偏弱。因此，Agent各模組之間如何配合、多個Agent如何互動、人類與Agent如何互動等方面，Agent技術尚處於早期階段。
其次，如何控制高昂的呼叫成本是擺在AI Agent面前的另一個大難題。接入Agent後，所有需要處理的業務場景，都會轉換成需要底層大模型理解的數據，產生高昂的推理成本。舉個例子，史丹佛的虛擬小鎮框架開源後，每個Agent一天就需要消耗20美金的Token數，比用人成本還要高。
第三，國內智能算力較為短缺的現狀下，各家大模型在持續投入人力、算力、資金並實現商業化落地方面，可能會面臨較大挑戰。因此，Agent想要真正規模化落地，道阻且長。
還有很重要的一點，Agent如何確保用戶的資料安全和隱私。 Agent一旦投入应用，势必会接触到客户的核心数据，倘若数据泄漏，可能让用户和社会蒙受巨大损失。
对于AI Agent，一个很残酷的现实是，看项目的大有人在，投项目的屈指可数。
如今，各行各业都已不是PPT融资的时代了，无论多么前沿的技术，也只有落地走通盈利模式才能实现价值。AI Agent的未来一定是一场马拉松，只有扎实做好大模型技术和找到商业化落地的路径，才能在未来有机会不被赶下“牌桌”。
写在最后，AI Agent等工具均可使用国际虚拟信用卡付费。NIUNIUCard平台就是一個專門提供開通國際虛擬信用卡的平台，有興趣的朋友可以加客服TG（@bullbull1999）諮詢了解。

admin

发表回复取消回复

AI Agent，下一個爆款級AI應用？

admin

发表回复 取消回复

Related Articles

Google I/O超前瞻：AI成为新灵魂，XR重回舞台中央

谷歌入局AI眼镜，昔日智能眼镜鼻祖，要靠AI+AR再赢一次？

Chrome将被OpenAI吞下？AI时代浏览器市场早已变天

发表回复取消回复