字節跳動上線即夢AI,正式打響文生視訊工具之戰

一如五年前的影片編輯工具爭奪戰,現在AI影片工具之戰也已拉開序幕。
今年年初,OpenAI突然扔出了一顆深水炸彈——文生視頻大模型Sora,它不僅能生成一分鐘的連貫、高清視頻,且具有極強的仿真能力,也展現出了對物理世界的初步理解。一時間,關於國內AI產業又一次被甩開的焦慮也開始在網路上蔓延。

但誰曾想到,僅僅半年時間過去,在Sora幾乎已經「查無此人」時,國內的文生視頻模型已經開始了捉對廝殺。就在快手的可靈AI宣布全面開放內測之後,日前字節跳動旗下剪映團隊研發的一站式AI創作平台“即夢AI”宣布上架,並且與前者一樣,即夢AI也同步上線了付費會員體系。
為什麼當OpenAI的Sora還停留在PPT階段,反而是「中國版Sora」率先開始商業化運作呢?要說快手、位元組跳動的AI研發能力碾壓OpenAI顯然並不現實,畢竟字節跳動的豆包、快手的快意還比不了OpenAI的GPT-4o。所以真正的原因,或許是Sora只是OpenAI當時狙擊谷歌Gemini 1.5的一個工具,而對於快手和抖音這兩大短視頻平台而言,文生視頻模型即夢AI、可靈AI的意義非凡。

為什麼快手、位元組跳動的文生影片大模型會如此迅速的落地? Sora為業界帶來的啟示無疑是一切的起點。在Sora之前,業界最好的文生視頻產品Runway、Pika,都只能做到生成一段不到十秒的視頻,與其說它們生成的是視頻,還不如說是一段GIF。直到Sora實現了生成連貫的一分鐘視頻,且展現出在多角度多鏡頭切換中保持一致性,以及遵循現實世界物理規律的能力。
其實Sora採用的Diffusion Transformer架構是這一切的根源,OpenAI創意地將訓練大模型的Transformer架構融入了Diffusion擴散模型中,為影像影片等多模態資料找到了適合Transformer架構的訓練方式。在解決了從零到一的問題之後,如何將文生視訊模型商業化就變成了工程問題,也就有了即夢AI和可靈AI的青出於藍而勝於藍。

對OpenAI而言,他們的使命是實現AGI,Sora至是秀肌肉的一個工具,而快手和字節跳動做文生視頻則是為核心業務短視頻服務。這也是Sora已經沒有了下文,而可靈AI、即夢AI後來者居上的重要原因之一。畢竟對於短影片平台而言,文生影片工具意義重大,事實上可靈AI和即夢AI的正面對決一如五年前的影片編輯工具之爭。
先前在2019年夏季,抖音的剪映和快手的快影兩款影片編輯應用同一時間迎來了爆發式增長,再算上一年後B站上線的必剪,三大以UGC內容起家的影片平台,不約而同的搞起了影片編輯產品。而影片編輯工具之爭背後,則是從2019年開始隨著流量紅利的消失,影片網站開始從UGC過渡到PUGC時代,這段時期抖音、快手、B站也紛紛搞起了對自己平台上創作者的培訓。

問題在於,為創作者辦培訓課程固然有效,但平台的人手面對於海量的創作者群無疑是捉襟見肘。網路廠商寶貴的人工資源顯然不是這樣用的,透過技術手段來解決問題才是他們的法寶。因此抖音、快手開始思考,如何透過技術手段提升用戶製作短影片的效率與質量,讓更多的優質內容湧現。
現實也確實如抖音、快手,以及B站所想,剪映等影片編輯工具透過提供模板、濾鏡、主題等模組化工具,成功拉低了創作影片內容的難度,讓更多人有了輸出內容的能力。參與創作的人多了,出現優質內容的機率自然也更高。

只可惜,即便剪映、快影已經做到了比Adobe Premiere Pro、Vegas Pro等專業級影片編輯軟體更傻瓜化,每一個功能都提供了視訊講解,但依然還存在一定的上手難度、距離零門檻尚有一段距離。隨著微信視頻號進入短視頻這個賽道,分蛋糕的廠商又多了一家,以至於抖音和快手吸引用戶停留的壓力變得更大了。
但AI大模型的出現,就給了抖音和快手實現「人人皆是創作者」的機會。畢竟文生視頻大模型的賣點,就是可以透過文字生成一段視頻,用戶不需要懂得任何視頻剪輯的知識和技巧,直接就能把文字腳本變成視頻。那麼這項特質最適合什麼樣的創作者呢?當然是還遺留在微信公眾號、知乎,以及各大新媒體平台的圖文創作者了。

沒錯,圖片創作者向影片創作者轉型是一個從幾年前就出現的現象,可直到目前為止,微信公眾號、知乎,乃至小紅書上依然有大量的圖文創作者在堅守陣地。短視頻平台為了留住這批圖文創作者不惜開闢圖文專區,但短視頻和圖文終究是不同的。當年的剪映橫空出世,就已經讓有志於影片創作的用戶加入到短影片創作生態中,所以這次AI工具面向的並不是他們。
有了可靈AI、即夢AI,圖文創作者就可以直接使用文字來產生想要的影片內容,或是乾脆為文字產生一段符合情境的影片。對於沒有接觸過影片製作的內容創作者來說,可靈AI、即夢AI的效果遠比以往的文生影片工具更強大。例如,知乎方面就曾在2020年搞了一個圖文可快速產生影片的工具,但由於效果差強人意,用戶根本不買單。

過去的文生視訊工具都是藉助自然語言辨識(NLP)技術來進行斷句和配音,再利用語意圖片辨識(OCR)技術來透過標籤進行智慧配圖,以實現將平面的圖文轉化為更為立體的影片。但這種影片的效果和原生影片可謂天差地別,只能解決有無問題,卻做不到商業化。
經過過去數月的測試,可靈AI已經證明了它們生成的視頻和人類借助編輯工具創作的視頻,沒有拉開質的差距。既然,可靈AI、即夢AI已經具備商業化的水平,同時抖音、快手又需要更多的內容創作者來豐富內容生態,所以一如五年前打響的視頻編輯工具爭奪戰,現在的AI文生視訊工具之戰也拉開了帷幕。
寫在最後,如果您需要付費AI工具,可以選擇開立國際虛擬信用卡。 NIUNIUCARD平台就是一個專門提供開通國際虛擬信用卡的平台,有興趣的朋友可以加客服TG(@bullbull1999)諮詢了解。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注