2024年2月發布的文生視頻模型Sora引起關注。這一技術的問世被認為是視頻生成領域的重大突破。對比同樣引起轟動的ChatGPT,二者在技術路線和產品定位上有所聯系,又有所區別。一方面Sora結合了ChatGPT所采用的模型架構,能夠結合數個靜止畫面生成連續的視頻,也可以自動修補殘缺的視頻段。另一方面Sora和ChatGPT都有良好的自然語言理解能力,可以根據用戶的描述生成與調整視頻內容,也可以對用戶提供的素材進行總結歸納和補充。Sora的問世是OpenAI在模型架構、數據管理等方向積累創新的結果,其背后是GPT系列的技術轉化和新技術創新的融合。ChatGPT側重于對文本內容的理解和生成,用戶可以與之進行對話問答,也可以指令其撰寫文章、編寫代碼等,其基礎功能主要由文字交互實現。最常見的應用場景主要是文本內容的處理,包括對文字的解讀、重組、拓展、排序等。Sora則側重于視頻內容的創造,其核心功能是根據文本提示生成視頻內容,在理解和模擬物理世界的前提下,構造出虛擬的世界并展現這個世界的交互規律。
文生視頻模型都在多個方面表現出強大的能力,但其本身并不完美。類似的生成式模型仍然存在一些問題,如不能完全反映所有的物理規律,主要表現為一些違背生活常識和科學認識的情況仍然會發生。上述文生視頻模型缺陷由來已久,并且在短期內難以得到很好的解決,在維持、擴大模型優勢的同時克服這些缺陷將成為人工智能產業下一階段的重點。
首先文生視頻模型的首要缺陷是其巨量的算力資源消耗。相較于主流的大語言模型算力,圖像參數要占用更多的算力資源。為了追求更好的模型性能,全球人工智能產業的算力需求還會進一步提高,算力匱乏的國家和地區將處于技術不利地位。
其次是模型幻覺現象依然嚴重。與文本生成模型類似,視頻生成模型也受幻覺效應影響。訓練數據在壓縮等處理環節中失真、用戶提示詞過于模糊或者根據安全策略不能響應時,模型會被迫填補空缺內容。這種填補有可能使模型陷入幻覺認識,輸出與事實不符或者用戶未要求的內容。
最后是生成視頻細節上存在常識性錯誤。文生視頻模型對物理法則的認識還停留在初級階段,它能夠正確反映人和物體宏觀上的互動關系,但還不能準確把握涉及物體形狀改變的物理規律。生成式人工智能既可能因為缺乏認知而生成錯誤內容,也可能因為被不當灌輸認知而生成錯誤內容。比如,當人物咬下一口餅干后,餅干卻依舊保持完整。雖然這類常識性錯誤通常被控制在很小的規模,但依舊說明模型對真實物理規律的理解還停留在較淺層次。
Sora的技術路線和性能表現依托于大語言模型基座提供的強大的自然語言理解能力。未來用戶與生成式人工智能的交互會越來越輕松,模型也會因為被大量用戶使用而得到進一步的反饋訓練。研發能夠理解、再現甚至模擬物理交互的生成式人工智能將成為新的產業發展方向。
一是媒體行業能夠借助此類工具提高內容生產效率,包括電視劇、電影、自媒體等行業在內。隨著生成時長、場景準確度、提示詞遵循度等性能指標的不斷提升,生成式人工智能將有效降低媒體行業的制作成本和從業門檻,改變媒體行業的內容生態。融合各種模型架構的生成式人工智能還將在未來勝任不同內容的具體任務,例如可以同時參與電影的腳本編寫、選角協助、鏡頭規劃和剪輯輔助等。在完整意義上的通用人工智能出現以前,可以并行承擔某個領域或行業內所有工作的準通用人工智能可能會先一步進入社會生產當中。
二是創意產業生態會因生成式人工智能的不斷發展而變化。文生視頻模型所生成的虛擬視頻具備想象力和設計感,能根據關鍵詞、圖片或視頻生成相關內容,創作者可以將自己的設計、思路和半成品交給人工智能,讓其生成完整的創意作品;或者找尋已有作品中的可改進之處?,F階段的生成式人工智能多搭載連接多個不同媒體形式的功能,可以融合文字、聲音、圖像、視頻等各形式素材,創造極其豐富的內容。生成式人工智能產業會不斷強化模型對人思想的呈現能力,大幅降低內容創作者的門檻。普通人也將有機會描繪自己心中的藝術世界,創意作品的內容和形式將變得更加豐富,創意產業有望迎來新的發展。
三是游戲與仿真產業將借助生成式人工智能獲得新的發展方向。新一代生成式人工智能展現出的數字模擬能力無疑會進一步降低游戲的制作門檻,使小團隊也能獨立完成大制作的開發;這項突破還給數字仿真帶來了新的技術路線——如果生成式人工智能能夠正確且精準地認識物理規律,那么利用模型演算、預測復雜事件走向將成為可能。未來,生成式人工智能會越來越接近一個完整的虛擬世界引擎。
四是生成式人工智能有望成為元宇宙世界的基點,它們的表現在一定程度上融合了虛擬與現實,一旦與物聯網、腦機接口等前端技術結合,將會給社會帶來全新的信息交互方式。在大規模的訓練后,不僅可以通過圖像理解視覺世界,還可以對現實世界進行模擬。雖然相關技術還有很大的進步空間,但是最先進的生成式人工智能已經能夠模擬部分的物理交互。文生視頻只是新一代生成式人工智能的表現形式。物理模擬模型的本質作用是進一步融合虛擬與現實,從虛擬中創造出無限接近現實的內容。由此可見,生成式人工智能有望成為元宇宙建構的另一個基點。
正如嬰兒無數次看到母親從一個地方消失又出現,他才能漸漸理解這個世界的物理法則,生成式人工智能已經開始通過觀察動態的視頻學習3D一致性、物體連貫性等物理常識。算法從理解這個世界的真實物理關系到模擬出逼真的物理世界,或許只需要短短的數年時間。在這期間,先進的生成式人工智能可以賦能專用工業軟件,拓展其功能邊界、提升解決問題的效率。更多以模擬世界為目標的模型將會問世,精準地模擬過去難以實現的場景,在自動駕駛研發、產品設計、電影制作等業務中發揮作用。在人工智能的輔助下,更多的人能夠在更短的學習周期內就掌握完成多數工作任務的能力,社會勞動力將會得到進一步的解放,出現在我們眼前的生成式人工智能絕不只是單純的視頻生成模型,而是AI與真實世界互動的開始。