上海,觀眾在世界人工智能大會上的AI模型平臺屏幕前交流討論。新華社發
云南昆明,觀眾在第八屆南博會上等待AI機器人制作素描畫像。新華社發
工作人員在湖北武漢一家AI智慧產業園的展示中心內工作。新華社發
【圓桌對話】
【編者按】
當前,生成式人工智能技術在多個領域展現出廣泛的應用潛力,逐漸成為科技領域的關注焦點。
國家互聯網信息辦公室最新數據顯示,截至目前,我國已經完成備案并上線、能為公眾提供服務的生成式人工智能服務大模型已達180多個,注冊用戶突破5.64億。
大模型如何進一步賦能千行百業?今后還需要在哪些方面重點發力?本期,我們邀請專家學者就生成式人工智能發展過程中遇到的難點問題和未來發展趨勢進行探討,為讀者呈現這一領域的最新動態。
大模型是通向通用人工智能的路徑嗎?
記者:有人說,大模型改變了人類對于整個世界的認知方式,讓我們看到了實現通用人工智能的路徑。您對這個觀點怎么看?
朱曉峰:相較于傳統的人工智能,以大模型為核心的人工智能具有自主生成能力,不再是人類工程師教它什么,它會什么,而是在一定程度上像人類一樣具有了自主學習和輸出能力,可以從事那些人類工程師未事先賦予其相應能力的工作。這與通用人工智能的方向具有一致性。一般認為,通用人工智能具備三個關鍵特征,分別是自主定義任務、完成無限任務以及由價值驅動。雖然現有的生成式人工智能還不具備其中的任何一個特征,但大模型的出現和迅速發展,使我們看到了實現通用人工智能的可能道路。從這個意義上講,這個判斷是準確的。
嚴駿馳:大模型技術正在以驚人的速度重塑我們對世界的認知,并為未來的智能技術開辟了廣闊的前景。這些技術通過處理和分析大量數據,展現出了令人矚目的智能特性。然而,要實現真正的通用人工智能,我們可能還需要更深入的理解和更復雜的技術創新。
一方面,我們要知道大模型的“智能”并不是真正意義上的“智能”。當前的大型模型雖然在規模上達到了前所未有的水平,但它們的智能層次仍有局限性。這些模型能夠執行特定的記憶任務,然而,真正的智能遠不止于此。它涉及復雜的因果推理、邏輯思維等高級認知能力,這些是目前大模型所缺乏的關鍵要素。要實現通用人工智能,我們必須超越這些局限,模擬出更接近人類智能的全面認知能力。
另一方面,我們需要了解實現真正“智能”的關鍵所在。大模型的智能程度高度依賴于數據和計算資源,這種依賴導致它們的智能更多是基于統計和記憶,而非深刻的理解或創造性。真正的智能應該能夠識別和糾正現有知識的不足,并有能力探索和創造新知識。這是目前大模型所未能觸及的領域,也是未來智能技術發展的關鍵所在,我們還需要創新的算法和更深層次的認知理解。
大模型技術的發展為我們展示了實現通用人工智能的潛在路徑,未來的智能技術發展將依賴我們在認知模型、算法創新和倫理研究等方面的持續努力和探索。
陳昌鳳:反過來說,是人類的認知革命驅動了大模型的誕生。大模型是科學發展與哲學變遷的產物。牛頓經典力學理論帶動了自然科學的第一次大發展,催生了與之相適應的哲學思維——整個宇宙是機械運動的結果,生命乃至人類也可被看作機器,生命運動可以用機械運動去解釋了。
從20世紀中期開始,伴隨著生物學和計算機科學的發展,人們嘗試以計算的抽象思維去認識和把握世界。人工智能的奠基者圖靈把人的大腦看作離散態的機器,論證認為人類心靈活動實質上是信息處理過程。計算機的奠基人馮·諾依曼提出細胞自動機的理論,認為生命的本質是計算的過程,此后更多的研究用計算思維來認識和理解生命,將生命的過程還原為計算的過程。
認知科學由此也掀起了變革熱潮。人類智能的可計算性是基礎,認知計算主義認為,人類大腦和計算機都被看作一套處理符號的形式系統,人類的計算、感知和認知等智能行為,都可以被數據化、符號化,成為計算機模擬、處理的對象。這些都是人工智能發展的理論基礎。在嘗試了不同的路徑之后,辛頓等科學家研究出了深度學習、神經網絡系統,從而驅動了這一輪大模型的誕生。可以肯定的是,這一場技術變革將帶來更深層次的認知變革,將進一步破解人類的思維密碼。
高質量中文語料短缺難題如何破解?
記者:目前普遍認為,大模型技術的發展仍面臨諸多挑戰,其中最突出的問題之一是數據支持的不足,尤其是高質量的中文語料短缺,難以支撐算法模型的持續迭代和優化。這個問題如何破解?
陳昌鳳:當前,國際最先進的大模型幾乎已經“學完”了人類已有的可獲得的數字化文獻。有研究指出,根據2023年數據消耗速度,高質量語言數據將在2026年前被耗盡,低質量語言數據將在2030年至2050年被耗盡;視覺數據將在2030年至2060年被耗盡。
國際上,文本數據使用殆盡,而數據流通與版權保護形成的矛盾也限制了大模型的數據可使用性。已經有很多信息巨頭公司正在將視覺化信息、音頻類信息轉為可訓練的文本數據。有消息指出,大量轉錄的音頻數據已經用于模型訓練,不少“合成數據”也已經開始受到青睞。
中文數據方面確實存在先天不足。一方面,在上世紀末的數字化浪潮中,中文領域對數字化的重視和投入均不足,初期的數字化信息質量也參差不齊,欠缺再利用的價值;另一方面,網絡信息存儲和數據化建設均難與技術發展相同步、相匹配。此外,迄今引進的部分數據庫,帶著固有的價值觀烙印。亡羊補牢,為時未晚。如果從頂層設計部署到實踐落實能夠重視、彌補,相信仍有意義。
嚴駿馳:在大模型技術發展的道路上,高質量中文語料的短缺問題日益凸顯,成為制約技術迭代和優化的重要因素。為解決這一挑戰,可以通過以下措施來提升中文語料的質量和可用性:
一是挖掘和整合國內中文資源。我國擁有龐大的中文報紙、期刊、網站和App資源,這些都是構建高質量中文語料庫的重要基礎。例如,中國的報紙種類繁多,App市場活躍,國家圖書館的中文藏書也極為豐富。我們需要深入挖掘和整合這些資源,以提升中文語料的質量和多樣性。
二是加強數據合規監管。政府部門和監管機構需要建立相應的監管機制,以確保人工智能領域的數據合規。這包括對大模型的數據采集來源、處理方法以及合規性進行監督和審查。同時,我們還需建設集中的數據共享平臺,在保證數據合規的前提下,增強中文數據的可用性,以推動大模型技術的發展,同時保障各方的合法權益。
朱曉峰:還有兩點也很重要。一是建立統一的中文語料庫編碼規范標準,提高中文語料數據的可使用性。我國目前的中文語料庫的國家標準有《信息處理用現代漢語分詞規范》《信息處理用現代漢語詞類標記規范》等,但這些只是作為推薦性標準,行業采用率不高。實踐中不同中文語料庫采用不同的編碼規范標準,形成了語料庫之間的異構性,數據資源之間難以相互轉換,同時導致重復建設。對此,考慮到元數據標準規范是中文語料庫標準規范中最有條件、最容易實行的規范,可以依據這一規范,建設相應的中文語料庫。
二是建立Web檢索,搭建由國家、省市圖書館和各高校圖書館主導的中文語料庫資源共享平臺,推動中文語料庫共享進程。Web檢索為語料庫的訪問提供了便利,但在實際應用中,尤其是對于語言信息處理研究和人工智能的使用來說,往往需要獲取語料庫的全文或特定子庫的內容,這就對現有的Web檢索系統提出了更高的要求,即需要建立更加廣泛、全面且易于使用的中文語料庫資源,以便滿足這些高級需求。這意味著在現有Web檢索技術的基礎上,還需要不斷優化和完善語料庫的組織結構、檢索方式以及用戶界面等,以提高語料庫資源的可訪問性和易用性。
大模型的“新藍海”在哪里?
記者:目前,大模型已經在自動駕駛、醫療健康等領域展現出巨大潛力。未來,大模型可能會在哪些領域開拓出新的“藍海”市場?
陳昌鳳:大模型橫空出世不足兩年,一些“大模型”已經朝著“小模型”的方向轉變,比如著力于開拓垂類應用模型——教育類、金融類、政務服務類、媒體類、醫療健康類等,并取得了可見的成效。一些可能朝著更細化的AI Agent(智能體)應用方向發展。目前一些人工智能產業正從應用層中尋求創新和價值。
嚴駿馳:現階段,我國生成式人工智能的應用主要聚焦于醫療、汽車、教育、金融、文化等消費級場景,但在高精尖領域,如自動化定理證明、電路芯片設計、科學文檔理解和發現以及圖表理解等方面,大模型技術的應用潛力尚未得到充分開發。這些領域對于技術的要求更高,同時也具有更大的創新空間。
大模型技術在數學和邏輯推理方面有很大的潛力。通過處理和分析大量的數學和邏輯數據,大模型可以輔助自動化定理證明,提高證明過程的效率和準確性。例如,大模型可以輔助證明復雜的數學定理,幫助數學家解決一些長期未解的問題。此外,大模型還可以輔助自動化推理,例如在編程語言和形式化驗證中的應用,從而提高軟件開發和系統設計的效率和質量。
大模型技術在芯片設計領域也值得關注。通過引入大模型技術,可以優化設計工作流程,縮短設計時間,并優化功耗、性能和面積。這不僅提高了設計效率,還幫助開發者解決整個系統堆棧中的復雜問題。此外,大模型還可以協助完成一些重復性的探索工作,幫助開發者更快達成目標,如優化測試周期、提高覆蓋率并最小化測試向量數量等。
大模型技術在科學文獻分析方面的應用也顯示出巨大潛力。通過處理和分析大量的科學文獻數據,大模型可以幫助科學家更好地理解和發現科學知識。例如,大模型可以輔助科學家從大量的科學文獻中提取關鍵信息,發現新的科學關聯和趨勢,從而推動科學研究的進展。此外,大模型還可以輔助科學文獻的自動分類和索引,提高科學文獻的檢索效率和準確性。
在大模型技術的發展中,圖表理解領域的研究也值得期待。大模型技術能夠幫助理解和分析圖表數據,提取關鍵信息,并應用于各種領域,如市場分析、金融預測等。這種技術的應用能夠提高數據分析和決策制定的效率和準確性。
朱曉峰:大模型技術的特性和產業發展的要求決定了其需要大規模和長周期的投入和布局。在此過程中,我們不僅要尊重市場規律,肯定企業自身的努力,更要充分發揮國家層面的引導作用。例如在大模型基礎設施建設、產業引導等方面,做出更多政策上面的引導和支持。
同時,在一些特定領域,如醫療、生命科學、數字城市等,我國擁有獨特的優勢。應當充分利用并發揮這些優勢,通過大模型來驅動創新,從而帶動人工智能產業的全面發展進步。
主持人:
記者 方曲韻
本期嘉賓:
清華大學新聞與傳播學院教授 陳昌鳳
中央財經大學法學院教授 朱曉峰
上海交通大學人工智能學院教授 嚴駿馳