中國人民大學信息學院教授 孟小峰
【摘要】人工智能幾經沉浮,終于在60年之后迎來了新的黃金發展期。計算社會科學是一門因數據而生的學科,人工智能將成為其重要的研究工具。同時,計算社會科學也將推動人工智能“了解智能”。在新的時代背景下,把人工智能和計算社會科學結合起來發展,勢在必行。但是,這將產生數據層、算法層、應用層和生態系統四個方面的挑戰,本文將對這些挑戰進行分析,并提出相應的解決方案,旨在通過“技術+制度”的方式,進一步推動人工智能和計算社會科學向前邁進。
【關鍵詞】人工智能 計算社會科學 數據 算法 生態系統
【中圖分類號】 TP18 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2019.20.004
引言
人工智能的發展。目前,學術界公認人工智能的提出肇始于1956年的達特茅斯會議。經歷了60余年沉浮,人工智能發展再攀高峰。從計算模式的角度來思考人工智能發展過程,可以發現,計算機模式幾乎每15年就會發生一次重大變革。1950年,首臺計算機出現;1965年,大型機進入人們視野;1980年,個人電腦開始普及;1995年,互聯網創造了“地球村”;2010年,云計算與大數據重新定義數據價值;2015年,“智能萬物互聯”的概念被提出。在此期間,人工智能于1956年被提出,并以“符號主義”的形式走進人們視野;20世紀80年代,“聯結主義”展示出強大生命力;在互聯網時代,統計學習理論得到發展,誕生了SVM等經典模型。但是,直至云計算與大數據締造的大數據時代,人工智能才真正開始應用于實踐,形成了人工智能潮流。這與前期的理論積累和以深度學習為代表的人工智能算法、大數據時代的數據規模以及云計算帶來的強大算力密不可分。
那么,到底什么是人工智能呢?提出“機器學習(machine learning)”一詞的Arthur L. Smuel認為,[1]人工智能旨在使機器通過學習人的智能來解決復雜問題。所以,人工智能具有了解智能和實踐智能兩層內涵。其中,前者指真正了解人類解決復雜問題的智能過程;后者指機器能夠重現大腦在給定場景下的活動。由于前者,人工智能是一個典型的交叉學科問題,具體涉及計算機科學、數學、神經科學、認知學等。而依據后者,即機器重現大腦的程度,可以將人工智能的發展分為弱人工智能、強人工智能和超人工智能三個階段。其中,弱人工智能可以在特定場景下完成基礎的角色性任務,如根據圖片對失蹤兒童本人進行識別;強人工智能則用于實現隨場景遷移的智能,如根據失蹤兒童照片找到其父母;而超人工智能則指超越于人類的智能。目前,強人工智能的應用并不常見,而超人工智能尚未真正出現,所以,我們正處于弱人工智能階段。因此,本文的人工智能指“弱人工智能”。
雖然人工智能歷經沉浮,迎來了新的黃金發展期。但是其本身存在“實現智能過程非智能”的問題,即實現機器學習等人工智能的手段依舊大量依靠人工。在機器學習系統中,[2]真正的機器學習代碼僅占很小一部分,而大部分工作都消耗在環境配置、數據采集、數據驗證、機器學習資源管理、特征提取、過程管理工具、分析工具、服務基礎設施和監測上。而且隨著相關應用的落地,人們也會產生一些疑問:人工智能可以學習人的顯性知識,但應當如何學習常識等隱性知識以及知識抽象等能力呢?人工智能收集的個人信息可以應用于公安系統,從而保障人身安全,但同時個人隱私又應當如何保護呢?因此,政府不僅通過“國家新一代人工智能開放創新平臺白名單”等形式大力鼓勵相關技術研發,也出臺了《新一代人工智能治理原則》等進一步督促其健康發展。在人工智能潮流的背景之下,人們的生產和生活方式發生了很大變化,那么,計算社會科學又會迎來什么樣的挑戰和機遇呢?
計算社會科學的發展。后工業化時代的復雜社會問題催生了計算社會科學的誕生。正是其所在的大數據時代使“我們的社會開啟了一場可與印刷和互聯網帶來的革命相比肩的偉大旅程”。[3]2009年,David Lazer等多位科學家發表了題為《計算社會科學》(Computational Social Science[4])的文章,成為計算社會科學這一交叉學科誕生的標志。2012年,歐洲學者Conte R.等人發表的《計算社會科學宣言》(Manifesto of Computational Social Science[5])更是計算社會科學領域的“宣言”。
計算社會科學[6]是一種基于系統科學、網絡科學、復雜性科學等科學理論,利用人工智能、數據挖掘等計算科學方法,以社會、經濟等領域大數據作為研究對象,交叉融合各學科理論,為人類更深入地認識社會、改造社會,解決政治、經濟、文化等領域復雜社會問題的理論和方法論體系。簡而言之,計算社會科學是一門基于社會學原理,使用自然科學和信息科學工具,揭示社會發展規律,從而解決社會問題的學科。
計算社會科學是復雜社會背景和大數據時代共同催生的產物。但在大數據和互聯網的春風下,數據產生方式以及數據本身的特征將進一步發生轉變,未來二三十年的人類社會將從大數據時代過渡到萬物互聯時代,從而奠定智能社會的重要技術基礎。那么,計算社會科學將面臨哪些挑戰?又該如何實現這些挑戰的機遇化?為了充分利用萬物互聯時代的技術基礎,計算社會科學又將如何變革?
人工智能與計算社會科學的相輔相成。毫無疑問,進一步發展的人工智能將成為未來智能社會科技的重要組成。那么,在當前的人工智能潮流中,計算社會科學應當以什么姿態面對智能,又應當如何突破自身限制,繼續向前發展?在回答這個問題之前,我們首先需要明確人工智能與計算社會科學之間的關系。
人工智能將成為計算社會科學的重要研究工具。如上所述,計算社會科學是一門典型的交叉學科:從理論基礎、研究對象、研究問題,到研究工具,其每個環節都受益于其他學科的發展。計算社會科學扎根于傳統的社會學理論,基于大數據時代的豐富采樣和分析手段來研究和解決問題。人工智能的出現,不僅豐富了計算社會科學的分析手段,還增強了其預測能力。如基于文本等內容的網絡輿情分析就是人工智能推動計算社會科學研究的典型案例。
計算社會科學將推動人工智能“了解智能”。如前所述,人工智能的提出旨在使機器通過學習人類在特定場景下的智能來解決復雜問題,具體包括了解智能和實踐智能兩方面。目前的人工智能僅處于弱人工智能階段。它面臨隱性知識無法得知和抽象能力無法學習等問題,也無法像人類那樣進行感性決策。而這些問題的關鍵在于機器對世界的感知和理解無法達到人類水平。因此,要真正“了解智能”,就需要對人及其思維展開進一步研究。而計算社會科學正是一門研究人及其群體的典型學科。因此,計算社會科學將推動人工智能“了解智能”。
經過上述分析,可以發現,無論是人工智能還是計算社會科學,它們都存在進一步發展的阻力或障礙。但是,人工智能可以成為計算社會科學的重要研究工具,而計算社會科學也將推動人工智能“了解智能”。那么,如果將二者結合起來,是否會遇到新的挑戰?又應當如何面對這些挑戰呢?
挑戰
由于彼此之間相輔相成,因此可以考慮將人工智能作為計算社會科學的重要研究工具之一,而計算社會科學得到的相關結論也可以幫助人工智能在實踐智能之前“了解智能”。那么,二者結合起來之后是否會將各自的問題放大,甚至產生新的問題呢?按照人工智能的實踐過程,下面將根據問題產生背景將人工智能浪潮中計算社會科學所面對的挑戰分為四層,即數據層、算法層、應用層,以及三者共同構成的生態系統。
以隱私為核心的數據層挑戰。數據既是人工智能得以廣泛應用的重要基礎,也是計算社會科學誕生的背景和驅動力所在?;跀祿漠a生到應用的生命周期來看,數據層將面對數據收集時的壟斷問題、數據分析和利用之前的融合問題,以及貫穿整個數據生命周期的隱私問題。
首先是數據壟斷。基于約3000萬用戶的APP使用數據、162個維度的用戶畫像,以及近30萬個APP信息,包括名稱、類別、開發者、版本、權限、大小和評分等,我們得到了數據擁有者與收集者的隱私風險指數,并通過群體分析、組合分析和成因分析得到了區域、人群、行為等多角度的隱私風險分析結果。其中,數據收集者的隱私風險量化結果表明,10%的收集者獲取了99%的權限數據,形成了遠超傳統“二八定律”的數據壟斷。而且這些數據壟斷者之間還在進行著類似于2017年順豐菜鳥之爭的數據爭奪戰。如何評價現有的數據壟斷和數據爭奪戰?真正產生這些數據的用戶又應當如何維護自己的權益?
其次是大數據融合。從PC時代到互聯網時代,再到大數據時代,數據產生方式從被動到主動再到自動,當前數據也呈現出多源異構、分布廣泛和動態演化等特征,數據的關聯、交叉和融合更為迫切。價值挖掘是大數據應用的重要驅動力。而“大數據價值鏈”[7]則反映了大數據所含價值的挖掘過程。具體而言,其是一個“離散數據集成化數據知識理解普適機理凝練解釋客觀現象、回歸自然”的螺旋式上升過程,每個環節都是大數據的一次增值。那具體應當如何實現呢?
最后是數據隱私。數據獲取、分析和運用中,必然會帶來隱私問題。與傳統隱私問題相比,大數據隱私的來源和波及范圍更廣,相應產生的影響也更為深遠,尤其是個人隱私。其目前面臨的問題與20世紀臭名昭著的塔斯基吉梅毒實驗十分相似,都表現出BCD特征。第一,Beyond Users,即凌駕于用戶之上的目標。大數據收集者不僅將數據用于改善用戶體驗,也通過數據交易提高收益。而梅毒實驗工作人員不惜以被試身體健康為代價,收集用于推動梅毒研究的實驗數據。第二,Cheap Service,即為用戶提供廉價服務。大數據收集者通過為用戶提供廉價的產品來獲取更為昂貴的個人數據。而梅毒實驗工作人員則通過為被試提供廉價的食物來獲取更為昂貴的實驗數據。第三,Deceptive Means,即通過欺騙性手段挖掘更多用戶價值。大數據收集者可能會向用戶申請其提供服務并不需要的權限。而梅毒實驗工作人員為進一步獲取實驗數據,聲稱(實際并沒有)為被試提供醫療服務。
以公平為核心的算法層挑戰。算法是人工智能的核心所在,那么算法本身有沒有問題呢?就算法的提出、訓練、測試和最終應用來看,公平問題較為突出。心理學家亞當斯的公平理論認為,人們對公平的感知取決于社會或歷史比較;社會學領域強調同工同酬;而哲學家羅爾斯則寄希望于通過“無知之幕”下的社會契約論來實現公平?!缎乱淮斯ぶ悄苤卫碓瓌t》中將“公平公正”列為原則之一,指出人工智能發展應促進公平公正,保障利益相關者的權益,促進機會均等。通過持續提高技術水平,改善管理方式,在數據獲取、算法設計、技術開發、產品研發和應用過程中消除偏見和歧視。
筆者認為人工智能算法中的公平主要包括兩個涵義:第一,面向數據集公平,即在算法相同的前提下,基于相似的數據集可以訓練出相似的模型。第二,面向數據個體公平,即對于訓練好的模型而言,輸入相似的數據個體可以得到相似的輸出結果。但實際應用并非如此。由于現實社會的復雜性,人天生帶有偏見,而這些偏見會被有意識或無意識地帶入訓練數據標注中;再加上訓練數據規模和質量的差異,很容易導致測試結果的不同;在這些因素的共同作用下,最終模型就會帶有偏見,進而將這種偏見體現在實踐應用的每個數據個體上。因此,理想情況下,公平的人工智能可以足夠反映客觀現實,即面向數據集公平;同時,也可以做到糾正主觀偏見,即面向數據個體公平。
以研究方法論為核心的應用層挑戰。人工智能可以提高計算社會科學的數據挖掘和預測等能力,但其研究方法論在根本上決定了這個學科能夠走多遠。計算社會科學固然可以推動人工智能對人類智能的“了解”,但最終效果依舊有賴于計算社會科學本身對人類的認知。因此,要真正發揮人工智能與計算社會科學的綜合效應,應當從計算社會科學的研究方法論入手。
計算社會科學是一門典型的交叉學科,它以前所未有的廣度、深度和規模大量收集和分析數據,并通過計算建模的方法實現社會—技術系統的行為預測,是科學研究范式從實驗科學、理論科學發展到計算科學、探索科學的產物。誠然,雖來自于自然科學,這四大科學研究范式在提出之后卻同時推動了計算社會科學的發展。但是,計算社會科學和自然科學的研究對象具有本質差異,前者面向人,后者面向物。從學科分類體系來看,計算社會科學是總體邏輯思維,自然科學是類型邏輯思維。總體邏輯思維關注獨立各異個案的整體分布,其認為變異是社會現實的本質,研究工作是從變異中尋求規律,以經驗為基礎,以量化為導向地去概括總體變異的系統模式。這種量化無法挖掘出普適規律來描述和解釋所有個體行為。類型邏輯思維則認為應該重點關注典型對象,只要理解了典型對象的規律,就可以將其概括并推廣到個體和具體問題。因此,實證主義等社會科學向自然科學看齊的研究方法并不能從根本上適應社會科學。計算社會科學需要在方法論上進行革新。
以數據治理為核心的生態系統挑戰。在人工智能與計算社會科學相輔相成的背景下,我們稱數據層、算法層和應用層均存在的問題為生態系統的大數據治理挑戰。“治理”(Governance)一詞最早起源于拉丁文“掌舵”(steering),起初用于“政府治理”。后受到企業認同和重視,出現了“企業治理”。隨著IT資源和數據資源的不斷豐富,出現了“IT治理”和“數據治理”的概念。而“大數據治理”則是“數據治理”的延伸,同時又具有其獨特性。Sunil Sores認為,[8]“大數據治理是廣義信息治理計劃的一部分,即制定與大數據有關的數據優化、隱私保護與數據變現的政策”。但正如信息安全領域經典的“七分靠管理,三分靠技術”所言,筆者認為,“大數據治理”不應僅具有政策內涵,還應包括相關技術手段。這里的大數據治理挑戰具體包括數據獲取,數據發布,數據權利、責任、角色和風險,利益相關者,以及外部影響五個方面。[9]
第一,即使是在大數據時代,數據也并非無源之水。數據獲取需要大量社會資源的持續投入。第二,數據既沒有專利完善的保護措施,也沒有論文發表的成熟機制,因此在發布方面存在數據投資、保存和應用的制度和技術問題。第三,當數據成為重要資源,產學研政各界都將開始圍繞數據展開價值挖掘活動。但如何將數據所有權、使用權、許可權等權利,數據維護和監督等責任,以及數據泄露和不完整等帶來的一系列風險分配給不同角色卻依舊懸而未決。第四,數據的利益相關者包括企業、高校、科研機構、學者、學生、圖書館、博物館、出版商、資助機構以及政府單位等。如何在不同利益相關者之間分配數據采集和繁雜的數據監護[10]任務,并進一步構建大數據時代的數據人才基礎設施?第五,從產生到投入實踐,數據面臨的外部影響主要包括經濟與數據價值、數據產權和倫理觀三個方面的問題。我們又應當如何緩解或解決這些新問題呢?
綜上,將人工智能應用于計算社會科學,并同時實現計算社會科學反哺人工智能,將會面臨數據層的數據壟斷、大數據融合和數據隱私問題,算法層的公平問題,應用層的計算社會科學研究方法論問題,以及整個生態系統都可能存在的大數據治理問題。如何克服這些挑戰,從而真正發揮二者相輔相成的協同作用呢?
機遇
人工智能浪潮中的計算社會科學縱然面臨眾多挑戰,但同時,相關技術的發展和制度的完善也為二者的協同進步奠定了基礎。下面將分別從數據層、算法層、應用層和生態系統四個方面闡釋解決方案。
基于隱私保護的數據層解決方案。作為計算社會科學和人工智能的基礎,數據層面臨的挑戰主要包括數據壟斷甚至爭奪、大數據融合和數據隱私三方面。針對這些問題,筆者建議從數據共享,大數據融合,以及隱私保護技術、聯邦學習和隱私保護制度著手進行現狀改善。
首先是針對數據壟斷的數據共享。從歷史角度來看,數據已經從“About Enterprise”轉變為“About People”,從而進一步擴大了數據生態的馬太效應,以至于目前10%的數據收集者掌握著用戶99%的權限數據。導致這種現狀的另一原因是數據收集者之間的數據收集方法、云計算技術水平、分析方法,以及經濟實力等方面存在較大差異??蓮囊幏稊祿占凸膭顢祿蚕韮蓚€方面入手緩解該問題。規范數據收集將在隱私保護部分做進一步解釋,這里重點闡述鼓勵數據共享。一方面,組建數據共享中心。傳統意義上,數據共享意味著數據在不同使用者之間的物理拷貝和流通。但是,這種共享方式帶來的安全問題較多;且數據存儲和計算等成本非常高,經濟實力較弱的數據收集者依舊無法承擔。因此,可以考慮組建數據共享中心,其成員不僅可以使用中心的數據,也可以使用相關基礎設施和計算資源。另一方面,完善數據共享相關制度。目前,國內已組建了貴州、上海等大數據交易中心,并推出了“數+12”戰略的數據交易生態等。不過,還應當針對掌握大量用戶數據的企業出臺相關數據共享的激勵和合規政策。
其次是大數據融合相關技術。單個數據源的價值有限,要進一步實現價值提升,就必須進行大數據融合。其獨特性與問題包括:第一,割裂的多源異構數據,如生物領域的基因組、蛋白質和文獻等;第二,數據規模與數據價值之間的矛盾,即相關數據越多,可挖掘的知識越多,數據價值就越高,但相應數據挖掘的難度也會更大;第三,跨媒體、跨語言的關聯,如圖片、音視頻與文本數據的關聯;第四,實體和關系的動態演化,如學者更換其所在單位;第五,知識的隱含性,如學者之間的“合作”關系可能暗含“師生”關系。作為大數據背景下的數據處理手段,“大數據融合”[11]用于從大數據中發現知識,并按照知識的語義邏輯關聯融合形成更接近人類思維的知識,是一種數據融合與知識融合雙環驅動的大數據價值發現方法。其中數據融合包括模式對齊、實體鏈接、數據一致性和數據溯源;而知識融合則指知識抽象和建模、關系推理、深度知識發現,以及普適機理的剖析和歸納。
最后是數據隱私問題。數據從“About Enterprise”轉變為“About People”帶來的第一個問題就是隱私泄露。目前,可以從技術和制度兩方面進行隱私保護。技術上主要包括基于擾動的隱私保護技術、基于密碼學的隱私保護技術和基于分布式訓練的聯邦學習技術。第一,基于擾動的隱私保護技術指差分隱私、K匿名等,其計算效率高,目前已有成熟應用。但是,這種隱私保護技術與決策可解釋性之間存在矛盾。一方面,為了保證決策可解釋性,就必須保證數據的準確性,這樣很容易出現隱私泄露問題;另一方面,要保護隱私,就一定會導致數據準確性降低,決策可解釋性隨之降低。因此,如何在大數據隱私和決策可解釋性之間達到良好平衡,是一個亟待解決的問題。第二,基于密碼學的隱私保護技術指同態加密、安全多方計算等,其安全性較高,數據可恢復,但效率較低,無法廣泛應用。第三,基于分布式訓練的聯邦學習技術,其旨在通過共享模型參數而非具體數據來完成機器學習訓練過程。相比于集中訓練方式,聯邦學習更適用于隱私保護場景,但其隱私攻擊既可能來自于服務端,也可能來自于其他惡意設備。而且目前仍處于起步階段,依舊存在通信帶寬受限、模型難收斂、強依賴于云服務等問題。
從制度上來看,國內外都已經出臺了一系列隱私保護法律法規與條例。自2018年5月1日起,我國開始實施《信息安全技術個人信息安全規范》;2018年5月25日,歐盟推出《通用數據保護條例》(General Data Protection Regulation,GDPR);2018年11月2日,美國參議院公布新的隱私立法草案;2019年4月16日,舊金山通過了《停止秘密監視》條例的修訂;2019年5月28日,國家互聯網信息辦公室發布《數據安全管理辦法(征求意見稿)》;2019年6月17日,國家新一代人工智能治理專業委員會發布《新一代人工智能治理原則——發展負責任的人工智能》,并強調人工智能發展應尊重和保護個人隱私。但是,隱私保護的美好愿景和現實生活中的大規模數據泄露之間存在根本矛盾,如Facebook數據泄露等事件一再出現。在這樣大規模數據泄露的背景之下,實現隱私保護是否真的可能?在未來會不會演變為無隱私(No Privacy)?
基于數據透明的算法層解決方案。根據前述分析可以發現,雖然算法公平問題最終表現在決策階段,但成因可能在數據標注、模型訓練和測試等階段。因此,要解決公平問題,就需要從數據和算法兩方面入手。相應的計算機技術是數據透明。數據透明有廣義和狹義之分,廣義的數據透明包括狹義的數據透明和算法透明。其中,前者[12]指有效獲取數據在產生、處理及決策過程中所涉信息的能力;后者則指算法可解釋,即數據收集前,用戶需考慮個人數據將作何種用途;數據收集后,第三方需考慮數據來源的真實性;決策階段,要重點關注決策過程的可解釋性。
由于保證了數據利益相關者對數據的知情權等權利,以數據透明為基礎,可以建立和完善數據獲取和應用的問責機制、實現用戶控制。以數據生命周期為標準,可以將數據透明分為獲取透明、流通透明、使用透明和刪除透明。其中,獲取透明指基于訪問控制的數據收集;流通透明指基于區塊鏈的數據共享和交易;使用透明包括算法透明和可驗證性計算;而刪除透明則包含了覆蓋刪除和密碼學刪除。因此,當大規模數據泄露不斷出現,隱私保護已不再現實,就可以使用數據透明來保證數據的合理運用。
就算法透明而言,《新一代人工智能治理原則——發展負責任的人工智能》中提出了“安全可控”原則,即人工智能系統應不斷提升透明性、可解釋性、可靠性、可控性,逐步實現可審核、可監督、可追溯、可信賴。
綜上,建立數據透明的治理體系是解決人工智能時代隱私、效率和公平的關鍵,中國應該先行一步。
基于新型研究范式的應用層解決方案。計算社會科學從誕生到進一步發展的成長過程中曾受惠于四大科學研究范式。但是,由于與自然科學在研究對象、邏輯思維以及現實復雜性等方面存在本質區別,其面臨的方法論挑戰日益嚴峻。當下的計算社會科學能否實現新一輪的方法論革新,并將其上升為新型科學研究范式,實現科學研究范式轉移,進而惠及其他交叉學科,乃至自然科學?答案是肯定的。后大數據時代的計算模式將成為未來社會的重要基礎設施。而智能萬物互聯的信息技術將以更加豐富的方式描述現實世界,從而推動社會學等領域的專家學者更加了解人類賴以生存的社會系統。同時,中國的城市化、網絡化等發展趨勢與萬物互聯天然契合,將有望成為科學研究范式轉移實現的沃土。當技術和社會背景同時發生變革,誕生于二者交織背景下的計算社會科學應當如何化挑戰為機遇?
一方面,計算社會科學應當充分把握與生俱來的技術和社會優勢,在“技術推動社會發展,社會豐富技術內涵”的相輔相成機制中進一步向前邁進。在未來萬物互聯和以城市化為中心的中國社會,社會科學將不再一味地依賴信息技術的發展。這里以萬物互聯的重要技術基礎5G為例進行闡釋。近來,5G技術的發展及其作用已經被過分夸大,其未來發展不是帶寬問題,而是內涵問題。可是,計算機信息技術只能滿足帶寬需求,因此,只有依靠計算社會科學,5G的內涵才能進一步得以豐富。
另一方面,計算社會科學不應一味向自然科學看齊,而要基于對現實世界的準確描述,構建自己的理論框架,形成自己的方法論。根據前述內容,我們有理由相信如果充分利用萬物互聯時代的優勢,同時從社會背景和現實需求出發進一步豐富萬物互聯的技術內涵,進而使二者相互促進,以社會科學家為代表的學者們可能提出真正植根于社會科學的第五科學研究范式。新的研究范式將以大量社會科學活動為積淀,旨在挖掘新社會需求,豐富新技術內涵,在促進交叉學科研究的同時,推動社會前進。
基于數據治理的生態系統解決方案。歷史地看,數據發展共有兩條主線。第一條是Data about Enterprise,數據庫、數據倉庫與數據集成都是典型代表;進入大數據時代之后,Data about People成為第二條主線,數據思維、數據智能與數據生態等名詞層出不窮。現有數據生態的特殊性決定了數據確權、定價、交易等不能解決數據壟斷、隱私和公平等問題。
人工智能和計算社會科學均因數據而蓬勃發展。正如在“大數據融合”挑戰中所闡釋的那樣,要真正從多元異構、價值不一的數據中提取信息,并進一步轉化為知識,就需在傳統數據分析工具的基礎上進一步改進,運用大數據融合相關技術。但數據從產生到處理,到存儲,到進一步價值提升,再到最終應用等都會面臨數據產權等一系列相關問題。而“數據治理”則旨在解決這一系列數據挑戰。
為了在充分挖掘數據價值的同時,尊重數據相關權利,從而促進科學研究進步,推動社會向前發展,在產學研政企等利益相關者之間建立合作共贏的數據共享模式、制定合理的規章制度非常必要。同時,需要推動相關技術向前發展。惟其如此,才能在降低信息泄露風險、維護公平的同時,又保留數據價值。
總之,人工智能將成為計算社會科學的重要研究工具;同時,計算社會科學也將推動人工智能“了解智能”。因此,計算社會科學應當在人工智能浪潮中充分提升其數據挖掘和預測能力;同時也可以為人工智能的發展貢獻力量。
注釋
[1]Samuel A L, "Artificial intelligence - a frontier of automation", The Annals of the American Academy of Political and Social Science, 1962, 4(1), pp. 173-177.
[2]Sculley D, Holt G, Golovin D, et al, "Hidden technical debt in machine learning systems", International Conference on Neural Information Processing Systems, MIT Press, 2015.
[3][美]阿萊克斯·彭特蘭:《智慧社會》,汪小帆、汪容譯,杭州:浙江人民出版社,2015年,第19頁。
[4]Lazer D, Pentland A, Adamic L, et al, "Computational social science", Science, 2009, 323(1), pp. 721-723.
[5]Conte R, Gilbert N, Bonelli G, et al, "Manifesto of computational social science", The European Physical Journal Special Topics, 2012, 214(1), pp. 325-346.
[6]孟小峰、李勇、祝建華:《社會計算:大數據時代的機遇與挑戰》,《計算機研究與發展》,2013年第12期,第2483~2491頁。
[7][11]孟小峰、杜治娟:《大數據融合研究:問題與挑戰》,《計算機研究與發展》, 2016年第2期,第231~246頁。
[8][美]桑尼爾·索雷斯:《大數據治理》,匡斌譯,北京:清華大學出版社,2014年,第4頁。
[9]Christine L.Borgman, Big data, little data, no data: scholarship in the networked world, The MIT Press, 2015, pp. 271-288.
[10]Lord, Philip, and Alison M.," E-science curation report: data curation for e-science in the UK: an audit to establish requirements for future curation and provision", Digital Archiving Consultancy Limited, 2003.
[12]Elisa B, "Big data-security and privacy and transparency", Privacy and Security in Big Data Ecosystem, Keynote, 2017.
責 編/張 曉
孟小峰,中國人民大學信息學院教授、博導,中國計算機學會會士(2013)。研究方向為大數據管理系統,包括數據融合、大數據實時分析、大數據隱私管理以及交叉性研究。主要著作有《大數據管理概論》《Web數據管理:概念與技術》《移動數據管理:概念與技術》等。
Computational Social Science and the Burgeoning Artificial Intelligence
Meng Xiaofeng
Abstract: After several rounds of ups and downs in the last 60 years, artificial intelligence (AI) has finally ushered in a new golden period of development. Computational social science is a subject born out of data, and AI will become an important research tool of it. At the same time, the computational social science will also push AI to "understand intelligence". In the new era, their combination is an imperative. However, this will pose challenges in the data level, algorithm level, application level and the eco-system level. This paper will analyze these challenges and propose corresponding solutions, aiming to further advance AI and computational social science by means of "technology + system".
Keywords: artificial intelligence, computational social science, data, algorithm, eco-system