【摘要】人工智能浪潮已經席卷全球,不僅改變了人類的生活方式和傳播行為,也改變了人類觀察和認識世界的方式。人工智能與大數據驅動的計算范式延伸至社會科學領域,受傳統傳播學定量研究范式、數據科學和網絡科學的影響和啟發,計算傳播學方興未艾,已經成為計算社會科學的重要分支學科之一。從數據挖掘到機器學習,再到深度學習,人工智能算法和技術極大提高了計算方法處理大數據的精度和效率。目前,與無監督和監督學習方法相結合,自動化內容分析、情感分析和社會網絡分析等方法為計算傳播學研究提供了數據處理、整合和分析的研究策略和經驗。在未來,通過開發和建立可擴展的自動化內容分析框架和系統,引入更豐富的深度學習策略,以及推動跨學科研究的方法創新等,將有助于人工智能與計算傳播學在更廣泛的交叉領域實現深度融合。
【關鍵詞】計算傳播學 人工智能 機器學習 深度學習
【中圖分類號】G20 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2019.20.003
當前,越來越多的社會科學研究者在大數據的驅動下,使用統計學、數學模型和機器學習等方法,探索社會科學知識發現和數據挖掘的新方向,開啟了規模更廣、參與度更深的社會科學新紀元。2009年,拉澤爾等[1]提出了“計算社會科學”(Computational Social Science)的概念,他們認為以“計算”作為研究的基礎手段的社會科學業已形成,展現出人類在前所未有的廣度、深度和規模上收集和分析數據的能力。人文社會科學的學者開始關注大數據、人工智能等信息技術對社會經濟發展以及科學研究等方面帶來的影響和價值。尤其是社會科學研究者效法自然科學,以計算機作為研究社會復雜性的基本工具,創新地運用多種計算方法(computational methods)研究社會科學問題,并影響了諸如社會學、語言學、傳播學等學科研究范式的轉型。在傳播學領域,這一轉型中的研究范式被稱為:計算傳播學(Computational Communication Research)。
人工智能與大數據之間的關系非常緊密,人工智能的深度學習進化依賴于大數據平臺和技術基礎,同時后者的改進也需要人工智能算法的支撐。計算傳播學何以可能?可以說,它的出現正是得益于大數據和人工智能的協同發展,主要體現在三個方面的因素:第一,海量的數字化數據,從社交媒體信息、其他“數字痕跡”(digital trace)到在線檔案、數字化的報紙以及其他歷史檔案;第二,用于分析數據的工具的進步,包括網絡分析、自動化文本分析、主題模型、詞嵌入等統計學和機器學習方法;第三,強大而廉價的處理能力以及計算工具的易用性,包括科研目的和商業用途的云計算、共享和編程平臺的涌現和發展。[2]可見,互聯網、移動互聯網和物聯網為社會科學提供了可資研究的大規模數據,其中以半結構或非結構數據為主(包括文本、語音、視覺圖像等),而人工智能成為了這類數據處理的關鍵性技術,[3]對計算傳播學的發展起到至關重要的支撐和催化作用。
本文將從計算傳播學的概念、起源出發,探尋計算傳播學與傳播研究定量傳統、數據科學、網絡科學的學科淵源;并在簡述人工智能熱潮下機器學習、深度學習概況的基礎上,對人工智能在計算傳播學研究方法(包括內容分析、情感分析和社會網絡分析)中的應用現狀和前景進行綜述和探討;最后,討論和展望推動人工智能與計算傳播學深度融合的發展方向和未來趨勢。
計算傳播學的概念及淵源
計算傳播學的概念。作為計算社會科學的重要分支,計算傳播學藉由海量的互聯網數據和先進的計算技術對人類傳播現象和行為進行跨學科研究。所謂“計算傳播學”,可以被理解為是一種正在興起的數據驅動的研究取向,是基于人類傳播行為的數字足跡,采用文本挖掘、情感分析、社會網絡分析等帶有顯著計算特征的數據分析方法進行研究,來探究人類傳播行為的表現模式和內在邏輯;數據集、可計算、可建模成為計算傳播學有別于傳統傳播學的顯著特征。因此,計算傳播學帶有濃厚的方法和工具的屬性特征,所以計算傳播學也被研究者(在之前的一段時間中,乃至于有可能在以后的一段時間中)普遍認為是研究方法的轉型,而非傳播學范式的轉型。然而隨著整個人類社會都在邁向數字化,(新生代)人類的傳播行為大多依賴于數字化平臺來實現,即便是在現實空間的傳播與交流行為也因為各種技術的突破可以被數字化記錄和存儲,于是,傳播學所探究的人類傳播行為自身顯現出顯著的數字式傾向。傳播學關注的對象在數字化,其研究范式不可避免也需要有數字化的轉型。因此,我們認為計算傳播學并不僅僅是一系列研究方法和工具的集合,它更有可能是整個傳播學在數字化時代的學科范式的轉型。
借鑒沙哈等人[4]的標準,計算傳播學的研究范式通常包括:(1)大而復雜的數據集;(2)由數字痕跡和其他“自然發生”的數據組成;(3)需要算法對此進行分析;(4)允許運用和檢驗傳播理論來研究人類傳播行為。[5]換言之,一種方法是在計算機上執行的,并不意味著它就是一種“計算方法”,因為傳播學者在過去半個多世紀里一直使用計算機來輔助他們進行研究;另一方面,計算范式也不是由日益復雜的算法造就的“神話”,更不是社會科學和計算機科學的機械式拼湊,[6]而是跨學科乃至“超學科”[7]的知識體系和方法論的深度融合。
計算傳播學的學科淵源。從研究范式來看,計算傳播學起源至少受到三個學科發展的重要影響,即(實證)傳播學、數據科學以及網絡科學。傳播領域根源于社會科學和人文學科,傳統實證范式的傳播學研究主要以心理學實驗、社會學調查、統計學、計量經濟學、社會網絡分析等方法為主。相比于其他社會科學,傳播學對方法的重視程度歷來不足,缺乏研究傳播過程的方法和采用其他學科領域的方法,[8]長期以來一直被認為是一個理解傳播學的特殊挑戰。傳播作為一門學科正處于數據革命的潮頭之上,因為大多數公開的在線行為留下的數字足跡都源自某種形式的傳播,所以在線用戶行為的觀察性研究成為計算傳播學的重要領域。[9]
從歷史淵源來說,用戶行為挖掘是傳播學電視收視率數據挖掘與分析在網絡時代的延續和發展,[10]用戶分析的基本概念和測量指標由收視率調查發展而來。[11]雖然收視率調查是針對有限樣本的隨機抽樣研究,但回溯至20世紀30年代,通過日記卡或測量儀等多種數據采集手段獲得的數據規模已然十分龐大,可以說傳播學是較早使用大數據開展調查分析的社會科學之一。進入大數據時代,人們通過互聯網及其相關應用的“中介”(mediated)傳播行為成為社會科學研究的重心,在線的人際和社會交流直接產生的海量數字記錄正在對許多傳統研究方法帶來巨大的挑戰。
受數據科學的影響,傳播學正在經歷一個從定性研究到定量研究,再到計算研究,從簡單分析到復雜處理,從屬性數據到關系數據的研究范式和方法論思考的過程。[12]傳播研究的定量范式主要基于統計學,而真正意義上的現代統計學是從處理小數據、不完美的實驗等這類現實問題發展起來的。[13]格雷(Jim Gray)早在20世紀90年代中期就提出了科學研究的“第四范式”(the fourth paradigm),即數據密集型科學,預示著科學研究由傳統的假設驅動向數據驅動的探索性方法的轉變,其中一個重要的特征就是“從用少量數據集的輔助研究,轉向對數量不斷擴大的各種高信息含量數據進行研究”,這將促使“大部分人文社會科學走向具有自然科學的特征”。[14]
目前,傳統分析工具對大數據很難發揮作用,也就是說傳統的數據庫和統計分析技術很難在有限時間范圍內完成數據存儲、預處理、計算和管理等一系列過程。為了有效地處理這類數據,數據科學(Data Science)的新范式應運而生,從而構成了計算傳播研究的數據和方法基礎。不僅是數量級上的差異,計算傳播學所處理的大數據與傳統小數據相比也已發生了質的變化,前者以半/非結構型數據為主,處理難度和挑戰遠超于后者(結構型數據為主)。由于數據的規模之大、結構之復雜,計算傳播研究需要借助人工智能和并行處理等現代計算技術才能實現。
計算傳播學的另一個重要學科來源是網絡科學(Network Science)——“專門研究復雜網絡系統的定性和定量規律的一門嶄新的交叉科學”。[15]網絡科學的出現開啟了21世紀社會科學的新的研究方向,基于互聯網傳播產生的數據和互動性將會變革我們對于人類集體行為的認識,[16]利用社會計算的方法深入分析每一個個體的關系和連接,有可能預知社會發展的趨勢。[17]網絡科學以復雜網絡為研究對象,關注不同拓撲結構特征、功能及其相互關系,進而為在線傳播網絡中的各種動力學行為和信息流過程的計算、預測和控制提供了原理和方法基礎。
毫無疑問,復雜性和非線性是物質、生命和人類社會進化中的顯著特征。為此,傳統的定量研究采用非線性問題線性化的方法,在對社會結構進行劃分的基礎上,用函數關系組成的反饋回路、流等來模擬社會結果,實現社會作用機理的宏觀模擬。[18]與傳統路徑不同,計算傳播研究強調探究人類傳播動因和機制并不取決于個體的想法或意圖,而是著眼于從個體所嵌入的復雜的社會結構中去發現傳播規律。因此,計算傳播學研究本質上依托于對復雜網絡的挖掘和分析,旨在探索傳統定量研究所忽視的及受技術方法制約無法完成的大量網絡特征及相關性,以解決回歸或線性方案無法應對的網絡依賴性和復雜性問題。
人工智能、機器學習和深度學習
人工智能。人工智能(Artificial Intelligence)是“智能主體”(intelligent agents)如何最優化決策過程的統稱,通過訓練計算機模擬人類以完成自主學習、判斷、決策等智能行為,主要涵蓋視覺處理、語音識別、自然語言處理和智能機器人等應用領域。
人工智能同時也是計算機科學的一個分支。其作為一門獨立的新型學科,是以1956年麥肯錫(McCarthy)在美國達特茅斯(Dartmouth)研討會上首次提出“人工智能”概念為標志的。近年來,國際人工智能相關的研究和應用領域取得突破性進展,在國家發展戰略、科學研發、應用創新等方面形成“井噴式”發展的態勢,同時人工智能的發展也為相關學科帶來了新機遇。[19]人工智能領域的發展具有跨學科的特性,總體上以計算機科學(Computer Science)、工程電氣類(Engineering,Electrical & Electronic)、醫學及成像類、數學類等理工學科為核心學科,由于對語音識別和自然語言處理的關注,其中還包括語言學(Linguistics),對于人工智能領域的跨學科發展具有關鍵性的作用;以神經科學(Neurosciences)、心理學(Psychology)為代表的潛在學科也憑借其迅猛的增長率而在其中扮演著重要的角色。[20]
人工智能一般被分為弱人工智能(Artificial Narrow Intelligence, ANI)、強人工智能(Artificial General Intelligence, AGI)、超人工智能(Artificial Superintelligence,ASI)三種分類和發展階段。[21]我們今天討論的人工智能基本上還處于弱人工智能階段,例如,引發廣泛關注的谷歌AlphaGo和AlphaGoZero就屬于ANI的范疇。目前的人工智能還難以在認識、學習和決策等綜合智能上與人類比肩,甚至超越人類智能。尤其在社會科學研究領域,弱人工智能主要是以完成特定的任務而存在的,例如語音識別、圖像識別和語言翻譯等。在實現方法上,弱人工智能采取的是基于統計和概率的方法,在特定的算法規則下基于大規模優質或混雜的語料庫,從數據中歸納出模型以發現普遍規律或最優方案。[22]
機器學習。機器學習(machine learning)是人工智能的重要領域和主要發展方向之一。機器學習的核心是學習,也就是讓計算機通過識別和利用現有數據,模擬人的學習過程以獲得對研究者有意義的知識。互聯網上的傳播活動產生大量的圖像與文本數據——結構化或半結構化數據,因此必須根據先驗的或已有知識對這類數據進行特征抽取,并轉換為結構化數據以建立模型,而機器學習正是解決這類問題的重要手段。[23]
就目前的計算傳播學研究實踐而言,機器學習更多被運用于自動化的文本分析,[24]例如用于關鍵詞提取和共現分析的自然語言處理技術,[25]有監督的文本分類方法[26]、情感分析[27]以及語義網絡等。雖然自動化的文本分析技術極大地簡化了研究者繁瑣的文本編碼,并且能夠有效減少因主觀偏見帶來的誤差,但現有的文本分析技術還有很大的局限性,尤其大數據(包括各種媒體數據、時序數據)具有屬性稀疏、超高維、高噪聲、數據漂移、關系復雜等特點,傳統的機器學習算法也已難以有效處理和分析大數據,必須借助分布式處理和并行計算或改進數據挖掘算法。[28]
深度學習。深度學習(deep learning)源于人工神經網絡(artificial neural network)的研究,是新興的多層神經網絡結構的學習算法。在諸多機器學習理論中,神經網絡學習是借鑒人腦結構及功能的一種抽象數學模型,通過由大量神經元節點連接而組成的網絡,模擬大腦信息處理、知識表征和學習的過程,因此也被稱為“連接主義”。從20世紀80年代末期以來,機器學習的發展大致經歷了淺層學習(shallow learning)和深度學習兩個階段,[29]前者以反向傳播算法(back propagation, BP)為代表掀起了基于統計學方法的機器學習浪潮,隨后不同的淺層機器學習模型相繼出現,比如傳統隱馬爾可夫模型(HMM)、條件隨機場(CRFs)、支持向量機(SVM)在模型結構有一層隱含層(hidden layer)——單個將輸入信號轉換到特定問題空間特征的結構,而最大熵方法(比如,邏輯回歸,LR)則沒有隱含層。以2006年為界,自Hinton等人提出了深度置信網絡(DBN)和多層自動編碼器等解決深層結構優化問題的算法,成為之后深度學習算法的主要框架,對機器學習領域產生了極其重要的影響。
其中,卷積神經網絡(CNNs)是第一個真正訓練成功的多次結構算法,[30]其網絡結構受生物視覺模型的啟發,通過用已知模式訓練卷積網絡,使得卷積網絡獲得輸入與輸出之間的非線性映射關系,而不追求它們之間精確的數學關系。目前,CNNs在圖像處理和視覺目標識別方面已經獲得了較高的精確度[31]。在傳播領域,計算機除了需要理解文本、語言所傳遞的人類語義信息的任務之外,非語言交流和圖像在人際溝通中無所不在也是人工智能亟待克服的問題,因為對圖形數據的學習有助于增進對人類傳播行為的理解,比如,對政治運動的理解以及網絡抗議和圖片的動員作用。[32]
人工智能在計算傳播研究中的應用
不同于專門學科對人工智能技術和應用的開發和推進研究,國內人文社會科學對人工智能研究的著力點主要側重于探討人工智能的邏輯和基礎認識、挖掘人工智能的應用空間、預判人工智能的社會性影響和后果等方面。[33]近年來,隨著計算科學的出現,機器學習、深度神經網絡等人工智能的算法和技術不斷擴散、滲透進入社會科學領域,在傳播研究中已經出現和積累了不少以自動內容分析、情感分析和網絡分析等為計算方法的研究經驗。
自動化內容分析。在傳播學研究中,內容分析(content analysis)通過強調信息處理和意義建構而成為核心的研究方法之一,[34]它是一種“從文本(或其他有意義的事物)中對語義進可復現的、有效的推理研究技術”。[35]但是傳統的內容分析依靠大量的時間、人力和資金才能保證研究的可靠性,因此早期的傳播學研究就已經引入計算機輔助的自動化內容分析技術(Automated Content Analysis,ACA)。近年來,有監督的機器學習(Supervised Machine Learning, SML)和語義網絡分析(Semantic Network Analysis, SNA)為自動化內容分析提供了更加有效的算法實現和技術支持。機器學習將正確標注的數據作為輸入以訓練算法模型,訓練的過程要求機器分類器(classifier)與人類編碼者在樣本數據集的編碼結果上達到高度一致,盡管計算機并不具備語言和語義理解的能力。通過對人工編碼材料的學習,有監督的分類方法能夠有效彌合傳統內容分析和自動內容分析之間的鴻溝。例如,研究者通過一項實驗性的研究中評估了有監督機器學習對大量語料數據進行自動化分類的潛力,通過對德國在線新聞的既定主題類別進行分類測試,發現自動化分類的可靠程度一般比人類編碼效度低15%,尤其當分類被明確定義和有效標注時,機器學習對于某些類別來說通常是穩健和可靠的。[36]
另外,有研究者(Pilny, McAninch, SloneA, etal.)[37]以“關系不確定性”(relational uncertainty)研究為案例,提出了一套結合SML算法的ACA方法在傳播學研究中的簡易操作程序和效度檢驗方法,主要分為以下三個步驟。步驟1:從傳統內容分析程序開始,包括確定分析單位(如論壇發帖)、編碼方案(如關系確定與否)和抽樣方法(如分層抽樣)等。步驟2:在計算評價者間的一致性信度的基礎上確立編碼的基準,然后將文本轉為供計算機處理的數據,包括詞袋(bag of word)、字典(dictionary)、主體模型(topic modelling)等自然語言處理方法,并選擇最合適的SML算法類型,常用的學習方法有支持向量機(SVM)、隨機森林(Random Forest, RF)和樸素貝葉斯(Naïve Bayes, NB)等算法;接著進行特征選擇(feature selection),包括過濾法(filter)、封裝法(wrapper)、嵌入法(embedded)等方法。最后,將上述模型算法用于文檔編碼與人工編碼(hold-out)進行一致性檢驗,并與獨立的人工編碼標準做比較以評估模型的精度、召回率和F1值等指標。步驟3:在獨立測試集的文本上測試算法的信度和效度,目的在于防止訓練集的內在聯系性而導致模型的過擬合(over fitting)現象,并通過補充調查建立機器分類方法的相關效度,主要包括聚合效度和區分效度兩個維度效度檢驗。
除了有監督的機器學習,無監督(unsupervised)自動化內容分析方法也被廣泛運用于諸如風險溝通研究中。[38]無監督方法可以歸納地識別文本中的詞簇,其目的不在于搜索預定義的類別,而是為研究人員提供關于文本中可以找到哪些類別的信息,通過共現的關鍵詞可以確定意義的結構和更抽象的文本結構,比如新聞或議題框架(frame)的識別。例如,在荷蘭公眾對機場風險討論的研究[39]和組織風險研究[40]中均使用了非監督學習方法。
情感分析/意見挖掘。情感分析(Sentiment Analysis)或意見挖掘(Opinion Mining)通常被定義為尋找主體對特定實體的觀點、態度或情緒的任務。情感分析是計算機科學中最熱門的研究領域之一,已經有超過7000篇關于這個主題的文章。[41]在新聞傳播領域,如政治傳播、公共傳播和品牌傳播相關的研究中,主要用于判斷相關文本所包含的態度是積極、正面的還是消極、負面的。[42]
文本的情感分析主要分為有監督和無監督學習兩類方法:(1)有監督方法將文檔分類到有限的情感類別中,如正向、負向、中性等,或者表示為一些離散的數值范圍;給定訓練數據后,系統將利用支持向量機、樸素貝葉斯、邏輯回歸、KNN等常用分類算法學習進行情感分類;(2)無監督方法則基于確定文檔中特定短語的語義指向(Semantic Orientation, SO),如果這些短語的平均SO超過某個預定的閾值,則文檔將被分類為正,否則將被視為負,短語的選擇通常依據詞類模式或情感詞典。由于自然語言的復雜特點,已有的機器學習方法一般很難取得較好的文本分類效果。然而,在特定的領域,使用機器學習算法根據文本的情感取向對文本進行分類的效果很好。
在政治傳播領域,有研究者[43]將有監督的情感分析技術應用于檢測推文對美國總統候選人的態度,采用基于詞典的(lexicon-based)方法——詞典通常來源于被分析的文本之外,經由人工所注釋和驗證——收集給定用戶關于候選人的所有推文,測量并確定該用戶對特定候選人的平均情緒得分;他們在Senti Strength情感分析軟件的基礎上,結合機器學習和t檢驗的方法檢查了詞典在分析語料上的有效性并補充了情感詞匯,經過抽樣測試,機器編碼得分與人工編碼的一致性達到82.8%。在中文語境下,基于SVM的監督學習法還被有效地運用于對微博文本的態度分類任務中,以研究關于中國“改革開放”的網絡論爭的態度傾向和變化,并使用查準率(0.80)、查全率(0.80)、F1值(0.79)等指標對模型進行評估。[44]
也有研究者(Ortigosa, Martín, Carro)[45]基于字典和機器學習算法,提出了一種新的情緒分析混合方法,開發Facebook的應用程序以檢索面向學生的情感極性(積極、中性和消極)狀況和情緒變化,通過將基于詞匯的預處理技術與SVM相結合得到的分類精度最高可達到83.27%,證明了從用戶在Facebook上所寫的信息中提取其準確的情感信息是可行的。
相比于有監督方法,無監督學習方法依賴于語料所涉及的不同領域特征,對基準情感詞的準確度要求較高,廣泛應用的難度和挑戰性也較大。然而,互聯網應用場景和社交媒體容易產生并積累大量未標記的數據,而且獲得情緒標簽的成本相對較高,因此無監督方法有其施展拳腳的現實需求。例如,研究者Turney[46]在對汽車、銀行、電影及旅游等評論的情感分析中運用了無監督方法。他們將評論分成推薦和不推薦兩類,評論的分類是由評論短語中的形容詞或副詞的平均語義取向來進行預測,使用互信息算法(PMI)分別計算文本短語與基本正向/負向情感詞的關聯度,以正向關聯度減去負向關聯度的差值來確定該文本的情感極性,如果其短語的平均語義取向為正,則將其分類為推薦。該算法在410條不同的評論分類中的準確率為74%,介于汽車評論的84%和電影評論的66%之間。除此之外,無監督的學習方法還被探索性地應用于解決社交媒體的非正式文本交流[47]、表情符號[48]以及中文評論[49]等情感分類問題。
社會網絡分析。自20世紀70年代以來,傳播學研究者利用社會網絡分析來理解大眾傳播、健康傳播、組織傳播和人際傳播。社交網絡由一組節點和節點之間的一個或多個關系組成,節點是特定的實體,包括個人、媒體、組織、群體、機構等,或者是詞語、事件、議題等抽象概念。隨著互聯網和社交媒體的發展,出現了很多社會網絡數據,包括電郵交換網絡、博客網絡、在線社交網絡、在線文獻引文庫等。這些關系型數據的規模較大,且結構復雜多變,已經成為影響社會個體行為改變和傳播關系形成的結構性變量和因素。社會網絡又屬于復雜網絡(Complex Network)的一種,后者以網絡的幾何性質、結構穩定性、形成機制、網絡演化的統計規律和動力學機制等為主要研究問題,成為推動網絡科學和復雜性科學的發展的前沿領域。在計算機科學中,社會網絡分析是一個非常新的研究領域,可以看成網絡知識發現或網絡挖掘的一個分支,涉及數據挖掘、機器學習、信息抽取與檢索等不同領域。
傳統機器學習的處理的數據往往由多個屬性值的向量來表示,而且屬性之間具有獨立性;而社會網絡數據中的節點并非統計上獨立的采樣點,而是相互之間存在依賴性。因此,使用機器學習技術,需要考慮數據實例之間的關系,由此產生了一個新興的研究方向——鏈接挖掘[50]。常見的鏈路挖掘任務包括對象排序(object ranking)、群體發現(group detection)、集群分類(collective classification)、鏈路預測(link prediction)和子圖發掘(subgraph discovery)等。
以鏈路預測為例,它既是社會網絡分析的重要研究領域,也是數據挖掘領域的研究方向之一,旨在通過節點屬性和已觀察到的鏈接來預測未知或未來鏈接的存在,研究的思路和方法主要基于馬爾科夫鏈和機器學習。[51]例如,研究者將鏈接預測作為一種監督學習任務來研究,在確定一系列重要的網絡特征的基礎上,使用不同的性能指標,如準確性,精確度-召回率,F值,平方誤差等,比較不同類別的監督學習算法的預測性能,其中包括決策樹(decision-tree)、支持向量機、K近鄰(K-NN)、多層感知器、RBF網絡等算法,以發現支持向量機在所有性能指標上均略優于其他算法。
隨著信息網絡數據的規模越來越大,單個網絡可能包含數十億個節點和關系,傳統的社會網絡分析方法和技術難以處理如此龐大而復雜的網絡推理過程。因此,必須解決網絡表示學習(Network Representation Learning)的問題,其中網絡嵌入(network embedding)是學習網絡中節點低維表示的一種重要方法,其中心思想就是找到一種映射函數,使得網絡中的每個節點轉換為低維度的潛在表示。目前流行的方法為無監督的深度學習算法,主要包括Deep Walk、LINE、PTE和Node2vec等。[52]Deep Walk(即深度游走)是第一個被提出來使用表示學習方法,本質上是隨機游走(Random Walk)和神經語言模型中的skip-gram的算法組合;Node2vec則是Deep Walk的擴展,它引入了一個偏向的隨機游走程序,是結合廣度優先搜索(BFS)和深度優先搜索(DFS)的領域搜索算法。[53]
最近,在健康傳播研究領域,Node2vec這種先進的深度學習方法已經被用于研究在線論壇關于艾滋病交流的社會支持現象,研究者利用網絡嵌入(即Node2vec)算法將論壇的每個成員表示為一個密集的向量,并結合聚類方法識別樣本中不同的子種群和模式。另外,一項討論社交媒體中疫苗接種與人類價值觀關系的研究[54]也采用了網絡嵌入的學習方法,基于對人們在Facebook“喜好”頁面上的共現關系,利用Node2vec算法實現完全無監督學習,而不需要任何個體的先驗信息,使同一鄰域的節點保持“結構”等價性或同質性,從而探索反對疫苗接種者的共同興趣。在基于嵌入模型的弱監督學習過程中,研究者Raisi &Huang[55]借助Word2vec和Node2vec模型分別將語言和用戶表示為實數向量,用于實現對社交媒體網絡欺凌的檢測。
未來與展望
人工智能的迅猛發展已經影響到社會經濟發展的方方面面,促進了科學與行業應用的深度結合,不僅推動了智能生活和智慧社會的構建,也深刻地改變了科學研究的深度和廣度。在新聞業,人工智能已經滲透到新聞編輯室及新聞生產過程中,自動化新聞寫作(Automated Writing)已然成為世界新聞業的新浪潮。但從社會科學研究的角度來說,我們更關注人工智能技術的發展為社會科學研究思維和研究方法所帶來的挑戰和機遇。在人工智能的引擎驅動下,數據挖掘、機器學習和深度學習等領域的知識創新和技術研發,為大數據時代新聞傳播學的新研究范式——計算傳播學的興起和成長插上了想象的翅膀,提高了計算機輔助的研究手段在智能時代的功能和效率,突破了人類研究者在認識和理解復雜社會問題上所需體力、感官和智力的限制和禁錮。從研究方法、工具和策略創新的角度出發,人工智能視域下的計算傳播學研究還存在進一步發展的空間。
建立可擴展的、廣泛的自動化內容分析框架。隨著計算方法的日益普及,不同的研究者在不同的研究課題上進行獨立的研究工作,研究人員可能會使用特定的程序或付費服務采集數據,并使用不同的程序處理、計算和展示數據。這并不利于科學研究的持續性和可復現性。因此,我們迫切需要建立人工智能環境下使用和實現自動化內容分析的技術和操作標準。我們可以借鑒已有研究者(Trilling & Jonkman)[56]提出了擴展自動化內容分析框架的四個基本標準和思路,即可擴展性(scalability)、開源(open source)、適用性(adaptability)以及多界面(multiple interfaces)。
(1)可擴展性:當研究數據的規模較大時,研究者用于存儲和計算的軟件和算法必須具有可延展性,既要提高算法的效率(如對小數據采用稀疏矩陣),同時也要合理布局數據存儲和處理的模塊結構,例如,將非關系型的數據庫(NoSQL)作為數據綜合處理的后臺。(2)開源:軟件開源和代碼共享有助于科學研究的重復檢驗和錯誤發現,而不是讓算法和操作過程成為“黑箱”,由于文本分析和機器學習的包或組件(如NLTK、scikit-learn、gensim等)的廣泛可用性,因此用Python編程語言實現開源可能是一個不錯的選擇。(3)適用性:與前兩個標準緊密相關,適用性要求框架應該足夠靈活、彈性,使不同能力的研究者能夠通過合理的努力調整和擴展框架,不應該存在任何阻止分析來自不同語言和腳本的上下文的障礙,例如傳播學者常常會面臨的來自社交網絡的表情符號、標簽和混合語言等字符編碼問題;同時,對研究項目的集成能力要求也將有助于提升框架的適應性。(4)多界面:雖然很多機器學習的自動化內容分析技術已經為人所知,特別是在計算機科學等領域,但是能夠應用這些方法的傳播學者卻相對較少。同時,考慮技術的易用性不能以犧牲強化內容分析框架的可擴展性和適用性為代價,所以應該提供對框架的多種訪問方法(如web界面、命令行界面、API等),以讓具有不同需求和技術水平的研究小組都可以輕松駕馭。
為計算傳播研究領域引入更豐富的深度學習策略。傳播學研究的計算范式方興未艾,雖然許多包括自動化文本分類、主題模型、情感分析、網絡嵌入等機器學習算法已經被部分研究者引入傳播研究中,但其應用范圍依然十分有限;而且,傳播學者整體上對機器學習的理解和運用程度還不及其他社會科學,如管理學、經濟學和社會學等,更不用說計算機科學、網絡科學等學科的研究者。從現有研究的成果來看,傳播學者對文本或其他數據的處理主要采用傳統的有監督學習方法,比如最大熵、支持向量機等淺層次學習,而鮮有對深度學習算法(如RNN、CNN、DNN等神經網絡等)的涉獵,雖然深層網絡結構的學習算法在自然語言處理、語音識別和圖像識別方面已經取得很好的應用效果。如果這些學習方法被有效地引入計算傳播學的研究當中,將有助于將數據處理從傳統的結構型數據擴展至非正式文本、語音、圖像等非結構或半結構數據。
由于社交媒體中人們的情感、態度和觀點很可能以表情、標簽、圖片和視頻等形式存在,一般的自動化文本分類方法難以應付這類數據。比如,針對短文本的文本分類任務,由于缺少上下文,短文本(如推文、微博等)在表示時通常會遇到數據稀疏性和模糊性問題。卷積神經網絡(CNN)的深度學習算法,如基于詞嵌入的深度學習模型,[57]無論是結合語義聚類信息的有監督學習模型,[58]還是無監督神經語言模型[59]都能夠準確地完成情感分類學習。
對社會媒體中大規模的視覺內容進行情感分析,可以更好地提取用戶對特定事件或話題的情感。一項深度學習的研究[60]采用基線情緒算法來標記網絡相冊的圖片,提出了一種漸進的策略來微調深層卷積神經網絡用于圖像的情感分析;還有研究借助網絡相片的標簽作為統計線索來檢測圖像中描述的情緒,利用卷積神經網絡模型對大型可視化數據庫(ImageNet)進行了有效的情感分類[61]。
對視覺內容的情感預測是對文本情感分析的極其重要的補充。因此,與單獨對文本和圖像進行情感分析相比,文本和圖像的結合可以更充分地揭示用戶情感。鑒于此,有研究者開始關注多媒體(multimedia,即文本、圖像)情緒分析深度學習方法[62],以及基于多核學習算法(multiple kernellearning, MKL)的多模態(multimodal)情感分析[63]。
不同于文本分類學習的火熱,口頭語言的情感識別(emotion recognition)至今仍然是研究較少的課題,曾有研究者(Nicholson, Takahashi & Nakatsu)[64]提出了一種基于神經網絡的語音情感識別系統,利用大型音素詞數據庫,實現了說話者與上下文的獨立,該系統對八種情緒的測試識別率達到了50%左右。然而,值得我們注意的是,人工神經網絡的缺陷就是其典型的“黑箱”效應,即通過訓練的神經網絡所學到的知識及其背后的機制難以為人們所理解,深層神經網絡的集成化又加劇了這一問題解決的難度。所以,這是計算傳播學者在使用深度學習策略并解讀機器學習結果時應該深刻認知的前提和基礎。
跨學科合作推動人工智能與計算傳播研究的深度融合。大數據和人工智能時代的計算傳播學,在方法層面的創新是具有跨學科意義的。傳播學在社會科學中一直是“領域學科”,具有“十字路口”的特征,尤其是新媒體和社交媒體的出現,傳播學研究的問題和對象更是諸多學科紛紛涉足的領域,與此相反的是,當前傳播學對其他學科方法的運用和貢獻依然表現乏力。因而,傳播領域向計算科學的演變,將帶來促進該領域內部進行方法創新和發展的希望。
計算傳播學以互聯網環境下人類傳播行為為研究客體,有著深厚傳播學傳統和大數據研究的基因,借助數據科學、網絡科學的理論和方法發展起來的計算范式,正在成長為計算社會科學中的一股蓬勃向上的新生力量。人工智能同樣也是跨學科的新興領域,自然科學與人文社會科學的交叉協作促進了機器學習、深度學習走向更廣闊、更深邃的科研疆域。對于計算傳播學而言,一方面,我們欣喜地看到越來越多具有理工科訓練背景(如物理學、計算機科學、生物學、數學等)的學者進入這個領域并扮演重要的角色;另一方面,目前機器學習的方法和策略框架尚未為更多計算傳播學者所熟悉和使用,尤其是基于深度學習的社會網絡和復雜網絡理論和方法,在鏈接挖掘、網絡表示學習、網絡嵌入等方面的學習算法和應用技術,亟待更多的研究者去學習、挖掘和擴展。
當然,未來可期,當更多前沿的計算方法和機器學習技術進入這個領域時,傳播學者將處于獨特的戰略地位,參與甚至領導計算方法的發展,這些方法有望為整個社會科學的提供關于人類互動本質和傳播效果的新穎的、令人興奮的見解,[65]從而使計算傳播學超越學科的界限而成為真正的“超學科”社會科學研究,也就是以人類交流傳播為基礎性問題,以多學科(主要是傳播學、數據科學、網絡科學等)方法融合為統一的方法框架、以“現象學”意義上的大數據為經驗基礎,實現人工智能與計算傳播學的深度融合和跨越式發展。
(深圳大學傳播學院副研究員黃文森對本文亦有貢獻)
注釋
[1]Lazer, D.; Pentland, A. & Adamic, L. et al., "Computational Social Science", Science, 2009, 323(5915), pp. 721-723.
[2][5]Van Atteveldt, W. and Peng, T. Q., "When Communication Meets Computation: Opportunities, Challenges, and Pitfalls in Computational Communication Science", Communication Methods and Measures, 2018, 12(2-3), pp. 81-92.
[3][22]羅俊:《計算社會科學與人工智能》,《貴州師范大學學報(社會科學版)》, 2016年第6期,第40~42頁。
[4]Shah, D. V.; Cappella, J. N. & Neuman, W. R., "Big Data, Digital Media, and Computational Social Science: Possibilities and Perils", The ANNALS of the American Academy of Political and Social Science, 2015, 659(1), pp. 6-13.
[6]Peng, T. Q.; Liang, H. & Zhu, J. H., "Introducing Computational Social Science for Asia-Pacific Communication Research", Asian Journal of Communication, 2019, 29(3), pp. 205–216.
[7]羅衛東:《跨學科社會科學研究:理論創新的新路徑》,《浙江社會科學》,2007年第2期,第35~41頁。
[8]Poole, M. S., "Generalization in Process Theories of Communication", Communication Methods & Measures, 2007, 1(3), pp. 181-190.
[9][24][65]Hilbert, M.; Barnett, G. & Blumenstock, J. et al., "Computational Communication Science: A Methodological Catalyzer for a Maturing Discipline", International Journal of Communication, 2019, 13, p. 23.
[10]Zhu, J. H.; Zhou, Y. & Guan, L. et al., "Applying User Analytics to Uses and Effects of Social Media in China", Asian Journal of Communication, 2019, 29(3), pp. 291-306.
[11]Webster, J. G.; Phalen, P. F. and Lichty, L. W., Ratings Analysis: Audience Measurement and Analytics, 4th Edition, UK: Routledge, 2014.
[12][17]沈浩、黃曉蘭:《大數據助力社會科學研究:挑戰與創新》,《現代傳播(中國傳媒大學學報)》,2013年第35卷第8期,第13~18頁。
[13]Zumel, N. and Mount, J., Practical Data Science with R, Manning Publications Co., 2014.
[14]Tony; Stewart & Kristin, "The Fouth Paradigm: Data-Intensive Scientific Discover", Microsoft Research, 2009.
[15]方錦清、汪小帆、鄭志剛等:《一門嶄新的交叉科學:網絡科學(上)》,《物理學進展》, 2007年 27卷第3期,第239~343頁。
[16]Watts, D. J., "A Twenty-first Century Science", Nature, 2007, 445(7127), p. 489.
[18]米加寧、章昌平、李大宇、林濤:《第四研究范式:大數據驅動的社會科學研究轉型》,《社會科學文摘》,2018年第4期,第20~22頁。
[19]王延飛、劉記、趙柯然、陳美華:《智能信息技術發展現狀、趨勢與影響透視》,《情報學進展》,2018年第12卷,第117~153頁。
[20]姚艷玲、開濱:《近五十年國際上人工智能領域跨學科演變研究》,《計算機工程與應用》,2017年第53卷第19期,第8~16頁。
[21]Spiegeleire, S.; Maas, M. & Sweijs, T., Artificial Intelligence and the Future of Defense: Strategic Implications for Small and Medium Sized Force Providers, The Hague Centre for Strategic Studies, 2017.
[23]王玨、石純一:《機器學習研究》,《廣西師范大學學報(自然科學版)》,2003年第2期,第1~15頁。
[25]Arendt, F. and Karadas, N., "Content Analysis of Mediated Associations: An Automated Text-analytic Approach", Communication Methods and Measures, 2017, 11(2), pp. 105-120.
[26]Scharkow, M., "The Maticcontent Analysis Using Supervised Machine Learning: An Empirical Evaluation Using German Online News", Quality & Quantity, 2013, 47(2), pp. 761-773.
[27]Ceron, A.; Curini, L. & Iacus, S., "To What Extent Sentiment Analysis of Twitter is Able to Forecast Electoral Results? Evidence from France, Italy and the United States", ECPR General Conference, 2013, pp. 5-8.
[28]何清、李寧、羅文娟、史忠植:《大數據下的機器學習算法綜述》,《模式識別與人工智能》,2014年第27卷第4期,第327~336頁。
[29]余凱、賈磊、陳雨強、徐偉:《深度學習的昨天、今天和明天》,《計算機研究與發展》,2013年第50卷第9期,第1799~1804頁。
[30]Le Cun, Y.; Boser, B. & Denker, J. S. et al., "Back Propagation Applied to Hand Written Zip Code Recognition", Neural Computation, 1989, 1(4), pp. 541-551.
[31]Krizhevsky, A; Sutskever, I. & Hinton, G. E., "Image Net Classification with Deep Convolutional Neural Networks", Advances in Neural Information Processing Systems, 2012, pp. 1097-1105.
[32]Casas, A. and Williams, N. W., "Images that Matter: Online Protests and the Mobilizing Role of Pictures", Political Research Quarterly, 2019, 72(2), pp. 360-375.
[33]梅立潤:《國內社會科學范疇中人工智能研究的學術版圖》,《內蒙古社會科學(漢文版)》,2019年第40卷第3期,第203~212頁。
[34]Lacy, S.; Watson, B. R., & Riffe, D. et al., "Issues and Best Practices in Content Analysis", Journalism & Mass Communication Quarterly, 2015, 92(4), pp. 791-811.
[35]Krippendorff, K., Content analysis: An introduction to Its Methodology, Sage Publications, 2018.
[36]Mahrt, M. and Scharkow, M., "The Value of Big Data in Digital Media Research", Journal of Broadcasting & Electronic Media, 2013, 57, pp. 20-33.
[37]Pilny, A.; McAninch, K. & Slone, A., et al., "Using Supervised Machine Learning in Automated Content Analysis: An Example Using Relational Uncertainty", Communication Methods and Measures, 2019, pp. 1-18.
[38][40]Vander Meer and Toni GLA, "Automated Content Analysis and Crisis Communication Research", Public Relations Review 42.5, 2016, pp. 952-961.
[39]Jonkman and Jeroen, "Verhoeven, Piet, From Risk to Safety: Implicit Frames of Third-party Airport Risk in Dutch Quality Newspapers between 1992 and 2009", Safety Science, 2013, 58, pp. 1-10
[41]Feldman, R., "Techniques and Applications for Sentiment Analysis", Communications of the ACM, 2013, 56(4), pp. 82-89.
[42]鐘智錦、王童辰:《大數據文本挖掘技術在新聞傳播學科的應用》,《當代傳播》, 2018年第202卷第5期,第14~20頁。
[43]Vargo, C. J; Guo, L. & McCombs, M. et al., "Network Issue Agendas on Twitter During the 2012 US Presidential Election", Journal of Communication, 2014, 64(2), pp. 296-316.
[44]鄭雯、桂勇、黃榮貴:《論爭與演進:作為一種網絡社會思潮的改革開放——以2013~2018年2.75億條微博為分析樣本》,《新聞記者》,2019年第1期,第51~62頁。
[45]Ortigosa, A.; Martín, J. M. & Carro, R. M., "Sentiment Analysis in Facebook and Its Application to E-learning", Computers in Human Behavior, 2014, 31, pp. 527-541.
[46]Turney, P. D., "Thumb Support Humbsdown?: Semantic Orientation Applied to Unsupervised Classification of Reviews", Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002, pp. 417-424.
[47]Paltoglou, G. and Thelwall, M., "Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media", ACM Trans Intell Syst Technol (TIST), 2012, 3(4), p. 66.
[48]Hu, X.; Tang, J. & Gao, H. et al., "Unsupervised Sentiment Analysis with Emotional Signals", Proceedings of the 22nd International Conference on WorldWideWeb. ACM, 2013, pp. 607-618.
[49]Zhai, Z.; Xu, H. & Jia, P., "An Empirical Study of Unsupervised Semantic Classification of Chinese Reviews", Tsinghua Science and Technology, 2010, 15(2), pp. 133-137.
[50]Getoor, L. and Diehl, C. P , "Link Mining: A Survey", Acm Sigkdd Explorations Newsletter, 2005, 7(2), pp. 3-12.
[51]呂琳媛:《復雜網絡鏈路預測》,《電子科技大學學報》,2010年第5期,第651~661頁。
[52]Qiu, J.; Dong, Y., & Ma, H. et al., "Network Embedding A Smatrix Factorization: Unifying Deep Walk, Line, Pte, and Node2vec", Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. ACM, 2018, pp. 459-467.
[53]Grover, A. and Leskovec, J., "Node2vec: Scalable Feature Learning for Networks", Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, August 2016, 13-17, pp. 855-864.
[54]Kalimeri, K.; GBeiró, M. & Urbinati, A., et al., "Human Values and Attitudes towards Vaccination in Social Media", Companion Proceedings of The 2019 WorldWideWeb Conference. ACM, 2019, pp. 248-254.
[55]Raisi, E. and Huang, B., "Co-trained Ensemble Models for Weakly Supervised Cyberbullying Detection", NIPS Workshop on
Learning with Limited Labeled Data, 2017.
[56]Trilling; Damian; Jonkman & Jeroen, G. F., "Scaling up Content Analysis", Communication Methods and Measures, 2018, 12(2/3), pp. 158-174.
[57]Mikolov, T.; Sutskever, I. & Chen, K. et al., "Distributed Representations of Words and Phrases and the Incompositionality", Advances in Neural Information Processing Systems, 2013, pp. 3111-3119.
[58]Wang, P.; Xu, J. & Xu, B. et al., "Semantic Clustering and Convolutional Neural Network for Short Text Categorization", Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Volume 2, Short Papers, 2015, pp. 352-357.
[59]Severyn, A. and Moschitti, A., "Twitter Sentiment Analysis with Deep Convolutional Neural Networks", Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2015, pp. 959-962.
[60]You, Q.; Luo, J. & Jin, H. et al., "Robust Image Sentiment Analysis Using Progressively Trained and Domain Transferred Deep Networks", Twenty-ninth AAAI Conference on Artificial Intelligence, 2015.
[61]Chen, T.; Borth, D. & Darrell, T. et al., "Deep Sentibank: Visual Sentiment Concept Classification with Deep Convolutional Neural Networks", arXiv preprint arXiv: 1410. 8586, 2014.
[62]Cai, G. and Xia, B., "Convolutional Neural Networks for Multimedia Sentiment Analysis", Natural Language Processing and Chinese Computing, Springer, Cham, 2015, pp. 159-167.
[63]Poria, S.; Peng, H. & Hussain, A. et al., "Ensemble Application of Convolutional Neural Networks and Multiple Kernel Learning for Multimodal Sentiment Analysis", Neuro Computing, 2017, 261, pp. 217-230.
[64]Nicholson, J.; Takahashi, K. & Nakatsu, R., "Emotion Recognition in Speech Using Neural Networks", Neural Computing & Applications, 2000, 9(4), pp. 290-296.
責 編/周于琬
Artificial Intelligence and Computational Communication
Chao Naipeng
Abstract: Artificial intelligence (AI) has swept the world, not only changing the way of human life and communicative behaviors, but also changing the way people observe and understand the world. The computational paradigm driven by AI and big data has extended to the field of social science. Influenced and inspired by the traditional quantitative research paradigm of communications, data science and network science, computational communication is developing rapidly and has become one of the most important branches of computational social science. From data mining to machine learning, and to deep learning, AI algorithm and technology has greatly improved the accuracy and efficiency of big data processing. At present, by combining with the unsupervised and supervised learning methods, automatic content analysis, emotional analysis and social network analysis can provide computational communication with research strategies and experience in terms of data processing, integration and analysis. In the future, by developing and establishing an extensible automatic content analysis framework and system, introducing more in-depth learning strategies and innovating interdisciplinary research methods, it will help AI and computational communication to achieve deeper integration in a broader interdisciplinary field.
Keywords: Computational communication, artificial intelligence, machine learning, deep learning
巢乃鵬,深圳大學傳播學院院長、教授、博導。研究方向為網絡傳播與新媒體研究、計算傳播學。主要著作有《網絡受眾心理行為研究:一種信息查尋的研究范式》《網絡廣告原理與實務》《網絡媒體經營與管理》等。