【摘要】大數據和小數據是兩個相對的概念,在大數據勇立潮頭不斷發展之際,小數據的力量也不能被忽視或遺忘。通過分析大數據和小數據的特征及區別,闡明它們各自具有的優勢,我們應明確面對未來的發展,不能在大數據和小數據之間做單選題,應充分結合二者的優勢,將大數據和小數據進行融合形成智能數據,從而賦能經濟社會發展。
【關鍵詞】大數據 小數據 數據融合 【中圖分類號】F49 【文獻標識碼】A
大數據正在逐步改變人們的生活習慣和思維方式,在推動社會進步和發展的過程中發揮日益重要的作用,無論學界和業界還是政府都越來越重視大數據的發展及其作用。而與大數據相對應的小數據,似乎在熱火朝天的大數據時代逐漸被遺忘。事實上,小數據具備的精確性和個性化優勢在大數據時代也是一股不可忽視的力量。那么,我們應該如何看待和處理大數據和小數據之間的關系呢?
大數據與小數據的區別
由于目前各界對大數據內涵界定的不一致,導致大數據的特征也未形成統一認知。但是,學界普遍認為大數據具有“4V”特征:第一,大數據在規模上呈現出數量多、體積大的海量特征。不同于以MB為基本單位的傳統數據,大數據的容量及處理量通常以GB、TB乃至PB為基本單位。第二,大數據在類型上呈現出種類多、來源廣的多樣性特征。大數據無時無刻不在自動產生數據,其種類涵蓋文字、圖片和視頻等。數據來源可以是在線交易、移動通信和網絡社交等途徑。第三,大數據在更新和處理數據的速度上均呈現出高速性特征。一方面,隨著網絡環境不斷完善,大數據采集和傳輸速率大大提升,從而加速數據更新;另一方面,大數據強調數據在線,能夠根據實際需要對數據進行實時處理。第四,大數據具備高價值性且價值密度低的特征。由于大數據是涵蓋全體對象的總體數據,它可以從總體數據中挖掘出高價值的全量信息。與此同時,也因為大數據體量龐大和數據類型繁雜,海量數據中蘊含價值的信息容易淹沒在垃圾信息中,信息提取無異于“大海撈針”,呈現出價值密度低的特征。
與大數據在規模、類型和價值三個方面的特征進行對比,我們可以發現小數據具有以下幾個方面的特征:第一,小數據在規模上表現為有限性,主要體現在對象和體量上。一方面,小數據的采集對象主要為個人,這在一定程度上限制了數據規模的擴大;另一方面,數據體量的“大”“小”衡量是相對的,小數據并非簡單的體量小,而是與海量大數據相比,小數據的容量是有限的。第二,小數據在類型上也呈現出多樣性特征。從數據來源看,小數據可以產生于訪談和調查問卷等。從數據種類看,它包括各種結構化、半結構化以及非結構化數據。第三,小數據具有一定的價值且價值密度高。由于小數據主要圍繞單一用戶的個性化信息,并且數據規模相對有限,小數據中的價值信息并不容易被淹沒,且較大數據而言,小數據的價值密度更高。
大數據與小數據的區別主要有以下四點。一是樣本的差異。首先,從樣本容量看,大數據涵蓋全體用戶,樣本容量為總體樣本量。小數據則具體到個體,樣本量單一。其次,從樣本來源看,大數據只能搜集客觀存在的行為數據,小數據則可以根據特定問題搜集數據或定制數據,具有較強的目的性和針對性。最后,從樣本數據類型看,大數據和小數據都包含結構化、半結構化和非結構化數據。但是,大數據中半結構化和非結構化數據的占比更大,而小數據則以調查得到的結構化數據為主。
二是精確性的差異。大數據對數據收集和分析的精確性要求低于小數據。由于大數據樣本來源的廣泛性和數據的海量性,大數據在數據收集環節也具有粗糙性,價值密度比較低,而小數據則相反。其次,大數據通常在線處理的數據也是有限的,加上數據處理的實時性要求,其結果往往只是近似情況,而小數據專注于個性化探索,對精確性的要求較高。最后,大數據關注群體的共性規律,小數據關注揭示個性化規律,所以它們的分析層次分別是針對宏觀和微觀層面的,這也決定了大數據和小數據的精確性差異。
三是關注的因素關系差異。大數據更關注相關關系,而小數據則更關注因果關系。大數據是“讓數據說話”,它基于數據驅動的思維,從海量數據中分析出“是什么”。而小數據更注重結果背后存在的內在邏輯關系,它是基于理論驅動的思維,不僅要了解“是什么”,還需要探究“為什么”,對現象背后的本質把握更為深入和透徹。
四是價值發現的維度差異。從維度層面看,大數據的價值發現主要在于廣度,小數據則主要在于深度。這是因為大數據的海量性和多樣性特征,大數據的涵蓋面廣,涉及的因素多且復雜。因此,它更側重于在橫向領域的價值挖掘,價值發現的層次淺但范圍廣,有助于把握宏觀規律。而小數據是對個體數據全方位的收集和挖掘,其涉及面與大數據相比較窄,但挖掘更為徹底,有助于深刻認識個體。
大數據和小數據各自的優勢
無論大數據還是小數據,都有自身的優勢方面,也有不足的地方。事實上,大數據和小數據的優勢所在,是需要根據具體的業務場景來分析的,因為它們在解決不同業務問題方面的優劣各不相同,并且這些優勢也都是相對的。
首先,大數據發展信心滿滿。隨著互聯網時代的發展,圍繞在人們周圍的信息呈爆炸式增長,這些多樣化、結構復雜的信息不斷匯聚形成大數據。相比于傳統數據,大數據在信息聚合、信息代表性以及信息檢索方面有著得天獨厚的優勢。
第一,大數據具有較強的數據代表性。在數據代表性方面,大數據力求詳盡,試圖運用數據展示研究對象的全部面貌,而不僅僅是通過數據抽樣來展示局部化的數據,即“樣本=總體”。在早期的社會科學研究當中,由于技術限制,對于研究對象涉及的數據往往都是通過抽樣調查的方式來實現的,這樣的數據研究方式可能使妍究樣本和對象不具有代表性,從而無法縱觀研究對象的宏觀全貌。而大數據的出現恰好解決了數據不具有代表性的問題,因為大數據是對全樣本數據的搜集與整合,抽樣帶來的誤差被大數據極大地稀釋了。這一優勢在做宏觀決策方面有著深刻的價值體現,如果對群體中的樣本數據采用抽樣的方式,可能出現抽樣偏差的情況,最終得到的宏觀決策不可信賴。
第二,大數據有助于信息快速聚合。大數據依托其大體量、高速度、高效用以及多樣化的特征,在信息聚合方面具有顯著優勢。大體量的特征使得大數據能夠產生巨大的數據流,將數據不斷聚合,使數據從稀缺到豐富、從靜態到動態、從分散到聚合,這為復雜的研究分析與模型演繹建立了可靠的數據基礎。高速度的大數據能夠對實時數據進行快速采集并加以分析應用,將信息聚合的時間大大縮短,在電子商務的海量交易等場景下,可以發揮其無與倫比的高速度特點。高效用的大數據在進行信息聚合后能夠在用戶畫像、精準營銷以及預測走勢上提供更多價值,從而使得數據信息產生的效用最大化。而多樣化的大數據結構豐富、來源眾多,有助于得到更加普適性的結論,這在社會和自然科學等領域有著顯著的體現。例如,加拿大麥吉爾大學的Ford教授指出,大數據在氣候變化方面的應用將大大改變人們對氣候變化管理的理解。
第三,大數據具有顯著的海量數據信息檢索能力。大數據在檢索方面的優勢主要體現在業界的實際應用方面。由于信息時代的計算機技術得到長足發展,各行業均可在短時間內依托計算機技術實現海量數據的處理。例如,金融行業可以基于人們日常投資習慣、消費習慣以及收入開支等數據信息檢索,建立健全社會信用體制以及識別欺詐行為;問詢系統是業界最常用的工具之一,它基于前期積累的問答信息以及學習生成的海量信息,通過信息檢索匹配出最準確的問詢結果,以較低的成本極大地提高了用戶的問題咨詢效率。這些實踐和應用得益于大數據的“4V”特征,在海量數據信息處理過程中具有極其顯著的優勢。
其次,小數據應用不甘示弱。技術水平的進步不僅帶來了大數據也帶來了更多的小型數據集合,并且小數據能夠以更加迅速和更為低廉的成本獲得結論。它在靈活性、隱私保護和因果關系深度挖掘方面具有絕佳的優勢。
第一,小數據在搜集數據時更為靈活。我們通常認為人們搜集、處理海量數據的行為是一種帶有特定目的的理性行為,所以需要提前規劃好數據和應用的框架,以便更好地處理海量數據信息。相比于大數據“船大難掉頭”,小數據在數據搜集時則顯得更為靈活。例如,聯合利華、雀巢以及歐萊雅等快消行業品牌都傾向于投入較多資金在問卷調查這種小數據搜集項目上,這是因為問卷設計者可以根據自身需求對問卷進行設計,從而更加清楚和細致地了解消費者對產品的態度與看法,而企業的大數據則只能根據已有大數據資產進行挖掘分析。此外,雖然大數據具備基于海量數據對未來發展進行預測的能力,但是只能對事物發展大體走向給予初步判斷,無法在一些特定環境下做出合理的預測。相比之下,小數據在預測分析特定情況或小概率事件時,能夠根據實際情況靈活制定數據的搜集策略,從而得到更加出色的預測結果。因此,如果說大數據搜集是協調統一的“團隊行動”,那么小數據搜集則更像靈活多變的“單兵作戰”。
第二,小數據對隱私更加“友好”。表面上大數據很容易獲得,但事實并非如此,因為具有研究價值的數據往往涉及商業機密、個人隱私或者經濟利益等問題,這給大數據在隱私保護方面帶來了巨大挑戰。例如,在智能城市建設當中,公民的一些活動數據被相關機構所獲取,這對大部分守法公民的個人數據隱私造成了威脅。此外,基于用戶位置信息和上網數據痕跡等大數據,為用戶推送相關的廣告內容也成為大數據在隱私保護方面的一個挑戰,因為不僅用戶的個人信息隨時隨地被網絡監聽,而且一些彈出廣告也對用戶體驗造成了極大困擾。然而,小數據則在保護受訪者隱私方面交出了滿意的“答卷”。一方面,由于小數據的搜集通常是以問卷調查或隨機抽樣的形式展開的,所以小數據在搜集數據的過程中能夠做到尊重受訪者意愿并保持匿名受訪的方式;另一方面,小數據在搜集后通常多為一手數據,所有權和使用權都為小數據的搜集者所掌握,這對數據的隱私保護更為友好。
第三,小數據更注重對數據間因果關系的深度挖掘。由于小數據通常根據實際研究需要有針對性地進行收集,所以獲得的數據更加個性化,可以從這些個性化的小數據中深度挖掘數據信息中的因果關系。而大數據具備的特性,使得它更擅長從數據中發現事物間的相關性,但在分析數據間的因果關系時總顯得力不從心。例如,在研究樓盤開業與人流量之間的關系時,發現樓盤開業與前來現場的人數具有較高的相關系數,通過大數據分析方法只能證明這兩者之間具有較強的相關性,而不能確定兩者之間是否存在明確的因果關系,原因在于無法確認是樓盤開業吸引人們前來現場,還是開盤當天站臺明星吸引了人們前來。要厘清這其中的因果關系,還需要通過小數據進行更為精確、更加細致和富有內涵的深度分析。因此,數據驅動成就了大數據快速挖掘事物表面的相關性,但這些淺層次的相關性還不足以讓我們看清事物的深層次本質,而小數據在因果關系的深度挖掘方面則具有更加細膩的優勢。
如何將大數據和小數據融合成智能數據
一是打破大數據和小數據壁壘。當前,大數據的應用發展日益成熟,各種結構化和非結構化的數據搜集已經十分便捷。然而,相比于大數據,小數據不僅分散,而且數據結構不統一,這導致了大數據和小數據在接口上陷入難以結合的窘境。如果能將大數據和小數據的數據壁壘打破,實現大小數據的整合,那么就能充分挖掘數據中的價值,實現數據價值增益。而構建數據中臺可能是最有望解決這一問題的方式。數據中臺是連接數據和應用的中間層,可以將數據湖中不同數據的口徑進行標準統一。因此,可以借助數據中臺打破大數據和小數據間的數據壁壘,實現二者的有機結合。一個最直觀的例子,新型冠狀病毒疫情暴發后,為了追蹤病毒感染者可能的傳播范圍,早期相關部門通過新聞廣播感染者乘坐交通工具的座位信息,地毯式搜尋可能被傳染的人員。然而,這種方式不僅費時費力,而且隨著病毒感染人數不斷增加,后期已經杯水車薪。隨著健康二維碼在杭州首先被推出后,其迅速被全國各地所采用。它整合了手機用戶的定位信息、付款交易信息和乘坐交通工具信息等多源大數據,并且根據用戶填報的居住信息、體溫信息和近兩周內出行信息等,搜集到了個體小數據。這些大數據和小數據匯聚形成數據湖后,經過數據中臺處理分析,生成個性化的健康二維碼,從而為追蹤可能被病毒感染的人員提供了快速有效的方法。
二是通過大數據技術挖掘小數據集合。數據、算法和算力作為驅動數據科學發展的三大基石,它告訴我們數據只是數據時代的一部分內容,更重要的是如何挖掘出數據中蘊藏的巨大價值,這也正是大數據能持續風靡全球的原因。大數據的價值不僅在于它的數據量大,還因為有機器學習、深度學習和人工智能算法等大數據技術,可以充分挖掘其價值。如果我們將這種大數據的思維也類比應用于小數據上,讓大數據技術賦能小數據,同樣也可以挖掘出小數據中的大價值。例如,聚類分析是大數據技術中最常見的一種數據挖掘方式,它可以將群體中具有相似特征的個體進行歸類。這種方法可以用于挖掘商場中消費者的個性化小數據,從而為消費者提供個性化的精準導購服務。因為導購員可以通過交流,發現消費者的年齡、性別和喜好等個性化特征,如果能搜集整理好這些個性化的小數據,然后將這些小數據進行聚類分析,可以把不同的消費者歸類,從而針對同一類消費者的喜好情況制定特定的導購服務,不僅能給消費者提供更加個性化的精準服務,商場也可以省去大量的無效工作。雖然如今大數據備受追捧,但是我們也不能忽視“以人為本”的社會發展本質,最終社會的發展方向也一定會走向越來越個性化和精準化。因此,將個性化的小數據結合大數據技術進行挖掘分析,可以更加充分地釋放小數據中的大價值。并且相比于大數據的挖掘結果,小數據的挖掘反倒可以得到更加個性化的數據信息,這充分發揮了大數據的技術優勢和小數據的個性化優勢。
三是用小數據中的信息補充大數據中的規律。由于大數據在數據量方面的優勢,使得它能夠更加全面地從海量數據信息中發現總體規律。然而,也正因如此,大數據在發現數據信息背后的總體規律時,也犧牲了數據信息背后的個性化規律,而這些個性化規律有時候往往具有更大的價值。因此,我們在挖掘大數據的總體規律時,也應該注意個性化規律,用小數據中的個性化信息補充大數據中的總體規律,從宏觀和微觀兩個層面充分剖析數據的內在含義和價值。大數據在醫療方面的應用是當前大數據最成功的實踐應用之一。一些疾病診斷可以通過大數據的方法,從搜集的海量病例數據庫中挖掘出類似的疾病規律供診斷參考,從而實現疾病診斷工作提速增效。但是大數據中發現的總體規律只是提供一種高效的參考而已,每位患者的具體情況存在差異,醫生還需要結合患者的個性化小數據信息來最終確診疾病。即便未來大數據醫療在技術層面取得更大突破,個性化小數據中的信息和大數據中的規律相結合依然會是最好的方式,特別是針對疑難雜癥。例如,同樣是肺炎,但是致病的機理卻有不同類型,如果我們沒有對小數據中的信息進行分析,就無法獲知這其中的因果關系。特別是當肺炎大數據中主體規律掩蓋了數據中小部分個性化規律時,只看到數據的表明現象,而沒有厘清內在的因果關系,可能會造成無法想象的后果。因此,我們不僅要知其然還要知其所以然,這需要從小數據信息中發現其中的因果關系,為大數據中的規律錦上添花。
(作者分別為湖南大學工商管理學院副院長,教授、博導;湖南大學數據科學與區塊鏈研究院院長,湖南大學工商管理學院教授)
【參考文獻】
①蘇令銀:《大數據時代的小數據會消亡嗎》,《探索與爭鳴》,2019年第7期。
責編/韓拓 美編/楊玲玲
聲明:本文為人民論壇雜志社原創內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。