【摘要】“東數西算”工程通過構建數據中心、云計算和大數據一體化的超級算力網絡體系,實現東部算力需求和西部能源供給的聯動調配,為數字化轉型和社會民生提供保障和服務。以國家超算為樞紐節點開展國家高性能算力網絡建設具有得天獨厚的條件,在全國一體化算力網絡布局中起連接、統籌的作用。“東數西算”加快了高性能算力中心實現云網協同,提升算力服務的品質和使用效率,是實現國家數字經濟發展和碳中和目標的重要舉措。
【關鍵詞】“東數西算” 算力網絡 高性能計算 基礎設施建設 【中圖分類號】F49 【文獻標識碼】A
“東數西算”是世紀工程,算力網絡是國家新型基礎設施的骨架
隨著我國現代化工業的飛速發展,互聯網、制造業、服務業等行業日益增多的數據無時無刻不在考驗著國家信息化基礎設施的承受能力以及調度能力。“東數西算”是在全國范圍內實現算力和應用資源按需調度的基礎設施工程,是以算力中心、數據中心、高速網絡為基礎設施,由云計算、大數據以及智能計算為核心技術構建的一體化新型算力網絡體系。我國東部地區數據產生量大、數據密集、算力資源緊張,西部地區地域廣袤,擁有比東部地區更豐富的可再生資源,充分利用西部地區的計算資源來高效執行東部地區有巨大計算需求的數據,能夠在全國層面更高效地支撐以降低全社會能耗為目標的計算方式,更穩定地解決算力增長需求,實現綠色可持續發展。
新基建已經被證明是繁榮數字經濟的基石,毫無疑問像城際高速鐵路和城際軌道交通、新能源汽車充電樁、人工智能和工業互聯網等領域的新基建絕大部分將在東部經濟發達省份和地區進行,而隨著新基建的推進與其規模性效益的發揮,海量的數據將密集地產生在我國中東部地區,極大促進中東部地區算力需求的增長。從這個意義上說,“東數西算”將是我國推進新基建的有效保障,是基礎設施的重要組成部分,其意義遠不止于數據中心和算力中心的建設,而在于能夠將現有的和將來的數據中心與算力中心在區域內與全國范圍內連接成網,建設成為國家新基建工程的骨架,更高效地聯通全局計算存儲與網絡資源,更合理地引導數據和應用的布局,以更綠色的能耗開銷實現全國算力的規模化與高可擴展性。
“東數西算”將是我國建立在能源優化布局上的世紀新型基礎設施,是在全國范圍內按區域建設數據中心樞紐、實現數據遷移和算力平衡化的高速互聯網絡,主體上主要包括算力樞紐與算力網絡的建設,除了帶動我國數據產業的投資優化,還將在更大程度上實現數據產業的優化布局。
隨著“東數西算”以及多層次數據中心布局的逐步推進,國家高性能算力網絡將成為支撐東部數據到西部運算的重要基礎設施,其組成將包括高速數據中心直連網、云網一體化、高性能邊緣接入網以及數據中心內部高速網絡等,需要加速實現多云間、云和數據中心間以及云和網絡間的資源聯動,真正實現云網融合。重點是建設區域數據中心間的按需彈性網絡,優化網絡結構,實現數據中心間的帶寬資源可按時/按需調整,減少數據繞轉時延。數據中心端到端單向網絡時延原則上能控制在10毫秒范圍內,是保證網絡實時性、實現全面云接入、提升跨區域算力調度水平的基本保障。
高性能算力網絡從字面上理解是算力資源信息的分發網絡,是算力資源提供方與算力消費方之間的高速互聯平臺。本質上要求高帶寬、低延時,支持帶寬的彈性分配,可通過高速數據傳輸、共享與任務分發的手段來實現算力資源的合理調度,進而降低能耗。這種以算為中心、網為根基,將“網、云、數、智、安、邊、端、鏈”等深度融合并提供一體化服務的方式,將實現從以網絡為核心的信息交換到以算力為核心的信息數據處理的轉變。
國家高性能算力網絡的定位可以從國家層面和地域層面兩個不同的角度來分析。從國家層面來看,是以八個核心算力樞紐節點為核心,建設算力樞紐的數據中心內網絡、數據中心間網絡以及跨地域的算力樞紐間網絡。八個節點的布局建設,定位不同,發揮的作用也有所不同。貴州、內蒙古、甘肅、寧夏這四個節點要打造面向全國的非實時性算力保障基地,定位于不斷提升算力服務品質和利用效率,充分發揮其資源優勢,夯實網絡等基礎保障,積極承接全國范圍的后臺加工、離線分析、存儲備份等非實時算力需求。京津冀、長三角、粵港澳大灣區、成渝四個節點要服務于重大區域發展戰略實施需要,定位于進一步統籌好城市內部和周邊區域的數據中心布局,實現大規模算力部署與土地、用能、水、電等資源的協調可持續,優化數據中心供給結構,擴展算力增長空間。
在省市區域層面,可以國家超算中心、地方超算中心和大型算力中心為核心,先行建設超算中心與各規模以上數據中心間的星型網絡,面向大型AI模型訓練、反恐/應急等時間上算力需求不均衡的應用以及高分影像數據處理、超大型機械/流體仿真等數據密集型與計算密集型應用等,建設按需分配與彈性調整的算力網絡基礎設施,通過算網一體的云網融合架構,實現基于骨干、城域的網絡資源層、算力路由層,建立多中心間的一體化算力平臺和算力服務層,進而實現數據密集型與計算密集型應用在算力網絡環境下的適配和部署,滿足傳統高性能計算應用的彈性需求和擴展性需求。
國家超算中心是國家高性能算力網絡建設的樞紐節點
一般來說,國家高性能算力網絡是由運力和算力兩個基本要素組成。運力以網絡為基礎實現算力樞紐、數據中心與邊緣節點之間的互聯互通,主要提供數據交換和算力路由服務,綜合考慮任務類型、算力需求和成本等因素,將用戶任務和數據調度部署在效益相對較高的算力樞紐節點中。算力因其硬件和應用服務類型的差異可分為通用算力、智能算力和超算算力。通用算力是由傳統CPU芯片構成的集群服務器算力,可以支持對算力速度和類型要求較低的分布式計算應用。智能算力由多數量、多類型的智能加速器硬件構成,AI智能芯片為人工智能應用訓練和推理過程提供服務。超算算力以大規模和超大規模計算節點和高速互聯的網絡構成,節點往往配置有異構或眾核的高性能處理器,是支持高精度浮點計算能力的高性能集群系統。
現階段的算力中心建設大致包含高性能超算集群、高性能網絡和存儲的硬件系統以及高性能計算支撐軟件系統等,其中軟件系統主要包含三類:一是高性能計算服務化與調度系統,提供多基礎設施的整合和資源編排能力。能夠實現高性能計算、輔助算力資源池、AI算力資源池的統一管理,提供資源標準化、資源申請、資源調度、資源變更、資源釋放等功能,提升資源交付的效率。二是超算系統運行綜合管理系統,對環境提供監控管理、對資源進行統一納管、提供智能運營/運維服務、提供可視化管理。三是機房與動環運行管理系統,對各個獨立分布的動力設備、機房環境以及機房安保監控對象提供實時的可視化管理。
國家高性能算力網絡將成為高性能計算應用的基礎設施,在科學計算領域,可用于氣候模擬天氣預報、揭示地球地質演化進程、自然災害預測、大工程模擬建模試驗等;在應用生產領域,可用于地質勘測、生物醫療健康等。隨著更強大、更高計算能力的超級計算機的出現,可以模擬規模越來越大的微觀系統、時間越來越長的微觀過程以及細節越來越精細的微觀現象,從而極大增強人類對自然的認知能力。時至今日,高性能計算在基礎科學研究、工業工程、公益事業、國防安全等各個領域的廣泛應用,解決了大批重大、關鍵、挑戰性的重要科學和工程問題,對于支撐科技創新、推動經濟發展具有重要作用。
2021年5月,國家發展改革委等多部門聯合印發的《全國一體化大數據中心協同創新體系算力樞紐實施方案》中給出的算力網絡國家樞紐節點布局總體思路是:第一,圍繞國家重大區域發展戰略,根據能源結構、氣候環境等布局,建設全國一體化算力網絡國家樞紐節點,發展數據中心集群;第二,在國家樞紐節點之間進一步打通網絡傳輸通道,提升跨區域算力調度水平。在全國一體化大數據中心體系總體布局中,設計規劃了8個國家算力樞紐節點和10個國家數據中心集群。其中離散的國家數據中心集群提供主要的算力支持,國家算力樞紐在全國一體化算力網絡布局中起連接、統籌的作用。算力樞紐是使離散的數據中心集群相互聯系的中心環節,是全國一體化算力網絡建設的關鍵,在“東數西算”工程中起到合理統籌、布局數據的作用。
我國目前已經建立了天津、濟南、長沙、深圳、廣州、無錫、鄭州、昆山、西安、成都等10家國家超級計算中心,近5年內總算力將超過10EB,是我國科學工程計算、行業計算與社會計算的主要算力設施,是國家戰略科技基礎設施與數字經濟發展制高點。將國家超算中心作為建設國家高性能算力網絡的樞紐節點,無論是在基礎設施條件還是服務能力上都具備得天獨厚的優勢。
以超算中心為樞紐的高性能算力網絡需要實現三個方面的主要功能:高性能計算服務架構、多中心間算力融合與調度、多中心算力互連網絡基礎設施建設。第一,基于國家超算中心建設高性能計算服務架構。基于國家超算中心,建設超算云平臺,整合超算云資源池,構建針對高性能計算應用的云原生體系結構,完成高性能計算應用的云化改造和服務化封裝,實現高性能計算應用的按需彈性計算,完善計費策略與服務。第二,基于國家超算中心實現多中心間算力融合與調度。基于國家超算中心,建設超算互聯網服務平臺,在高性能算力網絡中扮演算力路由的角色,實現多中心高性能資源協同調度及資源優化布局。以國家超算中心為樞紐,建立數據互聯與高效處理機制,實現多中心之間、中心內部的級聯架構下資源跨域分配和自動化部署。面向超算互聯網構建低代價分布式計算框架,以支持數據處理、人工智能訓練與高性能計算的不同算子在數據中心間形成跨域工作流。第三,基于國家超算中心實現多中心算力互連網絡基礎設施。使用IPv4和IPv6網絡環境下的超算中心互聯方法、路由策略和治理體系,建立超算中心間大帶寬、低延時、高可靠互聯網絡。
因此,國家超算中心將會是國家高性能算力網絡建設的樞紐,需加大利用超算算力統籌、優化多中心分布式計算體系結構的研究和建設。在多數據中心的級聯架構下,不同算力下的通信速率、I/O速率大不相同,速率慢會成為多中心計算的瓶頸,基于超算中心的多中心分布式計算架構設計,可以克服“東數西算”級聯架構的多層通信問題,降低多層通信延遲帶來的影響,通過合理的高性能算力網絡縱向結構,找到平衡計算、I/O和通信的最佳點,進一步提升高性能算力網絡的性能。
國家高性能算力網絡將極大促進傳統行業的升級轉型
建設國家高性能算力網絡會直接刺激芯片等上游產業的變革。數據中心是國家高性能算力網絡的重要組成部分,計算、存儲、網絡傳輸是數據中心的三個核心功能。數據中心提升算力的主要方向是種類和數量更多的計算單元。作為核心的計算單元,在建設國家高性能算力網絡的過程中,會直接拉動服務器芯片和GPU等異構算力芯片的巨大需求。同時,建設高性能算力網絡也會拉動各種功能特化型芯片的研發和應用,如面向AI模型訓練的AI芯片,直接面向大數據處理平臺的DPU芯片,網絡傳輸芯片、存儲芯片、數據采集芯片等,這將極大促進我國芯片行業多元化發展。
支持跨數據中心節點的資源管理和任務調度是國家高性能算力網絡一個不可或缺的部分,其對操作系統提出了更高的要求。操作系統在計算環境多變、需求多樣、場景復雜等環境下需要對硬件資源、數據資源、系統平臺及應用軟件進行靈活的軟件定義,以支持感知互聯、計算認知、動態適配和反饋控制等跨數據中心節點的應用特點。具體來說,操作系統需要支持跨數據中心的節點資源管理與任務調度,支撐系統操作與管理環境、并行開發環境和應用支持環境三大部分的軟件框架與設計能力,主要包括節點操作系統、資源管理系統、并行文件系統和高速通信庫,負責管理硬件資源,進行基礎的任務調度、資源分配、通信傳輸以及文件數據存儲等。
云計算在本質上是依托計算機網絡建立起來的,將集中或者相對集中的計算與資源以服務化的方式滿足客戶使用需求的基礎設施與商業模式。云計算在實現上對算力網絡有著天然的依賴,算力網絡能夠在更大的區域內讓最終客戶享受更好的云計算服務。隨著近幾年云計算規模不斷擴大和在各行各業內的應用,工業云的發展在很大程度上帶動了傳統企業的轉型升級。工業云向企業提供云設計、云制造、云協同、云資源、云服務、云存儲等服務,可落實于工業軟件設計、工業數據管理、3D打印、工業仿真分析等工程領域。工業云帶動的工業互聯網已成為工業企業發展的一個新方向,在過去的實踐中,工業云的發展大大降低了傳統制造業邁入信息化的門檻。此外,國家高性能算力網絡還將會打破工業云之間通信與服務的壁壘,形成更高層次的“云”。算力網絡的服務對象不再局限于某一個特定的領域,這將有利于各式企業以較低的運營成本進行數字化轉型和智能化升級,提高我國工業企業整體的競爭實力。
此外,國家高性能算力網絡將會對我國傳統產業由“信息化”邁入“智能化”起到極大的推動作用。隨著AI在各行業領域的不斷深化,AI應用的場景不斷豐富,AI訓練和推理的計算量正在呈指數級增長。超算中心/數據中心的單一算力集群無論是計算資源、軟件資源的多樣性還是團隊支撐都越來越無法滿足復雜場景中超大規模參數訓練和人工智能應用的需要。隨著國家“東數西算”工程拉開帷幕,算力經濟時代已經到來。隨著新基建的推進,我國國家超算中心、各省市的超算中心、人工智能算力中心都在陸續建設中,這些多地域分布的算力中心節點構成了典型的多域高性能計算環境。隨著國家和各省市智能計算算力網的構建,面向疫情防控、應急反應等國家重大戰略需求,如何提供中心間的算力協同和按需調度方案,解決“算力孤島”問題,提升國家在算力基礎設施上的投資收益,成為當前亟待突破的瓶頸。
目前高性能計算與人工智能融合計算系統的主要功能,集中在減少機器學習任務在分布式環境下參數同步的通信量、提高系統對大規模深度學習的適應性等方面,但在分布異構集群尤其是跨域集群環境下提供細粒度智能計算任務調度、高效的混合精度計算支持,提高面向超大規模機器學習訓練任務的性能、高性能異構環境下的穩定性上還存在明顯不足。亟需立足國家超級計算中心樞紐節點,依托國家高性能算力網絡,在多超算中心互聯的超算系統上開展高效能、大規模的深度學習/機器學習的并行編程和性能優化。這不僅需要高效的資源管理、任務調度、CPU/GPU融合等異構協同計算環境,也需要該環境支撐下的超大規模深度學習并行編程模型、超大批量并行訓練的機器學習在收斂性和擴展性上的性能優化,需要在超算計算節點內、超算節點間和多域異構超算間等不同層面分別解決性能模型基礎理論、自動并行訓練關鍵技術、異構智能計算資源管理機制以及大批量神經網絡訓練優化等關鍵問題。
“東數西算”是我國的世紀工程,是建設國家新型基礎設施必不可少的骨架。我國城市發展不平衡決定了中東部地區將是應用和數據的主要產生地,國家高性能算力網絡作為支撐東部數據到西部運算的重要基礎設施,將在我國“東數西算”工程推進與實施過程中起到舉足輕重的作用。運力與算力是構成國家高性能算力網絡的基本要素,國家高性能算力網絡將成為我國大規模高性能計算應用的基礎設施,是解決我國關系到國計民生的重要科學和工程問題的關鍵設施,對于支撐科技創新、推動經濟發展具有重要作用。
我國正在建設和運營的10家國家超算中心是我國戰略科技基礎設施與數字經濟發展的制高點,以國家超算為樞紐節點開展國家高性能算力網絡建設具有得天獨厚的條件,在此基礎上打造集計算服務、交叉研究和產業創新“三位一體”的國家重大科技基礎設施和區域通用公共計算服務平臺,將極大地促進傳統行業的轉型升級,夯實新基建。
(作者為教育部青年長江學者,湖南大學信息科學與工程學院教授、博導)
責編/銀冰瑤 美編/楊玲玲
聲明:本文為人民論壇雜志社原創內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。