大模型領域普遍存在規模化定律,即大模型的性能深受模型參數量、數據集大小以及訓練算力規模三要素的影響。生成式AI的運行主要基于深度學習原理,其發展離不開海量數據信息的投入。面對智算集群目前存在的可用度、推理體驗等問題,華為推出業界首款AI存儲——OceanStor A800,致力于成為支撐智算集群發展的關鍵基座。
智算集群為千行萬業發展新質生產力夯基筑石
近年來,智能計算已經成為推動社會發展進步的重要力量。從計算機視覺到自然語言處理、多模態等基礎大模型研究,再到面向自動駕駛、生命科學等重點行業的專用大模型研發,各行各業都展示出對智能算力的巨大需求。
中國移動搶抓數字經濟發展新機遇,立足自身資源稟賦和能力優勢,以算為中心、以網為根基、以存為引擎,打造多種信息技術深度融合、可提供一體化服務的算力網絡,對內滿足“九天”人工智能大模型訓練,對外面向千行萬業提供一站式智能計算服務,加快發展新質生產力。
借助智算集群提供的服務,運營商行業加速數智化轉型,可匯聚數百萬個基站、數億用戶以及數百PB級歷史數據,實現L4級網絡自動駕駛;金融行業可對信貸申請進行快速處理,時間從原來的數天縮短到一分鐘,甚至最快一秒鐘即可完成審批。
華為AI數據湖方案助力中國移動智算中心構建堅實底座
中國移動智算中心(哈爾濱)節點充分利用中國移動(哈爾濱)數據中心軟硬件優勢、自然冷源地域優勢,提前4個月攻堅完成3千多平方米機房的供電、制冷、建筑結構等重大調整改造,涉及5000多臺設備、7萬多根線纜、20多萬個端口、千萬級精密器件的大規模集群復雜施工。在30多個單位、千余人的協同支持下,歷經7個月時間,超萬卡規模智算集群建成,存力規模達150PB。
在智能融合分級存儲集群的設計初期,中國移動面臨幾大挑戰:在吞吐性能方面,萬億級參數大模型需要至少10TB/秒的吞吐量,而傳統存儲系統難以滿足這一要求;在多協議處理方面,數據從歸集到處理再到訓練,涉及對象存儲和文件存儲的頻繁轉換,這對傳統存儲架構是一個巨大挑戰;在數據管理效率方面,隨著數據的動態變化,熱數據與冷數據需要按需流動,傳統系統主要依賴人工干預,效率較低。
為應對上述挑戰,華為為中國移動提供AI數據湖解決方案,構建智算中心數據底座,實現聚合帶寬8TB/秒,IOPS(每秒讀寫次數)達2.3億。受益于AI數據湖高可靠、高性能等特點,大幅降低集群故障概率,縮短了斷點續訓時間,使得90天單訓練周期內GPU的等待時間從7天減少到2天。
在訓練方面使智算集群實現從“堆算力”到“提效率”的轉化
華為推出AI數據湖解決方案,基于OceanStor AI存儲和OceanStor Pacific分布式存儲的諸多技術創新,可支撐千億/萬億級參數大模型高效訓練與推理。
大模型訓練系統對算力需求很大,計算密度空前,對數據吞吐量的要求也與時俱增,要求達到傳統應用的數十倍甚至百倍。對于存儲來說,首先就是要快速將數據源源不斷地投入大模型。
為最大程度發揮每塊算力卡的“潛力”,華為OceanStor A800首創數控分離架構,讓數據從接口卡直接傳輸到存儲介質,避免CPU和內存等潛在的瓶頸,大幅提升存儲帶寬和IOPS能力。在2024年MLPerf TM存儲基準性能測試比拼中,OceanStor A800榮登榜首,其2節點性能高達679 GB/秒。
面對訓練過程中的海量數據匯聚與高效存儲問題,華為AI數據湖解決方案構建了全局文件系統、無損多協議互通、EB級擴展以及熱溫冷數據智能分級存儲等能力,用一套存儲實現AI各階段數據的免拷貝和格式免轉換,加速數據價值釋放,并實現整體擁有成本(TCO)最優。
在推理方面使大模型實現從“快思考”到“慢思考”的轉化
大模型產品具有即時問答的“快思考”能力,讓AI變得更“聰明”,就要使其具備邏輯梳理、應對變化的“慢思考”能力。
使AI具備“慢思考”的能力,關鍵在于記錄下AI推理過程中的每一次“思考”結果,使其再遇到相同的復雜問題時不需要重新計算。專門記錄大模型思考結果的存儲被稱為“長記憶內存型存儲”,作為內存的擴展,以分級的方式實現月級/年級的記憶能力,甚至是“終生”記憶能力。
華為OceanStor A800是業界首款提供“長記憶”能力的存儲,通過“多級鍵—值緩存(KV—Cache)機制”將所有的思考結果持久化保存并高效使用,讓大模型推理具備“慢思考”能力,以減少大模型在預填充階段的重復計算。如此,客戶進行AI推理的時延可降低近八成,單個計算卡的吞吐量提升約2/3,可在實現推理體驗提升的同時降低成本。
如今,智算中心正從千卡集群向萬卡甚至超萬卡集群演進。華為將與中國移動等企業持續深入合作,一起應對超萬卡集群建設和運營帶來的前所未有的挑戰,抓住人工智能發展的歷史機遇,打造自主創新的智算中心可靠數據底座。
數據來源:中國移動通信集團黑龍江有限公司 華為技術有限公司