作為云服務國家隊,中國電信天翼云始終堅持科技創(chuàng)新,在技術方面不斷取得突破,推出多項研發(fā)成果。作為其中的重要代表,“息壤”入選“2022年度央企十大超級工程”,通過將復雜的算力資源智能、有序地調度到目的地,不斷刷新算力傳輸?shù)摹爸袊俣取薄?/p>
《山海經注》云:“息壤者,言土自長息無限,故可以塞洪水也。”進入人工智能時代,“息壤”如同它的名字一般,持續(xù)向智能“生長”,進一步升級為一體化智算服務平臺,為大模型的快速發(fā)展和落地持續(xù)提供多樣化的算力資源和一體化的智算服務。
統(tǒng)籌調度 全網算力“隨愿可得”
數(shù)字時代,以算力為核心的數(shù)字信息基礎設施成為國家戰(zhàn)略性布局的關鍵組成部分。但是當前,我國算力分布呈現(xiàn)總量大但分布不均衡的特征,總體需求旺盛與局部算力閑置并存,供需匹配不暢。因此,在全國范圍內實現(xiàn)高效的算力統(tǒng)籌和調度,滿足千行百業(yè)對算力的不同需求,提升全局算力的利用率,成為提升算力“中國速度”的一項重要工程。
為優(yōu)化數(shù)據(jù)中心建設布局,統(tǒng)籌調度、高效利用算力資源,2022年2月,國家發(fā)展改革委、中央網信辦等四部門聯(lián)合印發(fā)通知,同意在京津冀、長三角、粵港澳大灣區(qū)、成渝,以及內蒙古、貴州、甘肅、寧夏等8地啟動建設國家算力樞紐節(jié)點,并規(guī)劃了10個國家數(shù)據(jù)中心集群,“東數(shù)西算”工程正式全面啟動。作為算力基礎設施建設的排頭兵,中國電信積極貫徹落實“東數(shù)西算”工程和加快構建全國一體化算力網的要求,在上海青浦、浙江嘉善、江蘇吳江、廣東韶關、甘肅慶陽等國家算力樞紐節(jié)點新建了大型數(shù)據(jù)中心,在算力建設上落實“東數(shù)西算”“東數(shù)西備”“東數(shù)西存”,助力提升資源利用率和算力算效。同時充分發(fā)揮電信運營商的網絡資源稟賦,推進以DC為中心組網,提升國家樞紐節(jié)點網絡互聯(lián)能力,構建四區(qū)六軸八樞紐多通道的低時延光纜網底座,持續(xù)深化區(qū)域一體化組網,同步加快新型云化城域網建設,全面滿足一體化算力網1ms/5ms/20ms時延要求,全方位打造支撐“東數(shù)西算”戰(zhàn)略落地所需的大帶寬、低時延、智能敏捷、安全可靠的網絡基礎設施。
作為國家云,天翼云在優(yōu)化算力資源配置、提升資源使用效率方面做出一系列努力,自主研發(fā)的“息壤”平臺應運而生,為算力的高效統(tǒng)籌和調度提供了解決方案。
通俗來講,“息壤”好比是一個算力傳輸?shù)臉屑~,能夠在全國范圍內實現(xiàn)每分鐘數(shù)萬次、每天上千萬次的算力統(tǒng)籌調度,滿足千行百業(yè)對算力的需求,讓算力像水和電一樣即取即用、“隨愿可得”。“息壤”通過把多方算力匯集到一個平臺,實現(xiàn)一體化供給,具備對多服務商異構算力的跨區(qū)域調度能力,支持對通用計算、智算、超算和網絡進行一體化調度,降低算力使用成本。
基于“息壤”強大的算力調度能力,智慧教育資源隨時共享,讓偏遠地區(qū)的孩子也能像大城市的孩子一樣享受優(yōu)質的教學資源;在汽車工業(yè)領域,300次的仿真碰撞試驗在一分鐘內便能成功模擬完成……從市民生活到工業(yè)生產,從城市中心到偏遠地區(qū),“隨愿可得”的算力賦能千行百業(yè),走入千家萬戶,重塑著每個人的生活。
云智一體 大模型訓推“一步到位”
科技不斷向前發(fā)展,我們迎來了人工智能時代。當前,人工智能行業(yè)進入以大模型為代表的快速發(fā)展階段,國產多模態(tài)大模型爆發(fā)式更新,AI應用有望迎來更多功能和形態(tài)方面的突破升級,未來發(fā)展空間廣闊。
但大模型的研發(fā)與推廣仍然面臨一定的壓力和挑戰(zhàn)。一方面,大模型的訓練和應用需要大量的高質量數(shù)據(jù),當前我國數(shù)據(jù)資源有限且分散,導致模型訓練效果并不理想;另一方面,模型的參數(shù)量和計算復雜度持續(xù)增加,對算力的需求以幾何級數(shù)增長。
作為云服務國家隊、數(shù)字中國建設主力軍,天翼云順勢而為,積極響應國家政策號召,布局智算基礎設施建設,為人工智能產業(yè)發(fā)展筑牢算力基石。為滿足大模型的市場需求和變化,天翼云能力全面升級,構建“息壤”一體化智算服務體系和能力,提供極致的算力調度、高效的計算加速、普惠的一站式智算服務。
在算網調度能力方面,“息壤”在三方面取得顯著技術突破。通過算力插件和算力網關,實現(xiàn)了算力的統(tǒng)一、高效和云化接入;通過算數(shù)協(xié)同和多級算力互聯(lián)調度,實現(xiàn)了算數(shù)網的一體化調度,數(shù)隨算走、算隨數(shù)動,調度區(qū)域更廣,算力更泛在;借助大模型認知能力和業(yè)務調度,實現(xiàn)算力選擇和應用部署簡單化,故障自動恢復與負載均衡,使算力簡便易用。
基于技術突破和產品化應用,“息壤”可服務于三大算力場景。一是天翼云自營公共算力服務平臺,目前已接入超40家算力伙伴,實現(xiàn)三方各類算力可調度22EFlops,顯著擴大了算力規(guī)模和品類,滿足公有云客戶的多元算力需求。二是幫助客戶構建行業(yè)算力互聯(lián)網,例如高校算力聯(lián)盟等,實現(xiàn)行業(yè)內算力利用率的有效提升。三是助力建設城市算力互聯(lián)網,實現(xiàn)區(qū)域內多方算力的一體化統(tǒng)籌調度,助力地方經濟和產業(yè)發(fā)展。
在異構計算能力方面,“息壤”具備高效的異構計算能力,能夠破解大模型訓練推理中面臨的大算力、高性能、高穩(wěn)定需求等挑戰(zhàn)。在大算力需求方面,天翼云建立PB級并行文件存儲,并組建低延時超大規(guī)模RDMA網絡,通過計算、內存和通信的多維優(yōu)化,提升綜合算效。在性能方面,自研AI框架、算子加速庫、集合通信庫、網絡拓撲感知、存儲加速等關鍵技術,將國產算力的綜合算效提升到行業(yè)領先水平。在穩(wěn)定性方面,通過多項指標的監(jiān)控分析,實現(xiàn)故障訓前發(fā)現(xiàn),有效控制大模型訓練中斷恢復時長,實現(xiàn)訓練任務長期穩(wěn)定、高可用運行。此外,天翼云基于國產萬卡智算集群和自研智算平臺,已具備支撐萬億參數(shù)基礎大模型訓練的能力。
在訓推服務能力方面,“息壤”一站式的訓推服務能力,可降低大模型應用創(chuàng)新開發(fā)門檻,實現(xiàn)了業(yè)界首個國產芯片萬卡并行訓練。平臺預置行業(yè)數(shù)據(jù)集、主流開閉源基礎大模型,并提供模型訓練全棧工具鏈,將大模型精調場景簡化操作至選數(shù)據(jù)、選硬件和選模型三個步驟,簡化部署、提升效率;通過自研AI框架、3D并行加速、自研訓練加速庫、容器調度優(yōu)化等核心技術,大幅提升訓練效率;通過模型量化壓縮、自研推理加速算子庫、自研AI推理加速框架等核心技術,顯著提高推理效率;通過全鏈路故障檢測、定位、告警,全鏈路日志監(jiān)控與可視化、斷點續(xù)訓快速恢復等核心技術,提升大規(guī)模集群訓推穩(wěn)定性。其中,斷點續(xù)訓實現(xiàn)分鐘級發(fā)現(xiàn)、定位、恢復,覆蓋75%的故障場景,支持優(yōu)雅容錯無感恢復,MFU(算力利用率)達業(yè)界領先水平。
在近期公布的2024IOMM數(shù)智化轉型最新評估結果中,天翼云息壤·一站式智算服務平臺在模型管理、模型開發(fā)、模型訓練、模型推理、資源調度、性能等11個能力領域35個測試項中全部通過,以“卓越級”能力通過評估。
人工智能已經成為數(shù)字經濟發(fā)展的新引擎。作為云計算原創(chuàng)技術策源地、數(shù)字中國建設主力軍,天翼云將持續(xù)攻關云計算領域核心技術,不斷迭代升級“息壤”一體化智算服務體系和能力,賦能企業(yè)跑出“AI加速度”,攜手行業(yè)共同推動經濟社會智能化水平邁向新高度。