亚洲欧美日韩性爱|一级黄片视频一级黄色片视频|免费三级色情电影|岛国不封黄色网址|久久国产亚洲视频|影音先锋无码中文字幕|日韩一级免费在线|igao网站在线观看|成人久久蜜桃一级a黄片|A片在线观看网址

詳解:本土AI超節(jié)點(diǎn)元腦SD200如何率先實(shí)現(xiàn)token生成速度8.9ms

2025-11-10 11:19 238

北京2025年11月10日 /美通社/ -- 近日,在2025人工智能計(jì)算大會(huì)上,浪潮信息公布,基于元腦SD200超節(jié)點(diǎn)AI服務(wù)器,DeepSeek R1大模型token生成速度僅需8.9毫秒,創(chuàng)造國(guó)內(nèi)大模型最快token生成速度。


元腦SD200創(chuàng)新設(shè)計(jì)滿足低延遲推理需求

智能體時(shí)代的標(biāo)志性特征是多模型協(xié)同與實(shí)時(shí)決策,每個(gè)智能體具備感知-決策-執(zhí)行的閉環(huán)能力,涉及復(fù)雜的、多步驟的工作流,需要任務(wù)分解、自主決策以及持續(xù)的規(guī)劃和執(zhí)行。在智能體推理的過(guò)程中,即使是單個(gè)推理步驟中的延遲也會(huì)在多步驟任務(wù)中被指數(shù)級(jí)放大,導(dǎo)致用戶體驗(yàn)遲滯。因此,token生成速度正成為影響用戶評(píng)價(jià)的一個(gè)關(guān)鍵指標(biāo)。

元腦SD200超節(jié)點(diǎn)AI服務(wù)器基于高帶寬、低延時(shí)、原生內(nèi)存語(yǔ)義的開(kāi)放總線協(xié)議,通過(guò)構(gòu)建高性能交換單元打造3D Mesh高性能互連超擴(kuò)展系統(tǒng),支持64張本土AI芯片高密度算力擴(kuò)展,能夠很好地滿足DeepSeek等大模型的低延遲推理需求,加快token生成速度。


  • 精簡(jiǎn)互連協(xié)議:采用事務(wù)層-數(shù)據(jù)鏈路層-物理層三層精簡(jiǎn)互連協(xié)議,事務(wù)層天然支持Load/Store內(nèi)存語(yǔ)義;數(shù)據(jù)鏈路層支持基于信用的流控機(jī)制和鏈路級(jí)錯(cuò)誤重傳保障;物理層建立10-12低誤碼率的高可靠物理通道,報(bào)文有效數(shù)據(jù)利用率達(dá)成96%以上。
  • 全局統(tǒng)一編址:為解決跨主機(jī)域通信難題,設(shè)計(jì)獨(dú)立于主機(jī)域的交換域全局地址空間,將多個(gè)獨(dú)立主機(jī)域下的GPU在交換域進(jìn)行統(tǒng)一的顯存編址,為GPU互訪提供基礎(chǔ)保障。
  • 全局地址映射與數(shù)據(jù)路由:創(chuàng)新研發(fā)影子設(shè)備技術(shù),通過(guò)影子設(shè)備將遠(yuǎn)端GPU映射到本地主機(jī)域,實(shí)現(xiàn)所有獨(dú)立主機(jī)對(duì)全局GPU的顯存訪問(wèn),通過(guò)端口高效轉(zhuǎn)發(fā)技術(shù)實(shí)現(xiàn)跨主機(jī)P2P訪問(wèn)。


定制通信算法深度適配元腦SD200

除了硬件方面的創(chuàng)新,浪潮信息AI團(tuán)隊(duì)也針對(duì)DeepSeek、Kimi等模型的計(jì)算特征和元腦SD200的硬件架構(gòu)特征,完成了通信庫(kù)、計(jì)算框架層面等多方面的優(yōu)化,充分發(fā)揮了元腦SD200的計(jì)算性能,最終實(shí)現(xiàn)了低延遲推理。同時(shí),也支持預(yù)填充-解碼 (Prefill-Decode) 分離推理,在滿足客戶業(yè)務(wù)場(chǎng)景SLO需求的基礎(chǔ)上提供更高性能。

通信庫(kù)層面,針對(duì)Allreduce、Allgather、Alltoall等典型通信算子,浪潮信息制定了與元腦SD200深度適配的通信算法。例如,對(duì)于Allreduce,為了充分發(fā)揮元腦SD200的低延遲優(yōu)勢(shì),專為Allreduce設(shè)計(jì)了分層算法策略:針對(duì)小數(shù)據(jù)量,采用全量收集,本地規(guī)約的低延遲定制One-Shot算法,旨在最小化GPU間的同步與通信開(kāi)銷;針對(duì)大數(shù)據(jù)量,采用高吞吐的定制化環(huán)形算法,以徹底解決帶寬瓶頸并實(shí)現(xiàn)最優(yōu)帶寬利用率。而對(duì)于模型應(yīng)用中最常見(jiàn)的中等數(shù)據(jù)量,則采用兼顧延遲與帶寬的定制Two-Shot算法。浪潮信息更結(jié)合芯片緩存特性對(duì)此核心場(chǎng)景進(jìn)行了深度優(yōu)化:對(duì)中小數(shù)據(jù)量啟用無(wú)緩存方案以追求極致延遲;對(duì)中大數(shù)據(jù)量則啟用緩存方案,從而最大化吞吐效率。

實(shí)測(cè)數(shù)據(jù)表明,在64 GPU集群上進(jìn)行DeepSeek R1 671B模型的BF16推理時(shí),針對(duì)Batch Size為1的decode階段(其Allreduce數(shù)據(jù)量約為14 KB),優(yōu)化后的算法將通信時(shí)延降低了5.8倍。此外,在16 KB至16 MB這一核心數(shù)據(jù)量區(qū)間內(nèi),定制優(yōu)化算法的通信時(shí)延相較于未優(yōu)化前的實(shí)現(xiàn)降低了1.6至5.8倍;與傳統(tǒng)scale-out系統(tǒng)相比,時(shí)延降低幅度則進(jìn)一步擴(kuò)大至4.5至12.7倍。

全方位框架優(yōu)化保障計(jì)算低延遲

框架層面,浪潮信息AI團(tuán)隊(duì)完成了并行方式、算子融合、多流水線等多方面優(yōu)化,來(lái)保證計(jì)算的低延遲。

首先,在并行方式上,選擇了整網(wǎng)的張量并行。在此并行模式下,通過(guò)模型均勻切分實(shí)現(xiàn)了設(shè)備間計(jì)算負(fù)載的完全均衡、各個(gè)計(jì)算板卡之間計(jì)算的完全并行和同步,消除了流水線氣泡與負(fù)載不均衡問(wèn)題。同時(shí),元腦SD200的高帶寬、低延遲確保了AllReduce、AllGather等通信算子性能的大幅提升,使得通信時(shí)間大幅下降,從而實(shí)現(xiàn)了超低延遲的推理性能。

其次,在算子上,實(shí)現(xiàn)了極致的算子融合等優(yōu)化。GPU的計(jì)算速度遠(yuǎn)遠(yuǎn)超過(guò)了內(nèi)存帶寬的訪問(wèn)速度,從內(nèi)存中讀寫(xiě)數(shù)據(jù)的時(shí)間成本,大部分時(shí)候比實(shí)際進(jìn)行計(jì)算的時(shí)間成本還要高。算子融合可以通過(guò)減少不必要的內(nèi)存讀寫(xiě)和計(jì)算開(kāi)銷,來(lái)顯著提升推理速度、降低延遲并減少內(nèi)存占用,所以基于SGlang框架的已有實(shí)現(xiàn),進(jìn)行了多個(gè)算子的融合。

  • 對(duì)MLA模塊中attn_mla計(jì)算前的算子進(jìn)行融合,該融合算子以Query和Key向量進(jìn)行RMSnorm計(jì)算后的輸出為輸入,以attn_mla計(jì)算的輸入q_input、k_input、v_input等為輸出,包含bmm計(jì)算、rotary_emb計(jì)算以及向量拆分轉(zhuǎn)置等計(jì)算;
  • RMSNorm和add計(jì)算融合;
  • 實(shí)現(xiàn)int8精度的量化和RMSNorm、silu等激活函數(shù)的融合;
  • 將路由專家分組選擇中多個(gè)算子的融合為一個(gè)算子。

最后,也進(jìn)行了多stream的優(yōu)化。多個(gè)算子計(jì)算時(shí),默認(rèn)在單stream模式下,所有操作都排成一條隊(duì),一個(gè)接一個(gè)地執(zhí)行。當(dāng)算子本身的計(jì)算量不是很大時(shí),會(huì)導(dǎo)致GPU的部分硬件單元在計(jì)算時(shí)處于空閑狀態(tài),也就浪費(fèi)了計(jì)算資源。多stream優(yōu)化就是為了讓這些硬件單元"同時(shí)忙起來(lái)",對(duì)于相互之間沒(méi)有依賴關(guān)系的操作,可以放到不同的stream中并行執(zhí)行,提高硬件的利用效率,同時(shí)減小整體的計(jì)算時(shí)間。在多stream并行優(yōu)化方面,浪潮信息實(shí)現(xiàn)了MLA層的多個(gè)layernorm計(jì)算的并行,并實(shí)現(xiàn)了MoE階段和共享專家計(jì)算和路由專家分組選擇的并行等,實(shí)現(xiàn)了約10%的性能提升。

預(yù)填充-解碼分離軟件提高整體計(jì)算性能

此外,浪潮信息開(kāi)發(fā)了預(yù)填充-解碼 (Prefill-Decode) 分離軟件,針對(duì)預(yù)填充與解碼不同的計(jì)算特性,使用不同的并行計(jì)算策略、硬件配置等,提高系統(tǒng)整體的計(jì)算性能。同時(shí)在業(yè)務(wù)部署中,支持節(jié)點(diǎn)服務(wù)的動(dòng)態(tài)擴(kuò)展;支持利用負(fù)載均衡和鍵值緩存(KV cache)命中率進(jìn)行任務(wù)分配,把任務(wù)下發(fā)到鍵值緩存匹配度相對(duì)較高、任務(wù)負(fù)載相對(duì)較小的節(jié)點(diǎn),減少重復(fù)計(jì)算,同時(shí)最大化計(jì)算資源利用率。另外,PD分離軟件還實(shí)現(xiàn)了鍵值緩存offload技術(shù),可把鍵值緩存到CPU端內(nèi)存與分布式存儲(chǔ)系統(tǒng)上,增大緩存空間。


元腦SD200超節(jié)點(diǎn)AI服務(wù)器通過(guò)高帶寬和超低延遲通信、超大顯存池、智能路由優(yōu)化、PD分離推理等創(chuàng)新技術(shù),大幅提升了DeepSeek、Kimi等大模型的推理輸出速度。元腦SD200搭載64張本土AI芯片運(yùn)行DeepSeek R1大模型,當(dāng)輸入長(zhǎng)度為4096、輸出長(zhǎng)度為1024時(shí),單用戶token生成達(dá)到112 tokens/s,每token生成時(shí)間僅為8.9ms,率先實(shí)現(xiàn)國(guó)內(nèi)AI服務(wù)器token生成速度低于10ms,將推動(dòng)萬(wàn)億參數(shù)大模型在金融、科研、智能制造等領(lǐng)域快速落地。

消息來(lái)源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection