【消費(fèi)電子實(shí)驗(yàn)室-2025/8/11】據(jù)《科創(chuàng)板日?qǐng)?bào)》報(bào)道,華為將于 8 月 12 日在 2025 金融 AI 推理應(yīng)用落地與發(fā)展論壇上,發(fā)布 AI 推理領(lǐng)域的突破性技術(shù)成果。據(jù)透露,這項(xiàng)成果或能降低中國(guó) AI 推理對(duì) HBM(高帶寬內(nèi)存)技術(shù)的依賴,提升國(guó)內(nèi) AI 大模型推理性能,完善中國(guó) AI 推理生態(tài)的關(guān)鍵部分。 消費(fèi)電子實(shí)驗(yàn)室注意到,華為在 AI 推理領(lǐng)域的技術(shù)突破已有先例。2025 年 3 月,北京大學(xué)聯(lián)合華為發(fā)布了 DeepSeek 全棧開源推理方案,該方案基于北大自研 SCOW 算力平臺(tái)系統(tǒng)和鶴思調(diào)度系統(tǒng),整合了 DeepSeek、openEuler、MindSpore 與 vLLM / RAY 等社區(qū)開源組件,實(shí)現(xiàn)了華為昇騰上的 DeepSeek 高效推理。 在性能方面,華為昇騰已實(shí)現(xiàn)多項(xiàng)突破。例如 CloudMatrix 384 超節(jié)點(diǎn)部署 DeepSeek V3 / R1 時(shí),在 50ms 時(shí)延約束下單卡 Decode 吞吐突破 1920 Tokens / s;Atlas 800I A2 推理服務(wù)器在 100ms 時(shí)延約束下單卡吞吐達(dá)到 808 Tokens / s。 科大訊飛與華為的合作也取得了顯著成果,雙方率先實(shí)現(xiàn)了國(guó)產(chǎn)算力上 MoE 模型的大規(guī)模跨節(jié)點(diǎn)專家并行集群推理,使推理吞吐提升 3.2 倍,端到端時(shí)延降低 50%。 |
合作伙伴
網(wǎng)站介紹 廣告業(yè)務(wù) 歡迎投稿 招聘信息 聯(lián)系我們 友情鏈接 法律顧問 網(wǎng)站地圖
CopyRight 2012消費(fèi)電子實(shí)驗(yàn)室 版權(quán)所有 京ICP備12048044號(hào)-4號(hào)
電話:13701384402 郵編:100040 郵箱:[email protected]