云天勵(lì)飛公布大算力芯片戰(zhàn)略：目標(biāo)把百萬(wàn) Tokens 推理成本降低 100 倍以上

2026-02-05 來(lái)源：云天勵(lì)飛

161

2月3日，云天勵(lì)飛正式舉辦“大算力芯片戰(zhàn)略前瞻會(huì)”，首次對(duì)外公布未來(lái)三年的大算力 AI 推理芯片戰(zhàn)略布局。

會(huì)上，云天勵(lì)飛提出“訓(xùn)練追趕、推理超車”的戰(zhàn)略方向，并發(fā)布了基于“PD 分離”思路的芯片路線圖：力爭(zhēng)實(shí)現(xiàn)百萬(wàn) Tokens 推理成本降低 100 倍以上的目標(biāo)，推動(dòng) AI 從技術(shù)嘗鮮走向普惠生產(chǎn)力。

云天勵(lì)飛董事長(zhǎng)兼CEO陳寧博士發(fā)表演講

戰(zhàn)略方向：訓(xùn)練追趕，推理超車

云天勵(lì)飛董事長(zhǎng)兼 CEO 陳寧博士在會(huì)上指出，訓(xùn)練芯片與推理芯片在算力需求上存在顯著差異。訓(xùn)練芯片更側(cè)重“絕對(duì)值”，對(duì)算力規(guī)模、帶寬能力以及科學(xué)計(jì)算的復(fù)雜精度要求更高，且對(duì)成本相對(duì)不敏感；推理芯片的核心考量則在于成本、效率與市場(chǎng)經(jīng)濟(jì)學(xué)，關(guān)鍵在于每一個(gè) Token 背后的邊際成本與整體性價(jià)比。

陳寧表示，公司致力于持續(xù)降低百萬(wàn) Token 的成本，目標(biāo)是通過(guò)下一代芯片實(shí)現(xiàn)“百萬(wàn) Tokens 一分錢(qián)”。未來(lái)三年，公司希望將成本進(jìn)一步降至“百萬(wàn) Tokens 0.1分錢(qián)”，以加速大模型應(yīng)用的規(guī)模化落地。

對(duì)于未來(lái)五年的中國(guó)芯片產(chǎn)業(yè)發(fā)展，陳寧提出“訓(xùn)練追趕、推理超車”的策略：在訓(xùn)練芯片領(lǐng)域，目標(biāo)是持續(xù)追趕，盡量保持差距不被拉大；而在推理芯片領(lǐng)域，依托中國(guó)豐富的應(yīng)用場(chǎng)景、強(qiáng)大的基礎(chǔ)設(shè)施能力以及開(kāi)源模型生態(tài)，有機(jī)會(huì)實(shí)現(xiàn)突破與超車。

云天勵(lì)飛董事長(zhǎng)兼CEO陳寧博士發(fā)表演講

基于“PD 分離”架構(gòu)，三年規(guī)劃三代芯片

針對(duì)大模型時(shí)代云推理場(chǎng)景的需求，云天勵(lì)飛 CTO 李愛(ài)軍在會(huì)上介紹了公司的技術(shù)解構(gòu)與路線圖。

他表示，云天勵(lì)飛將全力投入云推理場(chǎng)景的大算力芯片研發(fā)，基于對(duì)大模型推理計(jì)算特征的理解，按照“PD 分離”的系統(tǒng)架構(gòu)規(guī)劃兩類大算力芯片：

P 芯片（Prefill）：面向計(jì)算密集型需求設(shè)計(jì)，滿足 Prefill 階段的高算力要求；
D 芯片（Decode）：面向訪存密集型需求設(shè)計(jì)，滿足 Decode 階段的高帶寬需求。

李愛(ài)軍介紹，公司在芯片微架構(gòu)層面針對(duì) Attention 及 AFN 等計(jì)算特點(diǎn)進(jìn)行細(xì)粒度分析，并在底層實(shí)現(xiàn)針對(duì)性優(yōu)化。在一個(gè)包含 1024 顆芯片的超節(jié)點(diǎn)內(nèi)，P 芯片與 D 芯片可實(shí)現(xiàn)有效組合，以滿足大模型云推理的集群化部署需求。

云天勵(lì)飛CTO李愛(ài)軍介紹公司芯片產(chǎn)品規(guī)劃

未來(lái)三年，云天勵(lì)飛規(guī)劃了三代芯片產(chǎn)品：

今年（第一年）：打造第一代超節(jié)點(diǎn) P 芯片，面向百萬(wàn)級(jí)長(zhǎng)上下文場(chǎng)景進(jìn)行 Prefill 推理優(yōu)化，算力水平對(duì)標(biāo) Hopper 架構(gòu)；
明年（第二年）：研發(fā)第一代超節(jié)點(diǎn) D 芯片，聚焦 Decode 推理的低時(shí)延目標(biāo)，算力水平對(duì)標(biāo) Blackwell 架構(gòu)；
2028 年（第三年）：推出第二代超節(jié)點(diǎn) D 芯片，面向毫秒級(jí)推理時(shí)延目標(biāo)進(jìn)一步優(yōu)化，帶動(dòng) Prefill 與 Decode 性能提升，算力層面有望看齊下一代 Rubin 芯片。

云天勵(lì)飛高級(jí)副總裁、CFO兼董秘鄧浩然介紹公司資本、人才與產(chǎn)能情況

GPNPU 架構(gòu)的四大技術(shù)亮點(diǎn)

李愛(ài)軍表示，上述路線圖的核心支撐是云天勵(lì)飛的 GPNPU 架構(gòu)。GPNPU 不僅是處理器架構(gòu)，也體現(xiàn)了對(duì)大模型推理系統(tǒng)架構(gòu)的整體理解，其主要技術(shù)亮點(diǎn)包括四個(gè)方面：

GPGPU 級(jí)通用編程能力（CUDA 兼容）：面向國(guó)內(nèi)芯片“易用性”痛點(diǎn)，GPNPU 架構(gòu)強(qiáng)調(diào)對(duì)主流 CUDA 等生態(tài)的兼容與遷移支持，以降低客戶模型部署與遷移門(mén)檻；
極致能效的 NPU 內(nèi)核：圍繞推理效率與能效比進(jìn)行深度優(yōu)化，提升推理側(cè)性價(jià)比；
引入 3D Memory 結(jié)構(gòu)：采用 3D Memory 結(jié)構(gòu)，以獲得更高帶寬與更低訪問(wèn)時(shí)延，提升推理效率；
算力積木架構(gòu)：公司延續(xù)過(guò)去五年在國(guó)產(chǎn)工藝上的探索，以“算力積木”架構(gòu)定義下一代芯片的 Scale-up 超節(jié)點(diǎn)，以滿足萬(wàn)億級(jí)乃至十萬(wàn)億級(jí) MoE 架構(gòu)大模型的推理需求。

推理時(shí)代的競(jìng)爭(zhēng)，本質(zhì)是“單位推理成本”的競(jìng)爭(zhēng)。只有把推理做得足夠便宜、足夠穩(wěn)定、足夠易用，AI 才能從“看得見(jiàn)的能力”走向“用得起的生產(chǎn)力”。

未來(lái)，云天勵(lì)飛將以 GPNPU 架構(gòu)為核心，大力推進(jìn)云端大算力芯片，強(qiáng)化軟硬協(xié)同與存儲(chǔ)體系攻堅(jiān)，力爭(zhēng)將百萬(wàn) Tokens 推理成本降低 100 倍以上，推動(dòng)大模型從示范應(yīng)用走向規(guī)模化交付。

相關(guān)文章

行業(yè)動(dòng)態(tài)

炒作退潮+需求疲軟，DDR4高價(jià)難續(xù)，降價(jià)窗口期已至

英偉達(dá)CoWoP供應(yīng)鏈動(dòng)起來(lái) 最快Q2進(jìn)入試產(chǎn)

超百億功率半導(dǎo)體項(xiàng)目簽約落地廣州，春節(jié)后開(kāi)工

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級(jí)促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會(huì)

一圖讀懂2020年《政府工作報(bào)告》

工業(yè)富聯(lián)：擬7763萬(wàn)美元收購(gòu)鴻海精密美國(guó)子公司相關(guān)資產(chǎn)