91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

無需逐字生成,螞蟻趙俊博:擴散模型可直接修改Token,團隊開源千億級dLLM

2025-12-13

當主流大語言模型仍依賴自回歸架構時,螞蟻集團資深技術專家趙俊博及其團隊已將目光投向擴散架構。在量子位MEET2026智能未來大會上,趙俊博指出,擴散架構在推理時能直接修改和控制token,無需像自回歸模型那樣重新生成整段內容,理論上可實現(xiàn)更快生成速度與更低計算成本?;诖?,團隊聚焦擴散語言模型的Scaling Law探索,并近期發(fā)布開源了千億體量的LLaDA 2.0。趙俊博坦言該領域訓推仍處早期,但發(fā)展迅猛,谷歌、字節(jié)等巨頭及初創(chuàng)公司已積極布局。


編者注:MEET2026大會結束后,趙俊博團隊發(fā)布技術報告《LLaDA2.0: Scaling Up Diffusion Language Models to 100B》,報告鏈接(github):https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf



以下為趙俊博演講核心內容整理:


核心觀點梳理


  • 生成模型本質是擬合數(shù)據(jù)分布,自回歸模型將其拆解為單向條件概率,但這并非唯一路徑。
  • 開源模型LLaDA采用擴散架構,在不考慮MoE時,相同計算量和性能目標下,參數(shù)規(guī)??杀茸曰貧w模型更小。
  • 擴散架構推理時可直接修改token,無需重新生成整段內容。
  • 計算受限下,LLaDA的“完形填空”式預測更“data-hungry”,數(shù)據(jù)需求更大、吸收更快。
  • LLaDA與自回歸模型Scaling Law存在差異,已驗證可擴展至千億規(guī)模,但繼續(xù)擴展面臨新挑戰(zhàn)。


押注擴散語言模型的Scaling Law


當前主流大語言模型多基于自回歸架構,而團隊開源的新模型架構完全不同。擴散機制在圖像/視頻模型中已廣泛應用,如Midjourney、Sora等,核心是加噪再去噪。自回歸模型是“做接龍”,給定前N個詞預測第N+1個;擴散語言模型則是“做完形填空”,遮蓋部分詞后讓模型恢復。


團隊重點探索擴散語言模型的Scaling Law,原因在于:其一,計算受限下,擴散模型更“data-hungry”,能更快吸收數(shù)據(jù);其二,相同dense結構下,擴散模型參數(shù)可更??;其三,擴散模型可一直訓練,效果持續(xù)提升,而自回歸模型訓練到一定epoch后效果不再變動;其四,擴散模型支持可編輯可控生成,推理時能直接修改token,無需整段重來,解決了自回歸模型推理側token效率不高的問題。






發(fā)布并開源千億規(guī)模dLLM


團隊在擴散語言模型研發(fā)中解決了注意力掩碼適配問題,模型同時存在全局Attention(捕捉長程依賴)和Causal Attention(維持自回歸約束)兩種模式,還處理了隨機長度序列、集成幾何加權方法、實現(xiàn)長序列切分注意力等。開源了首個面向擴散語言模型的訓練框架,支持SFT與DPO。


LLaDA發(fā)展脈絡:人大團隊開源LLaDA 1.0,8B版本對標LLaMA-3-8B;螞蟻聯(lián)合多校團隊接過后,發(fā)布全球首個原生MoE架構擴散語言模型LLaDA-MoE(總參數(shù)7B,激活參數(shù)1B);近期發(fā)布LLaDA 2.0,率先將擴散語言模型做到千億體量。該模型在調用、寫代碼任務上有明顯優(yōu)勢,解碼軌跡獨特,接下來將聯(lián)合ZenMux放出部分API。




dLLM的訓練推理仍處于早期發(fā)展階段


團隊10月發(fā)布試驗性推理引擎dInfer,希望通過新架構與范式提升關鍵場景TPS。目前dLLM訓推生態(tài)剛起步,與自回歸模型Scaling Law有很大區(qū)別,繼續(xù)擴展面臨新挑戰(zhàn),但團隊會持續(xù)探索,也希望社區(qū)共同共建。

本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com