清華團(tuán)隊“密度法則”登Nature子刊,大模型每百天性能翻倍
2025-11-21
2020年以來,OpenAI提出的Scaling Law推動著大模型快速發(fā)展,其理念是模型參數(shù)和訓(xùn)練數(shù)據(jù)規(guī)模越大,智能能力越強(qiáng)。但到了2025年,這種不斷擴(kuò)增訓(xùn)練開銷的發(fā)展路徑面臨可持續(xù)發(fā)展難題。OpenAI前首席科學(xué)家Ilya Sutskever指出,隨著互聯(lián)網(wǎng)公開語料接近枯竭,大模型預(yù)訓(xùn)練將難以為繼。于是,眾多研究者開始探尋大模型新的發(fā)展方向。
清華大學(xué)研究成果大模型“密度法則”(Densing Law)帶來了新視角。近日,該成果發(fā)表于Nature子刊《自然·機(jī)器智能》(Nature Machine Intelligence),為理解大模型發(fā)展規(guī)律提供了新維度。密度法則顯示,大語言模型的最大能力密度隨時間呈指數(shù)級增長,在2023年2月至2025年4月期間,約每3.5個月翻一倍,這意味著每隔3.5個月,就能用參數(shù)量減半的模型實現(xiàn)當(dāng)前最優(yōu)性能。

論文鏈接:https://www.nature.com/articles/s42256-025-01137-0
回顧計算機(jī)發(fā)展歷程,在摩爾定律的指引下,半導(dǎo)體行業(yè)不斷改進(jìn)制造工藝、提高芯片電路密度,使計算設(shè)備從重達(dá)27噸的ENIAC發(fā)展到僅數(shù)百克的智能手機(jī),實現(xiàn)了算力普惠和信息革命。如今,全球有13億臺個人電腦、70億部智能手機(jī)、180億臺IoT設(shè)備和2000億顆運(yùn)行中的CPU。摩爾定律的關(guān)鍵不是增大芯片尺寸,而是提升電路密度,即單位面積容納更多計算單元。
受此啟發(fā),研究團(tuán)隊提出:可以從“能力密度”角度觀察和理解大模型發(fā)展。如同芯片行業(yè)通過提升電路密度實現(xiàn)計算設(shè)備小型化和普惠化,大模型也能通過提升能力密度實現(xiàn)高效發(fā)展。
研究團(tuán)隊基于一個核心假設(shè):采用相同制造工藝、充分訓(xùn)練的不同尺寸模型,其能力密度相同。在此基礎(chǔ)上,選取基準(zhǔn)模型并設(shè)定其密度為1,作為衡量其他模型能力密度的基線。目標(biāo)模型的能力密度定義為:同能力的基準(zhǔn)模型參數(shù)量與目標(biāo)模型參數(shù)量的比值。

通過對51個近年來發(fā)布的開源大模型系統(tǒng)分析,研究團(tuán)隊發(fā)現(xiàn)大模型的最大能力密度隨時間呈指數(shù)級增長,2023年以來平均每3.5個月翻一倍。這表明,隨著「數(shù)據(jù) - 算力 - 算法」協(xié)同發(fā)展,能用更少參數(shù)實現(xiàn)相同智能水平。

根據(jù)密度定律,研究團(tuán)隊得出了幾個重要推論。
推論1:同能力模型的推理開銷隨時間指數(shù)級下降
一方面,密度法則表明同能力的大模型參數(shù)每3.5個月減半。同時,在推理系統(tǒng)優(yōu)化方面,摩爾定律推動芯片算力不斷增強(qiáng),模型量化、投機(jī)采樣、顯存優(yōu)化等算法技術(shù)也不斷突破,相同推理成本下能運(yùn)行的模型大小持續(xù)提升。實證數(shù)據(jù)顯示,GPT - 3.5級模型API價格在20個月內(nèi)下降266.7倍,約每2.5個月下降一倍。

推論2:大模型能力密度正在加速增強(qiáng)
以MMLU為評測基準(zhǔn)統(tǒng)計顯示,ChatGPT發(fā)布前能力密度每4.8個月翻倍,發(fā)布后每3.2個月翻倍,密度增強(qiáng)速度提升50%。這說明,隨著大模型技術(shù)成熟和開源生態(tài)繁榮,能力密度提升在加速。

推論3:模型壓縮算法并不總能增強(qiáng)模型能力密度
研究團(tuán)隊對比多個模型與其壓縮版本的能力密度,發(fā)現(xiàn)除Gemma - 2 - 9B外,如Llama - 3.2 - 3B/1B、Llama - 3.1 - minitron - 4B等壓縮模型密度都低于原始模型。量化技術(shù)也會降低模型性能和能力密度。這揭示了當(dāng)前模型壓縮技術(shù)的局限:壓縮過程中較小模型訓(xùn)練往往不充分,無法達(dá)到最優(yōu)密度。

推論4:模型小型化揭示端側(cè)智能巨大潛力
芯片電路密度(摩爾定律)和模型能力密度(密度法則)兩條曲線交匯,意味著端側(cè)設(shè)備能運(yùn)行更高性能大模型,邊緣計算和終端智能將迎來爆發(fā)式增長,算力普惠將從云端走向終端。

基于密度法則理論指導(dǎo),清華大學(xué)、面壁智能團(tuán)隊持續(xù)推進(jìn)高密度模型研發(fā),發(fā)布了面壁小鋼炮MiniCPM、MiniCPM - V/o、VoxCPM等一系列端側(cè)高密度模型,憑借高效低成本特性享譽(yù)全球,被評為2024年Hugging Face最多下載、最受歡迎的中國大模型。截至2025年10月,模型下載量接近1500萬次,GitHub星標(biāo)接近3萬次。
本文來自微信公眾號“AI前線”,作者:清華TsinghuaNLP團(tuán)隊,36氪經(jīng)授權(quán)發(fā)布。
清華大學(xué)研究成果大模型“密度法則”(Densing Law)帶來了新視角。近日,該成果發(fā)表于Nature子刊《自然·機(jī)器智能》(Nature Machine Intelligence),為理解大模型發(fā)展規(guī)律提供了新維度。密度法則顯示,大語言模型的最大能力密度隨時間呈指數(shù)級增長,在2023年2月至2025年4月期間,約每3.5個月翻一倍,這意味著每隔3.5個月,就能用參數(shù)量減半的模型實現(xiàn)當(dāng)前最優(yōu)性能。

論文鏈接:https://www.nature.com/articles/s42256-025-01137-0
受“摩爾定律”啟發(fā)的“密度法則”
回顧計算機(jī)發(fā)展歷程,在摩爾定律的指引下,半導(dǎo)體行業(yè)不斷改進(jìn)制造工藝、提高芯片電路密度,使計算設(shè)備從重達(dá)27噸的ENIAC發(fā)展到僅數(shù)百克的智能手機(jī),實現(xiàn)了算力普惠和信息革命。如今,全球有13億臺個人電腦、70億部智能手機(jī)、180億臺IoT設(shè)備和2000億顆運(yùn)行中的CPU。摩爾定律的關(guān)鍵不是增大芯片尺寸,而是提升電路密度,即單位面積容納更多計算單元。
受此啟發(fā),研究團(tuán)隊提出:可以從“能力密度”角度觀察和理解大模型發(fā)展。如同芯片行業(yè)通過提升電路密度實現(xiàn)計算設(shè)備小型化和普惠化,大模型也能通過提升能力密度實現(xiàn)高效發(fā)展。
大模型密度法則:大模型能力密度隨時間呈指數(shù)上升趨勢
研究團(tuán)隊基于一個核心假設(shè):采用相同制造工藝、充分訓(xùn)練的不同尺寸模型,其能力密度相同。在此基礎(chǔ)上,選取基準(zhǔn)模型并設(shè)定其密度為1,作為衡量其他模型能力密度的基線。目標(biāo)模型的能力密度定義為:同能力的基準(zhǔn)模型參數(shù)量與目標(biāo)模型參數(shù)量的比值。

通過對51個近年來發(fā)布的開源大模型系統(tǒng)分析,研究團(tuán)隊發(fā)現(xiàn)大模型的最大能力密度隨時間呈指數(shù)級增長,2023年以來平均每3.5個月翻一倍。這表明,隨著「數(shù)據(jù) - 算力 - 算法」協(xié)同發(fā)展,能用更少參數(shù)實現(xiàn)相同智能水平。

根據(jù)密度定律,研究團(tuán)隊得出了幾個重要推論。
推論1:同能力模型的推理開銷隨時間指數(shù)級下降
一方面,密度法則表明同能力的大模型參數(shù)每3.5個月減半。同時,在推理系統(tǒng)優(yōu)化方面,摩爾定律推動芯片算力不斷增強(qiáng),模型量化、投機(jī)采樣、顯存優(yōu)化等算法技術(shù)也不斷突破,相同推理成本下能運(yùn)行的模型大小持續(xù)提升。實證數(shù)據(jù)顯示,GPT - 3.5級模型API價格在20個月內(nèi)下降266.7倍,約每2.5個月下降一倍。

推論2:大模型能力密度正在加速增強(qiáng)
以MMLU為評測基準(zhǔn)統(tǒng)計顯示,ChatGPT發(fā)布前能力密度每4.8個月翻倍,發(fā)布后每3.2個月翻倍,密度增強(qiáng)速度提升50%。這說明,隨著大模型技術(shù)成熟和開源生態(tài)繁榮,能力密度提升在加速。

推論3:模型壓縮算法并不總能增強(qiáng)模型能力密度
研究團(tuán)隊對比多個模型與其壓縮版本的能力密度,發(fā)現(xiàn)除Gemma - 2 - 9B外,如Llama - 3.2 - 3B/1B、Llama - 3.1 - minitron - 4B等壓縮模型密度都低于原始模型。量化技術(shù)也會降低模型性能和能力密度。這揭示了當(dāng)前模型壓縮技術(shù)的局限:壓縮過程中較小模型訓(xùn)練往往不充分,無法達(dá)到最優(yōu)密度。

推論4:模型小型化揭示端側(cè)智能巨大潛力
芯片電路密度(摩爾定律)和模型能力密度(密度法則)兩條曲線交匯,意味著端側(cè)設(shè)備能運(yùn)行更高性能大模型,邊緣計算和終端智能將迎來爆發(fā)式增長,算力普惠將從云端走向終端。

基于密度法則理論指導(dǎo),清華大學(xué)、面壁智能團(tuán)隊持續(xù)推進(jìn)高密度模型研發(fā),發(fā)布了面壁小鋼炮MiniCPM、MiniCPM - V/o、VoxCPM等一系列端側(cè)高密度模型,憑借高效低成本特性享譽(yù)全球,被評為2024年Hugging Face最多下載、最受歡迎的中國大模型。截至2025年10月,模型下載量接近1500萬次,GitHub星標(biāo)接近3萬次。
本文來自微信公眾號“AI前線”,作者:清華TsinghuaNLP團(tuán)隊,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

