91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

具身智能的無(wú)共識(shí):技術(shù)早期的生命力與未來(lái)趨勢(shì)

2025-11-27

在技術(shù)發(fā)展的初期,總有一些人急于尋找唯一正確的路徑,期望通過(guò)一次押注就能撥開迷霧。然而,具身智能的復(fù)雜性正不斷向行業(yè)發(fā)出警示:具身智能并非從單一途徑發(fā)展而來(lái),而是在無(wú)數(shù)次試錯(cuò)、沖突與調(diào)和的過(guò)程中被“雕琢”而成。模型不夠完善、數(shù)據(jù)存在缺失、架構(gòu)尚未統(tǒng)一,這些看似是缺陷的方面,卻恰恰是具身智能最真實(shí)的生命力所在。


在技術(shù)早期,總有人試圖尋找唯一正確的路線,希望通過(guò)一次性押注來(lái)穿越迷霧。但具身智能的復(fù)雜性正在提醒行業(yè),具身智能不是從一條路徑長(zhǎng)出來(lái),而是從無(wú)數(shù)次試錯(cuò)、沖突與調(diào)和中被“雕刻”出來(lái)。模型不完美,數(shù)據(jù)不完整,架構(gòu)不統(tǒng)一,這聽上去像缺陷,卻恰恰是具身智能最真實(shí)的生命力所在。



不出所料,到了2025年末,具身智能依舊保持著高昂的姿態(tài)向前發(fā)展。


更在預(yù)料之中的是,具身智能領(lǐng)域仍然沒有形成共識(shí)。


在2025智源具身OpenDay圓桌論壇上,國(guó)內(nèi)頂尖的具身智能從業(yè)者們展開了一場(chǎng)“各抒己見的真心話”交流。無(wú)論是模型架構(gòu)的選擇,還是數(shù)據(jù)的運(yùn)用,在這場(chǎng)圓桌對(duì)話中都未能達(dá)成統(tǒng)一的發(fā)展方向。一時(shí)間,不少人對(duì)具身智能領(lǐng)域仍無(wú)共識(shí)這件事感到遺憾。


但具身研習(xí)社認(rèn)為,“無(wú)共識(shí)”的另一層含義是具身智能依然值得期待,技術(shù)還會(huì)在不經(jīng)意間帶來(lái)驚喜。畢竟,當(dāng)發(fā)展方向有了明確的風(fēng)向,反而會(huì)顯得有些無(wú)趣。當(dāng)我們不再追求“確定性”時(shí),其實(shí)能夠發(fā)現(xiàn)一些趨勢(shì)?;蛟S“無(wú)共識(shí)”本身就是一種共識(shí)。



從產(chǎn)業(yè)的角度來(lái)看,共識(shí)的缺失具有三重積極意義:


其一,無(wú)共識(shí)本質(zhì)上打破了單一技術(shù)路線的壟斷話語(yǔ)權(quán),避免行業(yè)陷入“路徑依賴”的創(chuàng)新陷阱。在具身智能領(lǐng)域,從“分層架構(gòu)與端到端”的技術(shù)路線分歧,到“通用人形機(jī)器人與場(chǎng)景化具身智能”的落地選擇,無(wú)共識(shí)的狀態(tài)讓不同技術(shù)理念、不同學(xué)科背景的團(tuán)隊(duì)獲得了平等試錯(cuò)的空間;


其二,成熟行業(yè)的共識(shí)往往伴隨著較高的準(zhǔn)入壁壘,而具身智能的“無(wú)共識(shí)”狀態(tài),為中小企業(yè)、初創(chuàng)團(tuán)隊(duì)乃至跨界參與者提供了彎道超車的機(jī)會(huì)。新入局者無(wú)需遵循已有的技術(shù)標(biāo)準(zhǔn)或商業(yè)規(guī)則,可憑借差異化優(yōu)勢(shì)進(jìn)入賽道。


其三,具身智能作為交叉學(xué)科領(lǐng)域,其技術(shù)基礎(chǔ)仍在快速迭代,過(guò)早形成共識(shí)反而可能固化技術(shù)路徑,限制行業(yè)向更高維度突破。無(wú)共識(shí)狀態(tài)的核心價(jià)值,在于為技術(shù)迭代預(yù)留了“彈性空間”。


在智源具身OpenDay圓桌論壇上,關(guān)于“無(wú)共識(shí)”的討論眾多,也折射出了更多的可能性。具身研習(xí)社基于在場(chǎng)嘉賓的回答,洞察出具身智能的五大信號(hào),未來(lái)的發(fā)展方向或許就隱藏在這些信號(hào)之中。


模型有待完善,部分從業(yè)者尋求新方向


信號(hào)1:世界模型暫時(shí)難以擔(dān)當(dāng)重任

在具身智能的模型討論中,“熱門”的世界模型是一個(gè)繞不開的話題。


它的核心價(jià)值在于“預(yù)測(cè)”。讓機(jī)器人像人類一樣,根據(jù)當(dāng)前的時(shí)空狀態(tài)預(yù)判下一步的變化,進(jìn)而規(guī)劃動(dòng)作,這一點(diǎn)得到了圓桌嘉賓的普遍認(rèn)可。北京大學(xué)助理教授、銀河通用創(chuàng)始人王鶴以機(jī)器人運(yùn)控為例,指出無(wú)論是人形機(jī)器人的足式行走、跳舞,還是靈巧手的精細(xì)操作,其底層控制邏輯都需要對(duì)物理交互的預(yù)測(cè)能力,而世界模型恰好能提供這種支撐,但要讓世界模型真正服務(wù)于機(jī)器人,其訓(xùn)練數(shù)據(jù)中必須包含更多機(jī)器人本身的數(shù)據(jù)。


但世界模型的短板同樣明顯,難以單獨(dú)成為具身智能的“萬(wàn)能方案”。王鶴強(qiáng)調(diào),當(dāng)前很多世界模型依賴人類行為視頻訓(xùn)練,可機(jī)器人的身體結(jié)構(gòu)(如輪式底盤、多自由度機(jī)械臂)與人類差異巨大,這些數(shù)據(jù)對(duì)機(jī)器人實(shí)際操作的幫助有限。加速進(jìn)化創(chuàng)始人兼CEO程昊也提到,在做飯、復(fù)雜裝配等真實(shí)場(chǎng)景中,世界模型的預(yù)測(cè)精度仍不足,只能先通過(guò)分層模型解決簡(jiǎn)單任務(wù),再逐步迭代升級(jí)。


信號(hào)2:模型需“另辟蹊徑”

既然現(xiàn)有模型難以滿足需求,“打造具身專屬模型”成為不少企業(yè)的共識(shí)。


清華大學(xué)交叉信息學(xué)院助理教授、星海圖CTO趙行表示,具身智能需要平行于大語(yǔ)言模型的“Large Action Model”,這類模型要以“動(dòng)作”為核心,而非語(yǔ)言。他解釋道,人類智能的進(jìn)化是“先有動(dòng)作、再有視覺、最后有語(yǔ)言”,機(jī)器人要適應(yīng)物理世界,也應(yīng)該遵循類似邏輯——比如開車時(shí),人類靠視覺觀察路況、靠動(dòng)作操控方向盤,語(yǔ)言并未參與核心操作,具身模型也應(yīng)優(yōu)先打通“視覺 - 動(dòng)作”的閉環(huán)。


自變量創(chuàng)始人兼CEO王潛的觀點(diǎn)更為具體,他認(rèn)為具身智能需要一套“物理世界基礎(chǔ)模型”,既能控制機(jī)器人動(dòng)作,又能作為世界模型預(yù)測(cè)物理規(guī)律。虛擬世界的多模態(tài)模型靠文字、圖片訓(xùn)練,但物理世界的摩擦、碰撞、力反饋等精細(xì)過(guò)程,卻是無(wú)法用語(yǔ)言準(zhǔn)確描述的。當(dāng)一個(gè)機(jī)器人抓取雞蛋時(shí),它需要感知蛋殼的脆弱度、調(diào)整握力,這種對(duì)物理屬性的理解,必須依賴專門針對(duì)物理世界訓(xùn)練的模型。


信號(hào)3:從底層架構(gòu)開始革新

過(guò)去幾年,Transformer架構(gòu)憑借跨模態(tài)處理能力,支撐了ChatGPT等大語(yǔ)言模型的爆發(fā),但在具身智能領(lǐng)域,它的適用性正受到質(zhì)疑。招商局集團(tuán)AI首席科學(xué)家張家興是這一觀點(diǎn)的代表,他直言“具身智能不能走LLM到VLM的老路”。


在他看來(lái),Transformer架構(gòu)是以語(yǔ)言為核心,將視覺、動(dòng)作等模態(tài)向語(yǔ)言映射,這與物理世界的操作邏輯相?!祟愖鰟?dòng)作時(shí),視覺感知直接指導(dǎo)肌肉運(yùn)動(dòng),無(wú)需經(jīng)過(guò)語(yǔ)言“翻譯”。他透露,硅谷頭部團(tuán)隊(duì)已在探索“Vision First”或“Vision Action First”的新架構(gòu),讓視覺和動(dòng)作直接交互,減少語(yǔ)言中介的損耗。


王鶴也補(bǔ)充道,Transformer作為一個(gè)跨模態(tài)的Attention機(jī)制,是很通用的。比如你會(huì)發(fā)現(xiàn)它可以處理文本模態(tài)、視頻模態(tài)、聲音模態(tài)等。但“如今具身智能的問(wèn)題在于,人類有眼、耳、口、鼻、舌等多種感知器官,雖然從Attention的角度,把這些感知器官Token化以后都能放到Transformer里,但是它在輸出上似乎不是那么理想,根本挑戰(zhàn)是數(shù)據(jù)問(wèn)題以及與之對(duì)應(yīng)的學(xué)習(xí)范式”。


王鶴提出,短期來(lái)看,仿真模擬與合成數(shù)據(jù)是突破探索速度的核心手段;長(zhǎng)期來(lái)看,現(xiàn)實(shí)世界中人形機(jī)器人的規(guī)模必須持續(xù)快速擴(kuò)張,只有足夠大的“機(jī)器人人口”與能力提升相互推動(dòng),才能催生真正強(qiáng)大的具身大模型。


這種底層架構(gòu)的不匹配,讓行業(yè)意識(shí)到:要實(shí)現(xiàn)具身智能的突破,或許需要從架構(gòu)根源上進(jìn)行革新,而非在現(xiàn)有框架內(nèi)進(jìn)行修補(bǔ)。


數(shù)據(jù)仍是關(guān)鍵問(wèn)題,且需求持續(xù)增長(zhǎng)


信號(hào)4:沒有完美數(shù)據(jù),只有適配選擇

“數(shù)據(jù)是具身智能的燃料”,這是圓桌論壇的共識(shí),但“用什么數(shù)據(jù)”卻沒有統(tǒng)一答案。由于不同數(shù)據(jù)類型各有優(yōu)劣,企業(yè)普遍采取“多源融合、按需選擇”的策略,根據(jù)任務(wù)場(chǎng)景匹配最合適的數(shù)據(jù)來(lái)源。真機(jī)數(shù)據(jù)是最“保真”的選擇,能直接反映真實(shí)物理世界的交互規(guī)律,因此成為精細(xì)操作場(chǎng)景的首選。趙行所在的星海圖團(tuán)隊(duì),就堅(jiān)持深入真實(shí)場(chǎng)景采集數(shù)據(jù),他們把真實(shí)性、質(zhì)量看作真實(shí)機(jī)器人數(shù)據(jù)采集的起點(diǎn)。智元機(jī)器人合伙人、首席科學(xué)家羅劍嵐也強(qiáng)調(diào),智元機(jī)器人也堅(jiān)持真實(shí)數(shù)據(jù),并且在數(shù)據(jù)采集中堅(jiān)持真實(shí)場(chǎng)景而非單靠數(shù)據(jù)采集工廠,摸索一條通過(guò)機(jī)器人自主產(chǎn)生數(shù)據(jù),構(gòu)建起數(shù)據(jù)飛輪的道路。而仿真數(shù)據(jù)則憑借“低成本、可規(guī)?;钡膬?yōu)勢(shì),成為底層控制訓(xùn)練的主力。王鶴認(rèn)為,在強(qiáng)化學(xué)習(xí)中,很多極端場(chǎng)景(如機(jī)器人摔倒、機(jī)械臂過(guò)載)難以在真機(jī)上反復(fù)測(cè)試,而仿真器可以快速生成大量類似數(shù)據(jù),幫助模型學(xué)習(xí)應(yīng)對(duì)策略。在他看來(lái),模擬器并不是對(duì)真實(shí)世界的否定,而是以模擬器為起點(diǎn),它能夠給具身企業(yè)一個(gè)很好的Base Controller,讓我們能在真實(shí)世界里把數(shù)據(jù)飛輪轉(zhuǎn)起來(lái)。


程昊的加速進(jìn)化團(tuán)隊(duì)也采取類似策略,先用仿真數(shù)據(jù)讓機(jī)器人掌握基本運(yùn)控能力,再用真機(jī)數(shù)據(jù)微調(diào)適配真實(shí)場(chǎng)景?!拔覀冇梅抡鏀?shù)據(jù)訓(xùn)練的一個(gè)目標(biāo),是讓機(jī)器人接下來(lái)能獲得更多真實(shí)數(shù)據(jù),有了真實(shí)數(shù)據(jù),整體能力才能再提升?!痹诔剃豢磥?lái)這很可能是一個(gè)螺旋上升的過(guò)程。


視頻數(shù)據(jù)則成為基座模型訓(xùn)練的重要補(bǔ)充。智源研究院院長(zhǎng)王仲遠(yuǎn)認(rèn)為“視頻數(shù)據(jù)訓(xùn)練基座模型”這一套邏輯其實(shí)跟現(xiàn)在小朋友刷手機(jī)來(lái)認(rèn)識(shí)世界是一個(gè)原理——先通過(guò)視頻學(xué)習(xí)到這個(gè)世界,再通過(guò)真實(shí)的交互體驗(yàn)來(lái)提升他們的技能。這些視頻數(shù)據(jù)包含時(shí)空、因果、意圖等多維度信息,且能大規(guī)模獲取,是當(dāng)前缺乏海量真機(jī)數(shù)據(jù)時(shí)的“折中最優(yōu)解”。但在具身研習(xí)社追問(wèn)“從視頻中學(xué)習(xí)如何解決觸覺跟力控精細(xì)化數(shù)據(jù)?”時(shí),王仲遠(yuǎn)也承認(rèn),視頻中確實(shí)缺乏力反饋、觸覺等信息,但這并不影響其價(jià)值?,F(xiàn)在智源研究院具身智能實(shí)驗(yàn)室里也備有帶力反饋數(shù)據(jù)的采集設(shè)備。視頻數(shù)據(jù)更多用于“打基礎(chǔ)”,還需結(jié)合其他數(shù)據(jù)做針對(duì)性優(yōu)化、微調(diào)。


信號(hào)5:“數(shù)量”“質(zhì)量”“種類”,具身企業(yè)全方位需求數(shù)據(jù)

隨著具身智能向復(fù)雜場(chǎng)景滲透,行業(yè)對(duì)數(shù)據(jù)的需求正不斷升級(jí),不僅“量”要大,“質(zhì)”要高,“種類”也要更豐富,形成了越來(lái)越大的“數(shù)據(jù)胃口”。


首先是對(duì)“量”的渴求,“互聯(lián)網(wǎng)級(jí)別”數(shù)據(jù)成為行業(yè)共同的期待。如趙行認(rèn)為,數(shù)據(jù)的規(guī)?;?,能夠反向驅(qū)動(dòng)模型的進(jìn)化和智能的實(shí)現(xiàn)。王仲遠(yuǎn)也表示“更好的具身大模型,可能要等大量機(jī)器人在真實(shí)場(chǎng)景中解決具體問(wèn)題、累積出‘具身智能互聯(lián)網(wǎng)’級(jí)別的數(shù)據(jù)之后,才會(huì)出現(xiàn)”。換句話說(shuō),沒有足夠的數(shù)據(jù),模型就像沒吃飽的孩子,跑不快也長(zhǎng)不壯。


當(dāng)業(yè)內(nèi)為Generalist構(gòu)建的27萬(wàn)小時(shí)真機(jī)數(shù)據(jù)集,疑似觸碰到所謂規(guī)?;▌t而歡呼時(shí),王仲遠(yuǎn)對(duì)具身研習(xí)社坦言,“幾十萬(wàn)小時(shí)的數(shù)據(jù)依然不能叫海量數(shù)據(jù),還遠(yuǎn)沒到ChatGPT時(shí)刻”。



在“量”之外,是對(duì)“質(zhì)”的追求,“高質(zhì)量數(shù)據(jù)比海量低質(zhì)數(shù)據(jù)更有價(jià)值”的觀點(diǎn)逐漸成為主流。王潛認(rèn)為,數(shù)據(jù)雖然很重要,但不是簡(jiǎn)單的“越多越好”。


事實(shí)上,語(yǔ)言模型已經(jīng)驗(yàn)證過(guò),單純堆數(shù)據(jù)規(guī)模未必帶來(lái)最好效果,高質(zhì)量、高效率的數(shù)據(jù)才是決定性因素。他認(rèn)為在具身場(chǎng)景里,數(shù)據(jù)質(zhì)量比數(shù)據(jù)總量更能拉開一個(gè)量級(jí)上的差距。在這里,站在金字塔頂尖的真機(jī)數(shù)據(jù)或許可以少,但很可能是打地基的那一層或者說(shuō)是針對(duì)仿真、視頻數(shù)據(jù)之外,支撐大局的存在。


最后是對(duì)“種類”的豐富需求,多模態(tài)數(shù)據(jù)的需求日益迫切。隨著機(jī)器人應(yīng)用場(chǎng)景擴(kuò)展,單一類型的數(shù)據(jù)已無(wú)法滿足需求。比如在家庭服務(wù)場(chǎng)景中,機(jī)器人需要同時(shí)處理視覺(識(shí)別物體)、聽覺(理解指令)、觸覺(感知物體軟硬)、力反饋(控制動(dòng)作力度)等多維度信息。當(dāng)前業(yè)內(nèi)所說(shuō)的多模態(tài)能力,多是承襲基座大模型的視覺、語(yǔ)言能力,在真正物理交互中的觸覺、力反饋等模態(tài)少之又少。


這種對(duì)數(shù)據(jù)種類的豐富需求,也讓行業(yè)意識(shí)到:未來(lái)的數(shù)據(jù)采集,不僅要記錄“機(jī)器人做了什么”,還要記錄“環(huán)境發(fā)生了什么”“交互有何反饋”“人類需要什么”,才能讓模型更懂物理世界、更懂人類需求。在技術(shù)的早期,總有人試圖尋找唯一正確的路線,希望通過(guò)一次性押注來(lái)穿越迷霧。但具身智能的復(fù)雜性正在提醒行業(yè):真正的智能不是從一條路徑長(zhǎng)出來(lái),而是從無(wú)數(shù)次試錯(cuò)、沖突與調(diào)和中被“雕刻”出來(lái)。模型不完美,數(shù)據(jù)不完整,架構(gòu)不統(tǒng)一,這聽上去像缺陷,卻恰恰是具身智能最真實(shí)的生命力所在。


本文來(lái)自微信公眾號(hào)“具身研習(xí)社”,作者:彭堃方,編輯:呂鑫燚,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com