WildVideo基準:系統(tǒng)性評測多模態(tài)模型視頻問答幻覺問題

新智元報道
【導讀】WildVideo基準聚焦多模態(tài)模型視頻問答中的「幻覺」難題,首次系統(tǒng)劃分9類幻覺任務(wù),打造了覆蓋雙重視角、支持中英雙語的大規(guī)模優(yōu)質(zhì)視頻對話數(shù)據(jù)集,采用多輪開放問答形式,貼合真實交互場景,全方位評估模型能力。
近年來,大模型在多模態(tài)理解領(lǐng)域進步明顯,已能處理開放世界里的圖文乃至視頻內(nèi)容。
不過,「幻覺」這一普遍且嚴重的問題始終限制著其實際應用。
特別是在動態(tài)、連續(xù)的視覺場景中,模型可能生成與視頻內(nèi)容矛盾、違背常識或多輪對話前后不一致的回答。
當前主流評測基準多集中于單輪、單視角、選擇題型,難以真實體現(xiàn)模型在開放、連續(xù)、交互式對話場景中的能力與不足。這種評測體系的局限,阻礙了我們對模型實際應用表現(xiàn)的理解與優(yōu)化。
為填補這一空白,國防科技大學與中山大學的研究團隊推出WildVideo,這是一個面向真實世界視頻-語言交互的系統(tǒng)性多輪開放問答評測基準。

論文地址:https://ieeexplore.ieee.org/document/11097075
項目主頁:https://chandler172857.github.io/WildVideo-leaderboard/
Github:https://github.com/yangsongyuan18/WildVideo
數(shù)據(jù)集:https://huggingface.co/datasets/yangsongyuan18/wildvideo
該研究首次從感知、認知與上下文理解三個層面系統(tǒng)定義了9類幻覺任務(wù),構(gòu)建了包含雙重視角、支持中英雙語的大規(guī)模高質(zhì)量視頻對話數(shù)據(jù)集,采用多輪開放問答形式,貼近真實交互場景,全面評估模型能力,且已被TPAMI 2025正式接收。
WildVideo的設(shè)計思路與核心價值
貼近真實交互的評測框架WildVideo的設(shè)計完全圍繞「真實世界應用」展開,拋棄了傳統(tǒng)的單選/判斷題形式,采用開放問答,模擬真實對話中無預設(shè)選項的場景。
更關(guān)鍵的是,它引入多輪對話評測(最多5輪),要求模型具備連貫的上下文理解、信息關(guān)聯(lián)與指代消解能力,這是此前視頻評測中常缺失的部分。
細粒度、多維度的幻覺分類體系研究團隊將模型在視頻任務(wù)中可能出現(xiàn)的幻覺系統(tǒng)歸納為三大類、九小項:
感知幻覺:涵蓋靜態(tài)(物體屬性識別)和動態(tài)(動作理解、視覺定位、跨幀一致性)兩個維度,檢驗模型對視頻內(nèi)容的基礎(chǔ)理解是否準確、穩(wěn)定。
認知幻覺:分為常識認知(因果關(guān)系、跨模態(tài)指代)和世界知識認知,要求模型不僅能「看到」,還要基于常識和外部知識進行合理推斷。
上下文理解幻覺:專為多輪對話設(shè)計,包括上下文省略(理解對話中的省略信息)和跨輪檢索(關(guān)聯(lián)歷史對話中的關(guān)鍵信息),直接評估模型在連續(xù)對話中的核心能力。

豐富、高質(zhì)量的數(shù)據(jù)集
基準包含1318段視頻,既有來自Charades-EGO數(shù)據(jù)集的874段記錄日常人類活動的第一人稱與第三人稱配對視頻,模擬不同人類觀察視角;還引入444段涵蓋全球事件與文化現(xiàn)象的YouTube視頻,豐富世界知識背景。
數(shù)據(jù)集最終有13704個單輪問答對與1585個多輪對話。數(shù)據(jù)構(gòu)建融合了強大LLM的生成能力與多國PhD級別專家的多次人工審核與增強,保證了問題的挑戰(zhàn)性、答案的精確性與對話的自然流暢性。


主要實驗結(jié)果與深度分析
研究團隊在WildVideo上對14個主流開源與商業(yè)模型(如GPT-4o、Claude-3.5-Sonnet、Gemini系列、LLaVA-Video、InternVL等)進行全面評估,得出若干關(guān)鍵發(fā)現(xiàn):
整體表現(xiàn)凸顯巨大挑戰(zhàn)即便是當前最先進的模型,在WildVideo上也面臨嚴峻挑戰(zhàn)。
單輪任務(wù)中,表現(xiàn)最好的GPT-4o準確率僅為62.1%;擴展至多輪對話時,準確率進一步降至52.7%。這清楚表明,處理多輪交互的復雜度遠高于單輪問答,現(xiàn)有模型能力存在明顯短板。

能力結(jié)構(gòu)不均衡
感知層面:模型在靜態(tài)「物體」識別任務(wù)上表現(xiàn)最佳,在需要理解時序的「動作」識別和「視覺定位」任務(wù)上表現(xiàn)大幅下降,暴露了對動態(tài)信息處理的不足。
認知層面:涉及常識推理和跨模態(tài)指代的任務(wù)是所有模型的普遍難點,最低得分僅11.0%,說明模型在結(jié)合視覺與常識進行深層推理方面還有很長的路要走。
上下文層面:多輪特有的「上下文理解」任務(wù)(省略與檢索)表現(xiàn)最不理想,最佳得分未超過51.4%,凸顯了當前模型在維持長對話一致性、有效利用歷史信息方面的瓶頸。

視角偏好與語言差異
視角偏好:幾乎所有模型在第三人稱(外視角)視頻上的表現(xiàn)都系統(tǒng)性優(yōu)于第一人稱(自我視角)視頻。研究者分析,這可能是因為第一人稱視頻有更多運動模糊、視角突變和遮擋,對模型動態(tài)感知要求更高。

中英雙語評測:WildVideo提供完整的中文版評測集。實驗顯示,模型在中文任務(wù)上的表現(xiàn)普遍低于英文,最佳模型GPT-4o在中文多輪任務(wù)中也僅得54.0%,這為中文多模態(tài)模型優(yōu)化提供了明確的診斷工具。
輕量版與性能版模型的平衡對比GPT-4o/GPT-4o mini和Gemini 1.5 Pro/Gemini 1.5 Flash發(fā)現(xiàn),性能更強的版本在絕大多數(shù)任務(wù)上領(lǐng)先。
但有趣的是,輕量級的Gemini 1.5 Flash在多輪上下文理解任務(wù)中反超了其性能版,提示模型設(shè)計在效率與長上下文處理能力間可能有不同的優(yōu)化路徑。

意義與未來方向
WildVideo的發(fā)布,不僅為社區(qū)提供了新的、更嚴格的評測「標尺」,還為多模態(tài)大模型研究指明了重要演進方向:
推動評測范式升級:它促使視頻理解評測從「靜態(tài)快照問答」轉(zhuǎn)向「動態(tài)連續(xù)對話」,從「客觀選擇」轉(zhuǎn)向「開放生成」,更貼近最終應用。
精細化診斷模型缺陷:其細分的幻覺分類體系能幫助研究者精準定位模型失效的具體環(huán)節(jié)(是看不準、想不對,還是記不住),從而進行針對性改進。
促進多輪對話技術(shù)發(fā)展:基準明確揭示了當前模型在多輪交互中的脆弱性,將激勵學術(shù)界和產(chǎn)業(yè)界在對話狀態(tài)管理、長期記憶機制、指代消解等關(guān)鍵技術(shù)上投入更多。
支持跨語言與跨文化優(yōu)化:中英雙語并行設(shè)計,為開發(fā)更具全球適用性的多模態(tài)模型提供了重要評估基礎(chǔ)。
WildVideo就像一個功能全面的「體檢中心」,它告訴我們,當前看似強大的多模態(tài)模型,在走向真正實用的視頻對話智能之路上,仍需在動態(tài)感知、深層推理和連貫交互等多個關(guān)鍵能力上實現(xiàn)突破。
這項工作已開源相關(guān)基準數(shù)據(jù),期待它能持續(xù)推動視頻語言交互領(lǐng)域向更可靠、更智能的方向發(fā)展。
參考資料:https://ieeexplore.ieee.org/document/11097075
本文來自微信公眾號“新智元”,編輯:LRST,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




