當(dāng)前視頻檢索研究正陷入一個閉環(huán)困境:以MSRVTT為代表的窄域基準(zhǔn),長期主導(dǎo)模型在粗粒度文本查詢上的優(yōu)化,導(dǎo)致訓(xùn)練數(shù)據(jù)有偏、模型能力受限,難以應(yīng)對真實世界中細(xì)粒度、長上下文、多模態(tài)組合等復(fù)雜檢索需求。
要突破這一瓶頸,亟需重構(gòu)視頻檢索的范式——從“專用”走向“通用”。
在這一“大一統(tǒng)”愿景下,香港科技大學(xué)(廣州)聯(lián)合阿里巴巴通義實驗室展開系統(tǒng)性探索,首次提出通用視頻檢索概念,并構(gòu)建了包含16個數(shù)據(jù)集、覆蓋多任務(wù)與多領(lǐng)域的綜合評測基準(zhǔn)UVRB;合成了155萬條高質(zhì)量、多模態(tài)、任務(wù)多樣化的視頻-語言訓(xùn)練對;并為多模態(tài)大模型底座量身設(shè)計了任務(wù)金字塔課程訓(xùn)練策略。
由此推出的通用視頻嵌入模型GVE(含3B與7B兩個版本),在嚴(yán)格零樣本設(shè)置下全面超越現(xiàn)有14個主流模型,展現(xiàn)出卓越的泛化能力。
這項工作不僅帶來了當(dāng)前性能最強(qiáng)的視頻嵌入模型,更通過基準(zhǔn)—數(shù)據(jù)—訓(xùn)練的全鏈條創(chuàng)新,為視頻檢索的通用化奠定了方法論基礎(chǔ)。

問題動機(jī):高分模型為何難以應(yīng)對真實視頻檢索需求?
當(dāng)前主流視頻檢索模型(如微軟的CLIP4Clip、上海AI Lab的InternVideo2和快手的Unite等)在MSRVTT等經(jīng)典基準(zhǔn)上表現(xiàn)優(yōu)異,但其能力邊界往往局限于粗粒度的文本-視頻匹配任務(wù)。
這類基準(zhǔn)通常使用簡短、泛化的文本描述(如“一個人在跳舞”),評估模型是否能從候選集中找到大致對應(yīng)的視頻。然而,真實世界中的用戶需求遠(yuǎn)比這復(fù)雜。
例如,用戶可能希望通過“文字 + 參考圖像”組合查詢特定視頻,用一段視頻片段作為示例進(jìn)行相似性檢索,精確指定空間關(guān)系(如“畫面左側(cè)穿紅衣者”),時間動態(tài)(如“從跳躍到落地的連續(xù)動作”)或部分相關(guān)性(如“只要視頻中提及”無人機(jī)”即視為相關(guān)”)等等。
遺憾的是,現(xiàn)有模型和評測體系對這類多模態(tài)輸入和細(xì)粒度語義理解支持有限,根本原因在于:當(dāng)前訓(xùn)練數(shù)據(jù)多源自網(wǎng)絡(luò)爬取的噪聲標(biāo)簽,任務(wù)設(shè)計高度單一,且評估指標(biāo)未能反映模型在復(fù)雜場景下的魯棒性與泛化性。
相比之下,圖像檢索領(lǐng)域已逐步走向統(tǒng)一的多模態(tài)表征框架,能夠靈活支持文本、圖像乃至屬性等多種查詢形式。
這一趨勢表明,通用性(universality)正成為視覺檢索系統(tǒng)的核心目標(biāo)。
受此啟發(fā),團(tuán)隊主張將視頻檢索從“針對特定任務(wù)優(yōu)化”的范式,轉(zhuǎn)向支持多任務(wù)、多粒度、多域的通用建模。
團(tuán)隊不僅關(guān)注模型在標(biāo)準(zhǔn)測試集上的性能,更致力于構(gòu)建一個能真正編碼復(fù)雜視頻語義、適應(yīng)多樣化檢索需求的系統(tǒng)性解決方案。
邁向視頻檢索通用化:評測-數(shù)據(jù)-模型三位一體的全新范式