盡管視覺語言模型(LVLMs)在圖像與短視頻理解中已取得顯著進展,但在處理長時序、復雜語義的視頻內容時仍面臨巨大挑戰 —— 上下文長度限制、跨模態對齊困難、計算成本高昂等問題制約著其實際應用。針對這一難題,廈門大學、羅切斯特大學與南京大學聯合提出了一種輕量高效、無需微調的創新框架 ——Video-RAG。該研究已被機器學習頂級會議 NeurIPS 2025 接收,為長視頻理解任務提供了全新的解決思路。

盡管視覺語言模型(LVLMs)在圖像與短視頻理解中已取得顯著進展,但在處理長時序、復雜語義的視頻內容時仍面臨巨大挑戰 —— 上下文長度限制、跨模態對齊困難、計算成本高昂等問題制約著其實際應用。針對這一難題,廈門大學、羅切斯特大學與南京大學聯合提出了一種輕量高效、無需微調的創新框架 ——Video-RAG。該研究已被機器學習頂級會議 NeurIPS 2025 接收,為長視頻理解任務提供了全新的解決思路。
