【
儀表網 研發快訊】多模態大模型在通用任務上表現出色,但缺乏細粒度感知能力,如何做到又廣(開域泛化能力)又深(細粒度感知能力),是推動大模型從聊天助手到自動駕駛、具身智能、醫療影像、工業制造等實際應用中急需解決的關鍵問題。針對上述問題,北京大學王選計算機研究所彭宇新教授團隊近期取得了一系列重要進展,包括研發并開源了首個細粒度多模態大模型Finedefics、發表首篇細粒度多模態大模型綜述論文等。相關成果發表于IEEE TPAMI、CVPR、ICLR等人工智能領域國際頂級期刊和會議,包括CVPR的口頭報告論文(接收率3.3%)和亮點論文(接收率13.5%)。
圖1. 細粒度多模態大模型Finedefics
針對現有大模型無法準確區分細粒度類別的問題,團隊研發并開源了首個細粒度多模態大模型Finedefics,首先通過與大模型的多輪交互構建細粒度子類別的屬性知識,然后通過判別-生成統一的指令微調將屬性知識分別與細粒度子類別的圖像與文本對齊,實現數據-知識協同訓練,提高了多模態大模型的細粒度圖像分類能力,準確率達到76.84%,相比阿里的通義千問大模型(QwenVL-Chat)提高了9.43%,相比HuggingFace的Idefics2大模型提高了10.89%。本工作發表于人工智能領域國際頂級會議ICLR 2025。
圖2. 細粒度視覺推理算法DyFo
針對現有大模型無法準確識別圖像中微小目標的問題,團隊提出了細粒度視覺推理算法DyFo,通過視覺專家模型與多模態大模型的協同,在無需額外訓練的前提下,模擬人類視覺搜索行為逐步聚焦圖像關鍵區域,提高了多模態大模型的細粒度視覺識別能力,準確率達到81.15%,相比阿里的通義千問大模型(Qwen2-VL)提高了8.90%。本工作發表于計算機視覺領域國際頂級會議CVPR 2025,入選大會亮點論文(接收率13.5%)。
圖3. 以人為中心的細粒度人體動作質量評估方法Uni-FineParser
針對運動視頻中人體動作難以分析的問題,團隊提出了以人為中心的細粒度人體動作質量評估方法Uni-FineParser,通過聚焦前景目標動作區域,提取以人為中心的動作表征,然后通過細粒度對比回歸將動作過程分解為連續的動作步驟,量化每個動作步驟的質量,綜合各步驟質量差異預測最終動作質量得分,動作得分的斯皮爾曼相關系數達到95.01%。本工作發表于人工智能領域國際頂級期刊IEEE TPAMI(影響因子18.6)。
圖4. 細粒度感知定義
團隊根據在細粒度分析和多模態大模型領域的技術積累與前沿探索,發表了首篇細粒度多模態大模型綜述論文,剖析了當前多模態大模型的三大挑戰:模型架構在細粒度特征建模上的不足;高質量細粒度標注數據稀缺;細粒度感知與計算效率之間的矛盾。論文從類別、空間、時間3個維度定義了細粒度感知,系統闡述了細粒度多模態大模型的最新研究進展,并深入探討了精度-泛化-效率權衡、知識增強策略、理解與生成統一、大規模評測基準、細粒度多模態推理等未來發展方向。本工作發表于CJE 2026。
除上述代表論文外,團隊近期還取得了如下主要研究成果:團隊近期的4篇論文發表于人工智能領域國際頂級期刊IEEE TPAMI,一篇論文入選CVPR大會口頭報告(接收率3.3%),3篇論文入選CVPR大會亮點論文(接收率11.8%),兩篇論文入選2025年ESI高被引論文;構建并開源了兩個細粒度人體運動分析數據集和評測基準FineDiving-HM和FineSports,已被斯坦福大學、英偉達等60多個研究機構使用,團隊還研發了首個在國產昇騰處理器上完成訓練的生物領域細粒度多模態大模型,并發布到開源社區;團隊研發了端側大模型輕量化、美學理解、大模型強化學習加速、電商廣告海報生成、電商短視頻生成、自動駕駛障礙物感知等系統,應用于華為、快手、阿里、騰訊、美團、蔚來、中國電信、中國鐵塔、中國航天科工三院等12家頭部企業;參加CVPR 2025第一視角視頻檢測競賽、CVPR 2025多模態視覺問答競賽、ACM MM 2025視頻生成競賽,均獲第一名;彭宇新獲2025年青年科學基金項目A類(原國家杰青)延續資助(當年資助期滿的杰青項目中不超過20%獲延續資助),入選2026年度IEEE Fellow、2025年度CCF會士,當選中國圖象圖形學學會第九屆理事會副理事長,連續5年入選愛思唯爾“中國高被引學者”,主持2025年國家自然科學基金重點項目等。
所有評論僅代表網友意見,與本站立場無關。