【
儀表網 研發快訊】近日,中國科學院上海微系統與信息技術研究所仿生
視覺系統實驗室李嘉茂研究員團隊在視覺人體姿態估計領域取得了重要進展。團隊圍繞2D及3D人體姿態估計這兩個緊密關聯的任務,分別提出了創新方法,兩項成果被計算機視覺與模式識別中國科學院一區期刊IEEE Transactions on Circuits and Systems for Video Technology (TCSVT, IF=11.1) 和IEEE Transactions on Multimedia(TMM, IF=9.7)錄用,論文題目分別為“Hierarchical Contrastive Consistency for Human Pose Estimation in Images and Videos”與“MMCPose: Multimodal Condition-Driven 3D Human Pose Estimation via Diffusion Models”。
HICCON: 基于層次化對比一致性約束的2D人體姿態估計方法
2D人體姿態估計是一項面向人體對象的基礎視覺感知任務,旨在通過圖像或視頻精準定位人體姿態關鍵點位置,為理解人體運動和行為提供結構化數據。然而,現有方法在復雜場景下難以兼顧空間定位準確性與時間運動連貫性,尤其在視頻中如何保持姿態估計的穩定性是一大挑戰。
為此,團隊提出了一個高效的層次化對比一致性約束(HICCON),能夠靈活嵌入多種姿態估計模型中,提升2D姿態估計性能。該方法在空間域上建模關鍵點與身體部件之間的關系,在時間域上捕捉幀與片段之間的運動模式。HICCON分別從空間與時間兩個維度提取多層次特征——包括關鍵點級、部件關系級、實例級和片段級等不同粒度,并施加對比學習約束,增強模型對復雜姿態的判別能力。實驗表明,在主流視頻姿態數據集PoseTrack上,結合HICCON的多個模型均顯著超過基準性能。本方法也表明了對比學習機制在人體視覺表征建模中的應用潛力和重要作用。
HICCON在PoseTrack數據集上相較于基準方法實現顯著提升
MMCPose:多模態條件驅動擴散生成的3D人體姿態估計方法
在獲得2D人體關鍵點基礎上,3D人體姿態估計致力于恢復人體關鍵點在三維空間中的位置,這一技術在虛擬現實、運動分析、人機交互等領域有著廣泛應用。然而,這一過程面臨“深度模糊”等固有挑戰,即同一組2D關鍵點可能對應多個合理的3D姿態。當前基于擴散生成式框架的方法雖然一定程度上緩解了這一問題,但由于模型缺乏對人體外觀輪廓、語義理解等方面的認識,導致在預測中仍會生成不合理的姿態,這一問題在遮擋嚴重或人群密集等復雜場景下尤為突出。
為解決上述問題,團隊提出了MMCPose模型,創新地將多模態人體先驗作為條件信號,引導擴散過程生成合理且準確的3D姿態。模型融合了三類結構化信息:人體關節拓撲關系、基于自然語言的部件描述、以及提升姿態關注度的人體掩碼。為了更好地發揮多模態條件的引導作用,還設計了一個多模態表征-姿態交互機制,實現引導信號與生成過程之間的深度交互,從而提升模型在姿態建模上的感知能力與生成質量。在Human3.6M和MPI-INF-3DHP等基準集上的測試表明,MMCPose取得了領先性能,特別是在Human3.6M上將平均誤差降至30.8毫米。本方法也說明了多模態引導以及人體先驗知識對于解決三維人體視覺感知任務的關鍵作用。
在Human3.6M數據集上MMCPose達到了最優性能
上述兩項研究成果均得到了科技創新2030重大項目、上海市自然科學基金、上海市優秀學術帶頭人項目支持,上海微系統所仿生視覺系統實驗室博士后徐稀俠為論文第一作者,實驗室主任李嘉茂研究員為通訊作者。
所有評論僅代表網友意見,與本站立場無關。