免费h在线观看I国产亚洲精品vI91免费在线I日本黄色免费播放I国产精品免费一区二区三区在线观看I亚洲美女久久

中國科學(xué)院西安光機(jī)所在零樣本異常檢測領(lǐng)域取得新進(jìn)展

近日,中國科學(xué)院西安光機(jī)所光譜成像技術(shù)研究室王荃研究員團(tuán)隊在計算機(jī)視覺領(lǐng)域的零樣本異常檢測與定位方向取得新進(jìn)展,相關(guān)成果被計算機(jī)視覺與模式識別大會(The IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026)接收。論文第一作者為西安光機(jī)所2024級碩士研究生胡明,通訊作者為武漢大學(xué)中南醫(yī)院胡聰博士、西安光機(jī)所胡炳樑研究員以及王荃研究員,西安光機(jī)所為第一通訊單位。

隨著工業(yè)質(zhì)檢、醫(yī)學(xué)影像分析等應(yīng)用需求不斷增長,異常檢測技術(shù)日益受到關(guān)注。然而,實際場景中異常樣本往往稀缺甚至難以獲取,傳統(tǒng)依賴標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法面臨瓶頸。

基于視覺-語言模型的零樣本異常檢測方法,憑借大規(guī)模預(yù)訓(xùn)練知識,無需異常標(biāo)注即可實現(xiàn)檢測,但在細(xì)粒度異常檢測任務(wù)中,該方法仍面臨三大挑戰(zhàn):一是模型難以區(qū)分前景目標(biāo)與復(fù)雜背景,異常特征易與背景混雜,影響檢測精度;二是依賴單一文本表示,語義表達(dá)能力有限,難以為異常判別提供精細(xì)依據(jù);三是跨模態(tài)對齊過程中,圖像與文本的語義匹配存在不確定性,制約了模型性能提升。

圖 FB-CLIP整體結(jié)構(gòu)。(a) 多策略文本特征融合(MSTFF)生成任務(wù)感知的文本嵌入;(b) 多視角前景-背景增強(MVFBE)分離并增強前景與背景特征;(c) 背景抑制(Background Suppression)減少殘余背景干擾;(d) 語義一致性正則化(SCR)強化置信且具有判別力的視覺-文本對齊。

針對上述問題,研究團(tuán)隊提出了新型框架——FB-CLIP(Foreground-Background Disentangled CLIP)。該框架從三個層面進(jìn)行創(chuàng)新:

在文本建模上,提出多策略文本特征融合方法,通過結(jié)合句子級表示、全局上下文信息及注意力加權(quán)特征,構(gòu)建更豐富的任務(wù)感知語義表示,提升模型對異常語義的理解能力;

在視覺建模上,設(shè)計多視角前景-背景分離機(jī)制,從語義、空間、結(jié)構(gòu)等維度解耦圖像特征,并借助背景抑制策略減少復(fù)雜場景中的干擾信息,使模型更精準(zhǔn)地聚焦異常區(qū)域;

在跨模態(tài)對齊上,引入語義一致性正則化約束,通過提升預(yù)測置信度并拉大正常與異常樣本的語義間隔,增強模型對異常的判別能力。

實驗結(jié)果表明,F(xiàn)B-CLIP在多個工業(yè)檢測和醫(yī)學(xué)影像數(shù)據(jù)集上均取得了優(yōu)異性能,尤其在細(xì)粒度異常定位任務(wù)中表現(xiàn)突出,整體性能達(dá)到國際領(lǐng)先水平。該方法無需異常樣本標(biāo)注,即可實現(xiàn)對復(fù)雜場景中微小異常的精準(zhǔn)檢測與定位,具有良好的實際應(yīng)用前景。

該成果有望應(yīng)用于醫(yī)學(xué)影像輔助診斷、工業(yè)缺陷檢測等領(lǐng)域。

西安光機(jī)所王荃研究員團(tuán)隊長期深耕于計算機(jī)視覺與生物醫(yī)學(xué)成像、腦機(jī)智能等交叉方向研究,近年來在相關(guān)領(lǐng)域持續(xù)取得一系列重要進(jìn)展,相關(guān)成果發(fā)表于CVPR 2025、Pattern Recognition等。

IEEE/CVF計算機(jī)視覺與模式識別會議是計算機(jī)視覺領(lǐng)域最具影響力的國際學(xué)術(shù)會議之一,被中國計算機(jī)學(xué)會(CCF)評為A類會議。

文章鏈接

代碼鏈接

附件下載: