近日,中國科學(xué)院西安光機(jī)所光譜成像技術(shù)研究室王荃研究員團(tuán)隊(duì)在計(jì)算機(jī)視覺領(lǐng)域的零樣本異常檢測(cè)與定位方向取得新進(jìn)展,相關(guān)成果被計(jì)算機(jī)視覺與模式識(shí)別大會(huì)(The IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026)接收。論文第一作者為西安光機(jī)所2024級(jí)碩士研究生胡明,通訊作者為武漢大學(xué)中南醫(yī)院胡聰博士、西安光機(jī)所胡炳樑研究員以及王荃研究員,西安光機(jī)所為第一通訊單位。
隨著工業(yè)質(zhì)檢、醫(yī)學(xué)影像分析等應(yīng)用需求不斷增長,異常檢測(cè)技術(shù)日益受到關(guān)注。然而,實(shí)際場(chǎng)景中異常樣本往往稀缺甚至難以獲取,傳統(tǒng)依賴標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法面臨瓶頸。
基于視覺-語言模型的零樣本異常檢測(cè)方法,憑借大規(guī)模預(yù)訓(xùn)練知識(shí),無需異常標(biāo)注即可實(shí)現(xiàn)檢測(cè),但在細(xì)粒度異常檢測(cè)任務(wù)中,該方法仍面臨三大挑戰(zhàn):一是模型難以區(qū)分前景目標(biāo)與復(fù)雜背景,異常特征易與背景混雜,影響檢測(cè)精度;二是依賴單一文本表示,語義表達(dá)能力有限,難以為異常判別提供精細(xì)依據(jù);三是跨模態(tài)對(duì)齊過程中,圖像與文本的語義匹配存在不確定性,制約了模型性能提升。
針對(duì)上述問題,研究團(tuán)隊(duì)提出了新型框架——FB-CLIP(Foreground-Background Disentangled CLIP)。該框架從三個(gè)層面進(jìn)行創(chuàng)新:
在文本建模上,提出多策略文本特征融合方法,通過結(jié)合句子級(jí)表示、全局上下文信息及注意力加權(quán)特征,構(gòu)建更豐富的任務(wù)感知語義表示,提升模型對(duì)異常語義的理解能力;
在視覺建模上,設(shè)計(jì)多視角前景-背景分離機(jī)制,從語義、空間、結(jié)構(gòu)等維度解耦圖像特征,并借助背景抑制策略減少復(fù)雜場(chǎng)景中的干擾信息,使模型更精準(zhǔn)地聚焦異常區(qū)域;
在跨模態(tài)對(duì)齊上,引入語義一致性正則化約束,通過提升預(yù)測(cè)置信度并拉大正常與異常樣本的語義間隔,增強(qiáng)模型對(duì)異常的判別能力。
實(shí)驗(yàn)結(jié)果表明,F(xiàn)B-CLIP在多個(gè)工業(yè)檢測(cè)和醫(yī)學(xué)影像數(shù)據(jù)集上均取得了優(yōu)異性能,尤其在細(xì)粒度異常定位任務(wù)中表現(xiàn)突出,整體性能達(dá)到國際領(lǐng)先水平。該方法無需異常樣本標(biāo)注,即可實(shí)現(xiàn)對(duì)復(fù)雜場(chǎng)景中微小異常的精準(zhǔn)檢測(cè)與定位,具有良好的實(shí)際應(yīng)用前景。
該成果有望應(yīng)用于醫(yī)學(xué)影像輔助診斷、工業(yè)缺陷檢測(cè)等領(lǐng)域。
西安光機(jī)所王荃研究員團(tuán)隊(duì)長期深耕于計(jì)算機(jī)視覺與生物醫(yī)學(xué)成像、腦機(jī)智能等交叉方向研究,近年來在相關(guān)領(lǐng)域持續(xù)取得一系列重要進(jìn)展,相關(guān)成果發(fā)表于CVPR 2025、Pattern Recognition等。
IEEE/CVF計(jì)算機(jī)視覺與模式識(shí)別會(huì)議是計(jì)算機(jī)視覺領(lǐng)域最具影響力的國際學(xué)術(shù)會(huì)議之一,被中國計(jì)算機(jī)學(xué)會(huì)(CCF)評(píng)為A類會(huì)議。



今日焦點(diǎn)
往期回顧




所有評(píng)論僅代表網(wǎng)友意見,與本站立場(chǎng)無關(guān)。