本發(fā)明涉及圖像處理,具體涉及一種缺陷檢測方法及其裝置。
背景技術(shù):
1、目前,圖像的缺陷檢測方法,通常依賴于人工收集得到的大量數(shù)據(jù),并對上述大量數(shù)據(jù)分類別進(jìn)行相應(yīng)的標(biāo)注,然后利用封閉的類別數(shù)據(jù)集合,即,經(jīng)上述標(biāo)注得到的已知缺陷類型的類別數(shù)據(jù)集合,去訓(xùn)練缺陷檢測模型,從而達(dá)到利用完成訓(xùn)練的缺陷檢測模型對上述圖像中的缺陷進(jìn)行檢測的目的。然而,在實際的工業(yè)生產(chǎn)中,由于上述缺陷的類別存在多樣性和未知性,因此,上述利用封閉的類別數(shù)據(jù)集合訓(xùn)練得到的缺陷檢測模型對開放的類別數(shù)據(jù)集合,即存在未知的缺陷類別的類別集合,其缺陷識別效果差。
2、上述多樣性主要是指圖像中缺陷的種類繁多,其涵蓋不同形狀、大小、位置以及顏色紋理等,例如,手機(jī)保護(hù)殼這一產(chǎn)品表面可能產(chǎn)生“裂痕、壓傷、凹陷”等不同類型的缺陷,甚至其缺陷的強(qiáng)度也各不相同,導(dǎo)致多樣性特點顯著。而上述未知性主要是指由于在工業(yè)生產(chǎn)中,本領(lǐng)域人員無法收集工業(yè)產(chǎn)品所有可能出現(xiàn)的缺陷,因此,上述利用封閉的類別數(shù)據(jù)集合進(jìn)行訓(xùn)練而得到的缺陷檢測模型無法對工業(yè)產(chǎn)品中未知缺陷實現(xiàn)有效地檢測;與此同時,由于工業(yè)產(chǎn)品的部分類別缺陷沒有明確的標(biāo)注、漏標(biāo)或者標(biāo)注不完整,因而也會在一定程度上增加上述缺陷檢測模型對未知缺陷的識別難度。而高精度的缺陷檢測模型,需要有類別完備和數(shù)量充足的訓(xùn)練樣本,才能保證其性能。但是,由于圖像中未知類別缺陷的產(chǎn)生是不確定的,缺陷檢測模型容易漏檢或者誤檢。
3、因此,針對上述現(xiàn)有技術(shù)的不足有必要進(jìn)行改進(jìn)。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種缺陷檢測方法及其裝置,主要解決對待檢測圖像中已知類別和/或未知類別的缺陷的檢測問題,提升對上述缺陷的檢測性能。
2、根據(jù)第一方面,一種實施例中提供一種缺陷檢測方法。該缺陷檢測方法包括:
3、獲取待檢測圖像以及對應(yīng)的預(yù)設(shè)提示文本;其中,所述預(yù)設(shè)提示文本為對所述待檢測圖像中感興趣的檢測目標(biāo)的類別所做的描述;
4、將所述預(yù)設(shè)提示文本轉(zhuǎn)換為結(jié)構(gòu)化文本;
5、以所述結(jié)構(gòu)化文本作為引導(dǎo),對所述待檢測圖像x中的所述感興趣的檢測目標(biāo)的類別和/或位置進(jìn)行預(yù)測,而得到所述感興趣的檢測目標(biāo)的類別信息和/或位置信息。
6、一實施例中,所述將所述預(yù)設(shè)提示文本轉(zhuǎn)換為結(jié)構(gòu)化文本,包括:對所述預(yù)設(shè)提示文本進(jìn)行結(jié)構(gòu)化處理而得到所述結(jié)構(gòu)化文本;其中,所述結(jié)構(gòu)化文本具有固定的格式。
7、一實施例中,所述以所述結(jié)構(gòu)化文本作為引導(dǎo),對所述待檢測圖像中的所述感興趣的檢測目標(biāo)的類別和/或位置進(jìn)行預(yù)測,而得到所述感興趣的檢測目標(biāo)的類別信息和/或位置信息,包括:
8、對所述結(jié)構(gòu)化文本進(jìn)行文本編碼而得到文本特征;對所述待檢測圖像進(jìn)行多尺度特征提取而得到n層第一特征圖vi;其中,i=1、…、n且i的取值越大則對應(yīng)的所述第一特征圖vi的分辨率越小,所述n≥2;
9、將所述n層第一特征圖vi分別與所述文本特征進(jìn)行特征融合而得到n層融合特征圖;
10、利用所述文本特征和所述n層融合特征圖對所述檢測目標(biāo)的類別進(jìn)行預(yù)測而得到所述待檢測圖像中所述檢測目標(biāo)的類別信息;和/或,利用所述n層融合特征圖對所述檢測目標(biāo)的位置進(jìn)行預(yù)測而得到所述待檢測圖像中所述檢測目標(biāo)的位置信息。
11、一實施例中,所述將所述n層第一特征圖vi分別與所述文本特征進(jìn)行特征融合而得到n層融合特征圖,包括:
12、采用n層文本注意力網(wǎng)絡(luò)將所述n層第一特征圖vi分別與所述文本特征進(jìn)行特征融合而得到n層融合特征圖;其中,對于第n層的文本注意力網(wǎng)絡(luò),將第n層第一特征圖作為第一輸入特征圖,將所述文本特征作為第二輸入特征圖,將所述第一輸入特征圖和所述第二輸入特征圖輸入所述文本注意力網(wǎng)絡(luò)得到輸出特征圖,將所得到的輸出特征圖作為第n層融合特征圖;
13、對于第k層的文本注意力網(wǎng)絡(luò),對第k+1層融合特征圖進(jìn)行第一卷積操作和上采樣操作而得到對應(yīng)的上采樣特征圖,其中,所述上采樣特征圖的分辨率與第k層第一特征圖的分辨率相同;將第k層第一特征圖與所述對應(yīng)的上采樣特征圖進(jìn)行逐元素相加操作而得到逐元素相加特征圖;將所述逐元素相加特征圖作為第一輸入特征圖,將所述文本特征作為第二輸入特征圖,將所述第一輸入特征圖和所述第二輸入特征圖輸入所述文本注意力網(wǎng)絡(luò)得到輸出特征圖,將所得到的輸出特征圖作為第k層融合特征圖,其中k=n-1,…,1;
14、其中,所述文本注意力網(wǎng)絡(luò)用于增強(qiáng)所述第一特征圖vi中檢測目標(biāo)的位置信息;
15、一實施例中,所述將所述第一輸入特征圖和所述第二輸入特征圖輸入所述文本注意力網(wǎng)絡(luò)得到輸出特征圖,包括:
16、將輸入所述文本注意力網(wǎng)絡(luò)的所述第一輸入特征圖d和所述第二輸入特征圖e通過如下表達(dá)式計算第一文本與區(qū)域相似性矩陣:
17、
18、其中,所述conv(d)表示對所述第一輸入特征圖d進(jìn)行第二卷積操作而得到第二卷積特征圖,所述norm(e)表示對所述文本特征進(jìn)行第一歸一化處理而得到第一歸一化處理后的特征圖,所述μ和所述δ分別為可學(xué)習(xí)的第一縮放因子和可學(xué)習(xí)的第一平移因子,所述表示矩陣相乘的操作;
19、對所述第一文本與區(qū)域相似性矩陣s1進(jìn)行取最大值操作而得到第一文本與區(qū)域最相似性矩陣;
20、對所述第一文本與區(qū)域最相似性矩陣進(jìn)行第一非線性激活處理而得到文本-區(qū)域注意力圖;
21、對所述文本-區(qū)域注意力圖與輸入所述文本注意力網(wǎng)絡(luò)的所述第一輸入特征圖d執(zhí)行逐元素相乘操作而得到注意力增強(qiáng)特征圖;
22、對所述注意力增強(qiáng)特征圖進(jìn)行第三卷積操作而得到對應(yīng)的融合特征圖,將所述對應(yīng)的融合特征圖作為所述文本注意力網(wǎng)絡(luò)的輸出特征圖。
23、一實施例中,所述利用所述n層融合特征圖對所述檢測目標(biāo)的位置進(jìn)行預(yù)測而得到所述待檢測圖像中所述檢測目標(biāo)的位置信息,包括:
24、對所述n層融合特征圖分別進(jìn)行第四卷積操作而輸出與所述融合特征圖對應(yīng)的預(yù)測框;其中,所述預(yù)測框用于表征所述檢測目標(biāo)的位置信息。
25、一實施例中,所述利用所述文本特征和所述n層融合特征圖對所述檢測目標(biāo)的類別進(jìn)行預(yù)測而分別得到所述融合特征圖中所述檢測目標(biāo)的類別信息,包括:
26、利用所述文本特征、所述融合特征圖和下述表達(dá)式計算與第j層的融合特征圖fj對應(yīng)的第二文本與區(qū)域相似性矩陣:
27、
28、其中,所述norm(e)表示對所述文本特征進(jìn)行第二歸一化處理而得到第二歸一化處理后的特征圖,所述α和所述β分別為可學(xué)習(xí)的第二縮放因子和可學(xué)習(xí)的第二平移因子,所述表示矩陣相乘的操作;
29、利用所述第二文本與區(qū)域相似性矩陣和下述表達(dá)式計算與所述第j層的融合特征圖fj對應(yīng)的類別概率特征圖:
30、pj=sigmoid(s2);
31、其中,所述sigmoid表示所述第二非線性激活處理,所述與所述第j層的融合特征圖fj對應(yīng)的類別概率特征圖pj用于表征與所述第j層的融合特征圖fj中每個像素屬于所述類別的所述檢測目標(biāo)的概率。
32、一實施例中,所述缺陷檢測方法基于缺陷檢測模型實現(xiàn),所述缺陷檢測模型包括數(shù)據(jù)處理模塊;其中,所述以所述結(jié)構(gòu)化文本作為引導(dǎo),對所述待檢測圖像x中的所述感興趣的檢測目標(biāo)的類別和/或位置進(jìn)行預(yù)測,而得到所述感興趣的檢測目標(biāo)的類別信息和/或位置信息,包括:所述數(shù)據(jù)處理模塊以所述結(jié)構(gòu)化文本作為引導(dǎo),對所述待檢測圖像x中的所述感興趣的檢測目標(biāo)的類別和/或位置進(jìn)行預(yù)測,而得到所述感興趣的檢測目標(biāo)的類別信息和/或位置信息。
33、一實施例中,所述數(shù)據(jù)處理模塊包括文本編碼子模塊、圖像編碼子模塊特征融合子模塊,所述數(shù)據(jù)處理模塊還包括定位子模塊和/或分類子模塊;
34、其中,所述對結(jié)構(gòu)化文本進(jìn)行文本編碼而得到文本特征,包括:利用所述文本編碼子模塊對結(jié)構(gòu)化文本進(jìn)行文本編碼而得到文本特征;
35、其中,所述對所述待檢測圖像進(jìn)行多尺度特征提取而得到n層第一特征圖vi,包括:
36、利用所述圖像編碼子模塊對所述待檢測圖像進(jìn)行多尺度特征提取而得到n層第一特征圖vi;其中,所述將所述n層第一特征圖vi分別與所述文本特征進(jìn)行特征融合而得到n層融合特征圖fj,包括:利用所述特征融合子模塊將所述n層第一特征圖vi分別與所述文本特征進(jìn)行特征融合而得到n層融合特征圖fj;其中,所述利用所述文本特征和所述n層融合特征圖fj對所述檢測目標(biāo)的類別進(jìn)行預(yù)測而得到所述待檢測圖像中所述檢測目標(biāo)的類別信息,包括:
37、利用所述分類子模塊對所述文本特征和所述n層融合特征圖fj進(jìn)行處理,以對所述檢測目標(biāo)的類別進(jìn)行預(yù)測而得到所述待檢測圖像中所述檢測目標(biāo)的類別信息;其中,所述利用所述n層融合特征圖fj對所述檢測目標(biāo)的位置進(jìn)行預(yù)測而得到所述待檢測圖像中所述檢測目標(biāo)的位置信息,包括:
38、利用所述定位子模塊對所述n層融合特征圖fj進(jìn)行處理,以對所述檢測目標(biāo)的位置進(jìn)行預(yù)測而得到所述待檢測圖像中所述檢測目標(biāo)的位置信息。
39、一實施例中,所述缺陷檢測模型還包括文本結(jié)構(gòu)化模塊;所述將所述預(yù)設(shè)提示文本轉(zhuǎn)換為結(jié)構(gòu)化文本,包括:
40、利用所述文本結(jié)構(gòu)化模塊對所述預(yù)設(shè)提示文本進(jìn)行結(jié)構(gòu)化處理而得到所述結(jié)構(gòu)化文本。
41、一實施例中,所述缺陷檢測模型通過以下訓(xùn)練流程訓(xùn)練得到:
42、獲取訓(xùn)練樣本圖像,以及與所述訓(xùn)練樣本圖像對應(yīng)的預(yù)設(shè)訓(xùn)練提示文本和標(biāo)注數(shù)據(jù),所述標(biāo)注數(shù)據(jù)包括所述訓(xùn)練樣本圖像中感興趣的訓(xùn)練檢測目標(biāo)的真實目標(biāo)框;其中,所述真實目標(biāo)框與所述預(yù)設(shè)訓(xùn)練提示文本相對應(yīng);其中,所述預(yù)設(shè)訓(xùn)練提示文本為對所述訓(xùn)練樣本圖像中感興趣的訓(xùn)練檢測目標(biāo)的類別所做的描述;
43、所述文本結(jié)構(gòu)化模塊將所述預(yù)設(shè)訓(xùn)練提示文本轉(zhuǎn)換為訓(xùn)練結(jié)構(gòu)化文本;
44、所述數(shù)據(jù)處理模塊以所述訓(xùn)練結(jié)構(gòu)化文本作為引導(dǎo),對所述訓(xùn)練樣本圖像中的所述感興趣的檢測目標(biāo)的類別和/或位置進(jìn)行預(yù)測,而得到所述訓(xùn)練檢測目標(biāo)的訓(xùn)練類別概率特征圖和/或訓(xùn)練預(yù)測框;其中,所述訓(xùn)練類別概率特征圖用于表征所述訓(xùn)練樣本圖像中各像素屬于所述訓(xùn)練檢測目標(biāo)的類別的預(yù)測概率;所述訓(xùn)練預(yù)測框用于表征所述訓(xùn)練檢測目標(biāo)的位置信息;
45、根據(jù)總損失函數(shù)對所述缺陷檢測模型進(jìn)行訓(xùn)練,以獲得所述訓(xùn)練好的缺陷檢測模型;其中,所述總損失函數(shù)由第一損失函數(shù)和第二損失函數(shù)確定;所述第一損失函數(shù)根據(jù)所述訓(xùn)練預(yù)測框和與所述訓(xùn)練預(yù)測框?qū)?yīng)的真實框確定;所述第二損失函數(shù)根據(jù)所述訓(xùn)練檢測目標(biāo)的類別的真實類別標(biāo)簽值和所述預(yù)測概率確定,所述真實類別標(biāo)簽值是基于所述預(yù)設(shè)訓(xùn)練提示文本而得到的。
46、一實施例中,所述數(shù)據(jù)處理模塊以所述訓(xùn)練結(jié)構(gòu)化文本作為引導(dǎo),對所述訓(xùn)練樣本圖像中的所述感興趣的檢測目標(biāo)的類別和/或位置進(jìn)行預(yù)測,而得到所述訓(xùn)練檢測目標(biāo)的訓(xùn)練類別概率特征圖和/或訓(xùn)練預(yù)測框,包括:
47、利用所述文本編碼子模塊對所述訓(xùn)練結(jié)構(gòu)化文本進(jìn)行文本編碼而得到訓(xùn)練文本特征;
48、利用所述圖像編碼子模塊對所述訓(xùn)練樣本圖像進(jìn)行多尺度特征提取而得到n層第一訓(xùn)練特征圖vi;
49、利用所述特征融合子模塊將所述n層第一訓(xùn)練特征圖vi分別與所述訓(xùn)練文本特征進(jìn)行特征融合而得到n層訓(xùn)練融合特征圖;
50、其中,所述利用所述訓(xùn)練文本特征和所述n層訓(xùn)練融合特征圖對所述訓(xùn)練檢測目標(biāo)的類別進(jìn)行預(yù)測而得到所述訓(xùn)練樣本圖像中所述訓(xùn)練檢測目標(biāo)的類別信息,包括:
51、所述分類子模塊利用所述訓(xùn)練文本特征和所述n層訓(xùn)練融合特征圖對所述訓(xùn)練檢測目標(biāo)的類別進(jìn)行預(yù)測而得到所述訓(xùn)練樣本圖像中所述訓(xùn)練檢測目標(biāo)的類別信息;
52、其中,所述利用所述n層訓(xùn)練融合特征圖對所述訓(xùn)練檢測目標(biāo)的位置進(jìn)行預(yù)測而得到所述訓(xùn)練樣本圖像中所述訓(xùn)練檢測目標(biāo)的位置信息,包括:
53、所述定位子模塊利用所述n層訓(xùn)練融合特征圖對所述訓(xùn)練檢測目標(biāo)的位置進(jìn)行預(yù)測而得到所述訓(xùn)練樣本圖像中所述訓(xùn)練檢測目標(biāo)的位置信息;
54、其中,所述文本編碼子模塊是經(jīng)過預(yù)訓(xùn)練得到的,在上述訓(xùn)練流程中,所述文本編碼子模塊的權(quán)重參數(shù)不發(fā)生更新。
55、一實施例中,所述特征融合子模塊包括n層文本注意力網(wǎng)絡(luò);其中,所述利用所述特征融合子模塊將所述n層第一訓(xùn)練特征圖vi分別與所述訓(xùn)練文本特征進(jìn)行特征融合而得到n層訓(xùn)練融合特征圖,包括:
56、采用n層文本注意力網(wǎng)絡(luò)將所述n層第一訓(xùn)練特征圖vi分別與所述訓(xùn)練文本特征進(jìn)行特征融合而得到n層訓(xùn)練融合特征圖;其中,
57、對于第n層的文本注意力網(wǎng)絡(luò),將第n層第一訓(xùn)練特征圖作為第一訓(xùn)練輸入特征圖,將所述訓(xùn)練文本特征作為第二訓(xùn)練輸入特征圖,將所述第一訓(xùn)練輸入特征圖和所述第二訓(xùn)練輸入特征圖輸入所述文本注意力網(wǎng)絡(luò)得到訓(xùn)練輸出特征圖,將所得到的訓(xùn)練輸出特征圖作為第n層訓(xùn)練融合特征圖;
58、對于第k層的文本注意力網(wǎng)絡(luò),對第k+1層訓(xùn)練融合特征圖進(jìn)行第一卷積操作和上采樣操作而得到對應(yīng)的訓(xùn)練上采樣特征圖,其中,所述訓(xùn)練上采樣特征圖的分辨率與第k層第一訓(xùn)練特征圖的分辨率相同;將第k層第一訓(xùn)練特征圖與所述對應(yīng)的訓(xùn)練上采樣特征圖進(jìn)行逐元素相加操作而得到訓(xùn)練逐元素相加特征圖;將所述訓(xùn)練逐元素相加特征圖作為第一訓(xùn)練輸入特征圖,將所述訓(xùn)練文本特征作為第二訓(xùn)練輸入特征圖,將所述第一訓(xùn)練輸入特征圖和所述第二訓(xùn)練輸入特征圖輸入所述文本注意力網(wǎng)絡(luò)得到訓(xùn)練輸出特征圖,將所得到的訓(xùn)練輸出特征圖作為第k層訓(xùn)練融合特征圖,其中k=n-1,…,1。
59、一實施例中,所述圖像編碼子模塊是對完成預(yù)訓(xùn)練的多尺度特征提取子模型進(jìn)行低秩微調(diào)而得到的;其中,所述低秩微調(diào)的流程包括:
60、針對所述完成預(yù)訓(xùn)練的多尺度特征提取子模型中每一層卷積層,搭建與該卷積層對應(yīng)的低秩參數(shù)更新分支,以形成新的多尺度特征提取子模型;將所述新的多尺度特征提取子模型作為所述特征提取子模型;其中,所述新的多尺度特征提取子模型中每一層卷積層的權(quán)重參數(shù)的表達(dá)式為:
61、w=w0+δw=w0+ba;
62、其中,所述w0表示所述完成預(yù)訓(xùn)練的多尺度特征提取子模型中每一層卷積層的權(quán)重參數(shù),所述δw表示與該卷積層對應(yīng)的低秩參數(shù)更新分支的權(quán)重參數(shù),所述b和所述a表示可訓(xùn)練的參數(shù);其中,在上述訓(xùn)練流程中,所述完成預(yù)訓(xùn)練的多尺度特征提取子模型中所有卷積層的權(quán)重參數(shù)不進(jìn)行更新,而所述低秩參數(shù)更新分支的權(quán)重參數(shù)進(jìn)行更新。
63、一實施例中,上述缺陷檢測模型或缺陷檢測網(wǎng)絡(luò)的總損失函數(shù)的表達(dá)式為:
64、loss=δ1lr+δ2lc;
65、其中,所述lr表示所述第一損失函數(shù),所述lc表示所述第二損失函數(shù);所述δ1和δ2分別為所述第一損失函數(shù)的預(yù)設(shè)權(quán)重系數(shù)和所述第二損失函數(shù)的預(yù)設(shè)權(quán)重系數(shù)。
66、一實施例中,所述第一損失函數(shù)的表達(dá)式為:
67、
68、其中,所述pr表示所述訓(xùn)練預(yù)測框,所述tr表示與所述訓(xùn)練預(yù)測框?qū)?yīng)的真實框,所述表示所述pr的中心點,所述表示所述tr的中心點,所述表示所述和所述之間的歐式距離,所述η表示包圍所述pr和所述tr的最小外包矩形的對角線的長度,所述iou表示求取交并比的操作。
69、一實施例中,所述第二損失函數(shù)的表達(dá)式為:
70、
71、其中,所述表示第j層所述訓(xùn)練訓(xùn)練融合特征圖fj中所述訓(xùn)練檢測目標(biāo)的訓(xùn)練類別概率特征圖的損失,所述n表示所述訓(xùn)練類別概率特征圖的總層數(shù),所述表示對應(yīng)的所述訓(xùn)練類別概率特征圖中第k個像素點的損失,所述k表示所述訓(xùn)練類別概率特征圖中像素點的總數(shù);
72、其中,所述的表達(dá)式為:
73、
74、其中,所述st表示所述第k個像素點中所述訓(xùn)練檢測目標(biāo)的類別的預(yù)測概率/置信度,∑su表示所述第k個像素點中所有非訓(xùn)練檢測目標(biāo)的類別的預(yù)測概率/置信度的總和。
75、根據(jù)第二方面,一種實施例中提供一種缺陷檢測裝置。該缺陷檢測裝置包括:
76、相機(jī),用于對待檢測的工業(yè)產(chǎn)品進(jìn)行取像并形成待檢測圖像;
77、處理器,與所述相機(jī)連接,用于根據(jù)本技術(shù)中任一項實施例所述的缺陷檢測方法處理所述待檢測圖像,得到所述待檢測圖像中感興趣的檢測目標(biāo)的位置信息和/或類別信息。
78、一實施例中,所述處理器包括:圖像獲取與提示模塊,用于獲取待檢測圖像以及對應(yīng)的預(yù)設(shè)提示文本;其中,所述預(yù)設(shè)提示文本為對所述檢測目標(biāo)的類別所做的描述;數(shù)據(jù)處理模塊,用于以所述結(jié)構(gòu)化文本作為引導(dǎo),對所述待檢測圖像x中的所述感興趣的檢測目標(biāo)的類別和/或位置進(jìn)行預(yù)測,而得到所述感興趣的檢測目標(biāo)的類別信息和/或位置信息。
79、一實施例中,所述處理器還包括:文本結(jié)構(gòu)化模塊用于對所述預(yù)設(shè)提示文本進(jìn)行結(jié)構(gòu)化處理而得到所述結(jié)構(gòu)化文本;其中,所述結(jié)構(gòu)化文本具有固定的格式。
80、一實施例中,所述數(shù)據(jù)處理模塊包括:文本編碼子模塊、圖像編碼子模塊、特征融合子模塊;所述數(shù)據(jù)處理模塊還包括:定位子模塊和/或分類子模塊;其中,所述文本編碼子模塊用于對結(jié)構(gòu)化文本進(jìn)行文本編碼而得到文本特征;所述圖像編碼子模塊,用于對所述待檢測圖像進(jìn)行多尺度特征提取而得到n層第一特征圖vi;其中,i=1、…、n且i的取值越大則對應(yīng)的所述第一特征圖vi的分辨率越小,所述n≥2;所述特征融合子模塊,用于將所述n層第一特征圖vi分別與所述文本特征進(jìn)行特征融合而得到n層融合特征圖fj;所述分類子模塊,用于利用所述文本特征和所述n層融合特征圖fj對所述檢測目標(biāo)的類別進(jìn)行預(yù)測而分別得到所述待檢測圖像中所述檢測目標(biāo)的類別信息;所述定位子模塊,用于利用所述n層融合特征圖fj對所述檢測目標(biāo)的位置進(jìn)行預(yù)測而得到所述檢測目標(biāo)的位置信息。
81、根據(jù)第三方面,一種實施例中提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序和/或指令。所述計算機(jī)程序和/或指令被處理器執(zhí)行時實現(xiàn)本技術(shù)中任一項實施例所述的缺陷檢測方法。
82、根據(jù)第四方面,一種實施例中提供一種計算機(jī)可讀存儲介質(zhì),其特征在于,包括程序,所述程序能夠被處理器執(zhí)行以實現(xiàn)如本技術(shù)中任一項實施例所述的缺陷檢測方法。
83、本技術(shù)的有益效果是:
84、本技術(shù)的缺陷檢測方法包括:獲取待檢測圖像以及對應(yīng)的預(yù)設(shè)提示文本;其中,所述預(yù)設(shè)提示文本為對所述待檢測圖像中感興趣的檢測目標(biāo)的類別所做的描述;將所述預(yù)設(shè)提示文本轉(zhuǎn)換為結(jié)構(gòu)化文本;以所述結(jié)構(gòu)化文本作為引導(dǎo),對所述待檢測圖像中的所述感興趣的檢測目標(biāo)的類別和/或位置進(jìn)行預(yù)測,而得到所述感興趣的檢測目標(biāo)的類別信息和/或位置信息;也就是說,本技術(shù)通過獲取與待檢測圖像對應(yīng)的預(yù)設(shè)提示文本,然后對預(yù)設(shè)提示文本或結(jié)構(gòu)化文本進(jìn)行文本編碼而得到文本特征,利用該文本特征來引導(dǎo)指示待檢測圖像中的目標(biāo)(如上述感興趣的檢測目標(biāo)的類別和/或位置),以及進(jìn)行待檢測圖像和文本特征之間的對齊/匹配,進(jìn)而實現(xiàn)對未知類別缺陷的精準(zhǔn)檢測。