本公開的實(shí)施例涉及自然語(yǔ)言處理,具體涉及文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品。
背景技術(shù):
1、文本分類是自然語(yǔ)言處理(nlp,natural?language?processing)中的一個(gè)基礎(chǔ)且重要的任務(wù),它涉及將文本(或其他實(shí)體)按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記。
2、現(xiàn)有的文本分類方法主要有以下三類:文本特征表示、淺層學(xué)習(xí)模型、深度學(xué)習(xí)模型。上述三類方法均適用于強(qiáng)語(yǔ)義場(chǎng)景,如情感分類和主題分類。這些方法要求充分掌握文本的上下文信息,即需要完整的段落或篇章作為處理基礎(chǔ)。此外,為保證模型的準(zhǔn)確性和泛化能力,還需要大量的訓(xùn)練數(shù)據(jù)作為支撐,一般而言,所需數(shù)據(jù)量應(yīng)在十萬(wàn)條文本以上。同時(shí),由于這些方法涉及復(fù)雜的計(jì)算過(guò)程,因此需要較大的算力支持,例如高性能的gpu或高配置cpu。然而,值得注意的是,這些方法通常耗時(shí)較長(zhǎng)。具體來(lái)說(shuō),收集并整理訓(xùn)練數(shù)據(jù)集可能需要數(shù)月時(shí)間,訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)文本分類模型可能需要數(shù)十小時(shí),而訓(xùn)練一個(gè)深度學(xué)習(xí)文本分類模型則可能需要數(shù)天至數(shù)十天不等。
技術(shù)實(shí)現(xiàn)思路
1、本公開的實(shí)施例提出了文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品。
2、第一方面,本公開的實(shí)施例提供了一種文本分類方法,所述方法包括:
3、獲取待分類文本和預(yù)設(shè)分類詞庫(kù),所述預(yù)設(shè)分類詞庫(kù)對(duì)應(yīng)存儲(chǔ)分類詞語(yǔ)、分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù);
4、在所述待分類文本中,提取包含在所述預(yù)設(shè)分類詞庫(kù)中的詞語(yǔ),作為匹配詞語(yǔ);
5、根據(jù)所述匹配詞語(yǔ)、所述匹配詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù),得到至少一個(gè)分類標(biāo)識(shí)及所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值;
6、選取滿足第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。
7、在一些可選的實(shí)施方式中,所述選取滿足第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果,包括:
8、在所述待分類文本中,提取包含在預(yù)設(shè)規(guī)則庫(kù)中的詞語(yǔ),作為匹配規(guī)則詞語(yǔ);其中,所述預(yù)設(shè)規(guī)則庫(kù)用于存儲(chǔ)規(guī)則詞語(yǔ)及所述規(guī)則詞語(yǔ)對(duì)應(yīng)的影響參數(shù)計(jì)算規(guī)則,所述影響參數(shù)計(jì)算規(guī)則為對(duì)所述總影響參數(shù)值重新賦值的規(guī)則;
9、針對(duì)每個(gè)規(guī)則詞語(yǔ),根據(jù)所述規(guī)則詞語(yǔ)對(duì)應(yīng)的影響參數(shù)計(jì)算規(guī)則,對(duì)所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值進(jìn)行重新賦值,得到至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的更新影響參數(shù)值;
10、選取滿足第二預(yù)設(shè)條件的更新影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。
11、在一些可選的實(shí)施方式中,所述預(yù)設(shè)分類詞庫(kù)通過(guò)以下詞庫(kù)構(gòu)建操作生成:
12、獲取文本樣本集,所述文本樣本集包含多個(gè)已標(biāo)注分類結(jié)果的文本樣本;
13、針對(duì)每個(gè)文本樣本,利用所述文本樣本標(biāo)注的分類結(jié)果對(duì)所述文本樣本中的詞語(yǔ)進(jìn)行標(biāo)注;
14、根據(jù)多個(gè)所述文本樣本中的詞語(yǔ)及標(biāo)注的分類結(jié)果,得到多個(gè)分類詞語(yǔ)及所述多個(gè)分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù);
15、將所述多個(gè)分類詞語(yǔ)及所述多個(gè)分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)對(duì)應(yīng)存儲(chǔ)到所述預(yù)設(shè)分類詞庫(kù)。
16、在一些可選的實(shí)施方式中,所述針對(duì)每個(gè)文本樣本,利用所述文本樣本標(biāo)注的分類結(jié)果對(duì)所述文本樣本中的詞語(yǔ)進(jìn)行標(biāo)注,包括:
17、針對(duì)每個(gè)文本樣本,進(jìn)行分詞處理,生成所述文本樣本的分詞序列,其中,分詞序列中每個(gè)分詞標(biāo)注的分類結(jié)果為所述分詞所屬文本樣本的分類結(jié)果;以及
18、所述根據(jù)多個(gè)所述文本樣本中的詞語(yǔ)及標(biāo)注的分類結(jié)果,得到多個(gè)分類詞語(yǔ)及所述多個(gè)分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù),包括:
19、提取多個(gè)所述文本樣本的分詞序列中的非重復(fù)詞語(yǔ),得到分類詞語(yǔ);
20、針對(duì)每個(gè)分類詞語(yǔ),統(tǒng)計(jì)所述每個(gè)分類詞語(yǔ)在不同標(biāo)注分類結(jié)果下的出現(xiàn)頻率,得到所述分類詞語(yǔ)的分類結(jié)果概率分布;將所述分類詞語(yǔ)的分類結(jié)果概率分布中出現(xiàn)頻率最高的分類結(jié)果確定為所述分類詞語(yǔ)的分類標(biāo)識(shí);
21、針對(duì)每個(gè)分類詞語(yǔ),根據(jù)所述分類詞語(yǔ)的分類結(jié)果概率分布,計(jì)算所述分類詞語(yǔ)的交叉熵;
22、對(duì)所述多個(gè)分類詞語(yǔ)的交叉熵進(jìn)行歸一化處理,得到所述多個(gè)分類詞語(yǔ)的分類影響參數(shù)。
23、在一些可選的實(shí)施方式中,所述針對(duì)每個(gè)分類詞語(yǔ),根據(jù)所述分類詞語(yǔ)的分類結(jié)果概率分布,計(jì)算所述分類詞語(yǔ)的交叉熵,包括:
24、針對(duì)每個(gè)分類詞語(yǔ),利用公式計(jì)算所述分類詞語(yǔ)的交叉熵;
25、其中,loss為所述分類詞語(yǔ)的交叉熵,c為所述分類詞語(yǔ)標(biāo)注分類結(jié)果的種類數(shù)量,yi為所述分類詞語(yǔ)的第i種分類結(jié)果的獨(dú)熱編碼表示,pi為所述分類詞語(yǔ)在第i種分類結(jié)果下的出現(xiàn)頻率,i為0到c-1之間的整數(shù)。
26、在一些可選的實(shí)施方式中,所述對(duì)所述多個(gè)分類詞語(yǔ)的交叉熵進(jìn)行歸一化處理,得到所述多個(gè)分類詞語(yǔ)的分類影響參數(shù),包括:
27、刪除所述多個(gè)分類詞語(yǔ)中交叉熵小于預(yù)設(shè)閾值的分類詞語(yǔ);
28、針對(duì)每個(gè)分類詞語(yǔ),利用以下歸一化公式計(jì)算所述每個(gè)分類詞語(yǔ)的分類影響參數(shù):
29、weightn=(lossn-min(loss))/(max(loss)-min(loss));
30、其中,weightn表示對(duì)第n個(gè)分類詞語(yǔ)的分類影響參數(shù),lossn表示第n個(gè)分類詞語(yǔ)的交叉熵,min(loss)表示所述多個(gè)分類詞語(yǔ)的交叉熵中的最小值,max(loss)表示所述多個(gè)分類詞語(yǔ)的交叉熵中的最大值。
31、第二方面,本公開的實(shí)施例提供了一種文本分類裝置,所述裝置包括:
32、第一獲取模塊,用于獲取待分類文本和預(yù)設(shè)分類詞庫(kù),所述預(yù)設(shè)分類詞庫(kù)對(duì)應(yīng)存儲(chǔ)分類詞語(yǔ)、分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù);
33、第一提取模塊,用于在所述待分類文本中,提取包含在預(yù)設(shè)分類詞庫(kù)中的詞語(yǔ),作為匹配詞語(yǔ);
34、統(tǒng)計(jì)模塊,用于根據(jù)所述匹配詞語(yǔ)、所述匹配詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù),得到至少一個(gè)分類標(biāo)識(shí)及所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值;
35、結(jié)果模塊,用于選取符合第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。
36、第四方面,本公開的實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被一個(gè)或多個(gè)處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
37、第五方面,本公開的實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,上述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
38、為了實(shí)現(xiàn)弱語(yǔ)境環(huán)境下的文本分類,本公開的實(shí)施例提供的文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品,通過(guò)先獲取待分類文本和預(yù)設(shè)分類詞庫(kù),所述預(yù)設(shè)分類詞庫(kù)對(duì)應(yīng)存儲(chǔ)分類詞語(yǔ)、分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù);再在所述待分類文本中,提取包含在所述預(yù)設(shè)分類詞庫(kù)中的詞語(yǔ),作為匹配詞語(yǔ);然后,根據(jù)所述匹配詞語(yǔ)、所述匹配詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù),得到至少一個(gè)分類標(biāo)識(shí)及所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值;最后,選取滿足第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。這樣,提取出待分類文本的關(guān)鍵性分類詞語(yǔ),并利用分類影響參數(shù),精準(zhǔn)客觀的從多個(gè)關(guān)鍵性分類詞中選取待分類文本匹配的分類結(jié)果,不僅不需要依賴語(yǔ)境,而且更加高效、準(zhǔn)確、靈活且可擴(kuò)展。