文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品與流程

文檔序號(hào)：39608635發(fā)布日期：2024-10-11 13:17閱讀：19來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本公開的實(shí)施例涉及自然語(yǔ)言處理，具體涉及文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品。

背景技術(shù)：

1、文本分類是自然語(yǔ)言處理(nlp，natural?language?processing)中的一個(gè)基礎(chǔ)且重要的任務(wù)，它涉及將文本(或其他實(shí)體)按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記。

2、現(xiàn)有的文本分類方法主要有以下三類：文本特征表示、淺層學(xué)習(xí)模型、深度學(xué)習(xí)模型。上述三類方法均適用于強(qiáng)語(yǔ)義場(chǎng)景，如情感分類和主題分類。這些方法要求充分掌握文本的上下文信息，即需要完整的段落或篇章作為處理基礎(chǔ)。此外，為保證模型的準(zhǔn)確性和泛化能力，還需要大量的訓(xùn)練數(shù)據(jù)作為支撐，一般而言，所需數(shù)據(jù)量應(yīng)在十萬(wàn)條文本以上。同時(shí)，由于這些方法涉及復(fù)雜的計(jì)算過(guò)程，因此需要較大的算力支持，例如高性能的gpu或高配置cpu。然而，值得注意的是，這些方法通常耗時(shí)較長(zhǎng)。具體來(lái)說(shuō)，收集并整理訓(xùn)練數(shù)據(jù)集可能需要數(shù)月時(shí)間，訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)文本分類模型可能需要數(shù)十小時(shí)，而訓(xùn)練一個(gè)深度學(xué)習(xí)文本分類模型則可能需要數(shù)天至數(shù)十天不等。

技術(shù)實(shí)現(xiàn)思路

1、本公開的實(shí)施例提出了文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品。

2、第一方面，本公開的實(shí)施例提供了一種文本分類方法，所述方法包括：

3、獲取待分類文本和預(yù)設(shè)分類詞庫(kù)，所述預(yù)設(shè)分類詞庫(kù)對(duì)應(yīng)存儲(chǔ)分類詞語(yǔ)、分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)；

4、在所述待分類文本中，提取包含在所述預(yù)設(shè)分類詞庫(kù)中的詞語(yǔ)，作為匹配詞語(yǔ)；

5、根據(jù)所述匹配詞語(yǔ)、所述匹配詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)，得到至少一個(gè)分類標(biāo)識(shí)及所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值；

6、選取滿足第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。

7、在一些可選的實(shí)施方式中，所述選取滿足第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果，包括：

8、在所述待分類文本中，提取包含在預(yù)設(shè)規(guī)則庫(kù)中的詞語(yǔ)，作為匹配規(guī)則詞語(yǔ)；其中，所述預(yù)設(shè)規(guī)則庫(kù)用于存儲(chǔ)規(guī)則詞語(yǔ)及所述規(guī)則詞語(yǔ)對(duì)應(yīng)的影響參數(shù)計(jì)算規(guī)則，所述影響參數(shù)計(jì)算規(guī)則為對(duì)所述總影響參數(shù)值重新賦值的規(guī)則；

9、針對(duì)每個(gè)規(guī)則詞語(yǔ)，根據(jù)所述規(guī)則詞語(yǔ)對(duì)應(yīng)的影響參數(shù)計(jì)算規(guī)則，對(duì)所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值進(jìn)行重新賦值，得到至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的更新影響參數(shù)值；

10、選取滿足第二預(yù)設(shè)條件的更新影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。

11、在一些可選的實(shí)施方式中，所述預(yù)設(shè)分類詞庫(kù)通過(guò)以下詞庫(kù)構(gòu)建操作生成：

12、獲取文本樣本集，所述文本樣本集包含多個(gè)已標(biāo)注分類結(jié)果的文本樣本；

13、針對(duì)每個(gè)文本樣本，利用所述文本樣本標(biāo)注的分類結(jié)果對(duì)所述文本樣本中的詞語(yǔ)進(jìn)行標(biāo)注；

14、根據(jù)多個(gè)所述文本樣本中的詞語(yǔ)及標(biāo)注的分類結(jié)果，得到多個(gè)分類詞語(yǔ)及所述多個(gè)分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)；

15、將所述多個(gè)分類詞語(yǔ)及所述多個(gè)分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)對(duì)應(yīng)存儲(chǔ)到所述預(yù)設(shè)分類詞庫(kù)。

16、在一些可選的實(shí)施方式中，所述針對(duì)每個(gè)文本樣本，利用所述文本樣本標(biāo)注的分類結(jié)果對(duì)所述文本樣本中的詞語(yǔ)進(jìn)行標(biāo)注，包括：

17、針對(duì)每個(gè)文本樣本，進(jìn)行分詞處理，生成所述文本樣本的分詞序列，其中，分詞序列中每個(gè)分詞標(biāo)注的分類結(jié)果為所述分詞所屬文本樣本的分類結(jié)果；以及

18、所述根據(jù)多個(gè)所述文本樣本中的詞語(yǔ)及標(biāo)注的分類結(jié)果，得到多個(gè)分類詞語(yǔ)及所述多個(gè)分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)，包括：

19、提取多個(gè)所述文本樣本的分詞序列中的非重復(fù)詞語(yǔ)，得到分類詞語(yǔ)；

20、針對(duì)每個(gè)分類詞語(yǔ)，統(tǒng)計(jì)所述每個(gè)分類詞語(yǔ)在不同標(biāo)注分類結(jié)果下的出現(xiàn)頻率，得到所述分類詞語(yǔ)的分類結(jié)果概率分布；將所述分類詞語(yǔ)的分類結(jié)果概率分布中出現(xiàn)頻率最高的分類結(jié)果確定為所述分類詞語(yǔ)的分類標(biāo)識(shí)；

21、針對(duì)每個(gè)分類詞語(yǔ)，根據(jù)所述分類詞語(yǔ)的分類結(jié)果概率分布，計(jì)算所述分類詞語(yǔ)的交叉熵；

22、對(duì)所述多個(gè)分類詞語(yǔ)的交叉熵進(jìn)行歸一化處理，得到所述多個(gè)分類詞語(yǔ)的分類影響參數(shù)。

23、在一些可選的實(shí)施方式中，所述針對(duì)每個(gè)分類詞語(yǔ)，根據(jù)所述分類詞語(yǔ)的分類結(jié)果概率分布，計(jì)算所述分類詞語(yǔ)的交叉熵，包括：

24、針對(duì)每個(gè)分類詞語(yǔ)，利用公式計(jì)算所述分類詞語(yǔ)的交叉熵；

25、其中，loss為所述分類詞語(yǔ)的交叉熵，c為所述分類詞語(yǔ)標(biāo)注分類結(jié)果的種類數(shù)量，yi為所述分類詞語(yǔ)的第i種分類結(jié)果的獨(dú)熱編碼表示，pi為所述分類詞語(yǔ)在第i種分類結(jié)果下的出現(xiàn)頻率，i為0到c-1之間的整數(shù)。

26、在一些可選的實(shí)施方式中，所述對(duì)所述多個(gè)分類詞語(yǔ)的交叉熵進(jìn)行歸一化處理，得到所述多個(gè)分類詞語(yǔ)的分類影響參數(shù)，包括：

27、刪除所述多個(gè)分類詞語(yǔ)中交叉熵小于預(yù)設(shè)閾值的分類詞語(yǔ)；

28、針對(duì)每個(gè)分類詞語(yǔ)，利用以下歸一化公式計(jì)算所述每個(gè)分類詞語(yǔ)的分類影響參數(shù)：

29、weightn＝(lossn-min(loss))/(max(loss)-min(loss))；

30、其中，weightn表示對(duì)第n個(gè)分類詞語(yǔ)的分類影響參數(shù)，lossn表示第n個(gè)分類詞語(yǔ)的交叉熵，min(loss)表示所述多個(gè)分類詞語(yǔ)的交叉熵中的最小值，max(loss)表示所述多個(gè)分類詞語(yǔ)的交叉熵中的最大值。

31、第二方面，本公開的實(shí)施例提供了一種文本分類裝置，所述裝置包括：

32、第一獲取模塊，用于獲取待分類文本和預(yù)設(shè)分類詞庫(kù)，所述預(yù)設(shè)分類詞庫(kù)對(duì)應(yīng)存儲(chǔ)分類詞語(yǔ)、分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)；

33、第一提取模塊，用于在所述待分類文本中，提取包含在預(yù)設(shè)分類詞庫(kù)中的詞語(yǔ)，作為匹配詞語(yǔ)；

34、統(tǒng)計(jì)模塊，用于根據(jù)所述匹配詞語(yǔ)、所述匹配詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)，得到至少一個(gè)分類標(biāo)識(shí)及所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值；

35、結(jié)果模塊，用于選取符合第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。

36、第四方面，本公開的實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其中，所述計(jì)算機(jī)程序被一個(gè)或多個(gè)處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。

37、第五方面，本公開的實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序/指令，上述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。

38、為了實(shí)現(xiàn)弱語(yǔ)境環(huán)境下的文本分類，本公開的實(shí)施例提供的文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品，通過(guò)先獲取待分類文本和預(yù)設(shè)分類詞庫(kù)，所述預(yù)設(shè)分類詞庫(kù)對(duì)應(yīng)存儲(chǔ)分類詞語(yǔ)、分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)；再在所述待分類文本中，提取包含在所述預(yù)設(shè)分類詞庫(kù)中的詞語(yǔ)，作為匹配詞語(yǔ)；然后，根據(jù)所述匹配詞語(yǔ)、所述匹配詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)，得到至少一個(gè)分類標(biāo)識(shí)及所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值；最后，選取滿足第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。這樣，提取出待分類文本的關(guān)鍵性分類詞語(yǔ)，并利用分類影響參數(shù)，精準(zhǔn)客觀的從多個(gè)關(guān)鍵性分類詞中選取待分類文本匹配的分類結(jié)果，不僅不需要依賴語(yǔ)境，而且更加高效、準(zhǔn)確、靈活且可擴(kuò)展。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：秦潤(rùn),張雷
技術(shù)所有人：百融至信（北京）科技有限公司
我是此專利的發(fā)明人

上一篇：液壓挖掘機(jī)及其行走液壓系統(tǒng)的制作方法
上一篇：一種橋梁施工用防護(hù)裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品與流程

文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品與流程