国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品與流程

      文檔序號(hào):39608635發(fā)布日期:2024-10-11 13:17閱讀:19來(lái)源:國(guó)知局
      文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品與流程

      本公開的實(shí)施例涉及自然語(yǔ)言處理,具體涉及文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品。


      背景技術(shù):

      1、文本分類是自然語(yǔ)言處理(nlp,natural?language?processing)中的一個(gè)基礎(chǔ)且重要的任務(wù),它涉及將文本(或其他實(shí)體)按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記。

      2、現(xiàn)有的文本分類方法主要有以下三類:文本特征表示、淺層學(xué)習(xí)模型、深度學(xué)習(xí)模型。上述三類方法均適用于強(qiáng)語(yǔ)義場(chǎng)景,如情感分類和主題分類。這些方法要求充分掌握文本的上下文信息,即需要完整的段落或篇章作為處理基礎(chǔ)。此外,為保證模型的準(zhǔn)確性和泛化能力,還需要大量的訓(xùn)練數(shù)據(jù)作為支撐,一般而言,所需數(shù)據(jù)量應(yīng)在十萬(wàn)條文本以上。同時(shí),由于這些方法涉及復(fù)雜的計(jì)算過(guò)程,因此需要較大的算力支持,例如高性能的gpu或高配置cpu。然而,值得注意的是,這些方法通常耗時(shí)較長(zhǎng)。具體來(lái)說(shuō),收集并整理訓(xùn)練數(shù)據(jù)集可能需要數(shù)月時(shí)間,訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)文本分類模型可能需要數(shù)十小時(shí),而訓(xùn)練一個(gè)深度學(xué)習(xí)文本分類模型則可能需要數(shù)天至數(shù)十天不等。


      技術(shù)實(shí)現(xiàn)思路

      1、本公開的實(shí)施例提出了文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品。

      2、第一方面,本公開的實(shí)施例提供了一種文本分類方法,所述方法包括:

      3、獲取待分類文本和預(yù)設(shè)分類詞庫(kù),所述預(yù)設(shè)分類詞庫(kù)對(duì)應(yīng)存儲(chǔ)分類詞語(yǔ)、分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù);

      4、在所述待分類文本中,提取包含在所述預(yù)設(shè)分類詞庫(kù)中的詞語(yǔ),作為匹配詞語(yǔ);

      5、根據(jù)所述匹配詞語(yǔ)、所述匹配詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù),得到至少一個(gè)分類標(biāo)識(shí)及所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值;

      6、選取滿足第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。

      7、在一些可選的實(shí)施方式中,所述選取滿足第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果,包括:

      8、在所述待分類文本中,提取包含在預(yù)設(shè)規(guī)則庫(kù)中的詞語(yǔ),作為匹配規(guī)則詞語(yǔ);其中,所述預(yù)設(shè)規(guī)則庫(kù)用于存儲(chǔ)規(guī)則詞語(yǔ)及所述規(guī)則詞語(yǔ)對(duì)應(yīng)的影響參數(shù)計(jì)算規(guī)則,所述影響參數(shù)計(jì)算規(guī)則為對(duì)所述總影響參數(shù)值重新賦值的規(guī)則;

      9、針對(duì)每個(gè)規(guī)則詞語(yǔ),根據(jù)所述規(guī)則詞語(yǔ)對(duì)應(yīng)的影響參數(shù)計(jì)算規(guī)則,對(duì)所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值進(jìn)行重新賦值,得到至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的更新影響參數(shù)值;

      10、選取滿足第二預(yù)設(shè)條件的更新影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。

      11、在一些可選的實(shí)施方式中,所述預(yù)設(shè)分類詞庫(kù)通過(guò)以下詞庫(kù)構(gòu)建操作生成:

      12、獲取文本樣本集,所述文本樣本集包含多個(gè)已標(biāo)注分類結(jié)果的文本樣本;

      13、針對(duì)每個(gè)文本樣本,利用所述文本樣本標(biāo)注的分類結(jié)果對(duì)所述文本樣本中的詞語(yǔ)進(jìn)行標(biāo)注;

      14、根據(jù)多個(gè)所述文本樣本中的詞語(yǔ)及標(biāo)注的分類結(jié)果,得到多個(gè)分類詞語(yǔ)及所述多個(gè)分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù);

      15、將所述多個(gè)分類詞語(yǔ)及所述多個(gè)分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù)對(duì)應(yīng)存儲(chǔ)到所述預(yù)設(shè)分類詞庫(kù)。

      16、在一些可選的實(shí)施方式中,所述針對(duì)每個(gè)文本樣本,利用所述文本樣本標(biāo)注的分類結(jié)果對(duì)所述文本樣本中的詞語(yǔ)進(jìn)行標(biāo)注,包括:

      17、針對(duì)每個(gè)文本樣本,進(jìn)行分詞處理,生成所述文本樣本的分詞序列,其中,分詞序列中每個(gè)分詞標(biāo)注的分類結(jié)果為所述分詞所屬文本樣本的分類結(jié)果;以及

      18、所述根據(jù)多個(gè)所述文本樣本中的詞語(yǔ)及標(biāo)注的分類結(jié)果,得到多個(gè)分類詞語(yǔ)及所述多個(gè)分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù),包括:

      19、提取多個(gè)所述文本樣本的分詞序列中的非重復(fù)詞語(yǔ),得到分類詞語(yǔ);

      20、針對(duì)每個(gè)分類詞語(yǔ),統(tǒng)計(jì)所述每個(gè)分類詞語(yǔ)在不同標(biāo)注分類結(jié)果下的出現(xiàn)頻率,得到所述分類詞語(yǔ)的分類結(jié)果概率分布;將所述分類詞語(yǔ)的分類結(jié)果概率分布中出現(xiàn)頻率最高的分類結(jié)果確定為所述分類詞語(yǔ)的分類標(biāo)識(shí);

      21、針對(duì)每個(gè)分類詞語(yǔ),根據(jù)所述分類詞語(yǔ)的分類結(jié)果概率分布,計(jì)算所述分類詞語(yǔ)的交叉熵;

      22、對(duì)所述多個(gè)分類詞語(yǔ)的交叉熵進(jìn)行歸一化處理,得到所述多個(gè)分類詞語(yǔ)的分類影響參數(shù)。

      23、在一些可選的實(shí)施方式中,所述針對(duì)每個(gè)分類詞語(yǔ),根據(jù)所述分類詞語(yǔ)的分類結(jié)果概率分布,計(jì)算所述分類詞語(yǔ)的交叉熵,包括:

      24、針對(duì)每個(gè)分類詞語(yǔ),利用公式計(jì)算所述分類詞語(yǔ)的交叉熵;

      25、其中,loss為所述分類詞語(yǔ)的交叉熵,c為所述分類詞語(yǔ)標(biāo)注分類結(jié)果的種類數(shù)量,yi為所述分類詞語(yǔ)的第i種分類結(jié)果的獨(dú)熱編碼表示,pi為所述分類詞語(yǔ)在第i種分類結(jié)果下的出現(xiàn)頻率,i為0到c-1之間的整數(shù)。

      26、在一些可選的實(shí)施方式中,所述對(duì)所述多個(gè)分類詞語(yǔ)的交叉熵進(jìn)行歸一化處理,得到所述多個(gè)分類詞語(yǔ)的分類影響參數(shù),包括:

      27、刪除所述多個(gè)分類詞語(yǔ)中交叉熵小于預(yù)設(shè)閾值的分類詞語(yǔ);

      28、針對(duì)每個(gè)分類詞語(yǔ),利用以下歸一化公式計(jì)算所述每個(gè)分類詞語(yǔ)的分類影響參數(shù):

      29、weightn=(lossn-min(loss))/(max(loss)-min(loss));

      30、其中,weightn表示對(duì)第n個(gè)分類詞語(yǔ)的分類影響參數(shù),lossn表示第n個(gè)分類詞語(yǔ)的交叉熵,min(loss)表示所述多個(gè)分類詞語(yǔ)的交叉熵中的最小值,max(loss)表示所述多個(gè)分類詞語(yǔ)的交叉熵中的最大值。

      31、第二方面,本公開的實(shí)施例提供了一種文本分類裝置,所述裝置包括:

      32、第一獲取模塊,用于獲取待分類文本和預(yù)設(shè)分類詞庫(kù),所述預(yù)設(shè)分類詞庫(kù)對(duì)應(yīng)存儲(chǔ)分類詞語(yǔ)、分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù);

      33、第一提取模塊,用于在所述待分類文本中,提取包含在預(yù)設(shè)分類詞庫(kù)中的詞語(yǔ),作為匹配詞語(yǔ);

      34、統(tǒng)計(jì)模塊,用于根據(jù)所述匹配詞語(yǔ)、所述匹配詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù),得到至少一個(gè)分類標(biāo)識(shí)及所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值;

      35、結(jié)果模塊,用于選取符合第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。

      36、第四方面,本公開的實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被一個(gè)或多個(gè)處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。

      37、第五方面,本公開的實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,上述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。

      38、為了實(shí)現(xiàn)弱語(yǔ)境環(huán)境下的文本分類,本公開的實(shí)施例提供的文本分類方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品,通過(guò)先獲取待分類文本和預(yù)設(shè)分類詞庫(kù),所述預(yù)設(shè)分類詞庫(kù)對(duì)應(yīng)存儲(chǔ)分類詞語(yǔ)、分類詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù);再在所述待分類文本中,提取包含在所述預(yù)設(shè)分類詞庫(kù)中的詞語(yǔ),作為匹配詞語(yǔ);然后,根據(jù)所述匹配詞語(yǔ)、所述匹配詞語(yǔ)的分類標(biāo)識(shí)和分類影響參數(shù),得到至少一個(gè)分類標(biāo)識(shí)及所述至少一個(gè)分類標(biāo)識(shí)對(duì)應(yīng)的總影響參數(shù)值;最后,選取滿足第一預(yù)設(shè)條件的總影響參數(shù)值對(duì)應(yīng)的分類標(biāo)識(shí)作為所述待分類文本的分類結(jié)果。這樣,提取出待分類文本的關(guān)鍵性分類詞語(yǔ),并利用分類影響參數(shù),精準(zhǔn)客觀的從多個(gè)關(guān)鍵性分類詞中選取待分類文本匹配的分類結(jié)果,不僅不需要依賴語(yǔ)境,而且更加高效、準(zhǔn)確、靈活且可擴(kuò)展。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1