国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文本分類的方法和裝置與流程

      文檔序號:11519791閱讀:276來源:國知局
      文本分類的方法和裝置與流程

      本公開涉及數(shù)據(jù)處理領域,具體地,涉及一種文本分類的方法和裝置。



      背景技術:

      隨著互聯(lián)網(wǎng)的發(fā)展,新聞聚合類網(wǎng)站能夠對在互聯(lián)網(wǎng)上傳輸?shù)拇罅啃侣勑畔⑦M行分類,例如將信息分為社會類、體育類以及娛樂類等類型的信息,從而方便用戶查看。

      現(xiàn)有的新聞聚合類網(wǎng)站大多會從其他網(wǎng)站中抓取新聞信息,并根據(jù)新聞信息中記載的文本內容通過特定的分類算法對新聞信息進行分類,一種常見的分類方法是樸素貝葉斯分類,但是這種方法有一個假設,就是各個詞之間彼此是相互獨立的,但是在實際情況中一個句子中前后的詞語可能并不獨立,因此,現(xiàn)有的分類方法無法準確對文本進行分類。



      技術實現(xiàn)要素:

      本公開的目的是提供一種文本分類的方法和裝置,以至少解決現(xiàn)有技術中文本分類不準確的技術問題。

      為了實現(xiàn)上述目的,本公開提供一種文本分類的方法,包括:獲取多個樣本文本;對每個樣本文本進行分詞處理得到多個詞語,并獲取每個所述詞語的詞性信息;根據(jù)所述多個詞語和每個詞語對應的詞性信息建立神經(jīng)網(wǎng)絡分類模型;將待分類的文本作為所述神經(jīng)網(wǎng)絡分類模型的輸入,得到所述待分類的文本的類型。

      可選地,所述根據(jù)所述多個詞語和每個詞語對應的詞性信息建立神經(jīng)網(wǎng)絡分類模型包括:按照預設處理方式對所述分類樣本集中的每個樣本文本進行處理得到所述每個樣本文本的文本向量;根據(jù)每個樣本文本的文本向量建立神經(jīng)網(wǎng)絡分類模型;其中,所述預設處理方式包括:根據(jù)目標樣本文本的每個詞語和對應的詞性信息生成所述目標樣本文本的每個詞語對應的詞語向量;其中,所述目標樣本文本為所述分類樣本集中的任一樣本文本;根據(jù)所述每個詞語對應的詞語向量生成所述目標樣本文本對應的二叉樹;其中,所述二叉樹的葉節(jié)點分別對應所述每個詞語向量,所述二叉樹的根節(jié)點對應所述目標文本的文本向量;根據(jù)所述詞語向量通過所述二叉樹獲取所述目標樣本文本的文本向量。

      可選地,所述根據(jù)所述每個詞語對應的詞語向量生成所述目標樣本文本對應的二叉樹包括:獲取每個詞語在所述目標文本中的詞語順序;根據(jù)所述詞語順序確定所述目標文本中第一個詞語對應的第一節(jié)點和第二個詞語對應的第二節(jié)點,并建立所述第一節(jié)點和所述第二節(jié)點的第一父節(jié)點;確定第三個詞語對應的第三節(jié)點,并建立所述第三節(jié)點與所述第一父節(jié)點的第二父節(jié)點,繼續(xù)按照所述詞語順序確定第四個詞語對應的第四節(jié)點,并建立所述第四節(jié)點與所述第二父節(jié)點的第三父節(jié)點,直至按照所述詞語順序確定出最后一個詞語對應的節(jié)點的父節(jié)點,得到所述二叉樹。

      可選地,所述根據(jù)所述詞語向量通過所述二叉樹獲取所述目標樣本文本的文本向量包括:根據(jù)每個詞語的詞性確定所述二叉樹中每個父節(jié)點對應的組合詞性;獲取每個組合詞性對應的第一分類權重,并將所述第一分類權重中相同詞性的組合詞性對應的第一分類權重相加,得到第二分類權重;根據(jù)所述詞語向量和所述每個父節(jié)點對應的組合詞性以及所述第二分類權重,從所述二叉樹的最底層依次向上計算所述二叉樹每個父節(jié)點對應的組合向量,直至得到所述根節(jié)點對應的文本向量。

      可選地,所述獲取每個組合詞性對應的第一分類權重包括:

      獲取每個父節(jié)點對應的誤差值;

      根據(jù)所述誤差值按照以下公式計算得到所述每個父節(jié)點對應的第一分類權重:

      其中,wi為第i個父節(jié)點的第一分類權重,e(θ)為預設目標函數(shù),m為第i個父節(jié)點對應的一個子節(jié)點和第i個父節(jié)點對應的另一個子節(jié)點的詞語向量組合得到的詞組向量,δi為第i個父節(jié)點對應的誤差值,θ為該目標樣本文本中每個組合詞性對應的第一分類權重。

      本公開還提供一種文本分類的裝置,包括:獲取模塊,用于獲取多個樣本文本;處理模塊,用于對每個樣本文本進行分詞處理得到多個詞語,并獲取每個所述詞語的詞性信息;模型建立模塊,用于根據(jù)所述多個詞語和每個詞語對應的詞性信息建立神經(jīng)網(wǎng)絡分類模型;分類模塊,用于將待分類的文本作為所述神經(jīng)網(wǎng)絡分類模型的輸入,得到所述待分類的文本的類型。

      可選地,所述模型建立模塊,包括:處理子模塊,用于按照預設處理方式對所述分類樣本集中的每個樣本文本進行處理得到所述每個樣本文本的文本向量;模型建立子模塊,用于根據(jù)每個樣本文本的文本向量建立神經(jīng)網(wǎng)絡分類模型;其中,所述預設處理方式包括:根據(jù)目標樣本文本的每個詞語和對應的詞性信息生成所述目標樣本文本的每個詞語對應的詞語向量;其中,所述目標樣本文本為所述分類樣本集中的任一樣本文本;根據(jù)所述每個詞語對應的詞語向量生成所述目標樣本文本對應的二叉樹;其中,所述二叉樹的葉節(jié)點分別對應所述每個詞語向量,所述二叉樹的根節(jié)點對應所述目標文本的文本向量;根據(jù)所述詞語向量通過所述二叉樹獲取所述目標樣本文本的文本向量。

      可選地,所述處理子模塊,用于所述處理子模塊,用于獲取每個詞語在所述目標文本中的詞語順序;根據(jù)所述詞語順序確定所述目標文本中第一個詞語對應的第一節(jié)點和第二個詞語對應的第二節(jié)點,并建立所述第一節(jié)點和所述第二節(jié)點的第一父節(jié)點;確定第三個詞語對應的第三節(jié)點,并建立所述第三節(jié)點與所述第一父節(jié)點的第二父節(jié)點,繼續(xù)按照所述詞語順序確定第四個詞語對應的第四節(jié)點,并建立所述第四節(jié)點與所述第二父節(jié)點的第三父節(jié)點,直至按照所述詞語順序確定出最后一個詞語對應的節(jié)點的父節(jié)點,得到所述二叉樹。

      可選地,所述處理子模塊,用于根據(jù)每個詞語的詞性確定所述二叉樹中每個父節(jié)點對應的組合詞性;獲取每個組合詞性對應的第一分類權重,并將所述第一分類權重中相同詞性的組合詞性對應的第一分類權重相加,得到第二分類權重;根據(jù)所述詞語向量和所述每個父節(jié)點對應的組合詞性以及所述第二分類權重,從所述二叉樹的最底層依次向上計算所述二叉樹每個父節(jié)點對應的組合向量,直至得到所述根節(jié)點對應的文本向量。

      可選地,所述處理子模塊,用于確定每個父節(jié)點對應的誤差值,并根據(jù)所述誤差值按照以下公式計算得到每個父節(jié)點對應的第一分類權重:

      其中,wi為第i個父節(jié)點的第一分類權重,e(θ)為預設目標函數(shù),m為第i個父節(jié)點對應的一個子節(jié)點和第i個父節(jié)點對應的另一個子節(jié)點的詞語向量組合得到的詞組向量,δi為第i個父節(jié)點對應的誤差值,θ為該目標樣本文本中每個組合詞性對應的第一分類權重。

      通過上述技術方案,獲取分類樣本集,該分類樣本集包括多個樣本文本;對每個樣本文本進行分詞處理得到多個詞語,并獲取該每個詞語的詞性信息;根據(jù)該多個詞語和每個詞語對應的詞性信息建立神經(jīng)網(wǎng)絡分類模型;將待分類的文本作為該神經(jīng)網(wǎng)絡分類模型的輸入,得到該待分類的文本的類型。這樣,在樣本文本原有詞語的基礎上進一步考慮詞語的詞性信息,將詞性信息融入神經(jīng)網(wǎng)絡的模型訓練中得到神經(jīng)網(wǎng)絡分類模型,并通過得到的神經(jīng)網(wǎng)絡分類模型對待分類的文本進行分類,從而在后續(xù)對待分類的文本進行分類時,能夠得到準確的分類結果。

      本公開的其他特征和優(yōu)點將在隨后的具體實施方式部分予以詳細說明。

      附圖說明

      附圖是用來提供對本公開的進一步理解,并且構成說明書的一部分,與下面的具體實施方式一起用于解釋本公開,但并不構成對本公開的限制。在附圖中:

      圖1是本發(fā)明實施例提供的一種文本分類的方法的流程示意圖;

      圖2是本發(fā)明實施例提供的一種二叉樹的示意圖;

      圖3是本發(fā)明實施例提供的一種文本分類的裝置的結構示意圖;

      圖4是本發(fā)明實施例提供的另一種文本分類的裝置的結構示意圖。

      具體實施方式

      以下結合附圖對本公開的具體實施方式進行詳細說明。應當理解的是,此處所描述的具體實施方式僅用于說明和解釋本公開,并不用于限制本公開。

      本發(fā)明公開了一種文本分類的方法和裝置,該方法在樣本文本原有詞語的基礎上進一步考慮詞語的詞性信息,將詞性信息融入神經(jīng)網(wǎng)絡的模型訓練中得到神經(jīng)網(wǎng)絡分類模型,并通過得到的神經(jīng)網(wǎng)絡分類模型對待分類的文本進行分類,從而在后續(xù)對待分類的文本進行分類時,能夠得到準確的分類結果。

      下面結合具體實施例對本發(fā)明進行詳細說明。

      圖1為本發(fā)明實施例提供的一種文本分類的方法,如圖1所示,包括:

      s101、獲取多個樣本文本。

      s102、對每個樣本文本進行分詞處理得到多個詞語,并獲取每個詞語的詞性信息。

      其中,該詞性信息可以包括名詞、動詞或者助詞等詞性信息。

      在本步驟中,分詞處理可以包括多種方法,如字符匹配的方法,這種方法又叫做機械分詞方法,它是按照預設策略將待分析的文本與一個預設詞典中的詞條進行匹配,若在詞典中找到某個詞條,則匹配成功,從而識別出一個詞語。

      需要說明的是,由于一些詞語如“啊”“噢”“嘛”“的”等停用詞,并無實際的意義,只是表示語氣,如果將這些詞也加入到后續(xù)的模型訓練中,會造成計算復雜度過大的問題,從而占用較多的數(shù)據(jù)處理資源。因此,為了解決該問題,在本發(fā)明另一實施例中,在對每個樣本文本進行分詞處理得到多個詞語后,可以將停用詞去除,在一種可能的實現(xiàn)方式中,在得到分詞處理后的詞語后,可以確定預設停用詞詞典中是否包括得到的詞語,若包括該詞語,則去掉該詞語。這樣,能夠將沒有實際意義的詞語去掉,從而在保證分類結果準確性的情況下,減少后續(xù)模型訓練過程中的計算復雜度。

      在得到該多個詞語后,即可根據(jù)預設的詞性數(shù)據(jù)庫確定該多個詞語的詞性信息,該詞性數(shù)據(jù)庫包括預先建立的詞語與詞性的對應關系。

      s103、根據(jù)該多個詞語和每個詞語對應的詞性信息建立神經(jīng)網(wǎng)絡分類模型。

      在一種可能的實現(xiàn)方式中,本步驟可以按照預設處理方式對該分類樣本集中的每個樣本文本進行處理得到該每個樣本文本的文本向量,并根據(jù)每個樣本文本的文本向量建立神經(jīng)網(wǎng)絡分類模型。

      示例地,該預設處理方式可以包括以下步驟:

      s1、根據(jù)目標樣本文本的每個詞語和對應的詞性信息生成該目標樣本文本的每個詞語對應的詞語向量。

      其中,該目標樣本文本為該多個樣本文本中的任一樣本文本。

      在本步驟中,可以將詞語的詞性向量追加在該詞語的詞向量的后面得到詞語向量。

      s2、根據(jù)該每個詞語對應的詞語向量生成該目標樣本文本對應的二叉樹。

      其中,該二叉樹的葉節(jié)點分別對應該每個詞語向量,該二叉樹的根節(jié)點對應該目標文本的文本向量。

      在本步驟中,可以獲取每個詞語在該目標文本中的詞語順序,并根據(jù)該詞語順序確定該目標文本中第一個詞語對應的第一節(jié)點和第二個詞語對應的第二節(jié)點,并建立該第一節(jié)點和該第二節(jié)點的第一父節(jié)點;確定第三個詞語對應的第三節(jié)點,并建立該第三節(jié)點與該第一父節(jié)點的第二父節(jié)點,繼續(xù)按照該詞語順序確定第四個詞語對應的第四節(jié)點,并建立該第四節(jié)點與該第二父節(jié)點的第三父節(jié)點,直至按照該詞語順序確定出最后一個詞語對應的節(jié)點的父節(jié)點,得到該二叉樹。

      示例地,結合圖2對該二叉樹的建立進行說明,如圖2所示,以目標樣本文本“經(jīng)典哲學有嗎”為例進行說明,若該目標樣本文本經(jīng)過步驟s102中的分詞處理后得到的分詞結果為“經(jīng)典”、“哲學”、“有”、“嗎”四個詞語,則將這四個詞語依次作為二叉樹的葉節(jié)點,如圖2中的葉節(jié)點分別從左至右依次對應“經(jīng)典”、“哲學”、“有”、“嗎”,并建立詞語“經(jīng)典”對應的節(jié)點和詞語“哲學”對應的節(jié)點的第一父節(jié)點,建立第一父節(jié)點和詞語“有”對應的節(jié)點的第二父節(jié)點,并繼續(xù)建立第二父節(jié)點和詞語“嗎”對應的節(jié)點的第三父節(jié)點,則該第三父節(jié)點即為該二叉樹的根節(jié)點,從而得到該二叉樹。

      s3、根據(jù)該詞語向量通過該二叉樹獲取該目標樣本文本的文本向量。

      在本步驟中,可以通過以下方式得到該目標樣本文本的文本向量:

      首先,根據(jù)每個詞語的詞性確定該二叉樹中每個父節(jié)點對應的組合詞性。

      其中,每個父節(jié)點對應的詞組的詞性信息可以與該詞組最后一個詞語的詞性信息相同,因此,根據(jù)詞語的詞性即可得到每個父節(jié)點的組合詞性。

      示例地,繼續(xù)以圖2為例進行說明,“經(jīng)典”、“哲學”、“有”、“嗎”四個詞語的詞性信息分別為:“經(jīng)典”為名詞(n),“哲學”為名詞,“有”為動詞(v),“嗎”為助詞(w),則第一父節(jié)點相當于對應詞組“經(jīng)典哲學”,且該詞組的組合詞性與詞語“哲學”的詞性信息相同,為名詞;該第二父節(jié)點相當于對應詞組“經(jīng)典哲學有”,且該詞組的組合詞性與詞語“有”的詞性信息相同,為動詞;該根節(jié)點相當于對應詞組“經(jīng)典哲學有嗎”,且該詞組的組合詞性與詞語“嗎”的詞性信息相同,為助詞,從而得到每個父節(jié)點對應的組合詞性。

      其次,獲取每個組合詞性對應的第一分類權重,并將該第一分類權重中相同詞性的組合詞性對應的第一分類權重相加,得到第二分類權重。

      在一種可能的實現(xiàn)方式中,可以通過以下方式獲取該第一分類權重:

      獲取每個父節(jié)點對應的誤差值,并根據(jù)該誤差值按照以下公式計算得到該每個父節(jié)點對應的第一分類權重:

      其中,wi為第i個父節(jié)點的分類權重,e(θ)為預設目標函數(shù),m為第i個父節(jié)點對應的一個子節(jié)點和第i個父節(jié)點對應的另一個子節(jié)點的詞語向量組合得到的詞組向量,δi為第i個父節(jié)點對應的誤差值,θ為該目標樣本文本中每個組合詞性對應的第一分類權重。

      這里,可以計算根節(jié)點的誤差值,以及下傳至該根節(jié)點的子節(jié)點的下傳誤差,并根據(jù)該下傳誤差得到該根節(jié)點的每個子節(jié)點對應的誤差值,以此類推,從根節(jié)點開始,沿著生成的二叉樹依次遍歷各個節(jié)點,即可得到每個父節(jié)點對應的誤差值,由于每個父節(jié)點對應的誤差值的計算與現(xiàn)有技術中相同,因此,此處不再贅述。

      下面,繼續(xù)以圖2所示的二叉樹為例對第一分類權重的計算進行說明,為了方便說明,可以將“經(jīng)典”對應的詞語向量記為a,將“哲學”對應的詞語向量記為b,將“有”對應的詞語向量記為c,將“嗎”對應的詞語向量記為d,則第一父節(jié)點對應的詞語向量為a和b組合后的詞組向量m1,第二父節(jié)點對應的詞語向量為m1和c組合后的詞組向量m2,根節(jié)點對應的詞語向量為m2和d組合后的詞組向量ms。

      其中,上述組合的詞組向量可以采用多種方式進行組合,如將兩個詞組向量相加,或者按照詞語在目標文本樣本中的順序,將順序靠后的詞語的詞向量追加在前一詞語或者詞組的向量的后面,以m1為例,若a為(10000),b為(01000),則可以將a和b相加得到m1(11000),也可以將b追加至a的后面得到m1(1000001000),當然,還可以是其他組合方式,這里只是舉例說明,本發(fā)明對此不作限定,m2和ms可以參照m1的組合方式,不再贅述,但是對于同一次計算,m1、m2和ms應采用相同的組合方式。

      對于圖2所示的二叉樹,在得到組合的詞組向量后,可以通過以下公式計算第一父節(jié)點對應的第一分類權重,

      其中,為第一父節(jié)點對應的第一分類權重,e(θ)為預設目標函數(shù),m1為a和b組合得到的詞組向量,δ1為第一父節(jié)點對應的誤差值。

      通過以下公式計算第二父節(jié)點對應的第一分類權重,

      其中,為第二父節(jié)點對應的第一分類權重,e(θ)為預設目標函數(shù),m2為m1和c組合得到的詞組向量,δ2為第二父節(jié)點對應的誤差值。

      通過以下公式計算根節(jié)點對應的第一分類權重,

      其中,為根節(jié)點對應的第一分類權重,e(θ)為預設目標函數(shù),ms為m2和d組合得到的詞組向量,δ3為根節(jié)點對應的誤差值。

      在一種可能的實現(xiàn)方式中,上述預設目標函數(shù)e(θ)可以是:

      其中,j表示多個樣本文本中的第j個樣本文本(在本實施例中可以為目標樣本文本),num為多個樣本文本的數(shù)量,tr表示該第j個樣本文本的類型,yr表示該第j個樣本文本的預測類型,該預測類型為根據(jù)每個父節(jié)點預設的初始權重得到的樣本文本的類型,該初始權重可以是一個非0的隨機數(shù),γ為預設參數(shù),θ表示第j個樣本文本中每個組合詞性對應的第一分類權重。

      這里,該預設目標函數(shù)可以是通過樣本文本對該預設目標函數(shù)訓練后的函數(shù),在訓練過程中,使得該預測類型不斷趨于樣本文本的類型,預測類型越接近樣本文本的類型,對應的第一分類權重越準確。

      在得到第一分類權重后,可以將相同詞性的組合詞性對應的第一分類權重相加得到第二分類權重,從而得到不同組合詞性對應的分類權重。

      最后,根據(jù)該詞語向量和該每個父節(jié)點對應的組合詞性以及該第二分類權重,從該二叉樹的最底層依次向上計算該二叉樹每個父節(jié)點對應的組合向量,直至得到該根節(jié)點對應的文本向量。

      其中,在獲取到第二分類權重后,可以通過以下公式從該二叉樹的最底層依次向上計算組合向量p:

      p=f(w2m)

      其中,w2為待計算的父節(jié)點對應的第二分類權重,m為待計算的父節(jié)點對應的詞組向量,f表示的函數(shù)可以是非線性函數(shù),例如,f表示的函數(shù)可以為tanh。

      示例地,對于圖2所示的二叉樹來說,首先,通過以下公式得到第一父節(jié)點對應的組合向量p1:

      這里,由于m1的詞性為名詞,則即為名詞對應的第二分類權重。

      其次,通過以下公式得到第二父節(jié)點對應的組合向量p2:

      這里,由于m2的詞性為動詞,則即為動詞對應的第二分類權重。

      最后,通過以下公式得到根節(jié)點對應的組合向量s(即文本向量):

      這里,由于ms的詞性為助詞,則即為助詞對應的第二分類權重。

      這樣,通過上述步驟s1至步驟s3即可得到獲取的每個樣本文本的文本向量,在得到每個樣本文本的文本向量后,可以根據(jù)得到的文本向量通過神經(jīng)網(wǎng)絡進行訓練,得到神經(jīng)網(wǎng)絡分類模型,在一種可能的實現(xiàn)方式中,可以獲取預設分類權重矩陣,并根據(jù)該預設分類權重矩陣通過softmax函數(shù)得到該神經(jīng)網(wǎng)絡分類模型。

      例如,通過以下函數(shù)得到該神經(jīng)網(wǎng)絡分類模型y:

      y=softmax(wss)

      其中,s為文本樣本對應的文本向量,ws為該預設分類權重矩陣。該預設分類權重矩陣包括不同詞組和詞性屬于每個類別的概率。

      s104、將待分類的文本作為該神經(jīng)網(wǎng)絡分類模型的輸入,得到該待分類的文本的類型。

      在本步驟中,在得到該待分類的文本后,可以通過上述步驟s1至步驟s3獲取該待分類文本的文本向量,并將該文本向量作為上述神經(jīng)網(wǎng)絡分類模型的輸入,從而得到該待分類的文本的類型。

      示例地,在對一則新聞進行分類時,可以通過上述步驟s1至步驟s3獲取該新聞中的每句話(相當于待分類的文本)的文本向量,并將該文本向量作為該神經(jīng)網(wǎng)絡分類模型的輸入,并確定每個文本對應的類型,并確定數(shù)量最多的類型為該新聞的類型,例如,若該新聞數(shù)量最多的文本的類型為社會類,則確定該新聞的類型為社會類,若該新聞數(shù)量最多的文本的類型為娛樂類,則確定該新聞的類型為娛樂類,若該新聞數(shù)量最多的文本的類型為體育類,則確定該新聞的類型為體育類。

      采用上述方法,在樣本文本原有詞語的基礎上進一步考慮詞語的詞性信息,將詞性信息融入神經(jīng)網(wǎng)絡的模型訓練中得到神經(jīng)網(wǎng)絡分類模型,并通過得到的神經(jīng)網(wǎng)絡分類模型對待分類的文本進行分類,從而在后續(xù)對待分類的文本進行分類時,能夠得到準確的分類結果。

      圖3為本發(fā)明實施例提供的一種文本分類的裝置,如圖3所示,包括:

      獲取模塊301,用于獲取多個樣本文本;

      處理模塊302,用于對每個樣本文本進行分詞處理得到多個詞語,并獲取每個該詞語的詞性信息;

      模型建立模塊303,用于根據(jù)該多個詞語和每個詞語對應的詞性信息建立神經(jīng)網(wǎng)絡分類模型;

      分類模塊304,用于將待分類的文本作為該神經(jīng)網(wǎng)絡分類模型的輸入,得到該待分類的文本的類型。

      可選地,如圖4所示,該模型建立模塊303,包括:

      處理子模塊3031,用于按照預設處理方式對該分類樣本集中的每個樣本文本進行處理得到該每個樣本文本的文本向量;

      模型建立子模塊3032,用于根據(jù)每個樣本文本的文本向量建立神經(jīng)網(wǎng)絡分類模型;

      其中,該預設處理方式包括:

      根據(jù)目標樣本文本的每個詞語和對應的詞性信息生成該目標樣本文本的每個詞語對應的詞語向量;其中,該目標樣本文本為該分類樣本集中的任一樣本文本;

      根據(jù)該每個詞語對應的詞語向量生成該目標樣本文本對應的二叉樹;其中,該二叉樹的葉節(jié)點分別對應該每個詞語向量,該二叉樹的根節(jié)點對應該目標文本的文本向量;

      根據(jù)該詞語向量通過該二叉樹獲取該目標樣本文本的文本向量。

      可選地,該處理子模塊3031,用于獲取每個詞語在該目標文本中的詞語順序;根據(jù)該詞語順序確定該目標文本中第一個詞語對應的第一節(jié)點和第二個詞語對應的第二節(jié)點,并建立該第一節(jié)點和該第二節(jié)點的第一父節(jié)點;確定第三個詞語對應的第三節(jié)點,并建立該第三節(jié)點與該第一父節(jié)點的第二父節(jié)點,繼續(xù)按照該詞語順序確定第四個詞語對應的第四節(jié)點,并建立該第四節(jié)點與該第二父節(jié)點的第三父節(jié)點,直至按照該詞語順序確定出最后一個詞語對應的節(jié)點的父節(jié)點,得到該二叉樹。

      可選地,該處理子模塊3031,用于根據(jù)每個詞語的詞性確定該二叉樹中每個父節(jié)點對應的組合詞性;獲取每個組合詞性對應的第一分類權重,并將該第一分類權重中相同詞性的組合詞性對應的第一分類權重相加,得到第二分類權重;根據(jù)該詞語向量和該每個父節(jié)點對應的組合詞性以及該第二分類權重,從該二叉樹的最底層依次向上計算該二叉樹每個父節(jié)點對應的組合向量,直至得到該根節(jié)點對應的文本向量。

      可選地,該處理子模塊3031,用于確定每個父節(jié)點對應的誤差值,并根據(jù)該誤差值按照以下公式計算得到每個父節(jié)點對應的第一分類權重:

      其中,wi為第i個父節(jié)點的第一分類權重,e(θ)為預設目標函數(shù),m為第i個父節(jié)點對應的一個子節(jié)點和第i個父節(jié)點對應的另一個子節(jié)點的詞語向量組合得到的詞組向量,δi為第i個父節(jié)點對應的誤差值,θ為該目標樣本文本中每個組合詞性對應的第一分類權重。

      需要說明的是,所屬本領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程和描述,可以參考前述方法實施例中的對應過程,在此不再贅述。

      采用上述裝置,在樣本文本原有詞語的基礎上進一步考慮詞語的詞性信息,將詞性信息融入神經(jīng)網(wǎng)絡的模型訓練中得到神經(jīng)網(wǎng)絡分類模型,并通過得到的神經(jīng)網(wǎng)絡分類模型對待分類的文本進行分類,從而在后續(xù)對待分類的文本進行分類時,能夠得到準確的分類結果。

      以上結合附圖詳細描述了本公開的優(yōu)選實施方式,但是,本公開并不限于上述實施方式中的具體細節(jié),在本公開的技術構思范圍內,可以對本公開的技術方案進行多種簡單變型,這些簡單變型均屬于本公開的保護范圍。

      另外需要說明的是,在上述具體實施方式中所描述的各個具體技術特征,在不矛盾的情況下,可以通過任何合適的方式進行組合,為了避免不必要的重復,本公開對各種可能的組合方式不再另行說明。

      此外,本公開的各種不同的實施方式之間也可以進行任意組合,只要其不違背本公開的思想,其同樣應當視為本公開所公開的內容。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1