詞典降維方法及裝置、信息分類方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別是涉及一種詞典降維方法及裝置、信息分類方法及裝置。
【背景技術(shù)】
[0002]目前,在自然語言處理過程中,經(jīng)常需要先將文本分配到對(duì)應(yīng)的處理模塊中,提高執(zhí)行的效率。如文本描述內(nèi)容分類、文本情感分類、廣告類別、垃圾郵件過濾系統(tǒng)中分類。在這些分類處理中需要構(gòu)建詞典,用于對(duì)文本內(nèi)容進(jìn)行向量化。由于并不是每一個(gè)出現(xiàn)過的詞對(duì)于分類都能夠產(chǎn)生影響,因此需要盡可能使得產(chǎn)生的詞典越小越好,從而有效的降低計(jì)算的復(fù)雜度。
[0003]在現(xiàn)有技術(shù)中,基于SVD、LDA、PCA的降維方法都是基于矩陣分解來實(shí)現(xiàn)降維效果的,其準(zhǔn)確率較高,但是由于大矩陣分解的效率較低,所以利用上述方法降維需要耗費(fèi)大量的時(shí)間,通過多次調(diào)優(yōu)也很難達(dá)到最優(yōu)的結(jié)果。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的詞典降維方法及裝置、信息分類方法及裝置。
[0005]本發(fā)明提供一種詞典降維方法,包括:
[0006]對(duì)從問答日志中獲取的語料進(jìn)行預(yù)處理,得到文本數(shù)據(jù);
[0007]對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,得到多個(gè)語料詞語;
[0008]對(duì)語料詞語進(jìn)行過濾處理,得到包括多個(gè)關(guān)鍵詞的詞典;
[0009]根據(jù)問答日志統(tǒng)計(jì)語料涉及到的信息分類,計(jì)算詞典中每個(gè)關(guān)鍵詞的信息熵,將信息熵小于信息熵閾值的關(guān)鍵詞從詞典中刪除,其中,信息熵表示該關(guān)鍵詞在各信息分類中出現(xiàn)的概率。
[0010]本發(fā)明提供一種信息分類方法,包括:上述詞典降維方法。
[0011]本發(fā)明還提供了一種詞典降維裝置,包括:
[0012]預(yù)處理模塊,用于對(duì)從問答日志中獲取的語料進(jìn)行預(yù)處理,得到文本數(shù)據(jù);
[0013]分詞模塊,用于對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,得到多個(gè)語料詞語;
[0014]過濾模塊,用于對(duì)語料詞語進(jìn)行過濾處理,得到包括多個(gè)關(guān)鍵詞的詞典;
[0015]計(jì)算模塊,用于根據(jù)問答日志統(tǒng)計(jì)語料涉及到的信息分類,計(jì)算詞典中每個(gè)關(guān)鍵詞的信息熵,將信息熵小于信息熵閾值的關(guān)鍵詞從詞典中刪除,其中,信息熵表示該關(guān)鍵詞在各信息分類中出現(xiàn)的概率。
[0016]本發(fā)明提供一種信息分類裝置,包括:上述詞典降維裝置。
[0017]本發(fā)明有益效果如下:
[0018]通過利用詞在不同類別中的信息熵快速過濾候選詞對(duì)構(gòu)建的詞典進(jìn)行降維,解決了現(xiàn)有技術(shù)中的詞典降維方法需要耗費(fèi)大量的時(shí)間,通過多次調(diào)優(yōu)也不能達(dá)到最優(yōu)結(jié)果的問題,能夠快速的過濾對(duì)分類無用的詞語對(duì)詞典進(jìn)行降,降維后的詞典對(duì)于分類結(jié)果具有很好的準(zhǔn)確率。
[0019]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0020]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0021 ]圖1是本發(fā)明實(shí)施例的詞典降維方法的流程圖;
[0022]圖2是本發(fā)明實(shí)施例的詞典降維方法的詳細(xì)處理的流程圖;
[0023]圖3是本發(fā)明實(shí)施例的詞典降維裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0024]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0025]為了解決現(xiàn)有技術(shù)中的詞典降維方法需要耗費(fèi)大量的時(shí)間,通過多次調(diào)優(yōu)也不能達(dá)到最優(yōu)結(jié)果的問題,本發(fā)明提供了一種詞典降維方法及裝置以及信息分類方法及裝置,以下結(jié)合附圖以及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。
[0026]方法實(shí)施例一
[0027]根據(jù)本發(fā)明的實(shí)施例,提供了一種詞典降維方法,圖1是本發(fā)明實(shí)施例的詞典降維方法的流程圖,如圖1所示,根據(jù)本發(fā)明實(shí)施例的詞典降維方法包括如下處理:
[0028]步驟101,對(duì)從問答日志中獲取的語料進(jìn)行預(yù)處理,得到文本數(shù)據(jù);在步驟101中,預(yù)處理包括:將語料數(shù)據(jù)的格式統(tǒng)一為文本格式,過濾臟詞、敏感詞和停用詞中的一種或多種,并將過濾后的文本數(shù)據(jù)按照標(biāo)點(diǎn)劃分為多行。例如,上述標(biāo)點(diǎn)可以是問號(hào)、嘆號(hào)、分號(hào)或句號(hào)等,也就是說,可以將過濾后的文本數(shù)據(jù)按照問號(hào)、嘆號(hào)、分號(hào)或句號(hào)劃分為多行。
[0029]步驟102,對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,得到多個(gè)語料詞語;在步驟102中,分詞處理采用字典雙向最大匹配法、viterbi方法、HMM方法和CRF方法中的一種或多種。
[0030]步驟103,對(duì)語料詞語進(jìn)行過濾處理,得到包括多個(gè)關(guān)鍵詞的詞典;在步驟103中,過濾處理可以采用以下任一種或兩種方式:
[0031 ]方式一:根據(jù)詞性對(duì)語料詞語進(jìn)行過濾,保留名詞、動(dòng)詞以及形容詞;
[0032]方式二:根據(jù)頻次對(duì)語料詞語進(jìn)行過濾,保留頻次大于頻次閾值的語料詞語,其中,頻次是指語料詞語在語料數(shù)據(jù)中出現(xiàn)的頻率或者次數(shù)。
[0033]本實(shí)施例中,先根據(jù)詞性對(duì)語料詞語進(jìn)行過濾,僅保留名詞、動(dòng)詞以及形容詞,去除其它詞性的語料詞語;然后根據(jù)頻次對(duì)保留的名詞、動(dòng)詞以及形容詞進(jìn)行過濾,保留頻次大于頻次閾值的語料詞語,從而字典中為頻次大于頻次閾值的名詞、動(dòng)詞和形容詞。
[0034]在本發(fā)明的其它實(shí)施例中,可以僅根據(jù)詞性進(jìn)行過濾,也可以僅根據(jù)頻次進(jìn)行過濾,還可以先根據(jù)頻次進(jìn)行過濾再根據(jù)詞性進(jìn)行過濾,其都在本發(fā)明的保護(hù)范圍之內(nèi)。
[0035]步驟104,根據(jù)問答日志統(tǒng)計(jì)語料涉及到的信息分類,計(jì)算詞典中每個(gè)關(guān)鍵詞的信息熵,將信息熵小于信息熵閾值的關(guān)鍵詞從詞典中刪除,其中,信息熵表示該關(guān)鍵詞在各信息分類中出現(xiàn)的概率。
[0036]優(yōu)選地,根據(jù)詞典的用途不同,步驟104中的信息分類可以為語料所涉及的意圖類另IJ,其中,上述意圖類別包括:天氣、購物、工作、旅游等等;當(dāng)然,意圖類別僅僅是信息分類中的一種分類方式,根據(jù)詞典的用戶不同,信息分類也隨之變化。
[0037]在信息分類可以為語料所涉及的意圖類別的情況下,計(jì)算詞典中關(guān)鍵詞的信息熵包括:計(jì)算詞典中每個(gè)關(guān)鍵詞在每個(gè)意圖類別中出現(xiàn)的概率。
[0038]信息熵的計(jì)算公式為:H(X)=-Xp(Xi)logp(xi),其中,H(X)表示關(guān)鍵詞的信息熵,P(X1)表示關(guān)鍵詞在第i個(gè)意圖類別中出現(xiàn)的概率,i = l,2,…,n,n為意圖類別的個(gè)數(shù)。
[0039]以下結(jié)合附圖,對(duì)本發(fā)明實(shí)施例的上述技術(shù)方案進(jìn)行詳細(xì)說明。
[0040]在本實(shí)例中,通過關(guān)鍵詞在不同意圖類別中的信息熵快速的過濾對(duì)分類無用的關(guān)鍵詞從而對(duì)詞典進(jìn)行降維,具體包括如下處理:
[0041]步驟I,將獲取的語料數(shù)據(jù)的格式統(tǒng)一為文本格式,得到文本數(shù)據(jù),并過濾無效的格式,去除臟詞、敏感詞和停用詞等詞;對(duì)處理后的語料按大標(biāo)點(diǎn)(問號(hào)、嘆號(hào)、分號(hào)以及句號(hào))分割成行保存。
[0042]步驟2,利用分詞引擎對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,得到多個(gè)語料詞語,可以采用字典雙向最大匹配法、viterbi方法、HMM方法和CRF方法等進(jìn)行分詞。
[0043]步驟3,對(duì)所述語料詞語進(jìn)行過濾處理,得到包括多個(gè)關(guān)鍵詞的詞典,并對(duì)構(gòu)建的詞典進(jìn)行降維處理,圖2是本發(fā)明實(shí)施例的詞典降維方法的詳細(xì)處理的流程圖,如圖2所示,步驟3具體包括如下處理:
[0044]步驟201,根據(jù)詞性對(duì)語料詞語進(jìn)行過濾,保留名詞、動(dòng)詞以及形容詞