專利名稱:文本特征提取策略制定方法及裝置、文本分類方法及裝置的制作方法
技術(shù)領(lǐng)域:
該發(fā)明涉及文本分類方法及裝置,特別涉及基于文本內(nèi)容特征提取的文本分類方法及裝置,還涉及用于該文本分類方法及裝置的文本特征提取策略制定方法及裝置。
背景技術(shù):
文本分類指的是將一篇文檔歸入預(yù)先定義的幾個類別中的一個或幾個,而分類的依據(jù)主要是文本的內(nèi)容特征與預(yù)先定義的類別的相似度。因此,文本內(nèi)容特征的提取(以下,簡稱為“文本特征提取”)是文本分類的核心問題。文本特征提取技術(shù)主要涉及特征抽取、特征篩選、特征權(quán)值計算這三個方面的技術(shù)。特征抽取是指從各個不同的角度和方面抽取文本的各種特征?,F(xiàn)有的技術(shù)主要有詞袋(Bag of Words),例如單元詞、多元詞(二元或三元連續(xù)詞)、文本模式(不連續(xù)的語義關(guān)系)等等,通過詞頻和詞罕見度等指標進行特征抽取。這里,單元詞可以理解為單詞,多元詞可以理解為短語,文本模式可以理解為句子主干。特征篩選是指使用某種算法將最符合某個類別的特征篩選出來,現(xiàn)有的算法包括方差(CHI Square)計算和信息增益 (Information Gain)等方法。特征權(quán)值計算是指對每個抽取的特征進行權(quán)值計算和調(diào)整。作為文本特征提取的技術(shù),有基于文本樣式分析的,這種基于文本樣式分析的文本特征提取,一般用于比較特殊的文本分類,例如文本體裁分類、作者分類、作者性別分類、 作者情緒分類等。即,現(xiàn)有的文本樣式分析技術(shù)雖然比較成熟,但是一般都用于文本樣式特征的提取,而可利用該提取結(jié)果進一步進行文本分類。這對于特殊文本分類應(yīng)用(如作者分類)有一定效果,而對于一般的文本內(nèi)容特征的提取以及基于文本內(nèi)容特征的文本分類應(yīng)用則效果并不好。且,現(xiàn)有的文本特征提取技術(shù),一般只針對某一種或者某一體裁的語料,因此即使可以做針對性很強的優(yōu)化,但往往換了語料之后效果就不好了,也就是適應(yīng)性不夠強。且,現(xiàn)有的文本特征提取技術(shù),其參數(shù)和算法往往需要微調(diào)。這種微調(diào)一般是手工完成的,需要多次反復(fù)試驗才能得到最優(yōu)值,無法自動完成。且,現(xiàn)有的文本特征提取技術(shù),主要考慮分類效果,而對性能要求考慮并不多。這給文本分類系統(tǒng)的商業(yè)應(yīng)用帶來一定問題,特別是性能要求高的手機環(huán)境、實時信息分析等應(yīng)用中問題尤其突出。
發(fā)明內(nèi)容
鑒于上述文本特征抽取技術(shù)中存在的問題,本發(fā)明的目的在于提供一種能夠?qū)τ诖诸愓Z料自動地制定文本特征提取策略的方法,該策略能夠用于基于文本特征的文本分類。為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一種用于文本分類的文本特征提取策略制定方法,包括步驟對于待分類語料進行全局樣式分析,得到全局樣式分析結(jié)果;對經(jīng)過全局樣式分析的待分類語料進行局部樣式分析,得到局部樣式分析結(jié)果;將所述全局樣式分析結(jié)果及所述局部樣式分析結(jié)果整合成文本特征提取策略,并存儲到策略數(shù)據(jù)庫中。并且,上述的文本特征提取策略制定方法,其特征在于所述文本特征提取策略包括語料預(yù)處理參數(shù)、特征抽取類型、特征篩選算法、特征抽取數(shù)量參數(shù)、特征權(quán)值計算參數(shù)、 以及特例文檔概率中的一項或多項。并且,上述的文本特征提取策略制定方法,其特征在于所述全局樣式分析包括步驟調(diào)整所述待分類語料所包含的各類文檔之間的文檔數(shù)量平衡度;預(yù)估分類消耗時間或資源,如果預(yù)估結(jié)果大于預(yù)定值,則對于所述待分類語料進行文本摘要處理;計算特征抽取總體數(shù)量以及所述各類的特征抽取數(shù)量,作為所述全局樣式分析結(jié)果。并且,上述的文本特征提取策略制定方法,其特征在于所述局部樣式分析包括從經(jīng)過所述全局樣式分析的所述待分類語料中抽樣出文檔集合,并從所述文檔集合中抽樣出句子集合;計算所述文檔集合的句子平均長度及長度分布、所述句子集合的句法樹平均深度及深度分布;根據(jù)所述句子平均長度及分布、句法樹平均深度及分布,得到所述特征抽取類型。并且,上述的文本特征提取策略制定方法,其特征在于從經(jīng)過所述全局樣式分析的所述待分類語料中抽樣出文檔集合,計算所述文檔集合的所述特例文檔概率。并且,上述的文本特征提取策略制定方法,其特征在于所述策略數(shù)據(jù)庫所存儲的策略包括用戶直接存儲的策略。根據(jù)本發(fā)明的一種自適應(yīng)文本分類方法,包括步驟對于待分類語料進行全局樣式分析,得到全局樣式分析結(jié)果;對于經(jīng)過所述全局樣式分析的所述待分類語料進行局部樣式分析,得到局部樣式分析結(jié)果;將所述全局樣式分析結(jié)果及所述局部樣式分析結(jié)果整合成文本特征提取策略,并存儲到策略數(shù)據(jù)庫中;將所述文本特征提取策略映射到基于文本特征的文本分類器,并進行所述待分類語料的文本分類。根據(jù)本發(fā)明的一種用于文本分類的文本特征提取策略制定裝置,包括全局樣式分析單元,對于待分類語料進行全局樣式分析,得到全局樣式分析結(jié)果;局部樣式分析單元,對于所述待分類語料進行局部樣式分析,得到局部樣式分析結(jié)果;控制單元,將所述全局樣式分析結(jié)果及所述局部樣式分析結(jié)果整合成文本特征提取策略;策略數(shù)據(jù)庫,用于存儲多個所述文本特征提取策略。根據(jù)本發(fā)明的一種自適應(yīng)文本分類裝置,包括判斷單元,用于判斷是否重新通過文本樣式分析制定文本特征提取策略;策略數(shù)據(jù)庫,用于存儲多個文本特征提取策略;全局樣式分析單元,對于待分類語料進行全局樣式分析,得到全局樣式分析結(jié)果;局部樣式分析單元,對經(jīng)過所述全局樣式分析的所述待分類語料進行局部樣式分析,得到局部樣式分析結(jié)果;控制單元,將所述全局樣式分析結(jié)果及所述局部樣式分析結(jié)果整合成文本特征提取策略,存儲到所述策略數(shù)據(jù)庫;文本分類單元,使用所述文本特征提取策略對于所述待分類語料進行基于文本特征的文本分類。根據(jù)本發(fā)明的文本特征提取策略制定方法及裝置、自適應(yīng)文本分類方法及裝置, 對于各種體裁的待分類語料無需手動,而是能夠通過文本樣式分析得到定文本特征提取策略,并將該策略映射到文本分類器而進行基于文本特征的文本分類。
通過下面結(jié)合附圖進行的描述,本發(fā)明的上述和其他目的和特點將會變得更加清楚,其中圖1是表示根據(jù)本發(fā)明的實施方式的自適應(yīng)文本分類裝置的方框圖;圖2是表示根據(jù)本發(fā)明的實施方式的自適應(yīng)文本分類方法的流程圖;圖3是表示根據(jù)本發(fā)明的實施方式的文本特征提取策略制定方法的具體步驟的流程圖。主要符號說明101為判斷單元;102為全局樣式分析單元;103為局部樣式分析單元;104為控制單元;105為策略數(shù)據(jù)庫;106為文本分類單元;S1010-S1070以及 S2010-S2130 為步驟。
具體實施例方式以下,參照附圖來詳細說明本發(fā)明的實施方式。(實施方式)圖1是表示本發(fā)明的實施方式的自適應(yīng)文本分類裝置的方框圖。圖1中,自適應(yīng)文本分類裝置100包括判斷單元101、全局樣式分析單元102、局部樣式分析單元103、控制單元104、策略數(shù)據(jù)庫105以及文本分類單元106。判斷單元101具有與用戶交互的接口,并根據(jù)用戶的選擇,決定直接從策略數(shù)據(jù)庫105獲取文本特征提取策略或通過文本樣式分析制定文本特征提取策略。具體地說,如果用戶判斷策略數(shù)據(jù)庫105中存在適用于待分類語料的策略,則判斷單元101將用戶的判斷結(jié)果,即指令輸出到控制單元104。如果用戶判斷策略數(shù)據(jù)庫105中不存在適用于待分類語料的策略,則判斷單元101將待分類語料輸出到全局樣式分析單元102。全局樣式分析單元102對于待分類語料進行全局樣式分析,并將得到的全局樣式分析結(jié)果輸出到局部樣式分析單元103及控制單元104。而且,全局樣式分析單元102將經(jīng)過全局樣式分析的待分類語料輸出到局部樣式分析單元103。關(guān)于全局樣式分析將在后詳細說明。局部樣式分析單元103對于經(jīng)過全局樣式分析的待分類語料進行局部樣式分析, 并將得到的局部樣式分析結(jié)果輸出到控制單元104。關(guān)于局部樣式分析將在后詳細說明。控制單元104將全局樣式分析結(jié)果及局部樣式分析結(jié)果整合成文本特征提取策略,并將該策略存儲到策略數(shù)據(jù)庫105,同時利用該文本特征提取策略對文本分類單元106 進行參數(shù)設(shè)置,即將該文本特征提取策略映射到文本分類單元106中?;蛘撸刂茊卧?04 根據(jù)從判斷單元102輸入的用戶指令從策略數(shù)據(jù)庫105中檢索到適用于待分類語料的文本特征提取策略,將該文本特征提取策略映射到文本分類單元106。策略數(shù)據(jù)庫105用于存儲對文本分類單元106進行參數(shù)設(shè)置的多個文本特征提取策略。文本分類單元106通過特征抽取、特征篩選、以及特征權(quán)值計算等操作對于待分類語料進行基于文本特征的文本分類,得到分類結(jié)果。文本分類單元106采用現(xiàn)有的文本分類器,即當(dāng)單獨使用文本分類單元106時,需要用戶手動設(shè)置其參數(shù),例如單元詞或多元詞等特征類型的設(shè)置、以及CHI算法或IG算法等篩選方法的設(shè)置等。但在本實施方式中,文本分類單元106的參數(shù)設(shè)置是通過控制器104的控制來完成的。在圖1的自適應(yīng)文本分類裝置100中,如果將判斷單元101及文本分類單元106 去掉則構(gòu)成根據(jù)本實施方式的文本特征提取策略制定裝置。即全局樣式分析單元102、局部樣式分析單元103、控制單元104以及策略數(shù)據(jù)庫105構(gòu)成根據(jù)本實施方式的文本特征提取策略制定裝置,在此省略該文本特征提取策略制定裝置的圖示。圖2是表示根據(jù)本實施方式的自適應(yīng)文本分類方法的流程圖。在步驟S1010,判斷單元101接收用戶的選擇,即由用戶判斷是否需要通過文本樣式分析制定適用于待分類語料的文本特征提取策略。當(dāng)用戶判斷不需要重新制定文本特征提取策略時(步驟S1010 “是”),接著在步驟S1020,由全局樣式分析單元102對于待分類語料進行全局樣式分析。接著,在步驟S1030,由局部樣式分析單元103對經(jīng)過全局樣式分析的待分類語料進行局部樣式分析。接著,在步驟S1040,控制單元104將全局樣式分析及局部樣式分析的分析結(jié)果整合成文本特征提取策略,將該策略存儲到策略數(shù)據(jù)庫105中,并轉(zhuǎn)到步驟S1060。當(dāng)在上述步驟S1010中用戶判斷不需要通過文本樣式分析制定適用于待分類語料的文本特征提取策略時(步驟S1010 “否”),則接著在步驟S1050,由控制單元104根據(jù)用戶指令,直接從策略數(shù)據(jù)庫105中獲取適用于待分類語料的文本特征提取策略。接著,在步驟S1060,控制單元104將直接從策略數(shù)據(jù)庫中獲取的(步驟S1050)、 或通過文本樣式分析得到的(步驟S1040)文本特征提取策略映射到文本分類單元106。最后,在步驟S1070,文本分類單元106對待分類語料進行文本分類。在圖2中去掉步驟S1010及步驟S1050-S1070,則構(gòu)成根據(jù)本實施方式的文本特征提取策略制定方法。即根據(jù)本實施方式的文本特征提取策略制定方法由圖2中的步驟 S1020-S1040 構(gòu)成。圖3是表示根據(jù)本實施方式的文本特征提取策略制定方法的具體步驟的流程圖。圖3中步驟S2010至S2080表示圖2中步驟S1020的具體步驟,并由全局樣式分析102來執(zhí)行。圖3中步驟S2090至S2120表示圖2中步驟S1030的具體步驟,并由局部樣式分析103來執(zhí)行。圖3中步驟S2130表示圖2中步驟S1040的具體步驟,并由控制單元104來執(zhí)行。首先,在步驟S2010,使用Chi Square方差公式計算待分類語料所包含的種類文檔之間的平衡度。在步驟S2020,判斷在步驟S2010中得到的Chi Square方差是否大于預(yù)定的閾值, 即判斷是否需要調(diào)整種類文檔之間的平衡度。當(dāng)判斷Chi Square方差不大于預(yù)定的閾值時(步驟S2020 “否”),即不需要調(diào)整種類文檔之間的平衡度,則轉(zhuǎn)到步驟S2040。當(dāng)判斷Chi Square方差大于預(yù)定的閾值時(步驟S2020 “是”),即需要調(diào)整種類文檔之間的平衡度,則接著在步驟S2030,通過調(diào)整種類文檔的數(shù)量,來調(diào)整待分類語料中的種類文檔之間的平衡。接著,在步驟S2040,統(tǒng)計語料文檔數(shù)量以及每篇文檔的大小,預(yù)估分類所消耗的時間或資源。
接著,在步驟S2050,判斷預(yù)估出的分類消耗時間或資源是否超過預(yù)定的閾值。當(dāng)預(yù)估出的消耗時間或資源不超過預(yù)定的閾值(步驟S2050 “否”),則轉(zhuǎn)到步驟 S2070。當(dāng)預(yù)估出的消耗時間或資源超過預(yù)定的閾值(步驟S2050 “是”),則接著在步驟 S2060,使用文本摘要算法對于待分類語料進行處理。接著,在步驟S2070,統(tǒng)計語料的總體詞頻及詞頻分布,例如直方圖(histogram) 分布。接著,在步驟S2080,根據(jù)上述總體詞頻或分布,計算出特征抽取總體數(shù)量,以及每個文檔類的特征抽取數(shù)量。接著,在步驟S2090,根據(jù)上述全局樣式分析得到的Chi Square方差、特征抽取總體數(shù)量以及每個文檔類的特征抽取數(shù)量等統(tǒng)計值,對經(jīng)過全局樣式分析的待分類語料進行抽樣,得到文檔集合O集合),并從被抽樣的D集合中抽樣出句子集合(S集合)。接著,在步驟S2100,計算D集合中的句子平均長度及長度分布(例如histogram 分布),并對S集合進行句法分析,計算句法樹的平均深度及深度分布(例如histogram分布)。接著,在步驟S2110,根據(jù)在步驟S2100中得到的句子平均長度及長度分布、句法樹的平均深度及深度分布,確定用于文本分類的文本特征提抽取類型,例如,單元詞、多元詞或文本模式等。上述步驟S2010至S2110僅僅舉例性地示出了確定文本特征抽取類型的步驟,該文本特征抽取類型為文本特征提取策略的一方面,用于映射到文本分類單元106中的特征抽取模塊。根據(jù)本實施方式的文本特征提取策略制定方法在步驟S2110之后或者與步驟 S2010至S2110并行地還包括確定特征篩選算法以及確定權(quán)值計算參數(shù)的步驟,其中特征篩選算法用于映射到文本分類單元106中的特征篩選模塊,而權(quán)值計算參數(shù)用于映射到文本分類單元106中的特征權(quán)值計算模塊。上述確定特征篩選算法以及確定權(quán)值計算參數(shù)的步驟可以采用任何現(xiàn)有的技術(shù)。接著,在步驟S2120,計算D集合中的特例文檔(bias file)的概率,該概率的意義在于,如果該概率小于預(yù)定的閾值,則在文本分類單元106中需要執(zhí)行特例文檔刪除處理。接著,在步驟S2130,將在上述步驟中得到的特征抽取類型、特征篩選算法、權(quán)值計算參數(shù)、及特例文檔概率等整合成文本特征提取策略,存儲到策略數(shù)據(jù)庫105中。如上所述,根據(jù)本發(fā)明的文本特征提取策略制定方法及裝置,通過對于待分類語料進行全局樣式分析及局部樣式分析而得到適用于待分類語料的文本特征提取策略,對于待分類語料進行基于文本特征的文本分類,而非直接將基于樣式特征進行文本分類,而且因為文本特征提取策略是充分分析了文本全局樣式及局部樣式而制定的、更具針對性和適應(yīng)性,因此能夠?qū)Ω鞣N體裁內(nèi)容的語料進行文本分類,包括新聞(news)、報告(r印ort)、論壇帖子(forumpost)、個人主頁(personal homepage)等W^eb網(wǎng)頁各種體裁語料的分類。并且,根據(jù)本發(fā)明的自適應(yīng)文本分類方法及其裝置,通過將各種文本特征提取策略存儲到數(shù)據(jù)庫中,對于數(shù)據(jù)庫中存在的文本特征提取策略可以直接獲取并映射到文本分類單元,而對于不適用數(shù)據(jù)庫中存在的文本特征提取策略的待分類語料,則通過文本樣式分析得到適用的文本特征提取策略并映射到文本分類單元,因此使得普通的文本分類器對各種語料能夠適應(yīng)性地調(diào)整文本特征提取策略,達到良好的分類效果。并且,根據(jù)本發(fā)明的自適應(yīng)文本分類方法及其裝置,通過將各種能夠特征提取策略存儲到數(shù)據(jù)庫中,對于數(shù)據(jù)庫存在的能夠特征提取策略可以直接獲取并映射到文本分類器,無需每次在文本分類時通過文本樣式分析制定文本特征提取策略,也無需手動地設(shè)置文本分類器的參數(shù)。另外,文本全局樣式分析過程中的文本摘要步驟,文本局部樣式分析過程中的抽樣步驟都能夠提高文本分類的效率及性能,使其能夠應(yīng)用于性能要求高的環(huán)境, 例如手機應(yīng)用環(huán)境或?qū)崟r信息分析應(yīng)用環(huán)境。產(chǎn)業(yè)上的可利用性本發(fā)明的文本特征提取策略制定方法及裝置、自適應(yīng)文本分類方法及裝置適用于各種體裁語料的自適應(yīng)文本分類。
權(quán)利要求
1.一種用于文本分類的文本特征提取策略制定方法,包括步驟 對于待分類語料進行全局樣式分析,得到全局樣式分析結(jié)果;對經(jīng)過全局樣式分析的待分類語料進行局部樣式分析,得到局部樣式分析結(jié)果; 將所述全局樣式分析結(jié)果及所述局部樣式分析結(jié)果整合成文本特征提取策略,并存儲到策略數(shù)據(jù)庫中。
2.根據(jù)權(quán)利要求1所述的文本特征提取策略制定方法,其特征在于所述文本特征提取策略包括語料預(yù)處理參數(shù)、特征抽取類型、特征抽取數(shù)量參數(shù)、特征篩選算法、特征權(quán)值計算參數(shù)、以及特例文檔概率中的一項或多項。
3.根據(jù)權(quán)利要求2所述的文本特征提取策略制定方法,其特征在于所述全局樣式分析包括步驟調(diào)整所述待分類語料所包含的各類文檔之間的文檔數(shù)量平衡度; 預(yù)估分類消耗時間或資源,如果預(yù)估結(jié)果大于預(yù)定值,則對于所述待分類語料進行文本摘要處理;計算特征抽取總體數(shù)量以及所述各類的特征抽取數(shù)量,作為所述全局樣式分析結(jié)果。
4.根據(jù)權(quán)利要求3所述的文本特征提取策略制定方法,其特征在于所述局部樣式分析包括從經(jīng)過所述全局樣式分析的所述待分類語料中抽樣出文檔集合,并從所述文檔集合中抽樣出句子集合;計算所述文檔集合的句子平均長度及長度分布、所述句子集合的句法樹平均深度及深度分布;根據(jù)所述句子平均長度及分布、句法樹平均深度及分布,得到所述特征抽取類型。
5.根據(jù)權(quán)利要求3所述的文本特征提取策略制定方法,其特征在于從經(jīng)過所述全局樣式分析的所述待分類語料中抽樣出文檔集合,計算所述文檔集合的所述特例文檔概率。
6.根據(jù)權(quán)利要求1所述的文本特征提取策略制定方法,其特征在于所述策略數(shù)據(jù)庫所存儲的策略包括用戶直接存儲的策略。
7.—種自適應(yīng)文本分類方法,包括步驟對于待分類語料進行全局樣式分析,得到全局樣式分析結(jié)果; 對于經(jīng)過所述全局樣式分析的所述待分類語料進行局部樣式分析,得到局部樣式分析結(jié)果;將所述全局樣式分析結(jié)果及所述局部樣式分析結(jié)果整合成文本特征提取策略,并存儲到策略數(shù)據(jù)庫中;將所述文本特征提取策略映射到基于文本特征的文本分類器,并進行所述待分類語料的文本分類。
8.一種用于文本分類的文本特征提取策略制定裝置,包括全局樣式分析單元,對于待分類語料進行全局樣式分析,得到全局樣式分析結(jié)果; 局部樣式分析單元,對于所述待分類語料進行局部樣式分析,得到局部樣式分析結(jié)果;控制單元,將所述全局樣式分析結(jié)果及所述局部樣式分析結(jié)果整合成文本特征提取策略;策略數(shù)據(jù)庫,用于存儲多個所述文本特征提取策略。
9. 一種自適應(yīng)文本分類裝置,包括判斷單元,用于判斷是否重通過文本樣式分析制定文本特征提取策略; 策略數(shù)據(jù)庫,用于存儲多個文本特征提取策略;全局樣式分析單元,對于待分類語料進行全局樣式分析,得到全局樣式分析結(jié)果; 局部樣式分析單元,對經(jīng)過所述全局樣式分析的所述待分類語料進行局部樣式分析, 得到局部樣式分析結(jié)果;控制單元,將所述全局樣式分析結(jié)果及所述局部樣式分析結(jié)果整合成文本特征提取策略,存儲到所述策略數(shù)據(jù)庫;文本分類單元,使用所述文本特征提取策略對于所述待分類語料進行基于文本特征的文本分類。
全文摘要
本發(fā)明公開了一種自適應(yīng)文本分類方法。該方法包括步驟將策略數(shù)據(jù)庫中的文本特征提取策略之一映射到基于文本特征的文本分類器,并對于待分類語料進行文本分類;當(dāng)所述策略數(shù)據(jù)庫中的任意一個文本特征提取策略均不適用于所述待分類語料時,對于所述待分類語料進行全局樣式分析,得到全局樣式分析結(jié)果;對于經(jīng)過所述全局樣式分析的所述待分類語料進行局部樣式分析,得到局部樣式分析結(jié)果;將所述全局樣式分析結(jié)果及所述局部樣式分析結(jié)果整合成文本特征提取策略,并存儲到策略數(shù)據(jù)庫中;將所述文本特征提取策略映射到基于文本特征的文本分類器,并進行所述待分類語料的文本分類。
文檔編號G06F17/27GK102163190SQ20101012013
公開日2011年8月24日 申請日期2010年2月20日 優(yōu)先權(quán)日2010年2月20日
發(fā)明者劉思培, 姜贏, 彭鴿, 王進, 胡晨 申請人:三星電子(中國)研發(fā)中心, 三星電子株式會社