一種文本分類模型的確定方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電子組織歸類領(lǐng)域,尤其涉及一種文本分類模型的確定方法。
【背景技術(shù)】
[0002] 文本分類是指計算機(jī)將一篇文本歸于預(yù)先給定的某一類或某幾類的過程。在現(xiàn)有 技術(shù)中,文本分類通常采用基于統(tǒng)計的自動分類方法,所述的方法包括:S110:獲取大規(guī)模 的樣本數(shù)據(jù),并對樣本數(shù)據(jù)進(jìn)行預(yù)處理;S120:在預(yù)處理后的樣本數(shù)據(jù)中提取特征詞;S130: 采用分類算法、提取的特征詞和樣本數(shù)據(jù)訓(xùn)練分類模型;S140:將待分類文本輸入文本分類 器中,通過文本分類器調(diào)用訓(xùn)練分類模型,判斷待分類文本的類別。
[0003] 現(xiàn)有技術(shù)中,分類模型的質(zhì)量依賴于獲取的大規(guī)模樣本數(shù)據(jù)。如果樣本數(shù)據(jù)在時 間維度上分布不均勻,會導(dǎo)致文本分類的性能下降。例如,如果樣本數(shù)據(jù)僅集中在一個時間 段的范圍內(nèi),會導(dǎo)致訓(xùn)練出的分類模型產(chǎn)生過擬合現(xiàn)象,不能反映真實(shí)環(huán)境的情況,從而影 響文本分類的性能。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明實(shí)施例提供一種文本分類模型的確定方法,以解決樣本數(shù)據(jù)在 時間維度上分布不均勻時導(dǎo)致的文本分類性能下降的問題。
[0005] 本發(fā)明實(shí)施例提供了一種文本分類模型的確定方法,包括:
[0006] 獲取包含多個文本的樣本數(shù)據(jù),并對所述樣本數(shù)據(jù)進(jìn)行預(yù)處理;
[0007] 對所述樣本數(shù)據(jù)中各個詞進(jìn)行時間密度的分?jǐn)?shù)計算,得到所述樣本數(shù)據(jù)中各個詞 的時間密度的分?jǐn)?shù);所述時間密度的分?jǐn)?shù)表征包含對應(yīng)詞的文本在時間維度上的分布與對 應(yīng)詞在時間維度上的分布的綜合信息;
[0008] 根據(jù)所述樣本數(shù)據(jù)中各個詞的時間密度的分?jǐn)?shù),提取所述樣本數(shù)據(jù)中的特征詞;
[0009] 根據(jù)預(yù)設(shè)的分類算法、提取的特征詞及所述樣本數(shù)據(jù),確定用于判斷待分類文本 類別的分類模型。
[0010] 本發(fā)明實(shí)施例提供的一種文本分類模型的確定方法,通過樣本數(shù)據(jù)中各個詞的時 間密度分?jǐn)?shù)提取樣本數(shù)據(jù)中的特征詞,通過提取的特征詞、樣本數(shù)據(jù)以及分類算法確定分 類模型,能夠解決樣本數(shù)據(jù)在時間維度上分布不均勻?qū)е碌奈谋痉诸愋阅芟陆档膯栴},提 高分類模型的性能。
【附圖說明】
[0011]通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它 特征、目的和優(yōu)點(diǎn)將會變得更明顯:
[0012] 圖1是本發(fā)明實(shí)施例一提供的一種文本分類模型的確定方法流程圖;
[0013] 圖2是本發(fā)明實(shí)施例二提供的一種文本分類模型的確定方法流程圖;
[0014] 圖3是本發(fā)明實(shí)施例三提供的一種文本分類模型的確定裝置結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0015] 下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描 述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便 于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0016] 實(shí)施例一
[0017] 圖1是本發(fā)明實(shí)施例一提供的一種文本分類模型的確定方法流程圖,本發(fā)明實(shí)施 例的技術(shù)方案可由文本分類模型的確定裝置來執(zhí)行,該裝置可以采用硬件和/或軟件的方 式來實(shí)現(xiàn),所述的裝置可設(shè)于計算機(jī)、智能終端等設(shè)備的內(nèi)部。如圖1所示,所述的方法包 括:
[0018] S101:獲取包含多個文本的樣本數(shù)據(jù),并對所述樣本數(shù)據(jù)進(jìn)行預(yù)處理。
[0019] 在本實(shí)施例中,所述樣本數(shù)據(jù)中的文本為已經(jīng)進(jìn)行類別劃分的文本。獲取包含多 個文本的樣本數(shù)據(jù)的方式有多種,可以從互聯(lián)網(wǎng)上采集,也可以從數(shù)據(jù)庫中進(jìn)行讀取。
[0020] 在本實(shí)施例中,在所述樣本數(shù)據(jù)進(jìn)行預(yù)處理包括:對樣本數(shù)據(jù)進(jìn)行去噪音、編碼轉(zhuǎn) 換、分詞等。
[0021] S102:對所述樣本數(shù)據(jù)中各個詞進(jìn)行時間密度的分?jǐn)?shù)計算,得到所述樣本數(shù)據(jù)中 各個詞的時間密度的分?jǐn)?shù);所述時間密度的分?jǐn)?shù)表征包含對應(yīng)詞的文本在時間維度上的分 布與對應(yīng)詞在時間維度上的分布的綜合信息。
[0022] 在本實(shí)施例中,對樣本數(shù)據(jù)中各個詞進(jìn)行時間密度的分?jǐn)?shù)計算優(yōu)選包括:獲取樣 本數(shù)據(jù)中的各個文本在時間維度的分布數(shù)據(jù);獲取樣本數(shù)據(jù)中的各個詞在時間維度的分布 數(shù)據(jù);根據(jù)樣本數(shù)據(jù)中的各個文本在時間維度的分布數(shù)據(jù)和樣本數(shù)據(jù)中的各個詞在時間維 度的分布數(shù)據(jù),獲取樣本數(shù)據(jù)中各個詞的時間密度分?jǐn)?shù)。
[0023] 示例性的,所述獲取樣本數(shù)據(jù)中文本在時間維度的分布數(shù)據(jù)優(yōu)選包括:
[0024] 將樣本數(shù)據(jù)的生成時間進(jìn)行等間隔劃分,并統(tǒng)計每個時間間隔內(nèi)文本的數(shù)量;采 用如下的公式進(jìn)行分別計算樣本數(shù)據(jù)中的各個文本在時間維度的分布數(shù)據(jù):
[0025] 其中,f為所述樣本數(shù)據(jù)中的文本;DF(f)為文本f在時間維度的分布數(shù)據(jù)。當(dāng)計算 樣本數(shù)據(jù)中目標(biāo)文本在時間維度的分布數(shù)據(jù)時,將目標(biāo)文本作為f文本代入到計算DF(f)的 公式中。f可以為樣本數(shù)據(jù)中的任意文本。樣本數(shù)據(jù)的生成時間為:樣本數(shù)據(jù)中一個最早文 本發(fā)布時間至另一個最晚文本發(fā)布時間之間的時間。例如,樣本數(shù)據(jù)中最早的一個文本發(fā) 布的時間為9:00,最晚的另一個文本發(fā)布的時間為9:59,那么,其他文本的發(fā)布時間均在9: 00到9:59之間。樣本數(shù)據(jù)的生成時間為9:00-9:59之間的時間。
[0026] 另外,DF(f)能夠評估文本f是否在時間維度上均勻分布的,如,將生成時間9:00-9:59之間的時間每隔10分鐘劃分為一個時間間隔,共有6個時間間隔,如果樣本數(shù)據(jù)中文本 的數(shù)量為6000個,若文本f所在的時間間隔內(nèi)文本的數(shù)量均為1000個,DF(f)值為1/6,則表 示文本f在時間維度上是均勻分布的。
[0027] 在本實(shí)施例中,所述獲取樣本數(shù)據(jù)中的各個詞在時間維度的分布數(shù)據(jù)優(yōu)選包括: 將樣本數(shù)據(jù)的生成時間進(jìn)行等間隔劃分,統(tǒng)計各個詞在每個時間間隔內(nèi)出現(xiàn)的次數(shù);采用 如下的公式分別計算樣本數(shù)據(jù)中的各個詞在時間維度的分布數(shù)據(jù):
[0028]其中,w為樣本數(shù)據(jù)中的詞,Dw(w)為樣本數(shù)據(jù)中的詞w在時間維度的分布數(shù)據(jù)。同 理,DW(w)可以評估詞w在時間維度上是否是均勻分布的。
[0029]示例性的,根據(jù)樣本數(shù)據(jù)中的各個文本在時間維度的分布數(shù)據(jù)和樣本數(shù)據(jù)中的各 個詞在時間維度的分布數(shù)據(jù),獲取樣本數(shù)據(jù)中各個詞的時間密度分?jǐn)?shù)包括:
[0030] 采用樣本數(shù)據(jù)中各個文本在時間維度的分布數(shù)據(jù)和樣本數(shù)據(jù)中的各個詞在時間 維度的分布數(shù)據(jù),通過如下的公式獲取樣本數(shù)據(jù)中各個詞的時間密度分?jǐn)?shù):
[0031] d(w) =α Σ fDF(f) · 5(w,f) + (l-a)Dff(w)
[0032] 其中,f為樣本數(shù)據(jù)中的文本,DF(f)為樣本數(shù)據(jù)中文本f在時間維度的分布數(shù)據(jù); Dw(w)為樣本數(shù)據(jù)中詞w在時間維度的分布數(shù)據(jù);d( w)為樣本數(shù)據(jù)中詞w的時間密度分?jǐn)?shù);當(dāng) 文本f在包含詞w時,5(w,f) = 1,否則5(w,f) =〇;a為權(quán)重系數(shù)。
[0033] S103:根據(jù)所述樣本數(shù)據(jù)中各個詞的時間密度的分?jǐn)?shù),提取所述樣本數(shù)據(jù)中的特 征詞。
[0034] 在本實(shí)施例中,根據(jù)所述樣本數(shù)據(jù)中各個詞的時間密度的分?jǐn)?shù),提取所述樣本數(shù) 據(jù)中的特征詞優(yōu)選包括:根據(jù)所述樣本數(shù)據(jù)中各個詞的時間密度分?jǐn)?shù)與各個詞的相關(guān)參 數(shù),提取所述樣本數(shù)據(jù)中的特征詞。其中,可以將樣本數(shù)據(jù)中各個詞的時間密度的分?jǐn)?shù)以及 相關(guān)參數(shù)按照預(yù)設(shè)的關(guān)系進(jìn)行組合,根據(jù)組合后得到的數(shù)據(jù),提取所述樣本數(shù)據(jù)中的特征 詞。各個詞的相關(guān)參數(shù)為已知的參數(shù)或容易獲得的參數(shù),例如,各個詞的相關(guān)參數(shù)可以為各 個詞的權(quán)重值,也可以為各個詞的其他形式的參數(shù)。
[0035] S104:根據(jù)預(yù)設(shè)的分類算法、提取的特征詞及所述樣本數(shù)據(jù),確定用于判斷待分類 文本類別的分類模型。
[0036] 示例性的,根據(jù)預(yù)設(shè)的分類算法、提取的特征詞及所述樣本數(shù)據(jù),確定用于判斷待 分類文本類別的分類模型優(yōu)選包括:根據(jù)所述樣本數(shù)據(jù)中的文本是否出現(xiàn)提取的特征詞, 生成所述樣本數(shù)據(jù)的文本向量;采用分類算法對所述樣本數(shù)據(jù)的文本向量進(jìn)行訓(xùn)練,獲取 用于判斷待分類文本類別的分類模型。
[0037] 舉例說明,如果提取的特征詞為1000個,特征詞有[中國,人民,北京,人口,網(wǎng)絡(luò), 安全,股市…],在樣本數(shù)據(jù)中的一個文本中,如果出現(xiàn)了北京、網(wǎng)絡(luò)、安全三個特征詞,其他 特征詞沒有出現(xiàn),則該文本生成特征向量的過程中,如果出現(xiàn)的特征詞用1表示,未出現(xiàn)的 特征詞用〇表示。所以該文本生成的特征向量為[0,0,1,0,1,1,0…],由特征向量可以看出, 該文本中僅僅出現(xiàn)北京、網(wǎng)絡(luò)和安全三個特征詞。由此類推,其他的文本均可以采用相同的 方法生成對應(yīng)的特征向量。如果樣