一種文本分類模型的確定方法

文檔序號：9810632閱讀：519來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本分類模型的確定方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電子組織歸類領(lǐng)域，尤其涉及一種文本分類模型的確定方法。
【背景技術(shù)】
[0002] 文本分類是指計算機(jī)將一篇文本歸于預(yù)先給定的某一類或某幾類的過程。在現(xiàn)有技術(shù)中，文本分類通常采用基于統(tǒng)計的自動分類方法，所述的方法包括:S110:獲取大規(guī)模的樣本數(shù)據(jù)，并對樣本數(shù)據(jù)進(jìn)行預(yù)處理;S120:在預(yù)處理后的樣本數(shù)據(jù)中提取特征詞;S130: 采用分類算法、提取的特征詞和樣本數(shù)據(jù)訓(xùn)練分類模型;S140:將待分類文本輸入文本分類器中，通過文本分類器調(diào)用訓(xùn)練分類模型，判斷待分類文本的類別。
[0003] 現(xiàn)有技術(shù)中，分類模型的質(zhì)量依賴于獲取的大規(guī)模樣本數(shù)據(jù)。如果樣本數(shù)據(jù)在時間維度上分布不均勻，會導(dǎo)致文本分類的性能下降。例如，如果樣本數(shù)據(jù)僅集中在一個時間段的范圍內(nèi)，會導(dǎo)致訓(xùn)練出的分類模型產(chǎn)生過擬合現(xiàn)象，不能反映真實(shí)環(huán)境的情況，從而影響文本分類的性能。

【發(fā)明內(nèi)容】

[0004] 有鑒于此，本發(fā)明實(shí)施例提供一種文本分類模型的確定方法，以解決樣本數(shù)據(jù)在時間維度上分布不均勻時導(dǎo)致的文本分類性能下降的問題。
[0005] 本發(fā)明實(shí)施例提供了一種文本分類模型的確定方法，包括：
[0006] 獲取包含多個文本的樣本數(shù)據(jù)，并對所述樣本數(shù)據(jù)進(jìn)行預(yù)處理；
[0007] 對所述樣本數(shù)據(jù)中各個詞進(jìn)行時間密度的分?jǐn)?shù)計算，得到所述樣本數(shù)據(jù)中各個詞的時間密度的分?jǐn)?shù);所述時間密度的分?jǐn)?shù)表征包含對應(yīng)詞的文本在時間維度上的分布與對應(yīng)詞在時間維度上的分布的綜合信息；
[0008] 根據(jù)所述樣本數(shù)據(jù)中各個詞的時間密度的分?jǐn)?shù)，提取所述樣本數(shù)據(jù)中的特征詞；
[0009] 根據(jù)預(yù)設(shè)的分類算法、提取的特征詞及所述樣本數(shù)據(jù)，確定用于判斷待分類文本類別的分類模型。
[0010] 本發(fā)明實(shí)施例提供的一種文本分類模型的確定方法，通過樣本數(shù)據(jù)中各個詞的時間密度分?jǐn)?shù)提取樣本數(shù)據(jù)中的特征詞，通過提取的特征詞、樣本數(shù)據(jù)以及分類算法確定分類模型，能夠解決樣本數(shù)據(jù)在時間維度上分布不均勻?qū)е碌奈谋痉诸愋阅芟陆档膯栴}，提高分類模型的性能。
【附圖說明】
[0011]通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述，本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯：
[0012] 圖1是本發(fā)明實(shí)施例一提供的一種文本分類模型的確定方法流程圖；
[0013] 圖2是本發(fā)明實(shí)施例二提供的一種文本分類模型的確定方法流程圖；
[0014] 圖3是本發(fā)明實(shí)施例三提供的一種文本分類模型的確定裝置結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0015] 下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明?？梢岳斫獾氖?，此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明，而非對本發(fā)明的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0016] 實(shí)施例一
[0017] 圖1是本發(fā)明實(shí)施例一提供的一種文本分類模型的確定方法流程圖，本發(fā)明實(shí)施例的技術(shù)方案可由文本分類模型的確定裝置來執(zhí)行，該裝置可以采用硬件和/或軟件的方式來實(shí)現(xiàn)，所述的裝置可設(shè)于計算機(jī)、智能終端等設(shè)備的內(nèi)部。如圖1所示，所述的方法包括：
[0018] S101:獲取包含多個文本的樣本數(shù)據(jù)，并對所述樣本數(shù)據(jù)進(jìn)行預(yù)處理。
[0019] 在本實(shí)施例中，所述樣本數(shù)據(jù)中的文本為已經(jīng)進(jìn)行類別劃分的文本。獲取包含多個文本的樣本數(shù)據(jù)的方式有多種，可以從互聯(lián)網(wǎng)上采集，也可以從數(shù)據(jù)庫中進(jìn)行讀取。
[0020] 在本實(shí)施例中，在所述樣本數(shù)據(jù)進(jìn)行預(yù)處理包括:對樣本數(shù)據(jù)進(jìn)行去噪音、編碼轉(zhuǎn) 換、分詞等。
[0021] S102:對所述樣本數(shù)據(jù)中各個詞進(jìn)行時間密度的分?jǐn)?shù)計算，得到所述樣本數(shù)據(jù)中各個詞的時間密度的分?jǐn)?shù);所述時間密度的分?jǐn)?shù)表征包含對應(yīng)詞的文本在時間維度上的分布與對應(yīng)詞在時間維度上的分布的綜合信息。
[0022] 在本實(shí)施例中，對樣本數(shù)據(jù)中各個詞進(jìn)行時間密度的分?jǐn)?shù)計算優(yōu)選包括:獲取樣本數(shù)據(jù)中的各個文本在時間維度的分布數(shù)據(jù);獲取樣本數(shù)據(jù)中的各個詞在時間維度的分布數(shù)據(jù);根據(jù)樣本數(shù)據(jù)中的各個文本在時間維度的分布數(shù)據(jù)和樣本數(shù)據(jù)中的各個詞在時間維度的分布數(shù)據(jù)，獲取樣本數(shù)據(jù)中各個詞的時間密度分?jǐn)?shù)。
[0023] 示例性的，所述獲取樣本數(shù)據(jù)中文本在時間維度的分布數(shù)據(jù)優(yōu)選包括：
[0024] 將樣本數(shù)據(jù)的生成時間進(jìn)行等間隔劃分，并統(tǒng)計每個時間間隔內(nèi)文本的數(shù)量;采用如下的公式進(jìn)行分別計算樣本數(shù)據(jù)中的各個文本在時間維度的分布數(shù)據(jù)：
[0025] 其中，f為所述樣本數(shù)據(jù)中的文本;DF(f)為文本f在時間維度的分布數(shù)據(jù)。當(dāng)計算樣本數(shù)據(jù)中目標(biāo)文本在時間維度的分布數(shù)據(jù)時，將目標(biāo)文本作為f文本代入到計算DF(f)的公式中。f可以為樣本數(shù)據(jù)中的任意文本。樣本數(shù)據(jù)的生成時間為:樣本數(shù)據(jù)中一個最早文本發(fā)布時間至另一個最晚文本發(fā)布時間之間的時間。例如，樣本數(shù)據(jù)中最早的一個文本發(fā) 布的時間為9:00，最晚的另一個文本發(fā)布的時間為9:59，那么，其他文本的發(fā)布時間均在9: 00到9:59之間。樣本數(shù)據(jù)的生成時間為9:00-9:59之間的時間。
[0026] 另外，DF(f)能夠評估文本f是否在時間維度上均勻分布的，如，將生成時間9:00-9:59之間的時間每隔10分鐘劃分為一個時間間隔，共有6個時間間隔，如果樣本數(shù)據(jù)中文本的數(shù)量為6000個，若文本f所在的時間間隔內(nèi)文本的數(shù)量均為1000個，DF(f)值為1/6,則表示文本f在時間維度上是均勻分布的。
[0027] 在本實(shí)施例中，所述獲取樣本數(shù)據(jù)中的各個詞在時間維度的分布數(shù)據(jù)優(yōu)選包括：將樣本數(shù)據(jù)的生成時間進(jìn)行等間隔劃分，統(tǒng)計各個詞在每個時間間隔內(nèi)出現(xiàn)的次數(shù);采用如下的公式分別計算樣本數(shù)據(jù)中的各個詞在時間維度的分布數(shù)據(jù)：
[0028]其中，w為樣本數(shù)據(jù)中的詞，Dw(w)為樣本數(shù)據(jù)中的詞w在時間維度的分布數(shù)據(jù)。同理，DW(w)可以評估詞w在時間維度上是否是均勻分布的。
[0029]示例性的，根據(jù)樣本數(shù)據(jù)中的各個文本在時間維度的分布數(shù)據(jù)和樣本數(shù)據(jù)中的各個詞在時間維度的分布數(shù)據(jù)，獲取樣本數(shù)據(jù)中各個詞的時間密度分?jǐn)?shù)包括：
[0030] 采用樣本數(shù)據(jù)中各個文本在時間維度的分布數(shù)據(jù)和樣本數(shù)據(jù)中的各個詞在時間維度的分布數(shù)據(jù)，通過如下的公式獲取樣本數(shù)據(jù)中各個詞的時間密度分?jǐn)?shù)：
[0031] d(w) =α Σ fDF(f) · 5(w,f) + (l-a)Dff(w)
[0032] 其中，f為樣本數(shù)據(jù)中的文本，DF(f)為樣本數(shù)據(jù)中文本f在時間維度的分布數(shù)據(jù)； Dw(w)為樣本數(shù)據(jù)中詞w在時間維度的分布數(shù)據(jù);d( w)為樣本數(shù)據(jù)中詞w的時間密度分?jǐn)?shù);當(dāng) 文本f在包含詞w時，5(w，f) = 1，否則5(w，f) =〇;a為權(quán)重系數(shù)。
[0033] S103:根據(jù)所述樣本數(shù)據(jù)中各個詞的時間密度的分?jǐn)?shù)，提取所述樣本數(shù)據(jù)中的特征詞。
[0034] 在本實(shí)施例中，根據(jù)所述樣本數(shù)據(jù)中各個詞的時間密度的分?jǐn)?shù)，提取所述樣本數(shù) 據(jù)中的特征詞優(yōu)選包括:根據(jù)所述樣本數(shù)據(jù)中各個詞的時間密度分?jǐn)?shù)與各個詞的相關(guān)參數(shù)，提取所述樣本數(shù)據(jù)中的特征詞。其中，可以將樣本數(shù)據(jù)中各個詞的時間密度的分?jǐn)?shù)以及相關(guān)參數(shù)按照預(yù)設(shè)的關(guān)系進(jìn)行組合，根據(jù)組合后得到的數(shù)據(jù)，提取所述樣本數(shù)據(jù)中的特征詞。各個詞的相關(guān)參數(shù)為已知的參數(shù)或容易獲得的參數(shù)，例如，各個詞的相關(guān)參數(shù)可以為各個詞的權(quán)重值，也可以為各個詞的其他形式的參數(shù)。
[0035] S104:根據(jù)預(yù)設(shè)的分類算法、提取的特征詞及所述樣本數(shù)據(jù)，確定用于判斷待分類文本類別的分類模型。
[0036] 示例性的，根據(jù)預(yù)設(shè)的分類算法、提取的特征詞及所述樣本數(shù)據(jù)，確定用于判斷待分類文本類別的分類模型優(yōu)選包括:根據(jù)所述樣本數(shù)據(jù)中的文本是否出現(xiàn)提取的特征詞，生成所述樣本數(shù)據(jù)的文本向量;采用分類算法對所述樣本數(shù)據(jù)的文本向量進(jìn)行訓(xùn)練，獲取用于判斷待分類文本類別的分類模型。
[0037] 舉例說明，如果提取的特征詞為1000個，特征詞有[中國，人民，北京，人口，網(wǎng)絡(luò)，安全，股市…]，在樣本數(shù)據(jù)中的一個文本中，如果出現(xiàn)了北京、網(wǎng)絡(luò)、安全三個特征詞，其他特征詞沒有出現(xiàn)，則該文本生成特征向量的過程中，如果出現(xiàn)的特征詞用1表示，未出現(xiàn)的特征詞用〇表示。所以該文本生成的特征向量為[0,0，1，0，1，1，0…]，由特征向量可以看出，該文本中僅僅出現(xiàn)北京、網(wǎng)絡(luò)和安全三個特征詞。由此類推，其他的文本均可以采用相同的方法生成對應(yīng)的特征向量。如果樣

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉鵬;
技術(shù)所有人：北京銳安科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本分類模型相關(guān)技術(shù)

文本分類方法相關(guān)技術(shù)

rfm分類方法及模型相關(guān)技術(shù)

文本分類的方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文本分類模型的確定方法