一種短文本新詞發(fā)現(xiàn)方法與流程

文檔序號：11864762閱讀：742來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于計算機(jī)數(shù)據(jù)挖掘領(lǐng)域中文本挖掘領(lǐng)域，涉及一種基于加權(quán)左右鄰接熵與對稱條件概率相結(jié)合的短文本新詞發(fā)現(xiàn)方法。
背景技術(shù)：
：新詞發(fā)現(xiàn)是一種重要的信息組織方式，研究的目標(biāo)是自動挖掘和分析文本中出現(xiàn)的新詞。隨著網(wǎng)絡(luò)技術(shù)、社交網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展，語言的內(nèi)涵、形式都在不斷的改變與擴(kuò)充。網(wǎng)絡(luò)QQ、微博、論壇等這一時下最為流行的媒體，涌現(xiàn)了大量個體主觀信息，這些信息對市場趨勢、行為預(yù)測、觀點分析、人機(jī)交互等諸多領(lǐng)域有著極為重要的現(xiàn)實意義。新詞發(fā)現(xiàn)作為中文信息處理領(lǐng)域的一項基礎(chǔ)性任務(wù)，直接影響到分詞技術(shù)、自然語言處理等其它中文信息處理任務(wù)的準(zhǔn)確性與性能。越來越多的新詞是由互聯(lián)網(wǎng)用戶直接創(chuàng)造的，因此從互聯(lián)網(wǎng)用戶直接產(chǎn)生的語料中挖掘新詞將是一個新的研究熱點。面向互聯(lián)網(wǎng)的新詞發(fā)現(xiàn)具有極其重要的研究意義：從理論研究上看，新詞發(fā)現(xiàn)對機(jī)器翻譯、信息檢索、語法句法分析等領(lǐng)域有很大的影響，還為分詞技術(shù)、自然語言處理、人工智能中其他多語言相關(guān)問題的解決提供良好的基礎(chǔ)，同時在所取得的每一個進(jìn)步，都有助于加深我們對人類的智能、語言、思維、情感等問題的了解。更重要的是，情感分析還具有廣闊的應(yīng)用前景，能夠與時俱進(jìn)的掌握社會動態(tài)、經(jīng)濟(jì)民生、時下焦點，可以帶來巨大的經(jīng)濟(jì)和社會效益。從商業(yè)活動的角度看，輸入法需要根據(jù)當(dāng)下熱門詞匯更準(zhǔn)確貼近的理解用戶此刻想要輸入的語句含義；微博需要挖掘時下網(wǎng)絡(luò)熱門用語制造話題創(chuàng)造熱點度和刷新率；產(chǎn)品生產(chǎn)、銷售廠商希望通過當(dāng)下熱門新詞包裝商品，提高大眾接受度并跟蹤用戶對產(chǎn)品的反饋來獲得改進(jìn)產(chǎn)品質(zhì)量的針對性意見。從文化生活的角度看，新詞發(fā)現(xiàn)技術(shù)能夠反映當(dāng)下廣大網(wǎng)民關(guān)注度最高的熱門事件，通過網(wǎng)絡(luò)與民眾針對某些事件產(chǎn)生的新詞能夠了解大眾對于熱門事件的褒貶觀點，有利于用戶快速準(zhǔn)確定位事件的本質(zhì)，了解正反兩方面的評論意見，對于準(zhǔn)確把握社會脈搏，建設(shè)社會有著重要意義。當(dāng)前新詞識別的主流方法分為兩類：一類是基于規(guī)則的方法，另一類是基于統(tǒng)計的方法?；谝?guī)則的方法主要是利用構(gòu)詞法的構(gòu)詞原理，制定詞語共性規(guī)則庫(規(guī)則庫中包含詞語的語法、結(jié)構(gòu)等相關(guān)信息)，再利用匹配規(guī)則識別新詞。其優(yōu)點是新詞發(fā)現(xiàn)的針對性強(qiáng)、準(zhǔn)確率較高，缺點是由于規(guī)則只能針對某一特定領(lǐng)域制定，存在規(guī)則編寫依賴領(lǐng)域?qū)＜?、維護(hù)成本巨大，且不同領(lǐng)域之間規(guī)則的移植性、適應(yīng)性不強(qiáng)，另外規(guī)則過多還容易引起規(guī)則沖突等問題?；诮y(tǒng)計的方法，主要是通過考察語料中的特征信息，計算詞語互信息、成詞概率等統(tǒng)計指標(biāo)，再利用閾值發(fā)現(xiàn)新詞。其優(yōu)點是統(tǒng)計的方法可以根據(jù)具體的情況進(jìn)行設(shè)定，方法比較靈活，適應(yīng)能力強(qiáng)，缺點是在統(tǒng)計的過程中需要大規(guī)模的語料進(jìn)行模型訓(xùn)練，訓(xùn)練過程中可能因數(shù)據(jù)的稀疏，導(dǎo)致準(zhǔn)確率低下的問題。從調(diào)研的情況看，目前的新詞識別研究成果中對于未登錄詞語的發(fā)現(xiàn)識別工作效果十分明顯，但是用這些方法對于“舊詞新義”所導(dǎo)致的歧義問題效果比較一般。綜上所述，開發(fā)一種能夠?qū)⒔y(tǒng)計和規(guī)則相結(jié)合的方法，較好地在規(guī)則與統(tǒng)計之間達(dá)到平衡是非常有必要的。因此，基于加權(quán)左右鄰接熵與對稱條件概率相結(jié)合的新詞發(fā)現(xiàn)方法不但具有深遠(yuǎn)的理論價值，而且有著廣闊的應(yīng)用前景，可以創(chuàng)造較大的社會和經(jīng)濟(jì)效益。技術(shù)實現(xiàn)要素：針對上述已有方法存在的問題，為了提高新詞發(fā)現(xiàn)的準(zhǔn)確率，本發(fā)明提出了一種基于加權(quán)左右鄰接熵與對稱條件概率相結(jié)合的新詞發(fā)現(xiàn)方法。本發(fā)明主要包含兩個方面：(1)計算對稱條件概率來衡量詞短語的內(nèi)聚性。(2)計算可能構(gòu)成新詞的短語的左右鄰接熵，來衡量詞組的靈活性。對稱條件概率是衡量給定字符串s中所有可能提取的詞組的內(nèi)聚性，也就是詞組固定搭配的概率。給定一個字符串s，其長度為n，ci代表語句s中的第i個字，P(.)表示給定詞組在語料中出現(xiàn)的概率。那么，字符串s的對稱條件概率計算公式為公式(1)SCP(s)=P(s)21n-1Σi=1n-1P(c1,ci)P(ci+1,cn)---(1)]]>在信息論中，信息熵用來衡量變量的不確定性。鄰接熵統(tǒng)計量利用信息熵來衡量候選新詞s的左鄰字符和右鄰字符的不確定性。不確定性越高，表明候選新詞s的上下文環(huán)境就越豐富。字符x和字符y表示候選新詞s的左鄰字符和右鄰字符，則該候選新詞s的左鄰熵HL(s)和右鄰熵HR(s)的計算方法見公式(2)和公式(3)，BE(s)值取左鄰熵和右鄰熵的較小值，見公式(4)。HL(s)＝-∑xp(x|s)logp(x|s)(2)HR(s)＝-∑yp(y|s)logp(y|s)(3)BE(s)＝min{HL(s),HR(s)}(4)使用公式(2)和公式(3)計算左鄰熵和右鄰熵的時候，對于鄰接字符x和鄰接字符y，如果該鄰接字符x作為該新詞s左鄰字符的次數(shù)與該鄰接字符y作為該新詞s右鄰字符的次數(shù)相同，即p(x|s)等于p(y|s)。那么字符x和字符y帶來的信息量就是相等的。也就是說字符x和字符y對于候選新詞s的鄰接熵值的貢獻(xiàn)是一樣的。如果字符x是一個標(biāo)點符號，而字符y是一個普通漢字字符，直覺上，字符x比字符y更能說明s是一個新詞。也就是說字符x比字符y對候選新詞s能否成詞的貢獻(xiàn)更大。對于字符串能否成詞，不同的鄰接字符的貢獻(xiàn)是不一樣的。本發(fā)明給每個鄰接字符x一個權(quán)值λx，λx的取值通過字符x出現(xiàn)的頻率來確定。加權(quán)的左鄰熵和右鄰熵的計算見公式(5)和公式(6)，加權(quán)鄰接熵sBE分別由公式(5)，公式(6)和公式(4)計算。HL(s)＝∑x-λxp(x|s)logp(x|s)(5)HR(s)＝∑y-λyp(y|s)logp(y|s)(6)其中，x代表每一個字符，所以求和相當(dāng)于對s中的每個字符求公式，再求和。成詞的概率計算方法，對鄰接熵的值和對稱條件概率的值進(jìn)行歸一化處理，然后對兩個結(jié)果進(jìn)行加權(quán)計算。計算方法如公式(7)。Prword(s)＝(1-μ)Nor(BE(s))+μN(yùn)or(SCP(s))(7)根據(jù)實際實驗的結(jié)果，本發(fā)明μ的取值為0.2。BE(s)的歸一化計算方法如公式(8)和SCP(s)的歸一化計算方法如公式(9)。Nor(BE(s))=BE(s)-minBE(s)MaxBE(s)-MinBE(s)---(8)]]>Nor(SCP(s))=SCP(s)-τ3σ+12---(9)]]>其中τ是所選各短文本的SCP(s)平均值，σ為各SCP(s)的標(biāo)準(zhǔn)差。根據(jù)Prword(s)的值確定詞s是否為新詞，即如果Prword(s)≥TPr，則將該子串s添加為候選詞；其中TPr為設(shè)定的閾值。與現(xiàn)有技術(shù)相比，本發(fā)明的積極效果為：本發(fā)明提出的基于加權(quán)左右鄰接熵與互信息相結(jié)合的新詞發(fā)現(xiàn)方法進(jìn)行了驗證。如表1，實驗證明，采用基于加權(quán)左右鄰接熵與對稱條件概率相結(jié)合的新詞發(fā)現(xiàn)的計算方法，新詞發(fā)現(xiàn)的準(zhǔn)確率優(yōu)于現(xiàn)有的方法。表1為本發(fā)明的實驗數(shù)據(jù)對比表語料規(guī)模準(zhǔn)確率召回率50M87.65％80.82％500M90.23％86.73％附圖說明圖1為本發(fā)明的方法流程圖。具體實施方式下面，結(jié)合具體的實施例對本發(fā)明進(jìn)行詳細(xì)說明。結(jié)合附圖對本發(fā)明的原理和特征進(jìn)行描述，所舉實例只用于解釋本發(fā)明，并非用于限定本發(fā)明的范圍?；诩訖?quán)左右鄰接熵與對稱條件概率相結(jié)合的短文本新詞發(fā)現(xiàn)方法流程如圖1所示，其基本步驟如下：1.初始化。設(shè)置抽取詞的頻率閾值Tfreq，成詞概率閾值Tpr，SCP的閾值TSCP，BE的閾值TBE，參數(shù)μ和參數(shù)λ。2.構(gòu)建語料(選取的若干短文本)索引，提取長度為2≤L≤4的所有候選詞。3.對于每一個子串s，計算s的頻率freq(s)。4.如果freq(s)≥Tfreq，則利用公式(1)計算SCP(s)，利用公式(4)，公式(5)，公式(6)計算BE(s)。5.如果SCP(s)＜TSCP，則繼續(xù)步驟3。6.如果BE(s)＜TBE，則繼續(xù)步驟3。7.利用公式(8)計算Nor(BE(s))的值。8.利用公式(9)計算Nor(SCP(s))的值。9.利用公式(7)計算Prword(s)的值。10.如果Prword(s)≥TPr，則將該子串s添加為候選詞。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：龐琳;趙志云;劉春陽;張旭;李雄;王卿;王萌;
技術(shù)所有人：國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心;
我是此專利的發(fā)明人

上一篇：一種面向社交網(wǎng)絡(luò)的用戶關(guān)系分析方法與流程
上一篇：一種基于用戶畫像的短文本分類方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

新詞發(fā)現(xiàn)相關(guān)技術(shù)

新詞發(fā)現(xiàn)算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種短文本新詞發(fā)現(xiàn)方法與流程