一種基于lucene全文檢索的中文分詞方法

文檔序號：9524186閱讀：346來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于lucene全文檢索的中文分詞方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于電力系統(tǒng)，涉及一種用于電力系統(tǒng)數(shù)據(jù)分析方法，具體地說是一種基于lucene全文檢索的中文分詞方法。
【背景技術(shù)】
[0002]在目前電力系統(tǒng)，特別是營銷領(lǐng)域中，數(shù)據(jù)量大，涉及面廣，值得深入分析挖掘。但由于多為文字描述，存在信息模糊、冗余的問題，難以使用傳統(tǒng)數(shù)據(jù)分析方法定量準(zhǔn)確分析。

【發(fā)明內(nèi)容】

[0003]針對現(xiàn)有技術(shù)中存在的問題，本發(fā)明的目的是提供一種基于lucene全文檢索的中文分詞方法，該方法對系統(tǒng)中收集的海量中文文本信息進(jìn)行分詞操作，不僅可以在分詞前通過維護(hù)分詞所依賴的字典，使分詞更加切合電網(wǎng)系統(tǒng)實際，而且可以通過后期對分詞結(jié)果的進(jìn)一步分析歸納，使得結(jié)果更加清晰明了。從分詞前中后三個階段出發(fā)，更好地提取營銷領(lǐng)域信息，加深對營銷問題的理解。
[0004]本發(fā)明的目的通過以下技術(shù)方案實現(xiàn):
一種用于電力系統(tǒng)異常分類封裝的方法，其特征在于該方法包括以下步驟:
1)將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中；
2)將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中；
3)輸入需要分詞的文本信息；
4)文本逐字匹配緩存中的字典樹，輸出匹配成功的最長的詞語；
5)輸出分詞結(jié)果。
[0005]本發(fā)明在程序運行之前，可以人工維護(hù)字典，除了程序自帶的包含常用詞語的主詞典和常用量詞的量詞詞典以外，用戶可根據(jù)需要增加拓展詞典和停止詞詞典，拓展詞典中可以添加電力系統(tǒng)的專有詞匯，停止詞詞典中可以添加統(tǒng)計不關(guān)心的詞匯，如虛詞、連接詞等。
[0006]本發(fā)明在程序運行過程中，首先將數(shù)據(jù)庫中的字典以樹的數(shù)據(jù)結(jié)構(gòu)形式緩存在系統(tǒng)內(nèi)存當(dāng)中，緩存中的字典一共分為主詞典、停止詞詞典和量詞字典三個，用戶添加的拓展詞典緩存在主詞典中。分詞過程中，依次取出輸入文本的單個詞元，首先進(jìn)行該詞元與其后詞元的合并操作，若前后詞元符合:英文數(shù)詞與中文數(shù)詞、英文數(shù)詞與中文量詞、中文數(shù)詞與中文量詞這三類結(jié)構(gòu)，則直接將前后詞元合并得到新詞元，若不滿足，則不合并。將詞元與停止詞詞典匹配，若匹配上，則放棄該詞元，繼續(xù)取下一個詞元；若未匹配上，繼續(xù)與主詞典匹配。主詞典若未匹配上，則輸出該詞元，即該詞元分詞結(jié)束；若匹配上，則將該詞元與下一個詞元合并，繼續(xù)重復(fù)上述過程，直至全部文本取完。
[0007]分詞結(jié)束后，對于得到的分詞結(jié)果，可進(jìn)行同義詞分析，即對得到的分詞結(jié)果，逐一判斷是否存在同義詞，如果存在，則保存時以該組同義詞的主次保存，如不存在，則以原詞保存。
[0008]本發(fā)明將字典詞條緩存在服務(wù)器內(nèi)存中，并根據(jù)緩存的字典詞條，將文本段落拆分成相應(yīng)的字詞，通過統(tǒng)計拆分所得字詞，來分析段落語句。該方法還支持多詞典:可屏蔽掉部分無用的詞語的停止詞詞典、增加電網(wǎng)相關(guān)專有名詞的拓展詞典、將多個意義相同的詞匯在統(tǒng)計上合并為一個主詞的同義詞詞典等，從而提高數(shù)據(jù)分析效率。
[0009]本發(fā)明對于電網(wǎng)系統(tǒng)中海量文本信息進(jìn)行分詞，使難于統(tǒng)計的文本信息轉(zhuǎn)變成易于統(tǒng)計的字詞信息，并通過前期字典維護(hù)，過濾掉無關(guān)信息，以及后期同義詞轉(zhuǎn)化，合并同類信息，使得分詞結(jié)果更加清晰明了。使用戶可以從海量模糊數(shù)據(jù)中，提取有用信息加以詳細(xì)研究和概括總結(jié)，方便用戶進(jìn)行語義分析和數(shù)據(jù)分析，從而及時發(fā)現(xiàn)營銷服務(wù)中的問題，提高電網(wǎng)營銷服務(wù)水平。
【附圖說明】
[0010]圖1是基于lucene全文檢索的中文分詞方法的流程圖。
【具體實施方式】
[0011]—種基于lucene全文檢索的中文分詞方法，圖1是用基于lucene全文檢索的中文分詞方法的流程圖。該方法包括以下步驟:
1.將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中。除了程序自帶的包含常用詞語的主詞典和常用量詞的量詞詞典以外，用戶可根據(jù)需要增加拓展詞典和停止詞詞典。
[0012]2.將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中。緩存中的字典一共分為主詞典、停止詞詞典和量詞字典三個，用戶自行添加的拓展詞詞典存放在主詞典中。
[0013]3.輸入需要分詞的文本信息；
4.輸入文本逐字匹配緩存中的量詞、停止詞和主詞三棵字典樹，如果前詞元和后詞元可以符合數(shù)詞量詞結(jié)構(gòu)，則兩詞元合并為一個詞元。繼續(xù)匹配停止詞字典，若匹配，則放棄該詞元，否則，繼續(xù)匹配主詞典。主詞典若不不匹配，則輸出該詞元，該詞元分詞結(jié)束，否則，將該詞元與下一個詞元合并后，重復(fù)上述過程。
[0014]5.輸出分詞結(jié)果，并對得到的分詞結(jié)果進(jìn)行同義詞分析，逐一判斷是否存在同義詞，如存在，則保存時以該組同義詞的主詞保存，如不存在，以原詞保存。
[0015]本發(fā)明對于電網(wǎng)系統(tǒng)中海量文本信息進(jìn)行分詞，使難于統(tǒng)計的文本信息轉(zhuǎn)變成易于統(tǒng)計的字詞信息，并通過前期字典維護(hù)，過濾掉無關(guān)信息，以及后期同義詞轉(zhuǎn)化，合并同類信息，使得分詞結(jié)果更加清晰明了。
【主權(quán)項】
1.一種基于lucene全文檢索的中文分詞方法，其特征在于該方法具體步驟如下: 1)將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中； 2)將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中； 3)輸入需要分詞的文本信息； 4)文本逐字匹配緩存中的字典樹，輸出匹配成功的最長的詞語； 5)輸出分詞結(jié)果。2.根據(jù)權(quán)利要求1所述的基于lucene全文檢索的中文分詞方法，其特征在于:步驟2)中，緩存中的字典一共分為主詞典、停止詞詞典和量詞字典三個，用戶可根據(jù)需要增加拓展詞典，拓展詞典的詞條在緩存中增加在主詞典之中；三個字典在服務(wù)器中以樹的數(shù)據(jù)結(jié)構(gòu)形式緩存。3.根據(jù)權(quán)利要求1所述的基于lucene全文檢索的中文分詞方法，其特征在于:步驟4)中，依次取出輸入文本的單個詞元，首先進(jìn)行該字符與其后詞元的合并操作，若前后詞元符合:英文數(shù)詞與中文數(shù)詞、英文數(shù)詞與中文量詞、中文數(shù)詞與中文量詞這三類結(jié)構(gòu)，則直接和其后詞元合并得到新的詞元，若不滿足，依舊判斷原先取出的詞元；將詞元與停止詞詞典匹配，若匹配上，則放棄該詞元，繼續(xù)取下一個詞元；若未匹配上，繼續(xù)與主詞典匹配；主詞典若未匹配上，則輸出該詞元，即該詞元分詞結(jié)束；若匹配上，則將該詞元與下一個詞元合并，繼續(xù)重復(fù)上述過程。4.根據(jù)權(quán)利要求1所述的基于lucene全文檢索的中文分詞方法，其特征在于:步驟5)中，對步驟4)得到的分詞結(jié)果，進(jìn)行同義詞分析，即對得到的分詞結(jié)果，逐一判斷是否存在同義詞，如存在，則保存時以該組同義詞的主詞保存，如不存在，以原詞保存。
【專利摘要】本發(fā)明公開了一種基于lucene全文檢索的中文分詞方法，將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中；將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中；輸入需要分詞的文本信息；文本逐字匹配緩存中的字典樹，輸出匹配成功的最長的詞語；輸出分詞結(jié)果。該方法使用戶可以從海量模糊數(shù)據(jù)中，提取有用信息加以詳細(xì)研究和概括總結(jié)，方便用戶進(jìn)行語義分析和數(shù)據(jù)分析，從而及時發(fā)現(xiàn)營銷服務(wù)中的問題，提高電網(wǎng)營銷服務(wù)水平。
【IPC分類】G06F17/27
【公開號】CN105279150
【申請?zhí)枴緾N201510704461
【發(fā)明人】王成現(xiàn), 王全強(qiáng), 郝翠萍
【申請人】江蘇電力信息技術(shù)有限公司, 江蘇省電力公司
【公開日】2016年1月27日
【申請日】2015年10月27日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王成現(xiàn);王全強(qiáng);郝翠萍;
技術(shù)所有人：江蘇電力信息技術(shù)有限公司;江蘇省電力公司;
我是此專利的發(fā)明人

上一篇：漢語語音現(xiàn)場自動導(dǎo)航并駕駛汽車的控制器裝置的制造方法
上一篇：一種中文文本自動校正方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于lucene全文檢索的中文分詞方法