一種基于lucene全文檢索的中文分詞方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于電力系統(tǒng),涉及一種用于電力系統(tǒng)數(shù)據(jù)分析方法,具體地說是一種基于lucene全文檢索的中文分詞方法。
【背景技術(shù)】
[0002]在目前電力系統(tǒng),特別是營銷領(lǐng)域中,數(shù)據(jù)量大,涉及面廣,值得深入分析挖掘。但由于多為文字描述,存在信息模糊、冗余的問題,難以使用傳統(tǒng)數(shù)據(jù)分析方法定量準(zhǔn)確分析。
【發(fā)明內(nèi)容】
[0003]針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的是提供一種基于lucene全文檢索的中文分詞方法,該方法對系統(tǒng)中收集的海量中文文本信息進(jìn)行分詞操作,不僅可以在分詞前通過維護(hù)分詞所依賴的字典,使分詞更加切合電網(wǎng)系統(tǒng)實際,而且可以通過后期對分詞結(jié)果的進(jìn)一步分析歸納,使得結(jié)果更加清晰明了。從分詞前中后三個階段出發(fā),更好地提取營銷領(lǐng)域信息,加深對營銷問題的理解。
[0004]本發(fā)明的目的通過以下技術(shù)方案實現(xiàn):
一種用于電力系統(tǒng)異常分類封裝的方法,其特征在于該方法包括以下步驟:
1)將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中;
2)將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中;
3)輸入需要分詞的文本信息;
4)文本逐字匹配緩存中的字典樹,輸出匹配成功的最長的詞語;
5)輸出分詞結(jié)果。
[0005]本發(fā)明在程序運行之前,可以人工維護(hù)字典,除了程序自帶的包含常用詞語的主詞典和常用量詞的量詞詞典以外,用戶可根據(jù)需要增加拓展詞典和停止詞詞典,拓展詞典中可以添加電力系統(tǒng)的專有詞匯,停止詞詞典中可以添加統(tǒng)計不關(guān)心的詞匯,如虛詞、連接詞等。
[0006]本發(fā)明在程序運行過程中,首先將數(shù)據(jù)庫中的字典以樹的數(shù)據(jù)結(jié)構(gòu)形式緩存在系統(tǒng)內(nèi)存當(dāng)中,緩存中的字典一共分為主詞典、停止詞詞典和量詞字典三個,用戶添加的拓展詞典緩存在主詞典中。分詞過程中,依次取出輸入文本的單個詞元,首先進(jìn)行該詞元與其后詞元的合并操作,若前后詞元符合:英文數(shù)詞與中文數(shù)詞、英文數(shù)詞與中文量詞、中文數(shù)詞與中文量詞這三類結(jié)構(gòu),則直接將前后詞元合并得到新詞元,若不滿足,則不合并。將詞元與停止詞詞典匹配,若匹配上,則放棄該詞元,繼續(xù)取下一個詞元;若未匹配上,繼續(xù)與主詞典匹配。主詞典若未匹配上,則輸出該詞元,即該詞元分詞結(jié)束;若匹配上,則將該詞元與下一個詞元合并,繼續(xù)重復(fù)上述過程,直至全部文本取完。
[0007]分詞結(jié)束后,對于得到的分詞結(jié)果,可進(jìn)行同義詞分析,即對得到的分詞結(jié)果,逐一判斷是否存在同義詞,如果存在,則保存時以該組同義詞的主次保存,如不存在,則以原詞保存。
[0008]本發(fā)明將字典詞條緩存在服務(wù)器內(nèi)存中,并根據(jù)緩存的字典詞條,將文本段落拆分成相應(yīng)的字詞,通過統(tǒng)計拆分所得字詞,來分析段落語句。該方法還支持多詞典:可屏蔽掉部分無用的詞語的停止詞詞典、增加電網(wǎng)相關(guān)專有名詞的拓展詞典、將多個意義相同的詞匯在統(tǒng)計上合并為一個主詞的同義詞詞典等,從而提高數(shù)據(jù)分析效率。
[0009]本發(fā)明對于電網(wǎng)系統(tǒng)中海量文本信息進(jìn)行分詞,使難于統(tǒng)計的文本信息轉(zhuǎn)變成易于統(tǒng)計的字詞信息,并通過前期字典維護(hù),過濾掉無關(guān)信息,以及后期同義詞轉(zhuǎn)化,合并同類信息,使得分詞結(jié)果更加清晰明了。使用戶可以從海量模糊數(shù)據(jù)中,提取有用信息加以詳細(xì)研究和概括總結(jié),方便用戶進(jìn)行語義分析和數(shù)據(jù)分析,從而及時發(fā)現(xiàn)營銷服務(wù)中的問題,提高電網(wǎng)營銷服務(wù)水平。
【附圖說明】
[0010]圖1是基于lucene全文檢索的中文分詞方法的流程圖。
【具體實施方式】
[0011]—種基于lucene全文檢索的中文分詞方法,圖1是用基于lucene全文檢索的中文分詞方法的流程圖。該方法包括以下步驟:
1.將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中。除了程序自帶的包含常用詞語的主詞典和常用量詞的量詞詞典以外,用戶可根據(jù)需要增加拓展詞典和停止詞詞典。
[0012]2.將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中。緩存中的字典一共分為主詞典、停止詞詞典和量詞字典三個,用戶自行添加的拓展詞詞典存放在主詞典中。
[0013]3.輸入需要分詞的文本信息;
4.輸入文本逐字匹配緩存中的量詞、停止詞和主詞三棵字典樹,如果前詞元和后詞元可以符合數(shù)詞量詞結(jié)構(gòu),則兩詞元合并為一個詞元。繼續(xù)匹配停止詞字典,若匹配,則放棄該詞元,否則,繼續(xù)匹配主詞典。主詞典若不不匹配,則輸出該詞元,該詞元分詞結(jié)束,否則,將該詞元與下一個詞元合并后,重復(fù)上述過程。
[0014]5.輸出分詞結(jié)果,并對得到的分詞結(jié)果進(jìn)行同義詞分析,逐一判斷是否存在同義詞,如存在,則保存時以該組同義詞的主詞保存,如不存在,以原詞保存。
[0015]本發(fā)明對于電網(wǎng)系統(tǒng)中海量文本信息進(jìn)行分詞,使難于統(tǒng)計的文本信息轉(zhuǎn)變成易于統(tǒng)計的字詞信息,并通過前期字典維護(hù),過濾掉無關(guān)信息,以及后期同義詞轉(zhuǎn)化,合并同類信息,使得分詞結(jié)果更加清晰明了。
【主權(quán)項】
1.一種基于lucene全文檢索的中文分詞方法,其特征在于該方法具體步驟如下: 1)將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中; 2)將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中; 3)輸入需要分詞的文本信息; 4)文本逐字匹配緩存中的字典樹,輸出匹配成功的最長的詞語; 5)輸出分詞結(jié)果。2.根據(jù)權(quán)利要求1所述的基于lucene全文檢索的中文分詞方法,其特征在于:步驟2)中,緩存中的字典一共分為主詞典、停止詞詞典和量詞字典三個,用戶可根據(jù)需要增加拓展詞典,拓展詞典的詞條在緩存中增加在主詞典之中;三個字典在服務(wù)器中以樹的數(shù)據(jù)結(jié)構(gòu)形式緩存。3.根據(jù)權(quán)利要求1所述的基于lucene全文檢索的中文分詞方法,其特征在于:步驟4)中,依次取出輸入文本的單個詞元,首先進(jìn)行該字符與其后詞元的合并操作,若前后詞元符合:英文數(shù)詞與中文數(shù)詞、英文數(shù)詞與中文量詞、中文數(shù)詞與中文量詞這三類結(jié)構(gòu),則直接和其后詞元合并得到新的詞元,若不滿足,依舊判斷原先取出的詞元;將詞元與停止詞詞典匹配,若匹配上,則放棄該詞元,繼續(xù)取下一個詞元;若未匹配上,繼續(xù)與主詞典匹配;主詞典若未匹配上,則輸出該詞元,即該詞元分詞結(jié)束;若匹配上,則將該詞元與下一個詞元合并,繼續(xù)重復(fù)上述過程。4.根據(jù)權(quán)利要求1所述的基于lucene全文檢索的中文分詞方法,其特征在于:步驟5)中,對步驟4)得到的分詞結(jié)果,進(jìn)行同義詞分析,即對得到的分詞結(jié)果,逐一判斷是否存在同義詞,如存在,則保存時以該組同義詞的主詞保存,如不存在,以原詞保存。
【專利摘要】本發(fā)明公開了一種基于lucene全文檢索的中文分詞方法,將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中;將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中;輸入需要分詞的文本信息;文本逐字匹配緩存中的字典樹,輸出匹配成功的最長的詞語;輸出分詞結(jié)果。該方法使用戶可以從海量模糊數(shù)據(jù)中,提取有用信息加以詳細(xì)研究和概括總結(jié),方便用戶進(jìn)行語義分析和數(shù)據(jù)分析,從而及時發(fā)現(xiàn)營銷服務(wù)中的問題,提高電網(wǎng)營銷服務(wù)水平。
【IPC分類】G06F17/27
【公開號】CN105279150
【申請?zhí)枴緾N201510704461
【發(fā)明人】王成現(xiàn), 王全強(qiáng), 郝翠萍
【申請人】江蘇電力信息技術(shù)有限公司, 江蘇省電力公司
【公開日】2016年1月27日
【申請日】2015年10月27日