專利名稱:一種傾向性文本自動分類系統(tǒng)及其實現方法
技術領域:
本發(fā)明涉及自然語言處理技術領域、文本數據挖掘、文本自動化分類技術領域,特別是涉及一種傾向性文本自動化分類系統(tǒng),具體地說涉及一種基于句法和依存關系的傾向性文本自動化分類系統(tǒng)。
背景技術:
對文本數據進行自動化分類是文本數據挖掘、自然語言處理等人工智能技術的重要應用領域,其主要功能是把以數字化形式存儲的非結構化文本數據,通過自然語言處理技術、文本數據挖掘技術,自動按照事先組織好的與具體業(yè)務相關的類別進行分類。隨著信息技術的不斷發(fā)展和信息系統(tǒng)應用范圍的不斷深化,對文本數據進行自動化分類是提高企 業(yè)生產效率和競爭優(yōu)勢的重要技術措施。傾向性文本又稱情感文本,是與主要陳述事實的客觀性文本相對應的主要表達意見或情感的主觀性文本。傾向性文本自動化分類系統(tǒng)是對文本數據中的情感進行多層級的細致分類,挖掘文本潛在的情感表達,進而發(fā)掘用戶的興趣與需求,對企業(yè)未來的發(fā)展提供決策依據具有很重要的意義。更具體的,對于需要處理大量文本數據的行業(yè)而言,隨著各類數字化業(yè)務的開拓,需求將不斷增強,伴隨而來的是傳統(tǒng)的人工處理方式勞動強度的增加,如何在海量的資料中挖掘用戶對產品的情緒,發(fā)掘用戶的興趣與需求都是大數據處理行業(yè)面對的直接挑戰(zhàn)。因此尋找一條科學的傾向性文本自動分類方法,在最大程度上減輕數據處理人員的壓力與提高服務質量是一個迫切的任務。
發(fā)明內容
本發(fā)明的目的在于提供一種能夠對傾向性文本進行多層級的細致的自動化分類系統(tǒng)及其實現方法,并使用戶能對業(yè)務相關知識進行管理,根據具體業(yè)務調整分類結果。為實現上述發(fā)明目的,本發(fā)明提供的一種傾向性文本自動分類系統(tǒng)及其實現方法,包括依存關系分析模塊,用于對中文句子進行依存關系分析;中文分詞模塊,用于對中文句子進行分詞;句法分析模塊,用于對分詞后的中文句子進行句法分析;多層級情感分類句模庫,用于對與業(yè)務相關知識進行管理;其特征在于多層級情感分類句模庫分為態(tài)度文法、感受文法和思想文法三大類120個小類,根據漢語使用規(guī)則和業(yè)務相關知識手工整理而成;對多層級情感分類句模庫中所有句模進行句法分析,建立句法樹庫;對多層級情感分類句模庫中所有句模進行依存關系分析,建立依存關系圖庫;對待分類句子進行中文分詞和句法分析,將句法分析的結果與句法樹庫中候選分類下的每個句模的句法樹進行匹配,按照相關算法依次計算每個句模的句法樹與待分類句子對應的句法樹的匹配程度得分;對待分類句子進行依存關系分析,將依存關系分析的結果與依存關系圖庫中候選分類下的每個句模的依存關系圖進行匹配,并按照相關算法依次計算每個句模對應的依存關系圖與待分類句子對應的依存關系圖的匹配程度得分;每個句模的兩次得分相加為該句模與待分類句子匹配程度的總得分,總得分最高的句模所屬的分類為最終分類結果。上述的多層級情感分類句模庫要對其中的句模進行依存關系分析,建立依存關系圖庫。上述的多層級情感分類句模庫要為其中的句模進行句法分析,建立句法樹庫。本發(fā)明相比現有技術突出的優(yōu)點是 本發(fā)明采用基于統(tǒng)計的方法和基于規(guī)則的方法相結合的方法,提高傾向性文本自動分類的準確性和靈敏度?;诮y(tǒng)計的方法是指本發(fā)明采用的分詞模塊和句法分析模塊分別使用美國斯坦福大學自然語言處理小組推出的中文分詞器和句 法分析器;本發(fā)明采用的依存關系分析模塊使用哈爾濱工業(yè)大學社會計算與信息檢索研究中心推出的語言技術平臺。這三個軟件都采用了多種基于統(tǒng)計的機器學習算法對句子進行分析。基于規(guī)則的方法是指多層級情感分類句模庫根據漢語使用規(guī)則和業(yè)務相關知識手工整理而成。本發(fā)明的分類算法是對待分類句子進行分析后與句模庫進行匹配,故本發(fā)明不需要使用任何測試語料,對單個句子只要能與句模庫匹配就能準確分類。
圖I是本發(fā)明的一個實施例的軟件操作界面顯示圖;圖2是本發(fā)明的一個實施例的句法分析模塊可視化結果示意圖;圖3是本發(fā)明的一個實施例的依存關系模塊可視化結果示意圖;圖4是本發(fā)明的一個實施例的多層級情感分類句模庫層次結構示意圖;圖5是本發(fā)明的一種傾向性文本自動分類系統(tǒng)及其實現方法的基本模塊關系圖;圖6是本發(fā)明的一種傾向性文本自動分類系統(tǒng)及其實現方法的分類算法流程圖。
具體實施例方式為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖從圖I至圖6及實施例,對本發(fā)明的一種傾向性文本自動分類系統(tǒng)及其實現方法進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限制本發(fā)明。本發(fā)明的一種傾向性文本自動分類系統(tǒng)及其實現方法,通過多層級情感分類句模庫提高系統(tǒng)對具體業(yè)務中的傾向性文本進行多層級的細致的自動化分類。本發(fā)明采用基于統(tǒng)計的方法和基于規(guī)則的方法相結合的方法,提高系統(tǒng)準確性、反應速度和容錯性。下面以具體實施例對本發(fā)明作進一步的描述,圖I是本發(fā)明的一個實施例的軟件操作界面顯示圖;圖2是本發(fā)明的一個實施例的句法分析模塊可視化結果顯示圖;圖3是本發(fā)明的一個實施例的依存關系模塊可視化結果顯示圖。具體實施步驟如下I、用戶在圖I所示軟件操作界面左上角輸入待分類句子,點擊右上角的“分詞”按鈕,系統(tǒng)會對句子進行中文分詞,將分詞結果顯示在最下面的文本框中。2、用戶點擊圖I所示軟件操作界面右上角的“分類”按鈕,系統(tǒng)會對句子進行自動分類,將分類處理中間過程生成的句法樹和依存關系圖分別用文本和圖形的形式顯示在中間的文本框中,如圖2和圖3所示,將分類結果以及相應得分顯示在最下面的文本框中,如圖I所示。3、用戶點擊圖I所示軟件操作界面右上角的“載入文件”按鈕,可以批量處理文本,文本格式為每個句子一行,處理結果存入數據庫。圖4是本發(fā)明的一個實施例的多層級情感分類句模庫層次結構示意圖;本發(fā)明的一種傾向性文本自動分類系統(tǒng)及其實現方法將多層級情感分類句模庫存儲在數據庫中,并為用戶提供了通過瀏覽器對句模庫中的各級分類、分類中的句模以及涉及的詞類進行查看、增加、修改和刪除操作的功能。圖5是本發(fā)明的一種傾向性文本自動分類系統(tǒng)及其實現方法的基本模塊關系圖。本發(fā)明采用模塊化設計,主要包括依存關系分析模塊、中文分詞模塊、句法分析模塊和多層級情感分類句模庫?;灸K之間的關系如圖5所示,其中句法樹庫是對多層級情感分類句模庫中所有句模進行句法分析后生成的;依存關系圖庫是對多層級情感分類句模庫中所有句模進行依存關系分析后生成的;分類算法使用句法分析模塊和依存關系分析模塊的分析結果;中文分詞模塊為句法分析模塊提供中文分詞功能。下面詳細介紹各個模塊的組成
(I)多層級情感分類句模庫將手工整理的句模分為3個大類,120個小類。句模的形式如〈感事X喜愛詞類X向事〉,其中“感事”和“向事”分別是一種語義角色,“感事”表示感受的主體,“向事”表示感受施加的對象,“喜愛詞類”包括與喜愛相關的一組近義詞,例如熱愛、憐愛、心愛、鐘愛、惠愛、酷愛、疼、慈、向慕、老牛甜犢、喜愛、疼愛、喜好、喜歡、感興趣、有好感、愛慕、愛好、欣賞、希罕、好尚、好奇、愛等。我們將所有句模劃分為3個大類態(tài)度文法、感受文法和思想文法,態(tài)度文法分為證據類、反對類、輕視類、嚴格類等40多個二級分類,感受文法分類知道類、不知道類、喜愛類等50多個二級分類,思想文法分為希望類、主張類、想念類等10多個二級分類,二級分類下面還分有三級分類,如證據類下面分支持類I個三級分類,希望類下面分為希他類、希己類和目標類3個三級分類等。對所有句模進行句法分析和依存關系分析,生成對應的句法樹庫和依存關系圖庫,用于對待分類句子進行分類算法匹配。(2)分詞模塊此模塊采用美國斯坦福大學自然語言處理小組推出的中文分詞器進行分詞。此分詞器采用條件隨機場模型,F-度量值達到95%,支持用戶自主添加新詞。(3)句法分析模塊此模塊采用美國斯坦福大學自然語言處理小組推出的句法分析器。此句法分析器是一個詞匯化的概率上下文無關語法分析器,可以將句子分析成句法樹。例如句子“我愛自然語言處理”通過該句法分析器分析之后的結果圖形化表示如圖2所示。圖中ROOT表示要處理文本的語句;IP表示簡單從句;NP表示名詞短語;VP表示動詞短語;PU表示斷句符,通常是句號、問號、感嘆號等標點符號;PN表示代詞;VV表示動詞;NN表示常用名詞。(4)依存關系分析模塊此模塊采用哈爾濱工業(yè)大學社會計算與信息檢索研究中心推出的語言技術平臺。語言技術平臺(Language Technology Platform, LTP)是哈工大社會計算與信息檢索研究中心歷時十年開發(fā)的一整套中文語言處理系統(tǒng)。LTP制定了基于XML的語言處理結果表示,并在此基礎上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術),以及基于動態(tài)鏈接庫(Dynamic Link Library, DLL)的應用程序接口,可視化工具,并且能夠以網絡服務(WebService)的形式進行使用。例如句子“我愛自然語言處理”通過LTP分析之后的結果圖形化表示如圖3所示。圖中HED表示句子的核心詞;SBV表示主謂關系;V0B表示動賓關系;ATT表不定中關系。圖6是本發(fā)明的一種基于句法和語義的傾向性文本自動分類系統(tǒng)的分類算法流程圖;進一步地,參考圖6,基于上述一種傾向性文本自動分類系統(tǒng)及其實現方法基本處理流程包括下列步驟(I)分析待分類句子中的特征詞,在多層級情感分類句模庫中找出包含這些特征詞的所有可能的分類即候選分類。(2)如果找不到候選分類,則將該句子手工加入多層級情感分類句模庫中;如果找到了候選分類,則執(zhí)行第3步。(3)提取候選分類包含的句模。(4)對第3步提取出的句模通過依存關系分析模塊,計算待分類句子與該句模的 依存關系圖匹配的得分。具體打分規(guī)則可根據具體業(yè)務不同調整,此實施例中的打分規(guī)則為核心詞匹配加4分,每個附屬詞匹配加I分,依存關系中每條邊匹配加2分。(5)對第3步提取出的句模通過句法分析模塊,計算待分類句子與該句模句法樹匹配的得分。具體打分規(guī)則可根據具體業(yè)務不同調整,此實施例中的打分規(guī)則為句法樹中每條邊匹配加2分。(6)將第4步的得分與第5步的得分相加,得到該句模與待分類句子匹配的總得分。(7)檢查候選分類中的句模是否提取完畢,如果沒有就執(zhí)行第3步;如果是,執(zhí)行第8步。(8)對每個候選分類中所有句模按總得分由高到低對候選分類進行排序,排位最前的分類為最終分類結果,即為該待分類句子的分類結果,其它分類可作為參考結果。如果最終分類結果的總得分為0,則將此待分類句子手工添加到多層級情感分類句模庫中。通過結合附圖對本發(fā)明具體實施例的描述,本發(fā)明的其它方面及特征對本領域的技術人員而言是顯而易見的。上述內容僅僅是為描述本發(fā)明而列舉的較佳實施例之一,并非依此限制本發(fā)明專利保護的范圍,一切不脫離本發(fā)明宗旨進行的修改或者等同替換的技術方案及其改進,均不應排除在本發(fā)明的權利要求的保護范圍之外。
權利要求
1.一種傾向性文本自動分類系統(tǒng)及其實現方法,包括依存關系分析模塊、中文分詞模塊、句法分析模塊和多層級情感分類句模庫,其特征在于多層級情感分類句模庫分為態(tài)度文法、感受文法和思想文法三大類120個小類,根據漢語使用規(guī)則和業(yè)務相關知識手工整理而成。
2.根據權利要求I所述的一種傾向性文本自動分類系統(tǒng)及其實現方法,其特征在于對所述的多層級情感分類句模庫中的句模進行依存關系分析,建立依存關系圖庫。
3.根據權利要求I所述的一種傾向性文本自動分類系統(tǒng)及其實現方法,其特征在于對所述的多層級情感分類句模庫中的句模進行句法分析,建立句法樹庫。
4.根據權利要求I所述的一種傾向性文本自動分類系統(tǒng)及其實現方法,其特征在于對待分類的句子進行中文分詞和句法分析,將句法分析的結果與句法樹庫中候選分類下的每 個句模的句法樹進行匹配,按照相關算法依次計算每個句模的句法樹與待分類句子對應的句法樹的匹配程度得分。
5.根據權利要求I所述的一種傾向性文本自動分類系統(tǒng)及其實現方法,其特征在于對待分類的句子進行依存關系分析,將依存關系分析的結果與依存關系圖庫中候選分類下的每個句模的依存關系圖進行匹配,并按照相關算法依次計算每個句模對應的依存關系圖與待分類句子對應的依存關系圖的匹配程度得分。
6.根據權利要求I所述的一種傾向性文本自動分類系統(tǒng)及其實現方法,其特征在于將權利要求4計算的得分與權利要求5計算的得分相加每個句模的兩次得分相加為該句模與待分類句子匹配程度的總得分,總得分最高的句模所屬的分類為最終分類結果。
全文摘要
本發(fā)明提供一種傾向性文本自動分類系統(tǒng)及其實現方法。涉及自然語言處理技術領域、文本數據挖掘、文本自動化分類技術領域。該系統(tǒng)包括依存關系分析模塊,用于對中文句子進行依存關系分析;中文分詞模塊,用于對中文句子進行分詞;句法分析模塊,用于對分詞后的中文句子進行句法分析;多層級情感分類句模庫,用于對與業(yè)務相關知識進行管理;其特征在于多層級情感分類句模庫分為態(tài)度文法、感受文法和思想文法三大類120個小類,根據漢語使用規(guī)則和業(yè)務相關知識手工整理而成;對多層級情感分類句模庫中所有句模進行句法分析,建立句法樹庫;對多層級情感分類句模庫中所有句模進行依存關系分析,建立依存關系圖庫。
文檔編號G06F17/27GK102930042SQ20121045352
公開日2013年2月13日 申請日期2012年11月13日 優(yōu)先權日2012年11月13日
發(fā)明者吳明芬, 陳濤, 劉興林 申請人:五邑大學