專利名稱::一種基于詞頻和多元文法的新聞關鍵詞抽取方法
技術領域:
:本發(fā)明屬于文本挖掘領域,尤其涉及新聞文本挖掘。
背景技術:
:關鍵詞抽取是文本信息檢索的一個重要研究課題。中文新聞的關鍵詞抽取對于理解新聞的重要內(nèi)容和實現(xiàn)相關新聞事件的精確檢索有著極其重要的作用。文本關鍵詞是指幾個能對文本概述、與文本語義內(nèi)容相關的詞或短語。通過關鍵詞,人們可以快速地查找所需要的信息。更進一歩,關鍵詞還能為更深一層的文本挖掘應用提供豐富的語義信息,如文本分類、文本聚類、文本檢索及主題挖掘等。目前國內(nèi)外己有很多關鍵詞抽取方法,并且已被廣泛應用。但大部分的研究工作都集中在提高關鍵詞抽取的準確率,沒有仔細地研究什么詞才是關鍵詞,導致關鍵詞定義的標準不統(tǒng)一,各種方法之間難以比較。另外關鍵詞抽取的結(jié)果受分詞系統(tǒng)質(zhì)量的影響較大,在關鍵詞抽取中,大多數(shù)的關鍵詞抽取方法以分詞作為處理的第一步,而分詞過程出現(xiàn)的漏檢和錯誤直接造成了文本后續(xù)處理的困難,亦因為這個原因,關鍵詞抽取方法還要解決未登錄詞的抽取問題。針對這些問題,本文首先從語言學的角度對中文文本進行分析,提出我們對新聞關鍵詞的定義規(guī)范。根據(jù)關鍵詞的定義規(guī)范,基于ICTCLAS詞法分析系統(tǒng),我們統(tǒng)計關鍵詞潛在的詞性模式,分別采用了一元、二元及蘭元文法在文本中挖掘候選關鍵詞。為了修正分詞的錯誤,我們提出了基于標題挖掘的方法來檢測未被分詞器發(fā)現(xiàn)的潛在關鍵詞。最后對各候選詞進行特征計算及擬合,取最高分值的五個詞作為文本關鍵詞。實驗結(jié)果表明,該方法較baseline的結(jié)果有明顯的提升。另外,我們還把該方法應用于新聞回溯事件檢測中,實驗表明關鍵詞抽取能有效地提高該任務的效率和正確率。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一個新聞文本的關鍵詞定義規(guī)范及抽取方法。本發(fā)明所提出的方法的思路在于首先通過對新聞文本語言學和語義特征的分析,給出新聞文本關鍵詞的定義規(guī)范;然后根據(jù)這個定義規(guī)范,我們在文本中統(tǒng)計關鍵詞的潛在詞性模式,并提出以此詞性模式為基礎的一元、二元及三元文法的候選關鍵詞挖掘方法,得出候選關鍵詞列表。我們用基于標題挖掘的方法來檢測未被分詞器發(fā)現(xiàn)的潛在關鍵詞,并將它們加入到候選關鍵詞列表中。最后,通過對各候選關鍵詞進行特征計算及擬合并得出分數(shù),.分值最高的幾個候選關鍵詞將成為最終的關鍵詞。所述方法是基于一個已經(jīng)存在的社會網(wǎng)絡依次按以下歩驟具體實現(xiàn)的,所采用的步驟框圖請見圖1,一種基于詞頻和多元文法的新聞關鍵詞抽取方法,其特征在于所述方法依次會有以下步驟步驟(1)對新聞進行語言學和語義特征的分析,給出新聞關鍵詞的潛在詞性模式。步驟(1.1)人工對基于新聞文本集進行語言學和語義特征的分析,根據(jù)包括Wh0、Where,When,What,Why,How在內(nèi)的新聞六要素,進行新聞關鍵詞抽取,并從所述文本中過濾掉包括虛詞、數(shù)量詞、擬聲詞在內(nèi)的非上述詞性的詞。步驟(1.2)借助于計算機,利用ICTCLAS分詞工具對所述文本進行詞性標注,然后分別采用以所述ICTCLAS分詞工具切分出來的詞為單位,依次用一元、二元及三元文法在某個新聞文本集中統(tǒng)計出包括一般名詞、修飾語、名詞短語、動詞短語在內(nèi)的四類關鍵詞的具體的多元詞性模式,也即新聞關鍵詞的四種潛在模式;步驟(2)所述計算機依據(jù)步驟(1.2)得到的四種具體的潛在詞性模式,從一份完整的、具體的新聞文本中抽取候選關鍵詞,其步驟如下-步驟(2.1)完成步驟(2)中的一份完整而具體的新聞文本分段,利用ICTCLAS分詞工具進行分詞及詞性標注;步驟(2.2)根據(jù)步驟(1)中得到的潛在詞性模式去掉包括虛詞、數(shù)量詞、擬聲詞在內(nèi)的其他詞及停用詞;步驟(2.3)分別釆用以步驟(2.1)中用ICTCLAS分詞工具分出來的詞為單位,用一元、二元及三元文法在步驟(2)所述的一份完整而具體的文本中挖掘出符合步驟(1.2)所述詞性模式的詞,'作為候選關鍵詞;步驟(3)計算機為步驟(2)得到的每個候選關鍵詞W按以下方法計算出下述八個特征值:詞頻分別以三個特征值w.Z/、w."/、terw5"wm表示w.(/iw在所在新聞文本中的出現(xiàn)次數(shù)。其中,所在新聞文件即步驟(2)所述的一份完整而具體的新聞文本;W.rt/:W在所述某個新聞文本集中出現(xiàn)的總次數(shù);to^&m:在所述某個新聞文本集中,基于該詞W所屬文法的一元/二元/三元文法字的詞頻總和;文本位置分別用w./"7We及w^F/rW表示,其中M/.&7Me:表示詞w是否在新聞的標題中出現(xiàn),Ma>77//e=0表是否,w.^ra/e=l表是肯定;MU力/^W:表示詞W是否在所在新聞文本的第一段中出現(xiàn),W.&F/raFO表是否,WJ>lFz'W/=l表是肯定;詞性用W.戶OS表示,指詞W的詞性;形態(tài)分另ll用呵WO、表示,其中-表示引用強調(diào),是指詞W是否被包括引號、書名號在內(nèi)的符號括起來,W.^O-0表是否,表是肯定;W.W'^7:表示詞W的長度,按式&—)=^("計算得出,其中JC為字詞的長度,g=0;當25x58時,g(x)=/og2x;當x〉8時,g(;c)=3;步驟(4)計算機基于標題挖掘的方法來檢測潛在關鍵詞,所述潛在關鍵詞是指那些沒有被上述ICTCLAS分詞工具所正確處理但可能是關鍵詞的那些詞,步驟如下步驟(4.1)把包括引號、書名號在內(nèi)的一些起引用強調(diào)的符號作為分詞標記,去檢測這些被引號或書名號括起來的詞;步驟(4.2)對于那些新出現(xiàn)的簡略語或?qū)S忻~,按以下步驟處理步驟(4.2.1)設定以下四個識別檢測的指標最大重復設S是潛在關鍵詞所在文本中的一個字串,若字串S的頻率至少為1且S的任意子串S'的頻率均小于S的頻率,則S是最大重復的;完整設/7/,...,^為字串s在文本r中出現(xiàn)的A個不同位置,當且僅當下列條件同時成立時,S是完整的;1)至少有一個位置序號對(/,刀,15/</^:,使第(p,-7)個字與第fe-7)個字不同;2)至少有一個位置序號對("力,1^'</5々,使第to+問)個字與第(^+剛個字不同,其中問為字串S的長度值;穩(wěn)定度設<formula>complexformulaseeoriginaldocumentpage9</formula>,則s的穩(wěn)定度定義為認(s)-〈5,&<formula>complexformulaseeoriginaldocumentpage9</formula>分別是s,^在潛在關鍵,詞所在文本中出現(xiàn)的頻率;相對頻率設S是潛在關鍵詞文本中的一個字串,則S的相對頻率為^h,w為該文本中所出現(xiàn)的所有詞。/Tw)為詞w在該文本中出現(xiàn)的頻率;步驟(4.2.2)根據(jù)以下4個必須同時滿足的條件,把標題中的潛在關鍵詞字串挖掘出來1)不能是單個字;2)必須是最大重復的和完整的;3)穩(wěn)定度至少為L當字符數(shù)為2時,f=0.38;當字符數(shù)為3時,^=0.67;該字符數(shù)有其他值時,/=0.8;4)頻率至少為3,相對頻率大于等于0.021。然后,把潛在關鍵詞作為候選詞,加入到關鍵詞候選集中,把這些潛在關鍵詞的特征值算出,對標題中其他已被ICTCLAS分詞工具發(fā)現(xiàn)的及不適合的詞去掉;步驟(5)計算機按下式進行特征擬合,根據(jù)計算出的特征分值ww^〖Wj得出候選關鍵詞的排名次序所有候選關鍵詞集合中,各個關鍵詞的特征分值scwe〖W按下式算出<formula>complexformulaseeoriginaldocumentpage9</formula>其中仏。和b分別是w.r/,fm^wm,w."/的權重,具體為/尸0.99,,fl.O,公式中<formula>complexformulaseeoriginaldocumentpage10</formula>是一組特征。w.〖"7We的權重^7),fe=2.3;w.《wo的權重^。=2.3;■w.Z"Fz>W的豐又重/^f>w=0.01;wig"的權重^砂=0.85;W.刀為F中的某一特征;r./為相應特征w./的權重。從而得到各項候選詞的一個特征分值^WefW);步驟(6)計算機優(yōu)化結(jié)果,得出關鍵詞。步驟(6.1)對特征分值最高的5個關鍵詞按下述方法進行評測;步驟(6.2)刪除單項特征過低,以及存在包含或重復現(xiàn)象的關鍵詞,使最終所得.關鍵詞保持各項特征分值均達到優(yōu)良;步驟(6.2.1)穩(wěn)定度的要求和字串的長度相關,越長的字串,它的穩(wěn)定度要求越嚴格,檢測詞的穩(wěn)定度,按照下述標準刪除穩(wěn)定度過低的詞;1)候選詞的二元及三元文法中的長度大于5且穩(wěn)定度少于0.8的詞;2)穩(wěn)定度少于0.5且詞頻太低,或是沒有在標題或第一段中出現(xiàn)的詞;步驟('6,2.2)檢測關鍵詞之間是否存在重疊或包含的現(xiàn)象,如果存在,則會根據(jù)下述標準決定是否刪去其中的一個詞,為了便于敘述,在這単我們統(tǒng)稱存在重疊或包含現(xiàn)象的兩詞中長度值較大的詞為長詞,長度值較短的詞為短詞;1)被引用強調(diào)的詞優(yōu)先保留,2)若長詞的特征分值高于短詞的特征分值a)保留長詞;'b)若長詞被引用強調(diào),長詞的詞頻小于短詞的詞頻,短詞的長度大于l,長詞為一元文法的詞,以上四個條件同時成立時,則短詞也被保留;3)若短詞的特征分值高于長詞的特征分值-a)若短詞的長度等于l,長詞被引用強調(diào),短詞是實體關鍵詞或主題關鍵詞,長詞的詞頻小于短詞的詞頻,以上四個條件中任意某一個條件成立時,則保留長詞,去掉短詞;否則b)若長詞是通過新詞發(fā)現(xiàn)找到的,或是三元文法的詞,則去掉長詞;否則C)同時保留長詞和短詞;步驟(6.3)把特征分值次低的關鍵詞前移一位,重新執(zhí)行步驟(6.2),直到最高特征分值的5個關鍵詞同時滿足要求或無候選關鍵詞為止。本發(fā)明所提出的一種基于詞頻和多元文法的新聞關鍵詞抽取方法的突出貢獻在于,我們不僅提出了關鍵詞抽取的方法,還給出了新聞文本關鍵詞的定義規(guī)范。在采用多元文法進行候選詞抽取時,有別于一般沒有考慮詞性的多元文法抽取方法,我們引入了關鍵詞的潛在詞性模式的概念,使抽取出的候選關鍵詞更加準確。另外,我們提出了基于對新聞標題進行挖掘的潛在關鍵詞發(fā)現(xiàn)方法,能有效地發(fā)掘未登錄的關鍵詞。本發(fā)明中的抽取方法應用性廣,可供新聞資料社、討論區(qū)等存有大量文本信息的地方使用,對領域中的文本處理研究也提供了一種預處理的工具。圖1.系統(tǒng)的整體框圖2.關鍵詞抽取系統(tǒng)的硬件結(jié)構圖3.關鍵詞抽取方法的實現(xiàn)效果;具體實施例方式該方法包括如下步驟(1)對新聞進行語言學和語義特征的分析,給出新聞關鍵詞的定義規(guī)范(1.1)研究關鍵詞的特征詞性本部分內(nèi)容是由人工對某個新聞文本集進行語言學和語義特征的分析,參考現(xiàn)時網(wǎng)上常見的文本及關鍵詞,結(jié)合新聞六要素,總結(jié)出新聞關鍵詞的幾大類型。新聞文本通常包括新聞事件,而新聞事件一般都包括5W1H六要素,分別是"When,What,Who,Where,Why和How"。而這六要素也正是人們所關心的,新聞關鍵詞應盡量和六要素相關,可以說,六要素是關鍵詞抽取的目標。通過對新聞文本進行分析,我們總結(jié)了新聞六要素的潛在詞性,即六要素在句子中可能的詞性及句子成分,如表1所示。表1.5W和1H的潛在詞性<table>complextableseeoriginaldocumentpage12</column></row><table>通過考察詞在文本中的詞性特征,可容易地區(qū)分出它是那一類關鍵詞。更重要一點是,它述可以有效地區(qū)分什么詞不是關鍵詞??疾毂韑,'可知關鍵詞的潛在詞性主要有四大類,分別是名詞、修飾語、名詞短語及動詞短語。因此,在進行關鍵詞抽取時,文本中非上述詞性的詞可以濾掉,、例如一些虛詞、數(shù)量詞、擬聲詞等。這樣,我們就可以通過考查詞性,初步定義了關鍵詞的潛在詞性,過濾了一些沒用的詞,同時,表l也從語自'學上解釋了為什么這些詞應該濾掉。(1.2)統(tǒng)計并提取出關鍵詞的潛在詞性模式。根據(jù)1.1中總結(jié)的關鍵詞類型,可知關鍵詞的潛在詞性主要有四大類,我們利用ICTCLAS'分詞工具對新聞文本進行詞性標注,然后分別采用以分詞器切分出來的詞為單位的一元、二元及三元文法在新聞集中統(tǒng)計出這四類關鍵詞的多元詞性模式,如表2所示,我們把這些詞性模式稱為關鍵詞的潛在詞性模式,它將成為抽取候選關鍵詞的依據(jù)。表2常見的關鍵詞種類及其潛在詞性模式<table>complextableseeoriginaldocumentpage12</column></row><table><table>complextableseeoriginaldocumentpage13</column></row><table>表2能較全面的對現(xiàn)時常見的關鍵詞從詞性方面作出歸納定義,可能說是一個判斷一個詞在文本中是否關鍵詞的初步指標。除此之外,新聞中的關鍵詞還應該容易被人們所理解,語義明確。為了降低關鍵詞的異義性,本發(fā)明規(guī)定除了個別化學元素、動植物統(tǒng)稱及其他專有名詞外,關鍵詞不能是單個字。另外,除了節(jié)假日外,人們一般不會對特定的'日期、時間感興趣,因此,除非文本確實強調(diào)某個具體時間,否則如"2003年"、"三月"等詞不應是關鍵詞。以上這些都是本發(fā)明中關鍵詞定義規(guī)范的內(nèi)容,而此部分內(nèi)容將為下一步的關鍵詞抽取作出指導工作。(2)根據(jù)潛在詞性模式提取候選關鍵詞這是待抽取新聞的預處理過程。算法獲得一篇完整的新聞文本后,會先把新聞文本分段利用ICTCLAS進行分詞及詞性標注,根據(jù)我們對關鍵詞的潛在詞性模式等定義規(guī)范,去掉.一些不符合定義規(guī)范的詞(例如一些虛詞、數(shù)量詞、擬聲詞等)及停用詞,然后分別采用以分詞器切分出來的詞為單位的一元、二元及三元文法在文本中挖掘符合表2的詞性模式的詞,作為本發(fā)明的候選關鍵詞(下簡稱作"候選詞")。(3)特征計算這里我們會先對此時的候選詞進行部分特征的計算。除詞性外,我們從詞的詞頻、出現(xiàn)位置及形態(tài)三方面考慮,為每個詞設置了八個特征值,所有特征及計算方法如表3所示。表3.特征及其計算方法<table>complextableseeoriginaldocumentpage14</column></row><table>根據(jù)詞的長度設置的特征值vv.w'^,表示該詞所包括的信息量。其值通過公式&(w)=g(x)計算,其中;c為字詞的長度,^0>=0;當2S《8時,g(x)=/og2x當x>8時,g(x)=3.特征計算過程還負責對一些時間詞、地點詞等進行歸一化處理,如"圣誕"及"圣誕節(jié)"、"北京"及"北京市",這些詞在同一篇新聞中出現(xiàn),其實是同一個概念,本文根據(jù)它們的常用程度w.rt/及在文中的出現(xiàn)頻率w.《,將其中一個的詞合并到另一個詞中,頻率相加,其他特征的合并以強特征的為準。如其中一詞W.,O為l,則合并后的H^WO也為1。此部分所計算的特征值將作為之后評分公式中的參數(shù)使用。(4)基于標題挖掘的方法來檢測潛在關鍵詞。新聞文本中經(jīng)常會出現(xiàn)分詞器字典中沒有的未登錄詞,這些詞很多時不能被分詞工具正確處理而遭到破壞或過濾。為了解決未登錄的關鍵詞的抽取問題,本發(fā)明設置了基于標題掘挖的新詞發(fā)現(xiàn)機制。我們把沒有被分詞器正確處理的卻又可能是關鍵詞的詞認為是潛在關鍵詞,這些詞可分為兩類,一類是被引號或書名號括起來的詞,如"惡性打折"、《計算機科學》等,這些詞應該是一個整體,但分詞程序可能會把它們從中折斷。檢測這種詞的方法十分簡單,我們同時在標題和正文中挖掘它們并把它們作為候選詞。另一種潛在關鍵詞則多數(shù)是新出現(xiàn)的簡略語或?qū)S忻~,不像第一種詞,這些詞沒有像引號、書名詞的符號作為分詞標記,由于中文文本中的詞之間并沒有明顯的符號分隔,文本中的連續(xù)幾個字都可能是新詞,因此我們引入了最大重復、完整、穩(wěn)定度及相對頻率四個指標來衡量這些詞。并定義了潛在關鍵詞必須滿足的條件。指標的定義如下最大重復設S是文本中的一個字串。若字串S的頻率至少為1且S的任意子串S'的頻率均小于S的頻率,則S是最大重復的。完整設A,...,外為字串S在文本r中出現(xiàn)的A:個不同位置,當且僅當下列條件成立時,S是完整的。1)至少有一("力對,W</^,使第(p,-/)個字與第fe-/)個字不同;2)至少有一("力對,W</^,使第fe+問)個字與第fe+l鄰個字不同,其中問為字串S的長度值。穩(wěn)定度設S=......&",則S的穩(wěn)定度定義為M(S)=/(&)+)—/(。,&=,,c/c2......cw",5^-"C2......cp",/(SV,/f5^/T5V分別是S,^在文本中出現(xiàn)的頻率。相對頻率設S是文本中的一個字串,則S的相對頻率為^y,w為文本中所出現(xiàn)的所有詞。/(V)為字串w在文本中的頻率。由于潛在關鍵詞大部分都會在標題中出現(xiàn),因此我們也只在標題中挖掘它們。根據(jù)上述4個指標,我們定義了潛在關鍵詞必須滿足的條件1)不能是單字;2)必須是最大重復的和完整的;3)穩(wěn)定度至少為/。當字符數(shù)為2時,/=0.38;當字符數(shù)為3時,/=0.67;其他字符數(shù),/=0.8;4)頻率至少為3,相對頻率大于等于0.021。其中,穩(wěn)定度的數(shù)值是通過實踐經(jīng)驗設置的,字符串越長,穩(wěn)定度要求越高。相對頻率的閾值也是由實踐經(jīng)驗得出的。需要注意一點是,雖然新詞主要是在標題中挖掘的,但四個指標中的頻率是在整個文本中計算的。即最大重復、穩(wěn)定度、相對頻率中的頻率均是在全'文中計算的,指標"完整"中的文本r也是指整個新聞文本。我們把滿足以上4個條件的字串從標題中挖掘出來,把里面已經(jīng)被分詞工具發(fā)現(xiàn)的及不適當?shù)脑~去掉,最后把這些字串作為候選詞加入到候選詞集中,并把這些詞的特征值補上。(5)特征擬合,得出候選詞排名特征擬合可以簡單地理解成對候選詞進行評分,其目的是為各候選詞計算一個用作衡量該詞能否成為最終關鍵詞的數(shù)值,稱為特征分值,本發(fā)明用的特征擬合公式是基于tf/idf公式擴展并加權得出的,計算如公式(1)所示公式(1)是對單文本詞匯頻率/逆文本頻率值(tf/idf)擴展而得到的,我們修改了原tf/idf公式中的idf項,增加了有關特征計算的特征項。我們根據(jù)每個特征的特點,給出不同的.加權方法。公式中,F(xiàn)={intitile,quo,infirs,sign}是一組特征,tf1力是它們的權重。t1,^t2t3分別是w.tf,tomS應浙w.rf/的權重。根據(jù)多次分層實驗調(diào)試,我們把O,CG'W),^/,,Wvw,/叫打的值分別設為0.99,1.0,0.95'2.3,2.3,0.01'0.85,其他參數(shù)的計算請參考表3。各候選詞經(jīng)過特征擬合后均得到一個特征分值,之后,本發(fā)明會按照特征分值,由高至低將候選詞排序,得出關鍵詞排名。(6)結(jié)果優(yōu)化,得出關鍵詞根據(jù)評分及排名方法可知,排名越前的候選詞越有可能成為最終的關鍵詞。在結(jié)果優(yōu)化階段,我們對分值最高的五個候選詞重新進行評測。包括評測它們的完整性、穩(wěn)定度、是否有某個單項特征過低等。另外,我們還會檢査最后各關鍵詞之間是否有包含或重疊現(xiàn)象,通過對它們的長度、頻率等特征進行比較,決定是否刪去其中的一個詞。l).檢測詞的穩(wěn)定度在新詞發(fā)現(xiàn)^.制中,本文已經(jīng)介紹了詞的穩(wěn)定度這個概念,它的計算公式如下由于新詞是由幾個連續(xù)的字所組成的,而穩(wěn)定度是衡量這個字串是否一個詞的重要指標,它指示這個字串中的字是經(jīng)常出現(xiàn)還是偶然、碰巧地連在一起。而本方法在生成候選詞時使用了二元文法及三元文法的潛在詞性模式來合成名詞或短語,方法需要衡量這個合成出來的字串是否一個詞,參考了前面定義的穩(wěn)定度,我們也用了這個準則來衡量這些合成詞的穩(wěn)定度,但公式中的&及&的定義和原式的有所不同。對于二元的合成詞,設它的模式為"wordl+word2",則S^wordl,S^word2。對于三元的合成詞,設它的模式為"wordl+word2十word3",貝ij5"i=wordl十word2,Sfword2+word3。如新詞發(fā)現(xiàn)里所述,穩(wěn)定度的要求和字串的長度相關,越長的字串,它的穩(wěn)定度要求越嚴格。我們把候選詞的二元及三元文法中的長度大于5且穩(wěn)定度少于0.8的詞刪掉。對于穩(wěn)定度少于0.5且其他特征過弱(如詞頻太低,或是沒有在標題或第一段中出現(xiàn))的詞也會刪掉。2)字符重疊這步驟是檢測最高分值的5個詞是否有互相包含的關系。如果有,則會根據(jù)具體情況,通過對它們的長度、頻率等特征進行比較,決定是否刪去其中的一個詞。假設現(xiàn)有存在重疊或包含現(xiàn)象的兩,其中長度值較大的詞簡稱為長詞,長度值較小的詞簡稱為短詞,判斷的具體準則如下a)被引用強調(diào)的詞優(yōu)先保留,b)若長詞的特征分值高于短詞的特征分值-保留長詞-若(長詞被強調(diào)引用)&&(長詞的詞頻小于短詞的詞頻)&&(短詞的長度值大于1)&&(長詞為一元文法的詞),則短詞也被保留,其中"&&"為表示"并且"的符號;C)若短詞的特征分值高于長詞的特征分值_若(短詞的長度值等于l)ll(長詞被強調(diào)引用)ll(短詞是實體關鍵詞或主題關鍵詞)li(長詞的詞頻小于短詞的詞頻),則保留長詞,去掉短詞,其中"II"為表示"或者"的符號;否則-若長詞是通過新詞發(fā)現(xiàn)找到的,或是三元文法的詞,則去掉長詞;否則_同時保留長詞和短詞。除此之外,屬性關鍵詞的要求會比實體關鍵詞及主題關鍵詞的要求嚴格。如屬性關鍵詞在文集里總頻率過低,特征性過弱或者特征為0,穩(wěn)定度或分數(shù)過低,則也會被從候選詞列表中移除。在整個結(jié)果優(yōu)化階段,不合格的詞會被刪除,分數(shù)比它低的候選詞排名會向前移一位,新進前五的候選詞繼續(xù)被檢查。最后,直到最高分的五個候選詞均附合要求或再沒有候選詞時,剩下的詞則為關鍵詞。整個關鍵詞抽取系統(tǒng)的框圖可參考圖1所示。利用上述步驟(1)_(6),創(chuàng)建了一個從新聞文本中抽取出關鍵詞的系統(tǒng)。本發(fā)明所有實驗用Java編程實現(xiàn),測試頁面使用了html及jsp,并在配置為IntelPM1400MHZ,768M內(nèi)存的筆記本電腦上運行。硬件結(jié)構圖如圖2所示。(1)文本集及測試集的建立我們收集了27612篇覆蓋不同范疇的新聞文本作為文本集,用于進行新聞文本分析,及統(tǒng)計關鍵詞的潛在詞性模式、w."/和^my廳。期后,我們從中刪除一些不合格新聞文本(只有新聞標題、改稿通知、新聞目錄等),最后得到19947篇新聞作為測試集I。在測試集I中,隨機選取400篇新聞文本作為測試集II,手工抽取并標記它們的關鍵詞。標記關鍵詞的數(shù)目一般為5,個別信息量少的文本可根據(jù)情況少標一些,但關鍵詞的數(shù)目至少為3。測試集I及II將作為本發(fā)明的效果評估實驗的實驗集。(2)抽取方法實施這里以文本庫中的一篇新聞文本作為例子說明抽取的步驟(注此新聞源自新華社,新聞全文可參考此鏈接http:〃www.cnwnc.com/20050421/cal561711.htm),圖3是用作觀察抽取結(jié)果的web頁面,抽取效果如圖所示,步驟如下1)提取候選詞集,并進行特征計算根據(jù)本發(fā)明的方法,對圖3中的新聞文本進行分詞及標注后,初歩提取出的候選詞集如下一元候選詞網(wǎng)絡實驗室開放式體現(xiàn)系統(tǒng)技術全球狀態(tài)相當圍繞工程汽車優(yōu)越性合作建立人才目前中國原型智能大學近期院長參與應用展開Windows力量總裁專業(yè)交通重要性同濟通訊設備開始儲備形成丌發(fā)嵌入研發(fā)建設車輛快速中心終端車載服務推動軟件培訓培養(yǎng)Embedded研究院放在科研監(jiān)控研究重心電子發(fā)展新興環(huán)境無縫透露CE致力亞洲課程信息計算選擇具備共建課題能力關鍵學院表示高層次需求雙方跨學科移動未來日前二元候選詞科研能力是全球大學電子WindowsEmbedded同濟大學科研重心系統(tǒng)研究軟件學院課程建設人才儲備軟全球研究院院長開放式實驗室和人才無縫計算設備需求沈向洋計算環(huán)境關鍵技術亞洲研究院網(wǎng)絡技術汽車學院交通信息研發(fā)力量專業(yè)人才技術中心狀態(tài)監(jiān)控移動交通監(jiān)控系統(tǒng)Windows移動WindowsCE智能設備車輛狀態(tài)張亞勤工程學院信息工程和重要性快速發(fā)展近期科研嵌入式大學共建新興應用合作建立車載終端信息系統(tǒng)三元候選詞狀態(tài)監(jiān)控系統(tǒng)無縫計算環(huán)境移動交通信息近期科研重心車輛狀態(tài)監(jiān)控信息系統(tǒng)研究亞洲研究院院長交通信息系統(tǒng)同濟大學共建信息工程學院同濟大學電子2)標題挖掘,提取出新詞"微軟"3)進一步篩選候選詞及對各詞評分,得到候選詞排名排名列表如圖3中關鍵詞抽取結(jié)果中最左一列所示(只列出了部分,排名在后的在頁面下方,向下滾動即可查看),該列中己把多元詞及新詞加入進去,每個詞后面列出了若干特征,順序是詞性、w.tf、w.ctf、特征分數(shù)、是否在標題中出現(xiàn)(l位,0或1)、是否被引用強調(diào)(l位,0或1)、是否完整(true或false)及它的穩(wěn)定度,另有一些特征沒有列出。4)結(jié)果優(yōu)化及關鍵詞輸出,名最前的五個詞中,詞頻、完整性及穩(wěn)定度(其中,外文windows作為一個單詞)等都符合要求,相互之間也沒有重疊,結(jié)果優(yōu)化后,最后的關鍵詞抽取結(jié)果為"嵌入式"、"微.軟"、"技術中心"、"Windows"及"同濟大學"。與文本的主題貼切,均可被視為正確的關鍵詞。其中包括二元詞"嵌入式"、"技術中心"及"同濟大學",外文一元詞"Windows"及新詞"微軟"。'為了評測我們發(fā)明的新聞文本關鍵詞抽取方法,我們設計了如下的實驗,其中,實驗的文本集構成在上文中已說明。(3)實驗衡量的準則我們以査準率precision、查全率recall和F/-Morn^來評價實驗結(jié)果,具體定義如下査準率precision:戶=系統(tǒng)正確抽取的關鍵詞數(shù)目/系統(tǒng)抽取出的關鍵詞數(shù)目查全率recall:i=系統(tǒng)正確抽取的關鍵詞數(shù)目/標準關鍵詞的數(shù)目Fl-Measure:Fl=2P//(戶+(4)實驗結(jié)果我們首先在測試集I上執(zhí)行程序,得到關鍵詞的分布結(jié)果,如表4所示。該表表明超過75%的關鍵詞來自一元文法模型,通過二元和三元文法得到的占了18.59%的關鍵詞。而通過新詞挖掘得到的關鍵詞大約有6%。這表明我們采用的多元文法模型抽取及新詞挖掘方法是有理及有效的。表4.測試集I的關鍵詞分布情況<table>complextableseeoriginaldocumentpage15<table>其后,我們在測試集II上執(zhí)行程序,并將結(jié)果與Baseline方法進行比較,這里的Baseline方法即基于tf/idf的傳統(tǒng)方法。這樣可以通過實驗得出我們的方法使用的各種策略對結(jié)果提高了多少。Baseline方法的計算公式如公式2所示,且不涉及多元文法、新詞發(fā)詞及結(jié)果優(yōu)化。表5則是兩種方法的評測結(jié)果。<formula>complexformulaseeoriginaldocumentpage21</formula>公式(3)表5.與baseline的結(jié)果比較<table>complextableseeoriginaldocumentpage21</column></row><table>在表5'中有兩組實驗結(jié)果分別對應兩種方法,每一組結(jié)果列出了抽取不同關鍵詞數(shù)目(從上到下,由1到5)的査準率和查全率,F(xiàn)l-measure則只列出了抽取5個關鍵詞時的結(jié)果。對比baseline,我們的方法能有效地提高關鍵詞抽取的查準率及查全率,在抽取關鍵詞數(shù)目為5時,F(xiàn)l-measure由49.18%增加至74.18%。另外,我們也就方法的時間開銷問題單獨做過實驗,實驗證明我們的方法與Baseline方法的效率相當,策略的引入并沒有導致過大的時間開銷。結(jié)論從實驗結(jié)果可以看出,我們的方法在實驗集中明顯優(yōu)于baseline方法。實驗表明,我們提出的新聞文本關鍵詞抽取的方法是切實有效的。權利要求1、一種基于詞頻和多元文法的新聞關鍵詞抽取方法,其特征在于所述方法依次會有以下步驟步驟(1)對新聞進行語言學和語義特征的分析,給出新聞關鍵詞的潛在詞性模式步驟(1.1)人工對基于新聞文本集進行語言學和語義特征的分析,根據(jù)包括Who、Where,When,What,Why,How在內(nèi)的新聞六要素,進行新聞關鍵詞抽取,并從所述文本中過濾掉包括虛詞、數(shù)量詞、擬聲詞在內(nèi)的非上述詞性的詞;步驟(1.2)借助于計算機,利用ICTCLAS分詞工具對所述文本進行詞性標注,然后分別采用以所述ICTCLAS分詞工具切分出來的詞為單位,依次用一元、二元及三元文法在某個新聞文本集中統(tǒng)計出包括一般名詞、修飾語、名詞短語、動詞短語在內(nèi)的四類關鍵詞的具體的多元詞性模式,也即新聞關鍵詞的四種潛在模式;步驟(2)所述計算機依據(jù)步驟(1.2)得到的四種具體的潛在詞性模式,從一份完整的、具體的新聞文本中抽取候選關鍵詞,其步驟如下步驟(2.1)完成步驟(2)中的一份完整而具體的新聞文本分段,利用ICTCLAS分詞工具進行分詞及詞性標注;步驟(2.2)根據(jù)步驟(1)中得到的潛在詞性模式去掉包括虛詞、數(shù)量詞、擬聲詞在內(nèi)的其他詞及停用詞;步驟(2.3)分別采用以步驟(2.1)中用ICTCLAS分詞工具分出來的詞為單位,用一元、二元及三元文法在步驟(2)所述的一份完整而具體的文本中挖掘出符合步驟(1.2)所述詞性模式的詞,作為候選關鍵詞;步驟(3)計算機為步驟(2)得到的每個候選關鍵詞w按以下方法計算出下述八個特征值詞頻分別以三個特征值w.tf、w.ctf、termSum表示w.tfw在所在新聞文本中的出現(xiàn)次數(shù),其中,所在新聞文件即步驟(2)所述的一份完整而具體的新聞文本;w.ctfw在所述某個新聞文本集中出現(xiàn)的總次數(shù);termSum在所述某個新聞文本集中,基于該詞w所屬文法的一元/二元/三元文法字的詞頻總和;文本位置分別用w.inTitle及w.inFirst表示,其中w.inTitle表示詞w是否在新聞的標題中出現(xiàn),w.inTitle=0表是否,w.inTitle=1表是肯定;w.inFirst表示詞w是否在所在新聞文本的第一段中出現(xiàn),w.inFirst=0表是否,w.inFirst=1表是肯定;詞性用w.POS表示,指詞w的詞性;形態(tài)分別用w.quo、w.sign表示,其中w.quo表示引用強調(diào),是指詞w是否被包括引號、書名號在內(nèi)的符號括起來,w.quo=0表是否,w.quo=1表是肯定;w.sign表示詞w的長度,按式Se(w)=g(x)計算得出,其中x為字詞的長度,g(1)=0;當2≤x≤8時,g(x)=log2x;當x>8時,g(x)=3;步驟(4)計算機基于標題挖掘的方法來檢測潛在關鍵詞,所述潛在關鍵詞是指那些沒有被上述ICTCLAS分詞工具所正確處理但可能是關鍵詞的那些詞,步驟如下步驟(4.1)把包括引號、書名號在內(nèi)的一些起引用強調(diào)的符號作為分詞標記,去檢測這些被引號或書名號括起來的詞;步驟(4.2)對于那些新出現(xiàn)的簡略語或?qū)S忻~,按以下步驟處理步驟(4.2.1)設定以下四個識別檢測的指標最大重復設S是潛在關鍵詞所在文本中的一個字串,若字串S的頻率至少為1且S的任意子串S’的頻率均小于S的頻率,則S是最大重復的;完整設p1,p2,...,pk為字串S在文本T中出現(xiàn)的k個不同位置,當且僅當下列條件同時成立時,S是完整的;1)至少有一個位置序號對(i,j),1≤i<j≤k,使第(pi-1)個字與第(pj-1)個字不同;2)至少有一個位置序號對(i,j),1≤i<j≤k,使第(pj+|S|)個字與第(pj+|S|)個字不同,其中|S|為字串S的長度值;穩(wěn)定度設S=”c1c2......cp”,則S的穩(wěn)定度定義為<math-cwu><![CDATA[<math><mrow><mi>MI</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>f</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow></mrow><mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>L</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>R</mi></msub><mo>)</mo></mrow><mo>-</mo><mi>f</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></math-cwu><!--imgid="icf0001"file="S2007101770742C00021.gif"wi="172"he="32"img-content="drawing"img-format="tif"/-->SL=”c1c2......cp-1”,SR=”c2......cp”,f(S),f(SL),f(SR)分別是S,SL,SR在潛在關鍵詞所在文本中出現(xiàn)的頻率;相對頻率設S是潛在關鍵詞文本中的一個字串,則S的相對頻率為w為該文本中所出現(xiàn)的所有詞。f(W)為詞w在該文本中出現(xiàn)的頻率;步驟(4.2.2)根據(jù)以下4個必須同時滿足的條件,把標題中的潛在關鍵詞字串挖掘出來1)不能是單個字;2)必須是最大重復的和完整的;3)穩(wěn)定度至少為t。當字符數(shù)為2時,t=0.38;當字符數(shù)為3時,t=0.67;該字符數(shù)有其他值時,t=0.8;4)頻率至少為3,相對頻率大于等于0.021;然后,把潛在關鍵詞作為候選詞,加入到關鍵詞候選集中,把這些潛在關鍵詞的特征值算出,對標題中其他已被ICTCLAS分詞工具發(fā)現(xiàn)的及不適合的詞去掉;步驟(5)計算機按下式進行特征擬合,根據(jù)計算出的特征分值score(w)得出候選關鍵詞的排名次序所有候選關鍵詞集合中,各個關鍵詞的特征分值score(w)按下式算出全文摘要一種基于詞頻和多元文法的新聞關鍵詞抽取方法屬于自然語言處理
技術領域:
,其特征在于,通過研究關鍵詞的特征詞性,利用計算機輔助挖掘,提取出關鍵詞的多元文法的潛在詞性模式,并將其作為關鍵詞抽取算法的依據(jù)。在進行新聞關鍵詞抽取時,首先根據(jù)潛在詞性模式挖掘文本中的多元詞組,抽取關鍵詞的候選詞集,然后從標題中挖掘未登錄的潛在關鍵詞,將潛在關鍵詞也加入候選關鍵詞集中。本申請?zhí)岢鲆粋€改進的單文本詞匯頻率/逆文本頻率值(tf/idf)公式,引入有針對性的特征,對候選關鍵詞進行評分,得出候選關鍵詞的排名,進行結(jié)果優(yōu)化后給出該新聞文檔的關鍵詞。該方法與傳統(tǒng)的基于單文本詞匯頻率/逆文本頻率值(tf/idf)的關鍵詞抽取方法比較,在準確率相同的情況下,召回率更高些。文檔編號G06F17/30GK101196904SQ20071017707公開日2008年6月11日申請日期2007年11月9日優(yōu)先權日2007年11月9日發(fā)明者杰唐,鵬張,軍李,李涓子,樊綺娜,斌許申請人:清華大學