本發(fā)明屬于信息技術(shù)領(lǐng)域,具體涉及一種基于圖的最大緊密度劃分的復(fù)合短語無監(jiān)督識別方法。
背景技術(shù):
隨著多科學(xué)研究的逐步深入,現(xiàn)今學(xué)術(shù)界和研究者發(fā)表大量的研究成果呈海量爆炸性增長。如何自動化收集、整合、分析這些工作成為了學(xué)術(shù)界和工業(yè)界關(guān)注的問題。論文、書籍、技術(shù)報告、專利的題目、科技項(xiàng)目名稱等這一類短語在這里統(tǒng)稱為復(fù)合短語。如何高效的從各類網(wǎng)絡(luò)語料中抽取需要的科技復(fù)合名詞實(shí)體,是自動化進(jìn)行學(xué)術(shù)信息抽取、知識產(chǎn)權(quán)保護(hù)、科技資源數(shù)據(jù)庫在線建設(shè)與維護(hù)等諸多應(yīng)用的基礎(chǔ)。
傳統(tǒng)意義上的命名實(shí)體是自然語言處理的基本任務(wù)抽取的對象,主要包括人名、地名、組織機(jī)構(gòu)名、數(shù)字、計(jì)量單位等專有名詞。這些命名實(shí)體具有長度相對穩(wěn)定、結(jié)構(gòu)規(guī)范、命名規(guī)則統(tǒng)一的有利特點(diǎn),這使得傳統(tǒng)的命名實(shí)體識別系統(tǒng)的F1-measure往往能達(dá)到90%以上,幾乎接近人類正常識別水平。而科技類名詞短語不同于人名和地名。科技類名詞往往內(nèi)部結(jié)構(gòu)復(fù)雜,內(nèi)部包含嵌套的科技名詞實(shí)體。而且科技類名詞短語紛繁復(fù)雜,詞·語的出現(xiàn)與否本身具有極大的稀疏性,內(nèi)部實(shí)體之間相互組合的冗余度低。這類詞法結(jié)構(gòu)導(dǎo)致識別該類命名實(shí)體的難度較大。這使得通過詞語本身隱式馬爾科夫輸入的方法不可行。由于復(fù)合短語相對于普通的命名實(shí)體(人名、地名、機(jī)構(gòu)名)詞語本身詞法組成更加復(fù)雜,傳統(tǒng)的純手工角色標(biāo)注容易導(dǎo)致標(biāo)注錯誤,而且傳統(tǒng)方法依賴于手工標(biāo)注數(shù)據(jù),費(fèi)時費(fèi)力。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供無監(jiān)督的復(fù)合短語自動識別方法,為解決科技類短語手工標(biāo)注數(shù)據(jù)費(fèi)時費(fèi)力的困難以及數(shù)據(jù)稀疏,冗余度低的特點(diǎn)以及傳統(tǒng)的有監(jiān)督方法效果較差,本文提出了一種無監(jiān)督的基于圖的最大緊密度劃分的復(fù)合短語的高效識別方法。
本發(fā)明采用的技術(shù)方案如下:
一種基于圖的最大緊密度劃分的復(fù)合短語無監(jiān)督識別方法,包括以下步驟:
1)采用詞性標(biāo)注工具對輸入語料進(jìn)行詞性標(biāo)注和分詞;
2)將分詞后的輸入序列映射到有序的圖結(jié)構(gòu)中,將語義緊密度高的詞語劃分到一個分段內(nèi),并使得整個圖的緊密度之和最大;
3)通過驗(yàn)證各分段是否包含特征詞,實(shí)現(xiàn)候選復(fù)合短語的最終識別。
進(jìn)一步地,步驟2)通過動態(tài)規(guī)劃方法求解不同分段組合之間的緊密度,從而將整個輸入文本的緊密度之和最大化。
進(jìn)一步地,步驟2)中分詞之間的緊密度包含:特殊符號緊密度、維基百科緊密度、以及詞性緊密度。
進(jìn)一步地,步驟3)通過求解最小集合覆蓋問題來產(chǎn)生特征詞集合。
本發(fā)明的關(guān)鍵點(diǎn)包括兩個方面:
1)針對設(shè)置對科技類復(fù)合名詞短語自身的特點(diǎn),通過將輸入序列映射到有序的圖模型,通過尋找最大化緊密度的切分,從而將候選科技復(fù)合短語切分出來。
2)根據(jù)復(fù)合短語特征詞中富含特征詞這一重要特性,采用了前一階段的分段是否包含特征詞來實(shí)現(xiàn)候選科技復(fù)合短語的最終識別。本發(fā)明采用了最小集合覆蓋的思想,來產(chǎn)生特征詞集合。
本發(fā)明的有益效果如下:
本發(fā)明提供了一種無監(jiān)督的基于圖的最大緊密度劃分的復(fù)合短語自動識別方法,能夠自動識別科技類復(fù)合短語,省時省力,相比于傳統(tǒng)的有監(jiān)督方法,不需要大量標(biāo)注語料,便于在線部署應(yīng)用,是一種高效的科技類復(fù)合短語識別方法。
附圖說明
圖1是命名實(shí)體識別處理流程圖。
圖2是單詞圖分割例子示意圖。
圖3是二元運(yùn)算計(jì)算示意圖。
圖4是681-NSPTA數(shù)據(jù)集上參數(shù)u對算法性能影響曲線圖,其橫坐標(biāo)為參數(shù)u的值,縱坐標(biāo)為算法性能值,其中Recall Rate表示查全率,Precision表示查準(zhǔn)率,F(xiàn)1measure表示F1測度。
圖5是NSPTA數(shù)據(jù)集上參數(shù)u對算法性能影響曲線圖,其橫坐標(biāo)為參數(shù)u的值,縱坐標(biāo)為算法性能值。
圖6是681-NSPTA數(shù)據(jù)集上參數(shù)v對算法性能影響曲線圖,其橫坐標(biāo)為參數(shù)v的值,縱坐標(biāo)為算法性能值。
圖7是NSPTA數(shù)據(jù)集上參數(shù)v對算法性能影響曲線圖,其橫坐標(biāo)為參數(shù)v的值,縱坐標(biāo)為算法性能值。
圖8是681-NSPTA上滑動窗口大小對算法性能影響曲線圖,其橫坐標(biāo)為滑動窗口大小,縱坐標(biāo)為算法性能值。
圖9是NSPTA上滑動窗口大小對算法性能影響曲線圖,其橫坐標(biāo)為滑動窗口大小,縱坐標(biāo)為算法性能值。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面通過具體實(shí)施例和附圖,對本發(fā)明做進(jìn)一步說明。
1.科技復(fù)合短語特征
基于對復(fù)合短語的觀察,發(fā)現(xiàn)有以下幾個特性:
(1)多成分組成:復(fù)合短語往往由多個詞語組成成分,例如:“兩系法雜交水稻研究與應(yīng)用”中,對其進(jìn)行分詞后,包含“兩系法”、“雜交”、“水稻”、“研究”、“應(yīng)用”這幾個詞語組成成分。
(2)維基百科成分:由于復(fù)合短語本身的領(lǐng)域特性,其內(nèi)部成分往往是由維基百科條目組成。仍以科技復(fù)合短語“兩系法雜交水稻研究與應(yīng)用”為例,其中的“雜交”、“水稻”、“研究”、“應(yīng)用”均為維基百科條目,由此可見,連續(xù)的維基百科條目可以作為從輸入序列切分科技復(fù)合短語的一個重要依據(jù)。
(3)特殊組成詞性:在科技復(fù)合短語中極少出現(xiàn)幾類詞性、例如系動詞、人稱代詞、感嘆詞、語氣詞,輸入序列的中若出現(xiàn)此類詞性,則依據(jù)無關(guān)性原則,來切分上下文輸入詞語序列。
根據(jù)以上幾個原則,我們提出基于圖的緊密度最大化劃分的原則:將一個輸入序列映射到一個有序的圖模型中。將前后具有緊密聯(lián)系的詞語劃分到一個分段中,以將無關(guān)的成分與候選復(fù)合短語相分離。
2.科技復(fù)合短語識別流程
如圖1所示,本方法模型主要分為三部分:第一部分首先采用詞性標(biāo)注工具對輸入語料進(jìn)行詞性標(biāo)注和分詞。第二部分通過計(jì)算分詞結(jié)果之間組合的緊密度,通過動態(tài)規(guī)劃求解不同分段組合結(jié)果之間的緊密度,將整個輸入文本的緊密度之和最大化。第三部分通過驗(yàn)證分段是否包含特征詞,從而篩選出需要的復(fù)合短語。
我們在這里假定通過基本標(biāo)點(diǎn)符號截取的輸入分詞序列前后由邊相連,構(gòu)成一個有序的圖結(jié)構(gòu)。在輸入的一段文本中,各個詞之間在語義上是關(guān)聯(lián)的,所有的分詞與關(guān)聯(lián)構(gòu)成一個圖。從該分詞的序列中提取并組合合適的內(nèi)容,如同對圖進(jìn)行了切分。將切分后語義緊密度高的分配到一個分段內(nèi),使得整個圖的緊密度之和最大(如圖2所示)。
這里定義整個輸入序列圖模型的緊密度為:
s.t.1≤|si|≤uwhere t=s1s2···sm
其中,si代表每一個分段,|si|表示劃分分段si中包含分詞的個數(shù),t表示分詞組成的分段,C(t)表示分段整體緊密度,C(si)表示單個分詞對應(yīng)的緊密度,m表示分段的數(shù)目,u表示分段的最大長度。
為了求解所有分段方案的中最優(yōu)方案,本發(fā)明提出基于動態(tài)規(guī)劃的分段劃分算法SCSeg(SCi-tech compound entities SEGment solutions),對輸入序列求解全局的緊密度劃分方法。如下式,對于每一個分段,都有一個對應(yīng)的分段的緊密度。我們遍歷每一個分割方案,將目標(biāo)函數(shù)定義為各個分段緊密度之和,通過動態(tài)規(guī)劃求解目標(biāo)函數(shù)最大值,從而對原輸入分詞序列求解最優(yōu)劃分分段方案,進(jìn)而得到文本中科技類復(fù)合短語與其他成分的最優(yōu)的劃分方案。
其中,s1=w1…wj,s2=wj+1…wn
上式中,C(s)表示分詞組成的分段整體緊密度,s1,s2表示對該分段進(jìn)一步分割得到的兩個子分段,wj表示輸入語句中中第j個分詞,u代表分段的最大長度,n表示語句中一共包含的分詞的數(shù)量。
整個輸入序列對應(yīng)圖的分段整體緊密度計(jì)算公式為:
其中,C(w1,w2)代表分詞w1與w2之間的緊密度,s表示一個分段,|s|表示分段中分詞的個數(shù)。
基于此,本發(fā)明提出緊密度最大化的求解算法如下:
返回中C(st)值最大的劃分方案作為最優(yōu)劃分
該算法為動態(tài)規(guī)劃算法,共有兩個參數(shù):u:分段的最大長度,v:遞推求解的候選集合大小。上述算法用自然語言描述如下:
1)假設(shè)當(dāng)前句子包含的分詞數(shù)為n,算法從1到n-1之間逐個遞歸遍歷切分得到的子分段之和,其中參數(shù)u是為了限制每個子分段中包含分詞的最大數(shù)量;
2)算法從1到n-1之間存儲之前劃分的子分段的前υ個最優(yōu)劃分,當(dāng)算法進(jìn)行下一次遞歸時,會在已經(jīng)存儲的最優(yōu)劃分方案中遞歸查找,以求解當(dāng)前子分段的前υ個最優(yōu)劃分;
3)遞歸進(jìn)行這一過程,直到在句子分詞的末尾,從而得到整個句子的前υ個最優(yōu)劃分。
3.分詞之間的緊密度計(jì)算
通過對科技復(fù)合短語的分析,本發(fā)明將分詞之間的緊密度劃分為特殊符號緊密度、維基百科緊密度以及詞性的緊密度。
我們定義分詞之間的緊密度的計(jì)算公式為
C(w1,w2)=(Csm(w1,w2)+Cwt(w1,w2))×Cp2v(w1,w2)
其中Csm代表特殊符號緊密度,Cwt代表維基百科緊密度,Cp2v代表詞性的緊密度。
特殊符號緊密度:科技復(fù)合短語、例如論文與專利題目等往往由特殊符號包圍,基于此現(xiàn)象,位于特殊符號內(nèi)的分詞節(jié)點(diǎn)應(yīng)當(dāng)具有更高的緊密度。我們定義特殊符號緊密度為其中Ds(w1,w2)代表詞w1與詞w2之間間隔的分詞個數(shù),為表征w1與w2之間是否位于同一對特殊符號內(nèi)的布爾函數(shù)。
維基百科緊密度:由上述科技復(fù)合短語的維基百科特性可知,連續(xù)的維基百科條目為科技復(fù)合短語的可能性較大。這里定義維基百科緊密度為。
其中I(w)為表征詞w是否為維基百科條目的布爾函數(shù),s’表示位于詞w1與詞w2之間的分詞組成的分段,|s|表示分段s中分詞的個數(shù)。
詞性緊密度:由科技復(fù)合短語中特殊組合詞性特性可知,部分詞性極少出現(xiàn)在科技復(fù)合短語中。基于此觀察,本發(fā)明引入word2vec模型,將詞性標(biāo)注(POS)后的科技復(fù)合短語的輸入序列作為訓(xùn)練word2vector的模型(以下簡稱pos2vec),這里定義詞性緊密度為。
這里在分子加1是為了保證Cp2v(w1,w2)恒為正。其中,Sc表示詞w1和w2對應(yīng)詞性在隱式空間內(nèi)的余弦相似度,p(ω1),p(ω2)表示詞w1和w2對應(yīng)的詞性,表示詞w1和w2對應(yīng)詞性在隱式空間的向量。
4.科技復(fù)合短語的驗(yàn)證
在切分后的候選科技復(fù)合短語實(shí)體中,需要對候選的集合進(jìn)行判斷。注意到科技類科技復(fù)合短語中包含一類特殊的高頻詞語、例如上述短語中的“技術(shù)”、“研究”和“應(yīng)用”。我們將這一類詞語稱為科技復(fù)合短語的特征詞。特征詞集合規(guī)模過大會導(dǎo)致過匹配非復(fù)合短語。而特征詞集合規(guī)模過小又會導(dǎo)致遺漏。為了解決上述問題,我們基于最小集合覆蓋問題,進(jìn)行特征詞集合的生成。所謂最小集合覆蓋,是指給定全集U,以及一個包含n個集合且這n個集合的并集為全集的集合S。集合覆蓋問題是要找到S中最小的子集,使得他們的并集等于全集U,并且子集的規(guī)模最小。給定科技名詞短語集合,記訓(xùn)練集為P={p1,p2,...,pn},其中pi為第i條文本標(biāo)題。通過對P進(jìn)行分詞處理后可以獲取一個詞典數(shù)據(jù)W={w1,w2,...,wm},其中wi為詞典中第i個單詞。關(guān)系類型的特征詞提取可以轉(zhuǎn)化為在詞典中尋找一個滿足最小覆蓋的子集S,使得S滿足:
1.集合S能夠覆蓋集合P,即P的每條語料pi中至少有一個單詞在S中出現(xiàn);
2.S中元素個數(shù)最小。由于求解最小集合覆蓋問題是一個NP-hard問題。這里采用貪心算法求解特征詞的覆蓋問題。
將求解訓(xùn)練集P的最小覆蓋單詞集S問題記為WLAN(Words with the LeAst Number)。我們通過以下方法求解特征詞的最小覆蓋集合。通過訓(xùn)練集P和詞典W可以構(gòu)造一個m×n維的二值矩陣M,若詞典中第i個單詞wi在pj中出現(xiàn)過則Mij=1,否則Mij=0。首先如圖3,定義二元運(yùn)算符計(jì)算結(jié)果為去掉矩陣中M第i行以及所有第j列中非0元素Mij≠0,j∈[i,n],組成的新矩陣。如圖3所示,P={p1,p2,p3}為三條同類型的標(biāo)題語料,分詞后得到含有4個單詞的詞典W={w1,w2,w3,w4},構(gòu)造矩陣M。如果選擇單詞w2,則的計(jì)算結(jié)果為刪除M的第2行和第1列中非0元素所在的列,得到矩陣M′。利用運(yùn)算符以使用動態(tài)規(guī)劃的方法來求得問題的最優(yōu)解。本發(fā)明中采用貪心算法計(jì)算問題的近似最優(yōu)解,計(jì)算過程如下:
構(gòu)造布爾矩陣M,對訓(xùn)練語料中所有科技復(fù)合短語看作矩陣M的列向量,對于訓(xùn)練語料中所有科技復(fù)合短語中所有的分詞構(gòu)成矩陣M的列向量的行向量。若一個單詞在某條科技復(fù)合短語中出現(xiàn),則把其對應(yīng)結(jié)果置為1。
矩陣M作為初始輸入值,令單詞集
選擇M中1數(shù)量最多的一行,假設(shè)為第i行,計(jì)算S=S∪wi;
令并將其作為下一步輸入;
重復(fù)上述兩個步驟直到M為空矩陣為止,此時單詞集S即所求的最小覆蓋集,即得到了科技復(fù)合短語的特征詞集合。
然后利用該特征詞集合,通過驗(yàn)證分段是否包含特征詞,從而篩選出需要的復(fù)合短語。
5.本發(fā)明的效果
本發(fā)明利用包含從2005年到2014年的獲得國家科技進(jìn)步獎(National Science and Technology Progress Award between)的科技項(xiàng)目作為輸入,爬取并選取1869條語料數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)(以下簡稱為NSTPA),其中每一條語料包含一個或者多條復(fù)合短語。在其中本發(fā)明選取了681條數(shù)據(jù)(以下簡稱為681-NSTPA),前后共投入四名志愿者,花了兩個月的時間,做了隱式馬爾科夫模型的角色標(biāo)注。訓(xùn)練集與測試集采用十折交叉驗(yàn)證的方法,另外,本發(fā)明從搜狗新聞?wù)Z料中選取766條數(shù)據(jù)(以下簡稱為SOUGOU),其中不包含任何科技復(fù)合短語。我們定義單條查全率為、查準(zhǔn)率如下:
這里,eij與分別代表正確的科技復(fù)合短語與提取出的科技復(fù)合短語,代表eij與的公共字串長度。如果eij與均為空,則我們定義Re(ti)=Pr(ti)=1;若eij非空而為空,Re(ti)=0,Pr(ti)=1;若非空而eij為空,Re(ti)=1,Pr(ti)=0??傮w查全率和查準(zhǔn)率定義為:
表1.實(shí)驗(yàn)方法及數(shù)據(jù)集對比
由表1可以看出,在681-NSTPA對比數(shù)據(jù)集上,本發(fā)明的基于圖的最大緊密度劃分的復(fù)合短語的識別方法(SCSegVal)好于基于隱式馬爾科夫的方法(HMM),在完整的數(shù)據(jù)集NSTPA以及SOUGOU上,取得了80.2%的查全率、80.8%的查準(zhǔn)率、80.5%的F1測度以及100%的查全率、55.22%的查準(zhǔn)率、71.15%的F1測度。
下面說明切分文本動態(tài)求解參數(shù)設(shè)定:
切分文本的算法有兩個參數(shù),分段最大長度u、候選集合大小v。另外我們控制前后圖中相連的點(diǎn)的個數(shù)在一個滑動窗口內(nèi)。如圖4至圖9所示,發(fā)現(xiàn)以下規(guī)律:
根據(jù)圖4、圖5可以看出,查全率、查準(zhǔn)率、F1測度隨著u增大而增大。隨著u增大,查全率、查準(zhǔn)率、F1測度增長速度減慢,隨后停滯不前,這表明當(dāng)u大于科技復(fù)合短語時,算法的性能不在增長。
根據(jù)圖6、圖7可以看出,當(dāng)v增長時,算法總體性能輕微增長,其中準(zhǔn)確率在一個階段內(nèi)輕微下降,隨后增長。造成這一現(xiàn)象的原因是,由于候選集合的增大,算法輕微陷入局部最優(yōu),隨后由于候選集合的繼續(xù)增大,算法擺脫局部最優(yōu)。
根據(jù)圖8、圖9可以看出,當(dāng)隨著滑動窗口的增加,算法性能急劇增加,但是窗口到達(dá)一定規(guī)模后,算法性能增長趨于停滯。這表明為了減小內(nèi)存與時間消耗,適當(dāng)縮減滑動窗口大小,不會明顯降低算法的性能。
以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對其進(jìn)行限制,本領(lǐng)域的普通技術(shù)人員可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明的精神和范圍,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求書所述為準(zhǔn)。