国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      詞義消歧系統(tǒng)和方法

      文檔序號:6578401閱讀:311來源:國知局
      專利名稱:詞義消歧系統(tǒng)和方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及自然語言處理領(lǐng)域,具體地,涉及一種詞義消歧系統(tǒng)和方法。
      背景技術(shù)
      在一種語言中,某些詞只有一個詞義,而某些詞有多個詞義。例如漢語中的“電話” 只有一個詞義,即通訊工具,而“服”有兩個詞義(sense),一是衣物,二是吃。詞義消歧(Word Sense Disambiguation,簡稱WSD)就是在具體的上下文環(huán)境中確定某個多義詞的詞義,例 如在“春服既成,冠者五六人,童子六七人”中確定“服”是衣物的意思,而在“飯后服藥”中 確定“服”是吃的意思。詞義消歧可以消除詞的歧義,確定詞的真實含義,這對文本分析和與之相關(guān)的各 種服務(wù)都很有用處。通常來說詞義消歧有兩種方式,一是監(jiān)督式,二是非監(jiān)督式。前者需要一個人工標 注的訓(xùn)練樣本集,后者不需要。由于訓(xùn)練樣本集需要人工標注,而且一般是基于領(lǐng)域的,也 就是說,不同領(lǐng)域需要不同的訓(xùn)練樣本集,所以構(gòu)建的時間和資金成本都比較高。而非監(jiān)督 方法不需要訓(xùn)練樣本集,所以相對監(jiān)督式方法而言具有速度快、成本低等優(yōu)勢。非監(jiān)督方法的一個基本思路是考慮上下文(context)。例如“服”字有兩個 詞義,但是上下文中出現(xiàn)“中山裝”的時候,則“服”很可能取服裝的詞義,而不是吃的 詞義。具體來說,參考文獻 1 (DianaMcCarthy, Rob Koeling, Julie Weeds, and John Carroll. Findingpredominant word senses in untagged text. In Proceedings of the 42ndMeeting of the Association for Computational Linguistics (ACL' 04), MainVoIume,pp 279-286.)給出一種計算方法。圖1示出了參考文獻1所采用的詞義消歧方法的流程圖。處理分為四步。第一, 對每個多義詞確定上下文;第二,對每個多義詞的每個詞義確定和上下文的相似度;第三, 對每個多義詞,綜合考慮它的每個詞義和上下文的相似度,對每個詞義計算可信度;第四, 選擇具有最大可信度的詞義,作為這個多義詞的詞義。具體來說,假設(shè)詞w的上下文有η個詞,則記為c (w) = In1, n2,. . .,nk}。設(shè)w有m 個詞義(簡記為ws),記為Senses (w) = (wsi; ws2, . . . , wsm)。詞w的詞義Wsi的可信度的 計算公式如下 其中S(WSi,nj)是Wsi和w的第j個上下文詞η」的相似度。假設(shè)~有1個詞義,具 體公式為 S (wsi rij) = max (S (wsi Hsjl),S (wsi nsj2),. . .,S (wsi Hsjl)),其中 nsjp 代表1的 第P個詞義。S(WSi,nSjl)是兩個詞義的相似度,某些字典可以提供這個功能,例如HowNet。下面結(jié)合一個示例來說明參考文獻所使用的方法。假設(shè)有三個詞{服,裝,包},它們互為context,例如c(服)={裝,包}。假設(shè)它們的詞義和詞義之間的相似度如表1 和表2所示。表1示出了服,裝,包三個詞的詞義,表2示出了詞義之間的相似度。例如,表 2的第五行表示了相似度S(衣物(clothes),用具(tool)) =0.3。
      表1 表2參考文獻1中描述的方法是對每個詞同時進行以上流程中的四個步驟。例如,對W=服,第一,確定它的上下文是C(W) = {ni;n2} = {裝,包}。第二,計算每個詞義和上下文的相似度Senses (w) = (ws1; ws2)=(衣物(clothes),吃(eat)).S(WSpn1) = max (S (衣物(clothes),衣物(clothes)),S (衣物(clothes),包扎(wrap))) = max(1,0) = 1S(wsi; n2) = max(S(衣物(clothes),用具(tools)),S(衣物
      (clothes),包扎(wrap))) = max (0· 3,0) = 0. 3S (ws2, η》=max (S (吃(eat),衣物(clothes)), S (吃(eat),包扎(wrap))) = max(0,0. 2) = 0. 2S (ws2, n2) = max (S (吃(eat),用具(tools)),S (吃(eat),包扎(wrap))) = max(0,0. 2) = 0. 2第三,計算每個詞義的可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 1/(1+0. 2)+0. 3/(0. 3+0. 2) = 1. 43C(ws2) = S (ws2, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (ws2, n2) / (S (Ws1, n2)+S (ws2, n2))= 0. 2/(1+0. 2)+0. 2/(0. 3+0. 2) = 0. 57第四,確定“服”的詞義因為C(Ws1) > C(ws2),所以“服”取Ws1 =衣物(clothes) 的詞義。類似地,對W=裝,第一,確定它的上下文是C(W) = {ni;n2} = {服,包}。第二,計算每個詞義和上下文的相似度Senses (w) = (Ws1, ws2)=(衣物(clothes),包扎(wrap)).S (ws1 η》=max (S (衣物(clothes),衣物(clothes)), S (衣物(clothes),吃 (eat)))= max (1,0) = 1S (ws1 n2) =max(S(衣物(clothes),用具(tools)), S(衣物(clothes),包扎 (wrap))) = max(0. 3,0) = 0. 3S (ws2, n》=max (S (包扎(wrap),衣物(clothes)),S (包扎(wrap),吃(eat))) =max(0,0. 2) = 0. 2S (ws2,n2) = max (S (包扎(wrap),用具(tools)),S (包扎(wrap),包扎(wrap))) =max (0,1) =1第三,計算每個詞義的可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 1/(1+0. 2)+0. 3/(0. 3+1) = 1. 06C (ws2) = 0. 2/ (1+0. 2) +1/(0. 3+1) = 0. 94第四,確定“服”的詞義因為C(wsl) >C(ws2),所以“裝”取Ws1 =衣物(clothes) 的詞義。類似地,對W=包,第一,確定它的上下文是C(W) = In1, %} = {服,裝}。第二,計算每個詞義和上下文的相似度Senses (w) = (ws” ws2)=(用具(tools),包扎(wrap)).S (wsi; Ii1) = max (S (用具(tools),衣物(clothes)),S (用具(tools),吃(eat))) = max(0. 3,0) = 0. 3S (wsi; n2) = max (S (用具(tools),衣物(clothes)),S (用具(tools),包扎(wrap))) = max(0. 3,0) = 0. 3S (ws2, η》=max (S (包扎(wrap),衣物(clothes)),S (包扎(wrap),吃(eat))) = max(0,0. 2) = 0. 2S (ws2,n2) = max (S (包扎(wrap),衣物(clothes)),S (包扎(wrap),包扎(wrap)))=max (0,1) =1第三,計算每個詞義的可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 0. 3/(0. 3+0. 2)+0. 3/(0. 3+1) = 0. 83C(ws2) = 0. 2/(0. 3+0. 2)+1/(0. 3+1) = 1. 17第四,確定“包”的詞義因為C(Ws2) > C(WSl),所以“包”取Ws2 =包扎(wrap)的 詞義。綜合以上三個結(jié)果,輸出為{服衣物(clothes),裝衣物(clothes),包包扎 (wrap)}ο由于以上過程是同時計算每個詞的詞義,結(jié)果中可能存在不一致。例如,在上例 中,服和裝都取的是衣物(clothes)的詞義,而包取的是包扎(wrap)的詞義。但仔細分析 包的計算過程可以發(fā)現(xiàn),包之所以取這個詞義,是因為在計算過程中“裝”的包扎(wrap)的 詞義起了決定性的作用(S(ws2,n2) = max(…,S(包扎(wrap),包扎(wrap))) = max(0, 1) = 1)。但是裝最后取的卻不是包扎(wrap)這個詞義,這就導(dǎo)致了不一致。上例中正確 的結(jié)果應(yīng)該是{服衣物(clothes),裝衣物(clothes),包用具(tools)}。

      發(fā)明內(nèi)容
      本發(fā)明提出一種漸進式詞義消歧系統(tǒng)和方法。最初只確定一個詞的詞義,而不是 所有詞的詞義,隨后重新計算其它詞和對應(yīng)的上下文的相似度。在重新計算過程中,已經(jīng)確 定詞義的詞只考慮已經(jīng)確定的那個詞義,而忽略該詞的其它詞義。重復(fù)這個過程直到確定 了所有詞的詞義。根據(jù)本發(fā)明第一方面,提出了一種詞義消歧系統(tǒng),用于對多義詞進行詞義消歧,包 括輸入裝置,用于輸入包括多義詞的文本;以及詞義消歧裝置,用于基于所述詞的詞義明 顯度來迭代地確定每個詞的詞義,其中詞義明顯度是根據(jù)所述詞的詞義可信度獲得的。根據(jù)本發(fā)明第二方面,提出了一種詞義消歧方法,用于對多義詞進行詞義消歧,包 括輸入步驟,輸入包括多義詞的文本;以及詞義消歧步驟,基于所述詞的詞義明顯度來迭 代地確定每個詞的詞義,其中詞義明顯度是根據(jù)所述詞的詞義可信度獲得的。優(yōu)選地,為了保證結(jié)果的正確性,在確定詞義時,選擇詞義最明顯的那個詞確定詞 義。例如,基于詞義的可信度計算明顯度,則詞義的可信度越大,詞義越明顯。由于漸進式過程的計算時間可能比傳統(tǒng)方法有所延長,本發(fā)明還提出了減少計算 時間、加快計算過程的方法。本發(fā)明最初確定多個詞的詞義,而不是只確定一個詞的詞義, 并且盡量選擇與確定的詞義保持一致的詞。由于減少計算時間可能導(dǎo)致結(jié)果中出現(xiàn)不一 致,所以這是個折中的方案。優(yōu)選地,為了節(jié)省計算時間,在確定詞義時,選擇詞義明顯度大于一閾值的詞。優(yōu)選地,為了節(jié)省計算時間,在確定詞義時,根據(jù)詞義明顯度對詞進行排序并從中 選擇前η個詞。優(yōu)選地,為了節(jié)省計算時間,在已經(jīng)確定了一個詞的詞義之后,猜測詞義未確定詞 可能的詞義,以及根據(jù)猜測的詞義是否與已確定詞義一致獲取詞義未確定詞的詞義。由此,本發(fā)明提高了詞義消歧結(jié)果的一致性,并在此過程中保持結(jié)果的正確性,以
      7及克服了計算時間長的缺點。


      圖1示出了已有技術(shù)的詞義消歧方法的流程圖;圖2a示出了本發(fā)明第一實施例的詞義消歧系統(tǒng)的示意圖;圖2b示出了根據(jù)本發(fā)明的詞義消歧方法的流程圖;圖2c示出了根據(jù)本發(fā)明的詞義消歧方法的另一個流程圖;圖2d示出了根據(jù)本發(fā)明的詞義消歧方法的另一個流程圖;圖3a示出了根據(jù)本發(fā)明第二實施例的詞義消歧系統(tǒng)的示意圖;圖3b示出了根據(jù)本發(fā)明的詞義消歧方法的另一個流程圖。
      具體實施例方式下面,將參考附圖描述本發(fā)明的優(yōu)選實施例。在附圖中,相同的元件將由相同的參 考符號或數(shù)字表示。此外,在本發(fā)明的下列描述中,將省略對已知功能和配置的具體描述, 以避免使本發(fā)明的主題不清楚。圖2a示出了根據(jù)本發(fā)明第一實施例的詞義消歧系統(tǒng)。該 系統(tǒng)包括輸入裝置21,上下文確定裝置22,詞義消歧裝置2和存儲器(未示出)。輸入裝 置21用于接收輸入的文本,文本包括具有多個詞義的多義詞。上下文確定裝置22用于對 文本中的每個多義詞確定其上下文。對于一個多義詞,其在文本中的一個或多個相鄰的詞 可以看做是該詞的上下文。詞義消歧裝置2包括相似度計算單元23,詞義可信度計算單元 24,詞義明顯度計算單元25,選詞單元26,詞義確定單元27和控制器28。相似度計算單元 23用于計算每個多義詞的詞義與其上下文之間的相似度。已經(jīng)存在一些詞典可以提供計算 兩個詞義之間的相似度的功能,例如,可以使用WordNet (英文)或者HowNet (中文)詞典 來獲得兩個多義詞的詞義之間的相似度。詞義可信度計算單元24用于基于獲得的相似度 計算詞的詞義可信度??梢圆捎脜⒖嘉墨I1的方法計算詞義可信度。詞義明顯度計算單元 25用于基于詞的詞義可信度獲得詞的詞義明顯度。詞義明顯度表示了多義詞取某個詞義的 可能性。選詞單元26用于根據(jù)詞義明顯度選擇滿足預(yù)定條件的詞,例如,選擇詞義明顯度 最大的詞,選擇詞義明顯度大于一閾值的詞,或者從按照明顯度排序后的多義詞中選擇前η 個詞。詞義確定單元27,用于確定選擇的詞的詞義。從而可以在每一個循環(huán)中確定一個詞 的詞義,或者在每一個循環(huán)中確定多個詞的詞義。控制器28,用于控制相似度計算單元23, 詞義可信度計算單元24,詞義明顯度計算單元25,選詞單元26和詞義確定單元27的操作。 從而各個單元在控制器的控制下對輸入的文本中的多義詞循環(huán)進行相似度計算,可信度計 算,詞義明顯度計算,選詞,確定詞義,直到對文本中的每一個多義詞確定了該多義詞在文 本中的詞義。雖然圖2a示出本發(fā)明的詞義消歧系統(tǒng)包括上下文確定裝置22,但是可以理解的 是詞義消歧系統(tǒng)也可以不包括該上下文確定裝置,而是使用輸入的已經(jīng)確定了上下文的文 本。圖2b示出了根據(jù)本發(fā)明的詞義消歧方法。在S201,詞義消歧系統(tǒng)的輸入裝置20 輸入文本。在S202,上下文確定裝置22確定文本中的每個多義詞的上下文。在S203,詞 義消歧裝置的相似度計算單元23分別確定每個多義詞的各個詞義和上下文的相似度。在
      8S204,詞義可信度計算單元24計算每個多義詞的各個詞義的可信度。在S205,詞義明顯度計算單元25計算每個多義詞的詞義明顯度。可以使用下列兩 種可選公式之一計算多義詞的詞義明顯度。
      .Max(Cw) - Second—Max(Cw)E (w) = Max (Cw) E(w) =--- ^ 了門、-
      Second—Max (CwJ其中,第一個公式中的Max(Cw)是詞w的所有的詞義可信度中最大的可信度,而 Second_Max(Cw)是次大的可信度。第二個公式用于衡量最大可信度超越次大可信度的程度。對兩個公式而言,E(W)越大,則詞w的詞義越明顯,因此可以越早地在循環(huán)中確定 該詞的詞義。例如在“服裝包”示例中,服的兩個詞義可信度分別為1.43和0.57,而裝的兩 個詞義可信度分別為1. 06和0. 94,那么服的兩個詞義差別很大,服的詞義比較確定,應(yīng)該 取可信度值為1.43的那個詞義,而裝的兩個詞義差別不大,不能確定應(yīng)該取哪個詞義。所 以,如果只考慮服和裝兩個詞的話,應(yīng)該先確定服的詞義,再根據(jù)已確定的服的詞義確定裝 的詞義。之后,在S206,選詞單元26選擇詞義明顯度最大的詞,并對選出的詞確定詞義???以比較選出的詞的各個詞義的可信度,并取可信度最大的那個詞義作為選出的詞的詞義。 在S208,控制器28判斷是否已經(jīng)確定了所有多義詞的詞義。如果沒有,則執(zhí)行S203,否則
      結(jié)束處理。下面還以“服裝包”一詞為例,對上述方法進行簡單說明。第一循環(huán)(1)確定上下文,計算相似度和可信度與已有技術(shù)采用的方式相同,這里不再描 述。(2)根據(jù)上述求E (W)的第二個公式,計算詞的詞義明顯度E(服)=(1.43--0.57),/o.57 =1.51
      E(裝)=(1.06--ο·94),/o.94 =0.13
      E(包)=(1.17--ο·83),/o.83 =0.41(3)選擇詞義明顯度最大的詞,這里選擇“服”。(4)最后,確定服的詞義。因為C(Ws1) > C(Ws2),所以取Ws1 =衣物(clothes)的 詞義。第二循環(huán)還剩下“裝”和“包”兩個字,以下分別計算。由于在第一循環(huán)中已經(jīng)確定了服的 詞義,因此,在以下的計算中,服只取衣物(clothes)的詞義,而不再取吃(eat)的詞義。對w =裝(c(w) = {叫,n2} = {服,包}),Senses (w) = (wsi; ws2)=(衣物 (clothes),包扎(wrap)).(1)計算相似度S(WSpn1) = max(S(衣物(clothes),衣物(clothes))) = max(l)=1S(wsi; n2) =max(S(衣物(clothes),用具(tools)),S(衣物(clothes),包扎 (wrap))) = max(0. 3,0) = 0. 3
      9
      S(ws2,叫)=max(S(包扎(wrap),衣物(clothes))) = max(0) = 0S (ws2,n2) = max (S (包扎(wrap),用具(tools)),S (包扎(wrap),包扎(wrap))) = max (0,1) = 1(2)計算詞義可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 1/(1+0)+0. 3/(0. 3+1) = 1. 23C(ws2) = 0/(1+0)+1/(0. 3+1) = 0. 77(3)計算詞義明顯度E (裝)=(1. 23-0. 77) /0. 77 = 0. 6對 W=包(c(w) = In1, n2} = {服,裝}),Senses (w) = (wsi; ws2)=(用具(tools),包扎 (wrap)).(1)計算相似度S(WSpn1) = max(S(用具(tools),衣物(clothes))) = max(0. 3) =0.3S(wsi; n2) = max(S(用具(tools),衣物(clothes)),S(用具(tools),包扎 (wrap))) = max(0. 3,0) = 0. 3S(WSyn1) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0S (ws2,n2) = max (S (包扎(wrap),衣物(clothes)),S (包扎(wrap),包扎(wrap))) =max (0,1) =1(2)計算詞義可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 0. 3/(0. 3+0)+0. 3/(0. 3+1) = 1. 23C (ws2) = 0/ (0. 3+0) +1/(0. 3+1) = 0. 77(3)計算詞義明顯度E (包)=(1. 23-0. 77) /0. 77 = 0. 6(4)選擇詞義明顯的最大的詞(第二循環(huán))因為裝和包的明顯度相同,可以選擇任意一個。例如選“裝”(選 “包”的結(jié)果一樣)。(5)確定選擇的詞的詞義因為C(Ws1) > C(Ws2),所以“裝”取 Ws1 =衣物(clothes)的詞義。第三循環(huán)只剩下包一個字。在以下的計算中,服和裝只取衣物(clothes)的詞 義,而不再取其它的詞義。對w =包(c(w) = {叫,nJ = {服,裝}),Senses (w) = (wsi; ws2)=(用具 (tools),包扎(wrap)).(1)計算相似度S(WSpn1) = max(S(用具(tools),衣物(clothes))) = max(0. 3) =0.3S(WSpn2) = max(S(用具(tools),衣物(clothes))) = max(0.3) =0.3S(WSyn1) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0S(ws2, n2) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0
      (2)計算可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 0. 3/(0. 3+0)+0. 3/(0. 3+0) = 2 C (ws2) = 0/ (0· 3+0) +0/ (0· 3+0) = 0因為只剩下一個詞,所以可以省略計算詞義明顯度和選擇詞義明顯度最大的詞的 步驟。在確定詞義時,因為C(Ws1) > C(Ws2),所以包取Ws1 =用具(tools)的詞義。最后輸出結(jié)果為{服衣物(clothes),裝衣物(clothes),包用具(tools)}。 這是正確的結(jié)果,其中包和服、裝的詞義保持一致。根據(jù)上述示例可以看出采用根據(jù)本發(fā)明的詞義消歧方法在詞義消歧的同時保持 了詞義的一致性。此外,雖然上述詞義消歧方法的結(jié)果保持了一致性,但是上述示例所采用的方法 使用了三個循環(huán),重復(fù)計算了某些內(nèi)容,所以計算時間比參考文獻1有所延長。為了減少計算時間、加快計算過程,本發(fā)明提出了對上述詞義消歧方法的改進方 法。其思路是(1)對所有詞義明顯度超過某一閾值的詞,都在同一循環(huán)中確定詞義。(2)對 所有詞按照詞義明顯度排序,取前η個詞,在同一循環(huán)中確定詞義。下面結(jié)合圖2c和2d對 這兩種改進方法進行了描述。圖2c示出了詞義消歧方法的一個流程圖。其中S401至S405與S201至S205的 處理過程相同,這里省略對其描述。在S406,選詞單元26選擇詞義明顯度大于閾值的多義 詞,并確定選擇的詞的詞義。如果某個詞的詞義明顯度很高(高于閾值),則它取這個詞義 的可能性很大,即使在隨后的循環(huán)中某些上下文的詞義發(fā)生改變,這個詞改變詞義的可能 性也不大,所以可以在第一循環(huán)中就確定該詞的詞義。但因為閾值通常是設(shè)置的,結(jié)果中可 能存在不一致。在S407,控制器28判斷是否已經(jīng)確定了所有多義詞的詞義,如果沒有,則執(zhí) 行S403,否則結(jié)束處理。下面結(jié)合“服裝包”一詞,對該方法進行簡單說明。第一循環(huán)由于計算“服裝包”的各個詞的相似度和可信度同上,這里省略了描述。計算詞義明顯度:E(服)=1.51,E (裝)=0. 13,E (包)=0.41。選擇詞義明顯度大于閾值的詞如果設(shè)置閾值T = 0. 5,則只有一個詞滿足條件 服。確定詞義確定服的含義為衣物(clothes)。第二循環(huán)同樣省略了對“裝”和“包”的相似度和可信度的計算過程。E(裝)=E(包)=0.6。因為二者都大于T,所以選擇這兩個詞決定詞義。這里 不再描述這一過程。最后,“裝”取衣物(clothes)的詞義,“包”取用具(tools)的詞義。最后輸出結(jié)果為{服衣物(clothes),裝衣物(clothes),包用具(tools)}。 這是正確的結(jié)果。該例子所采用的方法只用了兩個循環(huán)就得到了正確的結(jié)果,所以節(jié)省了 詞義消歧系統(tǒng)的計算時間。圖2d示出了詞義消歧方法的另一個流程圖。其中S501至S505與S201至S205 的處理過程相同,這里省略對其描述。
      在S506,選詞單元26根據(jù)詞義明顯度對多義詞進行排序,并選擇前η個詞。由于 在這一步可以確定多個詞的詞義,所以可以節(jié)省一定的計算時間。但是η也是設(shè)置的閾值, 可能引入不一致。在S507,詞義確定單元確定選擇的詞的詞義。在S508,控制器28判斷是否已經(jīng)確 定了所有多義詞的詞義,如果沒有,則執(zhí)行S503,否則結(jié)束處理。仍以“服裝包”為例,對該方法進行簡單說明。第一循環(huán)由于計算“服裝包”的各個詞的相似度和可信度同上,這里省略對其描述。計算詞義明顯度Ε(服)=1.51,E (裝)=0. 13,E (包)=0.41。排序結(jié)果E(服)>Ε(&)>Ε(*)。如果設(shè)置η = 2,取前兩個詞確定詞義。 對“服”,因為C(Ws1) > C(Ws2),所以取Ws1 =衣物(clothes)的詞義。對“包”,因為C (WS1) < C(Ws2),所以取Ws2 =包扎(wrap)的詞義。第二循環(huán),只剩下一個“裝”字。對W=裝(c(w)= In1, n2} = {服,包}),Senses (w) = (wsi; ws2)=(衣物 (clothes),包扎(wrap))。計算相似度S(WSpn1) = max(S(衣物(clothes),衣物(clothes))) = max(l) = 1S(WSpn2) = max(S(衣物(clothes),包扎(wrap))) = max(0) =0S(WSyn1) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0S (ws2, n2) = max (S (包扎(wrap),包扎(wrap))) = max (1) =1計算可信度C(WS1) = C(WS2) = 1因為C(WS1)和C(WS2)的可信度相同,所以可以任選一個,例如詞義取“衣物 (clothes),,。則最后輸出為{服衣物(clothes),裝衣物(clothes),包包扎(wrap)}。該例 子所采用的方法只用了兩個循環(huán),節(jié)省了計算時間。圖3a示出了根據(jù)本發(fā)明第二實施例的詞義消歧系統(tǒng)。與圖2a所示的詞義消歧系 統(tǒng)相比較,該詞義消歧系統(tǒng)還包括詞義猜測單元38和詞義獲取單元39。詞義猜測單元38 用于對詞義未確定的多義詞猜測可能的詞義。詞義獲取單元39用于判斷猜測的可能詞義 是否與已確定詞義一致并在一致時將猜測的可能詞義確定為該多義詞的詞義。通過采用詞 義猜測單元38和詞義獲取單元39,可以減少重復(fù)計算從而節(jié)省計算時間。下面結(jié)合圖3b說明本發(fā)明第二實施例的系統(tǒng)執(zhí)行的處理。圖3b示出了根據(jù)本發(fā) 明的詞義消歧方法。在S601,詞義消歧系統(tǒng)的輸入裝置31輸入文本。在S602,上下文確定 裝置32確定文本中的每個多義詞的上下文。在S603,詞義消歧裝置的相似度計算單元33 分別確定每個多義詞的各個詞義和上下文的相似度。在S604,詞義可信度計算單元34計算 每個多義詞的各個詞義的可信度。在S605,詞義明顯度計算單元35計算每個多義詞的詞義 明顯度??梢允褂肧205所使用的方法來計算詞義明顯度。在S606,選詞單元36選擇詞義 明顯度最大的詞,以及詞義確定單元37確定該詞的詞義。在S607,詞義猜測單元38猜測其它詞可能的詞義。
      在S608,詞義獲取單元39選擇猜測的詞義與已確定詞義一致的詞,并將猜測的詞 義作為該詞的詞義。由于在詞義確定單元38確定了一個詞的詞義之后,詞義猜測單元38和 猜測詞義獲取單元39交互操作以檢查所有未確定詞義的多義詞其詞義是否與已確定詞義 一致,如果一致,則在這一循環(huán)中將未確定詞義確定為已確定詞義,從而減少了計算時間。在S609,控制器40判斷是否已經(jīng)確定了所有詞的詞義。如果否,則執(zhí)行S603,否 則結(jié)束處理。下面仍以“服裝包”為例,簡單說明上述方法。第一循環(huán)確定上下文,計算相似度和可信度與已有技術(shù)采用的方式相同,這里不再描述。并 且確定了服務(wù)的詞義:"w =服”取ws =衣物(clothes)的詞義。猜測未確定詞可能具有的詞義(1)對 A =裝,Ws1 =衣物(clothes),ws2 =包扎(wrap).因為 C (WS1) = 1. 06 > C (Ws2) = 0. 94,所以裝取 As = WS1.(2)對 A =包,Ws1 =用具(tools),ws2 =包扎(wrap).因為 C(wsl) = 0. 83 < C(ws2) = 1. 17,所以包取 As = ws2.判斷未確定詞的猜測詞義是否與“服”的詞義(ws =衣物(clothes)) —致,如果 一致,則將猜測的詞義作為該詞的詞義其中,對未確定詞義詞A,稱它的某個詞義As和詞w的詞義一致,當且僅當S (As, w) =S(As,ws)。其中ws是詞w已經(jīng)確定的詞義。(1)對 A=裝,S (As,w) = max (S (衣物(clothes),衣物(clothes)),S (衣物(clothes),吃(eat))) = max (1,0) = 1。并且S(As,ws) = S (衣物(clothes),衣物(clothes)) = 1。因為S(As,w) = S(As,ws),所以As和詞w的詞義一致。(2)對 A=包,S (As,w) = max (S (包扎(wrap),衣物(clothes)),S (包扎(wrap), 吃(eat))) = max(0,0. 2) = 0. 2。并且S(As,ws) = S (包扎(wrap),衣物(clothes) = 0.。因為S(As,w)興S(As,ws),所以As和詞w的詞義不一致。由于“裝”符合要求,而包不符合。所以確定“裝”的詞義,即衣物(clothes)。所以,在這個循環(huán)結(jié)束后,有兩個詞確定了詞義服和裝。第二循環(huán)只剩下“包” 一個詞。對w =包(c(w) = {叫,nJ = {服,裝}),Senses (w) = (wsi; ws2)=(用具 (tools),包扎(wrap)).計算相似度S(WSpn1) = max(S(用具(tools),衣物(clothes))) = max(0. 3) =0.3S(WSpn2) = max(S(用具(tools),衣物(clothes))) = max(0.3) =0.3S(WSyn1) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0S(ws2, n2) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0計算可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))=0. 3/(0. 3+0)+0. 3/(0. 3+0) = 2C(Ws2) = 0/(0. 3+0)+0/(0. 3+0) = 0因為只剩下一個詞,可以直接判斷該詞的詞義。因為C(Ws1) > C(Ws2),所以包取 WS1 =用具(tools)的詞義。最后輸出結(jié)果為{服衣物(clothes),裝衣物(clothes), 包用具(tools)}。該結(jié)果消除了詞義歧異的同時保持了文本中詞義的一致性,而且減少 了計算時間,加快了計算過程。雖然本發(fā)明以中文文本為例,說明了詞義消歧的系統(tǒng)和方法,但是對于本領(lǐng)域技 術(shù)人員,很明顯地,本發(fā)明還可以應(yīng)用于其它語言,例如,英文,日文。盡管已經(jīng)參照具體實施例,對本發(fā)明進行了描述,但本發(fā)明不應(yīng)當由這些實施例 來限定,而應(yīng)當僅由所附權(quán)利要求來限定。應(yīng)當清楚,在不偏離本發(fā)明的范圍和精神的前提 下,本領(lǐng)域普通技術(shù)人員可以對實施例進行改變或修改。
      1權(quán)利要求
      一種詞義消歧系統(tǒng),用于對多義詞進行詞義消歧,包括輸入裝置,用于輸入包括多義詞的文本;以及詞義消歧裝置,用于基于所述詞的詞義明顯度來迭代地確定每個詞的詞義,其中詞義明顯度是根據(jù)所述詞的詞義可信度獲得的。
      2.如權(quán)利要求1所述的系統(tǒng),其中詞義消歧裝置包括相似度計算單元,用于計算所述詞的詞義與其上下文之間的相似度; 詞義可信度計算單元,用于基于獲得的相似度計算所述詞的詞義可信度; 詞義明顯度計算單元,用于基于所述詞的詞義可信度獲得所述詞的詞義明顯度; 選詞單元,用于根據(jù)詞義明顯度選擇滿足預(yù)定條件的詞; 詞義確定單元,用于確定所述選擇詞的詞義;以及控制器,用于控制上述各個單元迭代地基于所述詞的詞義明顯度確定每個詞的詞義。
      3.如權(quán)利要求1或2所述的系統(tǒng),其中詞義明顯度等于所述詞的詞義可信度中最大的值或者等于最大的詞義可信度與次大 的詞義可信度之間的差與次大的詞義可信度的比值。
      4.如權(quán)利要求2所述的系統(tǒng),其中選詞單元選擇詞義明顯度最大的詞。
      5.如權(quán)利要求2所述的系統(tǒng),其中選詞單元選擇詞義明顯度大于一閾值的詞。
      6.如權(quán)利要求2所述的系統(tǒng),其中選詞單元根據(jù)詞義明顯度對所述詞進行排序并從中 選擇前η個詞。
      7.如權(quán)利要求2所述的系統(tǒng),其中還包括 詞義猜測單元,用于猜測詞義未確定詞的詞義;詞義獲取單元,用于根據(jù)猜測的詞義是否與已確定詞義一致獲取詞義未確定詞的詞 義;以及所述控制器控制上述各個單元迭代地基于所述詞的詞義明顯度確定每個詞的詞義。
      8.如權(quán)利要求1所述的系統(tǒng),其中還包括上下文確定裝置,用于對所述輸入文本中的詞確定上下文。
      9.一種詞義消歧方法,用于對多義詞進行詞義消歧,包括 輸入步驟,輸入包括多義詞的文本;以及詞義消歧步驟,基于所述詞的詞義明顯度來迭代地確定每個詞的詞義,其中詞義明顯 度是根據(jù)所述詞的詞義可信度獲得的。
      10.如權(quán)利要求9所述的方法,其中詞義消歧步驟包括相似度計算步驟,計算所述詞的詞義與其上下文之間的相似度; 詞義可信度計算步驟,基于獲得的相似度計算所述詞的詞義可信度; 詞義明顯度計算步驟,基于所述詞的詞義可信度獲得所述詞的詞義明顯度; 選詞步驟,根據(jù)詞義明顯度選擇滿足預(yù)定條件的詞; 詞義確定步驟,確定所述選擇的詞的詞義;以及 重復(fù)上述各個步驟直到確定了每個詞的詞義。
      11.如權(quán)利要求9或10所述的方法,其中詞義明顯度等于所述詞的詞義可信度中最大的值或者等于最大的詞義可信度與次大 的詞義可信度之間的差與次大的詞義可信度的比值。
      12.如權(quán)利要求10所述的方法,其中選詞步驟根據(jù)下列方式之一選擇滿足預(yù)定條件的詞選擇詞義明顯度最大的詞;選擇詞義明顯度大于閾值的詞;以及根據(jù)詞義明顯度對所述詞進行排序并從中選擇前η個詞。
      13.如權(quán)利要求10所述的方法,其中還包括在詞義確定步驟之后執(zhí)行的步驟 猜測詞義未確定詞的詞義;以及根據(jù)猜測的詞義是否與已確定詞義一致獲取詞義未確定詞的詞義。
      14.如權(quán)利要求9所述的方法,其中還包括 上下文確定步驟,對所述輸入文本中的詞確定上下文。
      全文摘要
      本發(fā)明涉及一種詞義消歧系統(tǒng),用于對多義詞進行詞義消歧,包括輸入裝置,用于輸入包括多義詞的文本;以及詞義消歧裝置,用于基于所述詞的詞義明顯度來迭代地確定每個詞的詞義,其中詞義明顯度是根據(jù)所述詞的詞義可信度獲得的。以及本發(fā)明還涉及一種詞義消歧方法。根據(jù)本發(fā)明的詞義消歧系統(tǒng)和方法,可以提高詞義消歧結(jié)果的一致性,以及節(jié)省了計算時間。
      文檔編號G06F17/20GK101901210SQ20091014173
      公開日2010年12月1日 申請日期2009年5月25日 優(yōu)先權(quán)日2009年5月25日
      發(fā)明者胡長建, 趙凱 申請人:日電(中國)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1