廣義歸約的裝置與方法

文檔序號(hào)：184965閱讀：355來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>農(nóng)業(yè),林業(yè),園林,畜牧業(yè),肥料飼料的機(jī)械,工具制造及其應(yīng)用技術(shù)

專利名稱：廣義歸約的裝置與方法
技術(shù)領(lǐng)域：
本發(fā)明涉及自然語言處理領(lǐng)域中的文本分析的裝置與方法，屬于國際專利分類(IPC)的子類G06F 17/27，特別涉及一種對(duì)不同語言層次的實(shí)體進(jìn)行歸約的裝置與方法。
背景技術(shù)：
大部分的文本分析工作，都包括兩個(gè)步驟，即詞法分析與句法分析。詞法分析，其目的是判斷哪些字符可構(gòu)成單字，以及哪些單字可以構(gòu)成詞組；句法分析(或稱語法分析)，其目的則是判斷哪些單字或詞組可構(gòu)成語法成分，哪些語法成分可以繼續(xù)歸約，直到構(gòu)成一個(gè)句子。在句法分析的基礎(chǔ)上，還可以進(jìn)一步的進(jìn)行語義分析，即分析不同語法成分所代表的概念，進(jìn)而分析哪些概念可以組合成更復(fù)雜的概念。
無論詞法分析，語法分析，還是語義分析，從自底向上分析的角度來看，其實(shí)質(zhì)都是根據(jù)一定的規(guī)則對(duì)語言實(shí)體進(jìn)行歸約，構(gòu)成新的語言實(shí)體的過程。
在此基礎(chǔ)上進(jìn)一步抽象，不難發(fā)現(xiàn)，所謂文本分析，其目的在于識(shí)別出文本中的各種語言實(shí)體及其相互之間的關(guān)系。所謂的語言單元關(guān)系是指，哪些語言單元根據(jù)特定的歸約規(guī)則，歸約出特定的語言單元。
語言實(shí)體在不同語言層次上的具體所指是不同，比如在詞法層面，可以指單字，或詞組；在句法層面可以指語法成分；或者在語義層面，可以指不同的語義概念。當(dāng)然，隨著文本處理領(lǐng)域研究的不斷深入，所述的語言層次可能會(huì)有所增加或變動(dòng)。
語言實(shí)體在實(shí)施時(shí)，一般被構(gòu)造成由標(biāo)記表達(dá)的數(shù)據(jù)結(jié)構(gòu)(語言單元)。在詞法層面，語言單元用來代表字母，單字或詞組；在語法層面，則代表單字，詞組或語法成分；在語義層面，則代表語法成分，或者語義概念。
傳統(tǒng)分析方法，其著眼點(diǎn)在于了解每個(gè)語言單元與相鄰語言單元的必然的關(guān)系，所以其采用的歸約方式是緊鄰的。
但是，在某些場合，人們需要(或者不得不)獲知各個(gè)語言單元相互之間可能的，而非必然的關(guān)系。比如，在短時(shí)間內(nèi)，對(duì)大量文本進(jìn)行非嚴(yán)格的分析，以期得到某些具有統(tǒng)計(jì)意義的結(jié)論；在干擾文字或者與分析無關(guān)字符存在的情況下進(jìn)行文本分析，如果要使用傳統(tǒng)的確然的文本分析技術(shù)，就要采取文本去噪，這需要專門的領(lǐng)域知識(shí)以及較高的知識(shí)建模的技術(shù)，以至于在一些應(yīng)用場合效果不夠理想；此時(shí)，就要采用近似文本分析。
在這些場合，傳統(tǒng)分析方法采用的緊鄰歸約就無法很好的工作。因此，為了施行近似文本分析，就需要采用廣義歸約。
所謂的廣義歸約，是指在已存在的語言單元(即語言實(shí)體的外在表示)集合中尋找到語言單元組合，使之匹配某個(gè)特定的規(guī)則，以得到一個(gè)新的語言單元。參與匹配的語言單元組合，并不一定在邏輯上確然性地具有此規(guī)則所代表的特定語言層次的關(guān)系，而只是反應(yīng)此語言單元組合可能具有此規(guī)則所代表的特定語言層次的關(guān)系。
由于廣義歸約是在已存在的語言單元中尋找各種可能的語言單元組合以匹配規(guī)則，所以在實(shí)現(xiàn)的時(shí)候，如何在搜索語言單元組合時(shí)提高效率，將是實(shí)現(xiàn)一個(gè)高效實(shí)用的廣義歸約裝置的關(guān)鍵。

發(fā)明內(nèi)容
本發(fā)明的目的在于解決以上問題，提供一種進(jìn)行廣義歸約的裝置和方法，該裝置使用該廣義歸約的方法能夠保存從外界得到的語言單元，并判斷哪些語言單元可以按照特定的規(guī)則歸約出新的語言單元。特別地，為了達(dá)到提高搜索語言單元組合效率的目的，這種方法是增量式的，即已經(jīng)被遍歷過的語言單元組合將不再被遍歷到。
為了實(shí)現(xiàn)上述的目的，本發(fā)明的廣義歸約的裝置與方法如下該廣義歸約的裝置，其主要特點(diǎn)是，所述裝置包括(1)歸約規(guī)則表的存儲(chǔ)部件，用于存儲(chǔ)歸約規(guī)則；所述的歸約規(guī)則包含一個(gè)或一個(gè)以上子前件，存儲(chǔ)了語言單元匹配時(shí)應(yīng)滿足的條件；所述的歸約規(guī)則還包含一個(gè)后件，所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語言單元的全部或部分內(nèi)容；所述的語言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語言層次的語言實(shí)體；(2)候選者隊(duì)列的存儲(chǔ)部件，用于存儲(chǔ)匹配特定規(guī)則的特定子前件的語言單元；(3)歸約部件，用于將由輸入手段得到的語言單元，與各規(guī)則的各子前件逐一進(jìn)行匹配，當(dāng)所述的語言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中；在每個(gè)匹配子前件過程中，若此語言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件，運(yùn)用遍歷算法搜索各種語言單元組合，每個(gè)組合滿足(a)第i個(gè)成員來自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1)；(b)第n個(gè)成員為此語言單元；(4)輸入部件，得到從外界輸入的語言單元；(5)輸出部件，將產(chǎn)生的新的語言單元輸出；所述的輸入部件的輸出與所述的歸約部件的輸入相連，該歸約部件的輸出與所述的輸出部件的輸入相連，且該歸約部件還分別與歸約規(guī)則表的存儲(chǔ)部件和候選者隊(duì)列的存儲(chǔ)部件相連；對(duì)于每個(gè)語言單元組合，都根據(jù)規(guī)則后件產(chǎn)生新的語言單元并通過輸出部件輸出。
該廣義歸約的裝置的語言單元還包括指明該語言單元所代表的語言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域；所述的歸約裝置為(a)在搜索語言單元組合時(shí)，每種語言單元組合的第i個(gè)語言單元的文本區(qū)域不重合于第i+1個(gè)語言單元且在其左側(cè)(1≤i≤n-1)；(b)得到的新的語言單元的文本區(qū)域，為對(duì)應(yīng)語言單元組合中各語言單元的文本區(qū)域的疊加。
使用上述裝置進(jìn)行廣義歸約的方法，其主要特點(diǎn)是，該方法包括以下步驟(1)由輸入手段得到一個(gè)語言單元，所述的語言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語言層次的語言實(shí)體；(2)將此語言單元與各歸約規(guī)則的各子前件逐一進(jìn)行匹配；所述的歸約規(guī)則含一個(gè)或一個(gè)以上子前件，存儲(chǔ)了語言單元匹配時(shí)應(yīng)滿足的條件；對(duì)于所述的每個(gè)子前件，都對(duì)應(yīng)一個(gè)候選者隊(duì)列，用于存儲(chǔ)匹配此子前件的語言單元；所述的歸約規(guī)則還包含一個(gè)后件，所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語言單元的全部或部分內(nèi)容；當(dāng)所述的語言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中；在每個(gè)匹配子前件過程中，若此語言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件，則運(yùn)用遍歷算法搜索各種語言單元組合，使得每個(gè)組合滿足(a)第i個(gè)成員來自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1)；(b)第n個(gè)成員為此語言單元；對(duì)于每個(gè)語言單元組合，都根據(jù)規(guī)則后件產(chǎn)生新的語言單元并通過輸出手段輸出。
該廣義歸約的方法的語言單元還包括指明該語言單元所代表的語言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域，所述的歸約規(guī)則為(a)在搜索語言單元組合時(shí)，每種語言單元組合的第i個(gè)語言單元的文本區(qū)域不重合于第i+1個(gè)語言單元且在其左側(cè)(1≤i≤n-1)；(b)得到的新的語言單元的文本區(qū)域，為對(duì)應(yīng)語言單元組合中各語言單元的文本區(qū)域的疊加。
存儲(chǔ)有實(shí)現(xiàn)上述廣義歸約方法的程序的計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)，其主要特點(diǎn)是，所述的程序執(zhí)行以下步驟
(1)由輸入手段得到一個(gè)語言單元，所述的語言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語言層次的語言實(shí)體；(2)將此語言單元與各歸約規(guī)則的各子前件逐一進(jìn)行匹配；所述的歸約規(guī)則含一個(gè)或一個(gè)以上子前件，存儲(chǔ)了語言單元匹配時(shí)應(yīng)滿足的條件；對(duì)于所述的每個(gè)子前件，都對(duì)應(yīng)一個(gè)候選者隊(duì)列，用于存儲(chǔ)匹配此子前件的語言單元；所述的歸約規(guī)則還包含一個(gè)后件，所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語言單元的全部或部分內(nèi)容；當(dāng)所述的語言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中；在每個(gè)匹配子前件過程中，若此語言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件，則運(yùn)用遍歷算法搜索各種語言單元組合，使得每個(gè)組合滿足(a)第i個(gè)成員來自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1)；(b)第n個(gè)成員為此語言單元；對(duì)于每個(gè)語言單元組合，都根據(jù)規(guī)則后件產(chǎn)生新的語言單元并通過輸出手段輸出。
該存儲(chǔ)介質(zhì)的語言單元還包括指明該語言單元所代表的語言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域，所述的歸約規(guī)則為(a)在搜索語言單元組合時(shí)，每種語言單元組合的第i個(gè)語言單元的文本區(qū)域不重合于第i+1個(gè)語言單元且在其左側(cè)(1≤i≤n-1)；(b)得到的新的語言單元的文本區(qū)域，為對(duì)應(yīng)語言單元組合中各語言單元的文本區(qū)域的疊加。
由于采用了該發(fā)明的進(jìn)行增量式廣義歸約的裝置與方法，使得語言單元組合的最后一個(gè)元素被限定為剛輸入系統(tǒng)的新語言單元，所以當(dāng)前搜索的語言單元組合與上一次的必然不同，而且這種搜索方法不會(huì)遺漏組合，因而是增量式的，從而提高了搜索語言單元組合的效率，具有較好的實(shí)用性。

圖1為本發(fā)明進(jìn)行增量式廣義歸約的裝置的功能結(jié)構(gòu)框圖。
圖2為圖1中裝置的硬件結(jié)構(gòu)框圖。
圖3為本發(fā)明的語言單元的結(jié)構(gòu)框圖。
圖4為本發(fā)明的歸約規(guī)則表的結(jié)構(gòu)框圖。
圖5為本發(fā)明的候選者隊(duì)列的結(jié)構(gòu)框圖。
圖6為本發(fā)明的歸約規(guī)則的子前件與候選者隊(duì)列的關(guān)系示意圖。
圖7為增量式廣義歸約方法中主過程MainProc的流程圖。
圖8為被主過程MainProc調(diào)用、用于尋找語言單元組合以產(chǎn)生新語言單元的過程GenNewUnit流程圖。
圖9為被過程GenNewUnit調(diào)用、根據(jù)給定的語言單元棧產(chǎn)生新語言單元的過程Stk2Unit的流程圖。
具體實(shí)施例方式
為了能夠更清楚地理解本發(fā)明的技術(shù)內(nèi)容，特舉以下實(shí)施例詳細(xì)說明。
請(qǐng)參閱圖1所示，歸約部件102通過輸入部件101得到從外界輸入的語言單元，根據(jù)歸約規(guī)則表104，運(yùn)用隨后將描述的增量式廣義歸約的方法，將新得到的語言單元復(fù)制到候選者隊(duì)列表105中的符合條件的候選者隊(duì)列中；并在符合特定條件的情況下，在候選者隊(duì)列表105中尋找符合特定條件的語言單元組合，由歸約規(guī)則表104中特定的規(guī)則得到新的語言單元，將新語言單元由輸出部件103輸出到裝置外。
再請(qǐng)參閱圖2所示，處理器201執(zhí)行隨后將描述的增量式廣義歸約的程序，RAM 202提供了程序執(zhí)行時(shí)所需要的存儲(chǔ)區(qū)域；此外，還用于存儲(chǔ)歸約規(guī)則表104以及存儲(chǔ)候選者隊(duì)列表105，ROM 203存儲(chǔ)進(jìn)行增量式廣義歸約的程序，I/O接口204與輸入部件101與輸出部件103相連，輸入部件101可以是鍵盤、OCR、接收器或者是儲(chǔ)存有待處理語言單元的內(nèi)存等。輸出部件103可以是顯示設(shè)備、打印機(jī)、網(wǎng)絡(luò)接口或者是內(nèi)存等?？偩€205聯(lián)接以上各個(gè)部件。
所述的語言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語言層次的語言實(shí)體；特別地，語言單元存儲(chǔ)的信息以標(biāo)記方式描述了一段文字所對(duì)應(yīng)的特定語言層次的語言實(shí)體。
語言單元的實(shí)現(xiàn)方式有多種，比如1.用單個(gè)標(biāo)記來表示語言實(shí)體的類屬；2.用多個(gè)標(biāo)記來表示語言實(shí)體在不同方面的類屬，這些標(biāo)記構(gòu)成一個(gè)集合。
單標(biāo)記是多數(shù)語言分析裝置或軟件在歸約時(shí)都采用的方法，其好處是簡單直接；多標(biāo)記集合方法在功能合一文法等文本分析方法中采用。為了簡便起見，本實(shí)施例采用單標(biāo)記的實(shí)現(xiàn)方法。掌握計(jì)算機(jī)科學(xué)一般知識(shí)的技術(shù)人員，參照本實(shí)施例，不難將語言單元實(shí)現(xiàn)為多標(biāo)記集合以實(shí)施本發(fā)明。
在實(shí)施時(shí)，可以選擇語言單元是否包含文本區(qū)域信息以說明語言實(shí)體在文本中占據(jù)的區(qū)域。
如果不使用文本區(qū)域，則歸約規(guī)則各子前件之間不存在位置關(guān)系的限定，這時(shí)的歸約是無順序歸約。無順序歸約可被用于某些場合，比如對(duì)于某些語言的文本進(jìn)行分析，比如拉丁文，各詞匯的語法上的角色通過詞格變化區(qū)分，而非詞匯在句子中的位置；在語法要求不是很嚴(yán)格的情況下分析文本；或者對(duì)文本進(jìn)行時(shí)間要求高但準(zhǔn)確度要求不是很高的分析。
另一方面，如果使用文本區(qū)域，則歸約規(guī)則各子前件之間存在位置關(guān)系的限定，這時(shí)的歸約是有順序歸約。大部分自然語言，比如中文，英文等，都適用有順序歸約的方式。
本實(shí)施例采用有順序歸約的模式，所以語言單元中包含文本區(qū)域。掌握計(jì)算機(jī)科學(xué)一般知識(shí)的技術(shù)人員，參照本實(shí)施例，不難以無順序歸約方式實(shí)施本發(fā)明。
本實(shí)施例中語言單元所采用的結(jié)構(gòu)請(qǐng)參見圖3所示，由于是有順序歸約模式，每個(gè)語言單元301包含主體302與文本區(qū)域303；主體302包含標(biāo)記304與輔助信息305。如果是無順序歸約模式，則語言單元301不包含文本區(qū)域303。
標(biāo)記304用于標(biāo)識(shí)不同的語言層次下的語言概念可以使用英語中的POS(Part of Speech)標(biāo)記，也可以根據(jù)需要自行定義。如果本發(fā)明被實(shí)施為某個(gè)文本分析裝置或軟件的一個(gè)模塊時(shí)，則采用此文本分析裝置或軟件給定的標(biāo)記。
以下是一些標(biāo)記的舉例，供實(shí)施時(shí)參考

標(biāo)記可以是相互平級(jí)的，即相互間不存在從屬關(guān)系；也可以是有層次關(guān)系的。如果是平級(jí)的，在比較標(biāo)記A與B時(shí)，判斷A與B是否一致；如果是有層次關(guān)系的，則判斷A是B的子類，還是B是A的子類，或者A與B無關(guān)。在本實(shí)施例中，標(biāo)記相互間關(guān)系是平級(jí)的。
輔助信息305用于描述一些標(biāo)記無法描述的信息，比如當(dāng)語言單元表示一個(gè)單字時(shí)，用輔助信息存儲(chǔ)這個(gè)單字的字符串形式；或者當(dāng)語言單元表示一個(gè)詞組時(shí)，用輔助信息存儲(chǔ)這個(gè)詞組的字符串形式。
文本區(qū)域303描述了語言單元所代表的語言實(shí)體在文本中占據(jù)的區(qū)域，可以實(shí)現(xiàn)為1.以數(shù)字對(duì)偶表示的區(qū)間，說明此區(qū)域在文本中的邊界。比如，(3，10)表示文本的區(qū)域從標(biāo)號(hào)為3的字符串開始到標(biāo)號(hào)為10的字符串結(jié)束。
2.數(shù)字集合，說明哪些位置上的字符串屬于此語言實(shí)體。
比如，{3，4，5，10}表示此語言實(shí)體覆蓋標(biāo)號(hào)為3、4、5、10的字符串。
在本實(shí)施例中，采用數(shù)字對(duì)偶的方式。
以下，結(jié)合若干實(shí)例對(duì)結(jié)構(gòu)如圖3的語言單元進(jìn)行說明，標(biāo)記及其含義見上面給出的標(biāo)記示例1.語言單元(WRD，“中”，(3，3))標(biāo)記為WRD，表示該語言單元代表的語言實(shí)體為一個(gè)單字；輔助信息為“中”，表示該單字為“中”；占據(jù)的文本區(qū)域只覆蓋標(biāo)號(hào)為3的字符串；2.語言單元(PHR，“中國”，(3，5))標(biāo)記為PHR，表示該語言單元代表的語言實(shí)體為一個(gè)詞組；輔助信息為″中國″，表示該詞組為″中國″；占據(jù)的文本區(qū)域?yàn)?3，5)；3.語言單元(V，NULL，(4，7))標(biāo)記為V，表示該語言單元代表的語言實(shí)體為一個(gè)動(dòng)詞；輔助信息為空，表示語言單元未對(duì)此語言實(shí)體進(jìn)一步描述；占據(jù)的文本區(qū)域?yàn)?4，7)；歸約規(guī)則表包含若干歸約規(guī)則。單個(gè)歸約規(guī)則的結(jié)構(gòu)如圖4所示。歸約規(guī)則401包含前件402與后件403。前件402包含若干子前件(404，405，...，406)。
每個(gè)子前件存儲(chǔ)了語言單元的匹配條件。子前件的實(shí)現(xiàn)方式有多種，可以1.表達(dá)為語言單元的主體，進(jìn)行匹配時(shí)先檢查標(biāo)記一致性如果二者的標(biāo)記不一致(標(biāo)記系統(tǒng)為平級(jí))，或者語言單元不是子前件標(biāo)記的子類或標(biāo)記本身(標(biāo)記系統(tǒng)為層次化)則不匹配。在標(biāo)記匹配基礎(chǔ)上，檢查輔助信息一致性子前件輔助信息為空則匹配；子前件輔助信息不為空且語言單元與子前件的輔助信息不一致，二者仍不匹配。
2.或者表達(dá)為以集合形式存儲(chǔ)的條件表達(dá)式，匹配時(shí)檢查待匹配語言單元對(duì)于集合中所有條件表達(dá)式是否都滿足。
本實(shí)施例采用以語言單元主體作為子前件內(nèi)容的實(shí)現(xiàn)方式。
后件存儲(chǔ)的信息描述了歸約規(guī)則被匹配后將產(chǎn)生的語言單元的內(nèi)容。在無順序歸約模式下，將要產(chǎn)生的語言單元，也就是主體在后件中進(jìn)行描述。而在有順序歸約模式下，將要產(chǎn)生的語言單元的主體在后件中描述；而其文本區(qū)域可以不在后件中描述，而是交給后面部分提到的增量式廣義歸約方法來決定。
以下，結(jié)合實(shí)例說明歸約規(guī)則1.歸約規(guī)則<(WRD，“人”)>→(PHR，“人類”)子前件為(WRD，“人”)；后件為(PHR，“人類”)；該規(guī)則表示單字″人″歸約成類屬為″人類″的詞組；2.歸約規(guī)則<(N，NULL)，(V，NULL)>→(EVT，NULL)子前件1為(N，NULL)，子前件2為(V，NULL)；后件為(EVT，NULL)；該規(guī)則表示一個(gè)表示名詞的語言實(shí)體，與一個(gè)表示動(dòng)詞的語言實(shí)體，歸約成一個(gè)表示事件的語言實(shí)體。
候選者隊(duì)列的結(jié)構(gòu)如圖5所示。一個(gè)候選者隊(duì)列501包含若干語言單元(502，503，...，504)。在實(shí)現(xiàn)時(shí)，候選者隊(duì)列可以采用多種方式，比如數(shù)組、鏈表、雙向鏈表等。本實(shí)施例中，候選者隊(duì)列實(shí)現(xiàn)為鏈表。
候選者隊(duì)列與子前件的關(guān)系在實(shí)現(xiàn)時(shí)，可以采用多種方式，比如1.將所有的候選者隊(duì)列集中起來。比如構(gòu)造候選者隊(duì)列表，表的每條記錄包含規(guī)則標(biāo)識(shí)，子前件標(biāo)識(shí)與候選者隊(duì)列；2.將候選者隊(duì)列附著到各自的子前件。比如在子前件的數(shù)據(jù)結(jié)構(gòu)中增加一個(gè)指向候選者隊(duì)列的指針；或者將候選者隊(duì)列作為成員加入子前件的數(shù)據(jù)結(jié)構(gòu)或者類中，等等。
為了說明的方便，在本實(shí)施例中，采用的是候選者隊(duì)列表的實(shí)現(xiàn)方式。掌握計(jì)算機(jī)科學(xué)一般知識(shí)的技術(shù)人員，參照本實(shí)施例，不難以候選者隊(duì)列附著子前件方式實(shí)施本發(fā)明。
語言單元存入候選者隊(duì)列的方法，可以采取多種方式，比如1.復(fù)制語言單元的全部數(shù)據(jù)作為候選者隊(duì)列的成員到候選者隊(duì)列中；2.復(fù)制語言單元的標(biāo)識(shí)作為候選者隊(duì)列的成員到候選者隊(duì)列中，標(biāo)識(shí)可以是系統(tǒng)給予每個(gè)語言單元的標(biāo)號(hào)，或者語言單元數(shù)據(jù)結(jié)構(gòu)的內(nèi)存地址等。
在本發(fā)明給出的實(shí)施例中，采用復(fù)制語言單元的全部數(shù)據(jù)作為候選者隊(duì)列的成員到候選者隊(duì)列中的實(shí)現(xiàn)方式。如果采用保存語言單元標(biāo)識(shí)的方法，則需要將語言單元存儲(chǔ)到事先構(gòu)造好的數(shù)據(jù)結(jié)構(gòu)中，以便隨后提到的歸約方法能夠訪問。
如圖6所示，對(duì)于每個(gè)歸約規(guī)則，它的每個(gè)子前件都對(duì)應(yīng)一個(gè)候選者隊(duì)列。
增量式廣義歸約主過程MainProc將新的語言單元與各規(guī)則各子前件一一匹配，只要發(fā)現(xiàn)匹配就將之保存到此子前件對(duì)應(yīng)的候選者隊(duì)列中。如果匹配的是某個(gè)規(guī)則的最后一個(gè)子前件，則開始在此規(guī)則各有關(guān)候選者隊(duì)列中進(jìn)行增量式的語言單元組合的搜索。
主過程MainProc可供參考的一種實(shí)現(xiàn)步驟如下(參見圖7)A01從輸入部件101得到一個(gè)語言單元UA02得到歸約規(guī)則表104的規(guī)則個(gè)數(shù)NA03令I(lǐng)＝1A04如果I＜＝N，則轉(zhuǎn)步驟A05，否則結(jié)束A05得到歸約規(guī)則表的第I個(gè)規(guī)則R(I)A06得到R(I)的子前件個(gè)數(shù)SA07令J＝1A08如果J＜＝S，則轉(zhuǎn)步驟A09，否則轉(zhuǎn)步驟A12A09得到R(I)的第J個(gè)子前件Pre(I，J)A10如果U匹配Pre(I，J)，則轉(zhuǎn)A13，否則轉(zhuǎn)步驟A11A11J＝J+1；轉(zhuǎn)步驟A08A12I＝I+1；轉(zhuǎn)步驟A04A13在候選者隊(duì)列表105中找到候選者隊(duì)列Cand(I，J)A14將U加入Cand(I，J)隊(duì)列尾A15如果J＝S，則轉(zhuǎn)步驟A16，否則轉(zhuǎn)步驟A11
A16調(diào)用過程GenNewUnit(U，I，S)，轉(zhuǎn)步驟A12步驟A10所述的匹配是指語言單元符合規(guī)則子前件的要求。具體地，可以參考上文所述的子前件實(shí)現(xiàn)方式中所描述的匹配方式。
主過程調(diào)用遍歷算法在特定規(guī)則的各有關(guān)候選者隊(duì)列中尋找語言單元組合。在實(shí)施例中，即A16調(diào)用方法GenNewUnit來實(shí)現(xiàn)。為了保證搜索是增量式的，語言單元組合的最后一個(gè)元素被限定為剛輸入系統(tǒng)的新語言單元。
有順序歸約模式相對(duì)于無順序歸約模式，在搜索語言單元組合時(shí)，多了一條限制，即語言單元組合中的每個(gè)成員與其后的成員，在文本區(qū)域上是互不重疊的，且前者在后者的左側(cè)。如語言單元A的文本區(qū)域?yàn)?4，7)，語言單元B的文本區(qū)域?yàn)?5，8)，則A與B在文本區(qū)域上有公共部分，二者的位置關(guān)系為重疊。又比如，語言單元C的文本區(qū)域?yàn)?8，10)，則A與C無重疊，而且A的右邊界為7，仍小于C的左邊界8，故而A在C的左側(cè)。
方法GenNewUnit可供參考的一種實(shí)現(xiàn)步驟如下(參見圖8)B01進(jìn)行初始化，包括得到U在Cand(I，S)中的地址PU；堆棧Stk清空；將<S，PU>入棧StkB02讀取Stk棧頂元素<X，Y>
B03將Y所指向的語言單元的文本區(qū)域賦值給YT，即令YT＝Y(jié)-＞TxtRgnB04如果X＞1轉(zhuǎn)步驟B05，否則轉(zhuǎn)步驟B11B05X＝X-1B06將指針PC指向候選者隊(duì)列Cand(I，X)的隊(duì)尾B07如果PC到隊(duì)首則轉(zhuǎn)步驟B12，否則轉(zhuǎn)步驟B08B08將PC所指向語言單元的文本區(qū)域賦值給CT，即令CT＝PC-＞TxtRgnB09如果CT與YT不重疊且在YT左側(cè)，則轉(zhuǎn)步驟B18，否則轉(zhuǎn)步驟B10B10指針PC向前移動(dòng)一個(gè)單元，即令PC＝PC-＞Prv；轉(zhuǎn)步驟B07B11調(diào)用過程Stk2Unit(I，Stk)B12彈出Stk棧頂元素
B13如果棧Stk為空，則結(jié)束，否則轉(zhuǎn)步驟B14B14讀取Stk棧頂元素<X，Y>
B15如果Y到隊(duì)首，則轉(zhuǎn)步驟B12，否則轉(zhuǎn)步驟B16B16指針Y向前移動(dòng)一個(gè)單元，即令Y＝Y(jié)-＞PrvB17<X，Y>入棧Stk；轉(zhuǎn)步驟B02B18<X，*PC>入棧Stk；轉(zhuǎn)步驟B02步驟B18的*PC表示PC所指向的語言單元。
步驟B11所調(diào)用的方法Stk2Unit用于由當(dāng)前得到的語言單元組合，特定的后件產(chǎn)生新的語言單元并輸出之。
方法Stk2Unit可供參考的一種實(shí)現(xiàn)步驟如下(參見圖9)C01文本區(qū)域T0初始化C02將指針PS指向堆棧Stk底部C03如果PS到棧頂，則轉(zhuǎn)步驟C06，否則轉(zhuǎn)步驟C04C04得到PS所指向的棧中語言單元的文本區(qū)域T＝PS-＞TxtRgnC05將PS所指向的棧中語言單元的文本區(qū)域疊加到T0，即令T0＝T0∪T；轉(zhuǎn)步驟C03C06創(chuàng)建語言單元U0C07將U0的文本區(qū)域設(shè)置為T0，即令U0。TxtRgn＝T0C08得到第I個(gè)歸約規(guī)則的后件Post(I)C09將Post(I)復(fù)制到語言單元U0的主體C10向輸出接口輸出U0步驟C05所述的文本區(qū)域的疊加操作，就是數(shù)學(xué)中區(qū)間或集合的“并”操作。比如，語言單元A文本區(qū)域(2，5)，語言單元B為(4，6)，則疊加的結(jié)果為A∪B＝(2，6)如果對(duì)上述方法做如下修改1.去除B08、B09、B10；
2.讓B07在為假時(shí)轉(zhuǎn)B18；3.去除C04、C05、C07。
則此歸約即為無順序歸約模式。
以上是增量式廣義歸約方法的一種實(shí)施方式。計(jì)算機(jī)科學(xué)領(lǐng)域的一般技術(shù)人員，不難根據(jù)本實(shí)施例，針對(duì)具體應(yīng)用背景實(shí)施本發(fā)明。
進(jìn)行增量式廣義歸約的方法可以用程序的形式存儲(chǔ)在計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)中，用于存儲(chǔ)程序的存儲(chǔ)介質(zhì)可以是軟盤、硬盤、光盤、磁光盤、CD-ROM、CD-R、磁帶、非易失存儲(chǔ)器或者易失存儲(chǔ)器。
在此說明書中，本發(fā)明已參照其特定的實(shí)施例作了描述。但是，很顯然仍可以作出各種修改和變換而不背離本發(fā)明的精神和范圍。因此，說明書和附圖應(yīng)被認(rèn)為是說明性的而非限制性的。
權(quán)利要求
1.一種廣義歸約的裝置，其特征在于，所述裝置包括(1)歸約規(guī)則表的存儲(chǔ)部件，用于存儲(chǔ)歸約規(guī)則；所述的歸約規(guī)則包含一個(gè)或一個(gè)以上子前件，存儲(chǔ)了語言單元匹配時(shí)應(yīng)滿足的條件；所述的歸約規(guī)則還包含一個(gè)后件，所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語言單元的全部或部分內(nèi)容；所述的語言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語言層次的語言實(shí)體；(2)候選者隊(duì)列的存儲(chǔ)部件，用于存儲(chǔ)匹配特定規(guī)則的特定子前件的語言單元；(3)歸約部件，用于將由輸入手段得到的語言單元，與各規(guī)則的各子前件逐一進(jìn)行匹配，當(dāng)所述的語言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中；在每個(gè)匹配子前件過程中，若此語言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件，運(yùn)用遍歷算法搜索各種語言單元組合，每個(gè)組合滿足(a)第i個(gè)成員來自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1)；(b)第n個(gè)成員為此語言單元；(4)輸入部件，得到從外界輸入的語言單元；(5)輸出部件，將產(chǎn)生的新的語言單元輸出；所述的輸入部件的輸出與所述的歸約部件的輸入相連，該歸約部件的輸出與所述的輸出部件的輸入相連，且該歸約部件還分別與歸約規(guī)則表的存儲(chǔ)部件和候選者隊(duì)列的存儲(chǔ)部件相連；對(duì)于每個(gè)語言單元組合，都根據(jù)規(guī)則后件產(chǎn)生新的語言單元并通過輸出部件輸出。
2.根據(jù)權(quán)利要求1所述的廣義歸約的裝置，其特征在于，所述的語言單元還包括指明該語言單元所代表的語言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域；所述的歸約裝置為(a)在搜索語言單元組合時(shí)，每種語言單元組合的第i個(gè)語言單元的文本區(qū)域不重合于第i+1個(gè)語言單元且在其左側(cè)(1≤i≤n-1)；(b)得到的新的語言單元的文本區(qū)域，為對(duì)應(yīng)語言單元組合中各語言單元的文本區(qū)域的疊加。
3.一種使用權(quán)利要求1所述的裝置進(jìn)行廣義歸約的方法，其特征在于，該方法包括以下步驟(1)由輸入手段得到一個(gè)語言單元，所述的語言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語言層次的語言實(shí)體；(2)將此語言單元與各歸約規(guī)則的各子前件逐一進(jìn)行匹配；所述的歸約規(guī)則含一個(gè)或一個(gè)以上子前件，存儲(chǔ)了語言單元匹配時(shí)應(yīng)滿足的條件；對(duì)于所述的每個(gè)子前件，都對(duì)應(yīng)一個(gè)候選者隊(duì)列，用于存儲(chǔ)匹配此子前件的語言單元；所述的歸約規(guī)則還包含一個(gè)后件，所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語言單元的全部或部分內(nèi)容；當(dāng)所述的語言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中；在每個(gè)匹配子前件過程中，若此語言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件，則運(yùn)用遍歷算法搜索各種語言單元組合，使得每個(gè)組合滿足(a)第i個(gè)成員來自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1)；(b)第n個(gè)成員為此語言單元；對(duì)于每個(gè)語言單元組合，都根據(jù)規(guī)則后件產(chǎn)生新的語言單元并通過輸出手段輸出。
4.根據(jù)權(quán)利要求3所述的廣義歸約的方法，其特征在于，所述的語言單元還包括指明該語言單元所代表的語言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域，所述的歸約規(guī)則為(a)在搜索語言單元組合時(shí)，每種語言單元組合的第i個(gè)語言單元的文本區(qū)域不重合于第i+1個(gè)語言單元且在其左側(cè)(1≤i≤n-1)；(b)得到的新的語言單元的文本區(qū)域，為對(duì)應(yīng)語言單元組合中各語言單元的文本區(qū)域的疊加。
5.一種存儲(chǔ)有實(shí)現(xiàn)權(quán)利要求3所述的廣義歸約方法的程序的計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)，其特征在于，所述的程序執(zhí)行以下步驟(1)由輸入手段得到一個(gè)語言單元，所述的語言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語言層次的語言實(shí)體；(2)將此語言單元與各歸約規(guī)則的各子前件逐一進(jìn)行匹配；所述的歸約規(guī)則含一個(gè)或一個(gè)以上子前件，存儲(chǔ)了語言單元匹配時(shí)應(yīng)滿足的條件；對(duì)于所述的每個(gè)子前件，都對(duì)應(yīng)一個(gè)候選者隊(duì)列，用于存儲(chǔ)匹配此子前件的語言單元；所述的歸約規(guī)則還包含一個(gè)后件，所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語言單元的全部或部分內(nèi)容；當(dāng)所述的語言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中；在每個(gè)匹配子前件過程中，若此語言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件，則運(yùn)用遍歷算法搜索各種語言單元組合，使得每個(gè)組合滿足(a)第i個(gè)成員來自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1)；(b)第n個(gè)成員為此語言單元；對(duì)于每個(gè)語言單元組合，都根據(jù)規(guī)則后件產(chǎn)生新的語言單元并通過輸出手段輸出。
6.根據(jù)權(quán)利要求5所述的存儲(chǔ)介質(zhì)，其特征在于，所述的語言單元還包括指明該語言單元所代表的語言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域，所述的歸約規(guī)則為(a)在搜索語言單元組合時(shí)，每種語言單元組合的第i個(gè)語言單元的文本區(qū)域不重合于第i+1個(gè)語言單元且在其左側(cè)(1≤i≤n-1)；(b)得到的新的語言單元的文本區(qū)域，為對(duì)應(yīng)語言單元組合中各語言單元的文本區(qū)域的疊加。
全文摘要
本發(fā)明涉及一種廣義歸約的裝置與方法，其裝置包括歸約規(guī)則表的存儲(chǔ)部件、候選者隊(duì)列的存儲(chǔ)部件和歸約部件，其方法包括由輸入手段得到一個(gè)語言單元，所述的語言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語言層次的語言實(shí)體；將此語言單元與各歸約規(guī)則的各子前件逐一進(jìn)行匹配，當(dāng)匹配特定子前件時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中；若此語言單元匹配的是某個(gè)規(guī)則的最末子前件，則運(yùn)用增量式的遍歷算法搜索各種語言單元組合，根據(jù)規(guī)則后件產(chǎn)生新的語言單元并通過輸出手段輸出。采用了該裝置與方法，使得當(dāng)前搜索的語言單元組合與上一次的必然不同，不會(huì)遺漏組合，是增量式的，從而提高了搜索語言單元組合的效率，具有較好的實(shí)用性。
文檔編號(hào)G06F17/27GK1645361SQ200510023588
公開日2005年7月27日申請(qǐng)日期2005年1月26日優(yōu)先權(quán)日2005年1月26日
發(fā)明者劉健, 吳耿鋒申請(qǐng)人:上海大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉健;吳耿鋒
技術(shù)所有人：上海大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1. 木質(zhì)生物質(zhì)轉(zhuǎn)化利用 2. 綠色包裝材料
2、劉老師：1. 木質(zhì)生物質(zhì)化學(xué)及材料 2. 紙基功能材料
3、溫老師：1. 纖維素納米纖維材料的制備、改性及應(yīng)用 2. 造紙法再造煙葉、新型煙草開發(fā) 3.生物質(zhì)資源基油田助劑（封堵、驅(qū)油和鉆井） 4. 改性植物纖維開發(fā)
4、張老師：1.合成生物學(xué) 2. 微生物代謝工程
5、李老師：1.水平基因轉(zhuǎn)移的分子機(jī)制及應(yīng)用研究 2.植物細(xì)胞工廠構(gòu)建
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

廣義逆矩陣的計(jì)算方法相關(guān)技術(shù)

廣義信貸增速計(jì)算方法相關(guān)技術(shù)

廣義矩方法相關(guān)技術(shù)

廣義矩估計(jì)方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

廣義歸約的裝置與方法