專(zhuān)利名稱(chēng):大寫(xiě)和無(wú)重音文本的詞典處理的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于自然語(yǔ)言處理(“NLP”)領(lǐng)域,較具體說(shuō),是關(guān)于編排電子詞典和從中檢索信息的方法和系統(tǒng)。
自動(dòng)自然自然語(yǔ)言處理的計(jì)算機(jī)系統(tǒng)采用各種大致對(duì)應(yīng)于為分析輸入文本以達(dá)到機(jī)器理解自然語(yǔ)言的水平的詞法、句法、和語(yǔ)義分析的語(yǔ)言學(xué)領(lǐng)域的子系統(tǒng)。在某種水平上理解輸入文本之后,計(jì)算機(jī)系統(tǒng)就能,例如,對(duì)輸入文本提供字面和風(fēng)格上的改變,回答輸入文本中提出的問(wèn)題,或者有效地存貯輸入文本所表示的信息。
詞法分析識(shí)別輸入字,并對(duì)每一個(gè)字提供自然語(yǔ)言對(duì)話的人類(lèi)能利用詞典確定的信息。這種信息可能包括一個(gè)字可起的語(yǔ)法作用(例如,名詞或動(dòng)詞)和該字能以附加前綴或后綴來(lái)生成不同的相關(guān)的字的方式。例如,除開(kāi)字“fish(魚(yú))”外,詞典還可能列舉與字“fish”相關(guān)的和由其推演得的各種單字,包括“fishes”,“fished”,“fishing”,“fisher”,“fisherman”,“fishable”,“fishabiity”,“fishbowl”,“fisherwoman”,“fishery”,“fishhook”,“fishnet”,和“fishy”。
句語(yǔ)法分析作為起點(diǎn)利用由對(duì)輸入字作詞法分析所得的信息和定義書(shū)寫(xiě)輸入的句子的語(yǔ)言的文法的語(yǔ)法規(guī)則組對(duì)各個(gè)輸入句子進(jìn)行分析。下面是句法規(guī)則實(shí)例句子=名詞短語(yǔ)+動(dòng)詞短語(yǔ)名詞短語(yǔ)=形容詞+名詞動(dòng)詞短語(yǔ)=副詞+動(dòng)詞句法分析是要取得一句法規(guī)則的有序子集,這在當(dāng)應(yīng)用到輸入的句子的字時(shí),將多組字組合成短語(yǔ),而后將這些短語(yǔ)組成完整的句子。例如考慮輸入的句子“Big dogs fiercely bite。(大狗拼命地咬。)。利用上面列舉的三個(gè)簡(jiǎn)單規(guī)則,句法分析將識(shí)別字“Big”和“dogs”分別為一形容詞和名詞,并應(yīng)用第二規(guī)則以生成名詞短語(yǔ)“Big dogs”。句法分析將識(shí)別字“fiercely”和“bite”分別為副詞和動(dòng)詞,并應(yīng)用第三規(guī)則生成動(dòng)詞短語(yǔ)“fiereely bite”。最后,句法分析利用第一規(guī)則由先前生成的名詞短語(yǔ)和動(dòng)詞短語(yǔ)形成一完整的句子。一組有序的規(guī)則和由應(yīng)用它們得到的短語(yǔ),包括最后的完整的句子,被稱(chēng)為一種語(yǔ)法分析(Parse)。
但某些句子可具有幾種不同的語(yǔ)法分析。對(duì)于這種多語(yǔ)法分析的一典型的示例句子是“Time flies like an arrow(光陰似箭)”。至少有對(duì)應(yīng)于這一句子的三種可能的意思的三種可能的分析。第一分析中,“time”是句子的主語(yǔ),“flies”是動(dòng)詞,和“Like an arrow”修飾動(dòng)詞“flies”的介詞短語(yǔ)。但,還至少有二個(gè)意料不到的分析。在第二種分析中,“time”是修飾“flies”的形容詞,“l(fā)ike”是動(dòng)詞,而“an arrow”是動(dòng)詞的賓語(yǔ)。這一分析相應(yīng)的意思是,某種類(lèi)型的蠅,“time flies(時(shí)間性的蠅)”,喜歡亦即為箭所吸引。在第三種分析中,“time”為命令式動(dòng)詞,“flies”是賓語(yǔ),而“Like an arrow”為修飾“time”的介詞短語(yǔ)。這一分析相當(dāng)于一個(gè)命令象對(duì)箭那樣計(jì)時(shí)來(lái)測(cè)量飛行器的時(shí)間,例如采用一秒表。
句法分析常常由建立一或多個(gè)被稱(chēng)為句法分析樹(shù)的層次樹(shù)形結(jié)構(gòu)。此句法分析樹(shù)的各個(gè)葉節(jié)點(diǎn)表示輸入句子的一個(gè)字。應(yīng)用句法規(guī)則產(chǎn)生自下連接到一個(gè)、二個(gè)、或偶然地更多已有節(jié)點(diǎn)的中間層節(jié)點(diǎn)。這些已有節(jié)點(diǎn)最初僅包括葉節(jié)點(diǎn),但當(dāng)句法分析應(yīng)用句法規(guī)則時(shí),這些已有節(jié)點(diǎn)將包含葉節(jié)點(diǎn)以及中間層節(jié)點(diǎn)兩者。一完整句法分析樹(shù)的單一根節(jié)點(diǎn)代表一整個(gè)句子。
語(yǔ)義分析生成一邏輯形式圖,以較之句法分析樹(shù)單獨(dú)地所能說(shuō)明的更深方式來(lái)說(shuō)明輸入文本的意思。語(yǔ)義分析首先在如前由句法分析生成了多于一個(gè)的句法分析樹(shù)時(shí)要選擇由一句法分析樹(shù)所表示的正確分析。對(duì)應(yīng)于以正確分析的邏輯形式圖是以類(lèi)似于由人類(lèi)語(yǔ)言表述者所達(dá)到的水平來(lái)理解輸入文本的第一個(gè)嘗試。
邏輯形式圖具有節(jié)點(diǎn)和連接,但與上述的句法分析樹(shù)不同,是非層次排序的。邏輯形式圖的連接被加以標(biāo)號(hào)來(lái)指明一對(duì)節(jié)點(diǎn)間的關(guān)系。例如,語(yǔ)義分析可識(shí)別句子中某一名詞為一動(dòng)詞的深層主語(yǔ)或深層賓語(yǔ)。動(dòng)詞深層主語(yǔ)是由動(dòng)詞所指定的動(dòng)作的執(zhí)行者而動(dòng)詞的深層賓語(yǔ)則是此動(dòng)作的對(duì)象。主動(dòng)語(yǔ)態(tài)動(dòng)詞的深層主語(yǔ)可以是句子的語(yǔ)法主語(yǔ),由主動(dòng)語(yǔ)態(tài)動(dòng)詞的深層賓語(yǔ)可以是動(dòng)詞的語(yǔ)法賓語(yǔ)。但被動(dòng)語(yǔ)態(tài)動(dòng)詞的深層主語(yǔ)可能被表明在一輔助子句中,而被動(dòng)語(yǔ)態(tài)動(dòng)詞的深層賓語(yǔ)可能是句子的語(yǔ)法主語(yǔ)。例如,考慮這樣兩個(gè)句子(1)“Dogs bite people。(狗咬人)”和(2)“Peopleare bitten by dogs.(人被狗咬)”。第一句具有一主動(dòng)語(yǔ)態(tài)動(dòng)詞,第二句具有被動(dòng)態(tài)動(dòng)詞。第一句的語(yǔ)法主語(yǔ)是“Dogs”,動(dòng)詞“bite”的語(yǔ)法賓語(yǔ)是“people”。相反,第二句的語(yǔ)法主語(yǔ)是“people”而動(dòng)詞定語(yǔ)“arebitten”由輔助子句“by dogs”修飾。此二句中,“dogs”均為深層主語(yǔ),而“people”是句子的動(dòng)詞或動(dòng)詞定語(yǔ)的深層賓語(yǔ)。雖然上述對(duì)句1和2作句法分析所生成的句法分析樹(shù)將會(huì)不同,而由語(yǔ)義分析產(chǎn)生的邏輯形式圖則將是一樣的,因?yàn)榇硕涞幕疽馑枷嗤?br>
生成邏輯形式圖之后的進(jìn)一步的語(yǔ)義處理可憑借知識(shí)數(shù)據(jù)庫(kù)將所分析的文本關(guān)聯(lián)到現(xiàn)實(shí)的觀點(diǎn)以便能實(shí)現(xiàn)更深一層的理解。知識(shí)庫(kù)的一例可以是一聯(lián)機(jī)百科全書(shū),由其可以獲取對(duì)特定字的更完善的解說(shuō)和上下文的結(jié)構(gòu)信息。
下面以處理樣值輸入文本“The person whom I met wasmy friend.(我遇到此人是我的朋友)”的情況來(lái)說(shuō)明此三個(gè)自然語(yǔ)言處理子系統(tǒng)詞法、句法和語(yǔ)義。
圖1為說(shuō)明自然語(yǔ)言處理的子系統(tǒng)間信息流通的方框圖。詞法子系統(tǒng)101接收輸入文本和輸出字的標(biāo)識(shí),并檢測(cè)各單詞可被用于的各種詞類(lèi)的每一種的意義。語(yǔ)法子系統(tǒng)102接收這一信息,應(yīng)用句法規(guī)則生成語(yǔ)法分析樹(shù)。語(yǔ)義子系統(tǒng)103接收句法分析樹(shù)和生成邏輯形式圖。
圖2~5顯示存放在一電子存貯媒體上的詞典信息,在詞法分析期間對(duì)樣值輸入文本的輸入詞進(jìn)行檢索。圖2顯示對(duì)輸入詞“the”201和“person”202的詞典詞條。詞條201由關(guān)鍵字“the”203和屬性/值對(duì)的表組成。第一屬性“Adj”204作為它的值具有包含在大括號(hào)205與206中的符號(hào)。這些符號(hào)包括二個(gè)更深一層的屬性/值對(duì)(1)“Lemma”/“the”和(2)“Bits”/“Sing Plur wa6 Det Art Bo Def.”。主題(lemma)是一單詞的基本的不變化的形式。因此,屬性“Lemma”指明“the”是詞典中這一詞條所代表的單詞的基本的不變化的形式。屬性“Bits”包括一組表示關(guān)于一單詞的某些詞法和句法信息的略語(yǔ)。這一信息指明“the”為(1)單數(shù);(2)復(fù)數(shù);(3)不可變化的;(4)限定詞;(5)冠詞;(6)普通形容詞;和(7)限定的。屬性204指明單詞“the”可用作為形容詞。屬性212指明單詞“the”可用作為副詞。屬性“Senses”207表示作為各別的定義和舉例的此單詞的各種不同的意思,其一部分包含大括號(hào)208-209內(nèi)和大括號(hào)210-211內(nèi)的屬性/值對(duì)的表中?!皌he”詞條中實(shí)際上所含的附加意義在圖2中已被省略掉,由被加以括號(hào)的措詞詞“(moresense records更多意義的記錄)”213指明。
自然語(yǔ)言處理的第一步,詞法子系統(tǒng)將輸入文本的每一單字和標(biāo)點(diǎn)符號(hào)判明為一各自的記號(hào)并利用詞典信息對(duì)各記號(hào)構(gòu)成一屬性/值記錄。這些屬性包括有記號(hào)類(lèi)型(例如單詞、標(biāo)點(diǎn))和一單詞能在自然語(yǔ)言句子中代表的不同的詞類(lèi)。
句法子系統(tǒng)輸入樣值輸入文本的最初組的屬性/值記錄,由每一個(gè)生成一句法分析樹(shù)節(jié)點(diǎn),并將句法規(guī)則加到這些初始節(jié)點(diǎn)以構(gòu)成代表樣值輸入文本的一可能的句法分析樹(shù)的更高層的節(jié)點(diǎn)。一完全的語(yǔ)法分析樹(shù)包括有一根節(jié)點(diǎn),中間層節(jié)點(diǎn),和葉節(jié)點(diǎn)。根節(jié)點(diǎn)表示樣植輸入文本的句法結(jié)構(gòu)(例如說(shuō)明性句子)。中間層節(jié)點(diǎn)表示中間句法結(jié)構(gòu)(例如動(dòng)詞、名詞、或介詞定語(yǔ))。葉節(jié)點(diǎn)表示初始組的屬性/值記錄。
在某些NLP系統(tǒng)中,以由頂向下方式應(yīng)用句法規(guī)則。這里所描述的NLP系統(tǒng)的句法子系統(tǒng)則以自底向上方式將句法規(guī)則應(yīng)用到葉節(jié)點(diǎn)。即就是,句法子系統(tǒng)力圖將句法規(guī)則一次一個(gè)地應(yīng)用于到成對(duì)葉節(jié)點(diǎn)、和不時(shí)地到更大組葉片節(jié)點(diǎn)的單個(gè)葉片節(jié)點(diǎn)。如果句法規(guī)則要求對(duì)之操作的二個(gè)葉節(jié)點(diǎn),和一對(duì)葉節(jié)點(diǎn)雙方均含在符合該規(guī)則所指明的需求的屬性,那么就將此規(guī)則應(yīng)用到它們以生成更高層的句法結(jié)構(gòu)。例如,詞“myfriend”表示分別為一形容詞和一名詞,它們可組合成一名詞定語(yǔ)的更高層句法結(jié)構(gòu)。對(duì)應(yīng)于語(yǔ)法規(guī)則“名詞短語(yǔ)=形容詞+名詞”的句法規(guī)則生成一中間層名詞定語(yǔ)節(jié)點(diǎn)并連接二代表“my”和“friend”的葉節(jié)點(diǎn)到新生成的中間層節(jié)點(diǎn)。在生成每一新的中間層節(jié)點(diǎn)時(shí),它即被連接到已存在的葉節(jié)點(diǎn)和中間層節(jié)點(diǎn),并成為被應(yīng)用語(yǔ)法規(guī)則的整個(gè)節(jié)點(diǎn)組的部分。將句法規(guī)則應(yīng)用到成長(zhǎng)中的節(jié)點(diǎn)組的過(guò)程一直繼續(xù)直到產(chǎn)生一完全的句法分析樹(shù)或者直到再?zèng)]有語(yǔ)法規(guī)則可以應(yīng)用。一完全的句法分析樹(shù)包括有作為葉節(jié)點(diǎn)的輸入句子的所有單詞,并代表句子的一可能的分析。
這種句法分析的自底向上的方法生成許多中間層節(jié)點(diǎn)和可能不再會(huì)包含在最后的完全的句法分析樹(shù)中的子樹(shù)。
句法子系統(tǒng)可借助連續(xù)地應(yīng)用規(guī)則直到再?zèng)]有另外的規(guī)則可利用為止來(lái)進(jìn)行詳盡的尋求所有可能的句法分析樹(shù)。句法子系統(tǒng)還能試行各種直接推斷措施來(lái)首先生成最可能的節(jié)點(diǎn)。在生成一個(gè)或少量的完全的句法分析樹(shù)之后,句法子系統(tǒng)一般可結(jié)束搜尋,因?yàn)樽羁赡芤贿x擇為最好地代表輸入句子的句法分析樹(shù)多半是最先生成的句法分析樹(shù)之一。如果在適當(dāng)?shù)乃阉髦笪瓷赏耆木浞ǚ治鰳?shù),則可以由將最有希望的子樹(shù)組合進(jìn)采用在應(yīng)用一特定的聚集規(guī)則所產(chǎn)生的根節(jié)點(diǎn)的單個(gè)樹(shù)中來(lái)實(shí)現(xiàn)一拼裝的分析。
圖6表明由句法子系統(tǒng)對(duì)原先顯示在圖2~5中的詞典詞條所生成的初始葉節(jié)點(diǎn)。此葉節(jié)點(diǎn)包含有二個(gè)特殊節(jié)點(diǎn)601和614,分別表示句子的起始和句子的全句結(jié)束。節(jié)點(diǎn)602~613的每個(gè)代表句中一輸入單詞能表示的言語(yǔ)中的一種詞類(lèi)。這些詞類(lèi)存在作為詞典詞目中的屬性/值對(duì)之中。例如葉節(jié)點(diǎn)602和603代表單詞“The”的二種可能的詞類(lèi),如作為圖2中的屬性204和212。
圖7~22表示句法子系統(tǒng)所得的最后的句法分析樹(shù)的規(guī)則到規(guī)則的結(jié)構(gòu)。每一個(gè)圖形說(shuō)明應(yīng)用一單個(gè)句法規(guī)則來(lái)產(chǎn)生一句法結(jié)構(gòu)的中間層節(jié)點(diǎn)。僅僅只說(shuō)明了產(chǎn)生組成最終的句法樹(shù)的中間層節(jié)點(diǎn)的規(guī)則。句法子系統(tǒng)生成許多包含在最終的句法分析樹(shù)中的不結(jié)束的中間層節(jié)點(diǎn)。
在圖7~14中,句法子系統(tǒng)應(yīng)用生成代表簡(jiǎn)單的動(dòng)詞、名詞、和形容詞定語(yǔ)的中間層節(jié)點(diǎn)的一元句法規(guī)則。由圖15起,句法子系統(tǒng)開(kāi)始應(yīng)用將簡(jiǎn)單動(dòng)詞、名詞、和形容詞短語(yǔ)組合成多字句法結(jié)構(gòu)的二元句法規(guī)則。句法子系統(tǒng)按它們成功應(yīng)用的相似性對(duì)規(guī)則進(jìn)行排序,然后逐個(gè)地試著應(yīng)用它們直到找到一能成功地應(yīng)用到現(xiàn)有節(jié)點(diǎn)的規(guī)則。例如,如圖15中所示,句法子系統(tǒng)成功地應(yīng)用了一規(guī)則由形容詞短語(yǔ)和名詞短語(yǔ)生成一代表一名詞短語(yǔ)的節(jié)點(diǎn)。此規(guī)則指定形容詞和名詞短語(yǔ)所需的特征。在此例中,形容詞短語(yǔ)必須是一確定的量詞。隨著指針由節(jié)點(diǎn)1501到節(jié)點(diǎn)1503,和然后訪問(wèn)節(jié)點(diǎn)1503中所包含的詞法信息,句法子系統(tǒng)確定,節(jié)點(diǎn)1501是表示一確定的量詞。在定位符合規(guī)則所要求的特征的此二節(jié)點(diǎn)1501和1502后,句法子系統(tǒng)即應(yīng)用此規(guī)則由二簡(jiǎn)單的短語(yǔ)1501和1502來(lái)生成表示名詞短語(yǔ)“my friend”的中間層節(jié)點(diǎn)。圖22中,句法子系統(tǒng)應(yīng)用一三元規(guī)則生成代表輸入的句子的最終的完全的句法分析樹(shù),該三元規(guī)則將專(zhuān)用的Begin(開(kāi)始)葉節(jié)點(diǎn)2201、動(dòng)詞短語(yǔ)“The person whom I metwas my friend”2202、和代表最終的結(jié)束句點(diǎn)的葉節(jié)點(diǎn)2203相組合來(lái)形成代表說(shuō)明性句子的節(jié)點(diǎn)2204。
語(yǔ)義子系統(tǒng)利用一完全的語(yǔ)法分析樹(shù)產(chǎn)生邏輯形式圖。一般,邏輯形式圖由句法分析樹(shù)的節(jié)點(diǎn),加以它們的屬性和新的雙向連接來(lái)構(gòu)成。邏輯形式圖為加以標(biāo)號(hào)的定向圖。它是輸入句子的語(yǔ)義表現(xiàn)。由詞法子系統(tǒng)對(duì)每一個(gè)單詞得到的信息通過(guò)由邏輯形式圖的字節(jié)內(nèi)部引用到語(yǔ)法分析樹(shù)的葉節(jié)點(diǎn)仍然是可行的。邏輯形式圖的連接的標(biāo)號(hào)和方向均代表語(yǔ)義信息,包括用于邏輯形式圖的節(jié)點(diǎn)的功能作用。在其分析期間,語(yǔ)義子系統(tǒng)加入連接和節(jié)點(diǎn)以表示(1)被省略掉但隱含著的單詞;(2)缺少的或不清楚的動(dòng)詞短語(yǔ)的自變量和附加部分;(3)介詞短語(yǔ)所指的賓語(yǔ)。
圖23說(shuō)明語(yǔ)義子系統(tǒng)對(duì)樣值輸入句子所產(chǎn)生的完全的邏輯形式圖。語(yǔ)義子系統(tǒng)作為成功的應(yīng)用語(yǔ)義規(guī)則的結(jié)果給連接2301~2306指定了有意義的標(biāo)記·六個(gè)節(jié)點(diǎn)2307~2312連同它們間的連接表示句子的語(yǔ)義意思的主要組成部分。通常,邏輯形式圖大體上相當(dāng)于輸入單詞,但其些詞對(duì)傳遞語(yǔ)義意思是不必要的,例如“The”和“Whom”,在邏輯形式圖中就不出現(xiàn),而輸入的動(dòng)詞“met”和“was”則表現(xiàn)為它們的不定式“meet”和“be”。節(jié)點(diǎn)在計(jì)算機(jī)系統(tǒng)中被表示作為記錄,含有圖23中未表明的附加信息。動(dòng)詞以單數(shù)過(guò)去時(shí)態(tài)形式輸入的情況由對(duì)應(yīng)于動(dòng)詞的意義的邏輯形式節(jié)點(diǎn)2307和2310中的附加信息指明。
句法分析樹(shù)與邏輯形式圖間的區(qū)別由圖23與圖22的比較能容易地了解。圖22中顯示的句法分析樹(shù)包括有以嚴(yán)格的層次結(jié)構(gòu)連接一起的10個(gè)葉節(jié)點(diǎn)和16個(gè)中間層節(jié)點(diǎn),而圖23中所顯示的邏輯形式圖僅含有6個(gè)節(jié)點(diǎn)。與句法分析樹(shù)不同,邏輯形式圖不作層次結(jié)構(gòu)排序,這由節(jié)點(diǎn)2307與2308之間的具有相反方向二個(gè)連接是很顯見(jiàn)的。此外,如以上指出的,節(jié)點(diǎn)不再代表輸入詞的確切形式,而是代表它們的意義。
在語(yǔ)義分析之后再進(jìn)行自然語(yǔ)言處理步驟。它們涉及到將邏輯形式圖與由知識(shí)庫(kù)取得的附加信息相組合,分析多個(gè)句子組,和概括地力圖圍繞每一邏輯形式圖裝配一接近于人類(lèi)處理自然語(yǔ)言那樣的豐富的文體結(jié)構(gòu)環(huán)境。
在以上大寫(xiě)和無(wú)重音文本的詞典處理,是將詞法子系統(tǒng)描述為對(duì)各輸入單詞提供詞典信息。詞法子系統(tǒng)利用詞典查尋該信息。對(duì)于每一輸入單詞,詞法子系統(tǒng)必須找到詞典中由之得到信息的對(duì)應(yīng)詞條。這種在詞典中查找輸入單詞的處理存在有數(shù)個(gè)有關(guān)的問(wèn)題,它們的解決對(duì)整個(gè)NLP的精確性和效率有很大影響。
普通應(yīng)用的詞典的線索含有區(qū)別符號(hào)和在專(zhuān)用名詞時(shí)的大寫(xiě)字母兩者。例如,在英語(yǔ)詞典中,動(dòng)詞“resume”具有一分開(kāi)的詞條,無(wú)重音符號(hào),和名詞“resum é”,帶有重音符號(hào)。另一個(gè)例子是,英語(yǔ)詞典一般具有兩個(gè)基本的“polish”代表名詞“polish(光澤)”和動(dòng)詞“polish(拋光)”的詞條,以及兩個(gè)帶有基本的“Polish”代表專(zhuān)有名詞“Polish(波蘭語(yǔ))”和專(zhuān)有形容詞“Polish(波蘭人的)”的詞條。
不幸的是,輸入文本中字母的大、小寫(xiě)和區(qū)分標(biāo)記可能與對(duì)應(yīng)于它們的詞典關(guān)鍵詞的大、小寫(xiě)和區(qū)分標(biāo)記不一致,這使得詞法分析期間查找詞點(diǎn)詞條的任務(wù)大為復(fù)雜。例如,在帶有全部大寫(xiě)字母的輸入文本中,以及在來(lái)自電子郵件消息的輸入文本中,區(qū)分標(biāo)記通常均被去除。一沒(méi)有區(qū)分標(biāo)記的大寫(xiě)單詞有可能表示許多小寫(xiě)的正常形式中的任一個(gè)。例如法語(yǔ)單詞“é l ève”意思是“student(學(xué)生)”,和“é leve”意思是“raised(被抬高)”,二者均具有大寫(xiě)形式“ELEVE”。如果要處理寫(xiě)作大寫(xiě)的文本,而法語(yǔ)詞典具有小寫(xiě)詞條,就會(huì)不清楚應(yīng)選擇哪一個(gè)小寫(xiě)詞條來(lái)說(shuō)明輸入的單詞“ELEVE”。
因?yàn)樵~條在普通詞典中通常為小寫(xiě)形式,和因?yàn)檩斎雴卧~的字母的大、小寫(xiě)常常取決于單詞的出現(xiàn)作為一句的第一個(gè)單詞或單詞出現(xiàn)在標(biāo)題中,所以不從單詞的詞法功用,語(yǔ)法子系統(tǒng)可能在試圖將單詞與詞典中的關(guān)鍵字相匹配之前首先將輸入單詞的字母變成全部為小寫(xiě)。將所有字母改變?yōu)樾?xiě)的處理是一種特定類(lèi)型的大小寫(xiě)規(guī)格化。由輸入單詞去除所有的區(qū)分標(biāo)記是另一類(lèi)型規(guī)格化的舉例。規(guī)格化處理以某些字母置換輸入單詞中的其他字母,以便消除單詞間所不希望的區(qū)別。將全部規(guī)格化成小寫(xiě),輸入的單詞“Polish”和“polish”二者均成為規(guī)格化的單詞“polish”。
雖然大小寫(xiě)規(guī)格化使得詞法子系統(tǒng)易于查找到詞典關(guān)鍵詞與一僅因?yàn)樗嬖谧鳛橐痪涞牡谝粋€(gè)單詞而使其第一字母作大寫(xiě)的單詞相符后,但大小寫(xiě)規(guī)格化可能造成基于大寫(xiě)上的詞法區(qū)別的喪失。例如,一本書(shū)中的一句可能是“I told him to polish his shoes.(我叫他把他的皮鞋擦亮)”。換句話說(shuō),也可以是“Polish your shoes,’told him.”。也許此書(shū)的標(biāo)題是“POLISH YOUR SHOES!”。在此三句中的“polish”、“Polish”、和“POLISH”的規(guī)格化單詞為“polish”。但是,考慮句子“The Polish government announced newelections today.”如果在接著的分析之前將單詞“Polish”規(guī)格化成“polish”,就會(huì)喪失“Polish”與“polish”之間的詞法區(qū)別。在此最后一種情況下,單詞“Polish”以大寫(xiě)字母開(kāi)頭指明它與單詞“polish”的詞法上的不同,而不是它在句子或標(biāo)題中的位置。
區(qū)分標(biāo)記的丟失和大小寫(xiě)區(qū)別的丟失雙方的基本問(wèn)題在于欠缺對(duì)各個(gè)輸入單詞需要在電子詞典中搜索多個(gè)詞條的詞典查找中的實(shí)際能力。對(duì)上面給出的法語(yǔ)示例中,對(duì)應(yīng)于輸入單詞“ELEVE”有相當(dāng)大數(shù)量的可能的詞典詞條,包括在單詞的第一、第三和第五位置中不加標(biāo)記和加標(biāo)記字母“e”的每一種可能的組合。對(duì)應(yīng)于大寫(xiě)字母“E”有四個(gè)小寫(xiě)字母。它們是“e”、“è”、“ê”、和“é”。因此在輸入單詞“ELEVE”內(nèi)就有這四個(gè)小寫(xiě)字母的43即64種不同的可能的組合。即使利用各種正交和聲學(xué)規(guī)則來(lái)刪除某些在法語(yǔ)文字中不可能發(fā)生的組合,仍然余留下有36種有效的組合。詞典查找是巨大的化費(fèi)。每一查找均可能涉及到一或多次磁盤(pán)訪問(wèn)。在上面給出的英語(yǔ)文字舉例中,輸入單詞“Polish”總要求四次查找,二次查找用于具有關(guān)鍵字“polish”的二獨(dú)立的詞條,和兩次用于具有關(guān)鍵字“Polish”的二獨(dú)立的詞條。自然,如果詞法子系統(tǒng)未能詳盡地以改變大小寫(xiě)或以附加可能被省略的區(qū)分標(biāo)記來(lái)搜索所有與一輸入單詞有關(guān)詞條,就可能給句法和語(yǔ)義子系統(tǒng)提供錯(cuò)誤的結(jié)果,導(dǎo)致一不正確的分析和邏輯形式圖。
現(xiàn)有技術(shù)電子詞典和詞法分析子系統(tǒng)無(wú)法處理大寫(xiě)輸入單詞的規(guī)格化的問(wèn)題。自然語(yǔ)言處理技術(shù)領(lǐng)域已經(jīng)認(rèn)識(shí)到需要有一種有效的方法,來(lái)找到電子詞典中對(duì)應(yīng)于一因?yàn)橥ㄟ^(guò)電子郵件傳輸而被由其除去區(qū)分標(biāo)記的輸入單詞的,或?qū)?yīng)于一大寫(xiě)輸入單詞的所有詞條。
本發(fā)明是針對(duì)一種定位電子詞典中的信息的方法和系統(tǒng)。系統(tǒng)以首先由欲被貯存進(jìn)詞典的單詞的典型形式生成規(guī)格化形式來(lái)生成電子詞典。一單詞的典型的、即通常的形式利用適當(dāng)?shù)拇髮?xiě)和小寫(xiě)字母和適當(dāng)?shù)膮^(qū)分標(biāo)記。一單詞的典型形式是此單詞在通常的印刷詞典中作為一詞條的關(guān)鍵字出現(xiàn)所取的形式。一單詞的規(guī)格化形式具有全部小寫(xiě)字母和沒(méi)有區(qū)分標(biāo)記。例如,“Polish”是有關(guān)Poland(波蘭)的單詞的典型形式,和“polish”是有關(guān)“wax(蠟)”的單詞的典型形式。但是,此二單詞的規(guī)格化形式均為“polish”。然后系統(tǒng)為單詞的每一獨(dú)特的規(guī)格化形式(例如“polish”)在電子詞典中存貯一詞條。每一詞條具有一關(guān)鍵字和一記錄。關(guān)鍵字被設(shè)定到單詞的規(guī)格化形式。對(duì)于一其規(guī)格化形式等于此獨(dú)特的規(guī)格化形式的單詞的每個(gè)典型形式,系統(tǒng)在記錄中存放一子記錄。子記錄含有有關(guān)此單詞的典型形式的信息,例如該單詞的定義和該單詞的詞類(lèi)。以此同一例繼續(xù)說(shuō)明,一詞條的關(guān)鍵詞將為“polish”和該詞目將含有“polish”和“polish”的子記錄。為了定位信息,系統(tǒng)接收輸入單詞(例如“POLISH”)和產(chǎn)生此輸入單詞的規(guī)格化形式。然后系統(tǒng)對(duì)電子詞典檢索帶有符合輸入單詞的規(guī)格化形式的關(guān)鍵字的詞條。被找到的詞條含有帶有有關(guān)單詞的典型形式的信息的子記錄。按照規(guī)格化形式組織電子詞典,就可以?xún)H搜索一詞條來(lái)找到有關(guān)一輸入單詞的信息而不管是否存在有大寫(xiě)和區(qū)分標(biāo)記。
所列附圖的簡(jiǎn)單說(shuō)明如下圖1為說(shuō)明自然語(yǔ)言處理系統(tǒng)的各子系統(tǒng)之間的信息流的方框圖;圖2~5顯示為樣值輸入句子“The person Whom I met wasmy friend。(我遇到的此人是我的朋友。)”的每個(gè)單詞檢索的存貯在一電子存貯媒體上的詞典信息;圖6顯示由作為分析輸入句子的第一步由句法子系統(tǒng)產(chǎn)生的葉節(jié)點(diǎn);圖7~22顯示由句法子系統(tǒng)逐個(gè)地應(yīng)用句法規(guī)則以分析輸入的句子和生成句法分析樹(shù);圖23說(shuō)明由語(yǔ)義子系統(tǒng)生成的邏輯形式圖以表示輸入句子的意思;圖24表示一說(shuō)明用于自然語(yǔ)言處理的優(yōu)選的計(jì)算機(jī)系統(tǒng)的方框圖;圖25表示對(duì)關(guān)鍵字“interpret”的電子詞典詞條;圖26表示對(duì)關(guān)鍵字“polish”的電子詞典詞條;圖27表示對(duì)關(guān)鍵字“eleve”和“ou”的電子詞典詞條;圖28表示在一未指定的詞典中對(duì)關(guān)鍵字“buildling”的電子詞典詞條;圖29表示在一完全相對(duì)于對(duì)應(yīng)形式被指定的詞典中對(duì)關(guān)鍵字“building”的電子詞典詞條;圖30為用于子程序Normalize(規(guī)格化)的流程圖;圖31為用于簡(jiǎn)單的詞典構(gòu)成例行程序的流程圖;圖32為子程序Lexical(詞法)的流程圖;和圖33為子程序Lookup(查找)的流程圖。
本發(fā)明是針對(duì)在一電子詞典中存貯和定位信息的方法和系統(tǒng)。在一優(yōu)選實(shí)施例中,系統(tǒng)以首先由欲被存貯在詞典中每一個(gè)單詞的典型形式生成規(guī)格化形式來(lái)產(chǎn)生電子詞典。一單詞的規(guī)格化形式具有全為小寫(xiě)的字母且無(wú)區(qū)分標(biāo)記。然后系統(tǒng)對(duì)一單詞的各個(gè)獨(dú)特的規(guī)格化形式在電子詞典中存入詞條。各詞條具有一關(guān)鍵字和記錄。關(guān)鍵字被設(shè)定到單詞的規(guī)格化形式。對(duì)其規(guī)格化形式等于此獨(dú)特規(guī)格化形式的單詞的各個(gè)典型形式,系統(tǒng)在此記錄中存貯一子記錄。此子記錄含有有關(guān)單詞的典型形式的信息。為了利用電子詞典定位信息,系統(tǒng)接收輸入單詞和產(chǎn)生此輸入詞的規(guī)格化形式。然后系統(tǒng)在電子詞典中尋索帶有與輸入詞的規(guī)格化形式相符合的關(guān)鍵字的詞條。被找到的詞條含有一帶有與單詞的典型形式有關(guān)的信息的子記錄。
圖24為說(shuō)明用于自然語(yǔ)言處理系統(tǒng)的優(yōu)選的計(jì)算機(jī)系統(tǒng)的方框圖。計(jì)算機(jī)系統(tǒng)2401包含一中央處理單元,一存貯器,和一存貯裝置。自然語(yǔ)言處理系統(tǒng)的詞法子系統(tǒng)2406,其他子系統(tǒng)通常由可由計(jì)算機(jī)讀取的存貯器裝置如磁盤(pán)裝載進(jìn)存貯器2404。利用由此自然語(yǔ)言處理系統(tǒng)2401提供的服務(wù)的應(yīng)用程序一般也被裝載進(jìn)存貯器。電子詞典2409被存放在一存貯裝置,例如磁盤(pán)2408上,詞條放讀進(jìn)存貯器供詞法子系統(tǒng)利用。在一實(shí)施例中,用戶(hù)一般以在輸入裝置2404上輸入一或多個(gè)自然語(yǔ)言句子來(lái)響應(yīng)輸出裝置2403上顯示的提示。自然語(yǔ)言句子由應(yīng)用程序接收,通過(guò)詞法子系統(tǒng)處理,然后傳送到自然語(yǔ)言處理系統(tǒng)。詞法子系統(tǒng)由電子詞典提取信息,利用該信息處理被送到它的輸入文本,然后將處理過(guò)的輸入文本和詞典信息傳送給自然語(yǔ)言處理系統(tǒng)的其他子系統(tǒng)。而后應(yīng)用程序即可以向自然語(yǔ)言子系統(tǒng)發(fā)送信息和從中接收信息,以便利用由自然語(yǔ)言處理系統(tǒng)實(shí)現(xiàn)的機(jī)器對(duì)輸入文本的理解,而最后在輸出裝置2403上輸出對(duì)用戶(hù)的應(yīng)答。
本發(fā)明一優(yōu)選實(shí)施例提供為組織一電子詞典的內(nèi)容和為搜索此電子詞典的新的詞典方法和系統(tǒng)。此新的詞典系統(tǒng)設(shè)置有一詞典生成部件(“DCC”)和一詞典查找部件(“DLC”)。
DCC生成類(lèi)似于普通印刷詞典中查到的詞條的一種語(yǔ)言單詞的詞條。圖25顯示對(duì)單詞“interpret”的電子詞典詞條的形式。此詞條具有其后跟隨一含有屬性/值對(duì)的記錄的關(guān)鍵字2501。第一屬性2502為這一單詞能在語(yǔ)言中表示的詞類(lèi)。屬性2502的值是子記錄2503,含有一系列屬性/值對(duì)。子記錄2503中的第一屬性是“Lemma”2504。“Lemma”的值為由屬性/值對(duì)2504-2505所表示的單詞的未變化形式,在這一情況下與關(guān)鍵字2501同。屬性“Bits”2506具有值“T1 Hsubj”2507,它是指動(dòng)詞“interpret(解釋)”是及物動(dòng)詞和要求人類(lèi)作主語(yǔ)。屬性“Infl”2508具有值“Verbdefault”,指明此動(dòng)詞在將被指定為“Lemma”屬性2505的值的動(dòng)詞形式上附加以詞尾-ed、-s和-ing缺省式中的活用形式。這一詞條的主記錄的第二屬性“Senses”2510,具有一包含單詞“interpret”的定義和舉例的子記錄值2511。子記錄屬性“Defin”2512具有解釋此詞的意義的值2513,而子記錄屬性“EXS”2514具有提供單詞應(yīng)用的簡(jiǎn)便示例的值2515。
DCC對(duì)一語(yǔ)言中每一大小寫(xiě)規(guī)格化的和區(qū)別符規(guī)格化的單詞、或者對(duì)一子集的大小寫(xiě)規(guī)格化和區(qū)別符規(guī)格化的單詞在電子詞典中生成一詞條。大小寫(xiě)規(guī)格化單詞只有小寫(xiě)字母,而區(qū)別符規(guī)格化單詞不含有區(qū)別符。在大小寫(xiě)和區(qū)別符上的規(guī)格化在一些情況中具有將不同的單詞映射到一單個(gè)關(guān)鍵字的效果。在下面的討論中,“規(guī)格化詞”將是指一大小寫(xiě)和區(qū)分符規(guī)格化的單詞。
圖26顯示對(duì)大小寫(xiě)規(guī)格化關(guān)鍵字“Polish”2601的電子詞典詞條。此詞條的主記錄中有4個(gè)主屬性,2602~2605,對(duì)應(yīng)于帶有大小寫(xiě)規(guī)格化形式的“polish”可代表的三個(gè)詞類(lèi)“Noun(名詞)”、“Verb(動(dòng)詞)”、和“Adverb(副詞)”,和表示帶有大小寫(xiě)規(guī)格化形式“polish”的單詞的各種意義。在表示屬性“Noun”的值的子記錄中為具有作為其值的含有二個(gè)“Lemma(詞目)”屬性2608和2609的子記錄2607的屬性“Lexemes”。這二個(gè)“Lemma”屬性,“polish”2610和“polish”2611的值為二個(gè)不同單詞的未規(guī)格化形式,也即已知的單詞的典型形式。由“Lemma”2610表示的單詞是名詞“polish”,它的一個(gè)意思是“awaxy substance that one smears on a car to protect itssurface.(一種人們涂抹在汽車(chē)上來(lái)保護(hù)其表面的蠟制材料)”。由“Lemma”2611所表示的單詞是一名詞,其一個(gè)意思是“the SlavicLanguage of the Poles.(波蘭人的斯拉夫語(yǔ))”。這樣,屬性“Lexemes”即指明,作為一特定的詞類(lèi)可能存在有不只一個(gè)具有規(guī)格化形式“polish”的單詞。在此詞條的整個(gè)其余部分,屬于單詞“polish”的信息由屬性/值對(duì)“Lemma”/“polish”導(dǎo)入,例如象定義2612,而屬于單詞“Polish”的信息則由屬性/值對(duì)“Lemma”/“Polish”導(dǎo)入,例如象定義2613。
圖27顯示來(lái)自法語(yǔ)詞典的二個(gè)詞條2701和2702,說(shuō)明含有區(qū)別標(biāo)記的單詞的規(guī)格化。經(jīng)規(guī)格化的關(guān)鍵字“eleve”2702代表二個(gè)不同的典型形式“é lève”2703和“é levé”。經(jīng)規(guī)格化的關(guān)鍵字“ou”2705代表二個(gè)不同的典型形式“ou”和“où”。
一電子詞典可能部分地或者完全地在詞法推演得的單詞形式上被指定的。在詞法單詞形式上完全被指定的詞典(“FSM詞典”)含有用于“hike”,“hiked”、“hiking”,和“hikes”的各個(gè)分開(kāi)的詞條,而一在詞法單詞形式方面未被指定的詞典(“USM詞典”)則含有一單個(gè)詞條“hike”,它代表形式“bike”以及可由單詞“hike”推演得的形式“hiked”、“hiking”和“hikes”。FSM詞典顯然含有多得多的詞條。因?yàn)樗鼈兒袑?duì)緊密相關(guān)的單詞的分開(kāi)的詞條,如在單詞“hike(徒步旅行)”的和/與其相關(guān)的形式舉例中那樣,一FSM詞典可能含有大量的冗余的定義和其他信息。“hike”、“hikes”、和“hiked”的詞目可能都含有為消遣或鍛煉而作的步行動(dòng)作的基本定義。另一方面,僅有一個(gè)詞條可含有此定義,象例如“hike”的詞條那樣,而其他詞條可含有對(duì)這些定義的指針。
一般說(shuō)USM詞典受到偏好,因?yàn)樗鼈冚^小,而使它們能較容易被置入確定大小的存貯媒體上,并使它們能在存貯器中作更有效的快速存貯。此外,為應(yīng)用詞法規(guī)則來(lái)生成一單詞的相關(guān)的形式,象例如為由單詞“hike”生成“hikes”和“hiked”的總開(kāi)銷(xiāo)也十分小。不規(guī)則形式被包括在詞典中作為分開(kāi)的詞條以避免要將詞法規(guī)則組擴(kuò)大到包括大量非常專(zhuān)門(mén)的規(guī)則,象例如一由現(xiàn)在時(shí)態(tài)形式“Keep”推演過(guò)去時(shí)態(tài)形式“Kept”的規(guī)則。DCC正常生成在詞法推演的形式方面部分地被指定的詞條。
一詞典可被結(jié)構(gòu)成使得,如果一輸入單詞一開(kāi)始就符合詞典中一關(guān)鍵字,就保證無(wú)需對(duì)輸入單詞加以詞法規(guī)則來(lái)找到可對(duì)應(yīng)于輸入單詞的其他可能的形式。例如,考慮由輸入句子“I am building a bridge.(我在建一座橋)”中查找輸入單詞“building”。在這一情況下,“building”是未變化形式“build”的活用形式。有可能的情況是,在對(duì)應(yīng)于關(guān)鍵字“building”的詞條中,僅找到表示未變化形式“building”的記錄,或者換句話說(shuō),表示名詞“building”的記錄。為了查找到對(duì)應(yīng)于現(xiàn)在時(shí)態(tài)的單數(shù)動(dòng)詞“building”的記錄,DLC在這一情況下將詞法規(guī)則應(yīng)用到“building”以產(chǎn)生動(dòng)詞“to build”而后查找“build”。這種類(lèi)型的詞典被稱(chēng)之為在對(duì)應(yīng)的字形式方面未被指定的詞典(“USH詞典”)。圖28中顯示對(duì)名詞“building”的USH詞典詞條。在帶有關(guān)鍵字“building”2802的詞條中僅屬性/值對(duì)2801對(duì)應(yīng)于名詞“building”。在對(duì)應(yīng)單詞形式方向完全指定的詞典(“FSH詞典”)保證帶有關(guān)鍵字“building”的詞條包含有對(duì)應(yīng)于動(dòng)詞“to build”的屬性/值對(duì)。對(duì)于關(guān)鍵字“building”的FSH詞條如圖29中所示。如果一規(guī)格化的輸入單詞符合FSH詞典中一個(gè)關(guān)鍵字,就無(wú)需時(shí)輸入單詞應(yīng)用語(yǔ)法規(guī)則來(lái)尋找所有相關(guān)的記錄。
FSH詞典與FSM詞典不同。在FSH詞典中無(wú)需應(yīng)用任何詞法規(guī)則。在FSH詞典中,當(dāng)未找到輸入單詞的符合關(guān)鍵字時(shí)應(yīng)用詞法規(guī)則。例如,在一FSM詞典中將有一符合輸入單詞“buildings”的關(guān)鍵字。相反,一FSH詞典不含有關(guān)鍵字“buildings”。為了在FSH詞典中查找適當(dāng)?shù)脑~目,必須應(yīng)用指明“buildings”是“building”的復(fù)數(shù)的詞法規(guī)則來(lái)生成形式“building”。FSH詞典通常是在詞法形式方面被部分指定的。
在DCC構(gòu)成電子詞典時(shí),它將一采用語(yǔ)言專(zhuān)用查找表的規(guī)格化功能應(yīng)用到由前先編纂的自然語(yǔ)言詞典得到的每個(gè)自然語(yǔ)言單詞或某些其他類(lèi)似的單詞來(lái)源。此語(yǔ)言專(zhuān)用查找表是該語(yǔ)言的各個(gè)ASCII字符與其規(guī)格化形式之間的簡(jiǎn)單映射。一映射的一部分的舉例可以是ZABCDE
Fza abcdeef在一優(yōu)選實(shí)施例中,查找表只不過(guò)是替換字符的陣列。對(duì)應(yīng)于一輸入字符的ASCII碼的小整數(shù)值被用作進(jìn)入陣列的索引來(lái)找到輸入字符的替換字符。
圖30中顯示規(guī)格化的功能的流程圖。步驟3001-3004表示一通過(guò)構(gòu)成輸入單詞的所有字母的循環(huán),在此DCC在每一重復(fù)中選擇下一字母。DCC在一語(yǔ)言專(zhuān)用查找表中查找所選擇的字母(步驟3002),并以查找表中對(duì)應(yīng)于被選擇字母的字母取代輸入單詞內(nèi)的被選擇字母(步驟3003)。如果所選擇的字母為大寫(xiě)形式,或者被一區(qū)別標(biāo)記所修飾,則查找表詞條就將含有對(duì)應(yīng)于所選擇字母的小寫(xiě)字母或未加標(biāo)記的字母。此例行程序的結(jié)果是在大小寫(xiě)和區(qū)別標(biāo)記方向作完全規(guī)格化的單詞。
圖31中顯示一簡(jiǎn)單電子詞典構(gòu)成例行程序的流程圖。這一例行程序由現(xiàn)有的不帶規(guī)則化關(guān)鍵字的源詞典生成帶規(guī)格化關(guān)鍵字的電子詞典。步驟3101~3113表示一循環(huán),在其每一重復(fù)期間DCC由源詞典選擇一詞條并將由被選擇詞條得的信息裝入電子詞典。在步驟3101,DCC選擇下一源詞條,由第一詞條開(kāi)始。在步驟3102,DCC利用上述的規(guī)格化例行程序?qū)λx擇詞條的關(guān)鍵字進(jìn)行規(guī)格化。在步驟3103,DCC確定電子詞典中是否已存在一對(duì)應(yīng)于所選擇的源詞條的規(guī)格化關(guān)鍵字的關(guān)鍵字。如果電子詞典中沒(méi)有這樣的關(guān)鍵字,DCC即在步驟3104在電子詞典中生成具有規(guī)格化關(guān)鍵字作為其關(guān)鍵字的新詞條。如果已經(jīng)存在有這樣一個(gè)關(guān)鍵字,則由步驟3105至3111所表示的循環(huán)即經(jīng)由所選擇的源詞條中的各個(gè)詞類(lèi)重復(fù)進(jìn)行。所選擇的詞條可含有例如動(dòng)詞的定義和名詞的定義。DCC由第一詞類(lèi)開(kāi)始選擇下一詞類(lèi)(步驟3105)。在步驟3106DCC確定該詞類(lèi)的屬性是否已存在于電子詞典詞條中,象例如圖26中的名詞屬性2602。如果不是,DCC即為該詞類(lèi)加以一新的屬性(步驟3107)。如果已存在這樣的屬性,DCC即確定現(xiàn)有的屬性的值中是否有新Lexeme屬性,象例如圖26中的Lexemes屬性2606。如果沒(méi)有,DCC將Lexeme屬性加到現(xiàn)有的詞類(lèi)屬性,并將現(xiàn)有詞類(lèi)屬性和所選擇詞類(lèi)的新屬性作為L(zhǎng)exeme屬性中的值(步驟3110),象例如屬性2608和2609(圖26)。如已存在有Lexeme屬性,則DCC只是將所選擇的詞類(lèi)加到Lexeme屬性(步驟3109)。一旦被選擇詞條中的所有詞類(lèi)均被選擇,DCC即將所選詞條的定義加到新的或現(xiàn)有的電子詞類(lèi)詞條(步驟3112)。
DCC可生成FSM、FSH、或USH詞典。分析期間所用的全局變量指明詞典是類(lèi)型FSM、FSH還是USH。不同的全局變量表明一電子詞典是否具有規(guī)格化關(guān)鍵字。
如上面討論詞典查閱表頭可以有數(shù)種不同的組織,它可以是一FSM詞典,在這種情況下無(wú)需應(yīng)用詞法規(guī)則到輸入單詞來(lái)尋找詞典中對(duì)應(yīng)的關(guān)鍵字。它可能是一FSH詞典,在此情況下僅在沒(méi)有找到符合關(guān)鍵字時(shí)需要應(yīng)用詞法規(guī)則。而且,如上面討論的,為了產(chǎn)生關(guān)鍵字“building”需要將詞法規(guī)則應(yīng)用到輸入單詞“buildings”,因?yàn)镕SH詞典不包含帶有關(guān)鍵字“buildings”的詞條。如果詞典是USH型,則就必須總要將詞法規(guī)則應(yīng)用到輸入單詞來(lái)生成所有可能的形式。例如,在這樣的詞典中,只可能以應(yīng)用由“building”生成“build”的詞法規(guī)別來(lái)從輸入單詞“building”找到動(dòng)詞“build”的詞條,因?yàn)閁SH詞典僅只在帶有關(guān)鍵字“building”的詞條中含有名詞“building”的定義。
以所有三種類(lèi)型詞典,DLC首先如圖29中所說(shuō)明的將規(guī)格化功能應(yīng)用到輸入單詞。如果是FSM型詞典,則DLC由詞典搜索符合規(guī)格化輸入單詞的關(guān)鍵字。如找到關(guān)鍵字,DLC返回包含在具有該關(guān)鍵字的詞條中的子記錄,以指明它們所代表的典型形式是否嚴(yán)格地符合未經(jīng)規(guī)格化的輸入單詞。如未找到符合的關(guān)鍵字,則該單詞不存在在此詞典中。
如果是FSH型詞典,DLC由詞典搜尋符合規(guī)格化的輸入單詞的關(guān)鍵字。如找到一關(guān)鍵字,即返回它們包含的子記錄,以指明它們所代表的典型單詞是否嚴(yán)格符合輸入單詞。如未找到符合的關(guān)鍵字,DLC應(yīng)用任何適用的詞法規(guī)則到輸入單詞以產(chǎn)生該單詞的一個(gè)或多個(gè)詞目,然后由詞典搜索任何符合所產(chǎn)生詞目的關(guān)鍵字。如DCL找到符合的關(guān)鍵字,即檢索包含在對(duì)應(yīng)于符合的關(guān)鍵字的詞條中的子記錄,并返回各個(gè)帶有表明未經(jīng)規(guī)格化的輸入單詞是否嚴(yán)格符合子記錄所代表的典型形式的指示的每個(gè)子記錄。如未找到符合的關(guān)鍵字,則此詞典中不存在此單詞。
如果詞典是在對(duì)應(yīng)形式方面未完全指定的,DLC即對(duì)輸入單詞應(yīng)用任何適用的詞法規(guī)則,這種規(guī)則產(chǎn)生單元可做一個(gè)或多個(gè)主題,然后搜索詞典中的與輸入字或產(chǎn)生的主題的任一個(gè)符合的任何關(guān)鍵字。如果DLC找到符合關(guān)鍵字,它就檢索被包括在相應(yīng)于符合關(guān)鍵字的詞條內(nèi)的子記錄,并返回每一子記錄,以指明非規(guī)格化的輸入單詞是否嚴(yán)格與子記錄所表示的典型形式一致。如果找不到關(guān)鍵字,單詞就在詞典中不存在。
DLC返回詞條中的所有子記錄,而不僅僅是其典型形式嚴(yán)格地符合此未規(guī)格化的輸入單詞的子記錄。一般說(shuō)符合可以在某種程度上表明所含定義的正確性,但卻不是決定性的。再來(lái)看二個(gè)樣值句子(1)I told him topolish his shose?!焙?2)“Polish your shoes?!疘 told him?!睂?duì)第一句,DLC將單詞“polish”規(guī)格化到“polish”,并返回代表典型形式“polish”的子記錄,帶有表明嚴(yán)格符合輸入單詞的對(duì)于“toshine”的同義詞,和帶有表明其不嚴(yán)格地符合輸入單詞的代表典型形式“Polish”的子記錄。在這種情況下,帶有嚴(yán)格符合典型形式的記錄是所要求的記錄。對(duì)第二局得到同樣的查找結(jié)果,但在這種情況下,子記錄并不具有作為所希望子記錄的嚴(yán)格符合的典型形式。
由于關(guān)鍵字的大小寫(xiě)和區(qū)別符的規(guī)格化和一單個(gè)詞條中含有多個(gè)代表典型形式的子記錄,所有三種類(lèi)型詞典中每次詞典查找所得結(jié)果均為較多的子記錄。由一次查找,DLC就直接得到全部大小寫(xiě)和區(qū)分標(biāo)記的組合。在FSH詞典的情況下,總是只需要一次查找。在FSH詞典的情況下,經(jīng)常只要求一次查找,不過(guò)如果未找到詞條,則在依靠對(duì)之應(yīng)用詞法規(guī)則能由輸入單詞生成成詞條的情況下可能要求附加的查找。在USH詞典的情況下,所需的查找的數(shù)量等于一加可由對(duì)輸入單詞應(yīng)用詞法規(guī)則產(chǎn)生的詞目數(shù)。
由返回各個(gè)循環(huán)的多個(gè)記錄,為對(duì)一單詞作詳盡搜索所需的查找數(shù)就會(huì)減少。這種查找的減少相應(yīng)地減少磁盤(pán)存取次數(shù),而加速詞典查找過(guò)程。
圖32顯示為查找含有代表作為自變量“ilemma”通過(guò)例行程序的輸入單詞的可能的詞類(lèi)和定義的記錄的電子詞典中所有詞條的詞法子程序的流程圖。在步驟3201,詞法子程序?qū)⒆兞俊皉ecord-list”的初始化為空,并將ilemma中的值指定為變量“next-lemma”。在步驟3202,詞法子程序調(diào)用顯示在圖33中的查找例行程序以便由電子詞典找到帶有對(duì)應(yīng)于ilemma的關(guān)鍵字。如果在步驟3203未找到詞條,詞法子程序即確定詞典是否為FSM型。如果是,則詞法子程序返回一層的record-list(步驟3205)。如果詞典不是FSM型,詞法子程序即對(duì)ilemma應(yīng)用語(yǔ)法規(guī)則以生成另一詞目(步驟3206)。如果在步驟3706中產(chǎn)生一新的命題,而后控制循環(huán)回到例行程序的起頭;否則詞法子程序在步驟3205返回record-list。
如果詞法子程序在步驟3203找到一記錄,詞法子程序就在步驟3208將該記錄加到record-list。而后,如果詞典是FSM或FSH型,如步驟3209和3210中所確定的,詞法子程序就在步驟3211返回record-list。否則,控制傳至步驟3206,在這里子程序詞法將力圖產(chǎn)生新的詞目。
圖23顯示查找子程序的流程圖。這一子程序搜錄作為自變量“ilemma”的帶有符合一單詞輸入的關(guān)鍵字的記錄。在步驟3301,查找子程序確定詞典是否具有在大小區(qū)和區(qū)別標(biāo)記上被規(guī)格化的關(guān)鍵字。如果詞典沒(méi)有規(guī)格化的關(guān)鍵字,查找例行程序即搜索詞典的詞條以找到帶有符合ilemma的關(guān)鍵字的詞條(步驟3302)。如果詞典沒(méi)有規(guī)格化的關(guān)鍵字,那么就調(diào)用圖30中所示的子程序規(guī)格化以產(chǎn)生對(duì)應(yīng)于ilemma的規(guī)格化單詞(步驟3303),而查找例行程序搜索詞典的詞條以找到帶有符合對(duì)應(yīng)于ilemma的規(guī)格化單詞的關(guān)鍵字的詞條(步驟3304)。如果在步驟3302或3304中未找到詞條,查找子程序失敗而返回NULL(步驟3306)。
如果找到一詞條,查找子程序即執(zhí)行包括步驟3307~3315的循環(huán),在詞條主記錄中所含的每一詞類(lèi)子記錄加以反復(fù)。如果由詞典檢索到圖29中顯示的記錄,例如,這一循環(huán)的第一反復(fù)將選擇對(duì)應(yīng)于“Noun”屬性的子記錄2901,而循環(huán)的第二反復(fù)則將選擇對(duì)應(yīng)于“Verb”屬性2904的子記錄2903。在步驟3308中查找子程序確定所選擇的子記錄是否含有一“Lexemes”屬性,例如象圖26中的屬性2606。如果不是這樣,則查找子程序只有在所選擇的子記錄嚴(yán)格符合ilemma時(shí)才在步驟3310中將所選擇的子記錄標(biāo)作為嚴(yán)格符合,而由步驟3307~3315所代表的循環(huán)則以下一反復(fù)而繼續(xù)。
如果在被選擇的子記錄中存在“Lexemes”屬性,則由步驟3311~3314代表的一由循環(huán)即對(duì)每一循環(huán)反復(fù)由“Lexemes”屬性的值中選擇各個(gè)語(yǔ)義。圖26中,屬性/值對(duì)2608~2610導(dǎo)入第一語(yǔ)義,而屬性/值對(duì)2609~2611導(dǎo)入第二語(yǔ)義。如果所選擇語(yǔ)義的“Lemma”屬性的值嚴(yán)格符合ilemma查找子程序即標(biāo)明該語(yǔ)義子記錄為嚴(yán)格符合(步驟3313)。因此,調(diào)用查找子程序的結(jié)果在未找到詞條時(shí)是一NULL值,或者是一帶有具有嚴(yán)格符合輸入單詞的“Lemma”屬性的子記錄的被標(biāo)明為嚴(yán)格符合的詞典詞條。
雖然本發(fā)明已按一優(yōu)選實(shí)施例進(jìn)行了說(shuō)明,但并不是企圖將發(fā)明局限于這一實(shí)施例。對(duì)于本技術(shù)領(lǐng)域熟悉人士來(lái)說(shuō)在本發(fā)明的精神領(lǐng)域之內(nèi)的修改是顯而易見(jiàn)的。本發(fā)明的范圍由所附權(quán)利要求加以限定。
權(quán)利要求
1.在計(jì)算機(jī)系統(tǒng)中用于電子詞典的信息定位方法,其特征是所述方法包括生成電子詞典,方法是由多個(gè)單詞各自的典型形式生成一規(guī)格化形式,此規(guī)格化形式具有全為小寫(xiě)的字母和沒(méi)有區(qū)別標(biāo)號(hào),和對(duì)一單詞的各獨(dú)特的規(guī)格化形式,在電子詞典中存貯一詞條,各詞條具有一關(guān)鍵字和一記錄,關(guān)鍵字被設(shè)定為單詞的規(guī)格化形式,而對(duì)其規(guī)格化形式等于此獨(dú)特的規(guī)格化形式的單詞的各典型形式在記錄中存貯子記錄,此子記錄包含有有關(guān)單詞的典型形式的信息;接收一輸入單詞;由輸入單詞生成規(guī)格化形式;和由生成的電子詞典搜尋帶有符合輸入單詞的規(guī)格化形式的關(guān)鍵字的詞條,此詞條含有帶有有關(guān)單詞的典型形式的信息的子記錄。
2.權(quán)利要求1所述方法,其特征是此多個(gè)單詞包含對(duì)單詞的每一個(gè)可能的詞法形式均使得所生成的電子詞典對(duì)于詞法形式為完全指定的單詞。
3.權(quán)利要求2所述方法,其特征是在未找到符合輸入單詞的規(guī)格化形式的關(guān)鍵字時(shí),指明所生成的電子詞典不包有輸入單詞。
4.權(quán)利要求2所述方法,其特征是在找到符合輸入單詞的規(guī)格化形式的關(guān)鍵字時(shí),指明所找到的詞條含有此信息。
5.權(quán)利要求1所述方法,其特征是該多個(gè)單詞包含對(duì)每一可能的對(duì)應(yīng)單詞所生成的電子詞典關(guān)于對(duì)應(yīng)單詞是被完全指定的單詞。
6.權(quán)利要求5所述方法,其特征是在未找到符合輸入單詞的規(guī)格化形式的關(guān)鍵字時(shí),對(duì)輸入單詞應(yīng)用詞法規(guī)則生成輸入單詞的所有詞目,將所生成的詞目規(guī)格化,并由所構(gòu)成的電子詞典檢索具有符合規(guī)格化詞目的關(guān)鍵字的詞條。
7.權(quán)利要求5所述方法,其特征是在找到符合輸入單詞的規(guī)格化形式的關(guān)鍵字時(shí),指明所找到的詞條含有此信息。
8.權(quán)利要求1所述方法,其特征是在找到符合輸入單詞規(guī)格化形式的關(guān)鍵字時(shí),應(yīng)用詞法規(guī)則到輸入單詞生成輸入單詞的所有詞目,將產(chǎn)生的詞目規(guī)格化,和由所構(gòu)成的電子詞典搜索帶有符合規(guī)格化詞目的關(guān)鍵字的詞條。
9.在計(jì)算機(jī)系統(tǒng)中生成單詞的電子詞典的方法,每一單詞具有一典型的形式,其特征是所述方法包括由多個(gè)單詞的每一個(gè)的典型形式生成一規(guī)則化形式;和對(duì)一單詞的各獨(dú)特的規(guī)格化形式,在電子詞典中存放一詞條,各詞條具有一關(guān)鍵字和一記錄,此關(guān)鍵字被設(shè)定到單詞的規(guī)格化形式;和對(duì)一其規(guī)格化形式等于此獨(dú)特的規(guī)格化形式的單詞的各個(gè)典型形式,在記錄中存貯有關(guān)此單詞的典型形式的信息。
10.權(quán)利要求9所述方法,其特征是規(guī)格化形式的產(chǎn)生包括將單詞的每一字母設(shè)置為小寫(xiě)。
11.權(quán)利要求9所述方法,其特征是規(guī)格化形式的產(chǎn)生包括去除區(qū)別標(biāo)記。
12.在計(jì)算機(jī)系統(tǒng)中生成電子詞典的方法,其特征是包括對(duì)繁多單詞的多個(gè)規(guī)格化形式的每一個(gè)生成一詞條;和在各詞條中存貯有關(guān)具有相同規(guī)格化形式的每一單詞的信息,以便能由檢索一單個(gè)詞條即可檢索具有相同規(guī)格化形式的各個(gè)單詞的信息。
13.權(quán)利要求12所述方法,其特征是各詞條含有具有規(guī)格化形式連同有關(guān)典型形式信息的各個(gè)單詞的規(guī)格化形式和一典型形式。
14.權(quán)利要求12所述方法,其特征是規(guī)格化形式的產(chǎn)生包括將單詞的每一字母設(shè)定為小寫(xiě)。
15.權(quán)利要求12所述方法,其特征是規(guī)格化形式的產(chǎn)生包括去除區(qū)別標(biāo)記。
16.含有促使計(jì)算機(jī)系統(tǒng)生成單詞的電子詞典的計(jì)算機(jī)指令的計(jì)算機(jī)可讀媒體,各單詞具有一典型形式,其特點(diǎn)是由多個(gè)單詞的每一個(gè)的典型形式產(chǎn)生規(guī)格化形式;和對(duì)一單詞的各個(gè)獨(dú)特的規(guī)格化形式在電子詞典存貯一詞條,每一詞條具有一關(guān)鍵字和一記錄,此關(guān)鍵字被設(shè)置為單詞的規(guī)格化形式;和對(duì)其規(guī)格化形式等于此獨(dú)特的規(guī)格化形式的單詞的各個(gè)典型形式,在記錄中存貯有關(guān)此單詞的典型形式的信息。
17.權(quán)利要求16所述計(jì)算機(jī)可讀媒體,其特征是規(guī)格化形式的產(chǎn)生包括將單詞的每一字母設(shè)置為小寫(xiě)。
18.權(quán)利要求16所述計(jì)算機(jī)可讀媒體,其特征是規(guī)格化形式的產(chǎn)生包括去除區(qū)別標(biāo)記。
19.生成電子詞典的計(jì)算機(jī)系統(tǒng),其特征是包括為繁多單詞的多個(gè)規(guī)格化形式的每一個(gè)產(chǎn)生一詞條的設(shè)備;和為在各詞條中存貯有關(guān)具有相同的規(guī)格化形式的每個(gè)單詞的信息的設(shè)備,使得由檢索一單個(gè)詞條就能檢索到具有相同規(guī)格化形式的各單詞的信息。
20.權(quán)利要求19所述計(jì)算機(jī)系統(tǒng),其特征是每一詞條含有具有該規(guī)格化形式連同有關(guān)典型形式的信息的各個(gè)單詞的規(guī)格化形式和典型形式。
21.權(quán)利要求20所述方法,其特征是規(guī)格化型式的產(chǎn)生包括將單詞的各個(gè)字母設(shè)置為小寫(xiě)。
22.權(quán)利要求20所述方法,其特征是規(guī)格化形式的產(chǎn)生包括去除區(qū)別標(biāo)記。
23.在計(jì)算機(jī)系統(tǒng)中從電子詞典檢索信息的方法,所述電子詞典具有含有有關(guān)規(guī)格化形式相同的單詞的典型形式的信息的詞條,其特征是所述方法包括接收一輸入單詞;產(chǎn)生輸入單詞的規(guī)格化形式;和由電子詞典搜索對(duì)應(yīng)于輸入單詞的規(guī)格化形式的詞條,其中詞條含有關(guān)于輸入單詞的信息。
24.權(quán)利要求23所述方法,其特征是電子詞典含有對(duì)單詞的每一種可能的詞法形式的詞條,以使得所生成的電子詞典在詞法形式上被完全指明。
25.權(quán)利要求24所述方法,其特征是在未找到對(duì)應(yīng)于輸入單詞的規(guī)格化形式的詞條時(shí),表明電子詞典不含有此輸入單詞。
26.權(quán)利要求24所述方法,其特征是在找到對(duì)應(yīng)于輸入單詞的規(guī)格化形式的詞條時(shí),表明所找到的詞條含有此信息。
27.權(quán)利要求23所述方法,其特征是電子詞典含有對(duì)每一可能的對(duì)應(yīng)單詞的詞條,而使所生成的電子詞典在對(duì)應(yīng)詞上被完全指定。
28.權(quán)利要求27所述方法,其特征是在未找到對(duì)應(yīng)于輸入單詞的規(guī)格化形式的詞條時(shí),由對(duì)輸入單詞應(yīng)用詞法規(guī)則來(lái)產(chǎn)生輸入單詞的所有詞目,將所產(chǎn)生詞目加以規(guī)格化,和由所生成的電子詞典搜尋對(duì)應(yīng)于規(guī)格化詞目的詞條。
29.權(quán)利要求27所述方法,其特征是在找到對(duì)應(yīng)于輸入單詞的規(guī)格化形式的詞條時(shí),表明所找到的詞條含有此信息。
30.權(quán)利要求23所述方法,其特征是在未找到對(duì)應(yīng)于輸入單詞的規(guī)格化形式的詞條時(shí),由對(duì)輸入單詞在用詞法規(guī)則來(lái)產(chǎn)生輸入單詞的所有詞目,將所產(chǎn)生詞目進(jìn)行規(guī)格化,和由所生成的電子詞典搜尋對(duì)應(yīng)于規(guī)格化詞目的詞條。
31.包含帶有關(guān)于一自然語(yǔ)言的單詞的詞法和語(yǔ)法信息的電子詞典的計(jì)算機(jī)可讀媒體,此電子詞典包括有一組詞條,每一詞條包括一關(guān)鍵字和一記錄,此記錄含有關(guān)于至少一個(gè)由關(guān)鍵字所代表的單詞的信息,其特征是詞典的各關(guān)鍵字被規(guī)格化;和在至少二個(gè)不同單詞具有相同的規(guī)格化形式時(shí),具有符合規(guī)格化形式的關(guān)鍵字的電子詞典詞條含有至少一個(gè)對(duì)應(yīng)于各個(gè)具有相同規(guī)格化形式的不同單詞的子記錄。
32.權(quán)利要求31所述計(jì)算機(jī)可讀媒體,其特征是電子詞典的各關(guān)鍵字在大小寫(xiě)方面被加以規(guī)格化。
33.權(quán)利要求31所述計(jì)算機(jī)可讀媒體,其特征是電子詞典的各個(gè)關(guān)鍵字在區(qū)別標(biāo)記方面被作規(guī)格化。
34.為尋找關(guān)于電子詞典中一單詞的信息的計(jì)算機(jī)系統(tǒng),此電子詞典含有關(guān)于一自然語(yǔ)言的單詞的詞法和語(yǔ)法信息,此電子詞典包含一組詞條,各詞條包括一關(guān)鍵字和一記錄,此記錄含有關(guān)于至少一個(gè)由關(guān)鍵字所代表的單詞的信息,其中詞典的各關(guān)鍵字均為單詞的規(guī)格化形式,其特征是所述系統(tǒng)包括為產(chǎn)生輸入單詞的規(guī)格化形式的設(shè)備;和為在電子詞典中搜尋具有符合輸入單詞的規(guī)格化形式的關(guān)鍵字的詞條的設(shè)備。
35.權(quán)利要求34所述計(jì)算機(jī)系統(tǒng),其特征是包含有用于在未找到詞條而此電子詞典是在詞法形式方面被完全指定的時(shí)返回一電子詞典不含有關(guān)于輸入單詞的信息的指示。
36.權(quán)利要求34所述計(jì)算機(jī)系統(tǒng),其特征是各記錄含有對(duì)單詞的每一典型形式的子記錄,和包括用于在找到詞條和詞典在詞法方面被完全指定的時(shí),返回帶有指明其子記錄具有符合輸入單詞的典型形式的指示的所找到的詞條。
37.權(quán)利要求34所述計(jì)算機(jī)系統(tǒng),其特征是包含有設(shè)備,用于在搜索時(shí)未找到詞條而此電子詞典在詞法形式方面不是完全指定時(shí),產(chǎn)生輸入單詞的不同的詞目;產(chǎn)生輸入單詞的不同詞目的規(guī)格化形式,和在電子詞典中搜索具有符合輸入單詞的不同詞目的規(guī)格化形式的關(guān)鍵字的詞條。
38.權(quán)利要求34所述計(jì)算機(jī)系統(tǒng),其特征是包含有設(shè)備,用于在找到一詞條而此電子詞典在對(duì)應(yīng)形式方面未被完全指定時(shí),產(chǎn)生輸入單詞的不同的詞目;產(chǎn)生輸入單詞的不同詞目的規(guī)格化形式;和在電子詞典中搜尋一具有符合輸入單詞的不同詞目的規(guī)格化形式的關(guān)鍵字的詞條。
39.權(quán)利要求34所述計(jì)算機(jī)系統(tǒng),其特征是包含有設(shè)備,用于在找到一詞條而電子詞典在對(duì)應(yīng)形式方面被完全指定時(shí),返回所找到的詞條和一表明詞條的子記錄具有符合詞目值的指示。
40.權(quán)利要求34所述計(jì)算機(jī)系統(tǒng),其特征是輸入單詞的規(guī)格化形式的產(chǎn)生在大小寫(xiě)方面對(duì)輸入單詞規(guī)格化。
41.權(quán)利要求34所述方法,其特征是輸入單詞的規(guī)格化形式的產(chǎn)生在區(qū)別標(biāo)記方面對(duì)輸入單詞作規(guī)格化。
42.計(jì)算機(jī)可讀媒體,含有為促使計(jì)算機(jī)系統(tǒng)從具有包含關(guān)于具有相同規(guī)格化形式的單詞的典型形式的信息的詞條的電子詞典中檢索信息的指令,其特征是接收輸入單詞;產(chǎn)生輸入單詞的規(guī)格化形式;和由所生成的電子詞典搜尋對(duì)應(yīng)于輸入單詞的規(guī)格化形式的詞條,其中此詞條含有關(guān)于此輸入單詞的信息。
43.權(quán)利要求42所述計(jì)算機(jī)可讀媒體,其特征是此規(guī)格化形式包含全部的小寫(xiě)字母。
44.權(quán)利要求42所述計(jì)算機(jī)可讀媒體,其特征是規(guī)格化形式包含無(wú)任何區(qū)別標(biāo)記。
全文摘要
一種由電子詞典檢索信息的方法和系統(tǒng)。此系統(tǒng)將關(guān)于具有相同規(guī)格化形式的單詞的所有信息存貯進(jìn)電子詞典。單詞的規(guī)格化形式具有全部小寫(xiě)的字母和沒(méi)有區(qū)別標(biāo)記。當(dāng)欲對(duì)一單詞由詞曲檢索信息時(shí),首先將單詞規(guī)格化,然后由詞典搜索對(duì)應(yīng)于該規(guī)格化單詞的詞條。所找到的詞條即含有該單詞的信息。
文檔編號(hào)G06F17/30GK1180204SQ97114969
公開(kāi)日1998年4月29日 申請(qǐng)日期1997年4月30日 優(yōu)先權(quán)日1997年4月30日
發(fā)明者約瑟夫·E·蓬瑟若達(dá)基斯, 斯蒂夫·理查德森 申請(qǐng)人:微軟公司