專(zhuān)利名稱(chēng):地名表示方法、地名字符串識(shí)別方法與裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及地名組表示方法、地名字符串識(shí)別方法與裝置,特別涉及適合采用用于讀取文件上所記載地名的裝置中的地名字符串存儲(chǔ)裝置與核對(duì)裝置的合適的地名組表示方法、地名字符串識(shí)別方法與裝置。
從圖像中讀取都道府縣名、市鎮(zhèn)村名、字名等地名單詞排列而成的字符串(以下稱(chēng)為地名字符串)的字符識(shí)別裝置,一般構(gòu)成為具有以下三種功能(1)分離字符圖案(字符分離);(2)對(duì)各種字符圖案的字種(字符碼)進(jìn)行識(shí)別(字符識(shí)別);(3)將字符的識(shí)別結(jié)果同預(yù)存儲(chǔ)的地名單詞的排列核對(duì)。
關(guān)于字符串核對(duì)方法的先有技術(shù),例如已知有根據(jù)丸川等方式,《情報(bào)處理學(xué)會(huì)論文志》,35卷6期“用于手寫(xiě)漢字住址識(shí)別的糾錯(cuò)算法”。此外,關(guān)于將字符分離、識(shí)別與核對(duì)一體化的方式的先有技術(shù),已知有基于隱馬爾可夫模型的方式(O.E.Agazzi et al:“Connected and Degraded Text Recognition Using Planar HiddenMarkov Models”,Proceedings of International Conference onAcoustics,Speech and Signal Processing)和搜索式識(shí)別字符串的方法(Koga et al:“Lexical Search Approach for Character-StringRecognition”,Third International Association for Pattern RecognitionWorkshop on Document Analysis Systems 1998)。
在上述的先有技術(shù)中,為了進(jìn)行字符串的核對(duì)處理,需要有預(yù)先存儲(chǔ)所出現(xiàn)的地名字符串的裝置、地名字符串辭典等,而作為地名字符串詞典有以下三種(1)存儲(chǔ)于文件中的“詞典源文件”,這是后述的“地名表示規(guī)則文件”等,是為了進(jìn)行新規(guī)則的制定或修正時(shí)可能需要編輯的。
(2)存儲(chǔ)于存儲(chǔ)器中的“詞典表”等,這是后述的“地名表示網(wǎng)絡(luò)”等,是將詞典文件內(nèi)容以適合核對(duì)處理的形式于存儲(chǔ)器中擴(kuò)展的結(jié)果。
(3)前述(1)與(2)的中間階段的“詞典二進(jìn)制文件”,這是為了容易于存儲(chǔ)器上擴(kuò)展,將預(yù)先施行了擴(kuò)展處理的一部分的結(jié)果存儲(chǔ)于文件中的形式。
用于先有技術(shù)中詞典源文件的形式多數(shù)情形是不明確的。但是,先有技術(shù)都是以把能出現(xiàn)的地名字符串預(yù)先無(wú)遺漏地存儲(chǔ)于詞典表中為前提,因此可以考慮將把能出現(xiàn)的地名字符串預(yù)先無(wú)遺漏地列舉的文本文件用作詞典源文件。
上述的現(xiàn)有技術(shù)必須準(zhǔn)備用于字符串核對(duì)處理的詞典,但在日語(yǔ)中,以不同的字符串來(lái)表示同一地區(qū)的不同表示形式是很多的,這就難以無(wú)遺漏地將能出現(xiàn)的地名字符串編目,因而事實(shí)上就有不可能由人力來(lái)編成這樣完整的詞典的問(wèn)題。
在日語(yǔ)的地名的不同表示中,具有因使用字符不同而有的相異表示、因單詞的省略而有的相異表示、因附加的字符串而有的相異表示以及因通稱(chēng)表示而有的相異表示。下面就這些相異表示的例子進(jìn)行說(shuō)明。
(1)因使用文字不同而有的相異表示例如有“小沢”與“小澤”、“市ヶ谷”與“市ヶ谷”以及“市が谷”等。
(2)因省略單詞而有的相異表示例如有省略“大字”、“字”的相異表示。
省略都道府縣名的相異表示多見(jiàn)于郵寄件的地址名等,例如有“琦玉県川越市大字小ケ谷”和“川越市大字小ケ谷”等。此外,作為省略“大字”、“字”的例子有“琦玉県川越市大字小ケ谷”和“琦玉県川越市小ケ谷”等。
(3)因附加字符串而有的相異表示在小字名等原住址已屬特定情況下附加字符串,成為相異的表示,例如有“琦玉県川越市大字小ケ谷”和“琦玉県川越市大字小ケ谷東関”等。
(4)因通稱(chēng)表示而有的相異表示在京都等處多能看到例如“京都市下京區(qū)大政所町”和“烏丸通仏光寺下る”等。
如前所述,在地名相異表示中有種種形式,以“琦玉県川越市小ケ谷”這一地名為例,調(diào)查與之對(duì)應(yīng)的相異表示時(shí),可知有如下所示的極多的相異表示“琦玉県川越市小ケ谷”“琦玉県川越市小ケ谷”“琦玉県川越市小が谷”“琦玉県川越市大字小ケ谷”“琦玉県川越市大字小ケ谷”“琦玉県川越市大字小が谷”“川越市小ケ谷”“川越市小ケ谷”“川越市小が谷”“川越市大字小ケ谷”“川越市大字小ケ谷”“川越市大字小が谷”在上述例子中還有“琦玉県川越市小ケ谷東田”、“琦玉県川越市字小ケ谷東関”、“琦玉県川越市小ケ谷西関”等并用小字名的情形,若考慮以上列出的12個(gè)相異表示的組合,共計(jì)可有84個(gè)相異的表示。
在先有技術(shù)情形,需要組織人力將上述多種相異表示的全部組合形式編目到辭典文件中,因此,為了編成詞典文件,便存在有需用大量人力的問(wèn)題。但是,在相異表示特多的京都市等的情形,市內(nèi)的鎮(zhèn)名和通稱(chēng)的叫法總計(jì)有數(shù)十萬(wàn)之多,用人力來(lái)編制完整的這類(lèi)辭典,事實(shí)上不可能。
本發(fā)明的首要目的即在于提供能解決上述問(wèn)題、易于無(wú)遺漏地于字符串核對(duì)用詞典中編目多種具有相異表示的地名表示方法。
如前所述,在地名表示中有許多相異表示的情形,即使假定能無(wú)遺漏地將相異表示記述于詞典中,但在先有技術(shù)條件下,會(huì)有詞典存儲(chǔ)容量大,處理時(shí)間也因相異表示的數(shù)量而增大的問(wèn)題。
作為解決上述問(wèn)題的技術(shù)已知有刊載于Koga等的“LexicalSearch Approach for Character-String Recognition”,(ThirdInternational Association for Pattern Recognition Workshop onDocument Analysis Systems 1998)中,通稱(chēng)作為線索(Trie)的數(shù)據(jù)形式,使詞典存儲(chǔ)容量小進(jìn)而能高速進(jìn)行核對(duì)處理的技術(shù)。這項(xiàng)技術(shù)是只把表示中有多樣性的部分作為樹(shù)形數(shù)據(jù)來(lái)表示地名,而易從字符串集來(lái)自動(dòng)生成線索的。
上述技術(shù)例如容易從“琦玉県川越市小ケ谷東田”、“琦玉県川越市字小ケ谷東関”、“琦玉県川越市小ケ谷西関”這三種表示中生成以下的線索。 這樣,下面將以網(wǎng)絡(luò)所表示的地名字符串中字符連接關(guān)系稱(chēng)作地名表示網(wǎng)絡(luò)。
但在這種線索型的地名表示網(wǎng)絡(luò)中,當(dāng)字符串的一部分不同時(shí),若把它們完全作為別的字符串處理,就不得不生成別的分枝,因此,例如對(duì)應(yīng)于“琦玉県川越市小ケ谷”的相異表示組的線索,就成為如下形式 (以下省略)如前所述,即使是用線索型的地名表示網(wǎng)絡(luò)的方法來(lái)表現(xiàn)相異表示,也仍會(huì)產(chǎn)生詞典容量與處理時(shí)間都大幅度增大的問(wèn)題。
因此,本發(fā)明的目的即在于提供用于識(shí)別多種相異表示的地名詞典中的具有使存儲(chǔ)容量小且能進(jìn)行高速核對(duì)處理的存儲(chǔ)形式的地名表示方法、地名字符串識(shí)別方法與裝置。
根據(jù)本發(fā)明,為了實(shí)現(xiàn)上述目的,當(dāng)表示地區(qū)的地名雖是相異的字符串而由意指同一地區(qū)的單詞排列來(lái)表現(xiàn)時(shí),在表示具有所表現(xiàn)的這許多相異表示的地名字符串的集合的地名表現(xiàn)方法中,對(duì)于構(gòu)成地名字符串的一部分或全部的各個(gè)部分字符串,定義字符或語(yǔ)法類(lèi)別的排列,通過(guò)由字符或已定義的語(yǔ)法類(lèi)別排列所組成的語(yǔ)法類(lèi)別,來(lái)表示地名字符串。
為了實(shí)現(xiàn)上述目的,還可以采用表示語(yǔ)法類(lèi)別能否置換為另外某種字符或語(yǔ)法類(lèi)別序列的置換符號(hào)以及某種語(yǔ)法類(lèi)別示明表示特定地區(qū)的地名符號(hào)來(lái)表示上述地名字符串。
為了實(shí)現(xiàn)上述目的,還可以通過(guò)判斷輸入字符串中的部分字符串與預(yù)先給出的對(duì)于構(gòu)成地名字符串的一部分或全部的各個(gè)部分字符串定義字符或語(yǔ)法類(lèi)別的排列中的,由字符或已定義的語(yǔ)法類(lèi)別的排列所組成的語(yǔ)法類(lèi)別表示的地名字符串之一是否相一致來(lái)將輸入字符串與地名進(jìn)行。
為了實(shí)現(xiàn)上述目的,還可以設(shè)置如下裝置在構(gòu)成地名字符串的一部分或全部的部分字符串中,定義字符或語(yǔ)法類(lèi)別的排列,對(duì)由字符或已定義的語(yǔ)法類(lèi)別的排列組成的語(yǔ)法類(lèi)別所表示的地名字符串進(jìn)行存儲(chǔ)的存儲(chǔ)裝置;輸入字符串的輸入裝置;核對(duì)輸入的字符串是否為前述存儲(chǔ)裝置中已存儲(chǔ)的地名字符串的核對(duì)裝置;以及輸出核對(duì)結(jié)果的裝置。
為了實(shí)現(xiàn)上述目的,還可以設(shè)置將文件表面的顏色深淺變換為電信號(hào)而得到的圖像作為輸入,來(lái)讀取文件上所記載的字符的字符讀取裝置,而前述的輸入裝置則輸入來(lái)自此字符讀取裝置的字符串。
具體地說(shuō),本發(fā)明為了達(dá)到上述目的,采用了上下文自由文法的生成規(guī)則來(lái)表現(xiàn)地名的相異表示。上下文無(wú)關(guān)的自由文法是由生成規(guī)則表示某個(gè)語(yǔ)句的成份(語(yǔ)法類(lèi)別)能否置換為某個(gè)其他的語(yǔ)法類(lèi)別序列(《自然言語(yǔ)處理入門(mén)》,近代科學(xué)社,ISBN4-7649-0143-9)。本發(fā)明將采用作為生成規(guī)則表現(xiàn)方法之一的已知的BNF記法(Backus-Naur-Form)(中田編輯ISBN4-7828-5057-3),為適于地名表示而擴(kuò)展成的擴(kuò)展的BNF(Backs-Naur-Form)記法。
根據(jù)上述生成規(guī)則,能夠把典型的相異表示的字符圖案例如“ケ”、“ヶ”、“が”作為一種語(yǔ)法類(lèi)別定義,而可以簡(jiǎn)潔地表現(xiàn)地名的相異表示的集合。此外,通過(guò)應(yīng)用BNF記法所采用的選擇記號(hào),還可更簡(jiǎn)潔地表現(xiàn)地名的相異表示。于是,根據(jù)本發(fā)明,能易于制成無(wú)遺漏地記載著多種相異表示的集合的詞典。
BNF記法是用置換、可選、選擇等記號(hào)表現(xiàn)上下文無(wú)關(guān)文法的生成規(guī)則,采用下述記號(hào)∷=置換意為能由右邊的語(yǔ)法類(lèi)別或字符的配列置換左邊的語(yǔ)法類(lèi)別??蛇x意為[]內(nèi)的記述可有可無(wú)。
| 選擇意為右邊與左邊其中之一。
作為例子,下面例示由BNF記法表現(xiàn)前述“琦玉県川越市小ケ谷”相異表示的生成規(guī)則。〈wケ〉∷=ヶ|ケ|が〈琦玉県川越市小ケ谷〉∷=[埼玉県]川越市[大字]小〈wヶ〉谷[[字]東田|東関|西関]此外,通過(guò)采用上述的表現(xiàn)形式,能將地名表示網(wǎng)絡(luò)小型化。在上述表現(xiàn)形式下,部分字符串的不同可采用記號(hào)“[]”和“|”表現(xiàn)于表面上。因此,當(dāng)部分字符串不同而有相異表示時(shí),易在網(wǎng)絡(luò)上設(shè)定把這部分旁路的路徑。例如前述的BNF記法的表示能夠置換為如下所示的緊致的網(wǎng)絡(luò)。若根據(jù)傳統(tǒng)的那種字符串的排列,則難以生成這種緊致的網(wǎng)絡(luò)。 如上所述,根據(jù)本發(fā)明,即使在地名的表示中有很多相異表示時(shí),也能以很少的人力編制成窮盡所有地名字符串的地名詞典。此外也容易構(gòu)成能進(jìn)行高速核對(duì)處理的網(wǎng)絡(luò)形式的地名詞典。
圖1是說(shuō)明本發(fā)明實(shí)施形式的地名字符串識(shí)別處理例的流程圖。
圖2例示根據(jù)編輯地名字符串生成規(guī)則表現(xiàn)的地名表示和不用生成規(guī)則羅列的相異表示。
圖3概示根據(jù)生成規(guī)則制成的地名表示網(wǎng)絡(luò)。
圖4說(shuō)明將地名表示網(wǎng)絡(luò)實(shí)裝到計(jì)算機(jī)上時(shí)的數(shù)據(jù)形式。
圖5是流程圖,說(shuō)明根據(jù)地名字符中生成規(guī)則生成地名表示網(wǎng)絡(luò)的處理。
圖6說(shuō)明生成的語(yǔ)法樹(shù)。
圖7是流程圖,說(shuō)明根據(jù)地名表示生成規(guī)則的地名表示網(wǎng)絡(luò)生成函數(shù)的處理操作。
圖8說(shuō)明根據(jù)函數(shù)proc的地名表示網(wǎng)絡(luò)的生成過(guò)程(其一)。
圖9說(shuō)明根據(jù)函數(shù)proc的地名表示網(wǎng)絡(luò)的生成過(guò)程(其二)。
圖10示明根據(jù)地名表生成規(guī)則生成的地名表示網(wǎng)絡(luò)組。
圖11是流程圖,說(shuō)明應(yīng)用先有技術(shù)生成地名表示網(wǎng)絡(luò)的處理程序。
圖12舉例說(shuō)明根據(jù)先有技術(shù)生成地名表示網(wǎng)絡(luò)的生成過(guò)程。
圖13例示根據(jù)先有技術(shù)生成的地名表示網(wǎng)絡(luò)。
圖14是流程圖,說(shuō)明圖1所示的地名識(shí)別處理。
圖15是流程圖,說(shuō)明圖14中所示字符串核對(duì)處理的處理操作。
圖16是說(shuō)明函數(shù)srch的處理操作的流程圖。
圖17是例示根據(jù)本發(fā)明實(shí)施形式的地名字符串識(shí)別處理的系統(tǒng)結(jié)構(gòu)的框圖。
圖18是示明地名字符串生成規(guī)則編輯裝置結(jié)構(gòu)的框圖。
圖19是示明本發(fā)明其他實(shí)施形式結(jié)構(gòu)的框圖。
圖20說(shuō)明顯示器上顯示的圖像例。
圖中各標(biāo)號(hào)的意義如下101,地名字符串生成規(guī)則的編輯處理;102,地名字符串生成規(guī)則文件;103,地名表示網(wǎng)絡(luò)生成處理;104,地名識(shí)別處理;1404,字符核對(duì)處理;1701,郵件分檢機(jī);1702,掃描器;1703,延遲電路;1704,分選機(jī);1705,地名識(shí)別裝置;1706,輸入用接口;1707,運(yùn)算處理裝置;1708,輸出用處理裝置;1710,存儲(chǔ)器;1711,網(wǎng)絡(luò)接口;1712,硬盤(pán);1713,可裝卸介質(zhì)存儲(chǔ)裝置;1812,計(jì)算機(jī);1910,鼠標(biāo);1902,鍵盤(pán);1903,顯示器;1904,打印機(jī);1905,輸入文件;1906,輸出文件;1907,地名錄程序;1908,地名附加信息文件;1909,地名字符串生成規(guī)則文件;1910,通信模塊;1911,接口模塊;1912,地名表數(shù)據(jù);1913,地名表分類(lèi)模塊;1914,地名信息檢索模塊;1915,地名表生成模塊;1916,字符串對(duì)照模塊;1917,地名表示展開(kāi)模塊;1918,地名表示網(wǎng)絡(luò)生成程序;1919,地名表示網(wǎng)絡(luò)數(shù)據(jù)。
下面根據(jù)附圖詳細(xì)說(shuō)明本發(fā)明的地名表示方法與地名字符串識(shí)別方法的實(shí)施形式。
圖1是說(shuō)明根據(jù)本發(fā)明實(shí)施形式的地名字符串識(shí)別處理例的流程圖,首先說(shuō)明此流程。以下說(shuō)明中所用的流程圖是根據(jù)Gane-Sarson記法表示的。有關(guān)這種記法記載于Martin等的《軟件結(jié)構(gòu)化技術(shù)》,近代科學(xué)社,ISBN4-7649-0124-2C3050P5562E中。
(1)首先,在地名識(shí)別之前進(jìn)行地名字符串生成規(guī)則編輯處理(步驟101),根據(jù)地名相異表示的事例制成地名字符串的生成規(guī)則,將此生成規(guī)則存儲(chǔ)于地名字符串生成規(guī)則文件102中。步驟101的地名字符串生成規(guī)則的編輯處理可由人借助計(jì)算機(jī)進(jìn)行編輯實(shí)現(xiàn)。
(2)其次進(jìn)行地名識(shí)別處理(步驟104),此時(shí)輸入地名字符串生成規(guī)則文件102,生成用于地名識(shí)別104的詞典地名表示網(wǎng)絡(luò)。步驟103的地名表示網(wǎng)絡(luò)生成處理可作為計(jì)算機(jī)上可執(zhí)行的程序來(lái)實(shí)現(xiàn)。
(3)最后,地名識(shí)別處理(步驟104)則參考地名表示網(wǎng)絡(luò),從輸入圖像中讀取地名字符串。步驟104的地名識(shí)別處理104可作為計(jì)算機(jī)上的程序來(lái)實(shí)現(xiàn)。
地名字符串生成規(guī)則文件102采用本發(fā)明的“擴(kuò)展BNF記法”,根據(jù)上下文無(wú)關(guān)文法的生成規(guī)則來(lái)表現(xiàn)地名的相異表示組。擴(kuò)展BNF記法是在BNF法中擴(kuò)展結(jié)合等符號(hào),采用以下說(shuō)明的符號(hào)。
∷=置換,意指可把左邊的語(yǔ)法類(lèi)別由右邊的語(yǔ)法類(lèi)別或字符的排列置換??蛇x,意為[]內(nèi)的記述可有可無(wú)。
| 選擇,意為右邊與左邊其中之一。
()結(jié)合,根據(jù)前后變數(shù),首先評(píng)價(jià)括號(hào)之內(nèi)?!碬字符串〉語(yǔ)法類(lèi)別?!碞數(shù)字〉表示示明特定地在地名字符串的相異表示組的語(yǔ)法類(lèi)別。數(shù)字為地名標(biāo)識(shí)符,采用比0大的整數(shù)。
于是,上述符號(hào)依下示優(yōu)先順序評(píng)價(jià)。
(1)〈W字符串〉與〈N數(shù)字〉的變數(shù)名的定義;(2)[]及()括號(hào)類(lèi)。在兩重以上嵌套下使用括號(hào)類(lèi)時(shí),優(yōu)先評(píng)價(jià)內(nèi)側(cè)的括號(hào)內(nèi)內(nèi)容。
(3)|(4)∷=圖2例示根據(jù)前述步驟101的編輯處理所編輯的地名字符串生成規(guī)則表現(xiàn)的地名表示以及不用生成規(guī)則所羅列的相異表示。
作為圖2(A)所示的由地名字符串生成規(guī)則所表現(xiàn)的地名表示例,是由本發(fā)明的擴(kuò)展BNF記所表示的下述例子“琦玉県川越市大字小ケ谷”(“東田”“東関”“西関”是小字),“琦玉県川越市大字笠幡”(“久?!薄昂幽稀笔切∽?,“琦玉県川越市下広谷”的相異表示。這樣,包含多數(shù)相異表示的地名通過(guò)采用本發(fā)明導(dǎo)入的符號(hào),能夠極簡(jiǎn)單地加以表現(xiàn),相反,圖2(B)所示的不用生成規(guī)則所羅列的相異表示的例子只是多列了許多的相異表示,因而根據(jù)圖2(A)所示4行表示生成的相異表示數(shù)竟會(huì)達(dá)到106之多。圖2(B)所示的只是其中的一部分。
地名字符串生成規(guī)則文件102是通常的文本文件,作為地名字符串生成規(guī)則編輯處理步驟101的實(shí)現(xiàn)工具可采用一般的文本編輯程序。
圖3概示據(jù)圖2(A)生成規(guī)則的例子制成的地名表示網(wǎng)絡(luò),下面對(duì)此進(jìn)行說(shuō)明。
地名表示網(wǎng)絡(luò)是以各邊對(duì)應(yīng)部分字符串,以各頂點(diǎn)對(duì)應(yīng)部分字符串的邊界的有向圖。各邊的方向與字符串字符的順序一致。圖3中記為NULL(空)的邊表示的是NULL轉(zhuǎn)移,即在該處可以沒(méi)有任何字符串。圖3中右下部有斜線的圓301表示地名字符串的開(kāi)始位置。此外,中央有斜線的圓302~304則表示地名字符串的終結(jié)位置。
圖4說(shuō)明將地名表示網(wǎng)絡(luò)裝入計(jì)算機(jī)上時(shí)的數(shù)據(jù)形式,下面對(duì)此進(jìn)行說(shuō)明。在將地名表示網(wǎng)絡(luò)裝入計(jì)算機(jī)上時(shí),地名表示網(wǎng)絡(luò)便用圖4所示的數(shù)據(jù)形式(左子女—右兄弟(left-child right-siblingrepresentation)表示,T.Cormeh等,《算法引論》,近代科學(xué)社,pp201~202)。這種數(shù)據(jù)形式,是把字符連接關(guān)系以子指針表示,把地面表示網(wǎng)絡(luò)的分支以兄弟指針表示。
圖4(A)示明各數(shù)據(jù)記錄的結(jié)構(gòu)元素,各數(shù)據(jù)記錄由數(shù)據(jù)項(xiàng)c401、b402、d403三者組成。數(shù)據(jù)項(xiàng)c為字碼、數(shù)據(jù)項(xiàng)b為兄弟指針而數(shù)據(jù)項(xiàng)d為子指針。于是,來(lái)自某個(gè)數(shù)據(jù)記錄的分支就由兄弟指針而字符串就由子指針?lè)謩e連接的表的形式表示。例如,圖3中所示地名表示網(wǎng)絡(luò)由前述數(shù)據(jù)記錄以表的形式表示時(shí),就成為圖4(B)所示形式。
在以圖4(B)中所示表形式表現(xiàn)的地名表示網(wǎng)絡(luò)中,數(shù)據(jù)記錄404′(對(duì)應(yīng)于字碼“小”)分岔為數(shù)據(jù)記錄404~406,從數(shù)據(jù)記錄404′到404由子指針連接,數(shù)據(jù)記錄404、405、406由兄弟指針連接。字符串“琦玉県”則由由子指針連接的數(shù)據(jù)記錄407、409、409表示。當(dāng)數(shù)據(jù)記錄對(duì)應(yīng)于NULL轉(zhuǎn)移時(shí),則將NULL字符存儲(chǔ)于該數(shù)據(jù)記錄的字碼c401中,從存有此NULL字符的數(shù)據(jù)碼分岔出的數(shù)據(jù)記錄,意味著省略也可以。在對(duì)應(yīng)于地名字符串最后字符的數(shù)據(jù)記錄之后,如作為數(shù)據(jù)記錄410所示,設(shè)有一多余的數(shù)據(jù)記錄,在此數(shù)據(jù)記錄410的子指針d中存有NULL指針,于表示網(wǎng)絡(luò)終端的同時(shí)將地名標(biāo)識(shí)符存儲(chǔ)于兄弟指針b中。
前述形式表現(xiàn)的圖4(B)中所示表狀的地名表示網(wǎng)絡(luò),能看作是各數(shù)據(jù)記錄對(duì)應(yīng)于節(jié)點(diǎn)的圖,而圖3概示的地名表示網(wǎng)絡(luò)中的各邊在此成為以對(duì)應(yīng)于多個(gè)字符個(gè)數(shù)的節(jié)點(diǎn)來(lái)表示的結(jié)果。
圖5為流程圖,說(shuō)明根據(jù)圖1的步驟103中地名字符生成規(guī)則生成地名表示網(wǎng)絡(luò)的處理,圖6說(shuō)明生成語(yǔ)法樹(shù)的例子。下面對(duì)此進(jìn)行說(shuō)明。
首先對(duì)地名表示生成規(guī)則文件102中各地名字符串的生成規(guī)則,例如從圖2(A)的上方第2行以后的〈N數(shù)字〉開(kāi)始的各行,由控制循環(huán)501一一處理。首先于步驟502對(duì)各行的字符串進(jìn)行語(yǔ)法分析,形成圖6中所示的語(yǔ)法樹(shù)。然后于步驟503生成與該地名相異表示組相對(duì)應(yīng)的地名表示網(wǎng)絡(luò)的終端節(jié)點(diǎn)ti。下面在未經(jīng)特別聲明時(shí),所謂“地名表示網(wǎng)絡(luò)上的節(jié)點(diǎn)”即是圖4(A)形式中示明的數(shù)據(jù)記錄。ti中的字碼c中存儲(chǔ)NULL、子指針d中存儲(chǔ)NULL,而在兄弟指針b中存儲(chǔ)該地名相異表示組的地名標(biāo)識(shí)符。然后在步驟504中,使用后述的函數(shù)proc來(lái)生成與該地名相異表示組相對(duì)應(yīng)的地名表示網(wǎng)絡(luò)。在處理完所有的地名字符串生成規(guī)則后,于步驟505合并所生成的地名表示網(wǎng)絡(luò)的冗余部分。
根據(jù)地名字符串生成規(guī)則進(jìn)行語(yǔ)法樹(shù)的生成處理,例如可采用《自然言語(yǔ)處理入門(mén)》(近代科學(xué)社,ISBN4-7649-0143-9,pp19-30)中所述的,根據(jù)生成規(guī)則生成遷移網(wǎng)絡(luò)的方法等。圖6中所示步驟502的處理生成的語(yǔ)法樹(shù)的例子是據(jù)圖2(A)中第二行生成的語(yǔ)法樹(shù)的例子。圖6中,“+”所記的圓表示字符串的連接、“[]”所記的圓表示可選、“|”所記的圓表示選擇、矩形表示字符串。擴(kuò)展BNF記法雖然也使用括號(hào)“(”、“)”,但本發(fā)明實(shí)施形式中所用的語(yǔ)法樹(shù)不設(shè)與括號(hào)對(duì)應(yīng)的節(jié)點(diǎn),而是把括號(hào)確定的運(yùn)算順序反映到語(yǔ)法樹(shù)的結(jié)構(gòu)本身上。
函數(shù)proc是用來(lái)實(shí)現(xiàn)由語(yǔ)法樹(shù)生成地名表示網(wǎng)絡(luò)功能的函數(shù),取p與a兩個(gè)變數(shù)。變數(shù)p指定生成地名表示網(wǎng)絡(luò)的終端指針d的取值。變數(shù)a表示處理對(duì)象語(yǔ)法樹(shù)的最上位節(jié)點(diǎn)。當(dāng)對(duì)某個(gè)節(jié)點(diǎn)指定變數(shù)a時(shí),變數(shù)a以下的所有節(jié)點(diǎn)可按遞歸處理。
圖7為說(shuō)明函數(shù)proc處理操作的流程圖,圖8與9說(shuō)明由函數(shù)proc生成地名表示網(wǎng)絡(luò)的過(guò)程,圖10則示明據(jù)地名表示生成規(guī)則所生成的地名表示網(wǎng)絡(luò)組,下面對(duì)此進(jìn)行說(shuō)明。圖7中所示的p、q、r是表示圖4中所示形式的數(shù)據(jù)記錄的地址的變數(shù),符號(hào)“→”表示數(shù)據(jù)記錄中的數(shù)據(jù)項(xiàng)。此外,圖7中所示流程的處理,根據(jù)語(yǔ)法樹(shù)的節(jié)點(diǎn)a的種類(lèi)分為四種情形。
(1)判別語(yǔ)法書(shū)的節(jié)點(diǎn)a的種類(lèi),判定種類(lèi)是“+”、“|”、“[]”、“字符串”中的哪一種(步驟701)。
(2)步驟701的判定中語(yǔ)法樹(shù)的節(jié)點(diǎn)a的種類(lèi)是“+”,即結(jié)合情形,首先對(duì)變數(shù)q復(fù)制變數(shù)p。這就是說(shuō),復(fù)制由此處理生成的部分網(wǎng)絡(luò)的終端節(jié)點(diǎn)的地址(步驟702)。
(3)其次按從右開(kāi)始的順序由函數(shù)proc()處理語(yǔ)法樹(shù)的子節(jié)點(diǎn)ni,生成地名表示網(wǎng)絡(luò)的部分網(wǎng)絡(luò)。此時(shí),由函數(shù)proc()生成的部分網(wǎng)絡(luò)的終點(diǎn)便給出要成為q的變數(shù)。將由此結(jié)果生成的部分網(wǎng)絡(luò)始點(diǎn)的指針代入到q進(jìn)行修正,形成下一個(gè)生成部分網(wǎng)絡(luò)的終點(diǎn)。這樣,通過(guò)反復(fù)調(diào)用函數(shù)proc(),就能逐一地連接由語(yǔ)法樹(shù)的“+”的子節(jié)點(diǎn)生成的地名表示網(wǎng)絡(luò)的部分網(wǎng)絡(luò)(步驟703、704)。
(4)當(dāng)處理完全部的子節(jié)點(diǎn)時(shí),即把此時(shí)的q即部分網(wǎng)絡(luò)的起點(diǎn)作為返回值(步驟705)。
(5)當(dāng)根據(jù)步驟701的判定,語(yǔ)法樹(shù)的節(jié)點(diǎn)a的種類(lèi)為“|”即為選擇時(shí),首先從子節(jié)點(diǎn)之一n1生成部分網(wǎng)絡(luò),將所得的部分網(wǎng)絡(luò)的起始地址,代入變數(shù)q(步驟706)。
(6)然后,將q的值代入變數(shù)r,由其他子節(jié)點(diǎn)ni(2≤i≤子節(jié)點(diǎn)數(shù))順次生成部分網(wǎng)絡(luò)。生成的部分網(wǎng)絡(luò)的起始地址存儲(chǔ)于r的兄弟指針b中。再把所生成的部分網(wǎng)絡(luò)的起始地址代入r,然后反復(fù)進(jìn)行相同的處理(步驟707~710)。
(7)處理完所有的子節(jié)點(diǎn)后,把q亦即最早開(kāi)始的生成部分網(wǎng)絡(luò)的起始地址q作為返回值返回(步驟711)。
(8)當(dāng)根據(jù)步驟701的判定,語(yǔ)法樹(shù)的節(jié)點(diǎn)a的種類(lèi)為“[]”即為可選時(shí),首先生成與語(yǔ)法樹(shù)的子節(jié)點(diǎn)相對(duì)應(yīng)的部分網(wǎng)絡(luò),將其起始地址存儲(chǔ)于變數(shù)q中。此時(shí),為所生成的部分網(wǎng)絡(luò)的終端指定參數(shù),即為p。
(9)然后用函數(shù)newNd()生成對(duì)應(yīng)于NULL轉(zhuǎn)移的節(jié)點(diǎn),將其地址存儲(chǔ)于q的兄弟指針b中。此newNd()是把圖4所示形式的數(shù)據(jù)記錄的存儲(chǔ)區(qū)確保為一新的函數(shù),對(duì)于確保的數(shù)據(jù)記錄的數(shù)據(jù)項(xiàng),設(shè)定NULL指針(步驟713)。
(10)然后將NULL代入與NULL轉(zhuǎn)移相對(duì)應(yīng)的節(jié)點(diǎn)的字碼c中,再把p設(shè)定到與NULL轉(zhuǎn)移相對(duì)應(yīng)的節(jié)點(diǎn)的子節(jié)點(diǎn)指針d中(步驟714、715)。
(11)將最后生成的部分網(wǎng)絡(luò)的起始地址q作為返回值返回(步驟716)。
(12)當(dāng)根據(jù)步驟701的判定,語(yǔ)法樹(shù)的節(jié)點(diǎn)a的種類(lèi)為字符串時(shí),首先將p的值代入變數(shù)q(步驟717)。
(13)然后相對(duì)于字符串中各字符Ci(1≤i≤字符串長(zhǎng)),依照從字符串的末端起按順序重復(fù),逐一生成對(duì)應(yīng)于各字符串的節(jié)點(diǎn)。在此,首先由函數(shù)newNd()確保節(jié)點(diǎn)有一部分存儲(chǔ)區(qū)域。然后將Ci代入新生成的節(jié)點(diǎn)的字碼c中。再把q的值代入新生成的節(jié)點(diǎn)的子節(jié)點(diǎn)d中。繼而可以由新生成的節(jié)點(diǎn)的地址置換q的值(步驟718~722)。
(14)在相對(duì)于各字符Ci進(jìn)行完上述的處理后,將新生成的部分網(wǎng)絡(luò)的地址q作為返回值返回(步驟723)。
在示明由函數(shù)proc生成地名表示網(wǎng)絡(luò)的過(guò)程的圖8與9中,801為經(jīng)圖5所示流程中步驟503的處理,生成終端節(jié)點(diǎn)存儲(chǔ)標(biāo)識(shí)符“3501104”。然后,通過(guò)圖7所示流程中各步驟的處理,逐一生成圖8與9所示按從上到下順序所示的地名表示網(wǎng)絡(luò)。這樣,在由函數(shù)proc處理圖6中所示語(yǔ)法樹(shù)的節(jié)點(diǎn)603時(shí),首先由函數(shù)proc生成與節(jié)點(diǎn)602對(duì)應(yīng)的部分網(wǎng)絡(luò),生成802所示與節(jié)點(diǎn)602對(duì)應(yīng)的部分網(wǎng)絡(luò)。然后由函數(shù)proc生成與節(jié)點(diǎn)604對(duì)應(yīng)的部分網(wǎng)絡(luò)。這時(shí),p存儲(chǔ)節(jié)點(diǎn)804的地址,生成的部分網(wǎng)絡(luò)如803所示,與節(jié)點(diǎn)804連接。
根據(jù)圖5所示的流程控制循環(huán)501,對(duì)各地名字符串的生成規(guī)則,生成另外的地名網(wǎng)絡(luò)。結(jié)果,根據(jù)圖2地名表示生成規(guī)則生成的地名表示網(wǎng)絡(luò)組便生成為圖10所示形式,繼而通過(guò)步驟505的處理,合并此網(wǎng)絡(luò)組的冗余部分,例如合并琦玉県川越市的部分,生成據(jù)圖3說(shuō)明的地名表示網(wǎng)絡(luò)。
圖11是說(shuō)明用先有技術(shù)生成地名表示網(wǎng)絡(luò)的處理程序的流程圖,圖12說(shuō)明由先有技術(shù)生成的地名表示網(wǎng)絡(luò)的生成過(guò)程,圖13例示由先有技術(shù)生成的地名表示網(wǎng)絡(luò),下面參考這些
不用生成規(guī)則時(shí)的地名表示網(wǎng)絡(luò)生成方法。
在此之所以說(shuō)明先有技術(shù),其理由是,根據(jù)先有的地名字符串的表示方法,只能生成稱(chēng)作為線索的樹(shù)結(jié)構(gòu)的地名表示網(wǎng)絡(luò),而根據(jù)本發(fā)明的表示方法所生成的地名表示網(wǎng)絡(luò),在存儲(chǔ)容量和核對(duì)所需處理時(shí)間方面與之相比都是優(yōu)越的。根據(jù)先有技術(shù)表現(xiàn)地名表示的技巧是羅列出圖2(B)所示的地名字符串,而根據(jù)圖11所說(shuō)明的流程則是根據(jù)這種羅列的單詞來(lái)生成地名表示網(wǎng)絡(luò)的程序。在此設(shè)圖2(B)中的第k個(gè)字符串為Sk,其長(zhǎng)度為L(zhǎng)k,而各字符串的第i個(gè)字符為Ci。對(duì)應(yīng)于各字符串的標(biāo)識(shí)符則另外進(jìn)行存儲(chǔ)。這樣,生成的地名表示網(wǎng)絡(luò)便以圖4所示數(shù)據(jù)形式實(shí)現(xiàn)。
(1)首先生成成為地名表示網(wǎng)絡(luò)虛擬的根的節(jié)點(diǎn)rr。對(duì)此節(jié)點(diǎn)的子節(jié)點(diǎn)指針d設(shè)定NULL(步驟1101、1102)。
(2)由循環(huán)1103逐一處理所有的字符串Sk。
(3)首先將根的地址代入變數(shù)p。然后對(duì)字符串中的每個(gè)字符,調(diào)用子程序SrchNxt。子程序SrchNxt判斷與各字符相對(duì)應(yīng)的節(jié)點(diǎn)是否已生成,在沒(méi)有生成時(shí),即追加新的節(jié)點(diǎn)的處理程序,此處理程序?qū)⒂谝院竺枋?步驟1104~1106)。
(4)設(shè)子程序SrchNxt已處理完字符串中的字符,則由函數(shù)newNd()生成新的子節(jié)點(diǎn)。將此字符串的標(biāo)識(shí)符存儲(chǔ)于指針b的區(qū)域,進(jìn)而將此新的子節(jié)點(diǎn)的地址代入p的子節(jié)點(diǎn)指針d中。在循環(huán)1103終結(jié)時(shí)刻,rr的子節(jié)點(diǎn)便成為地名表示網(wǎng)絡(luò)的根(步驟1107~1110)。
下面說(shuō)明子程序SrchNxt的處理。
(1)首先將p的子節(jié)點(diǎn)d的值代入變數(shù)q,然后進(jìn)行循環(huán)處理,由變數(shù)q掃描所有p的子節(jié)點(diǎn),檢查相應(yīng)的字碼即數(shù)據(jù)項(xiàng)c是否與Ci相等。如果相等,則看作是業(yè)已生成了對(duì)應(yīng)于Ci的節(jié)點(diǎn),將指針p移至其節(jié)點(diǎn)q(步驟1111、1113~1115,循環(huán)1112)。
(2)若在步驟113檢查出數(shù)據(jù)項(xiàng)c不等于Ci,即將q的兄弟指針值代入q,重復(fù)循環(huán)處理直到q為NULL。
(3)在循環(huán)處理后仍未發(fā)現(xiàn)與Ci對(duì)應(yīng)的節(jié)點(diǎn)時(shí),則由函數(shù)newNd()生成新的節(jié)點(diǎn),分別將Ci代入新的節(jié)點(diǎn)字碼c、將NULL代入子節(jié)點(diǎn)指針d、將p的節(jié)點(diǎn)指針d的值代入兄弟指針b、將p的子節(jié)點(diǎn)指針d代入此新節(jié)點(diǎn)的地址、將新的子節(jié)點(diǎn)的地址代入指針p而結(jié)束此子程序的處理(步驟1117~1122)。
圖12示明根據(jù)上述圖11的處理程序生成地名表示網(wǎng)絡(luò)的過(guò)程。這里所舉的例是圖2(B)的前三行的處理過(guò)程。首先,開(kāi)始時(shí)生成與“川越市小ケ谷”對(duì)應(yīng)的地名表示網(wǎng)絡(luò)(1201)。然后處理“川越市笠幡”,由于“川越市”的部分已由1201生成,因而不生成新的節(jié)點(diǎn)。但當(dāng)指針p到達(dá)1202所示位置,處理字符“笠”時(shí),與“笠”相當(dāng)?shù)墓?jié)點(diǎn)不在“市”的子節(jié)點(diǎn)處。于是,作為“小”的兄弟節(jié)點(diǎn)新生成相當(dāng)于“笠”的節(jié)點(diǎn)。下面將對(duì)應(yīng)于剩余字符“幡”的節(jié)點(diǎn)作為新生成的節(jié)點(diǎn)的子節(jié)點(diǎn)連接(1203)?!按ㄔ绞邢聨诠取钡那樾我沧魍瑯犹幚?,把對(duì)應(yīng)于“下”的節(jié)點(diǎn)新生成為“小”、“笠”的兄弟,連接與以后字符相對(duì)應(yīng)的節(jié)點(diǎn)(1205)。
圖13概示根據(jù)圖2(B)中所記相異表示組生成的地名表示網(wǎng)絡(luò)的一部分,但本例與圖3所示情形不同,由先有表示方法生成的地名表示網(wǎng)絡(luò)為樹(shù)的形式,即成為一旦分岔后不會(huì)再合流的形式。這是現(xiàn)知稱(chēng)作為線索的數(shù)據(jù)表示形式。與圖3相比較,可知冗余部分多。例如與“東田”、“東関”、“西関”相對(duì)應(yīng)的部分網(wǎng)絡(luò),有六次重復(fù)。這意味著需要增大存儲(chǔ)容量,在采用分層存儲(chǔ)器結(jié)構(gòu)的計(jì)算機(jī)中,當(dāng)存取的存儲(chǔ)器空間增大,就會(huì)由于超高速緩沖存儲(chǔ)器的誤操作等致存取延遲,而且也會(huì)使后述的字符核對(duì)處理本身延遲。
根據(jù)本發(fā)明,能生成圖3所示的余度小的地名表示網(wǎng)絡(luò),這是根據(jù)生成規(guī)則求得地名單詞表示的本質(zhì)優(yōu)點(diǎn)。利用這種生成規(guī)則,能明確地表示冗余的地點(diǎn)。例如在圖2(A)所示情形?!靶ˉ龉取钡摹哎觥庇腥N相異表示,但“ヶ”以下的字符串根據(jù)BNF記法所示為相同的。因此如圖3所示,生成了只是在“小”與“谷”之間有三條路徑的網(wǎng)絡(luò)。
與此相反,圖2(B)中所示先有地名字符串的表示方法,不能探測(cè)出“ヶ”以下的相異表示組是否等價(jià),便不能生成圖13所示的網(wǎng)絡(luò)。
圖14是說(shuō)明圖1所示地名識(shí)別處理104的處理操作的流程圖,下面對(duì)此進(jìn)行說(shuō)明。
(1)首先根據(jù)輸入圖像進(jìn)行的字符分離處理,分離字符串部分的圖像(步驟1401)。
(2)其次,通過(guò)文字分離處理,分離出能根據(jù)字符串圖像來(lái)推測(cè)字符的圖案即候補(bǔ)的圖案。在此階段不能唯一地確定字符界時(shí),根據(jù)多個(gè)字符分界的假設(shè),嘗試字符圖案的分離,輸出對(duì)應(yīng)于各個(gè)假設(shè)的候補(bǔ)字符圖案(步驟1402)。
(3)再其次,通過(guò)字符識(shí)別處理,識(shí)別所切出的各個(gè)候補(bǔ)圖案是什么樣的字符,作為候補(bǔ)字符串輸出。在字符分離時(shí)是根據(jù)多種假設(shè)時(shí),而且當(dāng)字符識(shí)別結(jié)果是相對(duì)于一種圖案輸出多個(gè)候補(bǔ)字符時(shí),則字符識(shí)別處理對(duì)應(yīng)于各種分離與候補(bǔ)字符的組合而輸出多個(gè)候補(bǔ)字符串(步驟1403)。
(4)最后,根據(jù)字符串核對(duì)處理,參照地名表示網(wǎng)絡(luò),核對(duì)各候補(bǔ)字符串能否成為正確的地名字符串。把核對(duì)后受理的候補(bǔ)字符串作為地名識(shí)別結(jié)果(步驟1404)。
圖15是說(shuō)明上述字符串核對(duì)處理1404的處理操作的流程圖,下面對(duì)此進(jìn)行說(shuō)明。這種處理是把一種字符串作為輸入,判定輸入字符串的至少一部分能否作為地名字符串受理,要是能受理,即進(jìn)行求相應(yīng)的該地名表示標(biāo)識(shí)符的處理。在此以輸入字符串的長(zhǎng)度為L(zhǎng),以字符串的第i個(gè)字符為Ci。
(1)首先根據(jù)循環(huán)1501,使核對(duì)的起點(diǎn)s從1變到L,同時(shí)重復(fù)步驟1502、1503。
(2)將地名表示網(wǎng)絡(luò)的根地址設(shè)定到指示節(jié)點(diǎn)的變數(shù)p中。然后給定變數(shù)p與s,調(diào)用函數(shù)srch。函數(shù)srch是發(fā)現(xiàn)與從地名表示網(wǎng)絡(luò)中輸入字符串相一致的路徑,令其終端節(jié)點(diǎn)的地址返回的函數(shù)。srch的返回值若不是NULL指針,則可視作為核對(duì)成功,而輸出存儲(chǔ)于函數(shù)Srch的返回值所示節(jié)點(diǎn)中的標(biāo)識(shí)符(步驟1502~1504)。
(3)若s到達(dá)L而核對(duì)沒(méi)有成功,則字符串核對(duì)處理失敗,結(jié)束處理(步驟1505)。
在前述處理中,函數(shù)srch還遞歸地調(diào)用自身,深度優(yōu)先搜索與從地名表示網(wǎng)絡(luò)中輸入的字符串相一致的路徑。函數(shù)srch取變數(shù)p以及i的兩個(gè)變數(shù)。變數(shù)p指示開(kāi)始搜索的節(jié)點(diǎn)。此外,變數(shù)i是整數(shù),表示當(dāng)前處理中所注意的是輸入字符串中的第幾個(gè)字符。在發(fā)現(xiàn)受理的字符串時(shí),函數(shù)srch返回該字符串的終端的節(jié)點(diǎn)地址,而在未發(fā)現(xiàn)受理的字符串時(shí),返回NULL指針。
圖16是說(shuō)明前述處理中函數(shù)srch的處理操作的流程圖,下面對(duì)此進(jìn)行說(shuō)明。
(1)首先檢查變數(shù)p是否指示字符串的終接節(jié)點(diǎn)。如果是,即在指示字符串終接節(jié)點(diǎn)時(shí),視輸入字符串為已受理過(guò),以p作為返回值,結(jié)束處理(步驟1601)。
(2)其次,判定是否所有字符都處理完。當(dāng)i比L大,盡管所有字符c處理完,但在p未到達(dá)地名表示網(wǎng)絡(luò)的終端時(shí),返回NULL(步驟1602)。
(3)再其次,檢查p的數(shù)據(jù)項(xiàng)c是否與字符串的第i個(gè)字符Ci一致。若是一致,則將p的子節(jié)點(diǎn)p→d作為搜索起點(diǎn)。為處理從第i+1開(kāi)始的字符串,遞歸地調(diào)用函數(shù)srch。若此返回值r不是NULL,則視字符串為已受理的,把r作為返回值,結(jié)束處理(步驟1603)。
(4)再行檢查p是否指示對(duì)應(yīng)NULL轉(zhuǎn)移的節(jié)點(diǎn)。若是,把p的子節(jié)點(diǎn)p→d作為搜索起點(diǎn),為了處理從第i個(gè)開(kāi)始的字符串,遞歸地調(diào)用函數(shù)srch。若此返回值r不是NULL,則視字符串為已受理的,以r為返回值,結(jié)束處理(步驟1604)。
(5)再后考察在p上是否連接兄弟接點(diǎn)p→b。若是已連接,則將p的兄弟節(jié)點(diǎn)p→b作為搜索起點(diǎn),為處理從第i個(gè)開(kāi)始的字符串,遞歸地調(diào)用函數(shù)srch,將此返回值返回到上一層(步驟1065)。
(6)假如不論是上述任一種處理,輸入的字符串都未被受理,由于不能進(jìn)行在此之上的探索,把NULL作為返回值結(jié)束處理(步驟1606)。
至此所說(shuō)明的本發(fā)明的實(shí)施形式是按照字符分離、字符識(shí)別、字符串核對(duì)的順序進(jìn)行說(shuō)明的,但本發(fā)明也可如古賀他“地址讀取裝置和郵件等分檢機(jī)與字符識(shí)別方法”(特愿平10-28077號(hào)公報(bào))所述,容易將字符串核對(duì)結(jié)果處理擴(kuò)展應(yīng)用到反饋到文字分離的方式。
圖17為框圖,例示應(yīng)用本發(fā)明實(shí)施形式的地名字符識(shí)別處理系統(tǒng)的結(jié)構(gòu),圖18則是示明地名字符串生成規(guī)則編集裝置的結(jié)構(gòu)的框圖。這一系統(tǒng)的例子是把本發(fā)明應(yīng)用于郵件分檢系統(tǒng)的例子。在圖17與18中,1701為郵件分檢機(jī)、1702為掃描器、1703為數(shù)據(jù)轉(zhuǎn)接線、1704為分選機(jī)、1705為地名識(shí)別裝置、1706為輸入用接口、1707為運(yùn)算處理裝置、1708為輸出用處理裝置、1710為存儲(chǔ)器、1711為網(wǎng)絡(luò)接口、1712為硬盤(pán)、1713為可裝卸介質(zhì)的存儲(chǔ)裝置、1714為地名字符串生成規(guī)則編輯裝置、1718為網(wǎng)絡(luò)、1801為鼠標(biāo)、1802為鍵盤(pán)、1803為顯示器、1804為地名字符串生成規(guī)則編輯程序、1805為字符串核對(duì)程序、1806為地名表示網(wǎng)絡(luò)的表示程序、1807為地名字符串生成規(guī)則文件、1808為地名表示網(wǎng)絡(luò)的生成程序、1809為地名表示網(wǎng)絡(luò)數(shù)據(jù)、1810為通信裝置、1811為可裝卸介質(zhì)的存儲(chǔ)裝置、1812為計(jì)算機(jī)。
圖17所示系統(tǒng)由一臺(tái)或多臺(tái)郵件分檢機(jī)1701、一臺(tái)或多臺(tái)地名字符串生成規(guī)則編輯裝置1714與網(wǎng)絡(luò)1718相連接構(gòu)成。郵件分檢機(jī)1701由掃描器1702、顯示器1703、分選機(jī)1704、地名識(shí)別裝置1705構(gòu)成。此外,地名識(shí)別裝置1705則包括輸入用接口1706、運(yùn)算處理裝置1707、輸出用處理裝置1708、存儲(chǔ)器1710、網(wǎng)絡(luò)接口1711、硬盤(pán)1712、可裝卸介質(zhì)的存儲(chǔ)裝置1713。圖中的粗線表示郵件流。
在圖17所示的系統(tǒng)中,由掃描器1702輸入的記載于郵件上的地名的圖像信息,轉(zhuǎn)送給地名識(shí)別裝置1705。然后,在郵件沿轉(zhuǎn)接線1703傳送期間,地名識(shí)別裝置1705識(shí)別郵件上記載的地名,將識(shí)別結(jié)果轉(zhuǎn)送給分選機(jī)1704。分選機(jī)1704根據(jù)識(shí)別結(jié)果區(qū)分郵件。
在郵件分檢的準(zhǔn)備階段,起動(dòng)運(yùn)算裝置,由地名識(shí)別裝置1705從硬盤(pán)1712將地名表示網(wǎng)絡(luò)生成程序文件寫(xiě)入存儲(chǔ)器1710。在地名表示網(wǎng)絡(luò)生成程序的控制下,地名識(shí)別裝置1705從地名字符串生成規(guī)則編輯裝置1714,通過(guò)網(wǎng)絡(luò)接口1711輸入地名字符串生成規(guī)則,制成地名表示網(wǎng)絡(luò)文件,存儲(chǔ)于硬盤(pán)1712中。
地名字符串生成規(guī)則也可代替通過(guò)網(wǎng)絡(luò)從地名字符串生成規(guī)則編輯裝置1714輸入,而由軟盤(pán)驅(qū)動(dòng)器等可裝卸介質(zhì)的存儲(chǔ)裝置1713寫(xiě)入。
地名識(shí)別裝置1705在區(qū)分郵件時(shí),通過(guò)運(yùn)算裝置1807進(jìn)行從硬盤(pán)1712將識(shí)別程序文件與地名表示網(wǎng)絡(luò)文件寫(xiě)入存儲(chǔ)器1710的處理。這樣,地名識(shí)別裝置1705在識(shí)別程序控制下,從輸入接口1706輸入圖像,識(shí)別郵件上記載的地名,通過(guò)輸出接口1708輸出識(shí)別結(jié)果。
地名字符串生成規(guī)則編輯裝置1714,如圖18所示,于計(jì)算機(jī)1812中,由鼠標(biāo)1801、鍵盤(pán)1802、顯示器1803、存儲(chǔ)有地名字符串生成規(guī)則文件1807的硬盤(pán)裝置、通信裝置1810、可裝卸介質(zhì)的存儲(chǔ)裝置1811構(gòu)成。編輯作業(yè)則通過(guò)于計(jì)算機(jī)1812上操作地名字符串生成規(guī)則編輯程序1804,編輯地名字符串生成規(guī)則文件1807來(lái)進(jìn)行。地名字符串生成規(guī)則文件1807是文本文件,編輯可用通常的文本編輯程序。此外,可于計(jì)算機(jī)1812上執(zhí)行地名表示網(wǎng)絡(luò)生成程序1808、從地名字符串生成規(guī)則文件1807生成地名表示網(wǎng)絡(luò)1809。
地名字符串生成規(guī)則編輯裝置1714,根據(jù)前述功能能夠確認(rèn)編輯中的地名單詞生成規(guī)則文法上是否正確,進(jìn)而執(zhí)行與識(shí)別處理中的字符串核對(duì)1404等價(jià)的程序1805,可以確認(rèn)從鍵盤(pán)1803輸入的試驗(yàn)用字符串是否被受理。
此外,計(jì)算機(jī)1812由于執(zhí)行了用來(lái)以例如圖3所示形式表示的地名表示網(wǎng)絡(luò)1809的地名表示網(wǎng)絡(luò)表示程序1806,操作者可憑視覺(jué)確認(rèn)編輯結(jié)果。編輯結(jié)果的地名字符串生成規(guī)則文件1807經(jīng)通信裝置1810傳送給地名識(shí)別裝置1705,或通過(guò)介質(zhì)可裝卸的存儲(chǔ)裝置1811復(fù)制到軟盤(pán)等可裝卸的存儲(chǔ)介質(zhì)上,由存儲(chǔ)介質(zhì)輸送給郵件分檢機(jī)1701。
圖19是示明本發(fā)明其他實(shí)施形式結(jié)構(gòu)的框圖,圖20說(shuō)明顯示于顯示器上的圖像例。本例是利用本發(fā)明地名字符串的表示方法和地名核對(duì)方式,根據(jù)表示地名的字符串來(lái)檢索有關(guān)地名信息的地名錄裝置。圖19中,1901為鼠標(biāo)、1902為鍵盤(pán)、1903為顯示器、1904為打印機(jī)、1905為輸入文件、1906為輸出文件、1907為地名錄程序、1908為地名附加信息文件、1909為地名字符串生成規(guī)則文件、1910為通信模塊、1911為接口模塊、1912為地名表數(shù)據(jù)、1913為地名表分類(lèi)模塊、1914為地名信息檢索模塊、1915為地名表示擴(kuò)展模塊、1918為地名表示網(wǎng)絡(luò)生成程序、1919為地名表示網(wǎng)絡(luò)數(shù)據(jù)。
圖19所示裝置用于提供以下服務(wù)。
(1)顯示或打印從鍵盤(pán)輸入的地名字符串的標(biāo)準(zhǔn)形。
(2)顯示或打印與鍵盤(pán)輸入的地名字符串的相異表示。
(3)顯示或打印與鍵盤(pán)輸入的地名字符串相對(duì)應(yīng)的地區(qū)信息(郵政編號(hào)等)。
(4)將由文件輸入的地名字符串變換為標(biāo)準(zhǔn)形式郵政編號(hào)等相應(yīng)地區(qū)所固有的信息,輸出給文件。
(5)將由網(wǎng)絡(luò)輸入的地名字符串變換為標(biāo)準(zhǔn)形式郵政編號(hào)等相應(yīng)地區(qū)所固有的信息,輸出給網(wǎng)絡(luò)。
上面述及的標(biāo)準(zhǔn)形例如是表示由行政區(qū)分確定的某個(gè)地區(qū)的正式字符串。
圖19所示的實(shí)施形式是在計(jì)算機(jī)上執(zhí)行地名錄程序1907中,將鼠標(biāo)1901、鍵盤(pán)1902、顯示器1903、打印機(jī)1904、輸入文件1905、輸出文件1906、地名附加信息文件1908、地名字符串生成規(guī)則文件1909連接構(gòu)成。顯示與輸入/輸出通過(guò)接口模塊1911進(jìn)行。當(dāng)輸入檢索對(duì)象的字符串時(shí),地名信息檢索模塊1914調(diào)用字符串核對(duì)模塊1916。字符串核對(duì)模塊1916是執(zhí)行與圖14中字符串核對(duì)處理1404等效處理的模塊,參考由地名表示生成規(guī)則文件1909所生成的地名表示網(wǎng)絡(luò)生成程序1918所生成的地名表示網(wǎng)絡(luò)1919,檢查輸入字符串是否對(duì)應(yīng)于某種標(biāo)識(shí)符的地名表示。
地名信息檢索模塊1914以所得的標(biāo)識(shí)符為關(guān)鍵字碼,根據(jù)地名附加信息文件1908檢索標(biāo)準(zhǔn)形和郵政編號(hào)等附加信息。此外,地名表示擴(kuò)展模塊1917則列出從地名表示網(wǎng)絡(luò)數(shù)據(jù)1919可能得到的所有相異表示。所得到的相異表示存儲(chǔ)于地名表數(shù)據(jù)1912中,必要時(shí)可通過(guò)接口模塊1911輸出。地名表分類(lèi)模塊1913根據(jù)操作者的指令,將相異表示組的順序排列替換地輸出。用于這種處理的輸入可以通過(guò)鍵盤(pán)1901、輸入文件1905、通信模塊1910中任何一個(gè)進(jìn)行。此外,輸出則可以通過(guò)顯示器1904、輸出文件1906、通信模塊1910的任一個(gè)進(jìn)行。
圖20所示的圖19實(shí)施形式的顯示器1903所示圖像中,圖20(A)所示的例是操作者輸入“川越市小ケ谷”這樣的字符串,于進(jìn)行檢索時(shí)在顯示器1903上顯示的圖像例。輸入的字符串輸入到域2005中,由鼠標(biāo)點(diǎn)觸按鈕2006進(jìn)行檢索。輸入的結(jié)果經(jīng)判別為對(duì)應(yīng)于輸入的字符串的字符串則顯示于窗口2007中。在各行的“標(biāo)準(zhǔn)”項(xiàng)中表明該字符串是否為標(biāo)準(zhǔn)形。項(xiàng)的“地名”表示該字符串。在“郵政編號(hào)”項(xiàng)中雖然表示的是與該字符串相對(duì)應(yīng)的郵政編號(hào),但也可表示該地區(qū)的其他附加信息。
在區(qū)域2004中并列著“標(biāo)準(zhǔn)”、“地名”、“郵政編號(hào)”的框成為按鈕,通過(guò)由鼠標(biāo)點(diǎn)擊各按鈕,指令根據(jù)各項(xiàng)進(jìn)行行的排列替換。窗口2008是用于指定可選性檢索的。在此指定只顯示標(biāo)準(zhǔn)形,或顯示基于字、大字等的相異表示組,或顯示基于通稱(chēng)名(“**用地”等)的相異表示組。按鈕2002是用于指令打印顯示內(nèi)容的按鈕,按鈕2001是替代鍵盤(pán)與顯示器用于使文件相對(duì)于輸入/輸出方式變換的鈕。按鈕2003則是用于指令結(jié)束程序的按鈕。
圖20(B)中打開(kāi)的窗口2009是顯示核對(duì)結(jié)果所得地名的讀法、小字、郵政編號(hào)等詳細(xì)信息的窗口。此窗口2009是通過(guò)由鼠標(biāo)點(diǎn)擊窗口2007上顯示的檢索結(jié)果而起動(dòng)的。
此外,本發(fā)明實(shí)施形式的表示方法所表示的地名字符串,可以作為地名辭典存儲(chǔ)于FD、MO、DVD等的存儲(chǔ)介質(zhì)中。
權(quán)利要求
1.一種地名表示方法,在表示地區(qū)的地名由雖是相異的字符串而由意指同一地區(qū)的單詞排列來(lái)表現(xiàn)的情況下,用來(lái)表現(xiàn)具有這多個(gè)相異表示的地名字符串集合,其特征在于,對(duì)于構(gòu)成地名字符串的一部分或全部的各個(gè)部分字符串,定義字符或語(yǔ)法類(lèi)別的排列,通過(guò)由字符或已定義的語(yǔ)法類(lèi)別排列所組成的語(yǔ)法類(lèi)別排列,來(lái)表示地名字符串。
2.權(quán)利要求1所述的地名表示方法,其特征在于,采用表示語(yǔ)法類(lèi)別能否置換為另外某種字符或語(yǔ)法類(lèi)別序列的置換符號(hào),以及示明某種語(yǔ)法類(lèi)別表示特定地區(qū)的地名符號(hào),來(lái)表示上述地名字符串。
3.一種地名字符串核對(duì)方法,其特征在于,通過(guò)判斷輸入字符串中的部分字符串,與預(yù)先給出的、對(duì)于構(gòu)成地名字符串的一部分或全部的每個(gè)部分字符串定義字符或語(yǔ)法類(lèi)別的排列中的、由字符或已定義的語(yǔ)法類(lèi)別的排列所組成的語(yǔ)法類(lèi)別所表示的地名字符串之一是否相一致,由此來(lái)核對(duì)輸入字符中的地名。
4.一種地名字符串核對(duì)裝置,其特征在于,此裝置備有對(duì)于構(gòu)成地名字符串的一部分或全部的每個(gè)部分字符串,定義字符或語(yǔ)法類(lèi)別的排列,對(duì)由字符或已定義的語(yǔ)法類(lèi)別的排列組成的語(yǔ)法類(lèi)別所表示的地名字符串進(jìn)行存儲(chǔ)的存儲(chǔ)裝置;輸入字符串的輸入裝置;核對(duì)輸入的字符串是否為前述存儲(chǔ)裝置中已存儲(chǔ)的地名字符串的核對(duì)裝置;以及輸出核對(duì)結(jié)果的裝置。
5.一種地名字符串識(shí)別裝置,其特征在于,具有將文件表面的顏色深淺變換為電信號(hào)而得到的圖像作為輸入來(lái)讀取文件上記載的字符的字符讀取裝置;權(quán)利要求4所述的地名字符串核對(duì)裝置;前述地名字符串核對(duì)裝置中的輸入裝置輸入來(lái)自此上述字符讀取裝置的字符串。
6.一種郵件分檢系統(tǒng),其特征在于,應(yīng)用權(quán)利要求5所述的地名字符串識(shí)別裝置,識(shí)別郵件地址名中的地名字符串,區(qū)分郵件,或把識(shí)別結(jié)果打印到郵件上。
7.一種地名字符串記錄介質(zhì),其特征在于,在表示地區(qū)的地名由雖為相異字符串而意指同一地區(qū)的單詞排列表現(xiàn)的情況下,對(duì)具有多個(gè)這種相異表示的地名字符串的每一個(gè),通過(guò)對(duì)構(gòu)成地名字符串的一部分或全部的部分字符串的每一個(gè)定義字符或語(yǔ)法類(lèi)別的排列,用字符或已定義的語(yǔ)法類(lèi)別的排列組成的語(yǔ)法類(lèi)別表示,并加以存儲(chǔ)。
8.一種地名字符串識(shí)別裝置,其特征在于,具有將文件表面的顏色深淺變換為電信號(hào)而得到的圖像作為輸入讀取文件上記載的字符的字符讀取裝置;應(yīng)用權(quán)利要求1所述地名表示方法存儲(chǔ)地名字符串的裝置;上述輸入圖像中的部分圖像的排列中,通過(guò)發(fā)現(xiàn)各部分圖像與由上述地名表示表明的地名字符串之一中所含各字符類(lèi)似而來(lái)識(shí)別地名的裝置。
9.一種地名表示方法,在表示地區(qū)的地名雖是相異的字符串而由意指同一地區(qū)的單詞排列來(lái)表現(xiàn)的情形下,用來(lái)表現(xiàn)具有這多個(gè)相異表示的地名字符串的集合,其特征在于,通過(guò)單詞或單詞部分組成的部分字符串的生成規(guī)則來(lái)表現(xiàn)地名字符串集合。
全文摘要
本發(fā)明在地名表示中有眾多相異表示時(shí),能以很少人力編制成涵蓋所有地名字符串的地名詞典并能進(jìn)行高速核對(duì)處理。本發(fā)明將作為上下文無(wú)關(guān)文法的生成規(guī)則表現(xiàn)方法之一的BNF記法擴(kuò)展成適用于地名表示從而表現(xiàn)地名的相異表示。據(jù)生成規(guī)則能把典型的相異表示字符圖案如ケ、ケ、ガ定義為語(yǔ)法類(lèi)別,得以簡(jiǎn)潔地表現(xiàn)地名相異表示集。進(jìn)而通過(guò)應(yīng)用BNF記法所用的選擇記號(hào),可更簡(jiǎn)潔地表現(xiàn)地名的相異表示。用生成規(guī)則表現(xiàn)地名的相異表示,用生成規(guī)則獲得的網(wǎng)絡(luò)作識(shí)別處理。
文檔編號(hào)H05K7/06GK1287317SQ0011878
公開(kāi)日2001年3月14日 申請(qǐng)日期2000年6月29日 優(yōu)先權(quán)日1999年7月1日
發(fā)明者古賀昌史, 古川直広, 池田尚司, 緒方日佐男, 酒匂裕, 藤澤浩道 申請(qǐng)人:株式會(huì)社日立制作所