專利名稱:字形特征字典制作裝置及具備該裝置的文檔圖像處理裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及將文檔作為圖像來輸入并存儲的字形特征字典制作裝置 以及具備該裝置的文檔圖像處理裝置,特別是涉及具有對于所存儲的文檔 圖像的檢索功能的文檔圖像處理裝置。
背景技術(shù):
一種利用圖像掃描儀等圖像輸入裝置將文檔轉(zhuǎn)換成圖像,并以電子方 式進行存儲,且在之后可以檢索的文檔歸檔裝置已得到實用化。關(guān)于這樣
的文檔歸檔裝置的技術(shù),已公開在中國專利申請公開公才艮CN1402854A、 中國專利申請/>開公才艮CN1535430A、以及中國專利申請7>開>^才艮 CN1851713A中。
在對于作為圖像數(shù)據(jù)而讀取的文檔圖像進行檢索時,需要進行對各文 檔圖^la工附加用于檢索的索引信息的作業(yè),因而非常消耗勞力。
另外,還提出了一種定位文檔圖像的文字區(qū)域(文本區(qū)域),進行 OCR (Optical Character Reader)識別,并可利用文本內(nèi)容進行全文檢索 的裝置。作為利用了 ocr識別的以往技術(shù),例如有日本專利申請公開公 凈艮特開平7-152774號所述的技術(shù)。
然而,在ocr識別中存在著需要進行大量的計算而消耗時間的問題。 并且,由于文字識別率不高,所以還存在著因誤識別而檢索不到的可能性, 在檢索精度上存在問題。
另一方面,在日本專利申請公開公報特開平10-74250號公報中,公 開了一種不使用ocr識別,而可自動進行全文檢索的技術(shù)。
上述公,報的構(gòu)成中,準備好將預(yù)先利用圖像特征對文字進行類似的每 一個文字分類到類似文字類別中的類別字典。然后,在登記文檔圖像時, 對文本區(qū)域(文字區(qū)域)的各文字不進行文字識別,而抽出圖像特征,并 根據(jù)圖像特征分類到文字類別中,將對按照每一個文字識別出來的類別列 與輸入圖像一同儲存。在進行檢索時,將檢索關(guān)鍵詞的各文字轉(zhuǎn)換為對應(yīng)
的類別,且將在一部分中包含被轉(zhuǎn)換的類別列的文檔圖4象作為檢索結(jié)果取 出。
而且,作為基于該構(gòu)成的效果,記載了可提供一種在文檔登記時能夠 以少的計算機能力高速地進行登記處理,并且在檢索時可實現(xiàn)遺漏少的檢 索的文檔歸檔裝置。
這些特征抽出方法,根據(jù)成為對象的文字的種類等的不同,有時可以
充分地抽出特征,有時不能抽出特征。由此,存在以下的問題根據(jù)選擇 的抽出方法的不同,使辭典的制作及文檔圖像的特征抽出變得不充分,其 結(jié)果涉及文^索的檢索精度也不能得到充分的效果。
發(fā)明內(nèi)容
本發(fā)明的目的是,提供對文字的特征抽出方法進行改進,使檢索精 度進一步提高的字形特征字典制作裝置及具備該裝置的文檔圖像處理 裝置。
本發(fā)明是一種字形特征字典制作裝置,其特征在于,具有抽出部, 根據(jù)兩個或兩個以上特征抽出方法,以一個文字為單位抽出文字圖像的圖 像特征;計算部,將按照每個特征抽出方法抽出的圖像特征進行矢量化的 同時,合成每個特征抽出方法的特征矢量并計算出合成矢量;存儲部,將 計算出的合成矢量作為圖像特征以一個文字為單位進行儲存。
根據(jù)本發(fā)明,抽出部根據(jù)兩個或兩個以上特征抽出方法,以一個文 字為單位抽出文字圖像的圖像特征。計算部,將按照每個特征抽出方法 抽出的圖像特征進行矢量化的同時,合成每個特征抽出方法的特征矢量 并計算出合成矢量。將計算出的合成矢量作為圖像特征以一個文字為單
位儲存在存儲部中。
由此,可以儲存基于兩個或兩個以上特征抽出方法的圖像特征,因 此,通過將制作的字形特征字典用于檢索來可提高檢索精度。
另外,本發(fā)明的特征在于,上述計算部基于按照每個特征抽出方法 決定的權(quán)重對每個特征抽出方法的特征矢量進行加權(quán),合成#>權(quán)后的特 征矢量并計算出合成矢量。
另外,根據(jù)本發(fā)明,上述計算部,基于按照每個特征抽出方法決定
的權(quán)重對每個特征抽出方法的特征矢量進行加權(quán),合成被加權(quán)后的特征 矢量并計算出合成矢量。
通過加權(quán),可以計算出將基于兩個或兩個以上特征抽出方法的特征 矢量以最優(yōu)的比例合成后的合成矢量。
另外,本發(fā)明的特征在于,上述計算部,根據(jù)文字圖像的字體種類 來設(shè)定上述權(quán)重,計算出每個字體種類的合成矢量,并從每個字體種類 的合成矢量中決定一個代表矢量,
上述存儲部,將所決定的代表矢量作為圖像特征進行儲存。
根據(jù)本發(fā)明,上述計算部,根據(jù)文字圖像的字體種類來設(shè)定上述權(quán) 重,并計算出每個字體種類的合成矢量。進而從按照每個字體種類計算 出的合成矢量中決定一個代表矢量,并將該代表矢量作為圖像特征進行 儲存。
由此,可以不受檢索對象的文字的字體種類的影響,進一步提高檢 索精度。
另外,本發(fā)明的特征在于,上述計算部,依照學(xué)習(xí)矢量量化方法, 來決定代表矢量。
根據(jù)本發(fā)明,上述計算部,可以依照學(xué)習(xí)矢量量化方法來決定代表 矢量。
另外,本發(fā)明的特征在于,上述兩個或兩個以上特征抽出方法,是 文字圖像外圍特征抽出方法、網(wǎng)格方向特征抽出方法及分布方向特征抽 出方法。
根據(jù)本發(fā)明,作為上述兩個或兩個以上特征抽出方法,可以使用文 字圖像外圍特征抽出方法、網(wǎng)格方向特征抽出方法及分布方向特征抽出 方法。
另外,本發(fā)明是一種文檔圖像處理裝置,其特征在于,具有字形特
征字典,其由權(quán)利要求l所述的字形特征字典制作裝置制作;
文字列抽出部,其以由兩個或兩個以上文字構(gòu)成的文字列為單位,抽
取出所輸入的文檔圖像中存在的文字圖像; 圖像特征抽出部,其將由上述文字列抽出部抽取出的文字列的文字圖 像按單個文字進行分割,并抽出各文字圖像的圖像特征來作為上述合成矢
量;
特征匹配部,其以由上述圖像特征抽出部抽出的文字圖像的圖像特征 為基礎(chǔ),從上述字形特征字典中,按照圖像特征的匹配度從高到低的順序
選擇N個(N>1的整數(shù))文字圖像作為候補文字,在將上述文字列的文字 數(shù)設(shè)為M個(MH的整數(shù))時,制作MxN維的第1索引矩陣,并且對于 由構(gòu)成該第1索引矩陣的第1列的兩個或兩個以上候補文字構(gòu)成的候補文 字列,適用基于預(yù)定的語言模型的詞匯解析,而制作出調(diào)整成有意義的文 字列的第2索引矩陣;
索引信息儲存部,其將由上述特征匹配部制作的第2索引矩陣與上述 所輸入的文檔圖像相對應(yīng)地進行儲存;
檢索部,其在檢索時,以所輸入的檢索式中的構(gòu)成檢索關(guān)鍵詞的l個 檢索文字為單位,檢索上述索引信息儲存部,而取出具有第2索引矩陣的 文檔圖像,該第2索引矩陣包含檢索文字。
另夕卜,根據(jù)本發(fā)明,圖像特,出部將由文字列抽出部定位并抽取出 的文檔圖像中的文字列的圖像以l個文字為單位進行分割,并抽出各文字 圖像的圖像特征。然后,特征匹配部基于該圖像特征,抽出文字圖像的圖 像特征作為上述合成矢量,使用由上述字形特征字典制作裝置制作的字形
特征字典的合成矢量,按照圖像特征的匹配度從高到低的順序,選擇出N 個(1\>1的整數(shù))的文字圖〗象作為候補文字,并制作所抽取的文字列的文 字數(shù)MxN維的第l索引矩陣。
進而,對于由構(gòu)成該第1索引矩陣的第1列的兩個或兩個以上候補文 字構(gòu)成的候補文字列,適用基于預(yù)定的語言模型的詞匯解析,而制作出將 候補文字列調(diào)整成有意義的文字列的第2索引矩陣。
所制作的第2索引矩陣,與所輸入的文檔圖斜目對應(yīng)地被儲存到索引 信息儲存部中,在進行檢索時,該索引矩陣被作為用于檢索文檔圖像的索 引信息加以利用。
由此,不需要用戶的手動操作,而且也不需要采用OCR識別,即可 自動地定位文檔圖像的文字區(qū)域中存在的文字列,且利用定位的文字列的
圖像特征來生成文檔圖像的索引信息。
而且,由于抽出各文字圖像的圖像特征,并選擇兩個或兩個以上與圖 像特征用相近似的候補文字,所以通過適當?shù)卦O(shè)定選擇的候補文字數(shù),可
以進行無識別遺漏的正確的檢索,且不會泉OCR識別那樣在文字識別中 消耗時間。
進而,在檢索關(guān)鍵詞中輸入有意義的文字列,故,通過使第2索引矩 陣的候補文字列是有意義的文字列,可進一步提高檢索精度。
另外,由于在字形特征字典中儲存有基于兩個或兩個以上特征抽出方 法的圖像特征,且特征匹配部將所抽取出的文字列的圖像分割成單個文字 的文字圖像,并采取圖像特征的匹配,所以所生成的索引矩陣的精度高。
在檢索時,檢索部以所輸入的檢索式中的構(gòu)成檢索關(guān)鍵詞的1個檢索 文字為單位,檢索索引信息儲存部,并抽取出具有索引矩陣的文檔圖像, 該索引矩陣包^^檢索文字。
這樣,通過以構(gòu)成檢索關(guān)鍵詞的檢索文字為單位來分析索引矩陣,并 檢索出包含檢索關(guān)鍵詞的索引矩陣,可以保證基于單個文字檢索的全面性 的檢索。
另外,本發(fā)明的特征在于,上述特征匹配部,使用雙字母組或多字母 組模型作為語言模型來進行候補文字列的詞匯解析。
根據(jù)本發(fā)明,上述特征匹配部,可使用雙字母組或多字母組模型來作 為語言模型。
另外,本發(fā)明的特征在于,上述特征匹配部,通過基于詞匯解析, 將上述第1索引矩陣的第1列的候補文字與相同行的其它候補文字進行 替換,而調(diào)整成有意義的候補文字列。
另外,根據(jù)本發(fā)明,上述特征匹配部,通過基于詞匯解析,將上述 第1索引矩陣的第1列的候補文字與相同行的其它候補文字進行替換, 而調(diào)整有意義的候補文字列。
由此,可以以與第1索引矩陣的匹配度相同的匹配度來將候補文字 列進行調(diào)整。
本發(fā)明的目的、特點、及優(yōu)點,可通過以下的詳細說明和附圖而變得 更明確。
圖1是簡要表示文檔圖像處理裝置10的構(gòu)成的方框圖。
圖2是詳細表示文檔圖像處理裝置10的構(gòu)成的方框圖。
圖3是表示字體正規(guī)化處理部12制作字形樣本DB13的處理的圖。
圖4是文字圖像夕卜圍特征的說明圖。
圖5是網(wǎng)格方向特征的說明圖。
圖6是分布方向特征的說明圖。
圖7是表示制作基于文字圖像特征抽出部14的字形特征字典15的處 理的圖。
圖8 a示字形特征字典15的制作處理的流程圖。 圖9a示文字圖像的標準化的一例的圖。
圖10是表示針對文檔圖像50以T1、 T2、 T3的三個區(qū)域作為標題區(qū)
域進行定位后的情形的圖。
圖11是表示制作索引信息DB17的處理的說明圖。
圖12是表示制作基于特征匹配部16的索引矩陣的處理的一例的圖。
圖13是表示調(diào)整所制作的索引矩陣而使第1列的文字列成為有意義的
文字列,為此采用詞匯解析法來進行調(diào)整的具體例的說明圖。
圖14 A^示使用雙字母組模型的字典數(shù)據(jù)300的構(gòu)成例的圖。
圖15是表示使用雙字母組模型的索引矩陣的調(diào)整方法的流程圖。
圖16是表示檢索部22的功能和檢索處理的說明圖。
圖17是表示檢索部22中的檢索順序的流程圖。
圖18 a示計算檢索關(guān)鍵詞和索引矩陣之間的相關(guān)度的方法的說明圖。
圖19是用具體例表示檢索關(guān)鍵詞和索引矩陣之間的相關(guān)度的計算的 說明圖。
圖20是表示帶有詞匯解析功能的檢索處理的說明圖。 圖21是表示文檔圖像管理部中的處理的說明圖。 圖22是表示文檔圖像顯示部53中顯示的、在文檔圖像DB中儲存的 文檔圖《象的閱覽畫面的一例。
圖23是表示使用多字母組模型的索引矩陣的調(diào)整方法的流程圖。
具體實施例方式
以下,參考附圖,對本發(fā)明的優(yōu)選實施方式進幹洋細說明。
圖1是簡要表示文檔圖像處理裝置10的構(gòu)成的方框圖。文檔圖像處理 裝置10包括處理器4、和儲存用于使處理器4進行實際處理的軟件等的外 部存儲裝置5。
處理器4在實際中進行從文檔圖像中抽出進行檢索所需要的標題區(qū) 域的文檔圖像特征抽出處理;生成能夠進行對于文檔圖像的檢索的索引信 息的索引信息生成處理;使用了索引信息的檢索處理;使用索引信息來制 作后述的有意義的文檔名,并管理文檔圖像的文檔圖像管理處理等。
處理器4中的實際的處理,根據(jù)在外部存儲裝置5中儲存的軟件來執(zhí) 行。處理器4例如由通常的計算機主體等來構(gòu)成。在本實施方式中,處理 器4還執(zhí)行制作在索引信息生成處理中使用的后述的字形特征字典15的字 形特征字典制作處理。
外部存儲裝置5,例如可由能夠進行高速訪問的硬盤等來構(gòu)成。為了 大量M文檔圖像,外部存儲裝置5也可以是使用光盤等的大容量設(shè)備的 構(gòu)成。后述的字形特征字典15、索引信息DB(數(shù)據(jù)庫)17、文檔圖像DB19、 字形樣本DB13等由外部存儲裝置5構(gòu)成。
文檔圖像處理裝置10與鍵盤1連接,且與顯示裝置3連接。鍵盤1 用于輸入檢索關(guān)鍵詞。另外,鍵盤l還用于在閱覽文檔圖像時輸入指示。 并且,鍵盤1還用于進行后述的候補文字數(shù)、相關(guān)值、以及行的相關(guān)度加 權(quán)因數(shù)Q等的設(shè)定值的變更。顯示裝置3輸出并顯示文檔圖像等。在顯示 裝置3中顯示的內(nèi)容中還包含相關(guān)度的信息、以及圖像名稱等信息。
文檔圖像處理裝置10還與圖像掃描儀2或數(shù)碼相機6連接。圖像掃描 儀2和數(shù)碼相機6用于取得文檔圖像。文檔圖像的取得不限于通過圖像掃 描儀2和數(shù)碼相機6,也可以通過進行利用網(wǎng)絡(luò)等的通信來取得。另外, 也可以進行使用了圖像掃描儀2或數(shù)碼相機6的檢索關(guān)鍵詞的輸入。
圖2是詳細表示文檔圖像處理裝置10的構(gòu)成的方框圖。文檔圖像處理 裝置10包括文字數(shù)據(jù)庫輸入部(文字DB輸入部)11、文字正規(guī)化處理 部12、字形樣本DB13、文字圖像特征抽出部(圖像特征抽出部)14、字
形特征字典15、特征匹配部16、索引信息DB17、標題區(qū)域初始處理部18、 文檔圖像DB19、文檔圖像特征數(shù)據(jù)庫(文檔圖像特征DB) 20、文檔圖像 輸入部21、檢索部22、詞匯解析部23、關(guān)鍵詞輸入部24、檢索結(jié)果顯示 部25、文檔名制作部51、文檔圖像DB管理部52、文檔圖像顯示部53、 指示輸入部54。
其中,由文字DB輸入部ll、字體正規(guī)化處理部12、字形樣本DB13、 文字圖像特征抽出部14、字形特征字典15構(gòu)成實施上述的字形特征字典 制作處理的字形特征字典生成部30。
首先,對構(gòu)成字形特征字典生成部30的文字DB輸入部11、字體正 規(guī)化處理部12、字形樣本DB13、文字圖像特征抽出部14、字形特征字典 15進行說明。
文字DB輸入部11用于輸入為制作字形特征字典15所需的成為M 的文字數(shù)據(jù)庫。如果本裝置是例如中文對應(yīng)的裝置,則輸入中華人民共和 國GB2312的全部6763個文字等。另外,如果本裝置是曰語對應(yīng)的裝置, 則輸入JIS第l標準的約3, 000個字種等。即,這里所說的文字中包含符 號。這樣的文字DB輸入部11由處理器4構(gòu)成,且文字數(shù)據(jù)庫由記錄媒體、 或通過利用了網(wǎng)絡(luò)的數(shù)據(jù)通信等來供給。
字體正^ /化處理部12用于對由文字DB輸入部11輸入的文字數(shù)據(jù)庫 中所包含的全部文字,制作不同字體和字號的文字圖^象。不同字體和字號 的文字圖傳被儲存在字形樣本DB13中。
圖3是表示字體正規(guī)化處理部12制作字形樣本DB13的處理的圖。在 字體正規(guī)化處理部12中,如果本裝置是中文對應(yīng)的裝置,則具備例如宋體、 仿宋體、黑體、楷體等字形樣本12a。另外,如果本裝置是日語對應(yīng)的裝 置,則具備明朝體、Gothic體…等字形樣本。
字體正規(guī)化處理部12中的變形處理部12b,對文字數(shù)據(jù)庫的文字進行 圖像化,并對文字圖像進行標準化處理。然后,變形處理部12b參照字形 樣本12a,對標準化處理后的文字圖像實施變形處理,并進一步改變?yōu)椴?同字體和大小的文字圖像。變形處理中,包括例如模糊化處理、擴b縮小 化處理、細微化處理等。字體基準部12c將這樣變形處理后的文字圖像作 為基準文字圖像儲存到字形樣本DB13中。
在字形樣本DB13中,針對文字數(shù)據(jù)庫的所有文字,即使是相同的文 字,也儲存有對應(yīng)每個由字體、大小決定的字形的基準文字圖像。如果舉 例說明,則,即使文字種類都是"中",也存在似目當于所決定的字體的數(shù) 量的不同形狀的基準文字圖像的"中",另外,還儲存有似目當于所決定的 大小的數(shù)量的不同大小的基準文字圖像的"中"。
文字圖像特征抽出部14是抽出文字圖像的特征(圖像特征),并儲存 到字形特征字典15中的部分。在本實施方式中,文字圖像特征抽出部14 根據(jù)文字圖像夕卜圍特征(所謂的圖像PBA)、網(wǎng)格方向特征(所謂的格子 特征)、以及分布方向特征(所謂的全向DCD)的組合,來抽出文字圖像 的特征,并計算出將通過這些三種方法獲得的特征分別作為要素的特征矢 量。在本發(fā)明中,由于采用三種特征,所以特征矢量為三維矢量。另外, 文字圖像的特征不限于這些,也可以抽出其它特征來形成特征矢量。
這里,預(yù)先對文字圖像夕卜圍特征、網(wǎng)格方向特征以及分布方向特征進 ^S兌明。圖4是文字圖像夕卜圍特征的說明圖。所謂文字圖像夕卜圍特征是指 從文字圖像的外部觀察的輪廓的特征。如圖4所示,從文字圖像的外接矩 形的4邊進行掃描,并將從白像素變化為黑像素時的點為止的距離作為特 征,取出最初變化的位置和第二次變化的位置。
例如,在將外接矩形分割成X行Y列的場合下,以行為單位分別從左 方向和右方向掃描圖像,以列為單位分別從上方向和下方向掃描圖像。另 外,圖4是表示以行為單位從左進行掃描的圖。
另外,在圖4中,用實線箭頭A表示最初從白像素變化為黑像素時的 點為止的掃描軌跡。虛線箭頭B表示第二次從白像素變化為黑像素時的點 為止的掃描軌跡。實線箭頭C表示最終也未能檢測到從白像素變化為黑像 素的點的情況下的掃描軌跡,在這種沒有變化點的場合下,距離值為0。
圖5是網(wǎng)格方向特征的說明圖。將文字圖像分割成粗網(wǎng)格,對各格子 區(qū)域內(nèi)的黑《象素,向預(yù)先確定的兩個或兩個以上方向延/f申觸手。然后,對 在各方向上連接的黑像素的像素數(shù)進行計數(shù),并將表示該黑像素按各方向 成分的分布狀況的方向影響度,作為識別函數(shù)采用歐幾里得距離,并利用 與黑像素數(shù)之差相應(yīng)的值,對距離值進行除法運算,而計算出距離值。
在圖5(a)中,將文字圖像分割成4x4共16個格子,且以在X軸方
向上最接近于格子交點的從黑像素變化為白像素的點為中心,向x軸方向
(0° )、 45°方向、Y軸方向(90° )的3個方向延伸觸手。
在本實施例中,將文字圖像分割成8x8的4角的網(wǎng)格,并如圖5(b) 所示,向0。 、 45° 、 90° 、 135° 、 180° 、 225° 、 270° 、 315°這8個 方向延伸觸手。
另外,作為網(wǎng)格方向的特征的抽出方法,有設(shè)置觸手的延伸方向、延 伸觸手的中心點的方法等各種方法,例如記栽在曰本專利特開2000-181994 號公報等中。
圖6是分布方向特征的說明圖。是從兩個或兩個以上方向觀察的文字 圖像的全體濃度分布的特征,表示基于文字全體的像素的圖像的結(jié)合關(guān) 系。例如,如圖6所示,通過計算出i-l 4的4個方向的黑像素數(shù),將從 0度、45度、90度、及135度的4個方向觀察時的黑像素分布作為特征而 抽出。
文字圖像特征抽出部14,將這樣的文字圖像的特征的抽出,對儲存在 字形樣本DB13中的基準文字圖像的全部進行。而且,文字圖像特征抽出 部14將在字形樣本DB13中儲存的基準文字圖像的抽出結(jié)果儲存在字形特 征字典15中,并生成字形特征字典15。
圖7 M示制作基于文字圖像特征抽出部14的字形特征字典15的處 理的圖。文字圖像特征抽出部14中的字形標準化部14a從字形樣本DB13 中取出基準文字圖像,文字圖像特;MC出部14b從由字形標準化部14a取 出的基準文字圖像中取出其特征。然后,特征分類部14c參照字形樣本 DB13,對從按每個基準文字圖像抽出的特征進行分類,并儲存到字形特征 字典15中。
圖8是表示字形特征字典15的制作處理的流程圖。
在步驟Sl中,字形標準化部14a將字形樣本DB13中存儲的各文 字圖像標準化成為固定尺寸的圖像數(shù)據(jù)。圖9是表示文字圖像的標準化 的一例的圖。用實線包圍的部分表示標準化前的尺寸,用點線包圍的部 分表示標準化后的尺寸。通過標準化而擴大文字圖像時產(chǎn)生的文字區(qū)域 的空白的部分被背景像素掩埋。
通過將標準化后的尺寸設(shè)為固定尺寸,可將全部的文字圖像整理成 相同大小的圖像。
在抽出文字圖像的特征時,例如在文字圖像外圍特征中,由于考慮 到如果尺寸變化則即使是相同文字也可抽出不同的特征,所以最好將全 部的文字圖像進行標準化。
在文字圖像特征取出部14b中,如上述那樣,按每個單個文字,依照 三個特征抽出方法來抽出特征(步驟S2)。
設(shè)文字圖像外圍特征為fl,設(shè)分布方向特征為f2,設(shè)網(wǎng)格方向特征 為f3。另外,在各個特征中,設(shè)定對應(yīng)于中文、字母、數(shù)字等的字體的 種類的加權(quán)。設(shè)對應(yīng)于文字圖像外圍特征的權(quán)重為wl,設(shè)對應(yīng)于分布 方向特征的權(quán)重為w2,設(shè)對應(yīng)于網(wǎng)格方向特征的權(quán)重為w3。
這時flxwi、 f2xw2、 f3xw3是表示三個特征抽出方法各自的特 征的矢量,將大小設(shè)為D1、 D2、 D3。
i殳文字圖4象的特征為F,則F用flxwi、 f2xw2、 f3xw3的三個 特征矢量的合成矢量來表示,合成矢量的大小是D1+D2+D3。
將這樣得到的合成矢量F,作為表示文字的特征矢量而計算出(步 驟S3),并儲存在字形特征字典15中(步驟S5)。
進而,最好根據(jù)字體的種類來設(shè)定各特征的加權(quán)。通過根據(jù)字體的 種類來改變加權(quán)的設(shè)定,可針對一個文字按每個字體種類求出特征矢量 F。也可以針對一個文字,將按每個字體種類的兩個或兩個以上特征矢 量儲存在字形特征字典15中,但是,由于字形特征字典15的存儲容量 變得非常大,所以最好從求出的兩個或兩個以上特征矢量中決定作為代 表的一個特征矢量(步驟S4),并將其儲存在字形特征字典15中(步 驟S5 )。
成為代表的特征矢量的決定方法,可以適用學(xué)習(xí)矢量量化方法 (Learning Vector Quantization :LVQ )。通過適用LVQ法,在多個特 征矢量中,選出與自己以外的全部的矢量的距離最小的矢量,并將其決 定為代表矢量。
此外,也可以不像上述那樣根據(jù)三個特征抽出方法計算出一個特征
矢量,而將用三個特征抽出方法抽出的特征按每個單個文字儲存在字形
特征字典15中。即,在圖8所示的流程圖中,不進行步驟S3及步驟 S4,而將在步驟S2中抽出的按每個特征抽出方法的特征儲存在字形特 征字典15中。
下面,說明構(gòu)成實施文檔圖像特征抽出處理的文檔圖像特,出部31 的文檔圖像DB19、文檔圖像特征DB20、標題區(qū)域初始處理部18、文字 圖像特征抽出部14。
文檔圖像DB19是在由文檔圖^Jir入部21輸入文檔圖像時,對其附加 用于識別的文檔ID并進行M的數(shù)據(jù)庫。
標題區(qū)域初始處理部18是在文檔圖像DB19中保存了新的文檔圖像 時,根據(jù)其圖像數(shù)據(jù)來定位并抽出文檔圖像中的標題區(qū)域,然后將文字圖 像送到上述的文字圖像特4^出部14的。
圖7表示對文檔圖像50以Tl、 T2、 T3這3個區(qū)域定位為標題區(qū)域的 狀態(tài)。根據(jù)該圖15也可以看出,將文檔圖像50中的標題部分作為標題區(qū) 域T抽出。
由標題區(qū)域初始處理部18抽出并送到文字圖像特征抽出部14的文字 圖像,通常是包含兩個或兩個以上文字的文字列的圖像。從而,在以下的 說明中,將由標題區(qū)域初始處理部18送來的文字圖像設(shè)為文字列的圖像。
在本實施方式中,標題區(qū)域初始處理部18利用投影法和連通區(qū)域統(tǒng)計 分析來進行標題區(qū)域T的定位和抽出。另夕卜這樣的標題區(qū)域T主要相當 于標題部分,例如可以采用在日本專利特開平9-319747號公凈艮、日本專利 特開平8-153110等所記栽的方法等各種以往的方法。
由于不是將文檔圖像的全部文字區(qū)域(文本區(qū)域)作為對象,而是如 上所述僅將標題區(qū)域T定位并抽出,所以可減少成為檢索對象的信息量, 并縮短檢索時間。
其中,不是對4^P的文本區(qū)域進行定位而^U t標題區(qū)域T進行定位的 事項,對于檢索而言并不是必須的構(gòu)成要素,也可以對全文的文本區(qū)域進 行定位并抽出。但是,對于后述的有意義的文檔名的制作而言,僅對標題 區(qū)域T進行定位是必須的構(gòu)成要素。
文字圖像特征抽出部14,對于從標題區(qū)域初始處理部18輸入的文字 列的圖像,分割成一個文字的文字圖像的基礎(chǔ)上,抽出各文字圖像的特征。 然后,將抽出的特征,在文檔圖像特征DB20中^r個文檔圖^Ji行儲存。
關(guān)于抽出各文字圖像的特征,按與字形特征字典15的制作時相同的抽 出順序進行。即,按與圖8所示的步驟S1 步驟S3相同的順序計算出特 征矢量。
在文檔圖像特征DB20中,由標題區(qū)域初始處理部18抽出的標題區(qū)域 T中所包含的文字列的圖像的特征信息,作為構(gòu)成文字列的各文字的各自 的特征(特征矢量)而被儲存。
如圖10所示,對于1個文檔圖像50,將在所抽出的全部標題區(qū)域T1、 T2、 T3…中所包含的文字列的文字圖像的特征,即構(gòu)成文字列的各文字的 文字圖像的特征,與文檔圖像50的文檔ID—同儲存。
下面,說明構(gòu)成實施索引信息制作處理的索引信息生成部32的文字圖 像特征抽出部14、字形特征字典15、特征匹配部16、索引信息DB17、文 檔圖像特征DB20。
文字圖像特征抽出部14、字形特征字典15、文檔圖像特征DB20的功 能,與上述的說明相同。
T中所包含的i字圖像的特征,基于該讀出的特征,參照字形特征字典15, 如后述那樣制作索引矩陣,并生成文檔圖像的索引信息的部分.
這里,對應(yīng)l個文檔圖像生成l個索引信息,并按每個標題區(qū)域T制 作索引信息中所包含的索引矩陣。從而,在l個文檔圖像內(nèi)存在兩個或兩 個以上標題區(qū)域T的場合下,在該文檔圖像的索引信息中包含兩個或兩個 以上索引矩陣。
圖11表示制作索引信息DB17的處理。如上所述,當某個文檔圖^m 輸入并被儲存到文檔圖像Dm9中時,文字圖像特征取出部14b抽出在各 標題區(qū)域T中所包含的文字列的文字圖像的特征,并儲存到文檔圖像特征 DB20中。
特征匹配部16從文檔圖像特征DB20中讀出各標題區(qū)域T中所包含
的文字列的圖像的特征,且按每個單個文字與字形特征字典15內(nèi)的基準文 字圖傳ii行匹配,而制作標題區(qū)域T各自的索引矩陣。
然后,特征匹配部16將該文檔圖像的其它信息,即文檔ID和文檔圖 像DB19內(nèi)的該當?shù)奈臋n圖像的保存位置的信息等包含在這些索引矩陣 中,而作為索引信息儲存到索引信息DB17中。
圖12表示基于特征匹配部16的制作索引矩陣的處理的一例。圖12 是說明針對圖10中的標題區(qū)域T3中所包含的文字列"去神仙居住的地方" 這8個文字圖像,制作索引矩陣的說明圖。
文字列"去神仙居住的地方"被分割成單個文字圖像"去""神""仙" "居""住""的""地""方"。將這樣的文字列的圖〗象分割成每一個文字 的圖4象的處理,可利用已有的分割方法。
在"去"..."方"這8個文字中,按照排列順序附加1 8的編號,即 對"去,,附加l、對"神,,附加2、…對"方"附加8。該編號相當于索引 矩陣的行編號。
對這樣的所有的8個文字圖像,實施如下的處理,即取出針對被儲 存在圖12中參照符號X所示的文檔圖像特征DB20中的文字圖像"去" 的特征,并參照字形特征字典15,按照特征相近(匹配度高)的順序,選 擇N個候補文字。例如,可以計算出與文字圖像"去"對應(yīng)的特征矢量和 在字形特征字典15中儲存的各文字的特征矢量之間的歐幾里得距離,將該 距離相近的部分作為匹配度高的部分來選擇候補文字。
對按照匹配度從高到低的順序抽出的N個候補文字,附加與抽出順序 相應(yīng)的編號,該編號相當于索引矩陣的列編號。然后,才艮據(jù)該列編號,來 設(shè)定表示檢索關(guān)鍵詞中所包含的各檢索文字與候補文字之間的匹配度的 文字相關(guān)值(相關(guān)值)。
在這里,在字形特征字典15中儲存的特征,是按每個文字圖像夕卜圍特
下,不能基于特征矢量間的距離選擇候補文字,所以,用以下的方法選擇 候補文字。
預(yù)先在圖像文檔特征DB20中,作為與文字圖像對應(yīng)的特征,儲存有
按三個特征抽出方法的每一個方法抽出的特征。
針對由圖像文檔特征DB20儲存的文字圖像,按照每個文字圖像外圍 特征、網(wǎng)格方向特征及分布方向特征的特征抽出方法,獨立地選擇各自的 N個候補文字。
將基于文字圖像外圍特征選擇的候補文字設(shè)為(PC1 、 PC2、…、PCN ),
將基于網(wǎng)格方向特征選擇的候補文字設(shè)為(GC1、 GC2.....GCN),將
基于分布方向特征選擇的候補文字設(shè)為(DC1、 DC2.....DCN)。將這
些候補文字的權(quán)重設(shè)為(wl、 w2.....wN),將文字圖像外圍特征、網(wǎng)格
方向特征及分布方向特征的權(quán)重設(shè)為WP、 WG、 WD。
在各自的候補文字中,即4吏基于不同的特征,選^^相同的文字的可能 性也很高。在選擇了相同的候補文字的情況下,通過將相同的候補文字合 成一個,可計算出對應(yīng)其它候補文字的匹配級別的程度。
將成為基準的候補文字列設(shè)為(PC1、 PC2.....PCN),從其它兩個
候補文字列中搜索出與PC1所選擇的文字相同的文字,使用上述的權(quán)重計 算出與PC1所選擇的文字對應(yīng)的匹配級別L—PC1。另外,在與PC1所選 擇的文字相同的文字是DC3及GC2時,用L_PC1=WP x wl + WD x w3 + WG x w2來計算出匹配級別。
然后,從其它兩個候補文字列中搜索出與PC2所選擇的文字相同的文 字,計算出匹配級別L_PC2。通過將此重復(fù),^r個文字計算出匹配級別, 并從匹配級別從高到低的文字中依次選擇候補文字。對所選擇的候補文 字,附加與匹配順序相應(yīng)的編號,i^目當于索引矩陣的列編號。
其中,成為基準的候補文字列不限定于基于文字圖像夕卜圍特征選擇的 候補文字列(PC1、 PC2、…、PCN),也可以是基于其它特征來選擇候補 文字列,且只要能夠M于文字圖像夕卜圍特征、網(wǎng)格方向特征及分布方向 特征選擇的K個(K為N^K^3N的整數(shù))文字中,選擇出相互不同的 所希望的候補文字即可。
在圖12中,由參照符號100所表示的絲示文字列"去神仙居住的地 方"的索引矩陣的內(nèi)容。例如,對于第5個文字的"住"的文字圖像,在行 編號為5的行中,從匹配度高的第1列,順序地抽出"任"、"佳"、"住"、…、 "仁"的候補文字。在表100中,例如候補文字"去"的索引矩陣內(nèi)的位
置是[l, l],候補文字"屑"的位置是[4, 2],候補文字"仁"的位置是 [5, N]。
另夕卜,在圖12的表100中,為了有助于理解,對于與文字列的各文字 對應(yīng)的候補文字附加O進行表示。
對于這樣的索引矩陣的行數(shù)M,根據(jù)由標題區(qū)域初始處理部18作為 標題區(qū)域T而抽出的文字列的圖像的文字數(shù)來決定。另外,列數(shù)N是根據(jù) 針對l個文字所選擇出的候補文字數(shù)來決定。從而,根據(jù)本發(fā)明,可通過 改變索引矩陣的維數(shù)(列數(shù)),來靈活地設(shè)定索引矩陣內(nèi)的要素數(shù),即候 補文字數(shù)量。因此,在文檔圖像的檢索中,可以進行正確且?guī)缀鯚o遺漏的 檢索。
在索引矩陣中,可以與檢索關(guān)鍵詞的輸入方法相應(yīng)地適當設(shè)定所選擇 的候補文字的信息賦予方式。例如,如果是由鍵盤l來輸入檢索關(guān)鍵詞的 構(gòu)成,則以文字代碼等信息的形式儲存候補文字,從而能夠?qū)腲Lit輸入 的檢索關(guān)鍵詞進行檢索。
另外,如果是采用圖像掃描儀2等以圖傳教據(jù)的形式輸入檢索關(guān)鍵詞 的構(gòu)成,則也可以抽出檢索關(guān)鍵詞的特征(特征矢量),以特征(特征矢 量)信息的形式儲存候補文字,從而能夠?qū)μ卣魇噶勘舜诉M行比較。
返回到圖10,對索引信息DB17中的索引信息的數(shù)據(jù)配置例進^ti兌明。 在存在兩個或兩個以上標題區(qū)域T1、 T2、 T3、…、Tn的文檔圖像50的 索引信息中,針對兩個或兩個以上標題區(qū)域T1、 T2、 T3、、 Tn制作的 索引矩陣配置成線形。在圖10的例中,文檔ID被配置在先頭,接下來配 置兩個或兩個以上索引矩陣,最后配置保存位置的信息。這里,5xN表示 索引矩陣的大小,表示5行N列的情況。
通過預(yù)先將索引信息進行這樣的數(shù)據(jù)配置,可以迅速地定位文檔圖像 DB19內(nèi)的文檔圖像的儲存位置、和文檔圖像中的標題區(qū)域T的位置,并 用于檢索結(jié)果的顯示。
另夕卜,也可以根據(jù)實際要求,在索引信息中妙文檔圖像的其它屬性。
本發(fā)明中,進而對索引矩陣100適用使用了語言模型的詞匯解析法, 而調(diào)整構(gòu)成候補文字列的M補文字,使其成為有意義的候補文字列。
更具體地講,特征匹配部16基于所制作的索引矩陣100,制作將位于 該索引矩陣中的第1列的各行的候補文字按順序排列的候補文字列。然后, 對由構(gòu)成該候補文字列的連續(xù)的各行的候補文字構(gòu)成的單詞的詞義進行
解析,并調(diào)整各行的第l列的候補文字,從而使候補文字列帶有意義。
圖13是表示調(diào)整所制作的索引矩陣而使第1列的文字列成為具有意義 的文字列,為此采用詞匯解析法來進行調(diào)整的具體例的說明圖。
由圖13的上部分所示的調(diào)整前的索引矩陣100制作成的^^補文字列為 "去伸仙居任酌地方",不具有意義。
用作有意義的文檔名的候補文字列中,主語、謂語、以及賓語的連接 詞關(guān)系等必須在意義上正確。在此,利用詞匯解析,變換成有意義的候補 文字列。具體地說,對于兩個或兩個以上M候補文字,使用概念詞典, 分析兩個或兩個以上錯誤候補文字與候補文本的其它單詞之間的意義信 息,而將候補文字列修改為有意義的文字列。
在這種詞匯解析中所釆用的語言模型61,只要提供由所有的漢字開始 的活字的統(tǒng)計數(shù)據(jù)即可。換言之,利用該語言模型61的主要概念,可以在 技術(shù)上確立自動搜索系統(tǒng),能夠得到與中文報紙(例如"People,s Daily (人 民日凈艮)")的稿本有關(guān)的統(tǒng)計lt據(jù)。
在本實施方式中,使用雙字母組(Bi-gram)模型作為語言模型。
雙字母組模型是兩個文字、兩個音節(jié)、或者兩個單詞的群(group), 且作為文本的簡單統(tǒng)計分析的^ftll被廣泛使用。
圖14是表示使用雙字母組模型的字典數(shù)據(jù)300的構(gòu)成例的圖。
字典數(shù)據(jù)的第1列301表示兩字組合的第1個文字。第2行302表示 與第l個文字共同構(gòu)成了組合的文字的個數(shù)。第3行303表示與第l個文 字共同構(gòu)成了組合的文字,第4行304表示構(gòu)成了組合的次數(shù)。并且,第 5行305表示組合的中文的文字個數(shù)。這里,由于使用雙字母組模型,所 以文字個數(shù)全是2。
在候補文字列的調(diào)整中,基于馬爾可夫過程,主要使用文字的推移以 及混合的概率等單詞內(nèi)的上下文信息,來進行Vitarbi-style檢索。
使用上述那樣的中文字典的幫助,自動地調(diào)整索引矩陣,而將全部的 最適合的候補調(diào)整到第1行。
基于只根據(jù)每個文字的匹配度決定的索引矩陣100,首先對第1列的
文字列進行基于使用了前后檢索的雙字母組模型的調(diào)整,由此可提高匹配 的候補的正確性和效率性。
并且為了提高其正確性,對文字列的一部分進行基于以單詞為基礎(chǔ)的 雙字母組模型的調(diào)整。由此,雖然處理速度下降,但可獲得高正確性。
以下,以索引矩陣100為例說明具體的調(diào)整方法。
使用以文字為基礎(chǔ)的雙字母組模型,首先根據(jù)第2行與第3行的關(guān)系, 將第2行的第2候補"神"與"伸"替換,作為第1候補。另外,根據(jù)第4行 與笫5行的關(guān)系,將第5行的第3候補"住,,與"任"替換,作為第1候補。
并且,進行基于以單詞為基礎(chǔ)的雙字母組模型的調(diào)整,根據(jù)"神仙"以 及"居住"的單詞的屬性,以及它們的關(guān)聯(lián)性,將第6行的第2候補"的,,與 "酌"替換,調(diào)整為第l候補。
在這樣地被調(diào)整的索引矩陣200的第1列中所含的候補文字列成為"去 神仙居住的地方",成為具有意義的文字列。另外,特征匹配部16,也可 以將這樣的調(diào)整后的索引矩陣200儲存到索引信息DB17中。
圖15是表示使用了雙字母組模型的索引矩陣的調(diào)整方法的流程圖。
在步驟S11中,判斷是否到達了索引矩陣的最后行。如果未到達,則 進入步驟S12,如果已到達,則進入步驟S15。
在步驟S12中,對所關(guān)注的行,即第1次的處理的情況下,取出第1 行的第1候補。在步驟S13中,適用雙字母組模型,對于所關(guān)注的行的第 1候補和與其相鄰的行的M補的組合,在字典內(nèi)的出現(xiàn)頻度進行統(tǒng)計性 計數(shù)。
在步驟S14中,將計數(shù)值與預(yù)定的閾值進行比較,將計數(shù)值超過了閾 值的組合作為第l候補。
在步驟S15中,從最初一行分析所決定的第l候補的連接關(guān)系,并決 定單詞。在步驟S16中,決定所決定的單詞之間的第l候補.
在步驟S17中,判斷在所關(guān)注的第1候補文字列中存在的文字集合是 否符合字典數(shù)據(jù)的詞義規(guī)則。如果符合,則進入步驟S18,結(jié)束處理,獲 得調(diào)整后的索引矩陣。如果不符合,則1步驟S19,調(diào)整不符合的行的 第1候補,并返回到步驟S16。
下面,對實施使用了索引信息的檢索處理的檢索部22進行說明。圖 16是表示檢索部22的功能和檢索處理的說明圖。檢索部22具有索引矩陣 檢索處理部22a、文字相關(guān)值M部(保存部)22b、相關(guān)度計算部22c、 顯示順序決定部(順序決定部)22d、以及文檔圖像抽出部22e。
對于索引矩陣檢索處理部22a,由關(guān)鍵詞輸入部24輸入檢索關(guān)鍵詞。 作為關(guān)鍵詞輸入部24,相當于上述的^:l或圖像掃描儀2等。
索引矩陣檢索處理部22a是對索引信息DB17進行檢索,而檢索出包 含所輸入的檢索關(guān)鍵詞的索引矩陣的部分。索引矩陣檢索處理部22a將檢 索關(guān)鍵詞分割成單個文字,搜索包含各檢索文字的索引矩陣,在包含檢索 文字的場合下,取得該檢索文字在索引矩陣內(nèi)的匹配位置的信息。另外, 關(guān)于索引矩陣的抽出順序例,將在下面采用圖17的流程圖來進行i兌明。
文字相關(guān)值保存部22b是保存由索引矩陣檢索處理部22a取得的匹配 位置的信息、和與該匹配位置的列編號相應(yīng)的文字相關(guān)值的部分。
相關(guān)度計算部22c是在索引矩陣檢索處理部22a中完成了對全部索引 矩陣的檢索時,計算出所檢索出的索引矩陣與檢索關(guān)鍵詞之間的相關(guān)度的 部分。
相關(guān)度的計算,是采用被M在文字相關(guān)值保存部22b中的匹配位置 和文字相關(guān)值的信息,并按照預(yù)先設(shè)定的相關(guān)度計算方法來進行計算的。 關(guān)于相關(guān)度的計算,將在下面采用圖18、圖19來進行說明。
另外,這里,構(gòu)成為文字相關(guān)值保存部22b保存匹配位置的信息、和 與該匹配位置的列編號相應(yīng)的文字相關(guān)值,但也可以構(gòu)成為文字相關(guān)值 保存部22b只保存匹配位置,相關(guān)度計算部22c由匹配位置的信息取得文 字相關(guān)值。
顯示順序決定部22d是基于由相關(guān)度計算部22c計算出的相關(guān)度的信 息來決定顯示順序的部分。顯示順序決定部22d按如下方式?jīng)Q定顯示順序,
即從包含相關(guān)度高的索引矩陣的文檔圖像開始,依次在檢索結(jié)果顯示部 25中顯示文檔圖像的內(nèi)容。
文檔圖像抽出部22e是,以按照由顯示順序決定部22d所決定的順序 顯示文檔圖像的方式,從文檔圖像DB19中讀出文檔圖像的圖^lt據(jù),并 輸出到檢索結(jié)果顯示部25來進行顯示。
檢索結(jié)果顯示部25按照顯示順序來顯示文檔圖像。也可以采用縮略圖 顯示等的方式。作為檢索結(jié)果顯示部25,相當于上述的顯示裝置3等。
這里,說明檢索順序。圖17M示檢索部22中的檢索順序的流程圖。 當輸入了由R個文字列構(gòu)成的檢索關(guān)鍵詞,并指示進行檢索時,索引矩陣 檢索處理部22a首先取出檢索關(guān)鍵詞的第1個檢索文字(S21 )。
然后,索引矩陣檢索處理部22a對索引信息DB17內(nèi)的全部索引矩陣 進行第1個檢索文字的檢索(S22 )。
在完成了對全部索引矩陣的檢索時,判斷是否檢索到第1個檢索文字 (S23),在l個也沒有檢索到的場合下,轉(zhuǎn)移到S29,在檢索到的場合下 ii/vS24。
在S24中,索引矩陣檢索處理部22a將包含第l個檢索文字的索引矩 陣中的匹配位置和文字相關(guān)值保存到文字相關(guān)值保存部22b中。
接著,索引矩陣檢索處理部22a取出包含有第1個檢索文字的4^P的 索引矩陣(S25)。然后,取出作為檢索關(guān)鍵詞的下一個文字的第2個檢索 文字,并對在S25中取出的包含有第1個檢索文字的索引矩陣進行檢索 (S26 )。
在完成對在S25中取出的全部索引矩陣的檢索時,判斷是否檢索到第 2個檢索文字(S27)。在1個也沒有檢索到的場合下,與上述同樣地轉(zhuǎn)移 到S29,在檢索到的場合下進入S28。
在S28中,索引矩陣檢索處理部22a將包含有第2個檢索文字的索引 矩陣中的匹配位置和文字相關(guān)值保存到文字相關(guān)值保存部22b中。
接下來,索引矩陣檢索處理部22a再次返回到S26,取出作為檢索關(guān) 鍵詞中的再下一個文字的第3個檢索文字,并對在S25中取出的包含有第
1個檢索文字的索引矩陣進行檢索。
然后,在這里,也在完成檢索時,索引矩陣檢索處理部22a判斷是否 檢索到第3個檢索文字(S27 ),在1個也沒有檢索到的場合下,轉(zhuǎn)移到S29, 在檢索到的場合下,再次l S28,進行關(guān)于檢索關(guān)鍵詞的再下一個檢索 文字的檢索。
索引矩陣檢索處理部22a, 一直進行這樣的S26 S28的處理,即以在 S25中抽出的包含有第1個檢索文字的索引矩陣為對象的、第2個以后的 各檢索文字的收縮檢索,直到在S27中判斷為1個也沒有檢索到、或完成 了對檢索關(guān)鍵詞內(nèi)的全部檢索文字的檢索為止,然后轉(zhuǎn)移到S29。
在S29中,取出作為檢索關(guān)鍵詞中的下一個文字的第2個檢索文字。 然后,判斷檢索文字是否都已被檢索,即,是否完成了對全部的檢索文字 的檢索(S30),在未完成的場合下,返回到S22。
然后,與上述同樣,索引矩陣檢索處理部22a對索引信息DB17內(nèi)的 全部索引矩陣進行第2個檢索文字的檢索。在檢索到的場合下,M索引 矩陣的匹配位置和文字相關(guān)值,然后ii^S25,對包含有第2個檢索文字 的M索引矩陣,針對檢索關(guān)鍵詞的下一個文字,即作為第2個之后的第 3個以后的各檢索文字,反復(fù)進行S26 S28,從而進行收縮檢索。
索引矩陣檢索處理部22a,對第3個以后的各檢索文字依次進行如下 處理,即在S29中進行對一個檢索文字的如上述的檢索,并取出包含進 行檢索的檢索文字的索引矩陣,且用其以后的檢索文字來進行收縮檢索。
然后,在由S29取出了檢索關(guān)鍵詞內(nèi)的4^P檢索文字,并且由S30判 斷為完成了對全部檢索文字的檢索的場合下,i^S31。
在S31中,相關(guān)度計算部22c如后述那樣根據(jù)相關(guān)度基準,來計算出 檢索關(guān)鍵詞與各索引矩陣的相關(guān)度。
然后,顯示順序決定部22d以從包含相關(guān)度高的索引矩陣的文檔圖像 開始進行顯示的方式?jīng)Q定顯示順序,文檔圖像抽出部22e從文檔圖像DB19 中取得文檔圖像的圖^Jt據(jù),檢索結(jié)果顯示部25按相關(guān)度高的順序來顯示 文檔圖像(S32)。
接下來,采用圖18、圖19,對相關(guān)度計算部22c中的根據(jù)相關(guān)復(fù)基準
來計算索引矩陣與檢索關(guān)鍵詞的相關(guān)度計算方法進行說明。
在圖18的參照符號101的方框中,記載有檢索條件。而且,在參照符 號102的方框中,記載有用于計算相關(guān)度的某個假設(shè)的檢索關(guān)鍵詞與索引 矩陣的相對關(guān)系。在方框101所示的檢索M下,在檢索關(guān)鍵詞與索引矩 陣為如方框102所示的相對關(guān)系的場合下,可以通過由方框103所示的計 算式來計算出檢索關(guān)鍵詞與索引矩陣的相關(guān)度。
首先,對方框101的檢索4Hf進行說明。檢索關(guān)鍵詞的文字數(shù)為R個, 第1個檢索文字為C1、第2個為C2、…、第R個為Cr。
成為檢索對象的索引矩陣為MxN維矩陣。即,作為標題區(qū)域T而抽 取出的文字列圖像的文字數(shù)為M個,作為文字列的各文字的各候補而選擇 出的候補文字數(shù)為N個。
由于作為檢索文字與M補文字的相關(guān)值的文字相關(guān)值,是相應(yīng)于索 引矩陣的各位置來決定的,所以成為與索引矩陣相同維數(shù)的矩陣。即,文 字相關(guān)值矩陣的權(quán)重為MxN維矩陣。例如,權(quán)重[i] [j]表示位于索引矩陣 中的位置[i, j] ( = Index[i, j])上的候補文字匹配的場合下的文字相關(guān)值。
在本實施方式中,如果索引矩陣的列編號[j]相同,則與行編號m無關(guān),
文字相關(guān)值相同。
行的相關(guān)度加權(quán)因數(shù)Q是在索引矩陣中相鄰的2行中檢索文字匹配的 場合下,對這些2行的文字相關(guān)值附加的加權(quán)。在相鄰的2行中檢索文字 匹配的場合下,包>^檢索關(guān)鍵詞的連續(xù)的2個文字的可能性大。
在將行的相關(guān)度加權(quán)因數(shù)Q設(shè)定得高時,對于相關(guān)度計算部22c計算 出的相關(guān)度的影響度,在連續(xù)匹配的2行的文字相關(guān)值中變大,但是在不 相鄰的各行的文字相關(guān)值中變小。即,通過將行的相關(guān)度加權(quán)因數(shù)Q設(shè)定 得高,接近以詞匯為單位進行檢索的結(jié)果,反之,通過將行的相關(guān)度加權(quán) 因數(shù)Q設(shè)定得小,接近以單字為單位進行檢索的結(jié)果。
將檢索文字Cl匹配的文字相關(guān)值表示為Wl,將檢索文字C2匹配的 文字相關(guān)值表示為W2,…,將檢索文字Cr匹配的文字相關(guān)值表示為Wr。
接下來,對方框圖102所示的為了計算相關(guān)度而假設(shè)的檢索關(guān)鍵詞與 索引矩陣之間的相對關(guān)系進行說明。
檢索關(guān)鍵詞與索引矩陣之間具有全部的檢索文字C1, C2,…,Cr與 索引矩陣內(nèi)的任意候補文字相匹配的關(guān)系。將檢索文字Cl, C2,…,Cr 匹配的M補文字在索引矩陣內(nèi)的位置,即匹配位置表示為[Cli, Clj]、 [C2i, C2j],…,[Cri, Crj]。
而且,作為進一步的相對關(guān)系,具有方框102所示的式(1)的關(guān)系,
即
<formula>formula see original document page 26</formula>
在該式中,k、 m表示構(gòu)成檢索關(guān)鍵詞的各檢索文字的相對位置。另 外,C (k+l) i表示與檢索關(guān)鍵詞的第k+l個檢索文字匹配的候補文字的 索引矩陣內(nèi)的行編號,Cki表示與檢索關(guān)鍵詞的第k個檢索文字匹配的候 補文字的索引矩陣內(nèi)的行編號。
從而,C (k+l) i = Cki+1表示與檢索關(guān)鍵詞的第k+l個檢索文字匹 配的候補文字在索引矩陣內(nèi)的行編號,和在與檢索關(guān)^^詞的第k個檢索文 字匹配的候補文字在索引矩陣內(nèi)的行編號上加1的編號相同。換言之,C (k+l) i = Cki+1表示檢索關(guān)鍵詞的第k+l個檢索文字和第k個檢索文字 具有分別與索引矩陣中的相鄰的2行相匹配的關(guān)系。
C (m+l) i = Cmi+1也同樣,表示檢索關(guān)鍵詞的笫m+l個檢索文字和 第m個檢索文字具有分別與索引矩陣中的相鄰的2行相匹配的關(guān)系。
在檢索關(guān)鍵詞與索引矩陣具有這樣的相對關(guān)系的場合下,可以通過方 框103所示的式(2)來計算出檢索關(guān)鍵詞與索引矩陣的相關(guān)度。
<formula>formula see original document page 26</formula>
在該式中,Wl是第1個檢索文字Cl匹配的文字相關(guān)值,W2是第2 個檢索文字C2匹配的文字相關(guān)值,W (k-l)是第(k-l)個檢索文字C (k-l)匹配的文字相關(guān)值。同樣,W (k)是第k個檢索文字Ck匹配的 文字相關(guān)值,W (k+l)是第(k+l)個檢索文字C (k+l)匹配的文字相 關(guān)值。另外,W (m-l)是第(m-l)個檢索文字C (m-l)匹配的文字相 關(guān)值。同樣,W (m)是第(m)個檢索文字C (m)匹配的文字相關(guān)值, W (m+l)是第(m+l)個檢索文字C (m+l)匹配的文字相關(guān)值,另夕卜,
最后的Wr是第r個的最后的檢索文字Cl匹配的文字相關(guān)值。
這樣,在相關(guān)度的計算中,構(gòu)成檢索關(guān)鍵詞的全部檢索文字的文字相 關(guān)值W被累加(累計)計算。
而且,在式(2)中的Q * (Wk+W (k+l))表示由于檢索關(guān)鍵詞 中的第k個檢索文字Ck和第(k+l)個檢索文字C (k+l)分別與索引矩 陣中的相鄰的2行相匹配,所以對文字相關(guān)值Wk和文字相關(guān)值W (k+l) 乘以行的相關(guān)度加權(quán)因數(shù)Q。關(guān)于0* (Wm + W (m+l))也同樣。
另外,檢索關(guān)鍵詞的第k-l個檢索文字與第k個檢索文字,由于不具 有與相鄰的2行相匹配的關(guān)系,所以對W (k-l)和Wk雙方不乘以相關(guān) 度加權(quán)因數(shù)Q。關(guān)于W (m-l)和Wm也同樣。
另外,由于圖18的方框102所示的檢索關(guān)^詞與索引矩陣的相對關(guān)系 中,具有全部的檢索文字C1、 C2、…、Cr與索引矩陣內(nèi)的任意候補文字 相匹配的關(guān)系,所以在式(2)中,將Wl Wr的全部的檢索文字的文字相 關(guān)值累計計算。
但是,這只是一例,例如,在雖然具有式(1)的相對關(guān)系,但險索文 字Cl和檢索文字Cr不與索引矩陣內(nèi)的任意候補文字相匹配的場合下,計 算相關(guān)度的計算式為如下計算式,相應(yīng)于累積項的減少,當然其相關(guān)度會 降低。
SimDegree-W2+…+W (k-l) + Q* (Wk+W (k+l" +
+W (m畫l) +Q* (Wm + W (m+l)) ++W (r誦l)
另外,在具有全部檢索文字C1、 C2、…、Cr與索引矩陣內(nèi)的任意候 補文字相匹配的關(guān)系,并且,具有檢索關(guān)鍵詞的第k+l個檢索文字和第k 個檢索文字、以及第k+2個檢索文字和第k+l個檢索文字分別與相鄰的2 行相匹配的關(guān)系的場合下,計算相關(guān)度的計算式為如下計算式。
SimDegree = Wl + W2 +…+ W (k-l)
+ Q * (Wk+W (k+l) +W (k + 2"…+WR
在該場合下,由于檢索關(guān)鍵詞的第k-l個檢索文字和第k個檢索文字 不具有與相鄰的2行相匹配的關(guān)系,所以對W (k-l)和Wk雙方不乘以 相關(guān)度加權(quán)因數(shù)Q。
下面,采用圖19,對相關(guān)度計算的具體例進幹沈明。這里,求出圖13 所示的文字列"去神仙居住的地方"的索引矩陣(參照表200)與檢索關(guān)鍵 詞"神仙"的相關(guān)度。
圖19的方框104表示檢索條件。相關(guān)值矩陣Weight是MxN維,文 字相關(guān)值是Weight[i] = [1, l-l/N, l-2/N,, 1/N] (i = 0, 1,…,M畫l ), 行的相關(guān)度加權(quán)因數(shù)Q。
檢索關(guān)鍵詞"神仙"分別被分割成笫1個檢索文字"神"和第2個檢索文 字"仙",對于這兩個字,分別在索引矩陣內(nèi)的候補文字中進行檢索。
參照圖13的表200可看出,檢索文字"神"與索引矩陣中的位置[i、 j] 的[2、 l]相匹配,檢索文字"仙"與索引矩陣中的[3、 l]相匹配。
從而,如方框105所示,檢索文字"神"的文字相關(guān)值為1 ,檢索文字"仙" 的文字相關(guān)值為1。
而且,檢索文字"神"的行編號為[2],檢索文字"仙"的行編號為[3], 如圖13的表200所示,這2個檢索文字分別與索引矩陣中的相鄰的2行相 匹配。
從而,如方框106所示那樣,對檢索文字"神,,的文字相關(guān)值1和檢索 文字"仙"的文字相關(guān)值1乘以行的相關(guān)度加權(quán)因數(shù)Q,檢索關(guān)鍵詞的"神 仙"與文字列"去神仙居住的地方,,的索引矩陣之間的相關(guān)度為SimDegree =Q* (1+1) =2Q。
檢索關(guān)鍵詞與索引矩陣之間的相關(guān)度,通過按照用戶的要求靈活地調(diào) 整相關(guān)值矩陣中的加權(quán)(文字相關(guān)值)和行的相關(guān)度加權(quán)因數(shù)Q等的參數(shù), 可以獲得更理想的檢索結(jié)果。
用戶可采用鍵盤1等,相應(yīng)于需要而適當設(shè)定相關(guān)值矩陣中的加權(quán)(文 字相關(guān)值)和行的相關(guān)度加權(quán)因數(shù)Q等的參數(shù)。
而且,基于這樣的圖像特征的索引和匹配方式,可以滿足多種語言的 文檔圖像的索引和檢索。不需要進行文字識別,計算量少。本發(fā)明不限于 中文,可以應(yīng)用于各種語言的文檔圖像。
最后,對具備詞匯解析功能(語義分析功能)的檢索處理進^H兌明。
如圖1所示那樣,在本實施方式的文檔圖像處理裝置10中,在關(guān)鍵詞輸入 部24與檢索部22之間,設(shè)有詞匯解析部23。圖20中表示具備詞匯解析 功能的檢索處理。
詞匯解析部23由語義分析處理部23a和語義詞典23b構(gòu)成。語義分 析處理部23a,在從關(guān)鍵詞輸入部24輸入檢索關(guān)鍵詞時,參照語義詞典 23b,對檢索關(guān)鍵詞的詞匯進行分析。
例如,在作為檢索關(guān)鍵詞輸入"中日關(guān)系"時,語義分析處理部23a 作為與"中日關(guān)系"相關(guān)的單詞,將例如"中國"、"曰本"、"關(guān)系"這3 個輸入到檢索部22。這些"中國"、"日本"、"關(guān)系"具有或的關(guān)系,檢索 式為"中國"或"日本"或"關(guān)系"。
將該檢索式"中國"或"日本"或"關(guān)系"輸入到檢索部22,檢索部 22對索引信息DB17進行檢索,抽出包含"中國"的文檔圖像、包含"曰 本"的文檔圖像、和包含"關(guān)系"的文檔圖像。
由此,不僅能夠檢索出直接包含所輸入的檢索關(guān)鍵詞的文檔圖像,而 且還能夠檢索出相關(guān)的文檔圖像。
接下來,對實施文檔圖像管理處理的文檔圖像管理部57進行說明。文 檔圖像管理部57由文字圖像特征抽出部14、字形特征字典15、特征匹配 部16、標題區(qū)域初始處理部18、文檔圖《象DB19、文檔圖《象特征DB20、 文檔名制作部51、文檔圖像DB管理部52、文檔圖像顯示部53、指示輸 入部54構(gòu)成,下面對這些進幹沈明。
關(guān)于文字圖像特征抽出部14、字形特征字典15、特征匹配部16、標 題區(qū)域初始處理部18、文檔圖像DB19、文檔圖像特征DB20的功能已進 行了說明。在此,僅對為實施文檔圖像管理處理而進一步所需的功能進行 適當說明,該文檔圖像管理處理中制作有意義的文檔名并對文檔圖像特征 DB20的文檔圖傳i^行管理。
采用圖21說明文檔圖像管理處理。從由圖像掃描儀2及數(shù)字攝影裝置 6構(gòu)成的文檔圖#^入部21,輸入文檔圖像1 N。
對于所輸入的文檔圖像1 ~N,標題區(qū)域初始處理部18對各文檔圖像
的內(nèi)容進行分析,并抽取出標題區(qū)域獲取文字列。接著,雖然未圖示,但
文字圖像特征抽出部14與上述同樣,將所抽取出的標題區(qū)域中包含的文字 列的文字圖像以1個文字為單位進行分割,并抽出各文字圖像的圖像特征。
然后,以這樣抽出的文字圖像的圖像特征為基礎(chǔ),由字形特征字典15 及特征匹配部16構(gòu)成的候補文字列生成部55,選擇圖像特征的匹配度高 的文字圖像作為候補文字,并制作成與所抽取出的標題區(qū)域中包含的文字 列相應(yīng)的候補文字列,而且如上述那樣采用詞匯解析法來調(diào)整構(gòu)成該候補 文字列的各候補文字,并設(shè)為有意義的候補文字列。
由候補文字列生成部55這樣生成的有意義的候補文字列被送到文檔 名制作部51。
文檔名制作部51,對所輸入的文檔圖像,制作出包含有由候補文字列 生成部55生成的有意義的候補文字列的文檔名。以下,將包含有該有意義 的候補文字列的文檔名稱為"有意義的文檔名"。
從時間數(shù)據(jù)等發(fā)生部60向文檔名制作部51,還輸入表示文檔圖像被 輸入的時間及輸入路徑的數(shù)據(jù)等其它數(shù)據(jù)。文檔名制作部51還可以采用至 少包含從時間數(shù)據(jù)等發(fā)生部60輸入的時間數(shù)據(jù)的其它數(shù)據(jù),來生成文檔 名。
例如,也可以構(gòu)成為將時間數(shù)據(jù)等其它數(shù)據(jù)之中的時間數(shù)據(jù)包含在 有意義的文檔名中,且將有意義的文檔名由時間數(shù)據(jù)和有意義的候補文字 列來構(gòu)成。
或者,也可以采用時間數(shù)據(jù)等其它數(shù)據(jù),來對相同的文檔圖像制作另 外的文檔名。以下,將由時間數(shù)據(jù)等其它數(shù)據(jù)等構(gòu)成的文檔名稱為原始的 文檔名。
通過這樣構(gòu)成,對一個文檔圖像,可以利用有意義的文檔名、以及由 時間數(shù)據(jù)等其它數(shù)據(jù)等構(gòu)成的原始的文檔名來進行管理。
對于每一個文檔圖像生成的有意義的文檔名、以及原始的文檔名,被 送到文檔圖像DB管理部52,且在文檔圖像DB19中,與文檔圖像的圖像 lt據(jù)相對應(yīng)地進行儲存。
文檔圖像DB管理部52,當用戶采用由鍵盤l等構(gòu)成的圖l所示的指
示輸入部54 ,來輸入文檔圖像DB19中所存儲的文檔圖像的閱覽指示等時, 在由顯示裝置3等構(gòu)成的圖l的文檔圖4象顯示部53上,顯示閱覽畫面。
圖22中表示在文檔圖像顯示部53上顯示的、文檔圖像DB19中所儲 存的文檔圖4象的閱覽畫面的一個例子。
圖中,左側(cè)所示畫面201表示所存儲的文檔圖像按原始的文檔名列表 表示的狀態(tài)。在畫面201的上面,示出了各文檔圖像的輸入順序。在紙面 上最靠前的帶有"AR - C262M_20060803_103140"的原始的文檔名的文 檔圖像,是在該畫面中最先被輸入的文檔^像。"20060803"表示輸入的曰 期(2006年8月3日),"103140"表示時間(10點31分40秒)。
在這樣的顯示狀態(tài)下,通過選擇畫面上所顯示的"有意義的文檔名" 的標識符等的^M乍,閱覽畫面的顯示在圖中將轉(zhuǎn)移到右側(cè)所示的畫面202。 畫面202表示所存儲的文檔圖,有意義的文檔名列4^示的狀態(tài)。
該畫面202與畫面201對應(yīng),在此,畫面201的上部所示的、紙面上 最靠前的帶有"定格惠州西湖"的有意義的文檔名的文檔圖像,是在該畫 面中最先被輸入的文檔圖像。
這樣,能夠按有意義的文檔名來進行閱覽,由此用戶可容易實施所存 儲的文檔圖4象的管理及搜索。此外, 一并制作出原始的文檔名,由此可同 時看到時間數(shù)據(jù)等信息與文檔名。
另外,在該文檔圖像處理裝置中,采用制作成的索引矩陣來制作索引 信息,并用于檢索處理中。因此,標題區(qū)域初始處理部18抽出文檔圖像中 包含的兩個或兩個以上標題區(qū)域T,并制作各自的索引矩陣。然而,如果 僅僅以對文檔圖像制作有意義的文檔名為目的的話,則沒有必要抽出文檔 圖像中包含的兩個或兩個以上標題并制作各自的索引矩陣。
換言之,可以構(gòu)成為對于最能表示出文檔圖像的標題區(qū)域中包含的 標題的文字列(文字圖像列),制作出索引矩陣,并基于此,使用特征匹 配的文字列,來制作帶有意義的名稱。
作為最能表示出文檔圖像的標題區(qū)域,例如可以設(shè)為所抽出的兩個或 兩個以上標題區(qū)域之中、存在于文檔圖像的最上面一行的區(qū)域。這是因為 重要的標題很多場合下配置在文檔圖像的最上面一行。
此外,也可以將標題區(qū)域中包含的文字的大小設(shè)為比某個閾值大,且 比所抽出的其它標題區(qū)域中的文字大。這是因為重要的標題很多場合下用 比其它標題大的文字大小來記載。
或者,也可以將標題區(qū)域中包含的文字的字體(字形)類型,設(shè)為與
所抽出的其它標題區(qū)域的文字不同的字體類型。這是因為重要的標題很多 場合下用與其它標題不同的字體(字形)來記載。此外,也可以附加其它
基準,并且各基準可以分別采用,也可以組合來采用。
此外,如該文檔圖像處理裝置那樣,在對于一個文檔圖像抽出兩個或 兩個以上標題區(qū)域,并制作出各自的索引矩陣的構(gòu)成中,通過標題區(qū)域的 配置位置、文字大小、或字體,來特定最重要的標題區(qū)域的索引矩陣即可。 此外,如果是這種場合,則特別優(yōu)選為,從所抽出的兩個或兩個以上標題 區(qū)域的索引矩陣中,制作出最頻繁出現(xiàn)的單詞包含在候補文字列中的索引 矩陣。
作為本發(fā)明的其它實施方式,也可以取代雙字母組模型而使用多字母 組模型進行索引矩陣的調(diào)整。
由于上述的實施方式,只是在候補文字列的調(diào)整方法中使用多字母組
模型這一方面不同,其它構(gòu)成相同,所以省略詳細i兌明。
圖23是表示使用了多字母組模型的索引矩陣的調(diào)整方法的流程圖。
在步驟S41中,判斷是否到達了索引矩陣的最后一行。如果未到達, 則進入步驟S42,如果到達,則進入步驟S50。
在步驟S42中,取出所關(guān)注的行,即在第1次的處理的情況下,取出 第l行的第l候補。在步驟S43中,適用多字母組模型,來對所關(guān)注的行 的第1候補和與其相鄰的行的M補的組合,在字典內(nèi)的出現(xiàn)頻度進行統(tǒng) 計性計數(shù)。
在步驟S44中,對計數(shù)值與預(yù)定的閾值進行比較,并判斷計數(shù)值是否 超過了閾值。如果超過了閾值,則進入步驟S45,如果未超過閾值,則進 入步驟S46。
在步驟S45中,決定相鄰的行的第l候補,然后進入步驟S46。在步 驟S46中,再次適用多字母組模型,對所關(guān)注的行和與其連續(xù)的兩個或兩
個以上行的^補的組合,在字典內(nèi)出現(xiàn)的頻度進行統(tǒng)計性計數(shù)。
在步驟S47中,對計數(shù)值與預(yù)定的閾值進行比較,判斷計數(shù)值是否超 過了閾值。如果超過了閾值,則i^步驟S48,決定在所關(guān)注的行之后連 續(xù)的兩個或兩個以上行的第l候補。如果未超過閾值,則選擇表示最大頻 度的文字,暫定為第l候補。
在步驟S50中,基于所決定的詞或語句之間的相關(guān)性,暫定第l候補。 在步驟S51中,判斷第l候補文字列中的文字集合是否符合字典數(shù)據(jù)的詞 義規(guī)則。如果符合,則ii^步驟S52,結(jié)束處理,獲得被調(diào)整的索引矩陣。 如果不符合,則i^步驟S53,調(diào)整不符合的行的第1候補,并結(jié)束處理。
這樣,通過適用多字母組模型,相比于雙字母組模型,可制作更正確 的候補文字列。
最后,文檔圖像處理裝置的各部分,特別是字體正規(guī)化處理部12、文 字圖像特征抽出部14、特征匹配部16、標題區(qū)域初始處理部18、檢索步 22、詞匯解析部23、文檔名制作部51、以及文檔圖1象DB管理部52等, 可以由硬件邏輯電路構(gòu)成,也可以如下那樣使用CPU通過軟件來實現(xiàn)。
即,文檔圖像處理裝置10具有執(zhí)行用于實現(xiàn)各功能的控制程序的命令 的CPU (central processing unit)、儲存有上述程序的ROM (read only memory )、展開上述程序的RAM (random access memory )、儲存上述程 序和各種數(shù)據(jù)的存儲器等存儲裝置(記錄媒體)等。而且,本發(fā)明的目的
可通過如下過程來達到,即將記錄有計算機可讀取的、實現(xiàn)上述的功能 的軟件即文檔圖像處理裝置10的控制程序的程序代碼(執(zhí)行形式程序、中 間代碼程序、源程序)的記錄媒體,提供給上述文檔圖像處理裝置IO,且 由該計算機(或CPU、 MPU)讀出記錄在記錄媒體上的程序代碼并執(zhí)行。
作為上述的記錄^體,例如可以采用磁帶或盒式磁帶等的磁帶類、包 括軟(注冊商標)盤/硬盤等磁盤和CD-ROM/MO/MD/DVD/CD-R等光盤 的盤類、IC卡(包括存儲卡)/光卡等的卡類、或掩模ROM/EPROM /EEPROM/閃存ROM等的半導(dǎo)體存儲器類等。
另夕卜,也可以將文檔圖像處理裝置IO構(gòu)成為能夠與通信網(wǎng)絡(luò)連接,通 過通信網(wǎng)絡(luò)來供給上述程序代碼。作為該通信網(wǎng)絡(luò),沒有特別的限定,例 如可以利用互聯(lián)網(wǎng)、內(nèi)部網(wǎng)、外聯(lián)網(wǎng)、LAN、 ISDN、 VAN、 CATV通信網(wǎng)、虛擬專用網(wǎng)(virtual private network)、電話線路網(wǎng)、移動體通信網(wǎng)、 衛(wèi)星通信網(wǎng)等。另外,作為構(gòu)成通信網(wǎng)絡(luò)的傳送媒體,沒有特別的限定, 例如既可以利用IEEE1394、 USB、電力線輸送、有線TV線路、電話線、 ADSL線路等的有線,也可以利用IrDA、遠程控制那樣的紅外線、Bluetoo也 (注冊商標)、802.11無線、HDR、移動電話網(wǎng)、衛(wèi)星線路、地面波數(shù)字 網(wǎng)等的無線。另外,本發(fā)明也能夠以上述程序代碼通過電子傳送而具體化 的被疊加在載波中的計算機數(shù)據(jù)信號的形式來實現(xiàn)。
本發(fā)明在不脫離其精神或主要特征的范圍內(nèi),能夠以其它各種形式實 施。從而,上述的實施方式只不過是在所有方面上的一種示例,本發(fā)明的 范圍由本發(fā)明的權(quán)利要求書來表示,不受本說明書的任何限定。并且,在
權(quán)利要求書范圍內(nèi)的變形和變更,均屬于;^發(fā)明的范圍內(nèi)。
權(quán)利要求
1.一種字形特征字典制作裝置,其特征在于,具有抽出部,根據(jù)兩個或兩個以上特征抽出方法,以一個文字為單位抽出文字圖像的圖像特征;計算部,將按照每個特征抽出方法抽出的圖像特征進行矢量化的同時,合成每個特征抽出方法的特征矢量并計算出合成矢量;存儲部,將計算出的合成矢量作為圖像特征以一個文字為單位進行儲存。
2. 如權(quán)利要求l所述的字形特征字典制作裝置,其特征在于,上述計算部基于按照每個特征抽出方法決定的權(quán)重對每個特征抽出方法的特 征矢量進行加權(quán),合成#權(quán)后的特征矢量并計算出合成矢量。
3. 如權(quán)利要求2所述的字形特征字典制作裝置,其特征在于, 上述計算部,根據(jù)文字圖像的字體種類來設(shè)定上述權(quán)重,計算出每個字體種類的合成矢量,并從每個字體種類的合成矢量中決定一個代表 矢量,上述存儲部,將所決定的代表矢量作為圖像特征進行儲存。
4. 如權(quán)利要求3所述的字形特征字典制作裝置,其特征在于,上述計 算部,依照學(xué)習(xí)矢量量化方法,來決定代表矢量。
5. 如權(quán)利要求l所述的字形特征字典制作裝置,其特征在于,上述兩 個或兩個以上特征抽出方法,是文字圖像外圍特征抽出方法、網(wǎng)格方向 特征抽出方法及分布方向特征抽出方法。
6. —種文檔圖像處理裝置,其特征在于,具有 字形特征字典,其由權(quán)利要求1所述的字形特征字典制作裝置制作; 文字列抽出部,其以由兩個或兩個以上文字構(gòu)成的文字列為單位,抽取出所輸入的文檔圖像中存在的文字圖像;圖像特征抽出部,其將由上述文字列抽出部抽取出的文字列的文字圖 像按單個文字進行分割,并抽出各文字圖像的圖像特征來作為上述合成矢 量;特征匹配部,其以由上述圖像特征抽出部抽出的文字圖像的圖像特征 為基礎(chǔ),從上述字形特征字典中,按照圖像特征的匹配度從高到低的順序選擇N個文字圖像作為候補文字,其中N為N>1的整數(shù),在將上述文字 列的文字數(shù)設(shè)為M個時,其中M為M〉1的整數(shù),制作MxN維的第l索 引矩陣,并且對于由構(gòu)成該第1索引矩陣的第1列的兩個或兩個以上候補 文字構(gòu)成的候補文字列,適用基于預(yù)定的語言模型的詞匯解析,而制作出 調(diào)整成有意義的文字列的第2索引矩陣;索引信息儲存部,其將由上述特征匹配部制作的第2索引矩陣與上述 所輸入的文檔圖^N目對應(yīng)地進行儲存;檢索部,其在檢索時,以所輸入的檢索式中的構(gòu)成檢索關(guān)鍵詞的l個 檢索文字為單位,檢索上述索引信息儲存部,而取出具有第2索引矩陣的 文檔圖像,該第2索引矩陣包含檢索文字。
7. 如權(quán)利要求6所述的文檔圖像處理裝置,其特征在于,上述特征匹 配部,使用雙字母組或多字母組模型作為語言模型來進行候補文字列的詞 匯解析。
8. 如權(quán)利要求6所述的文檔圖像處理裝置,其特征在于,上述特征匹 配部,通過基于詞匯解析,將上述第1索引矩陣的第1列的候補文字與 相同行的其它候補文字進行替換,而調(diào)整成有意義的候補文字列。
全文摘要
本發(fā)明提供一種字形特征字典制作裝置和具備該裝置的文檔圖像處理裝置,其中,抽取出文檔圖像中的文字數(shù)為M個的文字列的圖像,并將其分割成單個文字而抽出各文字圖像的圖像特征,基于該圖像特征,從將文字圖像的圖像特征以單個文字為單位儲存著的字形特征字典(15)中,按匹配度從高到低的順序,選擇出N個文字圖像作為候補文字,其中N為N>1的整數(shù),制作所抽取出的文字列的文字數(shù)M×N維的第1索引矩陣。對于由構(gòu)成該第1索引矩陣的第1列的兩個或兩個以上候補文字構(gòu)成的候補文字列,適用基于預(yù)定的語言模型的詞匯解析,制作將候補文字列調(diào)整成有意義的文字列的第2索引矩陣,并用于檢索中。由此,可使檢索精度進一步提高。
文檔編號G06K9/46GK101354704SQ20071012960
公開日2009年1月28日 申請日期2007年7月23日 優(yōu)先權(quán)日2007年7月23日
發(fā)明者寧 樂, 波 吳, 吳亞棟, 竇建軍, 靖 賈 申請人:夏普株式會社