專利名稱:信息處理設(shè)備、信息處理系統(tǒng)及信息處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于從多個內(nèi)容產(chǎn)生文檔的技術(shù)。
背景技術(shù):
在傳統(tǒng)技術(shù)中,當(dāng)用戶生成用于打印作為雜志或報紙的文檔或文檔文件 時,用戶搜集例如文章和圖像等內(nèi)容,判斷每一個內(nèi)容的重要程度或視覺質(zhì)量, 并確定文檔內(nèi)容的布局。然后將該文檔打印為雜志或"t艮紙。
例如,美國專利No. 7243303揭示了一種技術(shù),在該技術(shù)中,基于根據(jù)由 用戶預(yù)先確定的每一個內(nèi)容的重要程度預(yù)先確定的關(guān)系表達式,確定在文檔中 包括的內(nèi)容的位置和大小,然后基于確定的位置和大小在文檔上自動布置內(nèi) 容,并且將文檔作為數(shù)據(jù)輸出或打印出文檔。
然而,根據(jù)上述技術(shù),由于用戶確定要編輯的每一個目標(biāo)內(nèi)容的重要程度 以及這些內(nèi)容之間的關(guān)系,因此,當(dāng)存在大量內(nèi)容時,用戶需要確定所有內(nèi)容 的重要程度,這給用戶帶來了不便。
此外,由于內(nèi)容的重要程度是由用戶確定的,因此,當(dāng)由對確定內(nèi)容的重 要程度和關(guān)系具有不同標(biāo)準(zhǔn)的不同用戶在文檔上布置相同的內(nèi)容時,布局不利 地發(fā)生改變。
發(fā)明內(nèi)容
本發(fā)明的目的是至少部分地解決傳統(tǒng)技術(shù)中的上述問題。 根據(jù)本發(fā)明的一個方面,提供一種信息處理設(shè)備,該設(shè)備包括存儲部, 用于存儲包括多個內(nèi)容的文檔;輸入接收部,用于接收內(nèi)容信息;內(nèi)容提取部, 用于從在存儲部中存儲的文檔所包括的內(nèi)容中提取多個內(nèi)容,該多個內(nèi)容中的 每一個內(nèi)容包括內(nèi)容信息;關(guān)系計算部,用于計算由內(nèi)容提取部提取的提取內(nèi)
5容之間的語義相關(guān)程度;及布局產(chǎn)生部,用于基于語義相關(guān)程度來在新的文檔 上確定該提取內(nèi)容的位置并在所確定的位置上布置該提取內(nèi)容,從而產(chǎn)生新的 文檔。
根據(jù)本發(fā)明的另一方面,提供一種信息處理系統(tǒng),該信息處理系統(tǒng)經(jīng)由網(wǎng) 絡(luò)可連接到文檔服務(wù)器上,并且該信息處理系統(tǒng)存儲包括多個內(nèi)容的文檔,該 信息處理系統(tǒng)包括通信部,用于從文檔服務(wù)器中獲取文檔;存儲部,用于存 儲由通信部獲取的文檔;輸入接收部,用于接收內(nèi)容信息;內(nèi)容提取部,用于 從在存儲部中存儲的文檔所包括的內(nèi)容中提取多個內(nèi)容,該多個內(nèi)容的每一個 包括內(nèi)容信息;關(guān)系計算部,用于計算由內(nèi)容提取部提取的提取內(nèi)容之間的語 義相關(guān)程度;及布局產(chǎn)生部,用于基于語義相關(guān)程度來在新的文檔上確定該提 取內(nèi)容的位置并在所確定的位置上布置該提取內(nèi)容,從而產(chǎn)生新的文檔。
根據(jù)本發(fā)明的又一方面,提供一種產(chǎn)生文檔的方法,包括存儲步驟,在 存儲部中存儲包括多個內(nèi)容的文檔;接收步驟,接收內(nèi)容信息;提取步驟,從
在存儲部中存儲的文檔所包括的內(nèi)容中提取多個內(nèi)容,該多個內(nèi)容中的每一個 內(nèi)容包括內(nèi)容信息;計算步驟,計算在提取步驟中提取的提取內(nèi)容之間的語義 相關(guān)程度;確定步驟,基于語義相關(guān)程度來在新的文檔上確定該提取內(nèi)容的位 置;及布置步驟,在確定步驟中確定的位置上布置該提取內(nèi)容,從而產(chǎn)生新的 文檔。
當(dāng)聯(lián)系附圖考慮時,通過閱讀本發(fā)明的當(dāng)前優(yōu)選實施例的下面的具體描 述,將更好的理解本發(fā)明的上述及其它目的、特征、優(yōu)點及4支術(shù)和工業(yè)意義。
圖1是根據(jù)本發(fā)明第一實施例的信息處理設(shè)備的框圖2是在圖1中示出的存儲部中存儲的文檔的示例的示意圖3是在圖1中示出的存儲部中存儲的文檔中包括的文本的示意圖4是在圖1中示出的存儲部中存儲的文檔中包括的表格的示意圖5是在圖1中示出的存儲部中存儲的文檔中包括的圖像的示意圖6是用于說明在圖5中示出的圖像周圍描述文本的示例的示意圖7是用于說明由圖1中示出的顯示部顯示的輸出設(shè)置屏幕的示例的示意
圖;圖8是由圖1中示出的關(guān)系計算部產(chǎn)生的數(shù)值矩陣的示例,其中每一個數(shù) 值都表示內(nèi)容之間的相似性;
圖9是表示由關(guān)系計算部產(chǎn)生的關(guān)系圖的示例,該關(guān)系圖表示內(nèi)容之間的
關(guān)系;
圖IO是用于說明由圖1中示出的布局產(chǎn)生部產(chǎn)生的內(nèi)容的布局的示意圖ll是在顯示部上顯示多個內(nèi)容的情況的示意圖12是用于說明僅選擇圖11中示出的內(nèi)容來由顯示部顯示的情況的示意
圖13是由圖1中所示的信息處理設(shè)備執(zhí)行的文檔產(chǎn)生操作的流程圖; 圖14是根據(jù)本發(fā)明第二實施例的信息處理系統(tǒng)的框圖; 圖15是由圖14中所示的信息處理系統(tǒng)執(zhí)行的文檔產(chǎn)生操作的流程圖; 圖16是根據(jù)本發(fā)明第三實施例的多功能產(chǎn)品(MFP)的框圖;及 圖17是MFP的示例性硬件配置的框圖。
具體實施例方式
下面,參考附圖詳細說明本發(fā)明的示例性實施例。
圖1是根據(jù)本發(fā)明第一實施例的信息處理設(shè)備100的框圖。信息處理設(shè)備 100包括輸入接收部110、存儲部120、顯示部130、內(nèi)容提取部140、關(guān)系計 算部150及布局產(chǎn)生部160。
輸入接收部110包括例如鍵盤、鼠標(biāo)或觸摸面板等輸入設(shè)備(未示出)。 輸入接收部110接收來自用戶的指令和/或數(shù)據(jù)。特定地,輸入接收部110接 收在存儲部120中存儲的包括文本文檔數(shù)據(jù)或圖像數(shù)據(jù)以及用于從包括各種 文本、圖像、表格等文檔中提取內(nèi)容的關(guān)鍵字的文件的說明(specification)等 (下文稱為"文檔")。
輸入接收部110接收在布局產(chǎn)生部160在文檔上布置由內(nèi)容提取部140提 取的各種內(nèi)容時由布局產(chǎn)生部160使用的輸出設(shè)置。例如,該種輸出設(shè)置包括 輸出文件的格式、每頁的字符數(shù)量、列設(shè)置的存在或不存在以及頁邊距。
此外,輸入接收部110接收用于從文檔識別內(nèi)容的區(qū)域說明。例如,區(qū)域 說明可以以行數(shù)和頁數(shù)的形式,例如"從第2頁第1行到第4頁第50行"。
存儲部120是例如硬盤驅(qū)動器(HDD)或存儲器等存儲介質(zhì)。存儲部120
7預(yù)先存儲上述文檔及由布局產(chǎn)生部160產(chǎn)生的文檔。圖2是在存儲部120中存 儲的文檔的示例的示意圖。存儲部120存儲例如abc.doc、 def.pdf、 ghi.html、 jkl.jpg及mno.txt文檔等各種類型的文檔。存儲部120以相關(guān)聯(lián)的方式來存儲 表示在每一個文檔中包括的頁數(shù)的頁信息以及表示在每一頁中包括的內(nèi)容的 內(nèi)容信息。
例如,abc.doc文檔包括4頁,并且abc.doc文檔的第 一 頁包括由圖2中所 示的斜線表示的內(nèi)容301。內(nèi)容301包括由輸入接收部110接收到的關(guān)鍵字(例 如,"公司A")。
abc.doc文檔的第二頁以與第一頁相同的方式包括內(nèi)容302,內(nèi)容302包括 由輸入接收部110接收到的不同的關(guān)鍵字(例如,"管理負責(zé)人(principal),,)。
類似地,def.pdf文檔包括在第二頁上具有關(guān)鍵字(例如,"公司A")的內(nèi) 容304。 ghi.Mml文檔也包括具有關(guān)鍵字(例如,"公司A")的內(nèi)容303。
存儲部120中存儲的文檔不限于圖2中所示的文檔的類型。例如,文檔可 以是可擴展標(biāo)識語言(XML)數(shù)據(jù)、以開放文檔格式產(chǎn)生成的數(shù)據(jù)或郵件、 多媒體目標(biāo)、動畫目標(biāo)等。
圖3是內(nèi)容301的示意圖。內(nèi)容301包括在abc.doc文檔的第一頁上以明 細方式寫出的文本。當(dāng)輸入接收部110接收到來自用戶的關(guān)鍵字"公司A"時, 內(nèi)容提取部140如后面描述的那樣識別包括關(guān)鍵字"公司A"的文本。存儲部 120存儲包括例如內(nèi)容301等具有關(guān)鍵字的內(nèi)容的文檔。
圖4是內(nèi)容302的示意圖。內(nèi)容302包括表示公司A的每一個部門的收 入及支出的表格。除了文本,可以以表格形式表現(xiàn)在文檔中包括的內(nèi)容。
圖5是內(nèi)容303的示意圖。內(nèi)容303包括具有公司A的標(biāo)識的主頁。該 標(biāo)識為圖像的形式。
圖6是用于說明在標(biāo)識的周圍(圖6中為在標(biāo)識的下面)描述了用于說明 公司A的標(biāo)識的文本的示例的示意圖。在文檔中包括的其它內(nèi)容可以包括圖 像或表格,以及在圖像或表格周圍布置的用于說明圖像或表格的文本數(shù)據(jù)。
另外,連同例如文本、表格及圖像等各種數(shù)據(jù),文檔可以包括例如生成數(shù) 據(jù)的日期和時間、數(shù)據(jù)的生成者、數(shù)據(jù)格式、標(biāo)題及注釋等描述信息(下文稱 為"屬性信息")的元數(shù)據(jù)。如果文檔包括元數(shù)據(jù),則內(nèi)容提取部140確定由輸入接收部110接收到的關(guān)鍵字與屬性信息(例如,生成者)是否相匹配,從
而從文檔識別內(nèi)容。
圖7是用于說明用于產(chǎn)生由顯示部130顯示的文檔的輸出設(shè)置屏幕的示例 的示意圖。顯示部130包括例如液晶顯示器(LCD)等顯示設(shè)備(未示出)。 顯示部130顯示登錄屏幕130a以接收輸入,輸入例如是用于從文檔提取內(nèi)容 的關(guān)鍵字、要產(chǎn)生的文檔的標(biāo)題、文檔的生成者、文檔的摘要信息、頁眉和頁 腳的存在或不存在、例如兩列格式的存在或不存在的頁格式以及如果要打印出 文檔時紙張的大小。
顯示部130顯示由布局產(chǎn)生部160如后面描述的那樣產(chǎn)生的文檔的內(nèi)容。 此外,如果根據(jù)由輸入接收部IIO接收到的各種條件產(chǎn)生了多個文檔,則顯示 部130對用戶顯示選擇屏幕(未示出)以選擇所產(chǎn)生的文檔中的一個。
內(nèi)容提取部140從在存儲部120中存儲的各種文檔中識別出包括由輸入接 收部IIO接收到的關(guān)鍵字的文檔。然后,內(nèi)容提取部140從所識別出的文檔中 識別包括關(guān)鍵字的文本等作為內(nèi)容,從該文檔中提取所識別出的內(nèi)容,并在存 儲部120中存儲所提取的內(nèi)容。
特定地,當(dāng)輸入接收部IIO接收到關(guān)鍵字時,內(nèi)容提取部140從多個文檔 中識別出包括與關(guān)鍵字相同的文本的文檔,從所識別出的文檔中識別出包括與 關(guān)鍵字相同的文本的文本等,并提取出所識別出的文本等作為內(nèi)容。
識別出要作為內(nèi)容提取的文本的區(qū)域從而例如確定在包括與關(guān)鍵字相同 的文本的文本之前和之后是否存在空白行或段分隔符,如果在與關(guān)鍵字相同的 文本之前存在空白行或段分隔符,則確定空白行或段分隔符的位置是要提取的 內(nèi)容的開始位置。
以相同的方式,如果在與關(guān)鍵字相同的文本之后存在空白行或段分隔符, 則確定空白行或段分隔符的位置是要提取的內(nèi)容的結(jié)束位置。這樣,確定開始 位置和結(jié)束位置,并提取出由開始位置和結(jié)束位置包圍的區(qū)域中的文本等作為 內(nèi)容。
例如,當(dāng)使用"公司A"作為關(guān)鍵字從文檔中提取圖3中所示的內(nèi)容301 時,內(nèi)容提取部140識別出"公司A"出現(xiàn)的位置(描述"公司A的管理負 責(zé)人"的行)。然后,內(nèi)容提取部140確定在所識別出的位置上的行的前一行是否是空白行,如果是空白行,則在隨機訪問存儲器(RAM)(未示出)中存 儲該行作為用于識別內(nèi)容的開始位置(開始行)。特定地,在RAM中存儲位 于出現(xiàn)"公司A的管理負責(zé)人"的行之前的第一空白行的位置。
以相同的方式,在RAM中存儲位于出現(xiàn)"公司A的管理負責(zé)人"的行之 后的第一空白行的位置。識別出由這些空白行包圍的區(qū)域內(nèi)的文本(在圖3 中以明細方式所寫的"7>司A的管理負責(zé)人"中的第一和隨后的項)作為內(nèi) 容,并從文檔abc.doc中提取出所識別出的內(nèi)容。
如果在由內(nèi)容的開始位置和結(jié)束位置包圍的區(qū)域中包括圖像,則內(nèi)容提取 部140認出圖像和圖像周圍描述的文本二者作為內(nèi)容,并從文檔中提取圖像和 文本。
例如,在識別包括關(guān)鍵字的內(nèi)容時,內(nèi)容提取部140通過讀取用于在文檔 等中嵌入圖像的標(biāo)簽確定在內(nèi)容的區(qū)域中是否存在圖像。然后,內(nèi)容提取部 140認出由該標(biāo)簽包圍的區(qū)域作為圖像,并從文檔中提取用于說明該圖像的、 與圖6中所示的文本相同的文本以及該圖像。
在讀取圖5所示的內(nèi)容303中的標(biāo)識中包括的文本"公司A"之后,內(nèi)容 提取部140可以識別出由標(biāo)簽等包圍的區(qū)域作為圖像,如果在圖像周圍(圖6 中在圖像下面)設(shè)置了包括與關(guān)鍵字"公司A"相同的文本的說明文本,則內(nèi) 容提取部140提取所識別出的圖像以及說明文本。
上面說明了內(nèi)$^取部140通過識別空白行、段分隔符或標(biāo)簽來識別在文 檔中包括的內(nèi)容,并從文檔中提取所識別的內(nèi)容??蛇x擇地,例如,可以配置 內(nèi)容提取部140以通過識別行分隔符的位置等來識別內(nèi)容。
此外,上面說明了內(nèi)容提取部140通過在文檔中包括的文本或圖像的位置 (行或標(biāo)簽)等識別內(nèi)容,并從文檔中提取所識別的內(nèi)容??蛇x擇地,如果文 檔的內(nèi)容像報紙文章那樣被預(yù)先包括在某布局框(layout frame )(尤其是具有 預(yù)定長度和寬度的布局框)中,則可以配置內(nèi)容提取部140以識別布局框作為 內(nèi)容,并從文檔中提取所識別的內(nèi)容。特定地,可以配置內(nèi)容提取部140以不 識別內(nèi)容的開始位置和結(jié)束位置、標(biāo)簽的位置等而識別在布局框中包括的整個 文本或圖像作為內(nèi)容,并從文檔中提取所識別的內(nèi)容。
如果輸入接收部110接收到關(guān)鍵字的說明及在文檔中包括的內(nèi)容的區(qū)域,則可以配制內(nèi)容提取部140以在指定區(qū)域(例如,從第2頁上第1行到第4 頁上第50行的區(qū)域)內(nèi)提取包括輸入接收部IIO接收到的關(guān)鍵字的內(nèi)容。
關(guān)系計算部150分析由內(nèi)容提取部140從文檔中提取并存儲在存儲部120 中的每個內(nèi)容的語義內(nèi)容,確定有多少內(nèi)容互相相似,并以數(shù)值表示相似性。
特定地,關(guān)系計算部150讀取在由內(nèi)容提取部140從文檔中提取并存儲在 存儲部120中的內(nèi)容中描述的文本,并通過使用例如全文搜索等方法比較文本 來確定有多少文本與從文檔中提取的不同內(nèi)容中描述的文本相匹配。
如果文本完全匹配,則內(nèi)容提取部140在存儲部120中存儲"1.0"作為 表示內(nèi)容之間的相似程度的數(shù)值。如果文本根本不匹配,則內(nèi)容提取部140 在存儲部120中存儲"0.0"作為表示內(nèi)容之間的相似程度的數(shù)值。
此外,如果僅僅文本的部分匹配,則關(guān)系計算部150的一種方法是基于在 多個內(nèi)容的每一個內(nèi)容中包括的關(guān)鍵字的命中(hit)數(shù)量來確定內(nèi)容之間的相 似程度,并在存儲部120中存儲例如"0.3"或"0.6"等數(shù)值作為確定結(jié)果。 如果接收到多個關(guān)鍵字,則關(guān)系計算部150可以對第一關(guān)鍵字和第二關(guān)鍵字中 的每一個分配權(quán)重值,并通過比較內(nèi)容中的第一關(guān)鍵字和第二關(guān)鍵字的命中數(shù) 量來計算表示內(nèi)容之間的相似程度的數(shù)值。在該情況下,關(guān)系計算部150關(guān)于 每一個關(guān)鍵字計算表示內(nèi)容之間的相似程度的數(shù)值,并在存儲部120中存儲計 算出的數(shù)值。
圖8是由關(guān)系計算部150產(chǎn)生的數(shù)值矩陣的示例,其中每一個數(shù)值都表示 內(nèi)容之間的相似性。在計算內(nèi)容之間的相似程度作為數(shù)值時,關(guān)系計算部150 產(chǎn)生通過以表格形式呈現(xiàn)每一個數(shù)值都表示內(nèi)容之間的相似程度的數(shù)值獲得 的矩陣。關(guān)系計算部150可以對每一個關(guān)#:字產(chǎn)生該種矩陣。
圖9是表示由關(guān)系計算部150產(chǎn)生的關(guān)系圖的示例,該關(guān)系圖表示內(nèi)容之 間的關(guān)系。關(guān)系計算部150通過參考所產(chǎn)生的矩陣來產(chǎn)生關(guān)系圖。例如,關(guān)系 計算部150基于在內(nèi)容al和內(nèi)容a2的每一個中包括的關(guān)鍵字的命中數(shù)量,計 算出表示圖8中所示的內(nèi)容al和內(nèi)容a2之間的相似程度的數(shù)值為"0.3",然 后產(chǎn)生通過由如圖9中所示的線連接內(nèi)容al和內(nèi)容a2獲得的關(guān)系圖。以相同 的方式,關(guān)系計算部150通過連接內(nèi)容al和內(nèi)容bl、內(nèi)容al和內(nèi)容cl以及 內(nèi)容a2和內(nèi)容bl產(chǎn)生關(guān)系圖。布局產(chǎn)生部160基于圖9中所示的關(guān)系圖和圖8中所示的矩陣,在新的文 檔的頁上布置每一個內(nèi)容。
圖10是用于說明基于表示內(nèi)容al、 a2、 bl及cl之間的相似程度的數(shù)值 由布局產(chǎn)生部160產(chǎn)生的內(nèi)容al、 a2、 bl及cl的布局。特定地,布局產(chǎn)生部 160確定內(nèi)容的位置作為在新的文檔的頁上的參考(例如,內(nèi)容al的中心點 a10),新的文檔的頁具有預(yù)設(shè)的長度Y和寬度X,其中頁的左上端被定義為 零,圖10中的向右方向和向下方向分別被定義為x軸和y軸。
布局產(chǎn)生部160在位于離中心點a10相應(yīng)于表示內(nèi)容al和cl之間的相似 性的數(shù)值"0.5"的距離的位置上布置具有與內(nèi)容al高度相似的內(nèi)容。如果表 示內(nèi)容之間的相似性的數(shù)值是"1.0",則布局產(chǎn)生部160確定內(nèi)容完全匹配, 并鄰近在新的文檔上作為參考的內(nèi)容布置該內(nèi)容。
如果內(nèi)斜艮本不匹配,則表示內(nèi)容之間的相似性的數(shù)值是"0.0",因此, 布局產(chǎn)生部160以長度y和寬度x為最大值在互相最遠離的位置上布置內(nèi)容。 例如, 一個內(nèi)容被布置在文檔的頁的最上端,而另一個內(nèi)容被布置在該頁的最 下端。
特定地,當(dāng)表示內(nèi)容之間的相似程度的數(shù)值是不同于"1.0"和"0.0"的 數(shù)值(例如,"0.5"),則布局產(chǎn)生部160按比例地劃分對應(yīng)于數(shù)值"1.0"和"0.0" 的距離來計算離作為參考的內(nèi)容(例如,內(nèi)容al)的距離,并基于計算出的 距離在新的文檔中布置內(nèi)容。
如果輸入接收部IIO接收到關(guān)于文檔的輸出設(shè)置信息(例如,輸出文件的 格式、每頁的字符數(shù)量、列設(shè)置的存在或不存在、頁邊距),則布局產(chǎn)生部160 基于輸出設(shè)置信息和由關(guān)系計算部150計算出的表示內(nèi)容之間相似程度的數(shù) 值來在新的文檔上布置每一個內(nèi)容。
例如,如果文件格式是文檔文件格式(例如,AA.doc)并且例如無頁邊 距和兩列格式等輸出設(shè)置被指定,則在圖10中所示的布局上布置內(nèi)容。
當(dāng)布局產(chǎn)生部160在文檔上布置每一個內(nèi)容時,顯示部130顯示該內(nèi)容。 圖11是用于說明當(dāng)輸出設(shè)置被指定從而在具有兩列格式和不具有兩列格式的 布局上顯示文檔時,在顯示部130的窗口 130b上顯示的所產(chǎn)生的文檔的顯示 示例的示意圖。
12出的顯示部130顯示的文檔要通過不具有兩列格式輸出設(shè)置輸出的情況的示意圖。以該方式,從在存儲部120中存儲的文檔中提取內(nèi)容,并通過組合所提取的內(nèi)容來產(chǎn)生新的文檔。
圖13是由信息處理設(shè)備100執(zhí)行的文檔產(chǎn)生操作的流程圖。在下面的描述中,假設(shè)存儲部120存儲圖2所示的文檔,輸入接收部110不接收用于從文檔識別內(nèi)容的區(qū)域說明。
輸入接收部IIO接收到用于從文檔中提取內(nèi)容的關(guān)鍵字(步驟S1301),并接收到要產(chǎn)生的新文檔的輸出設(shè)置信息(步驟S1302 )。
然后,內(nèi)容提取部140從在存儲部120中存儲的文檔中提取包括在步驟S1301中接收到的關(guān)鍵字的文檔(步驟S1303 )。
然后,內(nèi)容提取部140讀取在步驟S1303中提取的文檔中描述的內(nèi)容,從文檔中提取每個都包括在步驟S1301接收到的關(guān)鍵字的多個內(nèi)容,并在存儲部120中存儲所提取的內(nèi)容(步驟S1304)。
然后,關(guān)系計算部150讀取在步驟S1304中在存儲部120中存儲的每一個內(nèi)容中包括的文本,確定在文本中命中由輸入接收部IIO接收到的關(guān)鍵字的數(shù)量,并計算表示內(nèi)容之間的相似(語義相關(guān))程度的數(shù)值(步驟S1305 )。
此外,關(guān)系計算部150產(chǎn)生在步驟S1305中計算出的數(shù)值的矩陣,并通過使用矩陣中的數(shù)值產(chǎn)生關(guān)系圖(步驟S1306)。
然后,基于在步驟S1302由輸入接收部IIO接收到的輸出設(shè)置信息及在步驟S1305由關(guān)系計算部計算出的數(shù)值,布局產(chǎn)生部160在新的文檔上布置在步驟S1304中由內(nèi)容提取部140提取的內(nèi)容(步驟S1307),然后,在存儲部120中存儲包括上述布置的內(nèi)容的新的文檔(步驟S1308)。當(dāng)步驟S1308中的操作結(jié)束時,用于產(chǎn)生新的文檔的所有操作結(jié)束。
如上所述,根據(jù)第一實施例,存儲部120存儲文檔,輸入接收部IIO接收用于從文檔中提取內(nèi)容的關(guān)鍵字,內(nèi)容提取部140從文檔中提取每個都包括由輸入接收部IIO接收的關(guān)鍵字的多個內(nèi)容。此外,關(guān)系計算部150計算由內(nèi)容提取部140提取的內(nèi)容之間的語義相關(guān)程度,布局產(chǎn)生部160基于內(nèi)容之間的語義相關(guān)程度來在新的文檔上確定這些內(nèi)容的位置并在這些位置上布置內(nèi)容,從而產(chǎn)生新的文檔。從而,可以通過不給用戶造成麻煩而以簡單及客觀的方式提取內(nèi)容來產(chǎn)生文檔。
此外,文檔的內(nèi)容包括圖像數(shù)據(jù)或文本數(shù)據(jù),圖像數(shù)據(jù)包括表示圖像數(shù)據(jù)
是否包括文本的屬性信息?;谟奢斎虢邮詹?10接收的關(guān)鍵字及在圖像數(shù)據(jù)中包括的屬性信息或在文本數(shù)據(jù)中所包括的文本,內(nèi)容提取部140從文檔中提取多個內(nèi)容。從而,可以通過更簡單及更客觀的方式提取內(nèi)容來產(chǎn)生文檔。
另外,屬性信息是在圖像數(shù)據(jù)周圍布置的文本,并且,基于由輸入接收部110接收的關(guān)鍵字及在圖像數(shù)據(jù)周圍布置的屬性信息或在文本數(shù)據(jù)中包括的文本,內(nèi)容提取部140從文檔中提取多個內(nèi)容。從而,可以通過以更簡單及更客觀的方式提取內(nèi)容來產(chǎn)生文檔。
此外,關(guān)系計算部150通過比較內(nèi)容產(chǎn)生表示內(nèi)容之間的相似性的關(guān)系圖,并基于所產(chǎn)生的關(guān)系圖來計算內(nèi)容之間的語義相關(guān)程度,從而用戶在產(chǎn)生文檔的過程中可以真實地確定內(nèi)容之間的相關(guān)性。
另外,關(guān)系計算部150通過比較內(nèi)容產(chǎn)生表示內(nèi)容之間的相似性的表格,并基于所產(chǎn)生的表格來計算內(nèi)容之間的語義相關(guān)程度,從而用戶在產(chǎn)生文檔的過程中可以快速地確定內(nèi)容之間的相關(guān)性。
此外,輸入接收部IIO接收表示文檔中的預(yù)定區(qū)域的區(qū)域信息,內(nèi)容提取
容,關(guān)系計算部150計算由內(nèi)容提取部140提取的內(nèi)容之間的語義相關(guān)程度。
另外,以多個內(nèi)容中的一個內(nèi)容作為參考,關(guān)系計算部150將計算出的內(nèi)容之間的語義相關(guān)程度轉(zhuǎn)換為在新的文檔上的坐標(biāo)系統(tǒng)中的位置關(guān)系,并且,基于由關(guān)系計算部150所轉(zhuǎn)換的位置關(guān)系,布局產(chǎn)生部160在新的文檔上確定內(nèi)容的位置。從而,用戶可以更真實并更直觀地確定內(nèi)容之間的相關(guān)性。
如上所述,根據(jù)第一實施例,從在存儲部120中存儲的文檔中提取多個內(nèi)容,計算表示內(nèi)容之間的相關(guān)性的數(shù)值,并基于該數(shù)值在新的文檔上布置內(nèi)容。然而,可以在因特網(wǎng)環(huán)境或局域網(wǎng)(LAN)環(huán)境中獲取包括目標(biāo)內(nèi)容(通過該目標(biāo)內(nèi)容新的文檔將要產(chǎn)生)的文檔。在下面的描述中,說明信息處理設(shè)備經(jīng)由網(wǎng)絡(luò)檢索在服務(wù)器設(shè)備中存儲的文檔,在信息處理設(shè)備的存儲部中存儲文檔,從在存儲部中存儲的文檔中提取多個內(nèi)容,并計算內(nèi)容之間的相似性,從而產(chǎn)生新的文檔。
圖14是才艮據(jù)本發(fā)明第二實施例的信息處理系統(tǒng)1000的框圖。信息處理系統(tǒng)1000包括信息處理設(shè)備500、服務(wù)器設(shè)備700及通信網(wǎng)絡(luò)600。信息處理設(shè)備500與信息處理設(shè)備100的不同之處在于信息處理設(shè)備500還包括通信部1401、存儲部1402及檢索部1403。在下面的描述中,相同的附圖標(biāo)記用于與在第一實施例中的部件相同的部件,'并省略這些相同部件的說明。
通信部1401是傳播信息處理設(shè)備500及通信網(wǎng)絡(luò)600之間的通信的通信接口 ( I/F )。通信部1401是使檢索部1403從服務(wù)器設(shè)備700獲取文檔并在存儲部1402中存儲所獲取的文檔的中間部件。
存儲部1402是例如HDD或存儲器等記錄介質(zhì)。存儲部1402既存儲由檢索部1403從服務(wù)器設(shè)備700中獲取的文檔,也存儲在信息處理設(shè)備500中預(yù)先存儲的本地文檔。由于存儲部1402的具體配置與第一實施例中的配置相同,因此省略該配置的說明。
檢索部1403從服務(wù)器設(shè)備700中存儲的文檔中檢索包括與由輸入接收部110接收的關(guān)鍵字相同的文本的文檔,并在存儲部1402中存儲所檢索出的文檔。
當(dāng)檢索部1403從服務(wù)器設(shè)備700中檢索并獲取文檔時,通信網(wǎng)絡(luò)600將來自服務(wù)器設(shè)備700的文檔傳送到檢索部1403。通信網(wǎng)絡(luò)600是因特網(wǎng)或例如LAN或無線LAN等網(wǎng)絡(luò)。
服務(wù)器設(shè)備700包括通信部710及存儲部720。
通信部710是傳播服務(wù)器設(shè)備700及通信網(wǎng)絡(luò)600之間的通信的通信接口(I/F )。通信部710是接收來自檢索部1403的文檔檢索請求并將在存儲部720中存儲的文檔傳送到信息處理設(shè)備500的中間部件。
存儲部720是例如HDD或存儲器等記錄介質(zhì)。存儲部720存儲包括文本、圖像、文章等的文檔。由于存儲部720的具體配置與第一實施例中的配置相同,因此省略該配置的說明。
信息處理系統(tǒng)1000與信息處理設(shè)備100的不同之處僅在于,檢索部1403從服務(wù)器設(shè)備700中檢索并獲取文檔,并在存儲部1402中存儲所獲取的文檔,因此,下面參考圖15僅說明該操作。由于其它操作與在第一實施例中的那些操作相同,因此相同的附圖標(biāo)記用于與在第一實施例中的操作中的那些部件相同的部件,并省略那些部件的說明。
圖15是由信息處理系統(tǒng)1000執(zhí)行的文檔產(chǎn)生操作的流程圖。當(dāng)輸入接收部110接收到關(guān)鍵字(步驟S1301)并接收到要產(chǎn)生的新的文檔的輸出設(shè)置信息(步驟S1302 )時,檢索部1403經(jīng)由通信部1401及通信網(wǎng)絡(luò)600訪問服務(wù)器設(shè)備700,檢索包括在步驟S1301中接收的關(guān)鍵字的文檔,獲取所檢索的文檔,并在存儲部1402中存儲所獲取的文檔(步驟S1501 )。內(nèi)容提取部140從在存儲部1402中存儲的文檔中提取每個都包括關(guān)鍵字的多個內(nèi)容。然后,執(zhí)行與在第一實施例中的操作相同的操作(步驟S1304到S1308)。
如上所述,在經(jīng)由通信網(wǎng)絡(luò)600連接到服務(wù)器設(shè)備700的信息處理設(shè)備500中,通信部1401從服務(wù)器設(shè)備700中獲取文檔,存儲部1402存儲由通信部1401獲取的文檔,輸入接收部IIO接收用于從文檔識別內(nèi)容的信息(關(guān)鍵字),內(nèi)容提取部140從文檔中提取每個都包括由輸入接收部110所接收的關(guān)鍵字的多個內(nèi)容。此外,關(guān)系計算部150計算由內(nèi)容提取部140所提取的內(nèi)容之間的語義相關(guān)程度,布局產(chǎn)生部160基于這些內(nèi)容之間的語義相關(guān)程度來在新的文檔上確定這些內(nèi)容的位置并在這些位置上布置內(nèi)容,從而產(chǎn)生新的文
檔并從文檔中提取內(nèi)容來產(chǎn)生新的文檔。
在第一和第二實施例中說明了通過使用由輸入接收部110接收的關(guān)鍵字來從在存儲部中存儲的文檔中識別并提取內(nèi)容,計算表示內(nèi)容之間的相似性的數(shù)值,并基于計算出的數(shù)值在新的文檔上布置內(nèi)容。然而,當(dāng)通過提取例如在報紙或雜志中包括的文章等不同于預(yù)先存儲的內(nèi)容的內(nèi)容來產(chǎn)生文檔時,需要讀取在報紙或雜志的頁中包括的文章以產(chǎn)生文檔。因此,在下面的描述中,說明讀取在報紙或雜志的頁中包括的文本或圖像,產(chǎn)生通過讀取文本或圖像獲得的圖像數(shù)據(jù)作為文檔,從產(chǎn)生的文檔中提取多個內(nèi)容,并計算內(nèi)容之間的相似性,從而產(chǎn)生新的文檔。
圖16是根據(jù)本發(fā)明第三實施例的多功能產(chǎn)品(MFP )800的框圖。MFP 800與信息處理設(shè)備100的不同之處在于MFP 800包括操作顯示部1601、掃描部1602、存儲部1603及打印部1604。在下面的描述中,相同的附圖標(biāo)記用于與在第一實施例中的操作中的那些部件相同的部件,并省略那些部件的說明。雖然下面說明第三實施例被應(yīng)用于包括復(fù)制功能、傳真功能、打印功能、掃描功能等的MFP 800,但是該實施例可以被應(yīng)用于具有打印功能的設(shè)備。
操作顯示部1601包括例如液晶顯示器(LCD)等顯示器(未示出)。操作顯示部1601是當(dāng)掃描部1602根據(jù)來自用戶的指令讀取報紙、雜志等的原件并在存儲部1603中存儲通過讀取原件獲得的數(shù)據(jù)時或當(dāng)打印部1604輸出在存儲部1603中存儲的文檔時指定設(shè)置信息(例如存在/不存在雙面打印、擴大打印及縮小打印、放大或縮小的比例等打印設(shè)置信息)的I/F。
掃描部1602包括自動輸稿器(ADF)(未示出)和讀取部(未示出)。在從操作顯示部1601接收到用戶的指令時,掃描部1602根據(jù)用于文檔的輸出設(shè)置來讀取在曝光玻璃上的預(yù)定位置上放置的原件,并在存儲部1603中存儲通過讀取原件獲得的數(shù)據(jù)作為圖像數(shù)據(jù)(文檔)。
存儲部1603是例如HDD或存儲器等記錄介質(zhì)。存儲部1603既存儲從由掃描部1602讀取的原件產(chǎn)生的圖像數(shù)據(jù)(文檔),也存儲在MFP 800中預(yù)先存儲的本地文檔。由于存儲部1603的具體配置與在第一實施例中的配置相同,因此省略該配置的說明。
打印部1604包括光學(xué)寫入部(未示出)、光敏元件(未示出)、中間轉(zhuǎn)印帶(未示出)、充電部(未示出)、例如定影輥等各種輥(未示出)以及收集盤(未示出)。打印部1604根據(jù)經(jīng)由操作顯示部1601從用戶接收的打印指令打印出在存儲部1603中存儲的文檔,并將具有已打印的文檔的紙排出到收集盤。
雖然沒有參考
由MFP800執(zhí)行的操作,然而,掃描部1602根據(jù)用戶的指令讀取包括文本、圖像、文章等的原件,并在存儲部1603中存儲通過讀取原件獲得的圖像數(shù)據(jù)(文檔)。然后,在執(zhí)行圖13中所示的步驟S1301到S1308的操作之后,打印部1604執(zhí)行打印出在步驟S1301到S1308產(chǎn)生的文檔的操作。當(dāng)上述操作結(jié)束時,根據(jù)第三實施例的全部操作結(jié)束。
如上所述,掃描部1602讀取包括文檔中包括的文本或圖像的數(shù)據(jù),存儲部1603存儲由掃描部1602讀取的數(shù)據(jù),輸入接收部IIO接收用于從文檔中提取內(nèi)容的關(guān)鍵字。此外,內(nèi)容提取部140從文檔中提取每個都包括由輸入接收
17部110接收的關(guān)鍵字的多個內(nèi)容,關(guān)系計算部150計算由內(nèi)容提取部140提取 的內(nèi)容之間的語義相關(guān)程度,布局產(chǎn)生部160基于內(nèi)容之間的語義相關(guān)程度來 在新的文檔上確定內(nèi)容的位置并在這些位置上布置內(nèi)容,從而產(chǎn)生新的文檔。 另外,打印部1604打印出由布局產(chǎn)生部160產(chǎn)生的新的文檔。這樣,可以通 過不給用戶造成麻煩而以簡單及客觀的方式從沒有預(yù)先存儲的文檔中提取內(nèi) 容來產(chǎn)生并打印出新的文檔。
圖17是用于說明MFP800的硬件配置的框圖。MFP800包括經(jīng)由外圍設(shè) 備互聯(lián)(PCI)總線互相連接的控制器10和引擎60??刂破?0控制整個MFP 800、繪圖操作、通信及從操作部接收的輸入(未示出)。引擎60是可以被連 接到PCI總線的打印機引擎等。例如,引擎60是單色繪圖儀、單鼓繪圖儀、 四鼓繪圖儀、掃描儀或傳真部。除了例如繪圖儀等引擎部,引擎60還包括執(zhí) 行例如錯誤擴散和伽馬轉(zhuǎn)換等處理的圖像處理部。
控制器10包括中央處理單元(CPU) 11、北橋(NB) 13、系統(tǒng)存儲器 (MEM-P ) 12、南橋(SB ) 14、本地存儲器(MEM-C ) 17、專用集成電路(ASIC ) 16及HDD 18。經(jīng)由圖形加速端口 ( AGP)總線15將NB 13和ASIC 16連接。 MEM-P 12包括只讀存4諸器(ROM) 12a及RAM 12b。
CPU 11控制MFP 800。 CPU 11包括具有MEM-P 12、 NB 13及SB 14的 芯片組,并經(jīng)由該芯片組連接到其它設(shè)備。
NB 13將CPU 11連接到MEM-P 12、 SB 14及AGP總線15。 NB 13包 括控制對MEM-P 12、 PCI主(未示出)及AGP目標(biāo)(未示出)寫入和從MEM-P 12、主PCI (未示出)及目標(biāo)AGP (未示出)讀取的存儲器控制器(未示出)。
MEM-P 12是用作例如用于存儲計算機程序和數(shù)據(jù)的存儲器、用于擴展計 算機程序和數(shù)據(jù)的存儲器或用于在計算機中繪圖的存儲器等的系統(tǒng)存儲器。 ROM 12a用作存儲計算機程序和數(shù)據(jù)的存儲器。RAM 12b是用作擴展計算機 程序和數(shù)據(jù)的存儲器及在打印機中繪圖的存儲器的可寫和可讀存儲器。
SB 14將NB 13連接到PCI設(shè)備(未示出)和外圍設(shè)備(未示出)。經(jīng)由 PCI總線將SB 14連接到NB 13。網(wǎng)絡(luò)I/F部(未示出)等也被連接到PCI總 線。
ASIC 16是用于圖像處理的集成電路(IC),并且ASIC 16包括用于圖像處理的硬件元件。ASIC 16用作將AGP總線15、 PCI總線、HDD 18及MEM-C 17相互連接的橋。ASIC 16包括目標(biāo)PCI (未示出)、主AGP (未示出)、仲裁 器(ARB)(未示出)、存儲器控制器(未示出)、多個直接存儲器訪問控制器 (DMAC)(未示出)及PCI部(未示出)。ARB是ASIC 16的中心部件。存 儲器控制器控制MEM-C 17。 DMAC通過硬件邏輯等旋轉(zhuǎn)圖像數(shù)據(jù)。PCI部經(jīng) 由PCI總線將數(shù)據(jù)傳送到引擎60。經(jīng)由PCI總線將ASIC 16連接到傳真控制 單元(FCU) 30、通用串行總線(USB) 40及電氣與電子工程師協(xié)會(IEEE) 1394 I/F 50。操作顯示部20被直接連接到ASIC 16。
MEM-C 17用作復(fù)制圖像緩沖器及代碼緩沖器。HDD 18是存儲圖像數(shù)據(jù)、 計算機程序、字體數(shù)據(jù)及格式的存儲器。
AGP總線15是用于圖形加速卡的總線I/F,圖形加速卡用于獲得高速的 圖形處理。AGP總線15以高的吞吐量訪問MEM-P 12,從而獲得圖形加速卡 的高速處理。
預(yù)先在ROM等中存儲由信息處理設(shè)備100和500以及MFP 800中的每個 執(zhí)行的計算機程序??梢栽诶缰旅芄獗P只讀存儲器(CD-ROM )、軟盤(FD)、 可記錄致密光盤(CD-R)或多功能數(shù)碼光盤(DVD)等計算機可讀記錄介質(zhì) 中將由MFP 800執(zhí)行的計算機程序存儲為可安裝或可執(zhí)行文件。
以上說明在信息處理設(shè)備100和500及MFP 800中,當(dāng)經(jīng)由輸入接收部 110接收到來自用戶的用于產(chǎn)生文檔的指令時,開始通過從在存儲部中存儲的 文檔中提取多個內(nèi)容來產(chǎn)生新的文檔的操作。然而,例如,可以在信息處理設(shè) 備或圖像形成設(shè)備中計劃用于提取內(nèi)容并產(chǎn)生新的文檔的各種操作,并且用戶 在信息處理設(shè)備或圖像形成設(shè)備的存儲部中存儲文檔和用于提取內(nèi)容的關(guān)鍵 字等,從而在預(yù)定的定時(例如,在周一早上IO點)從在存儲部中存儲的文 檔中自動地提取內(nèi)容。這樣,由于計劃了用于提取內(nèi)容并產(chǎn)生新的文檔的操作,文檔。
另外,上面說明在信息處理設(shè)備100和500及MFP 800中,由輸入接收 部110接收的信息包括要產(chǎn)生的新的文檔的輸出設(shè)置信息及用于從文檔中識 別內(nèi)容的文檔的指定區(qū)域。然而,例如,當(dāng)產(chǎn)生新的文檔時,輸入接收部IIO可以接收輸入,該輸入用于指定新的文檔上的某個區(qū)域(例如,第2頁上的第 l行到第5行的區(qū)域)是不能寫入的或保留的,從而防止內(nèi)容被布置在該區(qū)域 上。這樣,由于輸入接收部UO可以接收該輸入,對于用戶可以以更具體的方 式產(chǎn)生新的文檔。
由信息處理設(shè)備100和500及MFP 800中的每個執(zhí)行的計算機程序具有 包括上述部件(內(nèi)容提取部、關(guān)系計算部、布局產(chǎn)生部等)的模塊配置。對于 實際硬件,CPU從ROM中讀取計算機程序并執(zhí)行所讀取的計算機程序,從而 在主存儲設(shè)備上裝載并生成內(nèi)容提取部、關(guān)系計算部及布局產(chǎn)生部。
根據(jù)本發(fā)明的一個方面,可以通過不給用戶造成麻煩而以簡單及客觀的方 式提取內(nèi)容來產(chǎn)生文檔。
此外,可以通過以更客觀及更有效的方式提取內(nèi)容來產(chǎn)生文檔。
另外,用戶可以更真實并更直觀地確定內(nèi)容之間的相關(guān)性。 另外,可以通過不給用戶造成任何麻煩而以簡單及客觀的方式經(jīng)由網(wǎng)絡(luò)訪 問文檔并從文檔中損_耳又內(nèi)容來產(chǎn)生新的文檔。
的文檔中提取內(nèi)容來產(chǎn)生并打印出新的文檔。
另外,可以提供由計算機執(zhí)行的計算機程序。
注釋10. —種信息處理系統(tǒng),所述信息處理系統(tǒng)經(jīng)由網(wǎng)絡(luò)連接到文檔服 務(wù)器上,并且所述信息處理系統(tǒng)存儲包括多個內(nèi)容的文檔,所述信息處理系統(tǒng) 包括
通信部,用于從文檔服務(wù)器中獲取文檔; 存儲部,用于存儲由通信部獲取的文檔; 輸入接收部,用于接收內(nèi)容信息;
內(nèi)容提取部,用于從在存儲部中存儲的文檔所包括的內(nèi)容中提取多個內(nèi) 容,所述多個內(nèi)容的每一個都包括內(nèi)容信息;
另外 另外 另外
另夕卜,可以通3關(guān)系計算部,用于計算由內(nèi)容提取部提取的提取內(nèi)容之間的語義相關(guān)程
度;及
布局產(chǎn)生部,用于基于所述語義相關(guān)程度來在新的文檔上確定所述提取內(nèi) 容的位置并在所述位置上布置所述提取內(nèi)容,從而產(chǎn)生新的文檔。
注釋io-i.根據(jù)注釋io的信息處理系統(tǒng),其中,
所述多個內(nèi)容中的每一個內(nèi)容都包括圖像數(shù)據(jù)和文本凄史據(jù)中的任意一種, 所述圖像數(shù)據(jù)包括表示所述圖像數(shù)據(jù)是否包括文本的屬性信息,及
基于由所述輸入接收部接收到的內(nèi)容信息及在所述圖像數(shù)據(jù)中包括的所 述屬性信息和在所述文本數(shù)據(jù)中包括的所述文本中的任意一個,所述內(nèi)容提取 部提取所述內(nèi)容。
注釋10-2.根據(jù)注釋io-i的信息處理系統(tǒng),其中,
所述屬性信息是在圖像數(shù)據(jù)周圍布置的文本,及
基于由所述輸入接收部接收的內(nèi)容信息及在所述圖像數(shù)據(jù)周圍布置的所 述屬性信息和在所述文本數(shù)據(jù)中包括的所述文本中的任意一個,所述內(nèi)容提取 部提取所述內(nèi)容。
注釋10-3.根據(jù)注釋10到10-2中的任一信息處理系統(tǒng),其中,所述關(guān)系 計算部通過比較所述提取內(nèi)容來產(chǎn)生表示所述提取內(nèi)容之間的相似性的關(guān)系
圖,并且所述關(guān)系計算部基于所述關(guān)系圖來計算所述提取內(nèi)容之間的語義相關(guān)程度。
注釋10-4.根據(jù)注釋10到10-2中的任一信息處理系統(tǒng),其中,所述關(guān)系
并且所述關(guān)系計算部基于所述表格來計算所述提取內(nèi)容之間的語義相關(guān)程度。 注釋10-5.根據(jù)注釋10到10-4中的任一信息處理系統(tǒng),其中, 所述輸入接收部接收表示所述文檔中的預(yù)定區(qū)域的區(qū)域信息,及 所述內(nèi)M取部從所述預(yù)定區(qū)域中提取所述內(nèi)容。 注釋10-6.根據(jù)注釋10到10-5中的任一信息處理系統(tǒng),其中, 所述關(guān)系計算部以所述提取內(nèi)容中的一個內(nèi)容作為參考,將所述語義相關(guān)
程度轉(zhuǎn)換為在新的文檔上的坐標(biāo)系統(tǒng)中的位置關(guān)系,及
所述布局產(chǎn)生部基于所述位置關(guān)系在新的文檔上確定所述提取內(nèi)容的位
21置。
注釋10-7.根據(jù)注釋10的信息處理系統(tǒng),進一步包括 讀取部,用于讀取文檔中包括的文本和圖像中的任意一種的數(shù)據(jù),并在所 述存儲部中存儲由所述讀取部讀取的所述數(shù)據(jù),及 打印部,用于打印出新的文檔。
注釋10-8.根據(jù)注釋10-7的信息處理系統(tǒng),其中,所述信息處理設(shè)備是 圖像形成設(shè)備。
注釋ll. 一種產(chǎn)生文檔的方法,包括 存儲步驟,在存儲部中存儲包括多個內(nèi)容的文檔; 接收步驟,接收內(nèi)容信息;
提取步驟,從在存儲部中存儲的文檔所包括的內(nèi)容中提取多個內(nèi)容,所述
多個內(nèi)容中的每一個內(nèi)容都包括內(nèi)容信息;
計算步驟,計算在提取步驟中提取的提取內(nèi)容之間的語義相關(guān)程度;
確定步驟,基于所述語義相關(guān)程度來在新的文檔上確定所述提取內(nèi)容的位
置;及
布置步驟,在確定步驟中確定的所述位置上布置所述提取內(nèi)容,從而產(chǎn)生 新的文檔。
注釋ll-l.根據(jù)注釋ll的方法,其中,
所述多個內(nèi)容中的每一個內(nèi)容都包括圖像數(shù)據(jù)和文本數(shù)據(jù)中的任意一種, 所述圖像數(shù)據(jù)包括表示所述圖像數(shù)據(jù)是否包括文本的屬性信息,及
所述提取步驟包括基于在所述接收步驟中接收到的內(nèi)容信息及在所述圖 像數(shù)據(jù)中包括的所述屬性信息和在所述文本數(shù)據(jù)中包括的所述文本中的任意
一個來提取所述內(nèi)容。
注釋11-2.根據(jù)注釋11-1的方法,其中,
所述屬性信息是在圖像數(shù)據(jù)周圍布置的文本,及
所述提取步驟包括基于在所述接收步驟中接收的內(nèi)容信息及在所述圖像 數(shù)據(jù)周圍布置的所述屬性信息和在所述文本數(shù)據(jù)中包括的所述文本中的任意 一個來提取所述內(nèi)容。
注釋11-3.根據(jù)注釋11到11-2中任一的方法,其中,所述計算步驟包括系圖,并且
基于所述關(guān)系圖來計算所述提取內(nèi)容之間的語義相關(guān)程度。
注釋ii_4.根據(jù)注釋11到11-2中任一的方法,其中,所述計算步驟通過
述表格來計算所述提取內(nèi)容之間的語義相關(guān)程度。
注釋11-5.根據(jù)注釋11到11-4中任一的方法,其中,
所述接收步驟包括接收表示所述文檔中的預(yù)定區(qū)域的區(qū)域信息,及
所述提取步驟從所述預(yù)定區(qū)域中提取所述內(nèi)容。
注釋11-6.根據(jù)注釋11到11-5中任一的方法,其中,
所述計算步驟包括以所述提取內(nèi)容中的一個內(nèi)容作為參考,將所述語義相 關(guān)程度轉(zhuǎn)換為在新的文檔上的坐標(biāo)系統(tǒng)中的位置關(guān)系,及
所述確定步驟包括基于所述位置關(guān)系在新的文檔上確定所述提取內(nèi)容的 位置。
注釋11-7.根據(jù)注釋11的方法,進一步包括
通過讀取部來讀取文檔中包括的文本和圖像中的任意一種的數(shù)據(jù),并在所 述存儲部中存儲所述數(shù)據(jù),及
通過打印部來打印出新的文檔。
注釋11-8.根據(jù)注釋11-7的方法,其中,在圖像形成設(shè)備上實現(xiàn)所述方法。
雖然結(jié)合特定實施例已經(jīng)對本發(fā)明進行了完整和清楚的揭示,但是并不因 此限制后附權(quán)利要求,權(quán)利要求應(yīng)當(dāng)被解釋為包括完全落入本文闡述的基本宗 義內(nèi)的、對本領(lǐng)域技術(shù)人員可能出現(xiàn)的所有的修改和可選構(gòu)造。
權(quán)利要求
1. 一種信息處理設(shè)備,包括存儲部,用于存儲包括多個內(nèi)容的文檔;輸入接收部,用于接收內(nèi)容信息;內(nèi)容提取部,用于從在存儲部中存儲的文檔所包括的內(nèi)容中提取多個內(nèi)容,所述多個內(nèi)容中的每一個內(nèi)容都包括內(nèi)容信息;關(guān)系計算部,用于計算由內(nèi)容提取部提取的提取內(nèi)容之間的語義相關(guān)程度;及布局產(chǎn)生部,用于基于所述語義相關(guān)程度來在新的文檔上確定所述提取內(nèi)容的位置并在所述位置上布置所述提取內(nèi)容,從而產(chǎn)生新的文檔。
2. 根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中,所述多個內(nèi)容中的每一個內(nèi)容都包括圖像數(shù)據(jù)和文本數(shù)據(jù)中的任意一種, 所述圖像數(shù)據(jù)包括表示所述圖像數(shù)據(jù)是否包括文本的屬性信息,及基于由所述輸入接收部接收到的內(nèi)容信息及在所述圖像數(shù)據(jù)中包括的所 述屬性信息和在所述文本數(shù)據(jù)中包括的所述文本中的任意一個,所述內(nèi)容提取 部提取所述內(nèi)容。
3. 根據(jù)權(quán)利要求2所述的信息處理設(shè)備,其中, 所述屬性信息是在圖像數(shù)據(jù)周圍布置的文本,及基于由所述輸入接收部接收的內(nèi)容信息及在所述圖像數(shù)據(jù)周圍布置的所 述屬性信息和在所述文本數(shù)據(jù)中包括的所述文本中的任意一個,所述內(nèi)容提取 部提取所述內(nèi)容。
4. 根據(jù)權(quán)利要求1到3中任一所述的信息處理設(shè)備,其中,所述關(guān)系計并且所述關(guān)系計算部基于所述關(guān)系圖來計算所述提取內(nèi)容之間的語義相關(guān)程 度。
5. 根據(jù)權(quán)利要求1到3中任一所述的信息處理設(shè)備,其中,所述關(guān)系計 且所述關(guān)系計算部基于所述表格來計算所述提取內(nèi)容之間的語義相關(guān)程度。
6. 根據(jù)權(quán)利要求1到5中任一所述的信息處理設(shè)備,其中, 所述輸入接收部接收表示所述文檔中的預(yù)定區(qū)域的區(qū)域信息,及 所述內(nèi)容提取部從所述預(yù)定區(qū)域中提取所述內(nèi)容。
7. 根據(jù)權(quán)利要求1到6中任一所述的信息處理設(shè)備,其中,所述關(guān)系計算部以所述提取內(nèi)容中的一個內(nèi)容作為參考,將所述語義相關(guān) 程度轉(zhuǎn)換為在新的文檔上的坐標(biāo)系統(tǒng)中的位置關(guān)系,及所述布局產(chǎn)生部基于所述位置關(guān)系在新的文檔上確定所述提取內(nèi)容的位置。
8. 根據(jù)權(quán)利要求1所述的信息處理設(shè)備,進一步包括讀取部,用于讀取文檔中包括的文本和圖像中的任意一種的數(shù)據(jù),并在所 述存儲部中存儲由所述讀取部讀取的所述數(shù)據(jù),及 打印部,用于打印出新的文檔。
9. 根據(jù)權(quán)利要求8所述的信息處理設(shè)備,其中,所述信息處理設(shè)備是圖 像形成設(shè)備。
10. —種信息處理系統(tǒng),所述信息處理系統(tǒng)經(jīng)由網(wǎng)絡(luò)連接到文檔服務(wù)器 上,并且所述信息處理系統(tǒng)存儲包括多個內(nèi)容的文檔,所述信息處理系統(tǒng)包括通信部,用于從文檔服務(wù)器中獲取文檔; 存儲部,用于存儲由通信部獲取的文檔; 輸入接收部,用于接收內(nèi)容信息;內(nèi)容提取部,用于從在存儲部中存儲的文檔所包括的內(nèi)容中提取多個內(nèi) 容,所述多個內(nèi)容的每一個都包括內(nèi)容信息;關(guān)系計算部,用于計算由內(nèi)容提取部提取的提取內(nèi)容之間的語義相關(guān)程度;及布局產(chǎn)生部,用于基于所述語義相關(guān)程度來在新的文檔上確定所述提取內(nèi) 容的位置并在所述位置上布置所述提取內(nèi)容,從而產(chǎn)生新的文檔。
11. 一種產(chǎn)生文檔的方法,包括存儲步驟,在存儲部中存儲包括多個內(nèi)容的文檔; 接收步驟,接收內(nèi)容信息;提取步驟,從在存儲部中存儲的文檔所包括的內(nèi)容中提取多個內(nèi)容,所述多個內(nèi)容中的每一個內(nèi)容都包括內(nèi)容信息;計算步驟,計算在提取步驟中提取的提取內(nèi)容之間的語義相關(guān)程度; 確定步驟,基于所述語義相關(guān)程度來在新的文檔上確定所述提取內(nèi)容的位置;及布置步驟,在確定步驟中確定的所述位置上布置所述提取內(nèi)容,從而產(chǎn)生 新的文檔。
全文摘要
本發(fā)明提供一種信息處理設(shè)備、信息處理系統(tǒng)及信息處理方法。在信息處理設(shè)備中,當(dāng)接收到內(nèi)容信息的輸入時,內(nèi)容提取部從在存儲部中存儲的文檔中包括的內(nèi)容中提取每個都包括內(nèi)容信息的多個內(nèi)容。然后,關(guān)系計算部計算所提取內(nèi)容之間的語義相關(guān)程度,并且布局產(chǎn)生部基于語義相關(guān)程度在新的文檔上確定所提取內(nèi)容的位置并在這些位置上布置所提取的內(nèi)容,從而產(chǎn)生新的文檔。
文檔編號G06F17/21GK101488124SQ20091000234
公開日2009年7月22日 申請日期2009年1月7日 優(yōu)先權(quán)日2008年1月11日
發(fā)明者法布里斯·馬圖里克 申請人:株式會社理光