專利名稱:一種生成傳真索引的方法、報(bào)文分析裝置和傳真檢索系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于傳真技術(shù)領(lǐng)域,尤其涉及一種生成傳真索引的方法、報(bào)文分析裝置和 傳真檢索系統(tǒng)。
背景技術(shù):
在經(jīng)濟(jì)全球化的今天,很多跨國跨地區(qū)的業(yè)務(wù)不可能當(dāng)面辦理,由于傳真特有的 法律效力,可以使得大量的訂單、合同等通過傳真簽署,而許多跨地區(qū)的業(yè)務(wù)甚至需要多個(gè) 子公司的協(xié)作完成;另外對這些大公司來說,很重要的一個(gè)辦公方式是公司內(nèi)部資料、通 知、命令等信息通過傳真方式進(jìn)行交互。在這種應(yīng)用中,公司需要對所有的辦公傳真統(tǒng)一存檔、分類管理,到目前為止,傳 真的分類和檢索都是靠人力實(shí)現(xiàn)的,浪費(fèi)了大量的人力資源,效率低下,因此需要實(shí)現(xiàn)傳真 的自動分類,從而大幅度地降低人力成本,提高工作效率。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種生成傳真索引的方法、報(bào)文分析裝置和傳 真檢索系統(tǒng)。本發(fā)明實(shí)施例提供的一種生成傳真索引的方法,包括對傳真報(bào)文進(jìn)行版面分析, 提取所述傳真報(bào)文中的特征信息,根據(jù)所述提取的特征信息為傳真報(bào)文建立標(biāo)簽,將所述 標(biāo)簽作為所述傳真報(bào)文的索引,以便用戶根據(jù)所述標(biāo)簽查找相對應(yīng)的傳真報(bào)文。進(jìn)一步的,所述進(jìn)行版面分析包括提取所述傳真報(bào)文的頁眉部分;所述提取傳 真報(bào)文中的特征信息包括提取所述傳真報(bào)文的頁眉部分中的號碼、收發(fā)時(shí)間和收發(fā)單位 fn息o進(jìn)一步的,所述進(jìn)行版面分析包括將所述傳真報(bào)文正文部分劃分成圖標(biāo)圖像區(qū) 域、文本圖像區(qū)域和表格圖像區(qū)域。進(jìn)一步的,所述提取傳真報(bào)文中的特征信息包括從所述圖標(biāo)圖像區(qū)域中提取圖 標(biāo)特征信息。進(jìn)一步的,所述提取傳真報(bào)文中的特征信息包括從所述文本圖像區(qū)域中提取關(guān)
鍵字信息。進(jìn)一步的,所述提取傳真報(bào)文中的特征信息包括從所述表格圖像區(qū)域中提取表 格特征信息。本發(fā)明實(shí)施例還提供一種報(bào)文分析裝置,包括版面分析模塊,用于對傳真報(bào)文進(jìn) 行版面分析;特征信息提取模塊,用于提取所述傳真報(bào)文中的特征信息;索引生成模塊,用 于根據(jù)所述提取的特征信息為傳真報(bào)文建立標(biāo)簽,將所述標(biāo)簽作為所述傳真報(bào)文的索引, 以便用戶根據(jù)所述標(biāo)簽查找相對應(yīng)的傳真報(bào)文。進(jìn)一步的,所述版面分析模塊具體用于提取所述傳真報(bào)文的頁眉部分,并將所述 傳真報(bào)文正文部分劃分成圖標(biāo)圖像區(qū)域、文本圖像區(qū)域和表格圖像區(qū)域。
進(jìn)一步的,所述特征信息提取模塊包括頁眉信息識別子模塊,用于提取傳真報(bào)文 的頁眉部分中的號碼、收發(fā)時(shí)間和收發(fā)單位信息;圖標(biāo)識別子模塊,用于從所述圖標(biāo)圖像區(qū) 域中提取圖標(biāo)特征信息;關(guān)鍵詞識別子模塊,用于從所述文本圖像區(qū)域中提取關(guān)鍵字信息; 表格識別子模塊,用于從所述表格圖像區(qū)域中提取表格特征信息。本發(fā)明實(shí)施例還提供一種傳真檢索系統(tǒng),包括所述的報(bào)文分析裝置,還包括中心 服務(wù)器、傳真報(bào)文存儲單元、數(shù)據(jù)庫、特征信息存儲單元,特征信息描述單元、屬性表、傳真 檢索單元和用戶接口單元;其中,所述傳真報(bào)文存儲單元用于存儲經(jīng)過所述中心服務(wù)器接 收和分發(fā)的傳真報(bào)文;所述特征信息描述單元用于從所述報(bào)文分析裝置分析得到的特征信 息中生成特征描述符;所述特征信息存儲單元用于與所述傳真報(bào)文數(shù)據(jù)相關(guān)聯(lián)存儲所述傳 真報(bào)文的特征描述符;所述屬性表為基于傳真報(bào)文的特征信息生成的屬性表;所述傳真檢 索單元,用于接收輸入的與所述特征信息相關(guān)的檢索條件,并對所述屬性進(jìn)行檢索,生成滿 足所述檢索條件的傳真報(bào)文。本發(fā)明通過對傳真建立多重標(biāo)簽的方法,方便了傳真的管理和檢索,節(jié)約了大量 的人力資源。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明 的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù) 這些附圖獲得其他的附圖。圖1是本發(fā)明實(shí)施例一提供的一種生成傳真索引的方法的流程圖;圖2是本發(fā)明實(shí)施例二提供的一種報(bào)文分析裝置的示意圖;圖3是本發(fā)明實(shí)施例三提供的一種傳真檢索系統(tǒng)的示意圖;圖4是本發(fā)明實(shí)施例提供的傳真檢索系統(tǒng)應(yīng)用場景的示意圖;圖5是利用本實(shí)施例提供的傳真檢索系統(tǒng)對傳真報(bào)文進(jìn)行檢索的示意圖。
具體實(shí)施例方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。實(shí)施例一本發(fā)明實(shí)施例一提供一種生成傳真索引的方法,如圖1所示,該方法包括步驟S101 對傳真報(bào)文進(jìn)行版面分析;步驟S102 提取所述傳真報(bào)文中的特征信息;步驟S103 根據(jù)所述提取的特征信息為傳真報(bào)文建立標(biāo)簽,將所述標(biāo)簽作為所述 傳真報(bào)文的索引,以便用戶根據(jù)所述標(biāo)簽查找相對應(yīng)的傳真報(bào)文。其中傳真報(bào)文的版面通??梢苑譃轫撁己驼牟糠帧R虼瞬襟ES101中對傳真報(bào) 文進(jìn)行版面分析可以包括提取所述傳真報(bào)文的頁眉部分,并將所述傳真報(bào)文正文部分劃
5分成圖標(biāo)圖像區(qū)域、文本圖像區(qū)域和表格圖像區(qū)域。這樣,步驟S102中提取報(bào)文中的特征信息可以包括步驟S 1021 提取傳真報(bào)文的頁眉部分中的號碼、收發(fā)時(shí)間和收發(fā)單位信息;其 中收發(fā)時(shí)間的格式可以是年月日小時(shí)分秒,號碼包括主被叫號碼,收發(fā)單位信息可以是傳 真業(yè)務(wù)所屬公司名稱。步驟S1022 從圖標(biāo)圖像區(qū)域中提取圖標(biāo)特征信息;上述圖標(biāo)特征信息可以是徽標(biāo)信息。步驟S1023 從文本圖像區(qū)域中提取關(guān)鍵字信息;步驟S1024 從表格圖像區(qū)域中提取表格特征信息。需要說明的是,上述步驟S1021-S1024的執(zhí)行順序沒有限制,并且不必要限定全 部執(zhí)行,即可以執(zhí)行其中的任意步驟的任意組合。實(shí)施例二本實(shí)施例相應(yīng)提供一種報(bào)文分析裝置,如圖2所示,該裝置200包括版面分析模塊201,用于對傳真報(bào)文進(jìn)行版面分析;特征信息提取模塊202,用于對提取所述傳真報(bào)文中的特征信息;索引生成模塊203,用于根據(jù)所述提取的特征信息為傳真報(bào)文建立標(biāo)簽,將所述標(biāo) 簽作為所述傳真報(bào)文的索引,以便用戶根據(jù)所述標(biāo)簽查找相對應(yīng)的傳真報(bào)文。其中,版面分析模塊201可以具體用于提取傳真報(bào)文的頁眉部分,并將所述傳真 報(bào)文正文部分劃分成圖標(biāo)圖像區(qū)域、文本圖像區(qū)域和表格圖像區(qū)域。而特征信息提取模塊 202可以包括頁眉信息識別子模塊2021,用于提取傳真報(bào)文的頁眉部分中的號碼、收發(fā)時(shí)間和 收發(fā)單位信息圖標(biāo)識別子模塊2022,用于從所述圖標(biāo)圖像區(qū)域中提取圖標(biāo)特征信息;關(guān)鍵詞識別子模塊2023,用于從所述文本圖像區(qū)域中提取關(guān)鍵字信息;表格識別子模塊2024,用于從所述表格圖像區(qū)域中提取表格特征信息。實(shí)施例三本實(shí)施例相應(yīng)提供一種傳真檢索系統(tǒng),如圖3所示,該系統(tǒng)包括上述實(shí)施例二中 的報(bào)文分析裝置200,還包括中心服務(wù)器301、傳真報(bào)文存儲單元302、數(shù)據(jù)庫303、特征信 息存儲單元304,特征信息描述單元305、屬性表306、傳真檢索單元307和用戶接口單元 308 ;其中,所述傳真報(bào)文存儲單元302、報(bào)文分析裝置200、用戶接口單元308均與中心 服務(wù)器301相連,所述中心服務(wù)器301與各分公司的服務(wù)器通過公司內(nèi)部IP連接,接收和 分發(fā)的傳真均要經(jīng)過中心服務(wù)器301存入傳真報(bào)文存儲單元302,并且所述屬性表306是包 含于所述數(shù)據(jù)庫303之中的。所述傳真報(bào)文存儲單元302用于存儲經(jīng)過所述中心服務(wù)器301接收和分發(fā)的傳真 報(bào)文;其中傳真報(bào)文可以為bmp格式的二值圖像;數(shù)據(jù)庫303用來存儲所有傳真的分公司 ID、文件生成時(shí)間、傳真收發(fā)方向、傳真的存儲路徑、處理標(biāo)志等信息;所述特征信息描述單元305用于從所述報(bào)文分析裝置200分析得到的特征信息中 生成特征描述符;
所述特征信息存儲單元304用于與所述傳真報(bào)文數(shù)據(jù)相關(guān)聯(lián)存儲所述傳真報(bào)文 的特征描述符;所述屬性表306為基于傳真報(bào)文的特征信息生成的屬性表;所述傳真檢索單元307,用于接收輸入的與所述特征信息相關(guān)的檢索條件,并對所 述屬性進(jìn)行檢索,生成滿足所述檢索條件的傳真報(bào)文。圖4示出了本發(fā)明實(shí)施例的應(yīng)用場合的示意圖。下面舉例說明利用本實(shí)施例提供的傳真檢索系統(tǒng)對傳真報(bào)文進(jìn)行檢索的過程如 圖5所示,首先用戶輸入檢索條件(對應(yīng)步驟S501);然后系統(tǒng)查找對應(yīng)的存儲模塊(對應(yīng) 步驟S502);接著對照屬性表(對應(yīng)步驟S503)。如果沒有相關(guān)文件,則程序退出,如果有相 關(guān)文件,則繼續(xù)執(zhí)行步驟S504 查找存儲數(shù)據(jù);最后執(zhí)行步驟S505 輸出滿足檢索條件的傳 真報(bào)文檢索結(jié)果。本發(fā)明通過對傳真按收發(fā)時(shí)間(格式為年月日小時(shí)分秒)、主被叫號碼、傳真業(yè)務(wù) 所屬分公司名、圖標(biāo)特征、關(guān)鍵字、表格特征、傳真類型以及范圍建立多重標(biāo)簽的方法,方便 了傳真的管理和檢索,節(jié)約了大量的人力資源。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人 員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng) 視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種生成傳真索引的方法,其特征在于,包括對傳真報(bào)文進(jìn)行版面分析,提取所述傳真報(bào)文中的特征信息,根據(jù)所述提取的特征信息為傳真報(bào)文建立標(biāo)簽,將所述標(biāo)簽作為所述傳真報(bào)文的索引,以便用戶根據(jù)所述標(biāo)簽查找相對應(yīng)的傳真報(bào)文。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述進(jìn)行版面分析包括 提取所述傳真報(bào)文的頁眉部分;所述提取傳真報(bào)文中的特征信息包括提取所述傳真報(bào)文的頁眉部分中的號碼、收發(fā)時(shí)間和收發(fā)單位信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述進(jìn)行版面分析包括將所述傳真報(bào)文正文部分劃分成圖標(biāo)圖像區(qū)域、文本圖像區(qū)域和表格圖像區(qū)域。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述提取傳真報(bào)文中的特征信息包括 從所述圖標(biāo)圖像區(qū)域中提取圖標(biāo)特征信息。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述提取傳真報(bào)文中的特征信息包括 從所述文本圖像區(qū)域中提取關(guān)鍵字信息。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述提取傳真報(bào)文中的特征信息包括 從所述表格圖像區(qū)域中提取表格特征信息。
7.一種報(bào)文分析裝置,其特征在于,包括 版面分析模塊,用于對傳真報(bào)文進(jìn)行版面分析;特征信息提取模塊,用于提取所述傳真報(bào)文中的特征信息;索引生成模塊,用于根據(jù)所述提取的特征信息為傳真報(bào)文建立標(biāo)簽,將所述標(biāo)簽作為 所述傳真報(bào)文的索引,以便用戶根據(jù)所述標(biāo)簽查找相對應(yīng)的傳真報(bào)文。
8.根據(jù)權(quán)利要求7所述的報(bào)文分析裝置,其特征在于,所述版面分析模塊具體用于提 取所述傳真報(bào)文的頁眉部分,并將所述傳真報(bào)文正文部分劃分成圖標(biāo)圖像區(qū)域、文本圖像 區(qū)域和表格圖像區(qū)域。
9.根據(jù)權(quán)利要求8所述的報(bào)文分析裝置,其特征在于,所述特征信息提取模塊包括 頁眉信息識別子模塊,用于提取傳真報(bào)文的頁眉部分中的號碼、收發(fā)時(shí)間和收發(fā)單位信息; 圖標(biāo)識別子模塊,用于從所述圖標(biāo)圖像區(qū)域中提取圖標(biāo)特征信息; 關(guān)鍵詞識別子模塊,用于從所述文本圖像區(qū)域中提取關(guān)鍵字信息; 表格識別子模塊,用于從所述表格圖像區(qū)域中提取表格特征信息。
10.一種傳真檢索系統(tǒng),其特征在于,包括如權(quán)利要求7至9中任意一項(xiàng)所述的報(bào)文分 析裝置,還包括中心服務(wù)器、傳真報(bào)文存儲單元、數(shù)據(jù)庫、特征信息存儲單元,特征信息描 述單元、屬性表、傳真檢索單元和用戶接口單元;其中,所述傳真報(bào)文存儲單元用于存儲經(jīng)過所述中心服務(wù)器接收和分發(fā)的傳真報(bào)文; 所述特征信息描述單元用于從所述報(bào)文分析裝置分析得到的特征信息中生成特征描 述符;所述特征信息存儲單元用于與所述傳真報(bào)文數(shù)據(jù)相關(guān)聯(lián)存儲所述傳真報(bào)文的特征描 述符;所述屬性表為基于傳真報(bào)文的特征信息生成的屬性表;所述傳真檢索單元,用于接收輸入的與所述特征信息相關(guān)的檢索條件,并對所述屬性 進(jìn)行檢索,生成滿足所述檢索條件的傳真報(bào)文。
全文摘要
本發(fā)明實(shí)施例提供的一種生成傳真索引的方法,包括對傳真報(bào)文進(jìn)行版面分析,提取所述傳真報(bào)文中的特征信息,根據(jù)所述提取的特征信息為傳真報(bào)文建立標(biāo)簽,將所述標(biāo)簽作為所述傳真報(bào)文的索引,以便用戶根據(jù)所述標(biāo)簽查找相對應(yīng)的傳真報(bào)文。使用本發(fā)明提供的生成傳真索引的方法,方便了傳真的管理和檢索,節(jié)約了大量的人力資源。
文檔編號G06F17/21GK101876999SQ20091025009
公開日2010年11月3日 申請日期2009年12月4日 優(yōu)先權(quán)日2009年12月4日
發(fā)明者于洪濤, 馮曉磊, 李鵬 申請人:中國人民解放軍信息工程大學(xué)