專利名稱:技術(shù)標(biāo)準(zhǔn)的數(shù)字化處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機應(yīng)用系統(tǒng)中的數(shù)據(jù)采集及處理技木,可用于各類技術(shù)標(biāo)準(zhǔn)文本的數(shù)字化處理、索引創(chuàng)建和檢索。尤其適用于對技術(shù)標(biāo)準(zhǔn)的分類。
背景技術(shù):
技術(shù)標(biāo)準(zhǔn)的整編、分類、管理、使用對于各行業(yè)具有特別重大的意義,在促進(jìn)技術(shù)進(jìn)步、科技創(chuàng)新,保證設(shè)計質(zhì)量方面起著重要的作用。而由于技術(shù)標(biāo)準(zhǔn)本身在分類、管理上的復(fù)雜性,傳統(tǒng)的紙質(zhì)技術(shù)標(biāo)準(zhǔn)文本和人工發(fā)放管理的方式已經(jīng)難以適應(yīng)新的設(shè)計管理模式的要求,盡管有部分技術(shù)標(biāo)準(zhǔn)開始采用數(shù)字化的分發(fā)方式,但目前紙質(zhì)版本的使用還是主流,現(xiàn)有的數(shù)字化技術(shù)僅僅是將紙質(zhì)版本掃描成圖像或PDF文件,使用者在電腦上ー頁頁翻閱,對于大量的技術(shù)標(biāo)準(zhǔn)內(nèi)容無法進(jìn)行全文檢索,也無法將技術(shù)標(biāo)準(zhǔn)的條文和條文說明相互參照。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供適合處理行業(yè)技術(shù)標(biāo)準(zhǔn)數(shù)字化的相關(guān)信息處理技木,解決現(xiàn)有數(shù)字化技術(shù)存在的弊端,實現(xiàn)海量技術(shù)標(biāo)準(zhǔn)數(shù)字化后的全文檢索和索引創(chuàng)建。還可以融入企業(yè)的整體信息平臺,在技術(shù)標(biāo)準(zhǔn)數(shù)據(jù)庫系統(tǒng)中提供對標(biāo)準(zhǔn)條文的討論功能,成為企業(yè)知識管理的重要數(shù)據(jù)來源。本發(fā)明的基本方案為根據(jù)技術(shù)標(biāo)準(zhǔn)數(shù)字化應(yīng)用的數(shù)據(jù)模型,綜合考慮各種數(shù)據(jù)源和處理校對的工作量,本發(fā)明包括下列步驟1.將技術(shù)標(biāo)準(zhǔn)分頁掃描為圖像格式;2.使用OCR軟件批量轉(zhuǎn)換為PDF文件,OCR軟件為現(xiàn)有通用的光學(xué)字符識別軟件;3.在軟件系統(tǒng)中創(chuàng)建主文件夾,包含公共屬性,所述公共屬性包括標(biāo)準(zhǔn)名稱和 TAG,如下表所示
權(quán)利要求
1. 一種技術(shù)標(biāo)準(zhǔn)的數(shù)字化處理方法,包括下列步驟1)將技術(shù)標(biāo)準(zhǔn)分頁掃描為圖像格式;2)使用OCR軟件批量轉(zhuǎn)換為PDF文件;3)在軟件系統(tǒng)中創(chuàng)建主文件夾,創(chuàng)建公共屬性,所述公共屬性包括標(biāo)準(zhǔn)名稱和TAG;4)在文件管理器中為所述技術(shù)標(biāo)準(zhǔn)建立獨立文件夾,設(shè)置所述公共屬性值;5)在所述文件管理器中為所述技術(shù)標(biāo)準(zhǔn)的獨立文件夾創(chuàng)建屬性,所述屬性包括頁面內(nèi)容和條文編號;6)在所述技術(shù)標(biāo)準(zhǔn)的獨立文件夾內(nèi)上傳所述PDF文件,后臺從所述PDF文件中抓取文本內(nèi)容存入數(shù)據(jù)庫;7)后臺數(shù)據(jù)處理軟件自動識別分析所述PDF文件的每頁OCR文本,將條文編號寫入每頁的條文編號屬性;8)前臺Web檢索瀏覽系統(tǒng),可以根據(jù)技術(shù)標(biāo)準(zhǔn)的TAG屬性過濾,在顯示每ー頁時,右側(cè)提供具有同樣條文編號的頁面鏈接,并按頁面內(nèi)容屬性分類。
全文摘要
本發(fā)明涉及計算機應(yīng)用系統(tǒng)中的數(shù)據(jù)采集及處理技術(shù)的一種技術(shù)標(biāo)準(zhǔn)的數(shù)字化處理方法,包括步驟為技術(shù)標(biāo)準(zhǔn)分頁掃描為圖像格式;使用OCR轉(zhuǎn)換為PDF文件;創(chuàng)建主文件夾,創(chuàng)建公共屬性;創(chuàng)建技術(shù)標(biāo)準(zhǔn)獨立文件夾,設(shè)置公共屬性值;技術(shù)標(biāo)準(zhǔn)的獨立文件夾創(chuàng)建屬性;上傳PDF文件,抓取文本;后臺數(shù)據(jù)處理軟件自動識別分析所述PDF文件的每頁OCR文本,將條文編號寫入每頁的條文編號屬性;前臺Web檢索瀏覽系統(tǒng)。本發(fā)明解決現(xiàn)有數(shù)字化技術(shù)存在的弊端,實現(xiàn)海量技術(shù)標(biāo)準(zhǔn)數(shù)字化后的全文檢索和索引創(chuàng)建。
文檔編號G06K9/20GK102591878SQ20111000821
公開日2012年7月18日 申請日期2011年1月14日 優(yōu)先權(quán)日2011年1月14日
發(fā)明者翟韋 申請人:上?,F(xiàn)代建筑設(shè)計(集團)有限公司