本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)完整性檢測(cè)的方法和設(shè)備。
背景技術(shù):數(shù)字報(bào)是指運(yùn)用各類文字、繪畫、圖形、圖像處理軟件,參照電子出版物的有關(guān)標(biāo)準(zhǔn),創(chuàng)作的電子報(bào)或電子刊物。數(shù)字報(bào)具體以下優(yōu)點(diǎn):信息傳播更快捷:在每期報(bào)紙排版完成的同時(shí)即可發(fā)布報(bào)紙網(wǎng)絡(luò)版,省去了傳統(tǒng)報(bào)紙所需的印刷,發(fā)行的時(shí)間,使報(bào)紙的時(shí)效性更強(qiáng);發(fā)行的覆蓋面更廣泛:通過網(wǎng)絡(luò)報(bào)紙平臺(tái)的發(fā)布,任何人只要能上網(wǎng),就能閱讀到刊物上的信息,報(bào)紙不再是某區(qū)域內(nèi)發(fā)行,而是做到全球發(fā)行;可回溯性增強(qiáng):網(wǎng)絡(luò)報(bào)紙的發(fā)布過程也同樣是報(bào)紙發(fā)行發(fā)布過程,回顧功能可以讓客戶輕松的找到特定期次的報(bào)紙內(nèi)容,也方便了編者對(duì)報(bào)紙內(nèi)容的管理;全文檢索更實(shí)用:用戶可以運(yùn)用關(guān)鍵字搜索的方式,查詢到相關(guān)度最高的文章,從而迅速找到相關(guān)文章中;內(nèi)容的互動(dòng)性增強(qiáng):通過在線評(píng)論、E-mail等方式讓信息不再是單向傳播,通過讀者和編輯的互動(dòng)形成一個(gè)促進(jìn)報(bào)紙不斷發(fā)展進(jìn)步的良性循環(huán)。由于數(shù)字報(bào)的上述優(yōu)點(diǎn)使得數(shù)據(jù)包被越來越多的人所接受。對(duì)于集中加工數(shù)字報(bào)而言,數(shù)字報(bào)的源數(shù)據(jù)分布比較分散,報(bào)紙數(shù)據(jù)的加工就需要收集這些數(shù)據(jù),并最終通過對(duì)這些數(shù)據(jù)的處理和加工生成數(shù)字報(bào)產(chǎn)品。當(dāng)前報(bào)紙數(shù)據(jù)主要有三部分組成:期次、版次、素材。只有當(dāng)它們都完整的時(shí)候,才算這一期數(shù)據(jù)的完整。而這三部分并不是一成不變的,它們都具有一定的變化。因此對(duì)這些數(shù)據(jù)的完整性的檢測(cè)提出了挑戰(zhàn)。但是目前沒有檢測(cè)數(shù)字報(bào)的方法,從而增加了數(shù)字報(bào)出錯(cuò)的概率。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供的一種數(shù)據(jù)完整性檢測(cè)的方法和設(shè)備,用以對(duì)數(shù)字信息進(jìn)行檢測(cè),從而降低了數(shù)字信息出錯(cuò)的概率。本發(fā)明實(shí)施例提供的一種數(shù)據(jù)完整性檢測(cè)的方法,包括:在需要檢測(cè)的數(shù)字信息有新數(shù)據(jù)后,獲取數(shù)字信息的新數(shù)據(jù);檢測(cè)所述新數(shù)據(jù)的總版數(shù)與所述數(shù)字信息對(duì)應(yīng)的總版數(shù)是否相同,并在確定相同后,從所述新數(shù)據(jù)中獲取每個(gè)版面對(duì)應(yīng)的版面信息;根據(jù)所述版面信息對(duì)版面的素材進(jìn)行檢測(cè)。本發(fā)明實(shí)施例提供的一種數(shù)據(jù)完整性檢測(cè)的設(shè)備,包括:獲取模塊。用于在需要檢測(cè)的數(shù)字信息有新數(shù)據(jù)后,獲取數(shù)字信息的新數(shù)據(jù);第一檢測(cè)模塊,用于檢測(cè)所述新數(shù)據(jù)的總版數(shù)與所述數(shù)字信息對(duì)應(yīng)的總版數(shù)是否相同,并在確定相同后,從所述新數(shù)據(jù)中獲取每個(gè)版面對(duì)應(yīng)的版面信息;第二檢測(cè)模塊,用于根據(jù)所述版面信息對(duì)版面的素材進(jìn)行檢測(cè)。本發(fā)明實(shí)施例檢測(cè)獲取的數(shù)字信息的新數(shù)據(jù)的總版數(shù)與該數(shù)字信息對(duì)應(yīng)的總版數(shù)相同后,從新數(shù)據(jù)中獲取每個(gè)版面對(duì)應(yīng)的版面信息,并根據(jù)版面信息對(duì)版面的素材進(jìn)行檢測(cè)。由于能夠?qū)?shù)字信息進(jìn)行檢測(cè),從而降低了數(shù)字信息出錯(cuò)的概率。附圖說明圖1為本發(fā)明實(shí)施例數(shù)據(jù)完整性檢測(cè)的方法流程示意圖;圖2為本發(fā)明實(shí)施例數(shù)字信息的數(shù)據(jù)完整性檢測(cè)的方法流程示意圖;圖3為本發(fā)明實(shí)施例數(shù)據(jù)完整性檢測(cè)的設(shè)備結(jié)構(gòu)示意圖。具體實(shí)施方式本發(fā)明實(shí)施例檢測(cè)獲取的數(shù)字信息的新數(shù)據(jù)的總版數(shù)與該數(shù)字信息對(duì)應(yīng)的總版數(shù)相同后,從新數(shù)據(jù)中獲取每個(gè)版面對(duì)應(yīng)的版面信息,并根據(jù)版面信息對(duì)版面的素材進(jìn)行檢測(cè)。由于能夠?qū)?shù)字信息進(jìn)行檢測(cè),從而降低了數(shù)字信息出錯(cuò)的概率。其中,數(shù)字信息可以是數(shù)字報(bào)、數(shù)字雜志,還可以是其他任何含有版數(shù)、版面信息和素材的數(shù)字內(nèi)容。下面結(jié)合說明書附圖對(duì)本發(fā)明實(shí)施例作進(jìn)一步詳細(xì)描述。如圖1所示,本發(fā)明實(shí)施例數(shù)據(jù)完整性檢測(cè)的方法包括下列步驟:步驟101、在需要檢測(cè)的數(shù)字信息有新數(shù)據(jù)后,獲取數(shù)字信息的新數(shù)據(jù);步驟102、檢測(cè)新數(shù)據(jù)的總版數(shù)與數(shù)字信息對(duì)應(yīng)的總版數(shù)是否相同,并在確定相同后,從新數(shù)據(jù)中獲取每個(gè)版面對(duì)應(yīng)的版面信息;步驟103、根據(jù)版面信息對(duì)版面的素材進(jìn)行檢測(cè)。其中,素材是指:版面里的版面PDF、版面圖、所有文章內(nèi)容、稿件圖(即具體文章內(nèi)的附圖)等信息。在實(shí)施中,本發(fā)明實(shí)施例的數(shù)字信息可以是日刊、周刊、月刊等。假設(shè)需要檢測(cè)一個(gè)日刊的數(shù)字信息,則每天都需要檢測(cè)該數(shù)字信息是否有新數(shù)據(jù),如果有,則確定新數(shù)據(jù)是當(dāng)天該數(shù)字信息的內(nèi)容,進(jìn)一步對(duì)該新數(shù)據(jù)進(jìn)行檢測(cè)。較佳地,步驟101中在需要檢測(cè)的數(shù)字信息有新數(shù)據(jù)后,獲取數(shù)字信息的新數(shù)據(jù)之前還包括:步驟S1、判斷當(dāng)前時(shí)間是否在該數(shù)字信息對(duì)應(yīng)的獲取時(shí)間之后。比如該數(shù)字信息對(duì)應(yīng)的獲取時(shí)間是每天的10:30分,則查看當(dāng)前時(shí)間,若當(dāng)前時(shí)間是11:30,則確定當(dāng)前時(shí)間在該數(shù)字信息對(duì)應(yīng)的獲取時(shí)間之后。較佳地,數(shù)字信息對(duì)應(yīng)的獲取時(shí)間可以根據(jù)下列步驟確定:1、確定最近N次獲取數(shù)字信息的平均完成時(shí)間,以及確定最近N次獲取數(shù)字信息的最大滯后時(shí)間,其中N是正整數(shù);2、將確定的平均完成時(shí)間和最大滯后時(shí)間相加,就得到數(shù)字信息對(duì)應(yīng)的獲取時(shí)間。具體的,N的次數(shù)可以根據(jù)需要進(jìn)行設(shè)定。這里的獲取數(shù)字信息的完成時(shí)間是指具體的時(shí)刻,比如在10:20完整該數(shù)字信息的獲取,則該數(shù)字信息的完成時(shí)間就是10:20。根據(jù)多個(gè)數(shù)字信息的完成時(shí)間就可以確定數(shù)字信息的平均完成時(shí)間。比如N為5,最近5次獲取數(shù)字信息的完成時(shí)間分別是9:50、10:10、10:21、11:01和11:02,則數(shù)字信息的平均完成時(shí)間是(9:50+10:10+10:21+11:01+11:02)/5=10:29。數(shù)字信息的最大滯后時(shí)間是平均完成時(shí)間之后最遠(yuǎn)的一次完成時(shí)間到平均完成時(shí)間的時(shí)長(zhǎng)再乘以時(shí)間系數(shù)。按照上面的例子是11:02到10:29的時(shí)長(zhǎng)是33分,將33分乘以時(shí)間系數(shù)就得到數(shù)字信息的最大滯后時(shí)間。時(shí)間系數(shù)可以根據(jù)經(jīng)驗(yàn)或仿真確定。以上面的例子,假設(shè)時(shí)間系數(shù)是1.5,則數(shù)字信息的最大滯后時(shí)間就是10:29+33分×1.5=11點(diǎn)18分30秒。步驟S2、在確定當(dāng)前時(shí)間在該數(shù)字信息對(duì)應(yīng)的獲取時(shí)間之后,進(jìn)一步判斷該數(shù)字信息是否有新數(shù)據(jù),若有新數(shù)據(jù),則執(zhí)行獲取新數(shù)據(jù)的步驟。較佳地,該方法還包括:若沒有新數(shù)據(jù),進(jìn)一步判斷當(dāng)前日期是否是數(shù)字信息的發(fā)布日期,若是,則確定該數(shù)字信息有錯(cuò)誤;否則,繼續(xù)確定下一個(gè)需要檢測(cè)的數(shù)字信息。數(shù)字信息對(duì)應(yīng)的發(fā)布日期就是該數(shù)字信息發(fā)布的日子,比如日?qǐng)?bào)就是每天發(fā)布,周報(bào)和月報(bào)就是對(duì)應(yīng)的日子是發(fā)布日期。比如一個(gè)每周三發(fā)布的數(shù)字信息,則對(duì)應(yīng)的發(fā)布日期就是每周三。如果今天不是對(duì)應(yīng)的發(fā)布日期,則該數(shù)字信息沒有新數(shù)據(jù),如果今天是對(duì)應(yīng)的發(fā)布日期,并且當(dāng)前時(shí)間已經(jīng)過了獲取時(shí)間,如果沒有該數(shù)字信息的新數(shù)據(jù),就可以確定該數(shù)字信息有錯(cuò)誤。在實(shí)施中,可以通過報(bào)社部署的上傳系統(tǒng)或者抓取系統(tǒng)獲取每個(gè)數(shù)字信息的新數(shù)據(jù)。在實(shí)施中,數(shù)字信息對(duì)應(yīng)的總版數(shù)是人工預(yù)先設(shè)置的,也可以通過人工設(shè)置頭版,程序自動(dòng)提取總版數(shù)(先找到頭版的PDF或者版面圖、采用OCR識(shí)別技術(shù)提取總版數(shù),)。這其中可以有一個(gè)規(guī)則,比如:如果人工設(shè)定了,就以人工設(shè)定的為準(zhǔn);或者人工設(shè)定一個(gè)基礎(chǔ)參考值(比如認(rèn)為該報(bào)紙不會(huì)低于此總版數(shù)),當(dāng)提取出的大于基礎(chǔ)參考值以提取出的總版數(shù)為準(zhǔn),小于基礎(chǔ)參考值,以基礎(chǔ)參考值為準(zhǔn)。較佳地,若采用自動(dòng)提取總版數(shù),則根據(jù)下列步驟確定數(shù)字信息對(duì)應(yīng)的總版數(shù):查看獲取的新數(shù)據(jù)中是否有總版數(shù)信息;若有,則從總版數(shù)信息中確定數(shù)字信息對(duì)應(yīng)的總版數(shù),否則查看獲取的新數(shù)據(jù)中是否有頭版數(shù)據(jù);若有,則從頭版數(shù)據(jù)中確定數(shù)字信息對(duì)應(yīng)的總版數(shù)。較佳地,頭版數(shù)據(jù)是頭版PDF或版面圖片。較佳地,若獲取的新數(shù)據(jù)中沒有頭版數(shù)據(jù),或從頭版數(shù)據(jù)中無(wú)法確定數(shù)字信息對(duì)應(yīng)的總版數(shù),則確定該數(shù)字信息有錯(cuò)誤。較佳地,步驟103中,針對(duì)一個(gè)版面,根據(jù)版面信息判斷該版面對(duì)應(yīng)的版面的素材是否完整,若是,則確定該版面正常,否則確定該版面異常;在所有版面中若有異常的版面,則確定該數(shù)字信息有錯(cuò)誤。較佳地,上面內(nèi)容中,如果確定數(shù)據(jù)報(bào)有錯(cuò)誤,可以通過信息、郵件等方式通知相關(guān)人員錯(cuò)誤的原因,同時(shí)還可以在顯示器上顯示錯(cuò)誤的原因。如圖2所示,本發(fā)明實(shí)施例數(shù)字信息的數(shù)據(jù)完整性檢測(cè)的方法包括下列步驟:步驟201、確定需要檢測(cè)的數(shù)字信息的名稱;步驟202、確定該數(shù)字信息的平均完成時(shí)間以及最大滯后時(shí)間;步驟203、根據(jù)該數(shù)字信息的平均完成時(shí)間以及最大滯后時(shí)間,確定該數(shù)字信息的獲取時(shí)間;步驟204、判斷當(dāng)前時(shí)間是否在該數(shù)字信息對(duì)應(yīng)的獲取時(shí)間之后,如果是,則執(zhí)行步驟205;否則,執(zhí)行步驟214;步驟205、判斷該數(shù)字信息是否有新數(shù)據(jù),如果有,則執(zhí)行步驟207;否則,執(zhí)行步驟206;步驟206、判斷當(dāng)前日期是否是該數(shù)字信息的發(fā)布日期,如果是,則執(zhí)行步驟213;否則,執(zhí)行步驟214;步驟207、判斷新數(shù)據(jù)中是否有總版數(shù)信息,如果有,則執(zhí)行步驟210;否則,執(zhí)行步驟208;步驟208、判斷獲取的新數(shù)據(jù)中是否有頭版數(shù)據(jù),如果有,則執(zhí)行步驟209;否則,執(zhí)行步驟213;步驟209、判斷從頭版數(shù)據(jù)中是否能夠確定總版數(shù),如果是,則執(zhí)行步驟210;否則,執(zhí)行步驟213;步驟210、檢測(cè)新數(shù)據(jù)的總版數(shù)與數(shù)字信息對(duì)應(yīng)的總版數(shù)是否相同,如果相同,則執(zhí)行步驟211;否則,執(zhí)行步驟213;步驟211、根據(jù)版面信息對(duì)版面的素材進(jìn)行檢測(cè),判斷是否所有版面正常,如果是,則執(zhí)行步驟212;否則,執(zhí)行步驟213;步驟212、確定該數(shù)字信息正常,并執(zhí)行步驟214;步驟213、確定該數(shù)字信息錯(cuò)誤,并顯通過郵件通知數(shù)字信息錯(cuò)誤以及錯(cuò)誤原因,然后執(zhí)行步驟214;步驟214、判斷是否還有需要檢測(cè)的數(shù)字信息,如果有,則返回步驟201;否則,結(jié)束本流程。其中,本發(fā)明實(shí)施例的方法執(zhí)行主體可以是計(jì)算機(jī),還可以是其他有計(jì)算能力的終端?;谕话l(fā)明構(gòu)思,本發(fā)明實(shí)施例中還提供了一種數(shù)據(jù)完整性檢測(cè)的設(shè)備,由于該設(shè)備解決問題的原理與本發(fā)明實(shí)施例數(shù)據(jù)完整性檢測(cè)的方法相似,因此該設(shè)備的實(shí)施可以參見方法的實(shí)施,重復(fù)之處不再贅述。如圖3所示,本發(fā)明實(shí)施例數(shù)據(jù)完整性檢測(cè)的設(shè)備包括:獲取模塊30、第一檢測(cè)模塊31和第二檢測(cè)模塊32。獲取模塊30。用于在需要檢測(cè)的數(shù)字信息有新數(shù)據(jù)后,獲取數(shù)字信息的新數(shù)據(jù);第一檢測(cè)模塊31,用于檢測(cè)新數(shù)據(jù)的總版數(shù)與數(shù)字信息對(duì)應(yīng)的總版數(shù)是否相同,并在確定相同后,從新數(shù)據(jù)中獲取每個(gè)版面對(duì)應(yīng)的版面信息;第二檢測(cè)模塊32,用于根據(jù)版面信息對(duì)版面的素材進(jìn)行檢測(cè)。較佳地,獲取模塊30確定當(dāng)前時(shí)間在該數(shù)字信息對(duì)應(yīng)的獲取時(shí)間之后,且確定數(shù)字信息有新數(shù)據(jù)后,獲取數(shù)字信息的新數(shù)據(jù)。較佳地,若當(dāng)前時(shí)間在該數(shù)字信息對(duì)應(yīng)的獲取時(shí)間之后,且數(shù)字信息沒有新數(shù)據(jù),且當(dāng)前日期是數(shù)字信息的發(fā)布日期,獲取模塊30確定該數(shù)字信息有錯(cuò)誤。較佳地,獲取模塊30根據(jù)下列步驟確定數(shù)字信息對(duì)應(yīng)的獲取時(shí)間:確定最近N次獲取數(shù)字信息的平均完成時(shí)間,以及確定最近N次獲取數(shù)字信息的最大滯后時(shí)間,其中N是正整數(shù);將確定的平均完成時(shí)間和最大滯后時(shí)間相加,就得到數(shù)字信息對(duì)應(yīng)的獲取時(shí)間。較佳地,第一檢測(cè)模塊31根據(jù)下列步驟確定數(shù)字信息對(duì)應(yīng)的總版數(shù):查看獲取的新數(shù)據(jù)中是否有總版數(shù)信息;若有,則從總版數(shù)信息中確定數(shù)字信息對(duì)應(yīng)的總版數(shù),否則查看獲取的新數(shù)據(jù)中是否有頭版數(shù)據(jù);若有,則從頭版數(shù)據(jù)中確定數(shù)字信息對(duì)應(yīng)的總版數(shù)。較佳地,若獲取的新數(shù)據(jù)中沒有頭版數(shù)據(jù),或從頭版數(shù)據(jù)中無(wú)法確定數(shù)字信息對(duì)應(yīng)的總版數(shù),則第一檢測(cè)模塊31確定該數(shù)字信息有錯(cuò)誤。較佳地,第二檢測(cè)模塊32針對(duì)一個(gè)版面,根據(jù)版面信息判斷該版面對(duì)應(yīng)的版面的素材是否完整,若是,則確定該版面正常,否則確定該版面異常;在所有版面中若有異常的版面,則確定該數(shù)字信息有錯(cuò)誤。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。