【技術(shù)領(lǐng)域】
本發(fā)明涉及文件信息安全的技術(shù)領(lǐng)域,特別涉及一種后綴名遭篡改的涉密文件自動發(fā)現(xiàn)方法。
背景技術(shù):
互聯(lián)網(wǎng)信息的飛速發(fā)展,給人們的生活帶來方便快捷,但也隨著信息化發(fā)展的不斷深入,導(dǎo)致信息存在越來越多的安全隱患。目前,社會工作都在計(jì)算機(jī)和互聯(lián)網(wǎng)上進(jìn)行,內(nèi)容及信息都以電子文檔的格式存在,一旦計(jì)算機(jī)遭受病毒電子文檔后綴名被篡改,就會導(dǎo)致電子文檔無法打開,也容易導(dǎo)致重要文件和涉密文件丟失、泄漏,存在信息安全隱患。為了解決以上問題,有必要提出一種后綴名遭篡改的涉密文件自動發(fā)現(xiàn)方法,依靠電子文檔特殊結(jié)構(gòu)分析技術(shù),實(shí)現(xiàn)對電子文檔后綴篡改分析,并識別電子文檔真實(shí)的文件類型,電子文檔后綴篡改識別,是指針對電子文檔后綴刪除或修改后,通過分析電子文檔內(nèi)部結(jié)構(gòu)識別出真實(shí)文檔類型,進(jìn)而實(shí)現(xiàn)涉密文件自動檢測發(fā)現(xiàn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,提供一種后綴名遭篡改的涉密文件自動發(fā)現(xiàn)方法,其旨在解決現(xiàn)有技術(shù)中電子文件被篡改,就會導(dǎo)致電子文檔無法打開,也容易導(dǎo)致重要文件和涉密文件丟失、泄漏,存在信息安全隱患的技術(shù)問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提出了一種后綴名遭篡改的涉密文件自動發(fā)現(xiàn)方法,其基于不同格式電子文檔都有其獨(dú)特存儲方式的原理,采用在終端設(shè)備上部署一個終端應(yīng)用程序,利用終端應(yīng)用程序?qū)K端設(shè)備操作系統(tǒng)中的電子文檔進(jìn)行掃描并識別,實(shí)現(xiàn)文件后綴名刪除或篡改情況下的文件內(nèi)容檢索支持,具體步驟如下:
s1、啟動終端應(yīng)用程序,終端應(yīng)用程序?qū)K端設(shè)備操作系統(tǒng)中的電子文檔進(jìn)行逐一掃描并識別,判斷電子文檔是否屬于正規(guī)文檔后綴格式,若屬于則直接進(jìn)入步驟s8;若不屬于則進(jìn)入步驟s2;
s2、判斷電子文檔頭部8位字節(jié)是否滿足office97-2003系列文檔或金山系列辦公文檔特征,若滿足則轉(zhuǎn)至步驟s3;若不滿足則轉(zhuǎn)至步驟s4;
s3、進(jìn)一步根據(jù)電子文檔內(nèi)容中所含字節(jié)標(biāo)記,判斷電子文檔屬于wpsoffice系列文檔類型或microsoftoffice97-2003系列文檔類型,當(dāng)電子文檔屬于wpsoffice系列文檔類型,根據(jù)所含字節(jié)標(biāo)記字段識別出具體所屬類型,并轉(zhuǎn)至步驟s7;當(dāng)電子文檔屬于microsoftoffice97-2003系列文檔類型,根據(jù)所含字節(jié)標(biāo)記識別出電子文檔具體所屬類型,并轉(zhuǎn)至步驟s7;若既不屬于wpsoffice系列文檔類型也不屬于microsoftoffice97-2003系列文檔類型,則轉(zhuǎn)至步驟s4;
s4、判斷電子文檔頭部60位字節(jié)中是否存在office2007系列文檔特征,若存在office2007系列文檔特征則根據(jù)電子文檔內(nèi)容中所含的特定標(biāo)識字段識別出電子文檔具體所屬類型,并轉(zhuǎn)至步驟s7;若不存在office2007系列文檔特征則轉(zhuǎn)至步驟s5;
s5、判斷電子文檔頭部是否滿足不同類型圖片文件的字節(jié)特征,若滿足,則進(jìn)一步識別出具體圖片文件類型,并轉(zhuǎn)至步驟s7;若不滿足,則轉(zhuǎn)至步驟s6;
s6、判斷文件頭部4位字節(jié)是否滿足pdf文件類型字節(jié)特征,若滿足,則識別為pdf文件類型,并轉(zhuǎn)至步驟s7;若不滿足,則確定該電子文檔不可識別,并結(jié)束掃描識別;
s7、將后綴名被刪除或篡改的文件,還原為真實(shí)后綴名,然后進(jìn)入步驟s8;
s8、執(zhí)行文件內(nèi)容檢索,并判斷是否為涉密文件,并結(jié)束掃描識別。
作為優(yōu)選,所述的步驟s3中當(dāng)電子文檔屬于wpsoffice系列文檔類型,根據(jù)所含字節(jié)標(biāo)記字段識別出的具體所屬類型為wps、et、ett、dpt或dps文件;當(dāng)電子文檔屬于microsoftoffice97-2003系列文檔類型,根據(jù)所含字節(jié)標(biāo)記識別出的電子文檔具體所屬類型為doc、xls、ppt或pps文件。
作為優(yōu)選,所述的步驟s4中若存在office2007系列文檔特征則根據(jù)電子文檔內(nèi)容中所含的特定標(biāo)識字段識別出的電子文檔具體所屬類型為docx、xlsx、pptx或ppsx文件。
作為優(yōu)選,所述的步驟s5的具體步驟如下:
1)判斷電子文檔頭部10位字節(jié)中是否滿足jfif、jpg、jpeg格式類型圖片文件的字節(jié)特征,若滿足則識別為.jfif、.jpg、.jpeg文件類型,并轉(zhuǎn)至步驟s7;若不滿足則轉(zhuǎn)至步驟2);
2)判斷電子文檔頭部2位字節(jié)中是否滿足bmp、dib格式類型圖片文件的字節(jié)特征,若滿足則識別為.bmp、.dib文件類型,并轉(zhuǎn)至步驟s7;若不滿足則轉(zhuǎn)至步驟3);
3)判斷電子文檔頭部4位字節(jié)中是否滿足tif格式類型圖片文件的字節(jié)特征,若滿足則識別為.gif文件類型,并轉(zhuǎn)至步驟s7;若不滿足則轉(zhuǎn)至步驟4);
4)判斷電子文檔頭部4位字節(jié)中是否滿足png格式類型圖片文件的字節(jié)特征,若滿足則識別為.png文件類型,并轉(zhuǎn)至步驟s7;若不滿足則轉(zhuǎn)至步驟5);
5)判斷電子文檔頭部5位字節(jié)中是否滿足pdf格式類型圖片文件的字節(jié)特征,若滿足則識別為.pdf文件類型,并轉(zhuǎn)至步驟s7;若不滿足則轉(zhuǎn)至步驟s6。
本發(fā)明的有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明提供的一種后綴名遭篡改的涉密文件自動發(fā)現(xiàn)方法,其基于在終端設(shè)備上部署一個終端應(yīng)用程序,利用應(yīng)用程序?qū)K端計(jì)算機(jī)操作系統(tǒng)中電子文檔進(jìn)行掃描并識別,實(shí)現(xiàn)文件后綴名刪除或篡改情況下的文件內(nèi)容檢索支持,不同格式電子文檔都有其自己獨(dú)特的存儲方式,可通過分類分析電子文檔內(nèi)部存儲結(jié)構(gòu)方式分析識別出文檔后綴是否修改,依靠電子文檔特殊結(jié)構(gòu)分析技術(shù),實(shí)現(xiàn)對電子文檔后綴篡改分析,并識別電子文檔真實(shí)的文件類型,進(jìn)而實(shí)現(xiàn)涉密文件自動檢測發(fā)現(xiàn)。
本發(fā)明的特征及優(yōu)點(diǎn)將通過實(shí)施例結(jié)合附圖進(jìn)行詳細(xì)說明。
【附圖說明】
圖1是本發(fā)明實(shí)施例一種后綴名遭篡改的涉密文件自動發(fā)現(xiàn)方法的流程圖。
【具體實(shí)施方式】
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明了,下面通過附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。但是應(yīng)該理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限制本發(fā)明的范圍。此外,在以下說明中,省略了對公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本發(fā)明的概念。
參閱圖1,本發(fā)明實(shí)施例提供一種后綴名遭篡改的涉密文件自動發(fā)現(xiàn)方法,其基于不同格式電子文檔都有其獨(dú)特存儲方式的原理,采用在終端設(shè)備上部署一個終端應(yīng)用程序,利用終端應(yīng)用程序?qū)K端設(shè)備操作系統(tǒng)中的電子文檔進(jìn)行掃描并識別,實(shí)現(xiàn)文件后綴名刪除或篡改情況下的文件內(nèi)容檢索支持,具體步驟如下:
s1、啟動終端應(yīng)用程序,終端應(yīng)用程序?qū)K端設(shè)備操作系統(tǒng)中的電子文檔進(jìn)行逐一掃描并識別,判斷電子文檔是否屬于正規(guī)文檔后綴格式,若屬于則直接進(jìn)入步驟s8;若不屬于則進(jìn)入步驟s2。
s2、判斷電子文檔頭部8位字節(jié)是否滿足office97-2003系列文檔或金山系列辦公文檔特征,若滿足則轉(zhuǎn)至步驟s3;若不滿足則轉(zhuǎn)至步驟s4。
s3、進(jìn)一步根據(jù)電子文檔內(nèi)容中所含字節(jié)標(biāo)記,判斷電子文檔屬于wpsoffice系列文檔類型或microsoftoffice97-2003系列文檔類型,當(dāng)電子文檔屬于wpsoffice系列文檔類型,根據(jù)所含字節(jié)標(biāo)記字段識別出具體所屬類型,判定為wps、et、ett、dpt或dps文件,并轉(zhuǎn)至步驟s7;當(dāng)電子文檔屬于microsoftoffice97-2003系列文檔類型,根據(jù)所含字節(jié)標(biāo)記識別出電子文檔具體所屬類型,判定為doc、xls、ppt或pps文件,并轉(zhuǎn)至步驟s7;若既不屬于wpsoffice系列文檔類型也不屬于microsoftoffice97-2003系列文檔類型,則轉(zhuǎn)至步驟s4。
s4、判斷電子文檔頭部60位字節(jié)中是否存在office2007系列文檔特征,若存在office2007系列文檔特征則根據(jù)電子文檔內(nèi)容中所含的特定標(biāo)識字段識別出電子文檔具體所屬類型,判定為docx、xlsx、pptx或ppsx文件,并轉(zhuǎn)至步驟s7;若不存在office2007系列文檔特征則轉(zhuǎn)至步驟s5。
s5、判斷電子文檔頭部是否滿足不同類型圖片文件的字節(jié)特征,若滿足,則進(jìn)一步識別出具體圖片文件類型,并轉(zhuǎn)至步驟s7;若不滿足,則轉(zhuǎn)至步驟s6。
其中,步驟s5的具體步驟如下:
1)判斷電子文檔頭部10位字節(jié)中是否滿足jfif、jpg、jpeg格式類型圖片文件的字節(jié)特征,若滿足則識別為.jfif、.jpg、.jpeg文件類型,并轉(zhuǎn)至步驟s7;若不滿足則轉(zhuǎn)至步驟2)。
2)判斷電子文檔頭部2位字節(jié)中是否滿足bmp、dib格式類型圖片文件的字節(jié)特征,若滿足則識別為.bmp、.dib文件類型,并轉(zhuǎn)至步驟s7;若不滿足則轉(zhuǎn)至步驟3)。
3)判斷電子文檔頭部4位字節(jié)中是否滿足tif格式類型圖片文件的字節(jié)特征,若滿足則識別為.gif文件類型,并轉(zhuǎn)至步驟s7;若不滿足則轉(zhuǎn)至步驟4)。
4)判斷電子文檔頭部4位字節(jié)中是否滿足png格式類型圖片文件的字節(jié)特征,若滿足則識別為.png文件類型,并轉(zhuǎn)至步驟s7;若不滿足則轉(zhuǎn)至步驟5)。
5)判斷電子文檔頭部5位字節(jié)中是否滿足pdf格式類型圖片文件的字節(jié)特征,若滿足則識別為.pdf文件類型,并轉(zhuǎn)至步驟s7;若不滿足則轉(zhuǎn)至步驟s6。
s6、判斷文件頭部4位字節(jié)是否滿足pdf文件類型字節(jié)特征,若滿足,則識別為pdf文件類型,并轉(zhuǎn)至步驟s7;若不滿足,則確定該電子文檔不可識別,并結(jié)束掃描識別。
s7、將后綴名被刪除或篡改的文件,還原為真實(shí)后綴名,然后進(jìn)入步驟s8。
s8、執(zhí)行文件內(nèi)容檢索,并判斷是否為涉密文件,并結(jié)束掃描識別。
本發(fā)明一種后綴名遭篡改的涉密文件自動發(fā)現(xiàn)方法,基于不同格式電子文檔都有其自己獨(dú)特的存儲方式,通過分類分析電子文檔內(nèi)部存儲結(jié)構(gòu)方式分析識別出文檔后綴是否修改的方式,在終端設(shè)備上部署一個終端應(yīng)用程序,利用應(yīng)用程序?qū)K端計(jì)算機(jī)操作系統(tǒng)中電子文檔進(jìn)行掃描并識別,實(shí)現(xiàn)文件后綴名刪除或篡改情況下的文件內(nèi)容檢索支持,依靠電子文檔特殊結(jié)構(gòu)分析技術(shù),實(shí)現(xiàn)對電子文檔后綴篡改分析,并識別電子文檔真實(shí)的文件類型,進(jìn)而實(shí)現(xiàn)涉密文件自動檢測發(fā)現(xiàn),防止重要文件和涉密文件丟失、泄漏,加強(qiáng)了信息安全。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換或改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。