機(jī)密信息的檢測(cè)的制作方法
【專(zhuān)利說(shuō)明】機(jī)密信息的檢測(cè)
[0001]本申請(qǐng)為以下申請(qǐng)的分案申請(qǐng):
[0002]申請(qǐng)日:2009年10月1日
[0003]申請(qǐng)?zhí)?200980139094.8
[0004]發(fā)明名稱(chēng):機(jī)密信息的檢測(cè)
技術(shù)領(lǐng)域
[0005]本申請(qǐng)涉及機(jī)密信息的檢測(cè)。
【背景技術(shù)】
[0006]在一些數(shù)據(jù)處理環(huán)境中,機(jī)密信息有可能出現(xiàn)在沒(méi)有被充分保護(hù)的數(shù)據(jù)存儲(chǔ)設(shè)備中存儲(chǔ)的電子文件中。在不安全文件中存在這種機(jī)密信息可能危及其所關(guān)聯(lián)的個(gè)體的安全性和私密性,并使操作該不安全數(shù)據(jù)存儲(chǔ)系統(tǒng)的實(shí)體負(fù)有責(zé)任。機(jī)密信息可以包括敏感的財(cái)務(wù)數(shù)據(jù)或者可用于識(shí)別具體個(gè)體并且將他們與文件的內(nèi)容相關(guān)的任何信息。機(jī)密信息的一些例子包括:姓名、地址、電話(huà)號(hào)碼、社保號(hào)碼以及信用卡號(hào)碼。
【發(fā)明內(nèi)容】
[0007]在一個(gè)一般方面,一種用于讀取存儲(chǔ)的數(shù)據(jù)的方法包括:識(shí)別所述存儲(chǔ)的數(shù)據(jù)內(nèi)的字串,其中每個(gè)字串包括連續(xù)字節(jié)序列,所述字節(jié)全部具有在可能值的預(yù)定子集中的值;對(duì)于至少一些字串中的每一個(gè),確定所述字串是否包括表示一個(gè)或多個(gè)格式匹配的字節(jié),其中格式匹配包括匹配與機(jī)密信息關(guān)聯(lián)的預(yù)定格式的值的集合;對(duì)于每個(gè)格式匹配,利用與所述機(jī)密信息關(guān)聯(lián)的規(guī)則集合測(cè)試匹配預(yù)定格式的值,以確定所述格式匹配是否是包括一個(gè)或多個(gè)無(wú)效值的無(wú)效格式匹配;以及至少部分地基于無(wú)效格式匹配的計(jì)數(shù)對(duì)其它格式匹配的計(jì)數(shù)的比值,計(jì)算所述存儲(chǔ)的數(shù)據(jù)的得分。
[0008]在另一個(gè)一般方面,一種用于檢測(cè)機(jī)密信息的系統(tǒng)包括:數(shù)據(jù)存儲(chǔ)設(shè)備;以及連接到所述數(shù)據(jù)存儲(chǔ)設(shè)備的運(yùn)行時(shí)環(huán)境。該運(yùn)行時(shí)環(huán)境被配置為:從所述數(shù)據(jù)存儲(chǔ)設(shè)備讀取存儲(chǔ)的數(shù)據(jù);識(shí)別所述存儲(chǔ)的數(shù)據(jù)內(nèi)的字串,其中每個(gè)字串包括連續(xù)字節(jié)序列,所述字節(jié)全部具有在可能值的預(yù)定子集中的值;對(duì)于至少一些字串中的每一個(gè),確定所述字串是否包括表示一個(gè)或多個(gè)格式匹配的字節(jié),其中格式匹配包括匹配與機(jī)密信息關(guān)聯(lián)的預(yù)定格式的值的集合;對(duì)于每個(gè)格式匹配,利用與所述機(jī)密信息關(guān)聯(lián)的規(guī)則集合測(cè)試和匹配預(yù)定格式的值,以確定所述格式匹配是否是包括一個(gè)或多個(gè)無(wú)效值的無(wú)效格式匹配;以及至少部分地基于無(wú)效格式匹配的計(jì)數(shù)對(duì)其它格式匹配的計(jì)數(shù)的比值,計(jì)算所述存儲(chǔ)的數(shù)據(jù)的得分。
[0009]在又一個(gè)一般方面,一種計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)用于檢測(cè)機(jī)密信息的計(jì)算機(jī)程序。該計(jì)算機(jī)程序包括導(dǎo)致計(jì)算機(jī)執(zhí)行以下步驟的指令:讀取存儲(chǔ)的數(shù)據(jù);識(shí)別所述存儲(chǔ)的數(shù)據(jù)內(nèi)的字串,其中每個(gè)字串包括連續(xù)字節(jié)序列,所述字節(jié)全部具有在可能值的預(yù)定子集中的值;對(duì)于至少一些字串中的每一個(gè),確定所述字串是否包括表示一個(gè)或多個(gè)格式匹配的字節(jié),其中格式匹配包括匹配與機(jī)密信息關(guān)聯(lián)的預(yù)定格式的值的集合;對(duì)于每個(gè)格式匹配,利用與所述機(jī)密信息關(guān)聯(lián)的規(guī)則集合測(cè)試匹配預(yù)定格式的值,以確定所述格式匹配是否是包括一個(gè)或多個(gè)無(wú)效值的無(wú)效格式匹配;以及至少部分地基于無(wú)效格式匹配的計(jì)數(shù)對(duì)其它格式匹配的計(jì)數(shù)的比值,計(jì)算所述存儲(chǔ)的數(shù)據(jù)的得分。
[0010]這些方面可以包括一個(gè)或多個(gè)下列特征:
[0011]所述機(jī)密信息可以是信用卡號(hào)碼。當(dāng)在所述字串中檢測(cè)到的具有表示數(shù)字的值的字節(jié)數(shù)目等于在信用卡號(hào)碼的標(biāo)準(zhǔn)格式中的數(shù)字?jǐn)?shù)目時(shí),確定出現(xiàn)格式匹配。與信用卡號(hào)碼關(guān)聯(lián)的規(guī)則可以包括有效發(fā)行商識(shí)別號(hào)碼的列表的規(guī)范。與信用卡號(hào)碼關(guān)聯(lián)的規(guī)則可以包括校驗(yàn)和算法的規(guī)范。
[0012]所述機(jī)密信息可以是社保號(hào)碼。當(dāng)在所述字串中檢測(cè)到的具有表示數(shù)字的值的字節(jié)數(shù)目等于9時(shí),確定出現(xiàn)格式匹配。與社保號(hào)碼關(guān)聯(lián)的規(guī)則可以包括對(duì)于由社保號(hào)碼的前五個(gè)數(shù)字表示的號(hào)碼的值的有效子集的規(guī)范。
[0013]所述機(jī)密信息可以是電話(huà)號(hào)碼。當(dāng)在所述字串中檢測(cè)到的具有表示數(shù)字的值的字節(jié)數(shù)目等于10、或者在所述字串中檢測(cè)到的數(shù)字?jǐn)?shù)目等于第一個(gè)數(shù)字為“1”的11個(gè)數(shù)字時(shí),確定出現(xiàn)格式匹配。與電話(huà)號(hào)碼關(guān)聯(lián)的規(guī)則可以包括有效區(qū)號(hào)的列表的規(guī)范。與電話(huà)號(hào)碼關(guān)聯(lián)的規(guī)則可以包括在區(qū)號(hào)之后的第一個(gè)數(shù)字必須不是1或0的規(guī)范。
[0014]所述機(jī)密信息可以是郵政編碼。當(dāng)檢測(cè)到如下字節(jié)序列時(shí)確定出現(xiàn)格式匹配:由具有表示數(shù)字的值的五個(gè)字節(jié)組成、或者由具有表示九個(gè)數(shù)字且在第五個(gè)數(shù)字與第六個(gè)數(shù)字之間有連字號(hào)的值的十個(gè)字節(jié)組成。與電話(huà)號(hào)碼關(guān)聯(lián)的規(guī)則可以包括有效的五個(gè)數(shù)字郵政編碼的列表的規(guī)范。
[0015]對(duì)于每個(gè)字串,確定該字串是否包括一個(gè)或多個(gè)匹配姓名的詞,其中,詞是字串內(nèi)的連續(xù)字節(jié)序列,所述字節(jié)全部具有表示字母數(shù)字字符的值,以及姓名是來(lái)自通常用于指代個(gè)別個(gè)人的序列的列表的字符序列;以及至少部分地基于存儲(chǔ)的數(shù)據(jù)中檢測(cè)到的姓名的計(jì)數(shù),計(jì)算存儲(chǔ)的數(shù)據(jù)的得分。所述姓名列表可以被分成兩個(gè)子集:姓和名。
[0016]對(duì)于每個(gè)字串,確定該字串是否包括一個(gè)或多個(gè)全名,其中全名是字符序列,該字符列表如下組成:來(lái)自姓列表姓后面跟著空格符、并且后面跟著來(lái)自名列表的名;以及至少部分地基于檢測(cè)到的全名的計(jì)數(shù),計(jì)算存儲(chǔ)的數(shù)據(jù)的得分。
[0017]列表中的姓名可以各自具有與它們關(guān)聯(lián)的頻率計(jì)數(shù),并且對(duì)于出現(xiàn)在存儲(chǔ)的數(shù)據(jù)中的姓名計(jì)算平均頻率計(jì)數(shù),以及可以至少部分地基于所述平均頻率計(jì)數(shù)計(jì)算存儲(chǔ)的數(shù)據(jù)的得分。如果存儲(chǔ)的數(shù)據(jù)中檢測(cè)到的姓名數(shù)目小于閾值,則可以忽略平均頻率計(jì)數(shù)。
[0018]對(duì)于每個(gè)字串,對(duì)由兩個(gè)字母組成的詞的數(shù)目計(jì)數(shù),其中,詞是字串內(nèi)的連續(xù)字節(jié)序列,所述字節(jié)全部具有表示字母數(shù)字字符的值。對(duì)于每個(gè)兩個(gè)字母的詞,確定該兩個(gè)字母的詞是否是有效的州縮寫(xiě);以及至少部分地基于有效的州縮寫(xiě)的計(jì)數(shù)以及兩個(gè)字母的詞的計(jì)數(shù),計(jì)算存儲(chǔ)的數(shù)據(jù)的得分。
[0019]對(duì)于每個(gè)字串,確定該字串是否包括一個(gè)或多個(gè)州/郵編對(duì),其中,州/郵編對(duì)是如下組成的字符列表:州縮寫(xiě)后面跟著空格符,所述空格符后面依次跟著郵政編碼;以及至少部分地基于檢測(cè)到的州/郵編對(duì)的計(jì)數(shù),計(jì)算存儲(chǔ)的數(shù)據(jù)的得分。
[0020]檢測(cè)在電存儲(chǔ)的文件系統(tǒng)中哪些文件最近被更新過(guò);以及在最近被更新過(guò)的文件中的每一個(gè)中搜索機(jī)密信息。
[0021]定義字串的字節(jié)值的子集可以表示字母數(shù)字字符、括號(hào)、連字號(hào)以及空格符。
[0022]將所述得分與閾值相比較;以及如果該得分超過(guò)所述閾值,則將該存儲(chǔ)的數(shù)據(jù)標(biāo)記為可能包含機(jī)密信息。
[0023]這些方面可以包括一個(gè)或多個(gè)下列好處:
[0024]使得對(duì)機(jī)密信息的搜索自動(dòng)化。有效檢測(cè)機(jī)密信息以實(shí)現(xiàn)并增強(qiáng)安全性和私密性保護(hù)手段。
[0025]本申請(qǐng)的其它特征和好處將從以下說(shuō)明以及從權(quán)利要求中變得清楚。
【附圖說(shuō)明】
[0026]圖1是用于檢測(cè)存儲(chǔ)的數(shù)據(jù)中的機(jī)密信息的系統(tǒng)的框圖。
[0027]圖2是用于檢測(cè)存儲(chǔ)的數(shù)據(jù)中的機(jī)密信息的軟件的框圖。
[0028]圖3是用于計(jì)算表示文件包含機(jī)密信息的可能性的得分的過(guò)程的流程圖。
【具體實(shí)施方式】
[0029]期望能夠在較大數(shù)據(jù)集中檢測(cè)的機(jī)密數(shù)據(jù)的出現(xiàn),并且具體來(lái)說(shuō),期望在搜索機(jī)密數(shù)據(jù)的過(guò)程中檢測(cè)機(jī)密信息而無(wú)需人工代理審閱大部分的數(shù)據(jù)。用于檢測(cè)機(jī)密信息的系統(tǒng)能夠自動(dòng)檢測(cè)可能的機(jī)密數(shù)據(jù),這些可能的機(jī)密數(shù)據(jù)之后能夠被人工代理整體或者部分地審閱。在一些實(shí)施例中,機(jī)密數(shù)據(jù)的人工審閱可能局限于明確的工作人員在極少時(shí)間進(jìn)行或者被完全避免,由此降低或者消除由機(jī)密信息的誤處理所引起的私密性侵害。
[0030]圖1描繪了用于檢測(cè)電子存儲(chǔ)的數(shù)據(jù)中的機(jī)密信息的示范性系統(tǒng)。感興趣的數(shù)據(jù)可以存儲(chǔ)在一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)設(shè)備中,諸如實(shí)現(xiàn)在平行文件系統(tǒng)的多個(gè)設(shè)備上的平行“多文件”110(例如,如通過(guò)引用并入此處的美國(guó)申請(qǐng)5,897,638中所述)或者數(shù)據(jù)庫(kù)服務(wù)器120中。機(jī)密信息檢測(cè)(CID)系統(tǒng)100使用運(yùn)行在運(yùn)行時(shí)環(huán)境150中的軟件來(lái)分析數(shù)據(jù)存儲(chǔ)設(shè)備中存儲(chǔ)的數(shù)據(jù)。分析的結(jié)果,包括存儲(chǔ)的數(shù)據(jù)的每個(gè)單元一一諸如文件一一的得分、以及可能指示存儲(chǔ)的數(shù)據(jù)的哪些單元可能包含機(jī)密信息的標(biāo)記,可以被寫(xiě)入同一個(gè)110、120或者其它數(shù)據(jù)存儲(chǔ)設(shè)備160、170。在一些情況下,可以由操作者使用用戶(hù)接口 180配置和控制CID系統(tǒng)的運(yùn)行以及審閱結(jié)果。
[0031]可以在合適的操作系統(tǒng)--諸如UNIX操作系統(tǒng)--的控制下在一個(gè)或多個(gè)通用計(jì)算機(jī)上提供運(yùn)行時(shí)環(huán)境150。例如,運(yùn)行時(shí)環(huán)境150能夠包括多節(jié)點(diǎn)平行計(jì)算環(huán)境,該環(huán)境包括使用多個(gè)中央處理單元(CPU)的計(jì)算機(jī)系統(tǒng)的配置,多個(gè)中央處理單元要么是本地的(例如,諸如SMP計(jì)算機(jī)的多處理器系統(tǒng))或者本地分布的(例如,耦接為群或者M(jìn)PP的多個(gè)處理器),要么是遠(yuǎn)程或者遠(yuǎn)程分布的(例如,經(jīng)由LAN或者WAN網(wǎng)絡(luò)耦接的多個(gè)處理器),或者其任意組合。由運(yùn)行時(shí)環(huán)境150存取的輸入、輸出或者中間數(shù)據(jù)集可以是存儲(chǔ)在平行文件系統(tǒng)(例如,數(shù)據(jù)存儲(chǔ)器160,或者本地或者通過(guò)通信鏈接遠(yuǎn)程地耦接到系統(tǒng)100的外部數(shù)據(jù)存儲(chǔ)器170)中的平行“多文件”。
[0032]圖2描繪了可以在運(yùn)行時(shí)環(huán)境中運(yùn)行以實(shí)現(xiàn)用于檢測(cè)電子存儲(chǔ)文件中的機(jī)密信息的系統(tǒng)的軟件的結(jié)構(gòu)。CID系統(tǒng)100將所有文件格式都視為未知并且搜索包含機(jī)密數(shù)據(jù)的字符串。文件是從數(shù)據(jù)存儲(chǔ)設(shè)備201讀取的。字串提取模塊210將文件視為數(shù)據(jù)字節(jié)序列。用于識(shí)別字串的方法將去除除了表示下述字符的字節(jié)之外的所有字節(jié):這些字符用于表示機(jī)密信息的數(shù)據(jù)或者表示機(jī)密信息的數(shù)據(jù)的通常格式化。典型地,字節(jié)是8比特長(zhǎng),但是可以定義為適合于試圖檢測(cè)的字符集的任意大小。例如,一字節(jié)的長(zhǎng)度可以定義為16或32比特。所示的示例系統(tǒng)使用8比特的字節(jié)大小。
[0033]使用與感