本技術涉及數(shù)據(jù)加密,具體涉及一種面向企業(yè)辦公系統(tǒng)的文件數(shù)據(jù)加密方法。
背景技術:
1、隨著企業(yè)信息化的不斷發(fā)展,大量敏感信息以電子文檔形式存在,而電子文檔易操作、易復制以及可重復使用等特點使得企業(yè)辦公的電子文件數(shù)據(jù)易擴散,成為企業(yè)數(shù)據(jù)安全的重要隱患。為保障企業(yè)敏感信息的安全,除了采用在網絡出入口部署防火墻等網絡安全的手段以外,還有一些必要的物理隔離和規(guī)章制度的機制,以及基于加密技術的數(shù)據(jù)信息管理方法。
2、橢圓曲線加密算法因其高安全性的特點常用于數(shù)據(jù)加密領域,在企業(yè)文件數(shù)據(jù)加密過程中,常規(guī)方法采用單一的參數(shù)進行加密處理。然而,企業(yè)辦公的文件數(shù)據(jù)信息多樣,包含有公司政策、會議記錄報告、項目計劃、財務報表以及技術規(guī)范文檔等,不同的文件具有不同程度的隱私重要性。若僅采用固定參數(shù)對企業(yè)文件進行加密,會降低對文件加密的安全性和加密效率。
技術實現(xiàn)思路
1、為了解決上述技術問題,本技術提供一種面向企業(yè)辦公系統(tǒng)的文件數(shù)據(jù)加密方法,以解決現(xiàn)有的問題。
2、本技術的一種面向企業(yè)辦公系統(tǒng)的文件數(shù)據(jù)加密方法采用如下技術方案:
3、本技術一個實施例提供了一種面向企業(yè)辦公系統(tǒng)的文件數(shù)據(jù)加密方法,該方法包括以下步驟:
4、獲取企業(yè)辦公系統(tǒng)中每個辦公文檔的所有表格數(shù)據(jù)、所有圖像數(shù)據(jù)、以及文本數(shù)據(jù)內所有非停用詞及各自的語義向量;
5、根據(jù)每個辦公文檔的文本數(shù)據(jù)內各非停用詞與其所在語句中其他各非停用詞對應次序的差異,各非停用詞與其所在語句中其他各非停用詞的語義向量的相似度,以及各非停用詞在對應文本數(shù)據(jù)內出現(xiàn)的頻率,確定每個辦公文檔的文本數(shù)據(jù)內各非停用詞的第一重要性指數(shù);
6、對每個辦公文檔的文本數(shù)據(jù)內所有非停用詞的第一重要性指數(shù)聚類,得到多個聚類簇,將含有最大第一重要性指數(shù)的聚類簇中所有第一重要性指數(shù)對應的非停用詞,記為高敏感詞;
7、基于每個辦公文檔的文本數(shù)據(jù)內各段落中任意兩條語句在語義層面的相似度,確定每個辦公文檔的文本數(shù)據(jù)內各段落的語義相似度,并結合每個辦公文檔的文本數(shù)據(jù)內各段落中所有高敏感詞在對應段落中所有非停用詞中的占比,以及各段落到所有表格數(shù)據(jù)和所有圖像數(shù)據(jù)的距離,確定每個辦公文檔的文本數(shù)據(jù)內各段落的第二重要性指數(shù);
8、基于每個辦公文檔與其他辦公文檔的差異確定每個辦公文檔的差異程度,結合每個辦公文檔的文本數(shù)據(jù)內所有段落的第二重要性指數(shù),確定每個辦公文檔的敏感指數(shù);基于所述敏感指數(shù)確定各辦公文檔的有限域參數(shù)近似值,結合加密算法對各辦公文檔進行加密。
9、優(yōu)選的,所述每個辦公文檔的文本數(shù)據(jù)內各非停用詞的第一重要性指數(shù)的確定方法為:
10、基于每個辦公文檔的文本數(shù)據(jù)內各非停用詞與其所在語句中其他各非停用詞對應次序的差異,各非停用詞與其所在語句中其他各非停用詞的語義向量的相似度,以及各非停用詞在對應文本數(shù)據(jù)內出現(xiàn)的頻率,確定每個辦公文檔的文本數(shù)據(jù)內各非停用詞的信息重要性;
11、每個辦公文檔的文本數(shù)據(jù)內各非停用詞的第一重要性指數(shù)為每個辦公文檔的文本數(shù)據(jù)內各非停用詞的信息重要性與詞頻-逆文檔頻率融合的結果。
12、優(yōu)選的,所述每個辦公文檔的文本數(shù)據(jù)內各非停用詞的信息重要性的表達式為:;式中,表示第x個辦公文檔的文本數(shù)據(jù)內第i個非停用詞的信息重要性;表示第x個辦公文檔的文本數(shù)據(jù)內第i個非停用詞與其所在語句中第j個非停用詞對應次序的差異;表示第x個辦公文檔的文本數(shù)據(jù)內第i個非停用詞與其所在語句中第j個非停用詞的詞頻的和值;表示第x個辦公文檔的文本數(shù)據(jù)內第i個非停用詞與其所在語句中第j個非停用詞的語義向量的相似度;表示第x個辦公文檔的文本數(shù)據(jù)內第i個非停用詞所在語句中所有非停用詞的數(shù)量。
13、優(yōu)選的,所述每個辦公文檔的文本數(shù)據(jù)內各段落的語義相似度的確定方法為:
14、將每個辦公文檔的文本數(shù)據(jù)內每條語句中所有非停用詞的語義向量在各個維度上取均值,組成每條語句的句意向量;
15、每個辦公文檔的文本數(shù)據(jù)內各段落的語義相似度為每個辦公文檔的文本數(shù)據(jù)內各段落中任意兩條語句的句意向量的累加和。
16、優(yōu)選的,所述每個辦公文檔的文本數(shù)據(jù)內各段落的第二重要性指數(shù)的確定方法為:
17、每個辦公文檔的文本數(shù)據(jù)內各段落中所有高敏感詞的數(shù)量與對應段落中所有非停用詞的比值,記為每個辦公文檔的文本數(shù)據(jù)內各段落的高敏感詞占比;
18、基于每個辦公文檔的文本數(shù)據(jù)內各段落到所有表格數(shù)據(jù)和所有圖像數(shù)據(jù)的距離,確定每個辦公文檔的文本數(shù)據(jù)內各段落的第一距離;
19、基于所述高敏感詞占比、所述語義相似度、所述第一距離,確定每個辦公文檔的文本數(shù)據(jù)內各段落的第二重要性指數(shù)。
20、優(yōu)選的,所述每個辦公文檔的文本數(shù)據(jù)內各段落的第一距離的確定方法為:
21、獲取每個辦公文檔的所有表格數(shù)據(jù)、所有圖像數(shù)據(jù)及文本數(shù)據(jù)內所有段落的包圍矩形框,每個辦公文檔的文本數(shù)據(jù)內各段落的第一距離為每個辦公文檔的文本數(shù)據(jù)內各段落的包圍矩形框左上頂點到所有表格數(shù)據(jù)及所有圖像數(shù)據(jù)的包圍矩形框左上頂點的距離的累加和。
22、優(yōu)選的,所述每個辦公文檔的文本數(shù)據(jù)內各段落的第二重要性指數(shù)的表達式為:;式中,、、、分別表示第x個辦公文檔的文本數(shù)據(jù)內第k個段落的第二重要性指數(shù)、高敏感詞占比、語義相似度、第一距離。
23、優(yōu)選的,所述每個辦公文檔的差異程度的確定方法為:
24、將每個辦公文檔作為指紋生成算法的輸入,得到每個辦公文檔的指紋,每個辦公文檔的差異程度為每個辦公文檔的指紋與其他所有辦公文檔的指紋的差異取均值。
25、優(yōu)選的,所述每個辦公文檔的敏感指數(shù)為每個辦公文檔的文本數(shù)據(jù)內所有段落的第二重要性指數(shù)的和值與差異程度的比值。
26、優(yōu)選的,所述確定各辦公文檔的有限域參數(shù)近似值,結合加密算法對各辦公文檔進行加密,進一步包括:
27、每個辦公文檔的有限域參數(shù)近似值的表達式為:;式中,表示第x個辦公文檔的有限域參數(shù)近似值;表示第x個辦公文檔的敏感指數(shù);表示以自然常數(shù)為底數(shù)的指數(shù)函數(shù);、均為大于0的預設常數(shù);
28、對待加密的辦公文檔的文本數(shù)據(jù)進行編碼,將編碼后的數(shù)據(jù)作為加密算法的輸入,其中,將與有限域參數(shù)近似值最接近的素數(shù)作為對應辦公文檔加密時加密算法的有限域參數(shù),輸出加密后的辦公文檔。
29、本技術至少具有如下有益效果:
30、本技術根據(jù)每個辦公文檔的文本數(shù)據(jù)內各非停用詞與其所在語句中其他各非停用詞對應次序的差異,各非停用詞與其所在語句中其他各非停用詞的語義向量的相似度,以及各非停用詞在對應文本數(shù)據(jù)內出現(xiàn)的頻率,確定每個辦公文檔的文本數(shù)據(jù)內各非停用詞的第一重要性指數(shù),從而實現(xiàn)對辦公文檔的文本數(shù)據(jù)內所有非停用詞的重要程度的劃分。
31、本技術基于每個辦公文檔的文本數(shù)據(jù)內各段落中所有高敏感詞在對應段落中所有非停用詞中的占比,以及各段落中任意兩條語句在語義層面的相似度,結合各段落到所有表格數(shù)據(jù)和所有圖像數(shù)據(jù)的距離,確定每個辦公文檔的文本數(shù)據(jù)內各段落的第二重要性指數(shù),從而進一步限定非停用詞的重要程度;基于每個辦公文檔與其他辦公文檔的差異,結合每個辦公文檔的文本數(shù)據(jù)內所有段落的第二重要性指數(shù),確定每個辦公文檔的敏感指數(shù),以實現(xiàn)針對不同辦公文檔時加密算法的自適應加密功能。
32、本技術通過分析辦公文檔中不同子詞的重要性程度,從而確定不同辦公文檔的加密程度,為不同辦公文檔分配自適應的有限域參數(shù),提高了對不同辦公文檔加密的安全性和加密效率。