本發(fā)明涉及人工智能,具體為一種基于人工智能的檔案系統(tǒng)及方法。
背景技術(shù):
1、隨著信息技術(shù)的飛速發(fā)展,檔案管理的重要性日益凸顯,在各個領(lǐng)域,大量的信息被記錄和保存為檔案資料,涵蓋了文字、圖像、音頻、視頻等多種形式,傳統(tǒng)的檔案管理主要依賴人工操作和簡單的計(jì)算機(jī)輔助,然而,隨著檔案數(shù)量的不斷增加和種類的日益豐富,這種方式逐漸難以滿足現(xiàn)代社會對高效、準(zhǔn)確檔案管理的需求;
2、現(xiàn)有的一種基于人工智能的檔案系統(tǒng)及方法存在一定的缺陷,一方面,檔案檢索困難,面對數(shù)量龐大、種類繁多的檔案資料,手工檢索難度大且容易出錯,耗費(fèi)時間較多,尤其是檔案室規(guī)模較大時,該問題更為突出,另一方面,在檔案信息共享方面,現(xiàn)有的部分計(jì)算機(jī)管理系統(tǒng)僅僅將其作為存儲資料的工具,信息的共享性能較差,缺乏有效的共享機(jī)制使得檔案信息無法在不同部門、不同用戶之間高效流轉(zhuǎn),無法真正發(fā)揮信息所具有的服務(wù)功能,這不僅阻礙了工作效率的提升,也限制了信息資源的充分利用,為此,我們提出一種基于人工智能的檔案系統(tǒng)及方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于人工智能的檔案系統(tǒng)及方法。
2、以解決上述背景技術(shù)中提出的問題,本發(fā)明提供如下技術(shù)方案:一種基于人工智能的檔案系統(tǒng),所述檔案系統(tǒng)包括智能檢索模塊、信息共享優(yōu)化模塊、深度學(xué)習(xí)引擎和自適應(yīng)分類模塊;
3、所述智能檢索模塊利用自然語言處理與深度神經(jīng)網(wǎng)絡(luò),結(jié)合詞向量模型將檢索請求和檔案文本轉(zhuǎn)化為向量形式,通過余弦相似度及引入時間衰減因子的相關(guān)性計(jì)算公式實(shí)現(xiàn)精準(zhǔn)且具時效性的檢索,檢索出的相關(guān)檔案數(shù)據(jù)會作為輸入傳遞給深度學(xué)習(xí)引擎和自適應(yīng)分類模塊,所述信息共享優(yōu)化模塊采用融合量子隨機(jī)數(shù)生成的高級加密標(biāo)準(zhǔn)改進(jìn)算法,利用量子隨機(jī)數(shù)生成器生成初始密鑰,對檔案信息分組加密并根據(jù)密鑰長度和安全等級動態(tài)調(diào)整加密輪數(shù),確保信息安全共享,所述深度學(xué)習(xí)引擎運(yùn)用隨機(jī)梯度下降算法對多層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過計(jì)算損失函數(shù)梯度和更新網(wǎng)絡(luò)參數(shù)實(shí)現(xiàn)對檔案數(shù)據(jù)的準(zhǔn)確特征提取和模式識別,所述深度學(xué)習(xí)引擎從智能檢索模塊獲取檔案數(shù)據(jù)后進(jìn)行特征提取,提取出的特征可以反饋給智能檢索模塊以優(yōu)化檢索結(jié)果,同時也可以為自適應(yīng)分類模塊提供更豐富的特征信息用于分類,所述自適應(yīng)分類模塊依據(jù)檔案屬性通過計(jì)算信息增益值動態(tài)調(diào)整分類策略,所述自適應(yīng)分類模塊接收深度學(xué)習(xí)引擎提取的特征信息以及智能檢索模塊提供的檔案數(shù)據(jù),綜合考慮這些因素進(jìn)行分類調(diào)整,使得檔案分類更加合理高效,同時,分類結(jié)果也可以為智能檢索模塊提供更準(zhǔn)確的檢索范圍和方向;
4、所述檔案系統(tǒng)還包括數(shù)據(jù)清洗模塊,對數(shù)值型數(shù)據(jù)采用z-score標(biāo)準(zhǔn)化方法,對文本型數(shù)據(jù)進(jìn)行詞干提取和停用詞過濾。
5、作為本發(fā)明的進(jìn)一步方案:所述智能檢索模塊設(shè)置有詞向量模型,運(yùn)用詞向量模型將檢索請求和檔案文本轉(zhuǎn)化為向量形式,通過余弦相似度計(jì)算檢索請求和檔案文本兩者的相關(guān)性,同時,引入時間衰減因子來體現(xiàn)檔案的時效性,對于較新的檔案賦予更高的權(quán)重,通過相關(guān)性計(jì)算公式計(jì)算檢索請求和檔案文本兩者的相關(guān)性得分,具體的相關(guān)性得分計(jì)算公式如下:
6、
7、其中:表示相關(guān)性得分,表示檢索請求,檔案文檔,表示檢索請求與檔案文檔的語義相似度,表示檢索詞在文檔中的詞頻,表示文檔的更新頻率,λ為時間衰減系數(shù),表示當(dāng)前時間,表示檔案創(chuàng)建時間, α、 β和 γ為可調(diào)整的權(quán)重參數(shù);
8、通過相關(guān)性得分計(jì)算公式對檢索結(jié)果進(jìn)行倒序排序,優(yōu)先展示相關(guān)性高且時效性強(qiáng)的檔案。
9、作為本發(fā)明的進(jìn)一步方案:所述信息共享優(yōu)化模塊采用融合了量子隨機(jī)數(shù)生成的高級加密標(biāo)準(zhǔn)(aes)改進(jìn)算法對共享的檔案信息進(jìn)行加密處理,在加密初始階段,利用量子隨機(jī)數(shù)生成器生成高度隨機(jī)且不可預(yù)測的初始密鑰,在加密過程中,首先將檔案信息進(jìn)行分組,每組128位,然后,通過結(jié)合量子密鑰和傳統(tǒng)密鑰擴(kuò)展算法生成多個輪密鑰,加密輪數(shù)根據(jù)密鑰長度和檔案的安全等級動態(tài)調(diào)整,128位密鑰進(jìn)行15輪加密,192位密鑰進(jìn)行18輪加密,256位密鑰進(jìn)行20輪加密,在每一輪中,依次進(jìn)行字節(jié)替換、行移位、列混淆和輪密鑰加操作,確保檔案信息在共享過程中的機(jī)密性和完整性,確定只有擁有正確密鑰的用戶能夠通過相應(yīng)的解密算法還原原始檔案信息,從而實(shí)現(xiàn)安全可靠的信息共享。
10、作為本發(fā)明的進(jìn)一步方案:所述深度學(xué)習(xí)引擎運(yùn)用隨機(jī)梯度下降(sgd)算法對多層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,首先,初始化網(wǎng)絡(luò)參數(shù),包括卷積核的權(quán)重和偏置,在每次迭代中,隨機(jī)選取一小批檔案數(shù)據(jù)作為訓(xùn)練樣本,計(jì)算損失函數(shù)對網(wǎng)絡(luò)參數(shù)的梯度,這里的損失函數(shù)使用熵?fù)p失函數(shù),具體的損失函數(shù)公式如下:
11、
12、其中:表示損失值,表示真實(shí)標(biāo)簽,表示預(yù)測輸出;
13、接著,根據(jù)學(xué)習(xí)率對參數(shù)進(jìn)行更新,具體公式如下:
14、
15、其中:更新后的網(wǎng)絡(luò)參數(shù),當(dāng)前的網(wǎng)絡(luò)參數(shù),損失函數(shù)的梯度;
16、通過不斷迭代,使網(wǎng)絡(luò)逐漸收斂,能夠準(zhǔn)確對檔案數(shù)據(jù)進(jìn)行特征提取和模式識別。
17、作為本發(fā)明的進(jìn)一步方案:所述自適應(yīng)分類模塊通過計(jì)算檔案的信息增益值來動態(tài)調(diào)整分類策略,首先,對于每個屬性,計(jì)算其在當(dāng)前分類下的信息熵,其中表示某一屬性值出現(xiàn)的概率,然后,計(jì)算該屬性對于分類的信息增益,具體的計(jì)算公式如下:
18、
19、信息增益, d表示數(shù)據(jù)集,表示屬性 a取值為 v時的數(shù)據(jù)子集,表示數(shù)據(jù)集的信息熵,表示數(shù)據(jù)子集的信息熵;
20、對于計(jì)算的信息增益越大,說明該屬性對于分類的貢獻(xiàn)越大,依據(jù)信息增益值的大小,動態(tài)調(diào)整檔案的分類層次和類別劃分。
21、作為本發(fā)明的進(jìn)一步方案:所述數(shù)據(jù)清洗模塊運(yùn)用數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)對原始檔案數(shù)據(jù)進(jìn)行清洗和規(guī)范化處理,對于數(shù)值型數(shù)據(jù),采用z-score標(biāo)準(zhǔn)化方法,將數(shù)據(jù)轉(zhuǎn)換為均值為0、標(biāo)準(zhǔn)差為1的分布,z-score標(biāo)準(zhǔn)化的計(jì)算公式如下:
22、
23、其中:表示標(biāo)準(zhǔn)化后的數(shù)值,表示原始數(shù)據(jù)值,表示數(shù)據(jù)均值,表示數(shù)據(jù)標(biāo)準(zhǔn)差;
24、對于文本型數(shù)據(jù),通過詞干提取和停用詞過濾操作,去除冗余和無關(guān)信息。
25、作為本發(fā)明的進(jìn)一步方案:所述智能檢索模塊還具備自動糾錯功能,當(dāng)用戶輸入的檢索請求存在拼寫錯誤和語義模糊時,通過編輯距離算法計(jì)算與正確檢索詞的相似度,首先,將用戶輸入的字符串轉(zhuǎn)換為字符數(shù)組,然后通過動態(tài)規(guī)劃的方法計(jì)算兩個數(shù)組之間的編輯距離,編輯操作包括插入、刪除和替換字符,根據(jù)編輯距離的大小,判斷與可能的正確檢索詞的相似度,并進(jìn)行自動糾錯和優(yōu)化,同時,結(jié)合上下文信息和歷史檢索記錄,進(jìn)一步提高糾錯的準(zhǔn)確性。
26、作為本發(fā)明的進(jìn)一步方案:所述信息共享優(yōu)化模塊支持基于屬性的訪問控制(abac)策略,所述信息共享優(yōu)化模塊會根據(jù)用戶的屬性、環(huán)境屬性、操作屬性和對象屬性來動態(tài)分配訪問權(quán)限,首先,定義訪問控制策略規(guī)則,然后,在用戶發(fā)起訪問請求時,提取相關(guān)的屬性信息,并使用規(guī)則引擎對這些屬性進(jìn)行評估和匹配,如果匹配成功,則授予相應(yīng)的訪問權(quán)限,否則,拒絕訪問。
27、作為本發(fā)明的進(jìn)一步方案:所述深度學(xué)習(xí)引擎在進(jìn)行特征提取時,采用局部二值模式(lbp)算法對檔案圖像數(shù)據(jù)進(jìn)行特征提取,首先,將圖像劃分為若干個小區(qū)域,對于每個區(qū)域的中心像素,與其鄰域像素進(jìn)行比較,如果鄰域像素值大于中心像素值,則標(biāo)記為1,否則,標(biāo)記為0,將這些標(biāo)記值按照一定順序組合成一個二進(jìn)制數(shù),轉(zhuǎn)換為十進(jìn)制數(shù)作為該區(qū)域的lbp值,然后,統(tǒng)計(jì)圖像中不同lbp值出現(xiàn)的頻率,形成特征向量,通過這種方式,可以有效捕捉檔案圖像數(shù)據(jù)的細(xì)節(jié)特征。
28、另外,本發(fā)明還提供了一種基于人工智能的檔案方法,所述檔案方法包括以下步驟:
29、步驟一、利用智能檢索模塊中的詞向量模型,該模型經(jīng)過深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化訓(xùn)練,將用戶輸入的檢索請求和檔案文本轉(zhuǎn)化為向量形式,幫助準(zhǔn)確地捕捉文本的語義特征,為后續(xù)的相關(guān)性計(jì)算提供基礎(chǔ);
30、步驟二、通過余弦相似度計(jì)算檢索請求與檔案文檔的語義相似度,在計(jì)算過程中,結(jié)合自然語言處理技術(shù)對向量進(jìn)行進(jìn)一步的分析和優(yōu)化,提高語義相似度計(jì)算的準(zhǔn)確性;
31、步驟三、引入時間衰減因子以體現(xiàn)檔案的時效性,對較新的檔案賦予更高權(quán)重,考慮檔案的時間特性,使得檢索結(jié)果更加符合用戶對最新信息的需求,通過動態(tài)調(diào)整時間衰減系數(shù),可以根據(jù)不同的檔案類型和應(yīng)用場景,靈活地控制時效性對相關(guān)性得分的影響程度;
32、步驟四、按照相關(guān)性計(jì)算公式
33、計(jì)算檢索請求和檔案文本兩者的相關(guān)性得分,通過相關(guān)性得分計(jì)算公式對檢索結(jié)果進(jìn)行倒序排序,優(yōu)先展示相關(guān)性高且時效性強(qiáng)的檔案,為用戶提供最符合需求的檢索結(jié)果。
34、采用上述技術(shù)方案,與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
35、1.本發(fā)明通過智能檢索模塊利用自然語言處理技術(shù),能夠深入理解用戶輸入的檢索請求的語義,深度神經(jīng)網(wǎng)絡(luò)則進(jìn)一步強(qiáng)化了對復(fù)雜語義關(guān)系的分析能力,結(jié)合詞向量模型,將檢索請求和檔案文本轉(zhuǎn)化為高維向量,通過精確的余弦相似度計(jì)算及引入時間衰減因子的相關(guān)性計(jì)算公式,快速而準(zhǔn)確地從海量檔案庫中篩選出最符合需求的檔案,即使在規(guī)模龐大的檔案室中,深度學(xué)習(xí)引擎也能通過對大量檔案數(shù)據(jù)的訓(xùn)練,不斷優(yōu)化特征提取和模式識別能力,極大地提高檢索的準(zhǔn)確性和效率,節(jié)省大量時間并減少錯誤發(fā)生的可能性;
36、2.本發(fā)明通過信息共享優(yōu)化模塊采用融合量子隨機(jī)數(shù)生成的高級加密標(biāo)準(zhǔn)改進(jìn)算法,利用量子隨機(jī)數(shù)生成器生成高度隨機(jī)且不可預(yù)測的初始密鑰,確保檔案信息在共享過程中的安全性,在加密過程中,將檔案信息進(jìn)行分組,通過結(jié)合量子密鑰和傳統(tǒng)密鑰擴(kuò)展算法生成多個輪密鑰,并根據(jù)密鑰長度和檔案的安全等級動態(tài)調(diào)整加密輪數(shù),同時,智能檢索模塊與信息共享優(yōu)化模塊協(xié)同工作,使得檔案信息能夠在不同用戶和系統(tǒng)之間高效流轉(zhuǎn),數(shù)據(jù)清洗模塊為信息共享提供高質(zhì)量的數(shù)據(jù)基礎(chǔ),真正發(fā)揮信息所具有的服務(wù)功能,促進(jìn)各部門之間的協(xié)作與溝通,提高整體工作效率;
37、3.本發(fā)明通過自適應(yīng)分類模塊依據(jù)檔案屬性計(jì)算信息增益值動態(tài)調(diào)整分類策略,結(jié)合深度學(xué)習(xí)引擎提取的豐富特征信息,能夠更加精準(zhǔn)地對檔案進(jìn)行分類,在面對龐大且種類繁多的檔案資料時,這種動態(tài)分類方式確保檔案始終處于合理的分類體系中,方便用戶快速定位所需檔案,同時,深度學(xué)習(xí)引擎在特征提取時采用局部二值模式算法對檔案圖像數(shù)據(jù)進(jìn)行處理,有效捕捉圖像細(xì)節(jié)特征,進(jìn)一步豐富了檔案的特征信息,為檔案的準(zhǔn)確分類和高效檢索提供了有力支持,大大提高了檔案管理的整體效率和服務(wù)質(zhì)量。