本發(fā)明涉及存儲(chǔ),具體涉及一種用于分布式糾刪碼重刪系統(tǒng)的路由方法、裝置及可讀介質(zhì)。
背景技術(shù):
1、為了應(yīng)對(duì)數(shù)據(jù)膨脹帶來(lái)的挑戰(zhàn),提高數(shù)據(jù)中心的存儲(chǔ)利用率并降低存儲(chǔ)成本,重復(fù)數(shù)據(jù)刪除技術(shù)已被廣泛應(yīng)用于重復(fù)率較高的大規(guī)模存儲(chǔ)系統(tǒng)中,以達(dá)到精準(zhǔn)識(shí)別并消除系統(tǒng)中的重復(fù)數(shù)據(jù)的目的,實(shí)現(xiàn)存儲(chǔ)效率的顯著提升。對(duì)比傳統(tǒng)的壓縮技術(shù),重復(fù)數(shù)據(jù)刪除技術(shù)可以消除多個(gè)文件之間的數(shù)據(jù)冗余,大幅提升了系統(tǒng)的存儲(chǔ)效率,有效降低了數(shù)據(jù)傳輸和存儲(chǔ)的總體成本。重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用,使文件最終以共享數(shù)據(jù)對(duì)象或數(shù)據(jù)塊的引用集合存儲(chǔ),使得具有相同數(shù)據(jù)塊的文件之間出現(xiàn)了依賴關(guān)系,即數(shù)據(jù)塊會(huì)被多個(gè)文件共享。這一特征從根本上改變了文件的可靠性,一塊數(shù)據(jù)塊的失效可能會(huì)導(dǎo)致多個(gè)文件無(wú)法被訪問(wèn),所以需要使用容錯(cuò)機(jī)制來(lái)幫助系統(tǒng)維持高可用性。冗余復(fù)制技術(shù)和糾刪碼技術(shù)是常被用來(lái)為系統(tǒng)提供數(shù)據(jù)容錯(cuò)性的有效手段。
2、冗余復(fù)制技術(shù)指的是通過(guò)策略性的增加數(shù)據(jù)冗余來(lái)為系統(tǒng)提供可靠性,這意味著系統(tǒng)內(nèi)部并非所有數(shù)據(jù)塊都有同等程度的可靠性保障,但是對(duì)于此類系統(tǒng)來(lái)說(shuō),任何文件出現(xiàn)失效都會(huì)帶來(lái)嚴(yán)重的后果,所以需要為所有文件提供可靠性保證。
3、糾刪碼技術(shù)通過(guò)在原始數(shù)據(jù)中加入新的校驗(yàn)數(shù)據(jù),使得文件各個(gè)數(shù)據(jù)塊產(chǎn)生關(guān)聯(lián)。當(dāng)發(fā)生數(shù)據(jù)塊丟失或錯(cuò)誤等失效問(wèn)題時(shí),只要失效的數(shù)據(jù)塊數(shù)量不超過(guò)系統(tǒng)所設(shè)定的容錯(cuò)上限,糾刪碼便能利用剩余的有效數(shù)據(jù)塊進(jìn)行解碼操作,從而恢復(fù)失效的數(shù)據(jù)。糾刪碼技術(shù)使用較少的冗余數(shù)據(jù),為存儲(chǔ)系統(tǒng)內(nèi)的所有數(shù)據(jù)塊提供與多備份機(jī)制相同的容錯(cuò)能力。
4、糾刪碼重復(fù)數(shù)據(jù)刪除系統(tǒng)將糾刪碼技術(shù)與重復(fù)數(shù)據(jù)刪除技術(shù)相結(jié)合,糾刪碼則能為重復(fù)數(shù)據(jù)刪除系統(tǒng)中所有數(shù)據(jù)塊提供可靠性保證,而不僅局限于部分?jǐn)?shù)據(jù)塊,確保了所有數(shù)據(jù)的完整性和可用性。這種融合方案繼承了兩種技術(shù)的優(yōu)點(diǎn),在保證系統(tǒng)可靠性的基礎(chǔ)上,進(jìn)一步提升了系統(tǒng)的存儲(chǔ)效率。通過(guò)這種結(jié)合,系統(tǒng)能夠在數(shù)據(jù)冗余和數(shù)據(jù)去重之間找到一種平衡,從而提供更加高效且可靠的數(shù)據(jù)存儲(chǔ)解決方案。bo?han等人將文件分割成多個(gè)數(shù)據(jù)塊,并進(jìn)行重復(fù)數(shù)據(jù)刪除操作,之后他們應(yīng)用糾刪碼技術(shù)對(duì)這些數(shù)據(jù)塊進(jìn)行編碼;r-admad將多個(gè)文件拼接成更大的文件再進(jìn)行上述操作;eec-dedup則進(jìn)一步減少了零字節(jié)填充;codeplugin則將文件劃分為子文件來(lái)獲取更高的存儲(chǔ)效率?,F(xiàn)有工作存在以下不足:
5、(1)系統(tǒng)可靠性不足。在構(gòu)建糾刪碼重刪系統(tǒng)時(shí),現(xiàn)有的研究往往未能充分考慮文件刪除操作對(duì)糾刪碼可靠性的影響。系統(tǒng)中進(jìn)行文件刪除操作時(shí),被多個(gè)文件索引的塊可能會(huì)出現(xiàn)編碼條帶中其他數(shù)據(jù)塊被刪除的情況,破壞了其糾刪碼條帶的完整性,導(dǎo)致被多個(gè)文件索引的塊無(wú)法被糾刪碼恢復(fù),失去可靠性保障。
6、(2)系統(tǒng)吞吐量下降。在糾刪碼重刪系統(tǒng)中,現(xiàn)有的研究常采用全局重刪技術(shù),這種技術(shù)雖然可以有效地消除重復(fù)數(shù)據(jù),但同時(shí)也給系統(tǒng)帶來(lái)了較大的計(jì)算壓力。全局重刪需要對(duì)整個(gè)系統(tǒng)中的數(shù)據(jù)進(jìn)行掃描和比對(duì),這個(gè)過(guò)程需要消耗大量的計(jì)算資源。此外,現(xiàn)有的系統(tǒng)多采用中心化的布局,這種布局方式在數(shù)據(jù)處理量較小時(shí)尚能維持較高的性能,但在面對(duì)高負(fù)載時(shí),中心節(jié)點(diǎn)的處理能力可能成為瓶頸,導(dǎo)致系統(tǒng)性能下降。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的目的在于針對(duì)上述提到的技術(shù)問(wèn)題提出一種用于分布式糾刪碼重刪系統(tǒng)的路由方法、裝置及可讀介質(zhì)。
2、第一方面,本發(fā)明提供了一種用于分布式糾刪碼重刪系統(tǒng)的路由方法,包括以下步驟:
3、獲取待寫(xiě)入的文件,對(duì)待寫(xiě)入的文件進(jìn)行等長(zhǎng)分塊,得到k個(gè)數(shù)據(jù)塊,對(duì)k個(gè)數(shù)據(jù)塊進(jìn)行糾刪碼編碼,生成m個(gè)校驗(yàn)塊,k個(gè)數(shù)據(jù)塊和m個(gè)校驗(yàn)塊構(gòu)成k+m個(gè)文件塊,并計(jì)算待寫(xiě)入的文件中的每個(gè)文件塊的指紋值;
4、構(gòu)建本地指紋表和全局文件索引表,本地指紋表中記錄存儲(chǔ)集群中的每個(gè)節(jié)點(diǎn)中存儲(chǔ)的已寫(xiě)入的文件中的每個(gè)文件塊的指紋值、引用計(jì)數(shù)和存儲(chǔ)地址,全局文件索引表中記錄已寫(xiě)入的文件的唯一識(shí)別碼以及已寫(xiě)入的文件中的所有文件塊的指紋值和節(jié)點(diǎn)信息,節(jié)點(diǎn)信息包括節(jié)點(diǎn)在存儲(chǔ)集群中的唯一標(biāo)識(shí)符;
5、將待寫(xiě)入的文件中的其中一個(gè)文件塊的指紋值在本地指紋表中查詢,響應(yīng)于確定在本地指紋表中查詢到與待寫(xiě)入的文件中的其中一個(gè)文件塊的指紋值相同的指紋值,則確定待寫(xiě)入的文件中的其中一個(gè)文件塊為重復(fù)塊,并將重復(fù)塊在本地指紋表中的引用計(jì)數(shù)進(jìn)行累加;響應(yīng)于確定在本地指紋表中查詢不到與待寫(xiě)入的文件中的其中一個(gè)文件塊的指紋值相同的指紋值,則確定待寫(xiě)入的文件中的其中一個(gè)文件塊不為重復(fù)塊,并將待寫(xiě)入的文件中的其中一個(gè)文件塊的指紋值存儲(chǔ)在存儲(chǔ)集群中的其中一個(gè)節(jié)點(diǎn)上,將待寫(xiě)入的文件中的其中一個(gè)文件塊的指紋值、引用計(jì)數(shù)和存儲(chǔ)地址記錄在本地指紋表;
6、重復(fù)上個(gè)步驟,直至待寫(xiě)入的文件中的所有文件塊都在本地指紋表中查詢完成,待寫(xiě)入的文件變?yōu)橐褜?xiě)入的文件并生成對(duì)應(yīng)的唯一識(shí)別碼,并結(jié)合其對(duì)應(yīng)的所有文件塊的指紋值和所有文件塊所對(duì)應(yīng)的節(jié)點(diǎn)信息更新在全局文件索引表中。
7、作為優(yōu)選,文件塊的指紋值采用布谷鳥(niǎo)哈希算法進(jìn)行計(jì)算,文件塊的指紋值被分配存儲(chǔ)到存儲(chǔ)集群的節(jié)點(diǎn)上,其中,同一個(gè)文件中的指紋值不同的文件塊映射在存儲(chǔ)集群中的不同節(jié)點(diǎn)上,不同的文件中的指紋值相同的文件塊映射在存儲(chǔ)集群中的同一個(gè)節(jié)點(diǎn)上。
8、作為優(yōu)選,采用訪問(wèn)計(jì)數(shù)器記錄存儲(chǔ)集群中的每個(gè)節(jié)點(diǎn)的訪問(wèn)次數(shù),響應(yīng)于確定文件塊對(duì)應(yīng)的分配的節(jié)點(diǎn)的訪問(wèn)次數(shù)超過(guò)閾值,則使用布谷鳥(niǎo)哈希算法計(jì)算文件塊的指紋值的所有可存儲(chǔ)的節(jié)點(diǎn),選擇所有可存儲(chǔ)的節(jié)點(diǎn)中存儲(chǔ)的指紋值最少或者訪問(wèn)次數(shù)最少的節(jié)點(diǎn)作為轉(zhuǎn)移的節(jié)點(diǎn),將文件塊的指紋值從分配的節(jié)點(diǎn)復(fù)制到轉(zhuǎn)移的節(jié)點(diǎn),若在分配的節(jié)點(diǎn)的本地指紋表中查詢不到文件塊的指紋值,則在轉(zhuǎn)移的節(jié)點(diǎn)的本地指紋表中查詢文件塊的指紋值,若在轉(zhuǎn)移的節(jié)點(diǎn)的本地指紋表中查詢不到文件塊的指紋值,則在分配的節(jié)點(diǎn)的本地指紋表中查詢文件塊的指紋值;重復(fù)以上查詢過(guò)程,直至查詢到與文件塊的指紋值并獲取對(duì)應(yīng)的存儲(chǔ)地址,以讀取到文件塊。
9、作為優(yōu)選,還包括:
10、獲取待訪問(wèn)的文件的唯一識(shí)別碼;
11、響應(yīng)于確定在全局文件索引表中查詢到與待訪問(wèn)的文件的唯一識(shí)別碼相同的唯一識(shí)別碼,則獲取到待訪問(wèn)的文件的所有文件塊的指紋值和節(jié)點(diǎn)信息;
12、遍歷每個(gè)節(jié)點(diǎn)信息,根據(jù)節(jié)點(diǎn)信息在對(duì)應(yīng)的節(jié)點(diǎn)的本地指紋表中查詢與待訪問(wèn)的文件中的文件塊的指紋值相同的指紋值所對(duì)應(yīng)的存儲(chǔ)地址,在存儲(chǔ)地址中讀取對(duì)應(yīng)的文件塊;
13、重復(fù)以上步驟,直至遍歷完所有節(jié)點(diǎn)信息。
14、作為優(yōu)選,還包括:
15、獲取待刪除的文件的唯一識(shí)別碼;
16、響應(yīng)于確定在全局文件索引表中查詢到與待刪除的文件的唯一識(shí)別碼相同的唯一識(shí)別碼,則獲取到待刪除的文件的所有文件塊的指紋值和節(jié)點(diǎn)信息;
17、遍歷每個(gè)節(jié)點(diǎn)信息,根據(jù)節(jié)點(diǎn)信息在對(duì)應(yīng)的節(jié)點(diǎn)的本地指紋表中查詢到與待刪除的文件中的文件塊的指紋值相同的指紋值所對(duì)應(yīng)的引用次數(shù),并將引用次數(shù)進(jìn)行減一;
18、重復(fù)以上步驟,直至遍歷完所有節(jié)點(diǎn)信息,將引用次數(shù)為0的文件塊作為無(wú)效塊;
19、響應(yīng)于存儲(chǔ)集群中的其中一個(gè)節(jié)點(diǎn)中的無(wú)效塊的數(shù)量達(dá)到閾值,則將存儲(chǔ)集群中的其中一個(gè)節(jié)點(diǎn)中的無(wú)效塊刪除。
20、作為優(yōu)選,還包括:通過(guò)唯一識(shí)別碼將全局文件索引表進(jìn)行切分得到與全局文件索引表具有相同數(shù)據(jù)項(xiàng)格式的若干個(gè)子表,并將每個(gè)子表存儲(chǔ)在存儲(chǔ)集群中對(duì)應(yīng)的節(jié)點(diǎn)上,且每個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)上存儲(chǔ)子表的備份表,每個(gè)子表中的文件的唯一識(shí)別碼的其中n位字符相同,子表與備份表相同;
21、在全局文件索引表中查詢的過(guò)程等同于在子表或備份表中查詢,若無(wú)法訪問(wèn)子表,則訪問(wèn)備份表。
22、第二方面,本發(fā)明提供了一種用于分布式糾刪碼重刪系統(tǒng)的路由裝置,包括:
23、糾刪碼編碼模塊,被配置為獲取待寫(xiě)入的文件,對(duì)待寫(xiě)入的文件進(jìn)行等長(zhǎng)分塊,得到k個(gè)數(shù)據(jù)塊,對(duì)k個(gè)數(shù)據(jù)塊進(jìn)行糾刪碼編碼,生成m個(gè)校驗(yàn)塊,k個(gè)數(shù)據(jù)塊和m個(gè)校驗(yàn)塊構(gòu)成k+m個(gè)文件塊,并計(jì)算待寫(xiě)入的文件中的每個(gè)文件塊的指紋值;
24、索引關(guān)系建立模塊,被配置為構(gòu)建本地指紋表和全局文件索引表,本地指紋表中記錄存儲(chǔ)集群中的每個(gè)節(jié)點(diǎn)中存儲(chǔ)的已寫(xiě)入的文件中的每個(gè)文件塊的指紋值、引用計(jì)數(shù)和存儲(chǔ)地址,全局文件索引表中記錄已寫(xiě)入的文件的唯一識(shí)別碼以及已寫(xiě)入的文件中的所有文件塊的指紋值和節(jié)點(diǎn)信息,節(jié)點(diǎn)信息包括節(jié)點(diǎn)在存儲(chǔ)集群中的唯一標(biāo)識(shí)符;
25、重刪模塊,被配置為將待寫(xiě)入的文件中的其中一個(gè)文件塊的指紋值在本地指紋表中查詢,響應(yīng)于確定在本地指紋表中查詢到與待寫(xiě)入的文件中的其中一個(gè)文件塊的指紋值相同的指紋值,則確定待寫(xiě)入的文件中的其中一個(gè)文件塊為重復(fù)塊,并將重復(fù)塊在本地指紋表中的引用計(jì)數(shù)進(jìn)行累加;響應(yīng)于確定在本地指紋表中查詢不到與待寫(xiě)入的文件中的其中一個(gè)文件塊的指紋值相同的指紋值,則確定待寫(xiě)入的文件中的其中一個(gè)文件塊不為重復(fù)塊,并將待寫(xiě)入的文件中的其中一個(gè)文件塊的指紋值存儲(chǔ)在存儲(chǔ)集群中的其中一個(gè)節(jié)點(diǎn)上,將待寫(xiě)入的文件中的其中一個(gè)文件塊的指紋值、引用計(jì)數(shù)和存儲(chǔ)地址記錄在本地指紋表;
26、重復(fù)模塊,被配置為重復(fù)執(zhí)行上個(gè)模塊,直至待寫(xiě)入的文件中的所有文件塊都在本地指紋表中查詢完成,待寫(xiě)入的文件變?yōu)橐褜?xiě)入的文件并生成對(duì)應(yīng)的唯一識(shí)別碼,并結(jié)合其對(duì)應(yīng)的所有文件塊的指紋值和所有文件塊所對(duì)應(yīng)的節(jié)點(diǎn)信息更新在全局文件索引表中。
27、第三方面,本發(fā)明提供了一種電子設(shè)備,包括一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
28、第四方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
29、第五方面,本發(fā)明提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
30、相比于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
31、(1)本發(fā)明提出的用于分布式糾刪碼重刪系統(tǒng)的路由方法通過(guò)使所有數(shù)據(jù)塊參與糾刪碼編碼,為所有數(shù)據(jù)塊提供相同的可靠性保護(hù),解決了系統(tǒng)的部分?jǐn)?shù)據(jù)塊可靠性不足的問(wèn)題。
32、(2)本發(fā)明提出的用于分布式糾刪碼重刪系統(tǒng)的路由方法采用局部重刪方案代替全局重刪方案,避免了使用全局重刪方案帶來(lái)的額外計(jì)算壓力,提高了系統(tǒng)的讀寫(xiě)性能。
33、(3)本發(fā)明提出的用于分布式糾刪碼重刪系統(tǒng)的路由方法去中心化方案采用去中心化的負(fù)載均衡方案,解決了中心化結(jié)構(gòu)的弊病,提高了高負(fù)載情況下的系統(tǒng)讀寫(xiě)性能,解決了分布糾刪碼重刪式系統(tǒng)中元數(shù)據(jù)管理的一致性和同步問(wèn)題,實(shí)現(xiàn)了讀寫(xiě)沖突的無(wú)鎖化處理。