數(shù)據(jù)處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體而言,涉及數(shù)據(jù)處理方法及裝置。
【背景技術(shù)】
[0002] "大數(shù)據(jù)"是我們這個時代的核心特征,它代表著信息技術(shù)的發(fā)展進入了一個新的 時代。隨著新一代信息技術(shù)的創(chuàng)新和應(yīng)用普及,大數(shù)據(jù)已經(jīng)在互聯(lián)網(wǎng)、金融、醫(yī)療、交通、零 售等多個領(lǐng)域得到了廣泛的應(yīng)用。種類廣泛、數(shù)量龐大、產(chǎn)生更新速度不斷加快的大數(shù)據(jù)蘊 含著前所未有的巨大價值,同時也帶來了巨大的技術(shù)挑戰(zhàn)。Web網(wǎng)頁大數(shù)據(jù)是大數(shù)據(jù)的主要 數(shù)據(jù)來源之一,在海量的、動態(tài)的Web數(shù)據(jù)中獲取有用知識的數(shù)據(jù)挖掘不僅在互聯(lián)網(wǎng)行業(yè) 廣泛應(yīng)用,而且對其他行業(yè)也產(chǎn)生了重大的影響。
[0003] 當(dāng)前,Web數(shù)據(jù)正在以一種驚人的速度增長,移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計算等技術(shù) 的發(fā)展使得各種類型的Web數(shù)據(jù)正在源源不斷地從各行各業(yè)迅速產(chǎn)生。據(jù)市場調(diào)研公司 IDC的預(yù)測:到2020年全球的數(shù)據(jù)總量將超過40ZB。據(jù)統(tǒng)計,百度每天需要處理的網(wǎng)頁數(shù) 據(jù)達到10PB-100PB。因此,很多行業(yè)提供的存儲系統(tǒng)容量逐漸從數(shù)十GB發(fā)展到數(shù)百TB,甚 至數(shù)PB。企業(yè)所面臨的數(shù)據(jù)備份與恢復(fù)的時間需求卻越來越多,管理數(shù)據(jù)的成本越來越高, 數(shù)據(jù)存儲的空間消耗也越來越大。然而,研究發(fā)現(xiàn),存儲系統(tǒng)所保存的數(shù)據(jù)中高達60%是 冗余的,而且隨著時間的推移越來越多。其中,大量數(shù)據(jù)的重復(fù)存儲必然會帶來存儲空間浪 費和處理時間增加的問題,最終導(dǎo)致大數(shù)據(jù)分析成本升高,為企業(yè)或個人帶來壓力。
[0004] 為了改善上述問題,重復(fù)數(shù)據(jù)刪除技術(shù)已經(jīng)受到了越來越多的企業(yè)和研究機構(gòu)的 關(guān)注,知名存儲企業(yè)EMC、HP、NEC、Microsoft以及Symantec等都推出了重復(fù)數(shù)據(jù)刪除相關(guān) 的產(chǎn)品,而很多國內(nèi)外研究機構(gòu),如Princeton大學(xué)、Minnesota大學(xué)、California大學(xué)以及 國內(nèi)的華中科技大學(xué)、清華大學(xué)、國防科技大學(xué)、華南理工大學(xué)等都對重復(fù)數(shù)據(jù)刪除技術(shù)做 了深入研究,并取得了許多有價值的研究成果。
[0005] 重復(fù)數(shù)據(jù)刪除技術(shù)(Data De-duplication)也被稱為智能數(shù)據(jù)壓縮或者單一實 例存儲,通過識別相同的數(shù)據(jù),將相同的數(shù)據(jù)只保留唯一的一個副本,以此達到消除數(shù)據(jù)冗 余、降低存儲容量需求的目的。目前,國內(nèi)外針對重復(fù)數(shù)據(jù)刪除的研究主要集中在數(shù)據(jù)庫記 錄以及文件存儲系統(tǒng)中。
[0006] 發(fā)明人經(jīng)研究發(fā)現(xiàn),現(xiàn)今重復(fù)數(shù)據(jù)刪除技術(shù)的研究成果雖然涉及到各種重復(fù)數(shù)據(jù) 檢測方法以及針對大規(guī)模Web數(shù)據(jù)的統(tǒng)一模型,但是,均無法在Web大數(shù)據(jù)清理階段進行重 復(fù)數(shù)據(jù)清理。
【發(fā)明內(nèi)容】
[0007] 有鑒于此,本發(fā)明實施例的目的在于提供一種數(shù)據(jù)處理方法及裝置,以改善現(xiàn)有 技術(shù)中無法在Web大數(shù)據(jù)清理階段進行重復(fù)數(shù)據(jù)清理的問題。
[0008] 為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0009] 第一方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理方法,包括:
[0010] 建立待處理網(wǎng)站數(shù)據(jù)源的網(wǎng)頁對象數(shù)據(jù)模型,所述網(wǎng)頁對象數(shù)據(jù)模型中包括所述 待處理網(wǎng)站數(shù)據(jù)源中各頁面所包含的數(shù)據(jù)信息;
[0011] 對所述待處理網(wǎng)站數(shù)據(jù)源中各頁面所包含的數(shù)據(jù)信息進行抽取,根據(jù)抽取出的數(shù) 據(jù)信息建立網(wǎng)頁數(shù)據(jù)信息模型;
[0012] 根據(jù)所述網(wǎng)頁數(shù)據(jù)信息模型抽取出所述待處理網(wǎng)站數(shù)據(jù)源中各頁面的數(shù)據(jù)項和 描述對象,并根據(jù)抽取的各頁面的描述對象和數(shù)據(jù)項對各頁面進行分類;
[0013] 根據(jù)各頁面的數(shù)據(jù)項計算出每個頁面的相似哈希值,判斷同一類頁面中各頁面之 間的相似哈希值之間的差值是否滿足預(yù)設(shè)閾值,如果是,則判定為重復(fù)數(shù)據(jù),對重復(fù)數(shù)據(jù)進 行清理。
[0014] 結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第一種可能的實施方式,其中,所 述網(wǎng)頁對象數(shù)據(jù)模型為:
[0015] Wj= {L, 0, B}
[0016] 其中,L表示頁面的所在欄目和結(jié)構(gòu)信息;0表示頁面所描述的對象;B表示頁面所 包含的數(shù)據(jù)信息,所述數(shù)據(jù)信息中包含通過信息抽取和語義分析提取的k個數(shù)據(jù)項,k為正 整數(shù)。
[0017] 結(jié)合第一方面的第一種可能的實施方式,本發(fā)明實施例提供了第一方面的第二種 可能的實施方式,其中,所述網(wǎng)頁數(shù)據(jù)信息模型為:
[0018] B = {D^T, E, V, w>, D2<T, E, V, w>, ···, Dk<T, E, V, ω >}
[0019] 其中,D1表示W(wǎng) B中第i個數(shù)據(jù)項,D1. T表示數(shù)據(jù)項類型,所述數(shù)據(jù)項類型包括固 定數(shù)據(jù)項、特征數(shù)據(jù)項和隱式數(shù)據(jù)項,D1. E表示第i個數(shù)據(jù)項的項名,D1. V表示第i個數(shù)據(jù) 項的值,D1 · ω表示第i個數(shù)據(jù)項在頁面中的權(quán)重,i為正整數(shù)。
[0020] 結(jié)合第一方面的第二種可能的實施方式,本發(fā)明實施例提供了第一方面的第三種 可能的實施方式,其中,所述根據(jù)抽取的各頁面的描述對象和數(shù)據(jù)項對各頁面進行分類,包 括:
[0021] 定義類別集合C= (Cl,C2,…,C1,…,Cni),根據(jù)各頁面的數(shù)據(jù)項中的特征數(shù)據(jù)項 矢量確定代表類別集合C中各類別的特征矢量v( c]),m、i、j均為正整數(shù);
[0022] 計算每一個待分類頁面4的特征數(shù)據(jù)項矢量V(dk)與類別集合C中各類別的特征 矢量V(C j)之間的夾角余弦sim(dk,Cj),k為正整數(shù);
[0023]
[0024] 選取sim(dk,C])值最大的一個類別作為待分類頁面d k的類別,直至完成對所有待 分類頁面的分類。
[0025] 結(jié)合第一方面的第三種可能的實施方式,本發(fā)明實施例提供了第一方面的第四種 可能的實施方式,其中,所述根據(jù)各頁面的數(shù)據(jù)項計算出每個頁面的相似哈希值,判斷同一 類頁面中各頁面之間的相似哈希值之間的差值是否滿足預(yù)設(shè)閾值,如果是,則判定為重復(fù) 數(shù)據(jù),對重復(fù)數(shù)據(jù)進行清理,包括:
[0026] 根據(jù)各頁面數(shù)據(jù)項中的特征數(shù)據(jù)項計算出每個頁面的相似哈希值,判斷同一類別 的各頁面之間的相似哈希值之間的差值是否滿足預(yù)設(shè)閾值,如果是,則判定為重復(fù)數(shù)據(jù),對 同一類別下相似哈希值滿足預(yù)設(shè)閾值的所有頁面進行收集,得到各類別下的待清理重復(fù)頁 面數(shù)據(jù)集,對各所述待清理重復(fù)頁面數(shù)據(jù)集中的重復(fù)數(shù)據(jù)進行清理。
[0027] 結(jié)合第一方面的第四種可能的實施方式,本發(fā)明實施例提供了第一方面的第五種 可能的實施方式,其中,所述對各所述待清理重復(fù)頁面數(shù)據(jù)集中的重復(fù)數(shù)據(jù)進行清理,包 括:
[0028] 從每個待清理重復(fù)頁面數(shù)據(jù)集中選取一個頁面進行備份,得到該頁面的副本;
[0029] 保留選取的所述頁面和所述頁面的副本,保存其余頁面指向選取的所述頁面的指 針信息,清理其余頁面。
[0030] 第二方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理裝置,包括:
[0031] 網(wǎng)頁對象數(shù)據(jù)模型建立單元,用于建立待處理網(wǎng)站數(shù)據(jù)源的網(wǎng)頁對象數(shù)據(jù)模型, 所述網(wǎng)頁對象數(shù)據(jù)模型中包括所述待處理網(wǎng)站數(shù)據(jù)源中各頁面所包含的數(shù)據(jù)信息;
[0032] 網(wǎng)頁數(shù)據(jù)信息模型建立單元,用于對所述待處理網(wǎng)站數(shù)據(jù)源中各頁面所包含的數(shù) 據(jù)信息進行抽取,根據(jù)抽取出的數(shù)據(jù)信息建立網(wǎng)頁數(shù)據(jù)信息模型;
[0033] 頁面分類單元,用于根據(jù)所述網(wǎng)頁數(shù)據(jù)信息模型抽取出所述待處理網(wǎng)站數(shù)據(jù)源中 各頁面的數(shù)據(jù)項和描述對象,并根據(jù)抽取的各頁面的描述對象和數(shù)據(jù)項對各頁面進行分 類;
[0034] 重復(fù)頁面數(shù)據(jù)判定及清理單元,用于根據(jù)各頁面的數(shù)據(jù)項計算出每個頁面的相似 哈希值,判斷同一類頁面中各頁面之間的相似哈希值之間的差值是否滿足預(yù)設(shè)閾值,如果 是,則判定為重復(fù)數(shù)據(jù),對重復(fù)數(shù)據(jù)進行清理。
[0035] 結(jié)合第二方面,本發(fā)明實施例提供了第二方面的第一種可能的實施方式,其中,所 述網(wǎng)頁對象數(shù)據(jù)模型為:
[0036] Wj= {L, 0, B}
[0037] 其中,L表示頁面的所在欄目和結(jié)構(gòu)信息;0表示頁面所描述的對象;B表示頁面所 包含的數(shù)據(jù)信息,所述數(shù)據(jù)信息中包含通過信息抽取和語義分析提取的k個數(shù)據(jù)項,k為正 整數(shù);
[0038] 所述網(wǎng)頁數(shù)據(jù)信息模型為:
[0039] B = {D^T, E, V, w>, D2<T, E, V, w>, ···, Dk<T, E, V, ω >}
[0040] 其中,D1表示W(wǎng) B中第i個數(shù)據(jù)項,D1. T表示數(shù)據(jù)項類型,所述數(shù)據(jù)項類型包括固 定數(shù)據(jù)項、特征數(shù)據(jù)項和隱式數(shù)據(jù)項,D1. E表示第i個數(shù)據(jù)項的項名,D1. V表示第i個數(shù)據(jù) 項的值,D1 · ω表示第i個數(shù)據(jù)項在頁面中的權(quán)重,i為正整數(shù)。
[0041] 結(jié)合第二方面的第一種可能的實施方式,本發(fā)明實施例提供了第二方面的第二種 可能的實施方式,其中,所述頁面分類單元包括:
[0042] 類別特征矢量確定子單元,用于定義類別集合C = (C1, C2,…,Ci, ···,(〇,根據(jù)各 頁面的數(shù)據(jù)項中的特征數(shù)據(jù)項矢量確定代表類別集合C中各類別的特征矢量V(C]),m、i、j 均為正整數(shù);
[0043] 夾角余弦計算子單元,用于計算每一個待分類頁面dk的特征數(shù)據(jù)項矢量V (d k) 與類別集合C中各類別的特征矢量V(C])之間的夾角余弦sim(dk, C]),k為正整數(shù), LlN 丄UOlbUU丄4 A yJ^ rVJ 4/丄Z JM
[0044] 待分類頁面類別選取子單元,用于選取sim(dk,C])值最大的一個類別作為待分類 頁面d k的類別,直至完成對所有待分類頁面的分類。
[0045] 結(jié)合第二方面的第二種可能的實施方式,本發(fā)明實施例提供了第二方面的第三種 可能的實施方式,其中,所述重復(fù)頁面數(shù)據(jù)判定及清理單元包括:
[0046] 相似哈希值計算子單元,用于根據(jù)各頁面數(shù)據(jù)項中的特征數(shù)據(jù)項計算出每個頁面 的相似哈希值;
[0047] 相似哈希值判斷子單元,用于判斷同一類別的各頁面之間的相似哈希值之間的差 值是否滿足預(yù)設(shè)閾值,如果是,則判定為重復(fù)數(shù)據(jù),對同一類別下相似哈希值滿足預(yù)設(shè)閾值 的所有頁面進行收集,得到各類別下的待清理重復(fù)頁面數(shù)據(jù)集;
[0048] 頁面?zhèn)浞葑訂卧?,用于從每個待清理重復(fù)頁面數(shù)據(jù)集中選取一個頁面進行備份, 得到該頁面的副本;
[0049] 頁面清理子單元