專利名稱:一種數(shù)據(jù)集推薦方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種為用戶推薦相關(guān)數(shù)據(jù)集的方法。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)中的可用信息越來(lái)越多,用戶可以通過(guò)互聯(lián)網(wǎng)獲取所需的數(shù)據(jù)。數(shù)據(jù)的存儲(chǔ)形態(tài)有多種,如關(guān)系數(shù)據(jù)庫(kù)、文件等,提供接口也有數(shù)據(jù)庫(kù)接口、文件存取接口、或Web服務(wù)接口等。一組可通過(guò)固定的接口訪問(wèn)、由某提供者提供及維護(hù)的數(shù)據(jù),被稱為數(shù)據(jù)集。例如,在電子商務(wù)平臺(tái)中,一家網(wǎng)店提供的所有商品的信息可視為一個(gè)數(shù)據(jù)集;在某行業(yè)內(nèi)的跨部門(mén)信息共享中心中,每個(gè)部門(mén)提供的業(yè)務(wù)數(shù)據(jù)可視為一個(gè)數(shù)據(jù)集。由于單個(gè)數(shù)據(jù)集提供的內(nèi)容往往具有局限性,不足以滿足多樣化、綜合型的用戶需求,往往需要通過(guò)匯聚融合多個(gè)數(shù)據(jù)集,為用戶提供增值、集成的服務(wù)。例如在電子商務(wù)、 電子政務(wù)、數(shù)字城市等領(lǐng)域的數(shù)據(jù)中心建設(shè)過(guò)程中,積累了大量的數(shù)據(jù)集資源,通過(guò)數(shù)據(jù)中心進(jìn)行物理或邏輯一體化的運(yùn)維管理。為了支持信息共享和協(xié)同,需要為用戶提供有效的手段來(lái)利用這些獨(dú)立、零散的數(shù)據(jù)集資源,構(gòu)建信息集成應(yīng)用。信息集成應(yīng)用構(gòu)造的首要問(wèn)題之一是如何輔助用戶方便、快速的找到所需要的資源。當(dāng)數(shù)據(jù)中心中的數(shù)據(jù)集數(shù)量較多時(shí),用戶面對(duì)海量的數(shù)據(jù)集,很難在有效時(shí)間內(nèi)找到符合應(yīng)用需求的所有相關(guān)資源。因此需要系統(tǒng)為用戶提供推薦機(jī)制,將與用戶當(dāng)前所選數(shù)據(jù)集相關(guān)的數(shù)據(jù)集推薦給用戶,提高用戶構(gòu)造應(yīng)用的效率。根據(jù)關(guān)注點(diǎn)不同,常見(jiàn)的推薦方法可以分為兩大類基于用戶歷史的推薦此方法記錄和統(tǒng)計(jì)用戶長(zhǎng)期的使用歷史,分析用戶感興趣的對(duì)象。在用戶歷史的基礎(chǔ)上,有兩種推薦方法。較簡(jiǎn)單的一種以兩個(gè)對(duì)象出現(xiàn)在同一用戶歷史中的概率計(jì)算兩個(gè)對(duì)象的相關(guān)度,根據(jù)此相關(guān)度的大小來(lái)推薦對(duì)象,此方法也被稱為基于內(nèi)容的推薦,不過(guò)此處的“內(nèi)容”是指的用戶使用歷史中的對(duì)象,而不是對(duì)象的內(nèi)容。 另一種是協(xié)作推薦,通過(guò)比較兩個(gè)用戶的歷史,計(jì)算用戶之間的相關(guān)度,然后根據(jù)具有類似愛(ài)好的其他用戶的使用情況,推斷這一類用戶的使用偏愛(ài),并根據(jù)這個(gè)偏愛(ài)向特定用戶推薦。上述兩種方法都依賴于長(zhǎng)期的用戶歷史記錄,必須在積累了一定數(shù)量的歷史數(shù)據(jù)以后才能有效。因此,此方法適用的范圍是有限的?;趯?duì)象特征的推薦此方法分析對(duì)象的特征,根據(jù)對(duì)象特征計(jì)算對(duì)象之間的相關(guān)度。對(duì)于數(shù)據(jù)集而言,常見(jiàn)的特征即數(shù)據(jù)集的數(shù)據(jù)格式。利用schema等描述數(shù)據(jù)集的數(shù)據(jù)格式,基于數(shù)據(jù)集的數(shù)據(jù)格式來(lái)計(jì)算兩個(gè)數(shù)據(jù)集之間的相關(guān)度。但是這種方法沒(méi)有考慮數(shù)據(jù)集的內(nèi)容,粒度過(guò)大,推薦給用戶的結(jié)果往往不夠準(zhǔn)確。綜上所述,現(xiàn)在迫切需要一種適用范圍廣泛且推薦準(zhǔn)確度高的數(shù)據(jù)集推薦方法和系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明旨在解決現(xiàn)有技術(shù)中的上述問(wèn)題,提供了一種基于數(shù)據(jù)分面的數(shù)據(jù)集推薦方法和系統(tǒng)。其目的在于,通過(guò)利用數(shù)據(jù)集的數(shù)據(jù)分面計(jì)算數(shù)據(jù)集的相關(guān)度,并以此為基礎(chǔ)向用戶推薦滿足其需求的數(shù)據(jù)集,克服傳統(tǒng)的推薦方法和系統(tǒng)中忽視數(shù)據(jù)集內(nèi)容的弊端, 提高推薦的準(zhǔn)確度。為了實(shí)現(xiàn)上述目的,根據(jù)本方面的一個(gè)方面,提供了一種數(shù)據(jù)集推薦方法,所述方法包括以下步驟1)計(jì)算每個(gè)數(shù)據(jù)集中分面的分面值相關(guān)度;2)根據(jù)分面值相關(guān)度計(jì)算數(shù)據(jù)集相關(guān)度;3)推薦與給定數(shù)據(jù)集數(shù)據(jù)集相關(guān)度最高的數(shù)據(jù)集。在該方法中,所述步驟1)進(jìn)一步包括11)建立分面的樹(shù)形結(jié)構(gòu);12)根據(jù)所述樹(shù)形結(jié)構(gòu)計(jì)算該分面的分面值之間的語(yǔ)義距離;13)根據(jù)該語(yǔ)義距離計(jì)算所述分面值相關(guān)度。在該方法中,所述步驟12)包括121)將所述分面值在樹(shù)形結(jié)構(gòu)中的節(jié)點(diǎn)替換為該樹(shù)形結(jié)構(gòu)中最底層的對(duì)應(yīng)節(jié)點(diǎn) (VI, V2);122)根據(jù)下述公式計(jì)算分面值之間的語(yǔ)義距離,Distance (V1, V2)= 2 (H-Level(msa(V1, V2))) = 2H-2Level (msa(V1, V2)),其中 VI,V2 表示分面值,H 為樹(shù)形結(jié)構(gòu)的高,msa (VI, V2)為Vl和V2在樹(shù)形結(jié)構(gòu)中的最小祖先節(jié)點(diǎn),Level (msa (V1, V2)表示節(jié)點(diǎn)msa (VI,V2)在樹(shù)形結(jié)構(gòu)中的層次。在該方法中,所述步驟13)包括根據(jù)如下公式計(jì)算所述分面值相關(guān)度
權(quán)利要求
1.一種數(shù)據(jù)集推薦方法,包括下列步驟1)計(jì)算每個(gè)數(shù)據(jù)集中分面的分面值相關(guān)度;2)根據(jù)分面值相關(guān)度計(jì)算數(shù)據(jù)集相關(guān)度;3)推薦與給定數(shù)據(jù)集數(shù)據(jù)集相關(guān)度最高的數(shù)據(jù)集。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟1)進(jìn)一步包括11)建立分面的樹(shù)形結(jié)構(gòu);12)根據(jù)所述樹(shù)形結(jié)構(gòu)計(jì)算該分面的分面值之間的語(yǔ)義距離;13)根據(jù)該語(yǔ)義距離計(jì)算所述分面值相關(guān)度。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟1 包括121)將所述分面值在樹(shù)形結(jié)構(gòu)中的節(jié)點(diǎn)替換為該樹(shù)形結(jié)構(gòu)中最底層的對(duì)應(yīng)節(jié)點(diǎn)(VI,V2);122)根據(jù)下述公式計(jì)算分面值之間的語(yǔ)義距離,Distance(V1, V2)= 2 (H-Level(msa(V1, V2))) = 2H-2Level (msa(V1, V2)),其中 VI,V2 表示分面值,H 為樹(shù)形結(jié)構(gòu)的高,msa (VI, V2)為Vl和V2在樹(shù)形結(jié)構(gòu)中的最小祖先節(jié)點(diǎn),Level (msa (V1, V2)表示節(jié)點(diǎn)msa (VI,V2)在樹(shù)形結(jié)構(gòu)中的層次。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述步驟1 包括 根據(jù)如下公式計(jì)算所述分面值相關(guān)度
5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述步驟2、包括21)獲得數(shù)據(jù)集兩兩之間共有分面的集合;22)根據(jù)每個(gè)共有分面內(nèi)分面值相關(guān)度計(jì)算數(shù)據(jù)集在共有分面上的數(shù)據(jù)集相關(guān)度;23)根據(jù)數(shù)據(jù)集在每個(gè)共有分面上的數(shù)據(jù)集相關(guān)度,計(jì)算數(shù)據(jù)集兩兩之間的數(shù)據(jù)集相關(guān)度。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述步驟22)包括根據(jù)下列公式計(jì)算數(shù)據(jù)集DatMetl和DatMet2在一個(gè)共有分面F上的數(shù)據(jù)集相關(guān)度
7.一種數(shù)據(jù)集推薦系統(tǒng),包括分面值相關(guān)度計(jì)算模塊、數(shù)據(jù)集相關(guān)度計(jì)算模塊和相關(guān)數(shù)據(jù)集確定模塊,其中所述分面值相關(guān)度計(jì)算模塊用于計(jì)算每個(gè)數(shù)據(jù)集中分面的分面值相關(guān)度;所述數(shù)據(jù)集相關(guān)度計(jì)算模塊用于根據(jù)分面值相關(guān)度計(jì)算數(shù)據(jù)集相關(guān)度;所述相關(guān)數(shù)據(jù)集確定模塊用于推薦與給定數(shù)據(jù)集數(shù)據(jù)集相關(guān)度最高的數(shù)據(jù)集。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括人機(jī)交互接口,從所述人機(jī)交互接口用于接收用戶輸入數(shù)據(jù)集作為給定數(shù)據(jù)集,并為用戶呈現(xiàn)與該給定數(shù)據(jù)集數(shù)據(jù)集相關(guān)度最高的數(shù)據(jù)集。
9.根據(jù)權(quán)利要求7或8所述的系統(tǒng),其特征在于,還包括相關(guān)度存儲(chǔ)模塊,用于存儲(chǔ)所有分面值相關(guān)度和數(shù)據(jù)集相關(guān)度。
全文摘要
本發(fā)明提供一種數(shù)據(jù)集推薦方法和系統(tǒng),該方法包括下列步驟1)計(jì)算每個(gè)數(shù)據(jù)集中分面的分面值相關(guān)度;2)根據(jù)分面值相關(guān)度計(jì)算數(shù)據(jù)集相關(guān)度;3)推薦與給定數(shù)據(jù)集數(shù)據(jù)集相關(guān)度最高的數(shù)據(jù)集。該方法和系統(tǒng)克服了傳統(tǒng)的推薦方法忽視數(shù)據(jù)集的內(nèi)容的弊端,可以提高推薦的準(zhǔn)確度,方便用戶使用,提高用戶構(gòu)造應(yīng)用的效率。
文檔編號(hào)G06F17/30GK102231158SQ20111016447
公開(kāi)日2011年11月2日 申請(qǐng)日期2011年6月17日 優(yōu)先權(quán)日2011年6月17日
發(fā)明者丁維龍, 李鋒, 王菁, 趙卓峰, 趙栓, 韓燕波 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所