專利名稱:基于云計算平臺的海量數(shù)據(jù)聚合方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種基于云計算平臺的海量數(shù)據(jù)聚合方法 和系統(tǒng)。
背景技術(shù):
SaaS(Software-as-a-service,軟件即服務(wù))應(yīng)用和互聯(lián)網(wǎng)應(yīng)用等網(wǎng)絡(luò)應(yīng)用積累大
量托管異構(gòu)數(shù)據(jù),對這些信息的挖掘利用將成為新的應(yīng)用增長點。如何將網(wǎng)絡(luò)應(yīng)用的海 量數(shù)據(jù)聚類梳理,是數(shù)據(jù)挖掘前一項必備的工作。目前對于數(shù)據(jù)的聚合分類更多的是側(cè)重于關(guān)鍵字的比對,方法比較簡單,對于 網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)分類無法滿足實際應(yīng)用的需要。
發(fā)明內(nèi)容
本發(fā)明要解決的一個技術(shù)問題是提供一種數(shù)據(jù)聚合方法,實現(xiàn)數(shù)據(jù)的高效聚 類。本發(fā)明提供一種基于云計算平臺的海量數(shù)據(jù)聚合方法,包括從網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)中提取網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞;計算網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞與本體庫中的本體的語義相似度,確定網(wǎng)絡(luò)應(yīng)用在本體 庫的相似本體;通過RDF描述標記與本體庫中的本體相似的網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù);將網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)存儲于本體庫的相似本體下的網(wǎng)絡(luò)資源存儲節(jié)點。根據(jù)本發(fā)明的海量數(shù)據(jù)聚合方法的一個實施例,從網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)中提取應(yīng)用 關(guān)鍵詞包括梳理網(wǎng)絡(luò)應(yīng)用數(shù)據(jù)庫中關(guān)鍵詞信息;統(tǒng)計關(guān)鍵字的頻率,確定網(wǎng)絡(luò)應(yīng)用的高頻關(guān)鍵詞;根據(jù)關(guān)鍵詞的頻度確定網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞。根據(jù)本發(fā)明的海量數(shù)據(jù)聚合方法的一個實施例,計算網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞與本體 庫中的各個本體的語義相似度包括通過如下公式計算網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞與本體庫中各個本體的語義相似度
權(quán)利要求
1.一種基于云計算平臺的海量數(shù)據(jù)聚合方法,其特征在于,包括 從網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)中提取所述網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞;計算所述網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞與所述本體庫中的本體的語義相似度,確定所述網(wǎng)絡(luò)應(yīng) 用在所述本體庫的相似本體;通過RDF描述標記與所述本體庫中的本體相似的網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù); 將所述網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)存儲于所述本體庫的相似本體下的網(wǎng)絡(luò)資源存儲節(jié)點。
2.根據(jù)權(quán)利要求1所述的海量數(shù)據(jù)聚合方法,其特征在于,所述從網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)中 提取應(yīng)用關(guān)鍵詞包括梳理所述網(wǎng)絡(luò)應(yīng)用數(shù)據(jù)庫中關(guān)鍵詞信息;統(tǒng)計所述關(guān)鍵字的頻率,確定所述網(wǎng)絡(luò)應(yīng)用的高頻關(guān)鍵詞;根據(jù)所述關(guān)鍵詞的頻度確定所述網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞。
3.根據(jù)權(quán)利要求1所述的海量數(shù)據(jù)聚合方法,其特征在于,計算所述網(wǎng)絡(luò)應(yīng)用的關(guān)鍵 詞與所述本體庫中的各個本體的語義相似度包括通過如下公式計算所述網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞與所述本體庫中各個本體的語義相似度
4.根據(jù)權(quán)利要求1所述的海量數(shù)據(jù)聚合方法,其特征在于,還包括 根據(jù)現(xiàn)有知識建立本體庫。
5.根據(jù)權(quán)利要求1所述的海量數(shù)據(jù)聚合方法,其特征在于,還包括 接收用戶通過查詢系統(tǒng)輸入的查詢關(guān)鍵字;通過語義計算查詢與所述查詢關(guān)鍵字語義相似的本體; 將所述相似的本體之下存儲的應(yīng)用信息庫提供用戶。
6.—種基于云計算平臺的海量數(shù)據(jù)聚合系統(tǒng),其特征在于,包括關(guān)鍵詞提取模塊,用于從網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)中提取所述網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞; 相似本體確定模塊,用于計算所述網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞與所述本體庫中的本體的語義 相似度,確定所述網(wǎng)絡(luò)應(yīng)用在所述本體庫的相似本體;描述生成模塊,用于通過RDF描述標記與所述本體庫中的本體相似的網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù);數(shù)據(jù)存儲模塊,用于將所述網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)存儲于所述本體庫的相似本體下的網(wǎng)絡(luò) 資源存儲節(jié)點。
7.根據(jù)權(quán)利要求6所述的海量數(shù)據(jù)聚合系統(tǒng),其特征在于,所述關(guān)鍵詞提取模塊包括關(guān)鍵詞梳理單元,用于梳理所述網(wǎng)絡(luò)應(yīng)用數(shù)據(jù)庫中關(guān)鍵詞信息;關(guān)鍵詞統(tǒng)計單元,用于統(tǒng)計所述關(guān)鍵字的頻率,確定所述網(wǎng)絡(luò)應(yīng)用的高頻關(guān)鍵詞;關(guān)鍵詞確定單元,用于根據(jù)所述關(guān)鍵詞的頻度確定所述網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞。
8.根據(jù)權(quán)利要求6所述的海量數(shù)據(jù)聚合系統(tǒng),其特征在于,所述相似本體確定模塊通 過如下公式計算所述網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞與所述本體庫中各個本體的語義相似度
9.根據(jù)權(quán)利要求6所述的海量數(shù)據(jù)聚合系統(tǒng),其特征在于,還包括 本體庫建立模塊,用于根據(jù)現(xiàn)有知識建立本體庫。
10.根據(jù)權(quán)利要求6所述的海量數(shù)據(jù)聚合系統(tǒng),其特征在于,還包括關(guān)鍵詞查詢模塊,用于接收用戶通過查詢系統(tǒng)輸入的查詢關(guān)鍵字;通過語義計算查 詢與所述查詢關(guān)鍵字語義相似的本體;將所述相似的本體之下存儲的應(yīng)用信息庫提供用 戶。
全文摘要
本發(fā)明公開一種基于云計算平臺的海量數(shù)據(jù)聚合方法和系統(tǒng),該方法包括從網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)中提取所述網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞;計算網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞與本體庫中的本體的語義相似度,確定網(wǎng)絡(luò)應(yīng)用在本體庫的相似本體;通過RDF描述標記與本體庫中的本體相似的網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù);將網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)存儲于本體庫的相似本體下的網(wǎng)絡(luò)資源存儲節(jié)點。本發(fā)明提供的對目前SAAS應(yīng)用,互聯(lián)網(wǎng)應(yīng)用等網(wǎng)絡(luò)應(yīng)用海量數(shù)據(jù)進行聚合的方法,采用語義信息,對抽取的數(shù)據(jù)進行聚類分析,數(shù)據(jù)處理更加準確可靠。
文檔編號G06F17/30GK102012936SQ20101057752
公開日2011年4月13日 申請日期2010年12月7日 優(yōu)先權(quán)日2010年12月7日
發(fā)明者廣小明, 楊明川, 譚國權(quán), 趙鵬, 顧茜 申請人:中國電信股份有限公司