一種基于云計算平臺的大數(shù)據(jù)處理方法
【專利摘要】本發(fā)明涉及互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,特別涉及一種基于云計算平臺的大數(shù)據(jù)處理方法,根據(jù)不同數(shù)據(jù)記錄中所包含的相同信息單元,應用云計算平臺下的大數(shù)據(jù)處理框架抽象出目標信息的關(guān)聯(lián)信息。云計算平臺的大數(shù)據(jù)處理框架例如Hadoop體系下的MapReduce和Spark等,通過將任務自動切分,分配到多個節(jié)點處理,分而自治的方式,可以實現(xiàn)海量數(shù)據(jù)的并行的處理,極大的提高了數(shù)據(jù)的處理效率。本發(fā)明采用大數(shù)據(jù)處理框架可以在紛繁復雜的互聯(lián)網(wǎng)信息中,根據(jù)需要分析出海量目標信息背后隱含的關(guān)聯(lián)信息;為數(shù)據(jù)信息的深度挖掘和應用提供了可靠便捷的途徑,為目標背景分析,市場推廣,市場細分,風險預測和防控等提供了有效技術(shù)支撐。
【專利說明】
一種基于云計算平臺的大數(shù)據(jù)處理方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種基于云計算平臺的大數(shù)據(jù)處理方法。
【背景技術(shù)】
[0002]隨著社會的發(fā)展和科技的進步,個體或者團體之間的聯(lián)系變得更加緊密,緊密的聯(lián)系促進了信息的快速傳播和增長,而當今世界早就進入了信息時代,隨著信息的爆發(fā)式增長和積累,大數(shù)據(jù)時代已近來臨,大數(shù)據(jù)的基本特征:即數(shù)據(jù)量大、類型繁多、價值密度低、速度快時效高;作為其中最重要的特點:數(shù)據(jù)量大和價值密度低卻是困擾如此海量數(shù)據(jù)信息挖掘利用的難題,在海量的數(shù)據(jù)里面,如何精確的獲得人們關(guān)心的信息,就如同海底撈針困難重重;與此同時面對海量的信息,如何去分析某類信息之間的相關(guān)性,并以此分析出信息背后隱含價值,才在更高、更深的層面體現(xiàn)數(shù)據(jù)信息的價值,但是面對如此海量的數(shù)據(jù),想要快速準確的分析出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,十分困難。
[0003]針對特定的信息目標,如何分析該目標與其他目標之間的關(guān)聯(lián)關(guān)系在很多領(lǐng)域具有更加實際的意義,因為具有關(guān)聯(lián)關(guān)系的目標在進行各種活動時往往比單獨的簡單個體具有更大的影響面,而且具有關(guān)聯(lián)關(guān)系的目標在對外建立各種活動時,受到內(nèi)部的關(guān)聯(lián)關(guān)系的相互牽制或者支持,會比簡單目標的活動軌跡更加復雜。而關(guān)聯(lián)關(guān)系通過是隱藏的,需要人們在復雜繁瑣的數(shù)據(jù)中去挖掘和分析,要分析這些的隱含關(guān)聯(lián)關(guān)系在海量的數(shù)據(jù)面前將變得更加困難,如果這些任務通過個人逐個實現(xiàn),將耗費巨大的人力和時間成本;急需一種分析實現(xiàn)方法,幫助分析者來實現(xiàn)這種巨大繁瑣的計算過程,提供這種分析結(jié)果。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的不足,提供一種基于云計算平臺的大數(shù)據(jù)處理方法,根據(jù)不同數(shù)據(jù)記錄中所包含的相同信息單元,應用云計算平臺下的大數(shù)據(jù)處理框架抽象出目標信息的N度關(guān)聯(lián)信息。云計算平臺的大數(shù)據(jù)處理框架例如Hadoop體系下的MapReduce和Spark等,通過將任務自動切分,分配到多個節(jié)點處理,分而自治的方式,可以實現(xiàn)海量數(shù)據(jù)的并行的處理,極大的提高了數(shù)據(jù)的處理效率。
[0005]具體的,所述發(fā)明方法包含以下實現(xiàn)步驟:
[0006](I)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息;
[0007](2)在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息;通過云計算平臺下的分布式處理框架將所述第三信息抽象成第一信息的二度關(guān)聯(lián)?目息;
[0008](3)在第三數(shù)據(jù)記錄中包含第四信息和第三信息,其中所述第四信息為第三信息的一度關(guān)聯(lián)信息,通過云計算平臺下的分布式處理框架將所述第四信息抽象成第一信息的三度關(guān)聯(lián)信息;
[0009]依次類推,抽象出以第一信息的N度關(guān)聯(lián)信息,其中N>1。
[0010]其中所述第一信息、第二信息、第三信息以及第四信息是指信息的內(nèi)容,不代表信息的順序。通過本發(fā)明方法可以目標信息為起點(起點的選擇根據(jù)分析需要來設置),逐級查找出與目標相關(guān)聯(lián)的其他信息和關(guān)聯(lián)度數(shù)。而且本發(fā)明關(guān)聯(lián)關(guān)系的計算是以云計算平臺的大數(shù)據(jù)處理框架來實現(xiàn)的,可以同時對海量的目標并行的處理,也就是說,從基礎數(shù)據(jù)到N度關(guān)聯(lián)信息的計算,都是多個目標同時并列處理,計算效率極高,顯著節(jié)省人力。
[0011]作為一種優(yōu)選,所述步驟(2)、步驟(3)中的N度關(guān)聯(lián)關(guān)系通過Hadoop下的MapReduce計算框架來實現(xiàn)。
[0012]作為一種優(yōu)選,所述步驟(2)、步驟(3)中的N度關(guān)聯(lián)關(guān)系通過Spark計算框架來實現(xiàn)。使用類Hadoop系統(tǒng)的Sparkd大數(shù)據(jù)處理框架來實現(xiàn)關(guān)聯(lián)關(guān)系的計算,Spark作為MapReduce的替代方案,可以兼容HDFS分布式存儲層,可以融入Hadoop的生態(tài)系統(tǒng)圈。Spark是可以搭建大數(shù)據(jù)內(nèi)存計算平臺,并充分利用內(nèi)存計算,實現(xiàn)海量數(shù)據(jù)的實時處理。
[0013]進一步的,所述步驟(2)、(3)中的關(guān)聯(lián)關(guān)系通過Spark計算框架中的SQL語句來實現(xiàn),具體的使用SQL中的join算法來實現(xiàn):比如說:在一張數(shù)據(jù)表中包含結(jié)構(gòu)化的兩列信息:第一信息,第二信息;第二信息,第三信息;則通過join算法,可以很方便的將第一信息和第二信息經(jīng)過第二信息連接到一起,形成了第一信息,第二信息,第三信息的新數(shù)據(jù)結(jié)果。
[0014]類似的,所述N度關(guān)聯(lián)信息也通過join語句來實現(xiàn)。
[0015]本發(fā)明中的數(shù)據(jù)記錄存儲于數(shù)據(jù)庫中,所述數(shù)據(jù)記錄的原始的來源可以是從互聯(lián)中根據(jù)需要爬取的數(shù)據(jù),互聯(lián)中包含廣泛豐富的信息來源,從互聯(lián)網(wǎng)中根據(jù)需要爬取相關(guān)信息,并將獲取的信息進行深度處理,為信息的精細化處理,和深度應用提供一種全新的途徑。
[0016]進一步的,所述N度關(guān)聯(lián)關(guān)系中的計算過程,均以一度關(guān)聯(lián)關(guān)系為基礎,即是上述關(guān)聯(lián)信息的追蹤(計算)過程中,第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。這樣逐級追蹤關(guān)聯(lián)信息的計算,計算邏輯清晰,運行過程簡單,保證了運算結(jié)果的準確率。
[0017]進一步的,所述數(shù)據(jù)記錄可以根據(jù)需要設置字段,從原始信息中提取出來,將提取出的數(shù)據(jù)信息的字段和內(nèi)容作為鍵值對:其中字段作為“鍵”,而字段對應的內(nèi)容為“值”;根據(jù)分析需要可選擇其中一個字段對應的內(nèi)容作為關(guān)聯(lián)信息追蹤的起點(被關(guān)聯(lián)信息),而將每條數(shù)據(jù)記錄中的其他字段對應的內(nèi)容作為被關(guān)聯(lián)信息的一度關(guān)聯(lián)信息,從而完成一度關(guān)聯(lián)關(guān)系的計算。一度關(guān)聯(lián)信息的計算是后續(xù)N度關(guān)聯(lián)信息計算的基礎。
[0018]進一步的,所述二度關(guān)聯(lián)信息按照:一度關(guān)聯(lián)數(shù)據(jù)、二度關(guān)聯(lián)數(shù)據(jù)的順序結(jié)構(gòu)進行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應的標記,一度關(guān)聯(lián)關(guān)系和二度關(guān)聯(lián)關(guān)系的內(nèi)部的數(shù)據(jù)存儲結(jié)構(gòu)與上一步結(jié)構(gòu)相同;通過相應的標記,可以很方便的將屬于不同關(guān)聯(lián)度的信息區(qū)別開來,方便關(guān)聯(lián)信息逐級計算時的數(shù)據(jù)提取和區(qū)分。
[0019]進一步的,所述N度關(guān)聯(lián)信息,按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應的標記。
[0020]作為一種優(yōu)選,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息以數(shù)據(jù)表的形式進行存儲,以數(shù)據(jù)表形式存儲的數(shù)據(jù),存儲結(jié)構(gòu)規(guī)范,便于查詢和進一步計算。
[0021]進一步的,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息存儲于非關(guān)系型數(shù)據(jù)庫中,比如說HBase、CouchDB、Cassandra、Mongodb等。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,非關(guān)系型數(shù)據(jù)庫具有操作簡單、完全免費、源碼公開、隨時下載、應用成本低等特點;并且在面對體量急劇增加的多維度無結(jié)構(gòu)數(shù)據(jù)時,比如說音頻數(shù)據(jù)、視頻數(shù)據(jù),傳統(tǒng)的非關(guān)系型數(shù)據(jù)庫的存儲已經(jīng)不能滿足需求。
[0022]進一步的,所述數(shù)據(jù)記錄,和本方法計算出的N度關(guān)聯(lián)數(shù)據(jù)分別存儲于不同的非關(guān)系型數(shù)據(jù)庫中。將各度關(guān)聯(lián)數(shù)據(jù)存儲于不同的數(shù)據(jù)庫中,方便在后續(xù)的步驟中根據(jù)不同的數(shù)據(jù)庫名進行相應的數(shù)據(jù)內(nèi)容,方便數(shù)據(jù)的讀取和進行相應的操作。
[0023]進一步的,所述步驟(2)、(3)中形成的關(guān)聯(lián)關(guān)系存儲于于非關(guān)系型數(shù)據(jù)庫的分布式文件系統(tǒng)中(比如HDFS),HDFS作為Hadoop下面的分布式文件系統(tǒng),具有高度容錯性,適合部署在廉價的機器上,運行和維護成本較低。同時HDFS非常適合用于大規(guī)模數(shù)據(jù)集;采用HDFS來存儲待處理數(shù)據(jù)可以滿足海量數(shù)據(jù)存儲,高容錯性的需要,并且為采用Hadoop的其他處理方式提供了便利。
[0024]進一步的,在所述方法的基礎上提供一種目標背景信息分析方法,上述基于云計算平臺的大數(shù)據(jù)分析處理方法尤其適合用于目標背景情況分析,用戶根據(jù)需要設置分析字段從相關(guān)的網(wǎng)頁中提取數(shù)據(jù),形成相應的數(shù)據(jù)記錄在形成數(shù)據(jù)記錄的基礎上,采用本發(fā)明方法,逐級搜索和抽象出目標信息的N度關(guān)聯(lián)方信息,形成目標信息的關(guān)聯(lián)背景數(shù)據(jù),挖掘目標的背景信息,為相關(guān)商業(yè)投資,風險防控提供可靠參考。
[0025]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明一種基于云計算平臺的大數(shù)據(jù)處理方法,從海量的基礎數(shù)據(jù)中,提取分析目標的相關(guān)關(guān)鍵信息,利用不同數(shù)據(jù)記錄中相同的信息單元,將具有隱含聯(lián)系的相關(guān)信息挖掘出來,根據(jù)關(guān)聯(lián)的度數(shù)將信息之間的關(guān)聯(lián)遠近程度進行量化,為相關(guān)問題追蹤和背景查找提供了一種快速可靠的通道。
[0026]不僅如此本發(fā)明以云計算平臺的大數(shù)據(jù)處理框架來實現(xiàn)海量關(guān)聯(lián)數(shù)據(jù)的同時并行的處理,使用戶只需按照計算框架提供的接口設計上層指令,在不關(guān)心底層運行過程的情況下,任務的切分和資源的調(diào)用由大數(shù)據(jù)處理框架自動實現(xiàn),并在處理完成后還自動將處理結(jié)果整合后提供給用戶;任務完成的高度自動化,極大的節(jié)省了人力,提高了數(shù)據(jù)的處理效率。
[0027]總之,本發(fā)明方法為數(shù)據(jù)信息的深度挖掘和應用提供了一種十分可靠便捷的途徑,目標背景分析,市場推廣,市場細分,風險預測和風險防控等提供了有效技術(shù)支撐。
【附圖說明】
:
[0028]圖1是本一種基于云計算平臺的大數(shù)據(jù)處理方法的實現(xiàn)流程示意圖。
[0029]圖2是本一種基于云計算平臺的大數(shù)據(jù)處理方法的關(guān)聯(lián)算法示意圖。
[0030]圖3是實施例1中的的3條數(shù)據(jù)記錄示意圖。
[0031]圖4是實施例1中的一度關(guān)聯(lián)關(guān)系數(shù)據(jù)表存儲結(jié)構(gòu)示意圖。
[0032]圖5是實施例1中的二度關(guān)聯(lián)關(guān)系數(shù)據(jù)表存儲結(jié)構(gòu)示意圖。
[0033]圖6是實施例1中三度關(guān)聯(lián)關(guān)系數(shù)據(jù)表存儲結(jié)構(gòu)示意圖。
[0034]應該理解本發(fā)明附圖均為示意性的,不代表具體的步驟和路徑。
【具體實施方式】
[0035]下面結(jié)合試驗例及【具體實施方式】對本發(fā)明作進一步的詳細描述。但不應將此理解為本發(fā)明上述主題的范圍僅限于以下的實施例,凡基于本
【發(fā)明內(nèi)容】
所實現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。
[0036]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的不足,提供一種基于云計算平臺的大數(shù)據(jù)處理方法,如圖1所示,通過云計平臺的大數(shù)據(jù)處理框架,利用不同數(shù)據(jù)記錄中相同的信息單元分析出海量目標信息之間的關(guān)聯(lián)關(guān)系;云計算平臺的大數(shù)據(jù)處理框架例如Hadoop體系下的MapReduce和Spark等,通過將任務自動切分,分配到多個節(jié)點處理,分而自治的方式,可以實現(xiàn)海量數(shù)據(jù)的并行的處理,極大的提高了數(shù)據(jù)的處理效率。本發(fā)明方法系統(tǒng)可以在繁瑣復雜的互聯(lián)網(wǎng)信息中,快速的分析出目標信息的關(guān)聯(lián)關(guān)系以及有何種關(guān)聯(lián)關(guān)系,為目標背景分析,市場推廣,市場細分,風險預測和防控等提供了一種新型的有效途徑。
[0037]為實現(xiàn)上述目的,本發(fā)明提供一種基于云計算平臺的大數(shù)據(jù)處理方法:通過設置字段等過濾條件,對原始數(shù)據(jù)每篇文檔中的關(guān)鍵信息單元進行提取,將提取出的關(guān)鍵信息單元按照設定的順序排列成一條數(shù)據(jù)記錄,并將各條數(shù)據(jù)記錄存儲于數(shù)據(jù)庫中(通常為非關(guān)系型數(shù)據(jù)庫),在此基礎上,根據(jù)不同數(shù)據(jù)記錄中所包含相同的信息單元,應用云計算框架下的分布式處理模型抽象出信息單元之間的關(guān)聯(lián)關(guān)系。
[0038]具體的,所述發(fā)明方法實現(xiàn)步驟如下:
[0039](I)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息;
[0040](2)在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息;通過云計算平臺下的分布式處理框架將所述第三信息抽象成第一信息的二度關(guān)聯(lián)?目息;
[0041](3)在第三數(shù)據(jù)記錄中包含第四信息和第三信息,其中所述第四信息為第三信息的一度關(guān)聯(lián)信息,通過云計算平臺下的分布式處理框架將所述第四信息抽象成第一信息的三度關(guān)聯(lián)信息;
[0042]依次類推,抽象出以第一信息的N度關(guān)聯(lián)信息,其中N多I。關(guān)聯(lián)信息的計算過程如圖2所示;
[0043]其中所述第一信息、第二信息、第三信息以及第四信息是指信息的內(nèi)容,不代表信息的順序。通過本發(fā)明方法可以目標信息為起點(起點的選擇根據(jù)分析需要來設置),逐級查找出與目標相關(guān)聯(lián)的其他信息。而且本發(fā)明關(guān)聯(lián)關(guān)系的計算是以云計算平臺的大數(shù)據(jù)處理框架來實現(xiàn)的,可以同時對海量的目標并行的處理,也就是說,從基礎數(shù)據(jù)到N度關(guān)聯(lián)信息的計算,都是多個目標同時并列處理??梢钥闯鲭S著關(guān)聯(lián)度N的逐級增加,計算的復雜度和數(shù)據(jù)維度不斷增加,而這樣復雜的數(shù)據(jù)處理過程通過云計算平臺的大數(shù)據(jù)處理框架(比如Hadoop下的MapReduce和spark等大數(shù)據(jù)處理框架)得以順利快速的實現(xiàn);MapReduce和spark等大數(shù)據(jù)處理框架能夠使用戶只需按照計算框架提供的接口設計上層指令,在不關(guān)心底層運行過程的情況下,處理框架根據(jù)上層指令自動調(diào)用內(nèi)部的相關(guān)資源,并且將任務自動切分,分配到內(nèi)部的不同節(jié)點進行處理,實現(xiàn)了數(shù)據(jù)的并行高效計算,在處理完成后還自動將處理結(jié)果整合后提供給用戶;任務完成過程高度自動化,極大的節(jié)省了人力,提高了數(shù)據(jù)的處理效率。本發(fā)明利用云計算平臺的大數(shù)據(jù)處理框架為海量目標的關(guān)聯(lián)背景分析提供了快速可靠的處理途徑。
[0044]作為一種優(yōu)選,所述步驟(2)、步驟(3)中的N度關(guān)聯(lián)關(guān)系通過Hadoop下的MapReduce計算框架來實現(xiàn)。
[0045]作為一種優(yōu)選,所述步驟(2)、步驟(3)中的N度關(guān)聯(lián)關(guān)系通過Spark計算框架來實現(xiàn)。使用類Hadoop系統(tǒng)的Sparkd大數(shù)據(jù)處理框架來實現(xiàn)關(guān)聯(lián)關(guān)系的計算,Spark作為MapReduce的替代方案,可以兼容HDFS分布式存儲層,可以融入Hadoop的生態(tài)系統(tǒng)圈。Spark是可以搭建大數(shù)據(jù)內(nèi)存計算平臺,并充分利用內(nèi)存計算,實現(xiàn)海量數(shù)據(jù)的實時處理。
[0046]進一步的,所述步驟(3)中的二度關(guān)聯(lián)關(guān)系通過Spark計算框架中的SQL語句來實現(xiàn),具體的使用SQL中的join算法來實現(xiàn):比如說:在一張數(shù)據(jù)表中包含結(jié)構(gòu)化的兩列信息:第一信息,第二信息;第二信息,第三信息;則通過join算法,可以很方便的將第一信息和第二信息經(jīng)過第二信息連接到一起,形成了第一信息,第二信息,第三信息的新數(shù)據(jù)結(jié)果。類似的,所述N度關(guān)聯(lián)信息也通過j ο in語句來實現(xiàn)。
[0047]本發(fā)明中的數(shù)據(jù)記錄存儲于數(shù)據(jù)庫中,所述數(shù)據(jù)記錄的原始的來源可以是從互聯(lián)中根據(jù)需要爬取的數(shù)據(jù),互聯(lián)中包含廣泛豐富的信息來源,從互聯(lián)網(wǎng)中根據(jù)需要爬取相關(guān)信息,并將獲取的信息進行深度處理,為信息的精細化處理,和深度應用提供一種全新的途徑。
[0048]進一步的,所述數(shù)據(jù)記錄可以根據(jù)需要設置字段,從原始信息中提取出來,將提取出的數(shù)據(jù)信息的字段和內(nèi)容作為鍵值對:其中字段作為“鍵”,而字段對應的內(nèi)容為“值”;根據(jù)分析需要可選擇其中一個字段對應的內(nèi)容作為關(guān)聯(lián)信息追蹤的起點(被關(guān)聯(lián)信息),而將每條數(shù)據(jù)記錄中的其他字段對應的內(nèi)容作為被關(guān)聯(lián)信息的一度關(guān)聯(lián)信息,從而完成一度關(guān)聯(lián)關(guān)系的計算。一度關(guān)聯(lián)信息的計算是后續(xù)N度關(guān)聯(lián)信息計算的基礎。
[0049]進一步的,所述N度關(guān)聯(lián)關(guān)系中的計算過程,均以一度關(guān)聯(lián)關(guān)系為基礎,即是上述關(guān)聯(lián)信息的追蹤(計算)過程中,第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。這樣逐級追蹤關(guān)聯(lián)信息的計算,計算邏輯清晰,運行過程簡單,保證了運算結(jié)果的準確率。
[0050]進一步的,所述一度關(guān)聯(lián)信息按照統(tǒng)一的結(jié)構(gòu)順序,進行存儲。將一度關(guān)聯(lián)信息按照設定的統(tǒng)一的結(jié)構(gòu)和順序進行存儲,使得不同目標所形成的一度關(guān)聯(lián)信息數(shù)據(jù)存儲格式一致,便于后續(xù)步驟的數(shù)據(jù)處理。
[0051]進一步的,所述一度關(guān)聯(lián)信息,可以按照目標(起點信息)、一度關(guān)聯(lián)信息、關(guān)系標簽的結(jié)構(gòu)順序進行存儲。所述關(guān)聯(lián)標簽是對該一度關(guān)聯(lián)信息與目標信息之間的關(guān)聯(lián)關(guān)系的描述,可以為關(guān)聯(lián)數(shù)據(jù)的查詢提供簡潔直觀的描述。
[0052]進一步的,所述二度關(guān)聯(lián)信息按照:一度關(guān)聯(lián)數(shù)據(jù)、二度關(guān)聯(lián)數(shù)據(jù)的順序結(jié)構(gòu)進行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應的標記,一度關(guān)聯(lián)關(guān)系和二度關(guān)聯(lián)關(guān)系的內(nèi)部的數(shù)據(jù)存儲結(jié)構(gòu)與上一步結(jié)構(gòu)相同;通過相應的標記,可以很方便的將屬于不同關(guān)聯(lián)度的信息區(qū)別開來,方便關(guān)聯(lián)信息逐級計算時的數(shù)據(jù)提取和區(qū)分。
[0053]進一步的,所述N度關(guān)聯(lián)信息,按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應的標記。
[0054]作為一種優(yōu)選,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息以數(shù)據(jù)表的形式進行存儲,以數(shù)據(jù)表形式存儲的數(shù)據(jù),存儲結(jié)構(gòu)規(guī)范,便于查詢和進一步計算。
[0055]進一步的,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息存儲于不同的非關(guān)系型數(shù)據(jù)庫中,比如說HBase、CouchDB、Cassandra、Mongodb等非關(guān)系型數(shù)據(jù)庫中。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,非關(guān)系型數(shù)據(jù)庫具有操作簡單、完全免費、源碼公開、隨時下載、應用成本低等特點;并且在面對體量急劇增加的多維度無結(jié)構(gòu)數(shù)據(jù)時,比如說音頻數(shù)據(jù)、視頻數(shù)據(jù),傳統(tǒng)的非關(guān)系型數(shù)據(jù)庫的存儲已經(jīng)不能滿足需求。
[0056]進一步的,所述N度關(guān)聯(lián)信息存儲于于非關(guān)系型數(shù)據(jù)庫的分布式文件系統(tǒng)中(比如HDFS),HDFS作為Hadoop下面的分布式文件系統(tǒng),具有高度容錯性,對部署機器要求不高,運行和維護成本較低。同時HDFS非常適合用于大規(guī)模數(shù)據(jù)集;采用HDFS來存儲待處理數(shù)據(jù)可以滿足海量數(shù)據(jù)存儲,高容錯性的需要,并且為采用Hadoop的其他處理方式提供了便利。
[0057]實施例1
[0058]下面以其中3條數(shù)據(jù)作為一個小示例,說明關(guān)聯(lián)關(guān)系的分析過程。假設在原始數(shù)據(jù)中經(jīng)過字段(設置的字段包括:第一字段、第二字段、第三字段以及第四字段)提取,提取出來的數(shù)據(jù)中包含如圖3所示的3條數(shù)據(jù)記錄,其中第一數(shù)據(jù)記錄包含的第一字段、第二字段、第三字段以及第四字段所對應的信息內(nèi)容依次為:A、B、D以及E;第二條數(shù)據(jù)記錄中包含的第一字段、第二字段、第三字段以及第四字段所對應的信息內(nèi)容依次為:C、B、F以及G;第三條信息中包含的第一字段、第二字段、第三字段以及第四字段所對應的信息內(nèi)容依次為:H、F、I(第四字段提取內(nèi)容為空)。假設將第一字段對應的內(nèi)容作為關(guān)聯(lián)分析的起點,則以字段為鍵,將字段對應的內(nèi)容作為值,將第一字段對應的內(nèi)容作為起點,將其他字段對應的內(nèi)容抽象為起點的一度關(guān)聯(lián)信息,每條數(shù)據(jù)記錄根據(jù)這樣的方法進行計算,將計算結(jié)果存儲于同一個數(shù)據(jù)庫中,將一度關(guān)聯(lián)關(guān)系以表結(jié)構(gòu)的存儲格式進行存儲,最終可形成包含所有一度關(guān)聯(lián)關(guān)系的結(jié)構(gòu)化兩列數(shù)據(jù),如圖4所示。第一數(shù)據(jù)記錄可形成:A-B、A-D、A-E的一度關(guān)聯(lián)關(guān)系,其中B、D、E均為A的一度關(guān)聯(lián)信息,同時A也為B、D、E的一度關(guān)聯(lián)信息;第二數(shù)據(jù)記錄可形成C-B、C-F、C-G的一度關(guān)聯(lián)關(guān)系,其中B、F、G均為C的一度關(guān)聯(lián)信息,同時C也為B、F、G的一度關(guān)聯(lián)信息;第三數(shù)據(jù)記錄可形成:H-F、H-1的一度關(guān)聯(lián)關(guān)系,其中F、I為H的一度關(guān)聯(lián)信息,同時H也為F、I的一度關(guān)聯(lián)信息。
[0059]在上述一度關(guān)聯(lián)的基礎上,根據(jù)A-B和C-B的一度關(guān)聯(lián)關(guān)系中相同的信息單元B,將C抽象成A的二度關(guān)聯(lián)信息,以A為起點,形成A-B-C的關(guān)聯(lián)路徑。根據(jù)C-B和A-B的一度關(guān)聯(lián)關(guān)系中相同的信息單元B,將A抽象成C的二度關(guān)聯(lián)信息,以C為起點,形成C-B-A的關(guān)聯(lián)路徑。根據(jù)C-F和H-F的一度關(guān)聯(lián)關(guān)系中相同的信息單元F,將H抽象成C的二度關(guān)聯(lián)信息;以C為起點,形成C-F-H的關(guān)聯(lián)路徑。根據(jù)H-F和C-F的一度關(guān)聯(lián)關(guān)系中相同的信息單元F,將C抽象成H的二度關(guān)聯(lián)信息;以H為起點,形成H-F-C的關(guān)聯(lián)路徑。形成二度關(guān)聯(lián)關(guān)系的關(guān)聯(lián)數(shù)據(jù)存儲以數(shù)據(jù)表形式可采用如圖5所示的存儲結(jié)構(gòu)。
[0000]進一步的,在上述一■度關(guān)聯(lián)以及一度關(guān)聯(lián)關(guān)系的基礎上,以A為起點根據(jù)A的一■度關(guān)聯(lián)ig息C的一度關(guān)聯(lián)ig息,可抽象出A-B-C-F,A-B-C-G的關(guān)聯(lián)路徑,其中F和G為A的二度關(guān)聯(lián)信息。以C為起點,根據(jù)C的二度關(guān)聯(lián)信息A和H的一度關(guān)聯(lián)信息,可抽象出,C-B-A-E,C-B-A-D,C-F-H-1的關(guān)聯(lián)路徑,其中D、E、I為C的三度關(guān)聯(lián)信息。同樣以H為起點,根據(jù)其二度關(guān)聯(lián)?目息C的一度關(guān)聯(lián)彳目息,可形成H-F-C-B,H-F-C-G的關(guān)聯(lián)路徑,其中B和G為H的二度關(guān)聯(lián){目息。三度關(guān)聯(lián)信息的存儲數(shù)據(jù)表如圖6所示。
[0061]進一步的,在所述方法的基礎上提供一種目標背景信息分析方法,上述基于云計算平臺的大數(shù)據(jù)分析處理方法尤其適合用于目標背景情況分析,用戶根據(jù)需要設置分析字段從相關(guān)的網(wǎng)頁中提取數(shù)據(jù),形成相應的數(shù)據(jù)記錄在形成數(shù)據(jù)記錄的基礎上,采用本發(fā)明方法,逐級搜索和抽象出目標信息的N度關(guān)聯(lián)方信息,形成目標信息的關(guān)聯(lián)背景數(shù)據(jù),挖掘目標的背景信息,為相關(guān)商業(yè)投資,風險防控提供可靠參考。
[0062]本實施例僅示意性的說明關(guān)聯(lián)信息的計算過程,實際上根據(jù)需要所要分析的目標數(shù)可以達到萬、十萬、百萬量級;而且從上述實施例可以看出,隨著關(guān)聯(lián)度數(shù)的增加,所需計算的數(shù)據(jù)量急劇增加,海量的計算目標的多維關(guān)聯(lián)信息的計算量更加巨大,而本發(fā)明采用云計算平臺的大數(shù)據(jù)處理框架,可以根據(jù)上述方法,對海量目標并行的進行計算,進而實現(xiàn)了海量目標信息的關(guān)聯(lián)關(guān)系分析和挖掘。
[0063]盡管上面對本發(fā)明說明性的【具體實施方式】進行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明,但應該清楚,本發(fā)明不限于【具體實施方式】的范圍,對本技術(shù)領(lǐng)域的普通技術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化時顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護之列。
【主權(quán)項】
1.一種基于云計算平臺的大數(shù)據(jù)處理方法,其特征在于,包含以下實現(xiàn)過程: (1)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息; (2)在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息;通過云計算平臺下的分布式處理框架將所述第三信息抽象成第一信息的二度關(guān)聯(lián)信息; (3)在第三數(shù)據(jù)記錄中包含第四信息和第三信息,其中所述第四信息為第三信息的一度關(guān)聯(lián)信息,通過云計算平臺下的分布式處理框架將所述第四信息抽象成第一信息的三度關(guān)聯(lián)?目息; 依次類推,抽象出第一信息的N度關(guān)聯(lián)信息,其中N多I。2.如權(quán)利要求1所述的方法,其特征在于,所述N度關(guān)聯(lián)關(guān)系通過Hadoop下的MapReduce計算框架來計算。3.如權(quán)利要求1所述的方法,其特征在于,所述N度關(guān)聯(lián)關(guān)系通過Spark計算框架來計笪并ο4.如權(quán)利要求1至3之一所述的方法,其特征在于,所述關(guān)聯(lián)信息的抽象過程中,所述第一信息的第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。5.如權(quán)利要求4所述的方法,其特征在于,所述數(shù)據(jù)記錄存儲于非關(guān)系型數(shù)據(jù)庫中。6.如權(quán)利要求5所述的方法,其特征在于,所述N度關(guān)聯(lián)信息按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進行存儲。7.如權(quán)利要求6所述的方法,其特征在于,將將屬于不同關(guān)聯(lián)度的信息單元打上對應的 ο8.如權(quán)利要求7所述的方法,其特征在于,將N度關(guān)聯(lián)數(shù)據(jù)分別存儲于不同的數(shù)據(jù)庫中。9.如權(quán)利要求7所述的方法,其特征在于,所述N度關(guān)聯(lián)數(shù)據(jù)存儲于對應數(shù)據(jù)庫中的分布式文件系統(tǒng)中。10.—種目標背景信息分析方法,其特征在于,采用如權(quán)利要求1-9之一所述的方法來實現(xiàn)目標背景分析。
【文檔編號】G06F17/30GK105930463SQ201610255657
【公開日】2016年9月7日
【申請日】2016年4月21日
【發(fā)明人】范東來, 何宏靖
【申請人】成都數(shù)聯(lián)銘品科技有限公司