国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于海量用戶(hù)行為數(shù)據(jù)的高速計(jì)算分析方法

      文檔序號(hào):9547213閱讀:419來(lái)源:國(guó)知局
      基于海量用戶(hù)行為數(shù)據(jù)的高速計(jì)算分析方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于海量用戶(hù)行為數(shù)據(jù)的高速計(jì)算分析方法。
      【背景技術(shù)】
      [0002]隨著廣電網(wǎng)絡(luò)公司后平移時(shí)代的到來(lái),數(shù)字電視業(yè)務(wù)發(fā)展日益成熟,付費(fèi)頻道、時(shí)移回看、V0D(Video On Demand)即視頻點(diǎn)播、其他增值業(yè)務(wù)(股票、電視商城、游戲等)等多種雙向互動(dòng)新業(yè)務(wù)在不斷的充實(shí)廣電網(wǎng)絡(luò)運(yùn)營(yíng)商的業(yè)務(wù)服務(wù)內(nèi)容,廣電網(wǎng)絡(luò)運(yùn)營(yíng)商的發(fā)展重點(diǎn)逐漸從數(shù)字平臺(tái)搭建、雙向網(wǎng)絡(luò)改造轉(zhuǎn)向了更加多元化的業(yè)務(wù)經(jīng)營(yíng)和盈利模式。
      [0003]作為傳統(tǒng)的廣電網(wǎng)絡(luò)運(yùn)營(yíng)商,在數(shù)字電視媒體環(huán)境下,隨著雙向網(wǎng)絡(luò)的不斷完善,用戶(hù)行為數(shù)據(jù)的采集成為可能,而面對(duì)上百萬(wàn),甚至上千萬(wàn)用戶(hù)的海量行為數(shù)據(jù),如何進(jìn)行高速的計(jì)算分析成為了各大運(yùn)營(yíng)商丞待解決的問(wèn)題。
      [0004]現(xiàn)有的海量數(shù)據(jù)計(jì)算分析技術(shù),主要是通過(guò)將結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)在眾多的存儲(chǔ)及運(yùn)算設(shè)備之中,然后經(jīng)過(guò)數(shù)據(jù)庫(kù)的查詢(xún)、運(yùn)算、分析,從百萬(wàn)級(jí),甚至千萬(wàn)級(jí)用戶(hù)的海量行為數(shù)據(jù)中,查詢(xún)到需要的數(shù)據(jù)記錄和結(jié)果,然后再進(jìn)行運(yùn)算分析,以形成最終的分析結(jié)果。這種方式,由于所有的分析、計(jì)算都要從龐大的海量數(shù)據(jù)中進(jìn)行查詢(xún)及運(yùn)算,使得查詢(xún)運(yùn)算的效率大大降低,分析一個(gè)簡(jiǎn)單的指標(biāo),都需要從所有數(shù)據(jù)中進(jìn)行查詢(xún),以獲取所需的數(shù)據(jù)指標(biāo)。往往查詢(xún)與運(yùn)算的時(shí)間都是好幾個(gè)小時(shí),甚至十幾個(gè)小時(shí),隨著數(shù)據(jù)量的增加,效率會(huì)更低,只能通過(guò)添加高性能的運(yùn)算服務(wù)器,以提高查詢(xún)運(yùn)算的效率。現(xiàn)有的海量數(shù)據(jù)計(jì)算分析技術(shù)根本無(wú)法做到對(duì)海量數(shù)據(jù)的實(shí)時(shí)分析與計(jì)算,且需要投入大量的高性能服務(wù)器資源以配合分析與計(jì)算。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明主要解決的是面對(duì)越來(lái)越靈活的雙向新媒體業(yè)務(wù),面對(duì)百萬(wàn)級(jí),甚至千萬(wàn)級(jí)用戶(hù)的海量行為數(shù)據(jù),將采集到的用戶(hù)行為數(shù)據(jù)進(jìn)行HDFS分布式存儲(chǔ),經(jīng)過(guò)ETL模塊對(duì)數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換和加載之后,由符合傳媒行業(yè)特點(diǎn)的優(yōu)化組合算法模塊,將海量的用戶(hù)行為數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)預(yù)處理,形成一系列的中間結(jié)果數(shù)據(jù),再通過(guò)不同的WEB應(yīng)用程序調(diào)用相關(guān)的中間結(jié)果數(shù)據(jù)集,以實(shí)現(xiàn)對(duì)海量用戶(hù)行為數(shù)據(jù)的高速分析運(yùn)算,為運(yùn)營(yíng)商提供秒級(jí)的實(shí)時(shí)計(jì)算分析。
      [0006]通過(guò)該方法可使廣電網(wǎng)絡(luò)運(yùn)營(yíng)商利用現(xiàn)有的雙向網(wǎng)絡(luò)通道獲取到的海量用戶(hù)行為數(shù)據(jù),快速有效的得到真實(shí)的、準(zhǔn)確的分析運(yùn)算結(jié)果,實(shí)時(shí)地為運(yùn)營(yíng)商提供運(yùn)營(yíng)決策依據(jù),有效的提高了海量數(shù)據(jù)的分析運(yùn)算效率。同時(shí)在資源利用率上,較現(xiàn)有的海量數(shù)據(jù)分析技術(shù)可節(jié)省大量的硬件設(shè)備資源及人員成本。
      【附圖說(shuō)明】
      [0007]圖1為本發(fā)明實(shí)施例提供的基于海量用戶(hù)行為數(shù)據(jù)的高速計(jì)算分析方法的實(shí)現(xiàn)流程圖。
      【具體實(shí)施方式】
      [0008]下面結(jié)合附圖并通過(guò)【具體實(shí)施方式】來(lái)進(jìn)一步說(shuō)明本發(fā)明的技術(shù)方案??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。
      [0009]如圖1所示,為本發(fā)明基于海量用戶(hù)行為數(shù)據(jù)的高速計(jì)算分析方法的實(shí)現(xiàn)流程圖,詳述如下:
      [0010]在步驟SI中,采集運(yùn)營(yíng)商的海量用戶(hù)行為數(shù)據(jù)及第三方系統(tǒng)的異構(gòu)數(shù)據(jù);
      [0011]在步驟S2 中,通過(guò) HDFS ((Hadoop Distributed File System))分布式存儲(chǔ)模塊進(jìn)行三備份分布式存儲(chǔ);
      [0012]在步驟S3中,由ETL(Extract-Transform-Load)模塊完成對(duì)海量行為數(shù)據(jù)的提取、轉(zhuǎn)化及加載;
      [0013]在步驟S4中然后再由算法處理模塊,結(jié)合傳媒行業(yè)的特點(diǎn),對(duì)轉(zhuǎn)化后的海量行為數(shù)據(jù),利用基本統(tǒng)計(jì)分析算法,例如描述性統(tǒng)計(jì)分析、假設(shè)檢驗(yàn)、回歸分析、多元統(tǒng)計(jì)分析、方差分析、線(xiàn)性時(shí)間序列分析、參數(shù)貝葉斯方法、修正收視媒體指標(biāo)分析方法等,利用高級(jí)數(shù)據(jù)分析算法,例如關(guān)聯(lián)規(guī)則挖掘涉及的Apr1ri算法、基于劃分的算法、F-P數(shù)頻集算法,分類(lèi)分析涉及的判定樹(shù)歸納分類(lèi)、貝葉斯分類(lèi)、向后傳播分類(lèi),聚類(lèi)分析涉及的K-means、CLARANS, BIRCH、CURE、DBSCAN,神經(jīng)網(wǎng)絡(luò)算法、高維數(shù)據(jù)統(tǒng)計(jì)分析等,利用智能關(guān)聯(lián)規(guī)則挖掘算法、節(jié)目評(píng)估模型、高級(jí)時(shí)間序列預(yù)測(cè)方法等創(chuàng)新算法,通過(guò)將上述算法結(jié)合符合傳媒行業(yè)的特點(diǎn),進(jìn)行算法間優(yōu)化組合,形成特定的算法包及數(shù)據(jù)模型,并針對(duì)上述算法特點(diǎn),對(duì)用戶(hù)的海量行為數(shù)據(jù)進(jìn)行預(yù)處理,提取共用部分,形成供數(shù)據(jù)查詢(xún)、分析、運(yùn)算、模型演化等,的一系列的中間結(jié)果數(shù)據(jù),并存儲(chǔ)在中間結(jié)果數(shù)據(jù)存儲(chǔ)模塊中;
      [0014]在步驟S5中,由不同的WEB應(yīng)用程序由操作用戶(hù)提交分析請(qǐng)求,直接從中間結(jié)果數(shù)據(jù)存儲(chǔ)模塊中調(diào)用所需的指標(biāo)數(shù)據(jù),并通過(guò)簡(jiǎn)單的查詢(xún)、統(tǒng)計(jì)、分析、公式計(jì)算等運(yùn)算即可完成對(duì)用戶(hù)分析請(qǐng)求的結(jié)果反饋。對(duì)操作用戶(hù)的指標(biāo)分析請(qǐng)求響應(yīng)時(shí)間達(dá)到秒級(jí),甚至毫秒級(jí)的實(shí)時(shí)響應(yīng)。使得服務(wù)器端資源壓力下降,能夠做到WEB應(yīng)用的高并發(fā)。
      [0015]由于采用了優(yōu)化組合的算法包及數(shù)據(jù)模型進(jìn)行海量的數(shù)據(jù)預(yù)處理操作,每次的用戶(hù)指標(biāo)查詢(xún)請(qǐng)求,只需要從經(jīng)過(guò)數(shù)據(jù)預(yù)處理的中間結(jié)果數(shù)據(jù)中提取相關(guān)數(shù)據(jù)參與運(yùn)算,不需要從完整的原始海量行為數(shù)據(jù)中進(jìn)行查詢(xún)和運(yùn)算,分析運(yùn)算效率由現(xiàn)有技術(shù)所需的幾個(gè)小時(shí),十幾個(gè)小時(shí)的漫長(zhǎng)等待時(shí)間,提升為秒級(jí),甚至毫秒級(jí)的實(shí)時(shí)響應(yīng),大大提高了分析運(yùn)算效率,同時(shí)整個(gè)分析運(yùn)算過(guò)程只需要普通的PC服務(wù)器資源即可完成,大大節(jié)省了硬件服務(wù)器資源的投入。
      [0016]以上僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
      【主權(quán)項(xiàng)】
      1.一種基于海量用戶(hù)行為數(shù)據(jù)的高速計(jì)算分析方法,其特征在于:包含如下步驟: A、首先采集運(yùn)營(yíng)商的海量用戶(hù)行為數(shù)據(jù)及第三方系統(tǒng)的異構(gòu)數(shù)據(jù); B、通過(guò)HDFS分布式存儲(chǔ)模塊進(jìn)行三備份分布式存儲(chǔ); C、通過(guò)ETL模塊完成對(duì)海量行為數(shù)據(jù)的提取、轉(zhuǎn)化及加載; D、然后再由算法處理模塊對(duì)轉(zhuǎn)化后的海量行為數(shù)據(jù)通過(guò)優(yōu)化組合的算法包及數(shù)據(jù)模型進(jìn)行數(shù)據(jù)預(yù)處理操作,最終形成一系列的中間結(jié)果數(shù)據(jù),并存儲(chǔ)在中間結(jié)果數(shù)據(jù)存儲(chǔ)模塊中; E、通過(guò)不同的WEB應(yīng)用程序由操作用戶(hù)提交分析請(qǐng)求,直接從中間結(jié)果數(shù)據(jù)存儲(chǔ)模塊中調(diào)用所需的指標(biāo)數(shù)據(jù),并通過(guò)運(yùn)算即可完成對(duì)用戶(hù)分析請(qǐng)求的結(jié)果反饋。
      【專(zhuān)利摘要】本發(fā)明主要解決的是面對(duì)越來(lái)越靈活的雙向新媒體業(yè)務(wù),面對(duì)百萬(wàn)級(jí),甚至千萬(wàn)級(jí)用戶(hù)的海量行為數(shù)據(jù),將采集到的用戶(hù)行為數(shù)據(jù)進(jìn)行HDFS分布式存儲(chǔ),經(jīng)過(guò)ETL模塊對(duì)數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換和加載之后,由符合傳媒行業(yè)特點(diǎn)的優(yōu)化組合算法模塊,將海量的用戶(hù)行為數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)預(yù)處理,形成一系列的中間結(jié)果數(shù)據(jù),再通過(guò)不同的WEB應(yīng)用程序調(diào)用相關(guān)的中間結(jié)果數(shù)據(jù)集,以實(shí)現(xiàn)對(duì)海量用戶(hù)行為數(shù)據(jù)的高速分析運(yùn)算,為運(yùn)營(yíng)商提供秒級(jí)的實(shí)時(shí)計(jì)算分析。
      【IPC分類(lèi)】G06F17/30
      【公開(kāi)號(hào)】CN105302831
      【申請(qǐng)?zhí)枴緾N201410345089
      【發(fā)明人】李馥岑, 孫鑫, 張旭明
      【申請(qǐng)人】上海星紅桉數(shù)據(jù)科技有限公司
      【公開(kāi)日】2016年2月3日
      【申請(qǐng)日】2014年7月18日
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1