本發(fā)明涉及數(shù)據(jù)處理
技術(shù)領(lǐng)域:
:,尤其涉及一種數(shù)據(jù)采集審計的方法及系統(tǒng)、計算機可讀存儲介質(zhì)。
背景技術(shù):
::數(shù)據(jù)(data)是對事實、概念或指令的一種表達形式,可由人工或自動化裝置進行處理。數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為信息。數(shù)據(jù)處理(dataprocessing)是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸,其基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。數(shù)據(jù)處理是系統(tǒng)工程和自動控制的基本環(huán)節(jié),其貫穿于社會生產(chǎn)和社會生活的各個領(lǐng)域。數(shù)據(jù)處理技術(shù)的發(fā)展及其應(yīng)用的廣度和深度,極大地影響著人類社會發(fā)展的進程。數(shù)據(jù)處理離不開軟件的支持,數(shù)據(jù)處理軟件包括:用以書寫處理程序的各種程序設(shè)計語言及其編譯程序,管理數(shù)據(jù)的文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng),以及各種數(shù)據(jù)處理方法的應(yīng)用軟件包,為了保證數(shù)據(jù)安全可靠,還有一整套數(shù)據(jù)安全保密的技術(shù)。根據(jù)處理設(shè)備的結(jié)構(gòu)方式、工作方式,以及數(shù)據(jù)的時間空間分布方式的不同,數(shù)據(jù)處理有不同的方式。不同的處理方式要求不同的硬件和軟件支持。每種處理方式都有自己的特點,應(yīng)當(dāng)根據(jù)應(yīng)用問題的實際環(huán)境選擇合適的處理方式。數(shù)據(jù)處理主要有四種分類方式①根據(jù)處理設(shè)備的結(jié)構(gòu)方式區(qū)分,有聯(lián)機處理方式和脫機處理方式。②根據(jù)數(shù)據(jù)處理時間的分配方式區(qū)分,有批處理方式、分時處理方式和實時處理方式。③根據(jù)數(shù)據(jù)處理空間的分布方式區(qū)分,有集中式處理方式和分布處理方式。④根據(jù)計算機中央處理器的工作方式區(qū)分,有單道作業(yè)處理方式、多道作業(yè)處理方式和交互式處理方式。數(shù)據(jù)處理對數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)進行分析和加工的技術(shù)過程,包括對各種原始數(shù)據(jù)的分析、整理、計算、編輯等的加工和處理,比數(shù)據(jù)分析含義廣。我們知道,每個軟件客戶端的開發(fā)運營均是一個不斷修正改良的過程中,其需要數(shù)據(jù)采集服務(wù)器端不斷地采集每一用戶對其客戶端的使用行為,以便運營商可更好地了解用戶對其客戶端的使用習(xí)慣,進而使得運營商可為用戶提供更好的服務(wù),一般在客戶端運行過程中,用戶每對客戶端進行一次操作,其相應(yīng)的數(shù)據(jù)采集服務(wù)器端都會不斷地對之進行遠程數(shù)據(jù)采集,以收集相關(guān)數(shù)據(jù)進行數(shù)據(jù)統(tǒng)計分析,從而得出每一用戶對其客戶端的使用習(xí)慣及需求,為運營商如何給用戶提供更貼心的服務(wù)提供一個良好的參考依據(jù)。而數(shù)據(jù)采集服務(wù)器端在進行這些數(shù)據(jù)的采集階段,經(jīng)常會因為網(wǎng)絡(luò)、采集數(shù)據(jù)時間超時、軟件本身的bug等原因造成部分數(shù)據(jù)的丟失,由于這部分數(shù)據(jù)丟失往往難以定位到具體原因,也無法預(yù)警,由此軟件的隱患、風(fēng)險也將一直持續(xù)。因而這部分數(shù)據(jù)丟失,將會嚴(yán)重的影響到基礎(chǔ)統(tǒng)計、運營分析、數(shù)據(jù)決策等數(shù)據(jù)統(tǒng)計相關(guān)業(yè)務(wù)的精準(zhǔn)性,將會是數(shù)據(jù)統(tǒng)計整個系統(tǒng)生態(tài)鏈上的嚴(yán)重bug。技術(shù)實現(xiàn)要素:本發(fā)明的主要目的在于提出一種數(shù)據(jù)采集審計的方法及系統(tǒng)、計算機可讀存儲介質(zhì),旨在及時發(fā)現(xiàn)客戶端是否出現(xiàn)數(shù)據(jù)丟失的問題,使得后續(xù)可根據(jù)預(yù)警進行相關(guān)的數(shù)據(jù)修復(fù),同時幫助客戶端發(fā)現(xiàn)自身sdk設(shè)計上的缺陷,以便開發(fā)者及時作出相應(yīng)維護。為實現(xiàn)上述目的,本發(fā)明提供的一種數(shù)據(jù)采集審計的方法,所述方法包括以下步驟:采集審計數(shù)據(jù):在客戶端上對每一事件的產(chǎn)生次數(shù)進行每日數(shù)據(jù)審計統(tǒng)計,以獲得相應(yīng)的審計數(shù)據(jù),并進行本地存儲;上報審計數(shù)據(jù):基于客戶端現(xiàn)有日常數(shù)據(jù)的上報策略,將所述審計數(shù)據(jù)隨同客戶端的日常數(shù)據(jù)一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端;存放審計數(shù)據(jù):在數(shù)據(jù)采集服務(wù)器端上對所述日常數(shù)據(jù)與所述審計數(shù)據(jù)進行分離處理后,按上報日期來對所述日常數(shù)據(jù)與所述審計數(shù)據(jù)進行分區(qū)存放;比對原始審計數(shù)據(jù):在數(shù)據(jù)采集服務(wù)器端上設(shè)定每日比對任務(wù),以比對前一天中客戶端上報過來的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警。優(yōu)選地,所述采集審計數(shù)據(jù)的步驟具體包括:在客戶端上每次產(chǎn)生系統(tǒng)預(yù)設(shè)事件、自定義事件時,按照事件名稱分別統(tǒng)計每一事件的發(fā)生次數(shù),然后將統(tǒng)計結(jié)果寫入對應(yīng)日期、對應(yīng)用戶的本地存儲中。優(yōu)選地,所述存放審計數(shù)據(jù)的步驟具體包括以下步驟:在數(shù)據(jù)采集服務(wù)器端上通過flume系統(tǒng)對所述日常數(shù)據(jù)與所述審計數(shù)據(jù)進行分離處理后,按上報日期來將所述日常數(shù)據(jù)與所述審計數(shù)據(jù)存入hdfs系統(tǒng)對應(yīng)的分區(qū)中;設(shè)定每日統(tǒng)計任務(wù),將hdfs系統(tǒng)中存入的審計數(shù)據(jù)按上報日期導(dǎo)入hive表對應(yīng)的分區(qū)中,以得到相應(yīng)的審計統(tǒng)計日表。優(yōu)選地,所述審計原始審計數(shù)據(jù)的步驟具體包括:在數(shù)據(jù)采集服務(wù)器端上設(shè)定每日比對任務(wù),以比對前一天中所述審計統(tǒng)計日表的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警。優(yōu)選地,所述方法還包括以下步驟:比對清洗后審計數(shù)據(jù):分別對前一天中客戶端上報過來的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)進行去重計算后,再對兩者進行一致性比對,并在比對結(jié)果不一致時作出預(yù)警。此外,為實現(xiàn)上述目的,本發(fā)明還提出一種數(shù)據(jù)采集審計的系統(tǒng),所述系統(tǒng)包括:審計數(shù)據(jù)采集模塊,用于在客戶端上對每一事件的產(chǎn)生次數(shù)進行每日數(shù)據(jù)審計統(tǒng)計,以獲得相應(yīng)的審計數(shù)據(jù),并進行本地存儲;審計數(shù)據(jù)上報模塊,用于基于客戶端現(xiàn)有日常數(shù)據(jù)的上報策略,將所述審計數(shù)據(jù)隨同客戶端的日常數(shù)據(jù)一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端;審計數(shù)據(jù)存放模塊,用于在數(shù)據(jù)采集服務(wù)器端上對所述日常數(shù)據(jù)與所述審計數(shù)據(jù)進行分離處理后,按上報日期來對所述日常數(shù)據(jù)與所述審計數(shù)據(jù)進行分區(qū)存放;原始審計數(shù)據(jù)比對模塊,用于在數(shù)據(jù)采集服務(wù)器端上設(shè)定每日比對任務(wù),以比對前一天中客戶端上報過來的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警。優(yōu)選地,所述審計數(shù)據(jù)采集模塊在客戶端每次產(chǎn)生系統(tǒng)預(yù)設(shè)事件、自定義事件時,按照事件名稱分別統(tǒng)計每一事件的發(fā)生次數(shù),然后將統(tǒng)計結(jié)果寫入對應(yīng)日期、對應(yīng)用戶的本地存儲中。優(yōu)選地,所述審計數(shù)據(jù)存放模塊包括:存放處理單元,用于在數(shù)據(jù)采集服務(wù)器端上通過flume系統(tǒng)對所述日常數(shù)據(jù)與所述審計數(shù)據(jù)進行分離處理后,按上報日期來將所述日常數(shù)據(jù)與所述審計數(shù)據(jù)存入hdfs系統(tǒng)對應(yīng)的分區(qū)中;定時統(tǒng)計單元,用于設(shè)定每日統(tǒng)計任務(wù),將hdfs系統(tǒng)中存入的審計數(shù)據(jù)按上報日期導(dǎo)入hive表對應(yīng)的分區(qū)中,以得到相應(yīng)的審計統(tǒng)計日表。優(yōu)選地,所述系統(tǒng)還包括清洗后審計數(shù)據(jù)比對模塊,用于分別對前一天中客戶端上報過來的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)進行去重計算后,再對兩者進行一致性比對,并在比對結(jié)果不一致時作出預(yù)警。此外,為實現(xiàn)上述目的,本發(fā)明還提出一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)上述的方法的步驟。本發(fā)明提出的一種數(shù)據(jù)采集審計的方法及系統(tǒng)、計算機可讀存儲介質(zhì),其通過在客戶端增加采集審計數(shù)據(jù)機制,以在客戶端上對每一事件的產(chǎn)生次數(shù)進行每日數(shù)據(jù)審計統(tǒng)計來獲得相應(yīng)的審計數(shù)據(jù),然后通過在數(shù)據(jù)采集服務(wù)器端上設(shè)定每日比對任務(wù),以比對前一天中客戶端上報過來的審計數(shù)據(jù)與服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警,以便及時發(fā)現(xiàn)客戶端是否出現(xiàn)數(shù)據(jù)丟失的問題,使得后續(xù)可根據(jù)預(yù)警進行相關(guān)的數(shù)據(jù)修復(fù),同時幫助客戶端發(fā)現(xiàn)自身sdk設(shè)計上的缺陷,以便開發(fā)者及時作出相應(yīng)維護。附圖說明圖1為實現(xiàn)本發(fā)明各個實施例的移動終端的硬件結(jié)構(gòu)示意圖。圖2為如圖1所示的移動終端所基于的通信網(wǎng)絡(luò)系統(tǒng)架構(gòu)圖。圖3為本發(fā)明第一實施例數(shù)據(jù)采集審計的方法的流程框圖。圖4為本發(fā)明第二實施例數(shù)據(jù)采集審計的系統(tǒng)的結(jié)構(gòu)框圖。;本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。具體實施方式應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說明,其本身沒有特定的意義。因此,“模塊”、“部件”或“單元”可以混合地使用。終端可以以各種形式來實施。例如,本發(fā)明中描述的終端可以包括諸如手機、平板電腦、筆記本電腦、掌上電腦、個人數(shù)字助理(personaldigitalassistant,pda)、便捷式媒體播放器(portablemediaplayer,pmp)、導(dǎo)航裝置、可穿戴設(shè)備、智能手環(huán)、計步器等移動終端,以及諸如數(shù)字tv、臺式計算機等固定終端。后續(xù)描述中將以移動終端為例進行說明,本領(lǐng)域技術(shù)人員將理解的是,除了特別用于移動目的的元件之外,根據(jù)本發(fā)明的實施方式的構(gòu)造也能夠應(yīng)用于固定類型的終端。請參閱圖1,其為實現(xiàn)本發(fā)明各個實施例的一種移動終端的硬件結(jié)構(gòu)示意圖,該移動終端100可以包括:rf(radiofrequency,射頻)單元101、wifi模塊102、音頻輸出單元103、a/v(音頻/視頻)輸入單元104、傳感器105、顯示單元106、用戶輸入單元107、接口單元108、存儲器109、處理器110、以及電源111等部件。本領(lǐng)域技術(shù)人員可以理解,圖1中示出的移動終端結(jié)構(gòu)并不構(gòu)成對移動終端的限定,移動終端可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。下面結(jié)合圖1對移動終端的各個部件進行具體的介紹:射頻單元101可用于收發(fā)信息或通話過程中,信號的接收和發(fā)送,具體的,將基站的下行信息接收后,給處理器110處理;另外,將上行的數(shù)據(jù)發(fā)送給基站。通常,射頻單元101包括但不限于天線、至少一個放大器、收發(fā)信機、耦合器、低噪聲放大器、雙工器等。此外,射頻單元101還可以通過無線通信與網(wǎng)絡(luò)和其他設(shè)備通信。上述無線通信可以使用任一通信標(biāo)準(zhǔn)或協(xié)議,包括但不限于gsm(globalsystemofmobilecommunication,全球移動通訊系統(tǒng))、gprs(generalpacketradioservice,通用分組無線服務(wù))、cdma2000(codedivisionmultipleaccess2000,碼分多址2000)、wcdma(widebandcodedivisionmultipleaccess,寬帶碼分多址)、td-scdma(timedivision-synchronouscodedivisionmultipleaccess,時分同步碼分多址)、fdd-lte(frequencydivisionduplexing-longtermevolution,頻分雙工長期演進)和tdd-lte(timedivisionduplexing-longtermevolution,分時雙工長期演進)等。wifi屬于短距離無線傳輸技術(shù),移動終端通過wifi模塊102可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等,它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖1示出了wifi模塊102,但是可以理解的是,其并不屬于移動終端的必須構(gòu)成,完全可以根據(jù)需要在不改變發(fā)明的本質(zhì)的范圍內(nèi)而省略。音頻輸出單元103可以在移動終端100處于呼叫信號接收模式、通話模式、記錄模式、語音識別模式、廣播接收模式等等模式下時,將射頻單元101或wifi模塊102接收的或者在存儲器109中存儲的音頻數(shù)據(jù)轉(zhuǎn)換成音頻信號并且輸出為聲音。而且,音頻輸出單元103還可以提供與移動終端100執(zhí)行的特定功能相關(guān)的音頻輸出(例如,呼叫信號接收聲音、消息接收聲音等等)。音頻輸出單元103可以包括揚聲器、蜂鳴器等等。a/v輸入單元104用于接收音頻或視頻信號。a/v輸入單元104可以包括圖形處理器(graphicsprocessingunit,gpu)1041和麥克風(fēng)1042,圖形處理器1041對在視頻捕獲模式或圖像捕獲模式中由圖像捕獲裝置(如攝像頭)獲得的靜態(tài)圖片或視頻的圖像數(shù)據(jù)進行處理。處理后的圖像幀可以顯示在顯示單元106上。經(jīng)圖形處理器1041處理后的圖像幀可以存儲在存儲器109(或其它存儲介質(zhì))中或者經(jīng)由射頻單元101或wifi模塊102進行發(fā)送。麥克風(fēng)1042可以在電話通話模式、記錄模式、語音識別模式等等運行模式中經(jīng)由麥克風(fēng)1042接收聲音(音頻數(shù)據(jù)),并且能夠?qū)⑦@樣的聲音處理為音頻數(shù)據(jù)。處理后的音頻(語音)數(shù)據(jù)可以在電話通話模式的情況下轉(zhuǎn)換為可經(jīng)由射頻單元101發(fā)送到移動通信基站的格式輸出。麥克風(fēng)1042可以實施各種類型的噪聲消除(或抑制)算法以消除(或抑制)在接收和發(fā)送音頻信號的過程中產(chǎn)生的噪聲或者干擾。移動終端100還包括至少一種傳感器105,比如光傳感器、運動傳感器以及其他傳感器。具體地,光傳感器包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調(diào)節(jié)顯示面板1061的亮度,接近傳感器可在移動終端100移動到耳邊時,關(guān)閉顯示面板1061和/或背光。作為運動傳感器的一種,加速計傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用于識別手機姿態(tài)的應(yīng)用(比如橫豎屏切換、相關(guān)游戲、磁力計姿態(tài)校準(zhǔn))、振動識別相關(guān)功能(比如計步器、敲擊)等;至于手機還可配置的指紋傳感器、壓力傳感器、虹膜傳感器、分子傳感器、陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其他傳感器,在此不再贅述。顯示單元106用于顯示由用戶輸入的信息或提供給用戶的信息。顯示單元106可包括顯示面板1061,可以采用液晶顯示器(liquidcrystaldisplay,lcd)、有機發(fā)光二極管(organiclight-emittingdiode,oled)等形式來配置顯示面板1061。用戶輸入單元107可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與移動終端的用戶設(shè)置以及功能控制有關(guān)的鍵信號輸入。具體地,用戶輸入單元107可包括觸控面板1071以及其他輸入設(shè)備1072。觸控面板1071,也稱為觸摸屏,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板1071上或在觸控面板1071附近的操作),并根據(jù)預(yù)先設(shè)定的程式驅(qū)動相應(yīng)的連接裝置。觸控面板1071可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點坐標(biāo),再送給處理器110,并能接收處理器110發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現(xiàn)觸控面板1071。除了觸控面板1071,用戶輸入單元107還可以包括其他輸入設(shè)備1072。具體地,其他輸入設(shè)備1072可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、操作桿等中的一種或多種,具體此處不做限定。進一步的,觸控面板1071可覆蓋顯示面板1061,當(dāng)觸控面板1071檢測到在其上或附近的觸摸操作后,傳送給處理器110以確定觸摸事件的類型,隨后處理器110根據(jù)觸摸事件的類型在顯示面板1061上提供相應(yīng)的視覺輸出。雖然在圖1中,觸控面板1071與顯示面板1061是作為兩個獨立的部件來實現(xiàn)移動終端的輸入和輸出功能,但是在某些實施例中,可以將觸控面板1071與顯示面板1061集成而實現(xiàn)移動終端的輸入和輸出功能,具體此處不做限定。接口單元108用作至少一個外部裝置與移動終端100連接可以通過的接口。例如,外部裝置可以包括有線或無線頭戴式耳機端口、外部電源(或電池充電器)端口、有線或無線數(shù)據(jù)端口、存儲卡端口、用于連接具有識別模塊的裝置的端口、音頻輸入/輸出(i/o)端口、視頻i/o端口、耳機端口等等。接口單元108可以用于接收來自外部裝置的輸入(例如,數(shù)據(jù)信息、電力等等)并且將接收到的輸入傳輸?shù)揭苿咏K端100內(nèi)的一個或多個元件或者可以用于在移動終端100和外部裝置之間傳輸數(shù)據(jù)。存儲器109可用于存儲軟件程序以及各種數(shù)據(jù)。存儲器109可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)手機的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲器109可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。處理器110是移動終端的控制中心,利用各種接口和線路連接整個移動終端的各個部分,通過運行或執(zhí)行存儲在存儲器109內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲器109內(nèi)的數(shù)據(jù),執(zhí)行移動終端的各種功能和處理數(shù)據(jù),從而對移動終端進行整體監(jiān)控。處理器110可包括一個或多個處理單元;優(yōu)選的,處理器110可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信。可以理解的是,上述調(diào)制解調(diào)處理器也可以不集成到處理器110中。移動終端100還可以包括給各個部件供電的電源111(比如電池),優(yōu)選的,電源111可以通過電源管理系統(tǒng)與處理器110邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。盡管圖1未示出,移動終端100還可以包括藍牙模塊等,在此不再贅述。為了便于理解本發(fā)明實施例,下面對本發(fā)明的移動終端所基于的通信網(wǎng)絡(luò)系統(tǒng)進行描述。請參閱圖2,圖2為本發(fā)明實施例提供的一種通信網(wǎng)絡(luò)系統(tǒng)架構(gòu)圖,該通信網(wǎng)絡(luò)系統(tǒng)為通用移動通信技術(shù)的lte系統(tǒng),該lte系統(tǒng)包括依次通訊連接的ue(userequipment,用戶設(shè)備)201,e-utran(evolvedumtsterrestrialradioaccessnetwork,演進式umts陸地?zé)o線接入網(wǎng))202,epc(evolvedpacketcore,演進式分組核心網(wǎng))203和運營商的ip業(yè)務(wù)204。具體地,ue201可以是上述終端100,此處不再贅述。e-utran202包括enodeb2021和其它enodeb2022等。其中,enodeb2021可以通過回程(backhaul)(例如x2接口)與其它enodeb2022連接,enodeb2021連接到epc203,enodeb2021可以提供ue201到epc203的接入。epc203可以包括mme(mobilitymanagemententity,移動性管理實體)2031,hss(homesubscriberserver,歸屬用戶服務(wù)器)2032,其它mme2033,sgw(servinggateway,服務(wù)網(wǎng)關(guān))2034,pgw(pdngateway,分組數(shù)據(jù)網(wǎng)絡(luò)網(wǎng)關(guān))2035和pcrf(policyandchargingrulesfunction,政策和資費功能實體)2036等。其中,mme2031是處理ue201和epc203之間信令的控制節(jié)點,提供承載和連接管理。hss2032用于提供一些寄存器來管理諸如歸屬位置寄存器(圖中未示)之類的功能,并且保存有一些有關(guān)服務(wù)特征、數(shù)據(jù)速率等用戶專用的信息。所有用戶數(shù)據(jù)都可以通過sgw2034進行發(fā)送,pgw2035可以提供ue201的ip地址分配以及其它功能,pcrf2036是業(yè)務(wù)數(shù)據(jù)流和ip承載資源的策略與計費控制策略決策點,它為策略與計費執(zhí)行功能單元(圖中未示)選擇及提供可用的策略和計費控制決策。ip業(yè)務(wù)204可以包括因特網(wǎng)、內(nèi)聯(lián)網(wǎng)、ims(ipmultimediasubsystem,ip多媒體子系統(tǒng))或其它ip業(yè)務(wù)等。雖然上述以lte系統(tǒng)為例進行了介紹,但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)知曉,本發(fā)明不僅僅適用于lte系統(tǒng),也可以適用于其他無線通信系統(tǒng),例如gsm、cdma2000、wcdma、td-scdma以及未來新的網(wǎng)絡(luò)系統(tǒng)等,此處不做限定?;谏鲜鲆苿咏K端硬件結(jié)構(gòu)以及通信網(wǎng)絡(luò)系統(tǒng),提出本發(fā)明方法各個實施例。如圖3所示,本發(fā)明第一實施例提出一種數(shù)據(jù)采集審計的方法,包括以下步驟:步驟s1:采集審計數(shù)據(jù):在客戶端上對每一事件的產(chǎn)生次數(shù)進行每日數(shù)據(jù)審計統(tǒng)計,以獲得相應(yīng)的審計數(shù)據(jù),并進行本地存儲。具體地,在客戶端上每次產(chǎn)生系統(tǒng)預(yù)設(shè)事件、自定義事件時,按照事件名稱分別統(tǒng)計每一事件的發(fā)生次數(shù),然后將統(tǒng)計結(jié)果寫入對應(yīng)日期、對應(yīng)用戶的本地存儲中。系統(tǒng)預(yù)設(shè)事件可包括startup(啟動)、session(會話)、install(插入)等事件,考慮到session這種特殊類型的事件,需要下次啟動才能生成,事件未定(可能不是當(dāng)天),針對這種類型的數(shù)據(jù),就需要重新上報審計數(shù)據(jù),以更新該事件發(fā)生當(dāng)日的歷史審計數(shù)據(jù)。自定義事件為每一軟件客戶端為進行相關(guān)數(shù)據(jù)統(tǒng)計而進行新定義的事件,如音樂播放器的點歌行為、地圖軟件的地址搜索等事件。步驟s2:上報審計數(shù)據(jù):基于客戶端現(xiàn)有日常數(shù)據(jù)的上報策略,將該審計數(shù)據(jù)隨同客戶端的日常數(shù)據(jù)一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端。具體地,由于客戶端原先便有相應(yīng)的上報策略(如實時、定時間隔、批量等策略),以便客戶端將其產(chǎn)生的日常數(shù)據(jù)上報給數(shù)據(jù)采集服務(wù)器端。而審計數(shù)據(jù)的上報,考慮到客戶端流量、性能問題,因此不能頻繁地進行發(fā)送數(shù)據(jù),因而,可利用客戶端原先的上報策略,將該審計數(shù)據(jù)隨同客戶端的日常數(shù)據(jù)一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端。一般而言,審計的過程數(shù)據(jù)大致為一天4~5次,用戶使用移動終端的極致時間為12~15小時,因此定位間隔3小時進行審計數(shù)據(jù)合并,每天分將4~5次,將合并后的審計數(shù)據(jù)以及客戶端的日常數(shù)據(jù),一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端。步驟s3:存放審計數(shù)據(jù):在數(shù)據(jù)采集服務(wù)器端上對該日常數(shù)據(jù)與該審計數(shù)據(jù)進行分離處理后,按上報日期來對該日常數(shù)據(jù)與該審計數(shù)據(jù)進行分區(qū)存放。具體地,在進行存放審計數(shù)據(jù)的步驟時:首先,在數(shù)據(jù)采集服務(wù)器端上通過flume系統(tǒng)(flume是cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,flume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力)對該日常數(shù)據(jù)與該審計數(shù)據(jù)進行分離處理后,按上報日期來將該日常數(shù)據(jù)與該審計數(shù)據(jù)存入hdfs系統(tǒng)(即hadoop分布式文件系統(tǒng),其被設(shè)計成適合運行在通用硬件(commodityhardware)上的分布式文件系統(tǒng),它是一個高度容錯性的系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用,且可以實現(xiàn)流的形式訪問(streamingaccess)文件系統(tǒng)中的數(shù)據(jù))對應(yīng)的分區(qū)中。其次,可設(shè)定每日統(tǒng)計任務(wù),將hdfs系統(tǒng)中存入的審計數(shù)據(jù)按上報日期導(dǎo)入hive表(hive是建立在hadoop上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架,它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉(zhuǎn)化加載(etl),這是一種可以存儲、查詢和分析存儲在hadoop中的大規(guī)模數(shù)據(jù)的機制。hive定義了簡單的類sql查詢語言,稱為hql,它允許熟悉sql的用戶查詢數(shù)據(jù)。同時,這個語言也允許熟悉mapreduce開發(fā)者的開發(fā)自定義的mapper和reducer來處理內(nèi)建的mapper和reducer無法完成的復(fù)雜的分析工作。hive沒有專門的數(shù)據(jù)格式,hive可以很好的工作在thrift之上,控制分隔符,也允許用戶指定數(shù)據(jù)格式)對應(yīng)的分區(qū)中,以得到相應(yīng)的審計統(tǒng)計日表,通過該審計統(tǒng)計日表,可快速查詢到客戶端上報過來的每日的總的審計數(shù)據(jù)。步驟s4:比對原始審計數(shù)據(jù):在數(shù)據(jù)采集服務(wù)器端上設(shè)定每日比對任務(wù),以比對前一天中客戶端上報過來的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警。具體地,可通過審計統(tǒng)計日表,快速查詢到客戶端上報過來的前一天的總的審計數(shù)據(jù)。在數(shù)據(jù)采集服務(wù)器端上進行每日定時比對時,以比對前一天中該審計統(tǒng)計日表的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警。由于數(shù)據(jù)采集服務(wù)器端本身亦會對客戶端的用戶行為進行統(tǒng)計,即在客戶端上每次產(chǎn)生系統(tǒng)預(yù)設(shè)事件、自定義事件時,數(shù)據(jù)采集服務(wù)器端會根據(jù)反饋回來的數(shù)據(jù)進行同步統(tǒng)計,亦即數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù),該實際統(tǒng)計數(shù)據(jù)經(jīng)常會因為網(wǎng)絡(luò)、采集數(shù)據(jù)時間超時、軟件本身的bug等原因造成數(shù)據(jù)的丟失,因而,若在比對前一天中該審計統(tǒng)計日表的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性過程中,發(fā)現(xiàn)兩者不一致時,即說明客戶端可能出現(xiàn)數(shù)據(jù)丟失的問題,或客戶端出現(xiàn)自身sdk設(shè)計上的缺陷,此時,通過預(yù)警可及時發(fā)現(xiàn)客戶端是否出現(xiàn)數(shù)據(jù)丟失的問題,使得后續(xù)可根據(jù)預(yù)警進行相關(guān)的數(shù)據(jù)修復(fù),同時幫助客戶端發(fā)現(xiàn)自身sdk設(shè)計上的缺陷,以便開發(fā)者及時作出相應(yīng)維護。例如要審計應(yīng)用商店2017年2月14日的session數(shù)據(jù)條數(shù)時,可用selectcount(audit_session)fromauditwhereappid=’appid’andds=’2017-02-14’(暫不考慮去重),與selectcount(1)fromevents2whereappid=’appid’andds=’2017-02-14’andxwhat=’session’進行對比。若比對結(jié)果不一致時,即可進行預(yù)警。步驟s5:比對清洗后審計數(shù)據(jù):分別對前一天中客戶端上報過來的審計數(shù)據(jù)與服務(wù)器端實際統(tǒng)計數(shù)據(jù)進行去重計算后,再對兩者進行一致性比對,并在比對結(jié)果不一致時作出預(yù)警。具體地,可進一步對前一天中客戶端上報過來的審計數(shù)據(jù)與服務(wù)器端實際統(tǒng)計數(shù)據(jù)進行去重計算后,再對兩者進行一致性比對,并在比對結(jié)果不一致時作出預(yù)警。例如要審計應(yīng)用商店2017年2月14日的活躍用戶數(shù)據(jù)時,可針對應(yīng)用商店當(dāng)天的審計數(shù)據(jù),按用戶去重后,計算session的個數(shù)(一個用戶只算一次session),與統(tǒng)計后臺的數(shù)據(jù)對比。若比對結(jié)果不一致時,即可進行預(yù)警。如圖4所示,本發(fā)明第二實施例提出一種數(shù)據(jù)采集審計的系統(tǒng)300,該系統(tǒng)300包括審計數(shù)據(jù)采集模塊310、審計數(shù)據(jù)上報模塊320、審計數(shù)據(jù)存放模塊330、原始審計數(shù)據(jù)比對模塊340以及清洗后審計數(shù)據(jù)比對模塊350。其中,審計數(shù)據(jù)采集模塊310主要用于在客戶端上對每一事件的產(chǎn)生次數(shù)進行每日數(shù)據(jù)審計統(tǒng)計,以獲得相應(yīng)的審計數(shù)據(jù),并進行本地存儲。具體地,審計數(shù)據(jù)采集模塊310在客戶端每次產(chǎn)生系統(tǒng)預(yù)設(shè)事件、自定義事件時,按照事件名稱分別統(tǒng)計每一事件的發(fā)生次數(shù),然后將統(tǒng)計結(jié)果寫入對應(yīng)日期、對應(yīng)用戶的本地存儲中。系統(tǒng)預(yù)設(shè)事件可包括startup(啟動)、session(會話)、install(插入)等事件,考慮到session這種特殊類型的事件,需要下次啟動才能生成,事件未定(可能不是當(dāng)天),針對這種類型的數(shù)據(jù),就需要重新上報審計數(shù)據(jù),以更新該事件發(fā)生當(dāng)日的歷史審計數(shù)據(jù)。自定義事件為每一軟件客戶端為進行相關(guān)數(shù)據(jù)統(tǒng)計而進行新定義的事件,如音樂播放器的點歌行為、地圖軟件的地址搜索等事件。審計數(shù)據(jù)上報模塊320主要用于基于客戶端現(xiàn)有日常數(shù)據(jù)的上報策略,將該審計數(shù)據(jù)隨同客戶端的日常數(shù)據(jù)一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端。具體地,由于客戶端原先便有相應(yīng)的上報策略(如實時、定時間隔、批量等策略),以便客戶端將其產(chǎn)生的日常數(shù)據(jù)上報給數(shù)據(jù)采集服務(wù)器端。而審計數(shù)據(jù)的上報,考慮到客戶端流量、性能問題,因此不能頻繁地進行發(fā)送數(shù)據(jù),因而,審計數(shù)據(jù)上報模塊320可利用客戶端原先的上報策略,將該審計數(shù)據(jù)隨同客戶端的日常數(shù)據(jù)一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端。一般而言,審計的過程數(shù)據(jù)大致為一天4~5次,用戶使用移動終端的極致時間為12~15小時,因此,審計數(shù)據(jù)上報模塊320可定位間隔3小時進行審計數(shù)據(jù)合并,每天分將4~5次,將合并后的審計數(shù)據(jù)以及客戶端的日常數(shù)據(jù),一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端。審計數(shù)據(jù)存放模塊330主要用于在數(shù)據(jù)采集服務(wù)器端上對該日常數(shù)據(jù)與該審計數(shù)據(jù)進行分離處理后,按上報日期來對該日常數(shù)據(jù)與該審計數(shù)據(jù)進行分區(qū)存放,審計數(shù)據(jù)存放模塊330包括存放處理單元331以及定時統(tǒng)計單元332。具體地,首先,存放處理單元331在數(shù)據(jù)采集服務(wù)器端上通過flume系統(tǒng)(flume是cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,flume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力)對該日常數(shù)據(jù)與該審計數(shù)據(jù)進行分離處理后,按上報日期來將該日常數(shù)據(jù)與該審計數(shù)據(jù)存入hdfs系統(tǒng)(即hadoop分布式文件系統(tǒng),其被設(shè)計成適合運行在通用硬件(commodityhardware)上的分布式文件系統(tǒng),它是一個高度容錯性的系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用,且可以實現(xiàn)流的形式訪問(streamingaccess)文件系統(tǒng)中的數(shù)據(jù))對應(yīng)的分區(qū)中。其次,定時統(tǒng)計單元332可設(shè)定每日統(tǒng)計任務(wù),將hdfs系統(tǒng)中存入的審計數(shù)據(jù)按上報日期導(dǎo)入hive表(hive是建立在hadoop上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架,它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉(zhuǎn)化加載(etl),這是一種可以存儲、查詢和分析存儲在hadoop中的大規(guī)模數(shù)據(jù)的機制。hive定義了簡單的類sql查詢語言,稱為hql,它允許熟悉sql的用戶查詢數(shù)據(jù)。同時,這個語言也允許熟悉mapreduce開發(fā)者的開發(fā)自定義的mapper和reducer來處理內(nèi)建的mapper和reducer無法完成的復(fù)雜的分析工作。hive沒有專門的數(shù)據(jù)格式,hive可以很好的工作在thrift之上,控制分隔符,也允許用戶指定數(shù)據(jù)格式。)對應(yīng)的分區(qū)中,以得到相應(yīng)的審計統(tǒng)計日表,通過該審計統(tǒng)計日表,可快速查詢到客戶端上報過來的每日的總的審計數(shù)據(jù)。原始審計數(shù)據(jù)比對模塊340主要用于在數(shù)據(jù)采集服務(wù)器端上設(shè)定每日比對任務(wù),以比對前一天中客戶端上報過來的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警。具體地,可通過審計統(tǒng)計日表,快速查詢到客戶端上報過來的前一天的總的審計數(shù)據(jù),原始審計數(shù)據(jù)比對模塊340在數(shù)據(jù)采集服務(wù)器端上進行每日定時比對時,以比對前一天中該審計統(tǒng)計日表的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警。由于數(shù)據(jù)采集服務(wù)器端本身亦會對客戶端的用戶行為進行統(tǒng)計,即在客戶端上每次產(chǎn)生系統(tǒng)預(yù)設(shè)事件、自定義事件時,數(shù)據(jù)采集服務(wù)器端會根據(jù)反饋回來的數(shù)據(jù)進行同步統(tǒng)計,亦即數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù),該實際統(tǒng)計數(shù)據(jù)經(jīng)常會因為網(wǎng)絡(luò)、采集數(shù)據(jù)時間超時、軟件本身的bug等原因造成數(shù)據(jù)的丟失,因而,若原始審計數(shù)據(jù)比對模塊340在比對前一天中該審計統(tǒng)計日表的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性過程中,發(fā)現(xiàn)兩者不一致時,即說明客戶端可能出現(xiàn)數(shù)據(jù)丟失的問題,或客戶端出現(xiàn)自身sdk設(shè)計上的缺陷,此時,通過預(yù)警可及時發(fā)現(xiàn)客戶端是否出現(xiàn)數(shù)據(jù)丟失的問題,使得后續(xù)可根據(jù)預(yù)警進行相關(guān)的數(shù)據(jù)修復(fù),同時幫助客戶端發(fā)現(xiàn)自身sdk設(shè)計上的缺陷,以便開發(fā)者及時作出相應(yīng)維護。例如要審計應(yīng)用商店2017年2月14日的session數(shù)據(jù)條數(shù)時,可用selectcount(audit_session)fromauditwhereappid=’appid’andds=’2017-02-14’(暫不考慮去重),與selectcount(1)fromevents2whereappid=’appid’andds=’2017-02-14’andxwhat=’session’進行對比。若比對結(jié)果不一致時,即可進行預(yù)警。清洗后審計數(shù)據(jù)比對模塊350主要用于分別對前一天中客戶端上報過來的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)進行去重計算后,再對兩者進行一致性比對,并在比對結(jié)果不一致時作出預(yù)警。具體地,可通過清洗后審計數(shù)據(jù)比對模塊350進一步對前一天中客戶端上報過來的審計數(shù)據(jù)與服務(wù)器端實際統(tǒng)計數(shù)據(jù)進行去重計算后,再對兩者進行一致性比對,并在比對結(jié)果不一致時作出預(yù)警。例如要審計應(yīng)用商店2017年2月14日的活躍用戶數(shù)據(jù)時,可針對應(yīng)用商店當(dāng)天的審計數(shù)據(jù),按用戶去重后,計算session的個數(shù)(一個用戶只算一次session),與統(tǒng)計后臺的數(shù)據(jù)對比。若比對結(jié)果不一致時,即可進行預(yù)警。本發(fā)明第三實施例還提出一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)存儲有一個或者多個程序,該一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)以下如圖3所示的具體步驟:步驟s1:采集審計數(shù)據(jù):在客戶端上對每一事件的產(chǎn)生次數(shù)進行每日數(shù)據(jù)審計統(tǒng)計,以獲得相應(yīng)的審計數(shù)據(jù),并進行本地存儲。具體地,在客戶端上每次產(chǎn)生系統(tǒng)預(yù)設(shè)事件、自定義事件時,按照事件名稱分別統(tǒng)計每一事件的發(fā)生次數(shù),然后將統(tǒng)計結(jié)果寫入對應(yīng)日期、對應(yīng)用戶的本地存儲中。系統(tǒng)預(yù)設(shè)事件可包括startup(啟動)、session(會話)、install(插入)等事件,考慮到session這種特殊類型的事件,需要下次啟動才能生成,事件未定(可能不是當(dāng)天),針對這種類型的數(shù)據(jù),就需要重新上報審計數(shù)據(jù),以更新該事件發(fā)生當(dāng)日的歷史審計數(shù)據(jù)。自定義事件為每一軟件客戶端為進行相關(guān)數(shù)據(jù)統(tǒng)計而進行新定義的事件,如音樂播放器的點歌行為、地圖軟件的地址搜索等事件。步驟s2:上報審計數(shù)據(jù):基于客戶端現(xiàn)有日常數(shù)據(jù)的上報策略,將該審計數(shù)據(jù)隨同客戶端的日常數(shù)據(jù)一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端。具體地,由于客戶端原先便有相應(yīng)的上報策略(如實時、定時間隔、批量等策略),以便客戶端將其產(chǎn)生的日常數(shù)據(jù)上報給數(shù)據(jù)采集服務(wù)器端。而審計數(shù)據(jù)的上報,考慮到客戶端流量、性能問題,因此不能頻繁地進行發(fā)送數(shù)據(jù),因而,可利用客戶端原先的上報策略,將該審計數(shù)據(jù)隨同客戶端的日常數(shù)據(jù)一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端。一般而言,審計的過程數(shù)據(jù)大致為一天4~5次,用戶使用移動終端的極致時間為12~15小時,因此定位間隔3小時進行審計數(shù)據(jù)合并,每天分將4~5次,將合并后的審計數(shù)據(jù)以及客戶端的日常數(shù)據(jù),一并打包發(fā)送到數(shù)據(jù)采集服務(wù)器端。步驟s3:存放審計數(shù)據(jù):在數(shù)據(jù)采集服務(wù)器端上對該日常數(shù)據(jù)與該審計數(shù)據(jù)進行分離處理后,按上報日期來對該日常數(shù)據(jù)與該審計數(shù)據(jù)進行分區(qū)存放。具體地,在進行存放審計數(shù)據(jù)的步驟時:首先,在數(shù)據(jù)采集服務(wù)器端上通過flume系統(tǒng)(flume是cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,flume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力)對該日常數(shù)據(jù)與該審計數(shù)據(jù)進行分離處理后,按上報日期來將該日常數(shù)據(jù)與該審計數(shù)據(jù)存入hdfs系統(tǒng)(即hadoop分布式文件系統(tǒng),其被設(shè)計成適合運行在通用硬件(commodityhardware)上的分布式文件系統(tǒng),它是一個高度容錯性的系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用,且可以實現(xiàn)流的形式訪問(streamingaccess)文件系統(tǒng)中的數(shù)據(jù))對應(yīng)的分區(qū)中。其次,可設(shè)定每日統(tǒng)計任務(wù),將hdfs系統(tǒng)中存入的審計數(shù)據(jù)按上報日期導(dǎo)入hive表(hive是建立在hadoop上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架,它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉(zhuǎn)化加載(etl),這是一種可以存儲、查詢和分析存儲在hadoop中的大規(guī)模數(shù)據(jù)的機制。hive定義了簡單的類sql查詢語言,稱為hql,它允許熟悉sql的用戶查詢數(shù)據(jù)。同時,這個語言也允許熟悉mapreduce開發(fā)者的開發(fā)自定義的mapper和reducer來處理內(nèi)建的mapper和reducer無法完成的復(fù)雜的分析工作。hive沒有專門的數(shù)據(jù)格式,hive可以很好的工作在thrift之上,控制分隔符,也允許用戶指定數(shù)據(jù)格式。)對應(yīng)的分區(qū)中,以得到相應(yīng)的審計統(tǒng)計日表,通過該審計統(tǒng)計日表,可快速查詢到客戶端上報過來的每日的總的審計數(shù)據(jù)。步驟s4:比對原始審計數(shù)據(jù):在數(shù)據(jù)采集服務(wù)器端上設(shè)定每日比對任務(wù),以比對前一天中客戶端上報過來的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警。具體地,可通過審計統(tǒng)計日表,快速查詢到客戶端上報過來的前一天的總的審計數(shù)據(jù)。在數(shù)據(jù)采集服務(wù)器端上進行每日定時比對時,以比對前一天中該審計統(tǒng)計日表的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警。由于數(shù)據(jù)采集服務(wù)器端本身亦會對客戶端的用戶行為進行統(tǒng)計,即在客戶端上每次產(chǎn)生系統(tǒng)預(yù)設(shè)事件、自定義事件時,數(shù)據(jù)采集服務(wù)器端會根據(jù)反饋回來的數(shù)據(jù)進行同步統(tǒng)計,亦即數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù),該實際統(tǒng)計數(shù)據(jù)經(jīng)常會因為網(wǎng)絡(luò)、采集數(shù)據(jù)時間超時、軟件本身的bug等原因造成數(shù)據(jù)的丟失,因而,若在比對前一天中該審計統(tǒng)計日表的審計數(shù)據(jù)與數(shù)據(jù)采集服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性過程中,發(fā)現(xiàn)兩者不一致時,即說明客戶端可能出現(xiàn)數(shù)據(jù)丟失的問題,或客戶端出現(xiàn)自身sdk設(shè)計上的缺陷,此時,通過預(yù)警可及時發(fā)現(xiàn)客戶端是否出現(xiàn)數(shù)據(jù)丟失的問題,使得后續(xù)可根據(jù)預(yù)警進行相關(guān)的數(shù)據(jù)修復(fù),同時幫助客戶端發(fā)現(xiàn)自身sdk設(shè)計上的缺陷,以便開發(fā)者及時作出相應(yīng)維護。例如要審計應(yīng)用商店2017年2月14日的session數(shù)據(jù)條數(shù)時,可用selectcount(audit_session)fromauditwhereappid=’appid’andds=’2017-02-14’(暫不考慮去重),與selectcount(1)fromevents2whereappid=’appid’andds=’2017-02-14’andxwhat=’session’進行對比。若比對結(jié)果不一致時,即可進行預(yù)警。步驟s5:比對清洗后審計數(shù)據(jù):分別對前一天中客戶端上報過來的審計數(shù)據(jù)與服務(wù)器端實際統(tǒng)計數(shù)據(jù)進行去重計算后,再對兩者進行一致性比對,并在比對結(jié)果不一致時作出預(yù)警。具體地,可進一步對前一天中客戶端上報過來的審計數(shù)據(jù)與服務(wù)器端實際統(tǒng)計數(shù)據(jù)進行去重計算后,再對兩者進行一致性比對,并在比對結(jié)果不一致時作出預(yù)警。例如要審計應(yīng)用商店2017年2月14日的活躍用戶數(shù)據(jù)時,可針對應(yīng)用商店當(dāng)天的審計數(shù)據(jù),按用戶去重后,計算session的個數(shù)(一個用戶只算一次session),與統(tǒng)計后臺的數(shù)據(jù)對比。若比對結(jié)果不一致時,即可進行預(yù)警。本發(fā)明提出的一種數(shù)據(jù)采集審計的方法及系統(tǒng)、計算機可讀存儲介質(zhì),其通過在客戶端增加采集審計數(shù)據(jù)機制,以在客戶端上對每一事件的產(chǎn)生次數(shù)進行每日數(shù)據(jù)審計統(tǒng)計來獲得相應(yīng)的審計數(shù)據(jù),然后通過在數(shù)據(jù)采集服務(wù)器端上設(shè)定每日比對任務(wù),以比對前一天中客戶端上報過來的審計數(shù)據(jù)與服務(wù)器端實際統(tǒng)計數(shù)據(jù)之間的一致性,并在比對結(jié)果不一致時作出預(yù)警,以便及時發(fā)現(xiàn)客戶端是否出現(xiàn)數(shù)據(jù)丟失的問題,使得后續(xù)可根據(jù)預(yù)警進行相關(guān)的數(shù)據(jù)修復(fù),同時幫助客戶端發(fā)現(xiàn)自身sdk設(shè)計上的缺陷,以便開發(fā)者及時作出相應(yīng)維護。需要說明的是,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機,計算機,服務(wù)器,空調(diào)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。以上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的
技術(shù)領(lǐng)域:
:,均同理包括在本發(fā)明的專利保護范圍內(nèi)。當(dāng)前第1頁12當(dāng)前第1頁12