專利名稱::一種可用于iptv全數(shù)據(jù)分析的系統(tǒng)架構(gòu)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及通訊,互聯(lián)網(wǎng)和電視領(lǐng)域,尤其涉及IP網(wǎng)絡(luò)電視上的全數(shù)據(jù)分析的系統(tǒng)架構(gòu)的設(shè)計(jì)方案。
背景技術(shù):
:IPTV作為近幾年全球迅猛發(fā)展的一種新興業(yè)務(wù),其集IP和TV技術(shù)的大成于一身,不僅為電視業(yè)務(wù)重新詮釋了內(nèi)涵,而且為IP技術(shù)的發(fā)展重新找到了基于應(yīng)用的原動(dòng)力。與傳統(tǒng)的通過無線或同軸電纜播出電視節(jié)目不同,IPTV系統(tǒng)通過寬帶IP網(wǎng)絡(luò)直接向顧客提供高質(zhì)量的電視節(jié)目和視頻內(nèi)容,其本質(zhì)是一個(gè)多媒體,多業(yè)務(wù)的服務(wù)平臺,它融合了傳統(tǒng)的廣播電視業(yè)務(wù),互聯(lián)網(wǎng)上的各種應(yīng)用,以及新興的通信業(yè)務(wù),為用戶提供直播電視,時(shí)移電視,點(diǎn)播電視,廣播節(jié)目預(yù)訂(PVR),信息瀏覽與査詢,音樂/卡拉0K,互動(dòng)廣告,游戲,通信等多種服務(wù)。通過一個(gè)單一的機(jī)頂盒,將這些業(yè)務(wù)集成在一起,使用戶得到更及時(shí),方便,豐富的體驗(yàn)。IPTV擴(kuò)展了"看電視"的概念,"看電視"己不再是原來意義上被動(dòng)地觀看,觀眾可以互動(dòng)地選擇和控制收視內(nèi)容,享受新的體驗(yàn),得到個(gè)性化的節(jié)目內(nèi)容服務(wù)。由于IPTV平臺上使用了先進(jìn)的IT技術(shù),所以雖然比起傳統(tǒng)電視來說,IPTV有著節(jié)目量大,信息繁多等特點(diǎn),但I(xiàn)PTV系統(tǒng)還是有一套有效的機(jī)制,它能夠有能力記錄下所有用戶的操作行為和點(diǎn)播行為,這對于全面的了解用戶的收視心理和對各類節(jié)目的喜好程度至關(guān)重要,基于這些信息可以清晰的勾繪出一幅用戶對于節(jié)目的收視反饋信息圖,為此,迫切需要提出一種可用于IPTV全數(shù)據(jù)分析的系統(tǒng)架構(gòu)。
發(fā)明內(nèi)容本發(fā)明的目的是提出一種在靈活的商業(yè)模式下的可用于IPTV全數(shù)據(jù)分析的系統(tǒng)架構(gòu)的技術(shù)方案,更準(zhǔn)確、有效地了解用戶對于節(jié)目的收視情況。為了達(dá)到上述目的,本發(fā)明的解決方案是提供一種IPTV全數(shù)據(jù)分析系統(tǒng)架構(gòu),包括用于對IPTV系統(tǒng)內(nèi)全樣本的收集系統(tǒng),對各邊緣節(jié)點(diǎn)用戶信息、用戶點(diǎn)播定購信息、用戶收視信息等各種信息進(jìn)行采集的系統(tǒng),本系統(tǒng)進(jìn)行的分析是在IPTV領(lǐng)域的全樣本數(shù)據(jù)分析;基于集群式分布運(yùn)算的星一棒狀的分析的拓?fù)浣Y(jié)構(gòu);應(yīng)對靈活的商業(yè)合作模式,而產(chǎn)生的靈活可配置的數(shù)據(jù)采集模式;統(tǒng)一的數(shù)據(jù)文件采集接口規(guī)范。所述的用于對IPTV系統(tǒng)內(nèi)收集系統(tǒng)各邊緣節(jié)點(diǎn)用戶信息,用戶點(diǎn)播信息,用戶收視信息等各種信息的采集系統(tǒng),該數(shù)據(jù)采集是針對全樣本進(jìn)行的,突出數(shù)據(jù)的完整性。并最終系統(tǒng)提供關(guān)于全樣本數(shù)據(jù)的查詢。所述的數(shù)據(jù)采集是針對全樣本進(jìn)行的,突出數(shù)據(jù)的完整性,有三方面的含義數(shù)據(jù)的采集是全天候24小時(shí)不間斷的而不只是其中的一部分;數(shù)據(jù)的采集是針對IPTV系統(tǒng)各個(gè)邊緣節(jié)點(diǎn)的,而不只是其中的一部分;數(shù)據(jù)采集的內(nèi)容涉及用戶數(shù)據(jù),節(jié)目數(shù)據(jù),定購數(shù)據(jù)等多方面的,而不只是其中某一方面。所述的IPTV數(shù)據(jù)分析系統(tǒng)的架構(gòu)中,所使用的分布式運(yùn)算的方式和星一棒狀的分析的拓?fù)浣Y(jié)構(gòu)。所使用的分布式計(jì)算和星一棒狀的分析拓?fù)浣Y(jié)構(gòu),這種結(jié)構(gòu)的應(yīng)用所提供的一種低成本,進(jìn)行大運(yùn)算量的解決方案。所述的星一棒狀結(jié)構(gòu),包含星狀結(jié)構(gòu)和棒狀結(jié)構(gòu)兩部分。所述的星狀結(jié)構(gòu),具體的含義和實(shí)現(xiàn)方式是如圖3:中心是中央數(shù)據(jù)采集服務(wù)器,由此發(fā)散出落干條線,每條線上的節(jié)點(diǎn)就是一個(gè)邊緣節(jié)點(diǎn)的數(shù)據(jù)采集系統(tǒng),其中,中央數(shù)據(jù)采集服務(wù)器連接的是邊緣節(jié)點(diǎn)數(shù)據(jù)采集服務(wù)器,邊緣節(jié)點(diǎn)采集服務(wù)器通過規(guī)范統(tǒng)一的數(shù)據(jù)采集接口從數(shù)據(jù)源將各種數(shù)據(jù)(系統(tǒng)各邊緣節(jié)點(diǎn)用戶信息、用戶點(diǎn)播定購信息、用戶收視信息)收集起來,經(jīng)過一定的處理,然后通過FTP方式上傳中央數(shù)據(jù)采集服務(wù)器。星型結(jié)構(gòu)實(shí)際上是反映了數(shù)據(jù)采集過程中,數(shù)據(jù)從地方到中央的流向過程。所述的棒狀結(jié)構(gòu),具體的含義和實(shí)現(xiàn)方式是如圖3:數(shù)據(jù)到了中央數(shù)據(jù)采集服務(wù)器后,經(jīng)過一定的檢査,就交有中央數(shù)據(jù)分析服務(wù)器,進(jìn)行入數(shù)據(jù)庫的工作。之后,進(jìn)行統(tǒng)一的數(shù)據(jù)分析,其中包括用戶信息的跟蹤,節(jié)目收視情況的跟蹤,用戶24小時(shí)特性分析,用戶收視各類節(jié)目比例等io多項(xiàng)數(shù)據(jù)分析工作。各項(xiàng)分析的結(jié)果也記錄在數(shù)據(jù)庫中以備查詢。經(jīng)過了數(shù)據(jù)分析,后面就由數(shù)據(jù)的報(bào)表系統(tǒng)將分析的結(jié)果整合成相應(yīng)的以日,周,月,或指定周期的報(bào)表,并由展示模塊將其呈現(xiàn)出來供數(shù)據(jù)分析人員查詢分析。棒型結(jié)構(gòu)實(shí)際上反映的是在中央服務(wù)器上,數(shù)據(jù)被審查,加工,整合,封裝直到使用的一系列過程。制定的統(tǒng)一的文件釆集接口的規(guī)范以及這套規(guī)范中所涉及的文件內(nèi)容,字段定義和其他格式規(guī)范。所述的IPTV數(shù)據(jù)分析系統(tǒng)的架構(gòu)中,制定的統(tǒng)一的文件采集接口的規(guī)范,包括以下一些內(nèi)容數(shù)據(jù)采集時(shí)間,各邊緣節(jié)點(diǎn)數(shù)據(jù)文件的采集傳輸方式,數(shù)據(jù)采集包含的內(nèi)容以及數(shù)據(jù)采集文件中各字段的定義。所述的IPTV數(shù)據(jù)分析系統(tǒng)關(guān)于數(shù)據(jù)采集的規(guī)范數(shù)據(jù)采集采用非實(shí)時(shí)架構(gòu),每天采集一次,時(shí)間定在凌晨2點(diǎn),采集前一天OO:00:00到23:59:59這個(gè)時(shí)間段里的數(shù)據(jù)。所述的IPTV數(shù)據(jù)分析系統(tǒng)關(guān)于各邊緣節(jié)點(diǎn)數(shù)據(jù)文件的采集傳輸方式的規(guī)范各邊緣節(jié)點(diǎn)的數(shù)據(jù)分析服務(wù)器每天應(yīng)在指定的文件夾里通過FTP方式收到一個(gè)名為系統(tǒng)運(yùn)營平臺名—yyyymmdd.zip的文件,其中包含的是前一天的數(shù)據(jù)。(這里,文件名是指前一天的日期)所述的IPTV數(shù)據(jù)分析系統(tǒng)關(guān)于數(shù)據(jù)采集包含的內(nèi)容的規(guī)范在yyyymmdd.zip文件中,解壓縮后應(yīng)該包含了4個(gè)文件,分別是用戶收視數(shù)據(jù)文件,節(jié)目單數(shù)據(jù)文件,用戶數(shù)據(jù)文件,用戶定購數(shù)據(jù)文件。所述的IPTV數(shù)據(jù)分析系統(tǒng)關(guān)于用戶收視數(shù)據(jù)文件內(nèi)容及各字段的定義規(guī)范e)文件名稱系統(tǒng)運(yùn)營平臺名—contentviewlog—yyyymmdd.txt9f)數(shù)據(jù)說明包含用戶在前一天的收視數(shù)據(jù)g)數(shù)據(jù)字段分隔符"I"h)格式定義<table>tableseeoriginaldocumentpage10</column></row><table>Reserved3保留字段3String40例如07540467506,20070525034050,20070525035034,1,umai:vod/50970000@shanghai.smg,,紅表示用戶07540467506在2007年5月25日03:40:50到2007年5月25日03:50:34這段時(shí)間內(nèi)收看了Vod類型的節(jié)目,節(jié)目code是umai:vod/50970000@shanghai.smg節(jié)目名是紅蜘蛛所述的IPTV數(shù)據(jù)分析系統(tǒng)關(guān)于節(jié)目單數(shù)據(jù)文件內(nèi)容及各字段的定義規(guī)范e)文件名稱系統(tǒng)運(yùn)營平臺名—schedule—yyyymmdd.txf)數(shù)據(jù)說明包含前一天的直播節(jié)目單g)數(shù)據(jù)字段分隔符"I"h)格式定義名稱說明是否必須字段數(shù)據(jù)類型長度(字節(jié))頻道號頻道IDMInt10頻道名頻道名稱MString160欄目名稱欄目名稱MString160StartTime開始時(shí)間,格式是YYYYMMDDHH24MISSMString14EndTime開始時(shí)間,格式是YYYYMMDDHH24MISSMString14MediaCodeSMG統(tǒng)一節(jié)目編號MString128Reservedl保留字段1String40Reserved2保留字段2String40Reserved3保留字段3String40暗例如23,新聞綜合,。s(27),20070114010000,20070114021500,腿i:schedule/509701剛shanghai.smg,,,表示頻道號23(新聞綜合頻道)在2007年1月14日01:00:00到2007年1月14日02:15:00播放了暗算(27)'節(jié)目code為umai:schedule/50970110@shanghai.smg所述的IPTV數(shù)據(jù)分析系統(tǒng)關(guān)于用戶數(shù)據(jù)文件內(nèi)容及各字段的定義規(guī)范i)文件名稱系統(tǒng)運(yùn)營平臺名一userinfo—yyyy誦dd.txtj)數(shù)據(jù)說明包含前一天用戶的變更信息,其中這個(gè)數(shù)據(jù)第一次需要提供全量的信息,即發(fā)送到當(dāng)日前一天為止的所有用戶的信息。以后每天只需提供前一天用戶的增量信息k)數(shù)據(jù)字段分隔符"i"1)格式定義名稱說明是否必須字段數(shù)據(jù)類型長度(字節(jié))UserID用戶IDMString32UserGroup用戶組id,多個(gè)組之間通過逗號來分隔0:測試用戶1:普通用戶2:集團(tuán)用戶可擴(kuò)展MInt8BusinessGroup業(yè)務(wù)組id,多個(gè)組之間通過逗號來分隔0:公眾用戶1:酒店用戶2:黨建用戶可擴(kuò)展MInt8DateCreated申請創(chuàng)建用戶時(shí)間,格式是YYYYMMDDHH24MISSMString14DateActivated用戶裝機(jī)時(shí)間,格式是YYYY醒DDHH24MISSMString14Datecancelled用戶拆機(jī)時(shí)間,格式是-YYYYMMDDHH24MISSMString14Status狀態(tài)類型0:tobeactive,1:Active,2:owefee3:suspended4:terminated,MInt2Pric印lanid價(jià)格計(jì)劃代號MInt8STBID機(jī)頂盒ID0String128Areacode區(qū)局標(biāo)識0String16EPGgroupEPG分組編號0String32UserName中文名0String100Telephone電話0String100Address家庭住址0String200Postcode郵編0String20EmailEmail地址0String20012<table>tableseeoriginaldocumentpage13</column></row><table>ProductCodeProductType=1,貝'J為Progr孤Code;ProductType=2貝ij為PackageCode;ProductType=3則為ProductCode;MString128Price購買價(jià)格精確到分MInt10Reservedl保留字段1String40Keserved2保留字段2String40Reserved3保留字段3String40例如07540467506,20070525034050,20070525034050,20070625034050,1,紅鞋子,1,umai:vod/50970000@shanghai.smg,100,,,表示用戶07540467506在2007年5月25R03:40:50定購了名為紅鞋子,code為umai:vod/50970000fehanghai.smg的vod節(jié)目,定購費(fèi)用為1元(100分)生效時(shí)間為2007年5月25日03:40:50到2007年6月25日03:40:50IPTV用戶收視全樣本分析是對于所有的電視機(jī)用戶的收視行為的全面的記錄和分析,它是一個(gè)以IPTV各區(qū)域結(jié)點(diǎn)用戶信息,收視信息,點(diǎn)播信息等為基礎(chǔ),以査詢界面模塊為入口,為節(jié)目的質(zhì)量評估和用戶行為為分析對象,面向節(jié)目引進(jìn)和用戶服務(wù)為目的一套統(tǒng)一的系統(tǒng)平臺。由丁采用了上述方案,本發(fā)明可以進(jìn)行全樣本分析,這種全樣本分析的成果可以成為節(jié)H部的節(jié)目安排和市場部的市場推廣的依據(jù),在實(shí)際的操作過程中,全樣本的分析正顯示出它不能取代的的指導(dǎo)意義,甚至將成為IPTV戰(zhàn)略決策的重要依據(jù)之一。同時(shí),全樣本的收視分析可以捕捉每一個(gè)用戶每一時(shí)段的收視行為,從而可以判斷某一時(shí)段電視機(jī)背后的媒體受眾是哪一類人,跟蹤用戶的個(gè)人喜好,繼而進(jìn)行個(gè)性化的推薦服務(wù),甚至實(shí)現(xiàn)廣告的定點(diǎn)投放,這樣可以根本克服傳統(tǒng)廣告使用廣而告知的宣傳模式所造成的針對性不強(qiáng),效率不卨的弱點(diǎn),做到有的放矢,既可以有效的投放讓用戶感興趣的廣告,又盡量少的打擾對此沒有興趣的用戶,對于用戶,這是一種嶄新的收視體驗(yàn)。圖l是IPTV數(shù)據(jù)采集系統(tǒng)結(jié)構(gòu)圖。圖2是IPTV各類型邊緣節(jié)點(diǎn)數(shù)據(jù)格式的統(tǒng)一以及統(tǒng)一化模塊示意圖。圖3是IPTV數(shù)據(jù)采集分析星一棒狀結(jié)構(gòu)圖。具體實(shí)施例方式以下結(jié)合附圖所示實(shí)施例對本發(fā)明作進(jìn)一步的說明。1.靈活可配置的數(shù)據(jù)采集模式。首先應(yīng)該介紹一下,目甜的IPTV運(yùn)營模式非常靈活,承載原始數(shù)據(jù)的各類型邊緣節(jié)點(diǎn)數(shù)據(jù)源(即rawdatasource),可能來自于IPTV系統(tǒng)各個(gè)數(shù)據(jù)的產(chǎn)生,接受,轉(zhuǎn)發(fā)處,數(shù)據(jù)的詳細(xì)類型和格式視各數(shù)據(jù)邊緣節(jié)點(diǎn)的商業(yè)情況和生產(chǎn)條件而定。14基于這個(gè)原因,所以在數(shù)據(jù)采集分析的第一步就是必須在數(shù)據(jù)源多元化的情況下,通過技術(shù)力量,創(chuàng)造出一種靈活可配置的數(shù)據(jù)采集模式,產(chǎn)生一個(gè)數(shù)據(jù)統(tǒng)一模塊,使得數(shù)據(jù)通過這個(gè)模塊的時(shí)候有統(tǒng)一標(biāo)準(zhǔn)的格式。如圖1中所示,我們在每個(gè)提供IPTV服務(wù)的邊緣節(jié)點(diǎn)都部署了邊緣節(jié)點(diǎn)數(shù)據(jù)釆集服務(wù)器,它們的工作是完成對各種不同類型的邊緣節(jié)點(diǎn)的數(shù)據(jù)以及其他來源的數(shù)據(jù)的整合工作,并進(jìn)行一定的預(yù)處理工作,最后上傳中央數(shù)據(jù)采集服務(wù)器。從本質(zhì)上,通過這個(gè)模塊消除各邊緣節(jié)點(diǎn)數(shù)據(jù)源差異的問題,從而達(dá)到統(tǒng)一數(shù)據(jù)采集的目的。數(shù)據(jù)在經(jīng)過邊緣節(jié)點(diǎn)數(shù)據(jù)采集服務(wù)器這一層之后(也就是圖l左側(cè)部分),系統(tǒng)各邊緣節(jié)點(diǎn)的數(shù)據(jù)應(yīng)該是一致的。為了能夠達(dá)到數(shù)據(jù)采集的目的,與邊緣節(jié)點(diǎn)數(shù)據(jù)采集服務(wù)器的下行接口可能是多種的,如圖l,(視系統(tǒng)各邊緣節(jié)點(diǎn)情況不同而不同),歸納起來就是邊緣節(jié)點(diǎn)數(shù)據(jù)采集服務(wù)器將與邊緣節(jié)點(diǎn)數(shù)據(jù)源進(jìn)行對接,從數(shù)據(jù)源獲得系統(tǒng)各邊緣節(jié)點(diǎn)用戶信息、用戶點(diǎn)播定購信息、用戶收視信息,從而才能完成數(shù)據(jù)采集的工作。在這個(gè)過程中,IPTV數(shù)據(jù)采集接口規(guī)范起著統(tǒng)一格式的作用,通過這個(gè)規(guī)范我們消除了由于上游平臺數(shù)據(jù)源不同而產(chǎn)生的差異。2.統(tǒng)一的數(shù)據(jù)文件采集接口規(guī)范數(shù)據(jù)采集過程中,為了提高數(shù)據(jù)采集的效率和盡量降低數(shù)據(jù)采集中出現(xiàn)的錯(cuò)誤或者遺漏,必須對數(shù)據(jù)采集的格式加以規(guī)范。(如圖2是IPTV各類型邊緣節(jié)點(diǎn)數(shù)據(jù)格式的統(tǒng)一以及統(tǒng)一化模塊示意圖)由于無論數(shù)據(jù)源接口是哪一個(gè),可以肯定的是,數(shù)據(jù)的最終生產(chǎn)者就是各類IPTV系統(tǒng)運(yùn)營平臺,所以,我們的數(shù)據(jù)統(tǒng)一工作實(shí)際上就是對各類IPTV系統(tǒng)運(yùn)營平臺的數(shù)據(jù)生產(chǎn)的規(guī)范。具體規(guī)范摘要如下基本接口內(nèi)容*數(shù)據(jù)采集采用非實(shí)時(shí)架構(gòu),每天采集一次,時(shí)間定在凌晨2點(diǎn),采集前一天00:00:00到23:59:59這個(gè)時(shí)間段里的數(shù)據(jù),這樣可以把系統(tǒng)壓力降到最小。*各邊緣節(jié)點(diǎn)的數(shù)據(jù)分析服務(wù)器每天應(yīng)在指定的文件夾里通過FTP方式收到一個(gè)名為系統(tǒng)運(yùn)營平臺名—yyyymmdd.zip的文件,其中包含的是前一天的數(shù)據(jù)。這里,文件名是指前一天的R期*對于這個(gè)yyyy誦dd.zip文件,解壓縮后應(yīng)該包含了如下4個(gè)文件系統(tǒng)運(yùn)營平臺名—contentviewlog一yyyymmdd.txt系統(tǒng)運(yùn)營平臺名—schedulejyyymmdd.txt系統(tǒng)運(yùn)營平臺名—orderlog—yyyymmdd.txt系統(tǒng)運(yùn)營平臺名—userinfo—yyyymmdd.txt以上四個(gè)文件名中的yyyy咖dd的意思與系統(tǒng)運(yùn)營平臺名—yyyymmdd.zip相同,即其中提供的數(shù)據(jù)是數(shù)據(jù)提供日期前一天內(nèi)的相應(yīng)數(shù)據(jù)。例如ZTE—contentviewlog—20071231.txt就是包含了ZTE平臺用戶在2007—12—3100:00:00到2007—12—3123:59:59時(shí)間段內(nèi)的收視數(shù)據(jù)。具體數(shù)據(jù)格式摘要如下系統(tǒng)運(yùn)營平臺名—schedulejyyy隱dd.txt文件的內(nèi)容及字段解釋包含前一天的直播節(jié)目單。具體字段如下15名稱說明是否必須字段數(shù)據(jù)類型長度(字節(jié))頻道號頻道IDMInt10頻道名頻道名稱MString160欄目名稱欄目名稱MString160StartTime開始時(shí)間,格式是YYYYMMDDHH24MISSMString14EndTime開始時(shí)間,格式是YYYYMMDDHH24MISSMString14CodeSMG統(tǒng)一節(jié)目編號MString128Reservedl保留字段1String40Reserved2保留字段2String40Reserved3保留字段3String40例如23,新聞綜合,暗算(27),20070114010000,20070114021500,u腿i:schedule/50970110@shanghai.smg,,,表示頻道號23(新聞綜合頻道)在2007年1月14日01:00:00到2007年1月14口02:15:00播放了暗算(27),節(jié)目code為umai:schedule/50970110@shanghai.smg其他數(shù)據(jù)文件的格式與此大致相同,僅內(nèi)容上有所區(qū)別,因此不一一羅列。3.數(shù)據(jù)采集分析的星一棒狀結(jié)構(gòu)如圖3,我們的整套數(shù)據(jù)采集分析的系統(tǒng)架構(gòu)采用了星—棒狀的結(jié)構(gòu),現(xiàn)在具體介紹如下星型結(jié)構(gòu)部分屮心是中央數(shù)據(jù)采集服務(wù)器,由此發(fā)散出落干條線,每條線上的節(jié)點(diǎn)就是一個(gè)邊緣節(jié)點(diǎn)的數(shù)據(jù)采集系統(tǒng),其中,中央數(shù)據(jù)采集服務(wù)器連接的是邊緣節(jié)點(diǎn)數(shù)據(jù)采集服務(wù)器,邊緣節(jié)點(diǎn)采集服務(wù)器通過規(guī)范統(tǒng)一的數(shù)據(jù)采集接口從數(shù)據(jù)源將各種數(shù)據(jù)(系統(tǒng)各邊緣節(jié)點(diǎn)用戶信息、用戶點(diǎn)播定購信息、用戶收視信息)收集起來,經(jīng)過一定的處理,然后通過FTP方式上傳中央數(shù)據(jù)采集服務(wù)器。星型結(jié)構(gòu)實(shí)際上是反映了數(shù)據(jù)采集過程中,數(shù)據(jù)從地方到中央的流向過程。星型結(jié)構(gòu)消除了上游數(shù)據(jù)源多元的問題,使得靈活的可配置的數(shù)據(jù)采集方式成為了可能。星型結(jié)構(gòu)承擔(dān)了大量的預(yù)處理預(yù)分析的工作,減輕了中央服務(wù)器的運(yùn)算壓力,實(shí)現(xiàn)了分布式運(yùn)算的部署,提高了數(shù)據(jù)采集處理分析的整體效率。星—棒狀結(jié)構(gòu)的應(yīng)用提供了一種低成本,進(jìn)行大運(yùn)算量的解決方案。棒型結(jié)構(gòu)部分?jǐn)?shù)據(jù)到了中央數(shù)據(jù)采集服務(wù)器后,經(jīng)過一定的檢査,就交有中央數(shù)據(jù)分析服務(wù)器,進(jìn)行入數(shù)據(jù)庫的工作。之后,進(jìn)行統(tǒng)一的數(shù)據(jù)分析,其中包括用戶信息的跟蹤,節(jié)目收視情況的跟蹤,用戶24小時(shí)特性分析,用戶收視各類節(jié)目比例等10多項(xiàng)數(shù)據(jù)分析工作。各項(xiàng)分析的結(jié)果也記錄在數(shù)據(jù)庫中以備査詢。經(jīng)過了數(shù)據(jù)分析,后面就由數(shù)據(jù)的報(bào)表系統(tǒng)將分析的結(jié)果整合成相應(yīng)的以日,周,月,或指定周期的報(bào)表,并由展示模塊將其呈現(xiàn)出來供數(shù)據(jù)分析人員查詢分析。棒型結(jié)構(gòu)實(shí)際上反映的是在中央服務(wù)器上,數(shù)據(jù)被審査,加工,整合,封裝直到使用的一系列過程。棒型結(jié)構(gòu)使得數(shù)據(jù)在中央各服務(wù)器間流轉(zhuǎn)加工的工序更加清晰,審核,分析,査詢?nèi)齻€(gè)主要功能從邏輯上的分開到物理實(shí)現(xiàn)上的分開。使得數(shù)據(jù)處理更為有效。上述的對實(shí)施例的描述是為便于該
技術(shù)領(lǐng)域:
的普通技術(shù)人員能理解和應(yīng)用本發(fā)明。熟悉本領(lǐng)域技術(shù)的人員顯然可以容易地對這些實(shí)施例做出各種修改,并把在此說明的一般原理應(yīng)用到其他實(shí)施例中而不必經(jīng)過創(chuàng)造性的勞動(dòng)。因此,本發(fā)明不限于這里的實(shí)施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的揭示,對于本發(fā)明做出的改進(jìn)和修改都應(yīng)該在本發(fā)明的保護(hù)范圍之內(nèi)。1權(quán)利要求1、一種可用于IPTV全數(shù)據(jù)分析的系統(tǒng)架構(gòu),其特征在于包括用于對IPTV系統(tǒng)內(nèi)全樣本的收集系統(tǒng),對各類IPTV收視參數(shù)進(jìn)行采集的系統(tǒng),所述IPTV收視參數(shù)包含各邊緣節(jié)點(diǎn)用戶信息、用戶點(diǎn)播定購信息、用戶收視信息;基于集群式分布運(yùn)算的星一棒狀的分析的拓?fù)浣Y(jié)構(gòu);應(yīng)對靈活的商業(yè)合作模式,而產(chǎn)生的靈活可配置的數(shù)據(jù)采集模式;統(tǒng)一的數(shù)據(jù)文件采集接口規(guī)范。2、如權(quán)利要求l中所述的系統(tǒng)架構(gòu),其特征在于該數(shù)據(jù)采集是針對全樣本進(jìn)行的,突出數(shù)據(jù)的完整性,并最終系統(tǒng)提供關(guān)于全樣本數(shù)據(jù)的査詢。3、如權(quán)利要求2中所述的系統(tǒng)架構(gòu),其特征在于該"數(shù)據(jù)采集是針對全樣本進(jìn)行的,突出數(shù)據(jù)的完整性"是指數(shù)據(jù)的采集是全天候24小時(shí)不間斷的而不只是其中的一部分;數(shù)據(jù)的采集是針對IPTV系統(tǒng)各個(gè)邊緣節(jié)點(diǎn)的,而不只是其中的一部分;數(shù)據(jù)采集的內(nèi)容涉及用戶數(shù)據(jù),節(jié)目數(shù)據(jù),定購數(shù)據(jù)等多方面的,而不只是其中某一方面。4、如權(quán)利要求l中所述的系統(tǒng)架構(gòu),其特征在于該星一棒狀結(jié)構(gòu),包含反映數(shù)據(jù)采集過程中,數(shù)據(jù)從地方到中央的流向過程的星狀結(jié)構(gòu)和反映在中央服務(wù)器上,數(shù)據(jù)被審查,加工,整合,封裝直到使用的一系列過程的棒狀結(jié)構(gòu)兩部分。5、如權(quán)利要求4中所述的系統(tǒng)架構(gòu),其特征在于該星狀結(jié)構(gòu)中心是中央數(shù)據(jù)采集服務(wù)器,由此發(fā)散出落干條線,每條線上的節(jié)點(diǎn)就是一個(gè)邊緣節(jié)點(diǎn)的數(shù)據(jù)采集系統(tǒng),其中,中央數(shù)據(jù)采集服務(wù)器連接的是邊緣節(jié)點(diǎn)數(shù)據(jù)采集服務(wù)器,邊緣節(jié)點(diǎn)采集服務(wù)器通過規(guī)范統(tǒng)一的數(shù)據(jù)采集接口從數(shù)據(jù)源將各種數(shù)據(jù)收集起來,經(jīng)過一定的處理,然后通過FTP方式上傳中央數(shù)據(jù)采集服務(wù)器。6、如權(quán)利要求4中所述的系統(tǒng)架構(gòu),其特征在于該棒狀結(jié)構(gòu)數(shù)據(jù)到了中央數(shù)據(jù)采集服務(wù)器后,經(jīng)過一定的檢査,就交由中央數(shù)據(jù)分析服務(wù)器,進(jìn)行入數(shù)據(jù)庫的工作;之后,進(jìn)行統(tǒng)一的數(shù)據(jù)分析,收集各類IPTV收視參數(shù)進(jìn)行分析工作,所述IPTV收視參數(shù)包括用戶信息的跟蹤、節(jié)目收視情況的跟蹤、用戶24小時(shí)特性分析、用戶收視各類節(jié)目比例多項(xiàng)數(shù)據(jù);各項(xiàng)分析的結(jié)果也記錄在數(shù)據(jù)庫中以備査詢;經(jīng)過了數(shù)據(jù)分析,后面就由數(shù)據(jù)的報(bào)表系統(tǒng)將分析的結(jié)果整合成相應(yīng)的以日、周、月或指定周期的報(bào)表,并由展示模塊將其呈現(xiàn)出來供數(shù)據(jù)分析人員查詢分析。7、如權(quán)利要求l中所述的系統(tǒng)架構(gòu),其特征在于制定的統(tǒng)一的文件采集接口的規(guī)范以及這套規(guī)范中所涉及的文件內(nèi)容、字段定義和其他格式規(guī)范。8、如權(quán)利要求7中所述的系統(tǒng)架構(gòu),其特征在于制定的統(tǒng)一的文件采集接口的規(guī)范,包括以下內(nèi)容數(shù)據(jù)采集時(shí)間;各邊緣節(jié)點(diǎn)數(shù)據(jù)文件的采集傳輸方式;數(shù)據(jù)采集包含的內(nèi)容以及數(shù)據(jù)采集文件中各字段的定義。9、如權(quán)利要求8中所述的系統(tǒng)架構(gòu),其特征在于關(guān)于數(shù)據(jù)釆集的規(guī)范數(shù)據(jù)釆集采用非實(shí)時(shí)架構(gòu),每天釆集一次,時(shí)間定在凌晨2點(diǎn),采集前一天00:00:00到23:59:59這個(gè)時(shí)間段里的數(shù)據(jù)。10、如權(quán)利要求8中所述的系統(tǒng)架構(gòu),其特征在于關(guān)于各邊緣節(jié)點(diǎn)數(shù)據(jù)文件的采集傳輸方式的規(guī)范各邊緣節(jié)點(diǎn)的數(shù)據(jù)分析服務(wù)器每天應(yīng)在指定的文件夾里通過FTP方式收到一個(gè)名為系統(tǒng)運(yùn)營平臺名—yyyymmdd.zip的文件,其中包含的是前一天的數(shù)據(jù)。11、如權(quán)利耍求8中所述的系統(tǒng)架構(gòu),其特征在于關(guān)于數(shù)據(jù)采集包含的內(nèi)容的規(guī)范在yyyymmdd.zip文件中,解壓縮后應(yīng)該包含了4個(gè)文件,分別是用戶收視數(shù)據(jù)文件,節(jié)目單數(shù)據(jù)文件,用戶數(shù)據(jù)文件,用戶定購數(shù)據(jù)文件。12、如權(quán)利要求ll中所述的系統(tǒng)架構(gòu),其特征在于關(guān)于用戶收視數(shù)據(jù)文件內(nèi)容及各字段的定義規(guī)范a)文件名稱系統(tǒng)運(yùn)營平臺名—contentviewlog—yyyymmdd.txtb)數(shù)據(jù)說明包含用戶在前一天的收視數(shù)據(jù)c)數(shù)據(jù)字段分隔符"i"d)格式定義<table>tableseeoriginaldocumentpage3</column></row><table><table>tableseeoriginaldocumentpage4</column></row><table>13、如權(quán)利要求11中所述的系統(tǒng)架構(gòu),其特征在于關(guān)于節(jié)目單數(shù)據(jù)文件內(nèi)容及各字段的定義規(guī)范a)文件名稱系統(tǒng)運(yùn)營平臺名一schedule—yyyy誦dd.txb)數(shù)據(jù)說明包含前一天的直播節(jié)目單c)數(shù)據(jù)字段分隔符"I"d)格式定義<table>tableseeoriginaldocumentpage4</column></row><table><table>tableseeoriginaldocumentpage5</column></row><table>14、如權(quán)利要求11中所述的系統(tǒng)架構(gòu),其特征在于關(guān)于用戶數(shù)據(jù)文件內(nèi)容及各字段的定義規(guī)范文件名稱系統(tǒng)運(yùn)營平臺名一userinfo一yyyymmdd.txt數(shù)據(jù)說明包含前一天用戶的變更信息,其中這個(gè)數(shù)據(jù)第一次需要提供全量的信息,即發(fā)送到當(dāng)日前一天為止的所有用戶的信息。以后每天只需提供前一天用戶的增量信息數(shù)據(jù)字段分隔符"I"格式定義<table>tableseeoriginaldocumentpage5</column></row><table><table>tableseeoriginaldocumentpage6</column></row><table>15、如權(quán)利要求11中所述的系統(tǒng)架構(gòu),其特征在于關(guān)于用戶定購數(shù)據(jù)文件內(nèi)容及各字段的定義規(guī)范文件名稱系統(tǒng)運(yùn)營平臺名—orderlog—yyyyramdd.tx數(shù)據(jù)說明包含用戶在前一天的PPV點(diǎn)播或者服務(wù)包在線訂購記錄數(shù)據(jù)字段分隔符"I"格式定義<table>tableseeoriginaldocumentpage6</column></row><table><table>tableseeoriginaldocumentpage7</column></row><table>全文摘要一種可用于IPTV全數(shù)據(jù)分析的系統(tǒng)架構(gòu),包括用于對IPTV系統(tǒng)內(nèi)全樣本的收集各類IPTV收視參數(shù)(包含系統(tǒng)各邊緣節(jié)點(diǎn)用戶信息、用戶點(diǎn)播定購信息、用戶收視信息等各種信息)進(jìn)行采集的系統(tǒng);基于集群式分布運(yùn)算的星-棒狀的分析的拓?fù)浣Y(jié)構(gòu);應(yīng)對靈活的商業(yè)合作模式,而產(chǎn)生的靈活可配置的數(shù)據(jù)采集模式;統(tǒng)一的數(shù)據(jù)文件采集接口規(guī)范。本發(fā)明全樣本分析的成果可以成為節(jié)目部的節(jié)目安排和市場部的市場推廣的依據(jù),同時(shí),根本克服傳統(tǒng)廣告使用廣而告知的宣傳模式所造成的針對性不強(qiáng),效率不高的弱點(diǎn),做到有的放矢,既可以有效的投放讓用戶感興趣的廣告,又盡量少的打擾對此沒有興趣的用戶;對于用戶,這是一種嶄新的收視體驗(yàn)。文檔編號H04N7/16GK101478663SQ20081004222公開日2009年7月8日申請日期2008年8月29日優(yōu)先權(quán)日2008年8月29日發(fā)明者周少毅,胡超曄申請人:百視通網(wǎng)絡(luò)電視技術(shù)發(fā)展有限責(zé)任公司