一種對(duì)ccdn提供商信息進(jìn)行采集及統(tǒng)計(jì)的方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種對(duì)CCDN提供商信息進(jìn)行采集及統(tǒng)計(jì)的方法,該方法通過(guò)部署在各地的主動(dòng)測(cè)量節(jié)點(diǎn),運(yùn)用所設(shè)計(jì)的爬蟲(chóng)工具,對(duì)大量的網(wǎng)站網(wǎng)頁(yè)進(jìn)行爬取,收集網(wǎng)頁(yè)鏈接及鏈接對(duì)應(yīng)的內(nèi)容信息,并運(yùn)用域名解析工具對(duì)鏈接中提取出的域名進(jìn)行分布式的DNS解析,以獲取域名所對(duì)應(yīng)的CNAME;然后,運(yùn)用CDN解析工具對(duì)域名對(duì)應(yīng)的CNAME進(jìn)行CDN解析,以獲取CCDN所服務(wù)的域名數(shù)量、使用的IP數(shù)量等信息。在這些信息的基礎(chǔ)上,對(duì)CCDN的市場(chǎng)現(xiàn)狀、基礎(chǔ)設(shè)施部署狀況和QoS進(jìn)行深入地統(tǒng)計(jì)分析,從而對(duì)CCDN進(jìn)行全面的評(píng)估,更好地理解CDN市場(chǎng)的現(xiàn)狀和發(fā)展趨勢(shì)。
【專(zhuān)利說(shuō)明】一種對(duì)CCDN提供商信息進(jìn)行采集及統(tǒng)計(jì)的方法
[0001]
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及通信領(lǐng)域,特別涉及一種對(duì)CCDN提供商信息進(jìn)行采集及統(tǒng)計(jì)的方法?!颈尘凹夹g(shù)】
[0003]Q)N(Content Delivery Network,內(nèi)容分發(fā)網(wǎng)絡(luò)),是構(gòu)建在現(xiàn)有物理網(wǎng)絡(luò)上的一種覆蓋網(wǎng)絡(luò)。CDN將內(nèi)容分發(fā)存儲(chǔ)到網(wǎng)絡(luò)邊緣,通過(guò)網(wǎng)絡(luò)的動(dòng)態(tài)內(nèi)容分配和全局負(fù)載均衡,將用戶(hù)請(qǐng)求自動(dòng)指向到健康可用并且距離用戶(hù)最近的緩存服務(wù)器上,有效提高用戶(hù)訪問(wèn)的響應(yīng)速度和服務(wù)的可用性,從技術(shù)上全面解決由于網(wǎng)絡(luò)帶寬小、用戶(hù)訪問(wèn)量大、網(wǎng)點(diǎn)分布不均等原因而造成的應(yīng)用服務(wù)質(zhì)量差的問(wèn)題。CDN的業(yè)務(wù)通常有:門(mén)戶(hù)網(wǎng)站的圖文分發(fā);音視頻媒體網(wǎng)站、視頻直播或點(diǎn)播網(wǎng)站的流媒體分發(fā),在線軟件更新等。由于⑶N近年來(lái)的快速發(fā)展,所以,從市場(chǎng)的份額、基礎(chǔ)設(shè)施部署、實(shí)現(xiàn)技術(shù)、服務(wù)器性能、發(fā)展趨勢(shì)等方面徹底了解Q)N行業(yè),能夠很好地指導(dǎo)ICP (Internet Content Provider網(wǎng)絡(luò)內(nèi)容服務(wù)商)選擇合適的⑶N,并能夠促進(jìn)⑶N的產(chǎn)業(yè)的優(yōu)化發(fā)展。
[0004]CCDN (Commercial Content Delivery Network,商業(yè)的內(nèi)容分發(fā)網(wǎng)絡(luò))提供商在市場(chǎng)份額大小、基礎(chǔ)設(shè)施部署、技術(shù)實(shí)現(xiàn)、資源管理等方面都有著顯著的不同。ICP為了提高自身網(wǎng)站的用戶(hù)體驗(yàn),也加大了使用CCDN的力度。根據(jù)我們統(tǒng)計(jì)發(fā)現(xiàn),2013年ICP使用CXDN的家數(shù)比2011年增長(zhǎng)了近20%。越來(lái)越多的大型互聯(lián)網(wǎng)內(nèi)容提供商除了利用(XDN,已經(jīng)開(kāi)始部署自己的P⑶N (Private Content Delivery Network,私人的內(nèi)容分發(fā)網(wǎng)絡(luò)),用于提高網(wǎng)站的用戶(hù)體驗(yàn)。這意味著互聯(lián)網(wǎng)內(nèi)容提供商的CDN的選擇既不是靜態(tài)的,也不是唯一的。雖然互聯(lián)網(wǎng)內(nèi)容 提供商往往讓CCDN提供諸如文本和圖像這樣的靜態(tài)內(nèi)容,但由于不同的ICP的業(yè)務(wù)類(lèi)型的側(cè)重不同,對(duì)于CXDN的選擇也會(huì)有所不同,因此ICP也傾向于使用不同的CDN提供不同類(lèi)型的服務(wù)。在歐美已經(jīng)對(duì)CDN進(jìn)行了大量的測(cè)量和評(píng)估,但是在中國(guó),⑶N行業(yè)對(duì)外界來(lái)說(shuō)仍然是很神秘的。因此,深入地研究中國(guó)⑶N的現(xiàn)狀和發(fā)展趨勢(shì),是一項(xiàng)很有意義的工作。
【發(fā)明內(nèi)容】
[0005]本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種對(duì)CCDN提供商信息進(jìn)行采集及統(tǒng)計(jì)的方法,實(shí)現(xiàn)市場(chǎng)份額、基礎(chǔ)設(shè)施部署和QoS三個(gè)維度信息的統(tǒng)計(jì),使得對(duì)CCDN的評(píng)估更加全面。
[0006]本發(fā)明實(shí)施例中提供的具體技術(shù)方案如下:
一種對(duì)CCDN提供商信息進(jìn)行采集及統(tǒng)計(jì)的方法,其包括以下步驟:
I)在骨干網(wǎng)選取若干測(cè)量節(jié)點(diǎn),利用網(wǎng)絡(luò)爬蟲(chóng)對(duì)目標(biāo)網(wǎng)站的鏈接和鏈接對(duì)應(yīng)的信息進(jìn)行爬?。?br>
2 )從收集到的網(wǎng)頁(yè)鏈接提取域名,消除冗余的域名,生成DNS解析所需要的域名列表; 3)根據(jù)鏈接對(duì)應(yīng)信息中的類(lèi)型屬性對(duì)域名列表中的鏈接對(duì)象類(lèi)型進(jìn)行分類(lèi),并統(tǒng)計(jì)每個(gè)類(lèi)型字節(jié)數(shù)的大??;
4)根據(jù)ICP的關(guān)鍵域名字段,將爬取到的鏈接和對(duì)應(yīng)信息按照ICP進(jìn)行分類(lèi);
5)將DNS解析工具分發(fā)到各個(gè)測(cè)量節(jié)點(diǎn)上,通過(guò)向其附近的公共LDNS服務(wù)器進(jìn)行域名的查詢(xún),來(lái)獲取域名所對(duì)應(yīng)的CNAME,IP地址和NS信息;
6)根據(jù)DNS解析工具返回的解析信息,通過(guò)把每個(gè)域名的CNAME和CDN域名列表進(jìn)行對(duì)比,來(lái)發(fā)現(xiàn)為域名提供服務(wù)的CDN提供商,以此發(fā)現(xiàn)CDN所使用的IP數(shù)量和服務(wù)的域名數(shù)量,并將原始網(wǎng)頁(yè)鏈接與服務(wù)內(nèi)容的CDN提供商關(guān)聯(lián)起來(lái),為綜合統(tǒng)計(jì)分析提供數(shù)據(jù)支持;
7)根據(jù)以上步驟獲得的信息,對(duì)CCDN的市場(chǎng)情況、CCDN的基礎(chǔ)設(shè)施部署和CCDN的QoS進(jìn)行統(tǒng)計(jì)。
[0007]上述步驟7)中,CXDN的市場(chǎng)情況包括:CDN服務(wù)的ICP數(shù)量和域名數(shù)統(tǒng)計(jì)XDN服務(wù)ICP內(nèi)容類(lèi)型數(shù)量和字節(jié)數(shù)統(tǒng)計(jì)、ICP使用CDN統(tǒng)計(jì)、CDN市場(chǎng)份額統(tǒng)計(jì)。
[0008]CXDN的基礎(chǔ)設(shè)施部署包括:⑶N使用IP數(shù)量統(tǒng)計(jì)、⑶N使用IP歸屬統(tǒng)計(jì)、⑶N使用IP分類(lèi)統(tǒng)計(jì)。
[0009]⑶N的的QoS分析統(tǒng)計(jì)傳輸?shù)膸挕魉偷臅r(shí)延、數(shù)據(jù)的丟包率。
[0010]綜上,本發(fā)明所述的一種對(duì)CCDN提供商全面評(píng)估的方法采用以上技術(shù)方案,利用部署在全國(guó)40多個(gè)城市的測(cè)量節(jié)點(diǎn),采用主動(dòng)測(cè)量的方法,收集大量的ICP鏈接信息,通過(guò)對(duì)從鏈接中抽取的域名進(jìn)行DNS解析和CDN解析后,運(yùn)用得到的信息對(duì)CCDN提供商的市場(chǎng)份額、基礎(chǔ)設(shè)施部署、CDN的QoS進(jìn)行了統(tǒng)計(jì)分析。與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
1)對(duì)大量的ICP網(wǎng)站進(jìn)行了鏈接信息的爬取,運(yùn)用大數(shù)據(jù)的統(tǒng)計(jì)分析方法,對(duì)CCDN進(jìn)行了統(tǒng)計(jì)分析,使得結(jié)論更加客觀真實(shí);
2)從市場(chǎng)份額、基礎(chǔ)設(shè)施部署和QoS三個(gè)維度對(duì)CCDN進(jìn)行了評(píng)估,使得對(duì)CCDN的評(píng)估更加全面;
3)對(duì)CCDN進(jìn)行了橫向和縱向的比較,能夠更清晰地反映各家CCDN的優(yōu)劣勢(shì),為ICP提供更全面地選擇CCDN的服務(wù),并能夠使CCDN 了解自己的行業(yè)地位,促進(jìn)優(yōu)化升級(jí)。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0011]圖1為本發(fā)明中測(cè)量分析統(tǒng)計(jì)的流程圖。
【具體實(shí)施方式】
[0012]下面結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)的說(shuō)明。
[0013]為了對(duì)CXDN (商業(yè)的內(nèi)容分發(fā)網(wǎng)絡(luò))提供商進(jìn)行全面的評(píng)估,更好地理解CXDN的現(xiàn)狀、發(fā)展趨勢(shì)和行為,本發(fā)明實(shí)施例中,設(shè)計(jì)了一個(gè)用來(lái)從大量網(wǎng)站中爬取網(wǎng)頁(yè)鏈接和相關(guān)鏈接信息的爬蟲(chóng)工具,通過(guò)從收集到的網(wǎng)頁(yè)鏈接中提取出域名,得到一個(gè)用于DNS查詢(xún)的域名列表,然后運(yùn)用DNS解析工具,對(duì)域名進(jìn)行分布式DNS查詢(xún),獲取相關(guān)的信息,并對(duì)獲取的信息進(jìn)行CDN解析,最后對(duì)CCDN的市場(chǎng)份額、基礎(chǔ)設(shè)施部署狀況和QoS情況進(jìn)行統(tǒng)計(jì)分析。
[0014]這里的測(cè)量節(jié)點(diǎn)部署在中國(guó)大陸的整個(gè)骨干網(wǎng),超過(guò)60個(gè)測(cè)量節(jié)點(diǎn)部署在32個(gè)省份的40個(gè)城市。
[0015]本發(fā)明實(shí)施例中,實(shí)現(xiàn)對(duì)CCDN提供商的評(píng)估方法的具體流程如下(參閱圖1所示):
步驟1.爬取鏈接信息。
[0016]網(wǎng)絡(luò)爬蟲(chóng)技術(shù),是一種系統(tǒng)地按照一定規(guī)則自動(dòng)抓取Web網(wǎng)頁(yè)信息的計(jì)算機(jī)應(yīng)用程序。網(wǎng)絡(luò)爬蟲(chóng)是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。
[0017]為此設(shè)計(jì)一個(gè)爬蟲(chóng)工具,分發(fā)部署在測(cè)量節(jié)點(diǎn)上,對(duì)目標(biāo)網(wǎng)站的鏈接和鏈接對(duì)應(yīng)的信息進(jìn)行爬取,該工具的特點(diǎn)是:(I)爬取網(wǎng)頁(yè)鏈接及鏈接對(duì)應(yīng)的相關(guān)信息;(2)具有自動(dòng)過(guò)濾功能,能夠自動(dòng)識(shí)別目標(biāo)網(wǎng)站以外的鏈接并將其丟棄;(3)能夠根據(jù)需要控制爬取網(wǎng)站的層數(shù)。
[0018]在這里,爬蟲(chóng)工具分發(fā)部署在所有的主動(dòng)測(cè)量節(jié)點(diǎn),對(duì)目標(biāo)網(wǎng)站的鏈接和鏈接對(duì)應(yīng)的信息進(jìn)行爬取。
[0019]基于目標(biāo)網(wǎng)頁(yè)特征的爬蟲(chóng)所抓取、存儲(chǔ)并索引的對(duì)象一般為網(wǎng)站或網(wǎng)頁(yè)。具體的方法是根據(jù)種子樣本的獲取方式可以分為:(I)預(yù)先給定的初始抓取種子樣本;(2)預(yù)先給定的網(wǎng)頁(yè)分類(lèi)目錄與分類(lèi)目錄對(duì)應(yīng)的種子樣本、分類(lèi)結(jié)構(gòu)等;(3)通過(guò)用戶(hù)行為確定的抓取目標(biāo)樣例。
[0020]U使用工具:爬蟲(chóng)工具
【權(quán)利要求】
1.一種對(duì)CCDN提供商信息進(jìn)行采集及統(tǒng)計(jì)的方法,其特征在于包括以下步驟: I)在骨干網(wǎng)選取若干測(cè)量節(jié)點(diǎn),利用網(wǎng)絡(luò)爬蟲(chóng)對(duì)目標(biāo)網(wǎng)站的鏈接和鏈接對(duì)應(yīng)的信息進(jìn)行爬??; 2 )從收集到的網(wǎng)頁(yè)鏈接提取域名,消除冗余的域名,生成DNS解析所需要的域名列表; 3)根據(jù)鏈接對(duì)應(yīng)信息中的類(lèi)型屬性對(duì)域名列表中的鏈接對(duì)象類(lèi)型進(jìn)行分類(lèi),并統(tǒng)計(jì)每個(gè)類(lèi)型字節(jié)數(shù)的大小; 4)根據(jù)ICP的關(guān)鍵域名字段,將爬取到的鏈接和對(duì)應(yīng)信息按照ICP進(jìn)行分類(lèi); 5)將DNS解析工具分發(fā)到各個(gè)測(cè)量節(jié)點(diǎn)上,通過(guò)向其附近的公共LDNS服務(wù)器進(jìn)行域名的查詢(xún),來(lái)獲取域名所對(duì)應(yīng)的CNAME,IP地址和NS信息; 6)根據(jù)DNS解析工具返回的解析信息,通過(guò)把每個(gè)域名的CNAME和CDN域名列表進(jìn)行對(duì)比,來(lái)發(fā)現(xiàn)為域名提供服務(wù)的CDN提供商,以此發(fā)現(xiàn)CDN所使用的IP數(shù)量和服務(wù)的域名數(shù)量,并將原始網(wǎng)頁(yè)鏈接與服務(wù)內(nèi)容的CDN提供商關(guān)聯(lián)起來(lái),為綜合統(tǒng)計(jì)分析提供數(shù)據(jù)支持; 7)根據(jù)以上步驟獲得的信息,對(duì)CCDN的市場(chǎng)情況、CCDN的基礎(chǔ)設(shè)施部署和CCDN的QoS進(jìn)行統(tǒng)計(jì)。
2.根據(jù)權(quán)利要求1所述的對(duì)CCDN提供商信息進(jìn)行采集及統(tǒng)計(jì)的方法,其特征在于步驟7)中,CCDN的市場(chǎng)情況包括:CDN服務(wù)的ICP數(shù)量和域名數(shù)統(tǒng)計(jì)、CDN服務(wù)ICP內(nèi)容類(lèi)型數(shù)量和字節(jié)數(shù)統(tǒng)計(jì)、ICP使用CDN統(tǒng)計(jì)、CDN市場(chǎng)份額統(tǒng)計(jì)。
3.根據(jù)權(quán)利要求1或2所述的對(duì)CCDN提供商信息進(jìn)行采集及統(tǒng)計(jì)的方法,其特征在于步驟7)中,CXDN的基礎(chǔ)設(shè)施部署包括:⑶N使用IP數(shù)量統(tǒng)計(jì)、⑶N使用IP歸屬統(tǒng)計(jì)、⑶N使用IP分類(lèi)統(tǒng)計(jì)。
4.根據(jù)權(quán)利要求1或2所述的對(duì)CCDN提供商信息進(jìn)行采集及統(tǒng)計(jì)的方法,其特征在于步驟7)中,CCDN的的QoS分析統(tǒng)計(jì)傳輸?shù)膸挕魉偷臅r(shí)延、數(shù)據(jù)的丟包率。
【文檔編號(hào)】H04L29/08GK104038363SQ201310504605
【公開(kāi)日】2014年9月10日 申請(qǐng)日期:2013年10月24日 優(yōu)先權(quán)日:2013年10月24日
【發(fā)明者】尹浩, 喬波, 馮森, 英浩 申請(qǐng)人:南京匯吉遞特網(wǎng)絡(luò)科技有限公司