用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng)、方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng)、方法及裝置,其中,所述系統(tǒng)包括:數(shù)據(jù)篩選裝置,用于接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理,將篩選出的與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)發(fā)送至網(wǎng)頁(yè)解析服務(wù)器;網(wǎng)頁(yè)解析服務(wù)器,用于根據(jù)預(yù)設(shè)的解析策略對(duì)與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析處理得到第一結(jié)構(gòu)化數(shù)據(jù),并將第一結(jié)構(gòu)化數(shù)據(jù)保存至數(shù)據(jù)庫(kù);數(shù)據(jù)庫(kù),用于根據(jù)在預(yù)定時(shí)間段內(nèi)接收到的第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合處理,得到用于描述指定網(wǎng)站的資源的第二結(jié)構(gòu)化數(shù)據(jù)。采用本發(fā)明,能縮短網(wǎng)站資源的更新周期,提高網(wǎng)站資源的時(shí)效性,針對(duì)視頻網(wǎng)站,還能提高視頻資源的出圖率,提高用戶(hù)體驗(yàn)。
【專(zhuān)利說(shuō)明】用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng)、方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,更為具體而言,涉及一種用于獲取網(wǎng)站資源的數(shù)據(jù)處 理系統(tǒng)、方法及裝置。
【背景技術(shù)】
[0002] 搜索引擎基于數(shù)據(jù)庫(kù)中收錄的網(wǎng)站資源(網(wǎng)站資源通常以結(jié)構(gòu)化數(shù)據(jù)描述)為用 戶(hù)提供搜索服務(wù)。搜索引擎的搜索結(jié)果與數(shù)據(jù)庫(kù)中收錄的網(wǎng)站資源直接相關(guān),因此,為了提 高用戶(hù)體驗(yàn),需要及時(shí)更新網(wǎng)站資源。
[0003] 在現(xiàn)有技術(shù)中,通常采用如下方式更新網(wǎng)站資源:首先,等待網(wǎng)絡(luò)爬蟲(chóng)(spider) 抓取海量的網(wǎng)頁(yè),將抓取的網(wǎng)頁(yè)存入第一數(shù)據(jù)庫(kù)中并建立索引;然后,對(duì)第一數(shù)據(jù)庫(kù)中的全 量網(wǎng)頁(yè)進(jìn)行篩選和結(jié)構(gòu)化數(shù)據(jù)解析(這一作業(yè)通常由人工觸發(fā)),將解析結(jié)果存入第二數(shù) 據(jù)庫(kù);最后,由第二數(shù)據(jù)庫(kù)對(duì)多種數(shù)據(jù)進(jìn)行數(shù)據(jù)融合、建立索引等處理以便線上展示。
[0004] 由于等待網(wǎng)絡(luò)爬蟲(chóng)抓取網(wǎng)頁(yè)的時(shí)間很長(zhǎng)并且涉及對(duì)第一數(shù)據(jù)庫(kù)的數(shù)據(jù)存取處理, 這導(dǎo)致對(duì)于單個(gè)網(wǎng)頁(yè)的計(jì)算成本(包括數(shù)據(jù)庫(kù)成本和時(shí)間成本)較大;由于整個(gè)數(shù)據(jù)篩選、 解析過(guò)程為離線地批量處理,這導(dǎo)致數(shù)據(jù)更新的整體周期較長(zhǎng)。
[0005] 以上缺陷導(dǎo)致現(xiàn)有技術(shù)無(wú)法及時(shí)收錄最新的網(wǎng)站資源,這大大影響用戶(hù)的搜索體 驗(yàn)。并且對(duì)于時(shí)效性需求較強(qiáng)的網(wǎng)站資源以及結(jié)構(gòu)化數(shù)據(jù)計(jì)算較為復(fù)雜的網(wǎng)站資源,采用 現(xiàn)有技術(shù)更是無(wú)法及時(shí)收錄。以時(shí)效性要求較高的視頻資源為例,其數(shù)據(jù)處理較為復(fù)雜,一 方面需要從視頻列表頁(yè)與視頻播放頁(yè)共同解析結(jié)構(gòu)化數(shù)據(jù)才能達(dá)到較好的數(shù)據(jù)覆蓋;另一 方面需要融合與網(wǎng)頁(yè)相關(guān)的圖片才能在后續(xù)展示時(shí)提高用戶(hù)體驗(yàn),然而海量視頻帶來(lái)的海 量圖片資源根本難以在短時(shí)間內(nèi)完成抓取、存儲(chǔ)轉(zhuǎn)換等處理。當(dāng)采用現(xiàn)有技術(shù)更新視頻資 源時(shí),不僅更新周期長(zhǎng),無(wú)法滿(mǎn)足視頻資源的時(shí)效性要求,而且由于圖片處理與結(jié)構(gòu)化數(shù)據(jù) 處理的進(jìn)度難以掌控,很容易出現(xiàn)無(wú)法展示圖片的情況,嚴(yán)重影響用戶(hù)體驗(yàn)。
【發(fā)明內(nèi)容】
[0006] 為了解決現(xiàn)有技術(shù)所存在的缺陷,本發(fā)明實(shí)施方式提供一種用于獲取網(wǎng)站資源的 數(shù)據(jù)處理系統(tǒng)、方法及裝置,能夠克服現(xiàn)有技術(shù)數(shù)據(jù)更新周期長(zhǎng)、資源的時(shí)效性差等缺陷。
[0007] 第一方面,本發(fā)明實(shí)施例提供了一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng),包括:
[0008] 數(shù)據(jù)篩選裝置,用于接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收到 的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理,將篩選出的與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)發(fā)送至網(wǎng)頁(yè)解析服務(wù) 器;
[0009] 網(wǎng)頁(yè)解析服務(wù)器,用于根據(jù)預(yù)設(shè)的解析策略對(duì)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn) 行解析處理,得到與所述指定網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù),并將所述第一結(jié)構(gòu)化數(shù)據(jù)保存 至數(shù)據(jù)庫(kù);
[0010] 所述數(shù)據(jù)庫(kù),用于根據(jù)在預(yù)定時(shí)間段內(nèi)接收到的所述第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融 合處理,得到用于描述所述指定網(wǎng)站的資源的第二結(jié)構(gòu)化數(shù)據(jù)。 toon] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,所述數(shù)據(jù)篩選裝置具體用于,在接收網(wǎng)頁(yè) 數(shù)據(jù)的過(guò)程中,根據(jù)所述指定網(wǎng)站的URL(Uniform Resoure Locator:統(tǒng)一資源定位器)正 則表達(dá)式對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理。
[0012] 可選地,在本實(shí)施例的另一種實(shí)現(xiàn)方式中,當(dāng)所述指定網(wǎng)站為視頻網(wǎng)站時(shí),所述網(wǎng) 頁(yè)解析服務(wù)器具體用于:在所述網(wǎng)頁(yè)解析服務(wù)器接收到的網(wǎng)頁(yè)數(shù)據(jù)為與所述指定網(wǎng)站的視 頻播放頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)第一解析策略進(jìn)行解析處理;在所述網(wǎng)頁(yè)解析服務(wù)器接 收到的網(wǎng)頁(yè)數(shù)據(jù)為與所述指定網(wǎng)站的視頻列表頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)與所述第一解析 策略不同的第二解析策略進(jìn)行解析處理。
[0013] 可選地,在本實(shí)施例的再一種實(shí)現(xiàn)方式中,所述數(shù)據(jù)處理系統(tǒng)還包括圖片處理子 系統(tǒng);所述網(wǎng)頁(yè)解析服務(wù)器還用于,將在所述解析處理中解析出的圖片鏈接發(fā)送至所述圖 片處理子系統(tǒng);所述圖片處理子系統(tǒng),用于根據(jù)所述圖片鏈接抓取原始圖片并根據(jù)圖片處 理策略對(duì)所述原始圖片進(jìn)行處理得到新圖片,保存所述新圖片并為所述新圖片生成圖片鏈 接,以及將包含所述原始圖片的圖片鏈接和所述新圖片的圖片鏈接的圖片信息發(fā)送至所述 數(shù)據(jù)庫(kù)。
[0014] 進(jìn)一步可選地,所述圖片處理子系統(tǒng)包括圖片抓取服務(wù)器、圖片處理服務(wù)器和圖 片數(shù)據(jù)庫(kù),其中,所述圖片抓取服務(wù)器,用于根據(jù)所述圖片鏈接抓取所述原始圖片,并將所 述原始圖片及其圖片鏈接發(fā)送至所述圖片處理服務(wù)器;所述圖片處理服務(wù)器,用于根據(jù)圖 片處理策略對(duì)所述原始圖片進(jìn)行處理得到所述新圖片,并將所述原始圖片的圖片鏈接和所 述新圖片保存至所述圖片數(shù)據(jù)庫(kù);所述圖片數(shù)據(jù)庫(kù),用于為所述新圖片生成圖片鏈接,并將 所述圖片信息發(fā)送至所述數(shù)據(jù)庫(kù)。
[0015] 或者進(jìn)一步可選地,所示數(shù)據(jù)庫(kù)還用于根據(jù)所述第二結(jié)構(gòu)化數(shù)據(jù)和所述圖片信息 進(jìn)行數(shù)據(jù)融合處理。
[0016] 第二方面,本發(fā)明實(shí)施例提供了一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理方法,包括:
[0017] 接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選 處理,得到與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù);
[0018] 根據(jù)預(yù)設(shè)的解析策略對(duì)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析處理,得到與所 述指定網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù);
[0019] 根據(jù)在預(yù)定時(shí)間段內(nèi)解析得到的所述第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合處理,得到用 于描述所述指定網(wǎng)站的資源的第二結(jié)構(gòu)化數(shù)據(jù)。
[0020] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,所述在接收過(guò)程中對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù) 進(jìn)行篩選處理包括:在接收網(wǎng)頁(yè)數(shù)據(jù)的過(guò)程中,根據(jù)所述指定網(wǎng)站的URL正則表達(dá)式對(duì)接 收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理。
[0021] 可選地,在本實(shí)施例的另一種實(shí)現(xiàn)方式中,當(dāng)所述指定網(wǎng)站為視頻網(wǎng)站時(shí),所述根 據(jù)預(yù)設(shè)的解析策略對(duì)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析處理包括:當(dāng)與所述指定網(wǎng) 站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)為與所述指定網(wǎng)站的視頻播放頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)第一解析策略 進(jìn)行所述解析處理;當(dāng)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)為與所述指定網(wǎng)站的視頻列表頁(yè)相 關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)與所述第一解析策略不同的第二解析策略進(jìn)行所述解析處理。
[0022] 可選地,在本實(shí)施例的再一種實(shí)現(xiàn)方式中,所述方法還包括:將在所述解析處理過(guò) 程中解析出的圖片鏈接發(fā)送至圖片處理子系統(tǒng),所述圖片處理子系統(tǒng)用于執(zhí)行以下處理: 根據(jù)所述圖片鏈接抓取原始圖片并根據(jù)圖片處理策略對(duì)所述原始圖片進(jìn)行處理得到新圖 片,保存所述新圖片并為所述新圖片生成圖片鏈接;接收由所述圖片處理子系統(tǒng)發(fā)送的圖 片信息,所述圖片信息包括所述原始圖片的圖片鏈接和所述新圖片的圖片鏈接;根據(jù)所述 第二結(jié)構(gòu)化數(shù)據(jù)和所述圖片信息進(jìn)行數(shù)據(jù)融合處理。
[0023] 可選地,在本實(shí)施例的又一種實(shí)現(xiàn)方式中,所述方法還包括:根據(jù)在所述解析處理 中解析出的圖片鏈接抓取原始圖片;根據(jù)圖片處理策略對(duì)所述原始圖片進(jìn)行處理得到新圖 片,保存所述新圖片保存并為所述新圖片生成圖片鏈接;根據(jù)所述第二結(jié)構(gòu)化數(shù)據(jù)和圖片 信息進(jìn)行數(shù)據(jù)融合處理,所述圖片信息包括所述原始圖片的圖片鏈接和所述新圖片的圖片 鏈接。
[0024] 第三方面,本發(fā)明實(shí)施例提供了一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理裝置,包括:
[0025] 數(shù)據(jù)篩選模塊,用于接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收到 的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理,得到與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù);
[0026] 數(shù)據(jù)解析模塊,用于根據(jù)預(yù)設(shè)的解析策略對(duì)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行 解析處理,得到與所述指定網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù);
[0027] 數(shù)據(jù)融合模塊,用于根據(jù)在預(yù)定時(shí)間段內(nèi)解析得到的所述第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù) 據(jù)融合處理,得到用于描述所述指定網(wǎng)站的資源的第二結(jié)構(gòu)化數(shù)據(jù)。
[0028] 可選地,在本實(shí)施例的第一實(shí)現(xiàn)方式中,所述數(shù)據(jù)篩選模塊具體用于,在接收網(wǎng)頁(yè) 數(shù)據(jù)的過(guò)程中,根據(jù)所述指定網(wǎng)站的URL正則表達(dá)式對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理。
[0029] 可選地,在本實(shí)施例的第二實(shí)現(xiàn)方式中,所述數(shù)據(jù)解析模塊包括:
[0030] 第一解析子模塊,用于在所述指定網(wǎng)站為視頻網(wǎng)站并且與所述指定網(wǎng)站相關(guān)的網(wǎng) 頁(yè)數(shù)據(jù)為與所述指定網(wǎng)站的視頻播放頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)第一解析策略進(jìn)行解析處 理;第二解析子模塊,用于在所述指定網(wǎng)站為視頻網(wǎng)站并且與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù) 據(jù)為與所述指定網(wǎng)站的視頻列表頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)與所述第一解析策略不同的第 二解析策略進(jìn)行解析處理。
[0031] 可選地,在本實(shí)施例的第三實(shí)現(xiàn)方式中,所述數(shù)據(jù)處理裝置還包括:圖片鏈接發(fā)送 模塊,用于將所述數(shù)據(jù)解析模塊在所述解析處理中解析出的圖片鏈接發(fā)送至圖片處理子系 統(tǒng);其中,所述圖片處理子系統(tǒng)用于執(zhí)行以下處理:根據(jù)所述圖片鏈接抓取原始圖片并根 據(jù)圖片處理策略對(duì)所述原始圖片進(jìn)行處理得到新圖片,保存所述新圖片并為所述新圖片生 成圖片鏈接,以及將包含所述原始圖片的圖片鏈接和所述新圖片的圖片鏈接的圖片信息發(fā) 送至所述數(shù)據(jù)處理裝置;圖片信息接收模塊,用于接收所述圖片信息;所述數(shù)據(jù)融合模塊 還用于,根據(jù)所述第二結(jié)構(gòu)化數(shù)據(jù)和所述圖片信息進(jìn)行數(shù)據(jù)融合處理,得到包含所述圖片 信息的結(jié)構(gòu)化數(shù)據(jù)。
[0032] 可選地,在本實(shí)施例的第四實(shí)現(xiàn)方式中,所述數(shù)據(jù)處理裝置還包括:圖片抓取模 塊,用于根據(jù)所述數(shù)據(jù)解析模塊在所述解析處理中解析出的圖片鏈接抓取原始圖片,和圖 片處理模塊,用于根據(jù)圖片處理策略處理所述原始圖片得到新圖片,保存所述新圖片并為 所述新圖片生成圖片鏈接;所述數(shù)據(jù)融合模塊還用于,根據(jù)所述第二結(jié)構(gòu)化數(shù)據(jù)和圖片信 息進(jìn)行數(shù)據(jù)融合處理,得到包含所述圖片信息的結(jié)構(gòu)化數(shù)據(jù),所述圖片信息包括所述原始 圖片的圖片鏈接和所述新圖片的圖片鏈接。
[0033] 第四方面,本發(fā)明實(shí)施例提供了一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng),包括:根 據(jù)本發(fā)明實(shí)施例的第三方面或第三方面的第一或第二實(shí)現(xiàn)方式的數(shù)據(jù)處理裝置;和,用于 保存所述第二結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)。
[0034] 第五方面,本發(fā)明實(shí)施例提供了一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng),包括:根 據(jù)本發(fā)明實(shí)施例的第三方面的第三實(shí)現(xiàn)方式的數(shù)據(jù)處理裝置;和,用于保存包含所述圖片 信息的結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)。
[0035] 第六方面,本發(fā)明實(shí)施例提供了一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng),包括:根 據(jù)本發(fā)明實(shí)施例的第三方面的第四實(shí)現(xiàn)方式的數(shù)據(jù)處理裝置、圖片處理子系統(tǒng)和用于保存 包含所述圖片信息的結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)。其中,圖片處理子系統(tǒng),用于根據(jù)所述圖片鏈接 抓取原始圖片并根據(jù)圖片處理策略對(duì)所述原始圖片進(jìn)行處理得到新圖片,保存所述新圖片 并為所述新圖片生成圖片鏈接,以及將包含所述原始圖片的圖片鏈接和所述新圖片的圖片 鏈接的圖片信息發(fā)送至所述數(shù)據(jù)處理裝置。
[0036] 采用本發(fā)明的各種實(shí)施例具有以下有益效果:
[0037] 一方面,通過(guò)在接收網(wǎng)頁(yè)數(shù)據(jù)的過(guò)程中對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理和解析處理,從 而能每隔一段時(shí)間(例如每小時(shí))進(jìn)行數(shù)據(jù)融合處理以達(dá)到更新網(wǎng)站資源的目的,這有效 克服了現(xiàn)有技術(shù)離線批量處理導(dǎo)致數(shù)據(jù)更新周期長(zhǎng)、資源的時(shí)效性差等缺陷。另一方面,在 計(jì)算結(jié)構(gòu)化數(shù)據(jù)的過(guò)程中,根據(jù)在解析處理解析得到的圖片鏈接地址進(jìn)行圖片抓取和后續(xù) 的圖片處理,能夠提高視頻資源的出圖率,為用戶(hù)提供更好的搜索體驗(yàn)。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0038] 圖1是根據(jù)本發(fā)明實(shí)施例的一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng)的方塊圖;
[0039] 圖2A是根據(jù)本發(fā)明實(shí)施例的一種用于獲取視頻網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng)的方塊 圖;
[0040] 圖2B是圖2A所示實(shí)施例中的圖片處理子系統(tǒng)的一種方塊圖;
[0041] 圖3是根據(jù)本發(fā)明實(shí)施例的一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理方法的流程示意 圖;
[0042] 圖4是根據(jù)本發(fā)明實(shí)施例的一種用于獲取視頻網(wǎng)站資源的數(shù)據(jù)處理方法的流程 示意圖;
[0043] 圖5是根據(jù)本發(fā)明實(shí)施例的一種用于獲取視頻網(wǎng)站資源的數(shù)據(jù)處理方法的流程 示意圖;
[0044] 圖6是根據(jù)本發(fā)明實(shí)施例的一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理裝置的方塊圖;
[0045] 圖7是根據(jù)本發(fā)明實(shí)施例的一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理裝置的方塊圖;
[0046] 圖8是根據(jù)本發(fā)明實(shí)施例的一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理裝置的方塊圖;
[0047] 圖9A-9C是根據(jù)本發(fā)明實(shí)施例的一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng)的方塊 圖。
【具體實(shí)施方式】
[0048] 以下結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明的各個(gè)方面進(jìn)行詳細(xì)闡述。其中,眾所周 知的模塊、單元及其相互之間的連接、鏈接、通信或操作沒(méi)有示出或未作詳細(xì)說(shuō)明。并且,所 描述的特征、架構(gòu)或功能可在一個(gè)或一個(gè)以上實(shí)施方式中以任何方式組合。本領(lǐng)域技術(shù)人 員應(yīng)當(dāng)理解,下述的各種實(shí)施方式只用于舉例說(shuō)明,而非用于限制本發(fā)明的保護(hù)范圍。還可 以容易理解,本文所述和附圖所示的各實(shí)施方式中的模塊或單元或步驟可以按各種不同配 置進(jìn)行組合和設(shè)計(jì)。
[0049] 【第一實(shí)施例】
[0050] 圖1是根據(jù)本發(fā)明實(shí)施例的一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng)的方塊圖,參 照?qǐng)D1,數(shù)據(jù)處理系統(tǒng)1包括數(shù)據(jù)篩選裝置10、網(wǎng)頁(yè)解析服務(wù)器20和數(shù)據(jù)庫(kù)30,下面分別進(jìn) 行說(shuō)明。
[0051] 數(shù)據(jù)篩選裝置10,用于接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收 到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理,將篩選出的與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)發(fā)送至網(wǎng)頁(yè)解析服務(wù) 器20。
[0052] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,數(shù)據(jù)篩選裝置10可以直接與網(wǎng)絡(luò)爬蟲(chóng)通 信并持續(xù)接收網(wǎng)頁(yè)數(shù)據(jù),也可以與用于保存網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù)的數(shù)據(jù)庫(kù)通信并持續(xù) 接收網(wǎng)頁(yè)數(shù)據(jù),還可以與用于轉(zhuǎn)發(fā)網(wǎng)絡(luò)爬蟲(chóng)所抓取的網(wǎng)頁(yè)數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)發(fā)設(shè)備通信并持續(xù) 接收網(wǎng)頁(yè)數(shù)據(jù)。
[0053] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,數(shù)據(jù)篩選裝置10可以根據(jù)指定網(wǎng)站的 URL正則表達(dá)式對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理,得到與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)。
[0054] 網(wǎng)頁(yè)解析服務(wù)器20,用于根據(jù)預(yù)設(shè)的解析策略對(duì)與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行 解析處理,得到與指定網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù),并將第一結(jié)構(gòu)化數(shù)據(jù)保存至數(shù)據(jù)庫(kù)30。
[0055] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,網(wǎng)頁(yè)解析服務(wù)器20持續(xù)地接收數(shù)據(jù)篩選 裝置10發(fā)送來(lái)的網(wǎng)頁(yè)數(shù)據(jù),并在每次接收到網(wǎng)頁(yè)數(shù)據(jù)后進(jìn)行解析處理,或者,周期性地(例 如,每隔一分鐘)對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析處理。
[0056] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,以指定網(wǎng)站為視頻網(wǎng)站為例,網(wǎng)頁(yè)解析服 務(wù)器20可以在接收到與指定網(wǎng)站的視頻播放頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)第一解析策略進(jìn) 行解析;在接收到與指定網(wǎng)站的視頻列表頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)與第一解析策略不同 的第二解析策略進(jìn)行解析。也就是說(shuō),在本實(shí)施例中的解析策略可包括多種分別與所解析 的數(shù)據(jù)對(duì)應(yīng)的解析策略而不限于一種解析策略。
[0057] 數(shù)據(jù)庫(kù)30,用于根據(jù)在預(yù)定時(shí)間段內(nèi)接收到的第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合處 理,得到用于描述指定網(wǎng)站資源的第二結(jié)構(gòu)化數(shù)據(jù)。需要說(shuō)明的是,"第一結(jié)構(gòu)化數(shù)據(jù)"和 "第二結(jié)構(gòu)化數(shù)據(jù)"中提及的"第一"和"第二"僅用作名稱(chēng)之別,除此之外,不對(duì)結(jié)構(gòu)化數(shù)據(jù) 構(gòu)成任何限制。
[0058] 可選地,在本實(shí)施例的一種應(yīng)用場(chǎng)景中,當(dāng)針對(duì)多個(gè)指定網(wǎng)站進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)的篩 選處理、解析處理和數(shù)據(jù)融合處理時(shí),數(shù)據(jù)庫(kù)30接收到分別與不同網(wǎng)站相關(guān)的第一結(jié)構(gòu)化 數(shù)據(jù),并且可以采用以下方式進(jìn)行數(shù)據(jù)融合處理:
[0059] 方式一,數(shù)據(jù)庫(kù)30周期性地進(jìn)行數(shù)據(jù)融合處理,包括:將在當(dāng)前周期內(nèi)接收到的 具有相同URL的第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,得到分別對(duì)應(yīng)不同網(wǎng)站的第二結(jié)構(gòu)化數(shù) 據(jù)。
[0060] 方式二,數(shù)據(jù)庫(kù)30周期性地進(jìn)行數(shù)據(jù)融合處理,包括:在每一個(gè)周期,將在該周期 內(nèi)接收到的具有相同URL的第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合得到融合結(jié)果,然后將在最近的兩個(gè) 或兩個(gè)以上周期得到的具有相同URL的融合結(jié)果相融合,得到分別對(duì)應(yīng)不同網(wǎng)站的第二結(jié) 構(gòu)化數(shù)據(jù)。
[0061] 方式三,數(shù)據(jù)庫(kù)30周期性地進(jìn)行數(shù)據(jù)融合處理,包括:將在當(dāng)前周期接收到的具 有相同URL的第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,將融合后的結(jié)果與在前一周期計(jì)算得到的具 有相同URL的第二結(jié)構(gòu)化數(shù)據(jù)相融合,得到在當(dāng)前周期分別對(duì)應(yīng)不同網(wǎng)站的第二結(jié)構(gòu)化數(shù) 據(jù)。
[0062] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,數(shù)據(jù)庫(kù)30在計(jì)算得到第二結(jié)構(gòu)化數(shù)據(jù)之 后,為第二結(jié)構(gòu)化數(shù)據(jù)建立索引以供線上檢索。
[0063] 采用本發(fā)明實(shí)施例所提供的數(shù)據(jù)處理系統(tǒng)1,能夠?qū)崟r(shí)或及時(shí)地對(duì)網(wǎng)絡(luò)爬蟲(chóng)抓取 的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選和解析處理,從而能每隔一段時(shí)間進(jìn)行數(shù)據(jù)融合處理達(dá)到更新網(wǎng)站資 源的目的,這有效克服了現(xiàn)有技術(shù)離線批量處理導(dǎo)致數(shù)據(jù)更新周期長(zhǎng)、資源的時(shí)效性差等 缺陷。此外,本發(fā)明實(shí)施例所提供的數(shù)據(jù)處理系統(tǒng)1搭建了一個(gè)完整的數(shù)據(jù)處理流程,能夠 持續(xù)作業(yè)且避免了人工介入。
[0064] 【第二實(shí)施例】
[0065] 圖1所示的數(shù)據(jù)處理系統(tǒng)1適用于獲取各種類(lèi)型的網(wǎng)站(例如:新聞網(wǎng)站、視頻網(wǎng) 站、教育科研網(wǎng)站、軍事網(wǎng)站等)的資源。就獲取視頻網(wǎng)站資源而言,考慮到以圖片形式展 現(xiàn)視頻資源能提高用戶(hù)體驗(yàn),本發(fā)明還進(jìn)一步提供了一種用于獲取視頻網(wǎng)站資源的優(yōu)選的 數(shù)據(jù)處理系統(tǒng),如圖2A所示,數(shù)據(jù)處理系統(tǒng)2除了包括數(shù)據(jù)篩選裝置10、網(wǎng)頁(yè)解析服務(wù)器 20和數(shù)據(jù)庫(kù)30外,還包括圖片處理子系統(tǒng)40。下面分別進(jìn)行說(shuō)明,其中,雖然沒(méi)有對(duì)數(shù)據(jù) 篩選裝置10、網(wǎng)頁(yè)解析服務(wù)器20和數(shù)據(jù)庫(kù)30進(jìn)行詳細(xì)說(shuō)明,但三者可以具有在圖1所示實(shí) 施例中的所有特征,此處不贅述。
[0066] 在本實(shí)施例中,數(shù)據(jù)篩選裝置10用于接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收 過(guò)程中對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理,將篩選出的與指定視頻網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)發(fā) 送至網(wǎng)頁(yè)解析服務(wù)器20。
[0067] 網(wǎng)頁(yè)解析服務(wù)器20,用于根據(jù)預(yù)設(shè)的解析策略對(duì)與指定視頻網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù) 進(jìn)行解析處理,得到與指定視頻網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù),并將第一結(jié)構(gòu)化數(shù)據(jù)保存至 數(shù)據(jù)庫(kù)30,以及,用于將在解析處理中解析出的圖片鏈接發(fā)送至圖片處理子系統(tǒng)40。
[0068] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,網(wǎng)頁(yè)解析服務(wù)器10根據(jù)網(wǎng)頁(yè)數(shù)據(jù)所在頁(yè) 面是否包含播放器,判斷網(wǎng)頁(yè)數(shù)據(jù)是與視頻播放頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)還是與視頻列表頁(yè)相 關(guān)的網(wǎng)頁(yè)數(shù)據(jù),如果是前者,則根據(jù)第一解析策略進(jìn)行解析(解析結(jié)果屬于第一結(jié)構(gòu)化數(shù) 據(jù));如果是后者,則根據(jù)與第一解析策略不同的第二解析策略進(jìn)行解析(解析結(jié)果屬于第 一結(jié)構(gòu)化數(shù)據(jù))。其中,對(duì)與視頻列表頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)的解析結(jié)果包含圖片鏈接,例如,包 含從網(wǎng)頁(yè)源代碼中解析出的圖片鏈接。
[0069] 在本實(shí)施例中,圖片處理子系統(tǒng)40用于執(zhí)行以下處理:根據(jù)圖片鏈接抓取原始圖 片并根據(jù)圖片處理策略對(duì)原始圖片進(jìn)行處理得到新圖片;保存新圖片并為新圖片生成圖片 鏈接;以及將包含原始圖片的圖片鏈接和新圖片的圖片鏈接的圖片信息發(fā)送至數(shù)據(jù)庫(kù)30。
[0070] 采用本實(shí)施例提供的數(shù)據(jù)處理系統(tǒng)2,通過(guò)圖片處理子系統(tǒng)40進(jìn)行圖片處理,能 夠得到與指定視頻網(wǎng)站相關(guān)的圖片數(shù)據(jù),便于后續(xù)在需要展示視頻資源的圖片時(shí)進(jìn)行調(diào)用 或進(jìn)行數(shù)據(jù)融合處理。
[0071] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,如圖2B所示,圖片處理子系統(tǒng)40可包括 圖片抓取服務(wù)器41、圖片處理服務(wù)器42和圖片數(shù)據(jù)庫(kù)43。
[0072] 圖片抓取服務(wù)器41用于接收網(wǎng)頁(yè)解析服務(wù)器20發(fā)送的圖片鏈接(即原始圖片的 圖片鏈接),根據(jù)圖片鏈接抓取原始圖片,并將原始圖片及其圖片鏈接發(fā)送至圖片處理服務(wù) 器42。
[0073] 圖片處理服務(wù)器42,用于根據(jù)圖片處理策略對(duì)原始圖片進(jìn)行處理得到新圖片,并 將原始圖片的圖片鏈接和新圖片保存至圖片數(shù)據(jù)庫(kù)43。
[0074] 示例性地,圖片處理服務(wù)器42可采用以下方式對(duì)原始圖片進(jìn)行處理:首先對(duì)原始 圖片進(jìn)行分析,識(shí)別其像素點(diǎn)的二維矩陣圖從而獲取圖片的長(zhǎng)寬信息;然后,根據(jù)預(yù)先設(shè)定 好的規(guī)則對(duì)原始圖片進(jìn)行壓縮、裁剪等操作得到新圖片,使處理后的新圖片符合展現(xiàn)要求。
[0075] 圖片數(shù)據(jù)庫(kù)43,用于為新圖片生成圖片鏈接,并將包含原始圖片的圖片鏈接和新 圖片的圖片鏈接的圖片信息發(fā)送至數(shù)據(jù)庫(kù)30。
[0076] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,數(shù)據(jù)庫(kù)30除了用于根據(jù)在預(yù)定時(shí)間段內(nèi) 接收到的第一結(jié)構(gòu)化數(shù)據(jù)計(jì)算得到第二結(jié)構(gòu)化數(shù)據(jù)之外,還可以根據(jù)第二結(jié)構(gòu)化數(shù)據(jù)和接 收到的圖片信息進(jìn)行數(shù)據(jù)融合處理。例如,針對(duì)第二結(jié)構(gòu)化數(shù)據(jù)和在所述預(yù)定時(shí)間段內(nèi)接 收到的圖片信息,將其中具有相同URL的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合處理。采用本實(shí)現(xiàn)方式,以不同 進(jìn)程執(zhí)行結(jié)構(gòu)化數(shù)據(jù)的計(jì)算和圖片信息的計(jì)算,能夠提高圖片處理效率,從而提高視頻資 源的出圖率,為用戶(hù)提供更好的搜索體驗(yàn)。
[0077]【第三實(shí)施例】
[0078] 以上結(jié)合附圖對(duì)根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)處理系統(tǒng)進(jìn)行了說(shuō)明,下面結(jié)合附圖對(duì) 根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)處理方法進(jìn)行說(shuō)明。
[0079] 圖3是根據(jù)本發(fā)明實(shí)施例的一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理方法的流程示意 圖,參照?qǐng)D3,所述方法包括:
[0080] 300:接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行 篩選處理,得到與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)。
[0081] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,在接收網(wǎng)頁(yè)數(shù)據(jù)的過(guò)程中,根據(jù)指定網(wǎng)站 的URL正則表達(dá)式對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理。
[0082] 302:根據(jù)預(yù)設(shè)的解析策略對(duì)與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析處理,得到與指 定網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù)。
[0083] 其中,針對(duì)同一個(gè)或同一類(lèi)網(wǎng)站的網(wǎng)頁(yè)數(shù)據(jù)可能采用一種解析策略,也可能采用 多種解析策略。例如,針對(duì)新聞網(wǎng)站的網(wǎng)頁(yè)數(shù)據(jù),可以采用一種解析策略進(jìn)行解析;針對(duì)視 頻網(wǎng)站的網(wǎng)頁(yè)數(shù)據(jù),可以根據(jù)網(wǎng)頁(yè)數(shù)據(jù)與視頻播放頁(yè)相關(guān)還是與視頻列表頁(yè)相關(guān)來(lái)采用不 同的解析策略進(jìn)行解析。
[0084] 304:根據(jù)在預(yù)定時(shí)間段內(nèi)解析得到的第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合處理,得到用 于描述指定網(wǎng)站的資源的第二結(jié)構(gòu)化數(shù)據(jù)。
[0085] 可選地,在本實(shí)施例的一種應(yīng)用場(chǎng)景中,在304中可以周期性地進(jìn)行數(shù)據(jù)融合處 理,具體方式請(qǐng)參照(但不限于)前文所述的三種方式,此處不贅述。
[0086] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,在304之后,為第二結(jié)構(gòu)化數(shù)據(jù)建立索引 以供線上檢索。
[0087] 在本實(shí)施例的一種具體實(shí)現(xiàn)方式中,由數(shù)據(jù)篩選裝置10執(zhí)行300并將執(zhí)行結(jié)果發(fā) 送給網(wǎng)頁(yè)解析服務(wù)器20,由網(wǎng)頁(yè)解析服務(wù)器20執(zhí)行302并將執(zhí)行結(jié)果發(fā)送給數(shù)據(jù)庫(kù)30,然 后由數(shù)據(jù)庫(kù)30執(zhí)行304。其中,各個(gè)部分執(zhí)行各步驟的具體過(guò)程請(qǐng)參見(jiàn)前文的描述,此處不 贅述。
[0088] 采用本發(fā)明實(shí)施例所提供的數(shù)據(jù)處理方法,通過(guò)實(shí)時(shí)或及時(shí)地對(duì)網(wǎng)絡(luò)爬蟲(chóng)抓取的 網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選和解析處理,能每隔一段時(shí)間進(jìn)行數(shù)據(jù)融合處理達(dá)到更新網(wǎng)站資源的目 的,這有效克服了現(xiàn)有技術(shù)離線批量處理導(dǎo)致數(shù)據(jù)更新周期長(zhǎng)、資源的時(shí)效性差等缺陷。 [0089]【第四實(shí)施例】
[0090] 圖4是根據(jù)本發(fā)明實(shí)施例的一種用于獲取視頻網(wǎng)站資源的數(shù)據(jù)處理方法的流程 示意圖,參照?qǐng)D4,所述方法包括:
[0091] 400:接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行 篩選處理,得到與指定視頻網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)。
[0092] 402:根據(jù)預(yù)設(shè)的解析策略對(duì)與指定視頻網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析處理,得到 與指定視頻網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù)。
[0093] 可選地,在本實(shí)施例的一種實(shí)現(xiàn)方式中,當(dāng)與指定視頻網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)為與 指定視頻網(wǎng)站的視頻播放頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)第一解析策略進(jìn)行解析處理;當(dāng)與指 定視頻網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)為與指定視頻網(wǎng)站的視頻列表頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)與第 一解析策略不同的第二解析策略進(jìn)行解析處理。
[0094] 404:根據(jù)在預(yù)定時(shí)間段內(nèi)解析得到的第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合處理,得到用 于描述指定網(wǎng)站的資源的第二結(jié)構(gòu)化數(shù)據(jù)。
[0095] 406:將在解析處理過(guò)程中解析出的圖片鏈接發(fā)送至圖片處理子系統(tǒng)。所述圖片處 理子系統(tǒng)用于執(zhí)行以下處理:根據(jù)圖片鏈接抓取原始圖片并根據(jù)圖片處理策略對(duì)原始圖片 進(jìn)行處理得到新圖片,保存新圖片并為新圖片生成圖片鏈接。
[0096] 其中,對(duì)于圖片處理子系統(tǒng)的說(shuō)明可以參見(jiàn)圖2A及圖2B所示實(shí)施例中的說(shuō)明,此 處不贅述。
[0097] 408:接收?qǐng)D片處理子系統(tǒng)發(fā)送的圖片信息,所述圖片信息包括原始圖片的圖片鏈 接和新圖片的圖片鏈接。
[0098] 410 :根據(jù)第二結(jié)構(gòu)化數(shù)據(jù)和圖片信息進(jìn)行數(shù)據(jù)融合處理??蛇x地,與第二結(jié)構(gòu)化 數(shù)據(jù)進(jìn)行融合的圖片信息為在所述預(yù)定時(shí)間段內(nèi)接收到的圖片信息。
[0099] 在本實(shí)施例中,并不限制404與406-408的執(zhí)行順序,甚至在本實(shí)施例的一種變形 例中,404與410可以同時(shí)通過(guò)以下方式實(shí)現(xiàn):根據(jù)在預(yù)定時(shí)間段內(nèi)解析得到的第一結(jié)構(gòu)化 數(shù)據(jù)以及接收到的圖片信息進(jìn)行數(shù)據(jù)融合處理,得到包含圖片信息的結(jié)構(gòu)化數(shù)據(jù)。
[0100] 本實(shí)施例中的與圖3所示實(shí)施例相同或相似的步驟可以具有相同的實(shí)現(xiàn)方式,此 處不做贅述。
[0101] 在本實(shí)施例的一種具體實(shí)現(xiàn)方式中,由數(shù)據(jù)篩選裝置10執(zhí)行400并將執(zhí)行結(jié)果發(fā) 送給網(wǎng)頁(yè)解析服務(wù)器20,由網(wǎng)頁(yè)解析服務(wù)器20執(zhí)行402并將執(zhí)行結(jié)果發(fā)送給數(shù)據(jù)庫(kù)30,由 網(wǎng)頁(yè)解析服務(wù)器20執(zhí)行404以將圖片鏈接發(fā)送給圖片處理子系統(tǒng)40,由圖片處理子系統(tǒng) 40將圖片信息發(fā)送給數(shù)據(jù)庫(kù)30 ( S卩,由數(shù)據(jù)庫(kù)30執(zhí)行408),由數(shù)據(jù)庫(kù)30執(zhí)行406和410。 其中,各個(gè)部分執(zhí)行各步驟的具體過(guò)程請(qǐng)參見(jiàn)前文的描述,此處不贅述。
[0102] 采用本發(fā)明實(shí)施例所提供的數(shù)據(jù)處理方法,除了具有圖3所示實(shí)施例的優(yōu)點(diǎn)之 夕卜,還能提高視頻資源的出圖率,提高用戶(hù)體驗(yàn)。
[0103] 【第五實(shí)施例】
[0104] 圖5是根據(jù)本發(fā)明實(shí)施例的一種用于獲取視頻網(wǎng)站資源的數(shù)據(jù)處理方法的流程 示意圖,參照?qǐng)D5,所述方法包括:
[0105] 500:接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行 篩選處理,得到與指定視頻網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)。
[0106] 502:根據(jù)預(yù)設(shè)的解析策略對(duì)與指定視頻網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析處理,得到 與指定視頻網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù)。
[0107] 504:根據(jù)在預(yù)定時(shí)間段內(nèi)解析得到的第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合處理,得到用 于描述指定網(wǎng)站的資源的第二結(jié)構(gòu)化數(shù)據(jù)。
[0108] 506 :根據(jù)在解析處理中解析出的圖片鏈接抓取原始圖片。
[0109] 508:根據(jù)圖片處理策略對(duì)原始圖片進(jìn)行處理得到新圖片,保存新圖片并為新圖片 生成圖片鏈接。
[0110] 510:根據(jù)第二結(jié)構(gòu)化數(shù)據(jù)和圖片信息進(jìn)行數(shù)據(jù)融合處理,得到包含圖片信息的結(jié) 構(gòu)化數(shù)據(jù)。圖片信息包括原始圖片的圖片鏈接和新圖片的圖片鏈接。
[0111] 在本實(shí)施例中,并不限制504與506-508的執(zhí)行順序,甚至在本實(shí)施例的一種變形 例中,504與510可以同時(shí)通過(guò)以下方式實(shí)現(xiàn):根據(jù)在預(yù)定時(shí)間段內(nèi)解析得到的第一結(jié)構(gòu)化 數(shù)據(jù)以及接收到的圖片信息進(jìn)行數(shù)據(jù)融合處理,得到包含圖片信息的結(jié)構(gòu)化數(shù)據(jù)。
[0112] 本實(shí)施例中與的圖3及圖4所示實(shí)施例相同或相似的步驟可以具有相同的實(shí)現(xiàn)方 式,此處不做贅述。
[0113] 在本實(shí)施例的一種具體實(shí)現(xiàn)方式中,由數(shù)據(jù)篩選裝置10執(zhí)行500并將執(zhí)行結(jié)果發(fā) 送給網(wǎng)頁(yè)解析服務(wù)器20,由網(wǎng)頁(yè)解析服務(wù)器20執(zhí)行502并將執(zhí)行結(jié)果發(fā)送給數(shù)據(jù)庫(kù)30, 由網(wǎng)頁(yè)解析服務(wù)器20將圖片鏈接發(fā)送給圖片抓取服務(wù)器41以由圖片抓取服務(wù)器41執(zhí)行 506,由圖片處理服務(wù)器42和圖片數(shù)據(jù)庫(kù)43執(zhí)行508并將圖片信息發(fā)送至數(shù)據(jù)庫(kù)30,由數(shù) 據(jù)庫(kù)30執(zhí)行504和510。其中,各個(gè)部分執(zhí)行各步驟的具體過(guò)程請(qǐng)參見(jiàn)前文的描述,此處不 贅述。
[0114] 采用本發(fā)明實(shí)施例所提供的數(shù)據(jù)處理方法,除了具有圖3所示實(shí)施例的優(yōu)點(diǎn)之 夕卜,還能提高視頻資源的出圖率,提高用戶(hù)體驗(yàn)。
[0115] 【第六實(shí)施例】
[0116] 下面以獲取"http://www. bugaboo, tv"這一視頻網(wǎng)站資源為例對(duì)本發(fā)明進(jìn)行說(shuō) 明,在以下舉例中提及的判斷條件、具體處理方式等特征均可以用于圖1至圖5所示實(shí)施例 中。
[0117] 首先,數(shù)據(jù)篩選裝置10接收網(wǎng)絡(luò)爬蟲(chóng)返回的網(wǎng)頁(yè)數(shù)據(jù),通過(guò)bugaboo, tv/ (watch I video)/. *對(duì)URL進(jìn)行篩選,獲取到bugaboo, tv站點(diǎn)的視頻播放頁(yè)A以及視頻列表 頁(yè)B的網(wǎng)頁(yè)數(shù)據(jù),并將獲取的網(wǎng)頁(yè)數(shù)據(jù)發(fā)送給網(wǎng)頁(yè)解析服務(wù)器20。
[0118] 然后,網(wǎng)頁(yè)解析服務(wù)器20載入預(yù)設(shè)的解析策略,通過(guò)判斷頁(yè)面是否存在播放器識(shí) 別出A為視頻播放頁(yè)、B為視頻列表頁(yè)。分別套用對(duì)應(yīng)的解析策略對(duì)A頁(yè)面的網(wǎng)頁(yè)數(shù)據(jù)和B 頁(yè)面的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化信息的提取,A頁(yè)面可以提取到數(shù)據(jù)C(如表一),包含標(biāo)題、摘 要、時(shí)間等;B頁(yè)面可以提取到數(shù)據(jù)D,包含21個(gè)列表因子(如表二),每個(gè)列表因子包含對(duì) 應(yīng)資源的URL、標(biāo)題、圖片鏈接、播放次數(shù)。
[0119]
【權(quán)利要求】
1. 一種用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng),其特征在于,包括: 數(shù)據(jù)篩選裝置,用于接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收到的網(wǎng) 頁(yè)數(shù)據(jù)進(jìn)行篩選處理,將篩選出的與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)發(fā)送至網(wǎng)頁(yè)解析服務(wù)器; 網(wǎng)頁(yè)解析服務(wù)器,用于根據(jù)預(yù)設(shè)的解析策略對(duì)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解 析處理,得到與所述指定網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù),并將所述第一結(jié)構(gòu)化數(shù)據(jù)保存至數(shù) 據(jù)庫(kù); 所述數(shù)據(jù)庫(kù),用于根據(jù)在預(yù)定時(shí)間段內(nèi)接收到的所述第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合處 理,得到用于描述所述指定網(wǎng)站的資源的第二結(jié)構(gòu)化數(shù)據(jù)。
2. 如權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其特征在于, 所述數(shù)據(jù)篩選裝置具體用于,在接收網(wǎng)頁(yè)數(shù)據(jù)的過(guò)程中,根據(jù)所述指定網(wǎng)站的統(tǒng)一資 源定位符URL正則表達(dá)式對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理。
3. 如權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其特征在于,當(dāng)所述指定網(wǎng)站為視頻網(wǎng)站時(shí),所 述網(wǎng)頁(yè)解析服務(wù)器具體用于: 在所述網(wǎng)頁(yè)解析服務(wù)器接收到的網(wǎng)頁(yè)數(shù)據(jù)為與所述指定網(wǎng)站的視頻播放頁(yè)相關(guān)的網(wǎng) 頁(yè)數(shù)據(jù)時(shí),根據(jù)第一解析策略進(jìn)行解析處理; 在所述網(wǎng)頁(yè)解析服務(wù)器接收到的網(wǎng)頁(yè)數(shù)據(jù)為與所述指定網(wǎng)站的視頻列表頁(yè)相關(guān)的網(wǎng) 頁(yè)數(shù)據(jù)時(shí),根據(jù)與所述第一解析策略不同的第二解析策略進(jìn)行解析處理。
4. 如權(quán)利要求1-3中任一項(xiàng)所述的數(shù)據(jù)處理系統(tǒng),其特征在于, 所述數(shù)據(jù)處理系統(tǒng)還包括圖片處理子系統(tǒng); 所述網(wǎng)頁(yè)解析服務(wù)器還用于,將在所述解析處理中解析出的圖片鏈接發(fā)送至所述圖片 處理子系統(tǒng); 所述圖片處理子系統(tǒng),用于根據(jù)所述圖片鏈接抓取原始圖片并根據(jù)圖片處理策略對(duì)所 述原始圖片進(jìn)行處理得到新圖片,保存所述新圖片并為所述新圖片生成圖片鏈接,以及將 包含所述原始圖片的圖片鏈接和所述新圖片的圖片鏈接的圖片信息發(fā)送至所述數(shù)據(jù)庫(kù)。
5. 如權(quán)利要求4所述的數(shù)據(jù)處理系統(tǒng),其特征在于,所述圖片處理子系統(tǒng)包括圖片抓 取服務(wù)器、圖片處理服務(wù)器和圖片數(shù)據(jù)庫(kù),其中, 所述圖片抓取服務(wù)器,用于根據(jù)所述圖片鏈接抓取所述原始圖片,并將所述原始圖片 及其圖片鏈接發(fā)送至所述圖片處理服務(wù)器; 所述圖片處理服務(wù)器,用于根據(jù)圖片處理策略對(duì)所述原始圖片進(jìn)行處理得到所述新圖 片,并將所述原始圖片的圖片鏈接和所述新圖片保存至所述圖片數(shù)據(jù)庫(kù); 所述圖片數(shù)據(jù)庫(kù),用于為所述新圖片生成圖片鏈接,并將所述圖片信息發(fā)送至所述數(shù) 據(jù)庫(kù)。
6. 如權(quán)利要求4所述的數(shù)據(jù)處理系統(tǒng),其特征在于, 所示數(shù)據(jù)庫(kù)還用于,根據(jù)所述第二結(jié)構(gòu)化數(shù)據(jù)和所述圖片信息進(jìn)行數(shù)據(jù)融合處理。
7. -種用于獲取網(wǎng)站資源的數(shù)據(jù)處理方法,其特征在于,包括: 接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處 理,得到與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù); 根據(jù)預(yù)設(shè)的解析策略對(duì)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析處理,得到與所述指 定網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù); 根據(jù)在預(yù)定時(shí)間段內(nèi)解析得到的所述第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合處理,得到用于描 述所述指定網(wǎng)站的資源的第二結(jié)構(gòu)化數(shù)據(jù)。
8. 如權(quán)利要求7所述的數(shù)據(jù)處理方法,其特征在于,所述在接收過(guò)程中對(duì)接收到的網(wǎng) 頁(yè)數(shù)據(jù)進(jìn)行篩選處理包括: 在接收網(wǎng)頁(yè)數(shù)據(jù)的過(guò)程中,根據(jù)所述指定網(wǎng)站的URL正則表達(dá)式對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù) 進(jìn)行篩選處理。
9. 如權(quán)利要求7所述的數(shù)據(jù)處理方法,其特征在于,當(dāng)所述指定網(wǎng)站為視頻網(wǎng)站時(shí),所 述根據(jù)預(yù)設(shè)的解析策略對(duì)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析處理包括: 當(dāng)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)為與所述指定網(wǎng)站的視頻播放頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù) 時(shí),根據(jù)第一解析策略進(jìn)行所述解析處理; 當(dāng)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)為與所述指定網(wǎng)站的視頻列表頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù) 時(shí),根據(jù)與所述第一解析策略不同的第二解析策略進(jìn)行所述解析處理。
10. 如權(quán)利要求7-9中任一項(xiàng)所述的數(shù)據(jù)處理方法,其特征在于,所述方法還包括: 將在所述解析處理過(guò)程中解析出的圖片鏈接發(fā)送至圖片處理子系統(tǒng),所述圖片處理子 系統(tǒng)用于執(zhí)行以下處理:根據(jù)所述圖片鏈接抓取原始圖片并根據(jù)圖片處理策略對(duì)所述原始 圖片進(jìn)行處理得到新圖片,保存所述新圖片并為所述新圖片生成圖片鏈接; 接收由所述圖片處理子系統(tǒng)發(fā)送的圖片信息,所述圖片信息包括所述原始圖片的圖片 鏈接和所述新圖片的圖片鏈接; 根據(jù)所述第二結(jié)構(gòu)化數(shù)據(jù)和所述圖片信息進(jìn)行數(shù)據(jù)融合處理。
11. 如權(quán)利要求7-9中任一項(xiàng)所述的數(shù)據(jù)處理方法,其特征在于,所述方法還包括: 根據(jù)在所述解析處理中解析出的圖片鏈接抓取原始圖片; 根據(jù)圖片處理策略對(duì)所述原始圖片進(jìn)行處理得到新圖片,保存所述新圖片保存并為所 述新圖片生成圖片鏈接; 根據(jù)所述第二結(jié)構(gòu)化數(shù)據(jù)和圖片信息進(jìn)行數(shù)據(jù)融合處理,所述圖片信息包括所述原始 圖片的圖片鏈接和所述新圖片的圖片鏈接。
12. -種用于獲取網(wǎng)站資源的數(shù)據(jù)處理裝置,其特征在于,包括: 數(shù)據(jù)篩選模塊,用于接收由網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)數(shù)據(jù),并在接收過(guò)程中對(duì)接收到的網(wǎng) 頁(yè)數(shù)據(jù)進(jìn)行篩選處理,得到與指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù); 數(shù)據(jù)解析模塊,用于根據(jù)預(yù)設(shè)的解析策略對(duì)與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析 處理,得到與所述指定網(wǎng)站相關(guān)的第一結(jié)構(gòu)化數(shù)據(jù); 數(shù)據(jù)融合模塊,用于根據(jù)在預(yù)定時(shí)間段內(nèi)解析得到的所述第一結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融 合處理,得到用于描述所述指定網(wǎng)站的資源的第二結(jié)構(gòu)化數(shù)據(jù)。
13. 如權(quán)利要求12所述的數(shù)據(jù)處理裝置,其特征在于, 所述數(shù)據(jù)篩選模塊具體用于,在接收網(wǎng)頁(yè)數(shù)據(jù)的過(guò)程中,根據(jù)所述指定網(wǎng)站的URL正 則表達(dá)式對(duì)接收到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行篩選處理。
14. 如權(quán)利要求12所述的數(shù)據(jù)處理裝置,其特征在于,所述數(shù)據(jù)解析模塊包括: 第一解析子模塊,用于在所述指定網(wǎng)站為視頻網(wǎng)站并且與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù) 據(jù)為與所述指定網(wǎng)站的視頻播放頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)第一解析策略進(jìn)行解析處理; 第二解析子模塊,用于在所述指定網(wǎng)站為視頻網(wǎng)站并且與所述指定網(wǎng)站相關(guān)的網(wǎng)頁(yè)數(shù) 據(jù)為與所述指定網(wǎng)站的視頻列表頁(yè)相關(guān)的網(wǎng)頁(yè)數(shù)據(jù)時(shí),根據(jù)與所述第一解析策略不同的第 二解析策略進(jìn)行解析處理。
15. 如權(quán)利要求12-14中任一項(xiàng)所述的數(shù)據(jù)處理裝置,其特征在于, 所述數(shù)據(jù)處理裝置還包括: 圖片鏈接發(fā)送模塊,用于將所述數(shù)據(jù)解析模塊在所述解析處理中解析出的圖片鏈接發(fā) 送至圖片處理子系統(tǒng);其中,所述圖片處理子系統(tǒng)用于執(zhí)行以下處理:根據(jù)所述圖片鏈接 抓取原始圖片并根據(jù)圖片處理策略對(duì)所述原始圖片進(jìn)行處理得到新圖片,保存所述新圖片 并為所述新圖片生成圖片鏈接,以及將包含所述原始圖片的圖片鏈接和所述新圖片的圖片 鏈接的圖片信息發(fā)送至所述數(shù)據(jù)處理裝置, 圖片信息接收模塊,用于接收所述圖片信息; 所述數(shù)據(jù)融合模塊還用于,根據(jù)所述第二結(jié)構(gòu)化數(shù)據(jù)和所述圖片信息進(jìn)行數(shù)據(jù)融合處 理,得到包含所述圖片信息的結(jié)構(gòu)化數(shù)據(jù)。
16. 如權(quán)利要求12-14中任一項(xiàng)所述的數(shù)據(jù)處理裝置,其特征在于, 所述數(shù)據(jù)處理裝置還包括: 圖片抓取模塊,用于根據(jù)所述數(shù)據(jù)解析模塊在所述解析處理中解析出的圖片鏈接抓取 原始圖片,和 圖片處理模塊,用于根據(jù)圖片處理策略處理所述原始圖片得到新圖片,保存所述新圖 片并為所述新圖片生成圖片鏈接; 所述數(shù)據(jù)融合模塊還用于,根據(jù)所述第二結(jié)構(gòu)化數(shù)據(jù)和圖片信息進(jìn)行數(shù)據(jù)融合處理, 得到包含所述圖片信息的結(jié)構(gòu)化數(shù)據(jù),所述圖片信息包括所述原始圖片的圖片鏈接和所述 新圖片的圖片鏈接。
17. -種用于獲取網(wǎng)站資源的數(shù)據(jù)處理系統(tǒng),其特征在于, 所述數(shù)據(jù)處理系統(tǒng)包括: 如權(quán)利要求12-14中任一項(xiàng)所述的數(shù)據(jù)處理裝置,和, 用于保存所述第二結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù); 或,所述數(shù)據(jù)處理系統(tǒng)包括: 如權(quán)利要求15所述的數(shù)據(jù)處理裝置, 用于保存包含所述圖片信息的結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù),和 圖片處理子系統(tǒng),用于根據(jù)所述圖片鏈接抓取原始圖片并根據(jù)圖片處理策略對(duì)所述 原始圖片進(jìn)行處理得到新圖片,保存所述新圖片并為所述新圖片生成圖片鏈接,以及將包 含所述原始圖片的圖片鏈接和所述新圖片的圖片鏈接的圖片信息發(fā)送至所述數(shù)據(jù)處理裝 置; 或,所述數(shù)據(jù)處理系統(tǒng)包括: 如權(quán)利要求16所述的數(shù)據(jù)處理裝置,和 用于保存包含所述圖片信息的結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)。
【文檔編號(hào)】H04L29/06GK104281680SQ201410521135
【公開(kāi)日】2015年1月14日 申請(qǐng)日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】魯曉瑩, 李進(jìn), 劉世戟, 劉鴻宇 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司