一種數(shù)據(jù)獲取方法
【專利摘要】本發(fā)明涉及一種數(shù)據(jù)獲取方法,所述數(shù)據(jù)獲取的方法包括如下步驟:初始數(shù)據(jù)分析及分詞操作,得到關(guān)鍵詞;使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面;對(duì)所述網(wǎng)站的頁(yè)面進(jìn)行信息爬取,根據(jù)所述網(wǎng)站的頁(yè)面的源文件與正則表達(dá)式進(jìn)行正則匹配,得到匹配結(jié)果;根據(jù)所述關(guān)鍵詞或者與標(biāo)簽庫(kù)進(jìn)行比對(duì),分別將所述匹配結(jié)果中的信息放置于對(duì)應(yīng)的視頻屬性庫(kù)的對(duì)應(yīng)字段中去;進(jìn)行數(shù)據(jù)分析,根據(jù)所述網(wǎng)站的頁(yè)面的權(quán)重和信息重復(fù)量來進(jìn)行數(shù)據(jù)計(jì)算;對(duì)于自動(dòng)填寫的內(nèi)容進(jìn)行編輯確認(rèn)和加工。旨在解決將分詞、內(nèi)容抓取、文本數(shù)據(jù)挖掘、智能的內(nèi)容糅合等幾種技術(shù)的整合并且有效運(yùn)用于發(fā)布流程中,實(shí)現(xiàn)自動(dòng)獲取數(shù)據(jù),并提高數(shù)據(jù)獲取準(zhǔn)確性。
【專利說明】一種數(shù)據(jù)獲取方法
[0001]本發(fā)明請(qǐng)求本 申請(qǐng)人:于2013年5月2日向中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局提交的申請(qǐng)?zhí)枮?01310158249.0,發(fā)明名稱為“一種數(shù)據(jù)獲取方法”的中國(guó)發(fā)明專利申請(qǐng)的優(yōu)先權(quán),上述申請(qǐng)的全部?jī)?nèi)容以引用方式并入本文。
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及網(wǎng)絡(luò)通訊技術(shù),特別是涉及一種數(shù)據(jù)獲取方法。
【背景技術(shù)】
[0003]對(duì)于視頻網(wǎng)站而言,對(duì)用戶的主要信息表現(xiàn)形式為視頻內(nèi)容,而對(duì)于視頻內(nèi)容的相關(guān)屬性信息大多是由視頻編輯手工填寫。
[0004]視頻信息抓取和呈現(xiàn)的對(duì)象是網(wǎng)站用戶,可以通過優(yōu)化現(xiàn)有的比較成熟的抓取及信息提取技術(shù)進(jìn)行編輯和實(shí)現(xiàn)視頻內(nèi)容相關(guān)文字信息的填寫的自動(dòng)化。
[0005]當(dāng)前,對(duì)于文字信息的抓取和發(fā)布流程一般從主要的各大新聞網(wǎng)站進(jìn)行爬蟲爬取,把文章的標(biāo)題、副標(biāo)題和內(nèi)容整個(gè)抓取下來,并放置于網(wǎng)站后臺(tái)發(fā)布器中,在編輯進(jìn)行再加工后,發(fā)布成新聞頁(yè)面。
[0006]例如申請(qǐng)?zhí)枮镃N201110232595.X的中國(guó)發(fā)明專利,其公開了一種爬蟲種子獲取方法與設(shè)備及爬蟲爬取方法與設(shè)備,提供了一種爬蟲種子獲取方法與設(shè)備及爬蟲爬去方法與設(shè)備。爬蟲種子獲取方法包括:根據(jù)預(yù)設(shè)檢索詞詞典和目標(biāo)導(dǎo)航網(wǎng)站的URL特性,構(gòu)造動(dòng)態(tài)頁(yè)面請(qǐng)求;將動(dòng)態(tài)頁(yè)面請(qǐng)求發(fā)送給目標(biāo)導(dǎo)航網(wǎng)站的服務(wù)器,根據(jù)預(yù)設(shè)提取策略,從服務(wù)器根據(jù)動(dòng)態(tài)網(wǎng)頁(yè)請(qǐng)求返回的檢索結(jié)果頁(yè)面中提取目標(biāo)URL,目標(biāo)URL為檢索結(jié)果頁(yè)面中的URL的主域名地址;對(duì)目標(biāo)URL進(jìn)行唯一化處理,獲取唯一化目標(biāo)URL,將唯一化目標(biāo)URL作為爬蟲種子。該方案能夠提供大量的離散度大的爬蟲種子,從而縮短形成主流URL的時(shí)間,提高主流URL的覆蓋性,降低爬蟲系統(tǒng)進(jìn)行爬取時(shí)的時(shí)間成本。
[0007]而對(duì)于視頻內(nèi)容的相關(guān)屬性信息的獲取,主要是通過兩條途徑:其一,通過豆瓣電影或者M(jìn)time時(shí)光網(wǎng)的視頻ID,利用其開放的API接口,獲取視頻信息,來找到對(duì)應(yīng)字段進(jìn)行自動(dòng)填寫;其二,視頻編輯手動(dòng)在搜索引擎中進(jìn)行搜索,找到相應(yīng)的信息,對(duì)應(yīng)各個(gè)字段,手動(dòng)填寫。
[0008]又例如申請(qǐng)?zhí)枮镃N201110095563.X的中國(guó)發(fā)明專利,其公開了一種數(shù)據(jù)的獲取方法和裝置,包括:接收至少一個(gè)第一數(shù)據(jù)獲取請(qǐng)求,該第一數(shù)據(jù)獲取請(qǐng)求中攜帶數(shù)據(jù)選取條件;根據(jù)該數(shù)據(jù)選取條件,獲取所有滿足該數(shù)據(jù)選取條件的數(shù)據(jù)標(biāo)識(shí);根據(jù)該數(shù)據(jù)標(biāo)識(shí),并行獲取所有與該數(shù)據(jù)標(biāo)識(shí)對(duì)應(yīng)的數(shù)據(jù),返回該對(duì)應(yīng)的數(shù)據(jù),減少了現(xiàn)有技術(shù)中由于順序逐一獲取數(shù)據(jù)而造成的數(shù)據(jù)反饋延遲,通過并行的獲取數(shù)據(jù),提高了數(shù)據(jù)獲取的效率,使得數(shù)據(jù)可以及時(shí)的反饋給使用者,提升了數(shù)據(jù)使用者的滿意度。
[0009]再例如申請(qǐng)?zhí)枮?01210133394.9的中國(guó)發(fā)明專利,其公開了一種數(shù)據(jù)獲取方法、系統(tǒng)及設(shè)備,所述方法包括:接收來自客戶端的數(shù)據(jù)獲取請(qǐng)求,所述數(shù)據(jù)獲取請(qǐng)求包括網(wǎng)頁(yè)地址;與網(wǎng)頁(yè)服務(wù)器建立至少兩條數(shù)據(jù)信道來并行抓取所述網(wǎng)頁(yè)地址所對(duì)應(yīng)的數(shù)據(jù)資源;將抓取到的所述數(shù)據(jù)資源推送給所述客戶端。本發(fā)明通過利用代理服務(wù)器建立多條數(shù)據(jù)通道來抓取網(wǎng)頁(yè)的數(shù)據(jù)資源,然后主動(dòng)推送給客戶端的方案,解決了客戶端在獲取網(wǎng)絡(luò)數(shù)據(jù)時(shí),浪費(fèi)流量和響應(yīng)時(shí)間較長(zhǎng)的問題,達(dá)到了客戶端僅需要發(fā)起一次數(shù)據(jù)獲取請(qǐng)求,就可以快速獲得網(wǎng)頁(yè)的所有數(shù)據(jù)資源以顯示給用戶的效果。
[0010]但是,上述發(fā)明并沒有將分詞、內(nèi)容抓取、文本數(shù)據(jù)挖掘、智能的內(nèi)容糅合等幾種技術(shù)的整合并且有效運(yùn)用于發(fā)布流程中,無法實(shí)現(xiàn)自動(dòng)的數(shù)據(jù)獲取,而且獲取的數(shù)據(jù)信息準(zhǔn)確性較低。
【發(fā)明內(nèi)容】
[0011]基于上述問題,本發(fā)明提供一種數(shù)據(jù)獲取方法,旨在解決將分詞、內(nèi)容抓取、文本數(shù)據(jù)挖掘、智能的內(nèi)容糅合等幾種技術(shù)的整合并且有效運(yùn)用于發(fā)布流程中,以實(shí)現(xiàn)自動(dòng)化獲取數(shù)據(jù),和提高數(shù)據(jù)獲取準(zhǔn)確率。
[0012]為此,本發(fā)明采用如下的技術(shù)方案一種數(shù)據(jù)獲取方法,包括:步驟1、對(duì)初始數(shù)據(jù)進(jìn)行分詞,獲得與初始數(shù)據(jù)相關(guān)的關(guān)鍵詞;步驟2、使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面;步驟3、對(duì)所述網(wǎng)站的頁(yè)面進(jìn)行信息爬取,根據(jù)所述網(wǎng)站的頁(yè)面的源文件與正則表達(dá)式進(jìn)行正則匹配,得到匹配結(jié)果;步驟4、將匹配結(jié)果與所述關(guān)鍵詞或者與包含有影片視頻標(biāo)簽的標(biāo)簽庫(kù)進(jìn)行比對(duì),得到各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量,分別將根據(jù)所述匹配結(jié)果得到的各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量信息放置于對(duì)應(yīng)的視頻屬性庫(kù)的對(duì)應(yīng)字段中;步驟5、根據(jù)視頻屬性庫(kù)的對(duì)應(yīng)字段中的所述網(wǎng)站的頁(yè)面的權(quán)重和信息重復(fù)量來計(jì)算網(wǎng)站頁(yè)面的信息權(quán)重;步驟6、把符合要求的信息權(quán)重對(duì)應(yīng)的頁(yè)面數(shù)據(jù)進(jìn)行顯示。
[0013]進(jìn)一步地,所述步驟I中包括:判斷初始數(shù)據(jù)對(duì)應(yīng)的視頻內(nèi)容為長(zhǎng)視頻或者短視頻;其中,所述視頻內(nèi)容與制定的網(wǎng)站地圖進(jìn)行精準(zhǔn)匹配,能夠匹配到2條以上的信息的視頻內(nèi)容為長(zhǎng)視頻。
[0014]進(jìn)一步地,對(duì)于所述長(zhǎng)視頻的標(biāo)題去除空格和特殊符號(hào),得到關(guān)鍵詞。
[0015]進(jìn)一步地,對(duì)于所述短視頻的標(biāo)題進(jìn)行分詞處理,得到關(guān)鍵詞。
[0016]進(jìn)一步地,所述使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面進(jìn)一步包括:通過設(shè)定權(quán)重來調(diào)整所述網(wǎng)站的優(yōu)先權(quán);得到的所述網(wǎng)站頁(yè)面的信息權(quán)重值與網(wǎng)站的優(yōu)先權(quán)成正比。
[0017]進(jìn)一步地,所述權(quán)重的調(diào)整方式為人為設(shè)定,或者通過機(jī)器編輯。
[0018]進(jìn)一步地,所述使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面后還包括:通過對(duì)所述網(wǎng)站的頁(yè)面層次進(jìn)行去噪處理,去除無效頁(yè)面和信息重復(fù)的頁(yè)面。
[0019]進(jìn)一步地,所述根據(jù)視頻屬性庫(kù)的對(duì)應(yīng)字段中的所述網(wǎng)站的頁(yè)面的權(quán)重和信息重復(fù)量來計(jì)算網(wǎng)站頁(yè)面的信息權(quán)重的計(jì)算公式為:信息權(quán)重=(信息重復(fù)出現(xiàn)次數(shù)*權(quán)重*0.01)/頁(yè)面數(shù)量+tag庫(kù)完全匹配次數(shù)/此次信息中總匹配成功次數(shù)。
[0020]進(jìn)一步地,獲得信息權(quán)重排名最高的I至5個(gè)對(duì)應(yīng)信息,用于填寫到不同的單選或多選或手動(dòng)填寫的文本框中,進(jìn)行顯示。
[0021]本申請(qǐng)還公開了一種數(shù)據(jù)獲取系統(tǒng),包括如下模塊:
分詞操作模塊:用于分詞操作,得到關(guān)鍵詞;關(guān)鍵詞搜索模塊:用于使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面;信息爬取和匹配模塊:用于對(duì)所述網(wǎng)站的頁(yè)面進(jìn)行信息爬取,根據(jù)所述網(wǎng)站的頁(yè)面的源文件與正則表達(dá)式進(jìn)行正則匹配,得到匹配結(jié)果;信息分類對(duì)比模塊:用于將匹配結(jié)果與所述關(guān)鍵詞或者與包含有影片視頻標(biāo)簽的標(biāo)簽庫(kù)進(jìn)行比對(duì),得到各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量,分別將根據(jù)所述匹配結(jié)果得到的各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量信息放置于對(duì)應(yīng)的視頻屬性庫(kù)的對(duì)應(yīng)字段中;數(shù)據(jù)分析計(jì)算模塊:進(jìn)行數(shù)據(jù)分析,根據(jù)視頻屬性庫(kù)的對(duì)應(yīng)字段中的所述網(wǎng)站的頁(yè)面的權(quán)重和信息重復(fù)量來計(jì)算信息權(quán)重;顯示模塊,把符合要求的信息權(quán)重對(duì)應(yīng)的頁(yè)面數(shù)據(jù)進(jìn)行顯示。本發(fā)明的數(shù)據(jù)獲取的方法根據(jù)視頻內(nèi)容的關(guān)鍵詞進(jìn)行數(shù)據(jù)抓取和數(shù)據(jù)準(zhǔn)備,在得到抓取的數(shù)據(jù)后,對(duì)內(nèi)容進(jìn)行分析和抽取,根據(jù)模式篩選,將內(nèi)容返回到視頻的發(fā)布系統(tǒng)中便于自動(dòng)填寫,能夠?qū)⒎衷~、內(nèi)容抓取、文本數(shù)據(jù)挖掘、智能的內(nèi)容糅合等幾種技術(shù)的整合并且有效運(yùn)用于發(fā)布流程中,實(shí)現(xiàn)自動(dòng)數(shù)據(jù)獲取,并提高數(shù)據(jù)獲取的有效性。
【專利附圖】
【附圖說明】
[0022]圖1為根據(jù)本發(fā)明的一種數(shù)據(jù)獲取方法的優(yōu)選實(shí)施例的步驟框圖;
圖2為根據(jù)本發(fā)明的一種數(shù)據(jù)獲取裝置的結(jié)構(gòu)示意框圖。
【具體實(shí)施方式】
[0023]下面結(jié)合附圖和優(yōu)選的實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。權(quán)利要求中構(gòu)成要件和實(shí)施例中具體實(shí)例之間的對(duì)應(yīng)關(guān)系可以如下例證。
[0024]本發(fā)明的數(shù)據(jù)獲取的方法根據(jù)視頻內(nèi)容的關(guān)鍵詞進(jìn)行數(shù)據(jù)抓取和數(shù)據(jù)準(zhǔn)備,在得到抓取的數(shù)據(jù)后,對(duì)內(nèi)容進(jìn)行分析和抽取,根據(jù)模式篩選,將內(nèi)容返回到視頻的發(fā)布系統(tǒng)中便于自動(dòng)填寫,實(shí)現(xiàn)自動(dòng)數(shù)據(jù)獲取,并提高數(shù)據(jù)獲取的有效性。
[0025]圖1為根據(jù)本發(fā)明的一種數(shù)據(jù)獲取方法的優(yōu)選實(shí)施例的步驟框圖。
[0026]所述數(shù)據(jù)獲取的方法步驟如下:步驟1、對(duì)初始數(shù)據(jù)進(jìn)行分詞,獲得與初始數(shù)據(jù)相關(guān)的關(guān)鍵詞;步驟2、使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面;步驟3、對(duì)所述網(wǎng)站的頁(yè)面進(jìn)行信息爬取,根據(jù)所述網(wǎng)站的頁(yè)面的源文件與正則表達(dá)式進(jìn)行正則匹配,得到匹配結(jié)果;步驟4、將匹配結(jié)果與所述關(guān)鍵詞或者與包含有影片視頻標(biāo)簽的標(biāo)簽庫(kù)進(jìn)行比對(duì),得到各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量,分別將根據(jù)所述匹配結(jié)果得到的各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量信息放置于對(duì)應(yīng)的視頻屬性庫(kù)的對(duì)應(yīng)字段中;步驟5、根據(jù)視頻屬性庫(kù)的對(duì)應(yīng)字段中的所述網(wǎng)站的頁(yè)面的權(quán)重和信息重復(fù)量來計(jì)算網(wǎng)站頁(yè)面的信息權(quán)重;步驟6、把符合要求的信息權(quán)重對(duì)應(yīng)的頁(yè)面數(shù)據(jù)進(jìn)行顯示。
[0027]具體實(shí)施時(shí),可以采用如圖1所示的流程。首先,進(jìn)行初始數(shù)據(jù)分析及分詞操作。這一步驟中進(jìn)行初始數(shù)據(jù)分析包括,判斷其是否為電影、電視劇等長(zhǎng)視頻還是資訊類的短視頻?;镜姆治龇椒榕c制定的幾個(gè)影視劇站點(diǎn)的網(wǎng)站地圖進(jìn)行精準(zhǔn)匹配,根據(jù)其是否能匹配到2條以上的信息來判斷是否為影視劇等長(zhǎng)視頻。并輔助以標(biāo)題字?jǐn)?shù)判斷,一般情況下,標(biāo)題內(nèi)容為6字以上(不含6字)的電影比例僅占6.7%。對(duì)于長(zhǎng)視頻的標(biāo)題內(nèi)容進(jìn)行去除空格和特殊符號(hào)的處理,對(duì)于短視頻的標(biāo)題內(nèi)容進(jìn)行分詞處理,得到該視頻內(nèi)容對(duì)應(yīng)的關(guān)鍵詞。此外,對(duì)于部分長(zhǎng)視頻的標(biāo)題內(nèi)容也可以進(jìn)行分詞處理,得到該長(zhǎng)視頻內(nèi)容的關(guān)鍵詞,例如高清版視頻。在一個(gè)更為通用的實(shí)施方式中,上述初步分析與分詞操作是二選一,或者二者同時(shí)具有的。
[0028]其次,使用得到的對(duì)應(yīng)關(guān)鍵詞進(jìn)行搜索。在搜索的過程中,通過設(shè)定權(quán)重,來調(diào)整網(wǎng)站頁(yè)面的優(yōu)先權(quán)。對(duì)于優(yōu)先權(quán)而言,得到的所述網(wǎng)站頁(yè)面的信息權(quán)重值與網(wǎng)站的優(yōu)先權(quán)成正比,或者成一線性變化的趨勢(shì),例如網(wǎng)站頁(yè)面優(yōu)先權(quán)越靠前的(即權(quán)重越大),得到的信息權(quán)重也越靠前。網(wǎng)站站點(diǎn)優(yōu)先權(quán)越靠后的,得到的信息權(quán)重也越靠后。權(quán)重的調(diào)整可通過兩種方式中任何一種或者兩種來完成:一為人工調(diào)整,人為編輯將平常經(jīng)常用于獲取信息的網(wǎng)站的權(quán)重設(shè)為90以上(本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,該值可以根據(jù)權(quán)重設(shè)置方式以及規(guī)則來做適應(yīng)性的調(diào)整),為最高一類;二為機(jī)器編輯,機(jī)器通過數(shù)據(jù)分析得到,通過從權(quán)重90以下的網(wǎng)站獲得信息的匹配度(信息的選用率和不修改率)來逐步調(diào)整,其中,信息的選用率為編輯在手動(dòng)操作階段,對(duì)機(jī)器提供的信息進(jìn)行選擇,選擇來自該網(wǎng)站的信息次數(shù)除以所有機(jī)器提供的信息,得到信息選用率;信息的不修改率為編輯在手動(dòng)操作階段,對(duì)信息選擇后,可能會(huì)進(jìn)行手動(dòng)修改,也可能直接使用,不做變化。直接選用不修改的信息除以來自該網(wǎng)站的所有被選用的信息,得到不修改率。
[0029]在該步驟內(nèi),對(duì)頁(yè)面層次進(jìn)行去噪,去除無效頁(yè)面和信息重復(fù)的頁(yè)面,但信息重復(fù)的頁(yè)面會(huì)被統(tǒng)計(jì)到信息匹配分析系統(tǒng)中。其中,所述信息匹配分析系統(tǒng)是對(duì)不可用頁(yè)面、信息的選用和不修改及網(wǎng)站權(quán)重進(jìn)行計(jì)算的一套系統(tǒng),主要用于對(duì)大量數(shù)據(jù)的計(jì)算和結(jié)果的產(chǎn)生。
[0030]然后,對(duì)上一步驟得到的頁(yè)面,進(jìn)行信息爬取,根據(jù)頁(yè)面的源文件和編寫的正則表達(dá)式進(jìn)行正則匹配,產(chǎn)生匹配結(jié)果。信息爬的方法包括但不限于:與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁(yè)具有主題相關(guān)性的概率很大,則在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索,再過濾掉無關(guān)的網(wǎng)頁(yè)。或者,可以從起始網(wǎng)頁(yè)開始,選擇一個(gè)URL進(jìn)入,分析這個(gè)網(wǎng)頁(yè)中的URL,選擇一個(gè)再進(jìn)入。如此一個(gè)鏈接一個(gè)鏈接地抓取下去,直到處理完一條路線之后再處理下一條路線。匹配結(jié)果包括此次信息中總匹配成功次數(shù),即。
[0031]然后,根據(jù)關(guān)鍵詞或者和包含有影片視頻標(biāo)簽的標(biāo)簽(Tag)庫(kù)進(jìn)行比對(duì),得到各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量,以及標(biāo)簽庫(kù)完全匹配次數(shù);分別將根據(jù)所述匹配結(jié)果得到的各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量信息放置于對(duì)應(yīng)的視頻屬性庫(kù)的對(duì)應(yīng)字段中,便于隨時(shí)進(jìn)行分析和計(jì)算。
[0032]然后,進(jìn)行數(shù)據(jù)分析。對(duì)于獲得的全部信息,根據(jù)各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量來進(jìn)行數(shù)據(jù)計(jì)算,公式為:信息權(quán)重=(信息重復(fù)出現(xiàn)次數(shù)*權(quán)重*0.01)/頁(yè)面數(shù)量+標(biāo)簽庫(kù)完全匹配次數(shù)/此次信息中總匹配成功次數(shù)。獲得信息權(quán)重排名最高的I至5個(gè)對(duì)應(yīng)信息,用于填寫不同的單選或多選或手動(dòng)填寫的文本框中去,進(jìn)行顯示。
[0033]其中,頁(yè)面數(shù)量為進(jìn)行信息爬取的網(wǎng)站頁(yè)面的總數(shù);所述信息重復(fù)出現(xiàn)次數(shù)為,在前述幾步中,每個(gè)對(duì)應(yīng)字段,會(huì)有大量信息,而來自不同網(wǎng)站的信息都被統(tǒng)計(jì)過一次,但是信息有重復(fù)現(xiàn)象,每出現(xiàn)一次重復(fù)信息,信息重復(fù)出現(xiàn)次數(shù)+1。比如對(duì)于《鋼鐵俠》的主演,小羅伯特唐尼在豆瓣、時(shí)光網(wǎng)、百度百科均出現(xiàn),則重復(fù)次數(shù)為3 ;小唐尼在A網(wǎng)站和B網(wǎng)站出現(xiàn),重復(fù)次數(shù)為2。若無標(biāo)簽(tag)庫(kù)或標(biāo)簽(tag)庫(kù)匹配次數(shù)為0,則信息權(quán)重=(信息重復(fù)出現(xiàn)次數(shù)*權(quán)重*0.01) /頁(yè)面數(shù)量+0。
[0034]1-5這個(gè)數(shù)字范圍可以人工自由選擇,范圍可更多。主要作用是針對(duì)不同字段的對(duì)應(yīng)信息數(shù)不同,如別名,一般影片至多2個(gè);而影片標(biāo)簽可能會(huì)在3-5,甚至更多。數(shù)字為初步確定,后期可根據(jù)需求進(jìn)行調(diào)整。
[0035]最后,對(duì)于自動(dòng)填寫的內(nèi)容進(jìn)行編輯確認(rèn)和加工。修改的操作會(huì)影響信息選用率和不修改率。信息確認(rèn)無誤后進(jìn)行發(fā)布,也就是把符合用戶需要的信息權(quán)重對(duì)應(yīng)的數(shù)據(jù)信息進(jìn)行顯示。
[0036]本申請(qǐng)另一實(shí)施例公開了一種數(shù)據(jù)獲取系統(tǒng),如圖2所示,所述系統(tǒng)包括:分詞操作模塊、關(guān)鍵詞搜索模塊、信息爬取和匹配模塊、信息分類對(duì)比模塊、數(shù)據(jù)分析計(jì)算模塊和顯示模塊。其中,
所述分詞操作模塊,用于分詞操作,得到關(guān)鍵詞;
所述關(guān)鍵詞搜索模塊,用于使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面;
所述信息爬取和匹配模塊,用于對(duì)所述網(wǎng)站的頁(yè)面進(jìn)行信息爬取,根據(jù)所述網(wǎng)站的頁(yè)面的源文件與正則表達(dá)式進(jìn)行正則匹配,得到匹配結(jié)果;
所述信息分類對(duì)比模塊,用于將匹配結(jié)果與所述關(guān)鍵詞或者與包含有影片視頻標(biāo)簽的標(biāo)簽庫(kù)進(jìn)行比對(duì),得到各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量,分別將根據(jù)所述匹配結(jié)果得到的各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量信息放置于對(duì)應(yīng)的視頻屬性庫(kù)的對(duì)應(yīng)字段中;
所述數(shù)據(jù)分析計(jì)算模塊,用于進(jìn)行數(shù)據(jù)分析,根據(jù)視頻屬性庫(kù)的對(duì)應(yīng)字段中的所述網(wǎng)站的頁(yè)面的權(quán)重和信息重復(fù)量來計(jì)算信息權(quán)重;
所述顯示模塊,用于把符合要求的信息權(quán)重對(duì)應(yīng)的頁(yè)面數(shù)據(jù)進(jìn)行顯示。進(jìn)一步地,所述分詞操作模塊,還用于判斷初始數(shù)據(jù)對(duì)應(yīng)的視頻內(nèi)容為長(zhǎng)視頻或者短視頻;其中,所述視頻內(nèi)容與制定的網(wǎng)站地圖進(jìn)行精準(zhǔn)匹配,能夠匹配到2條以上的信息的視頻內(nèi)容為長(zhǎng)視頻。
[0037]所述分詞操作模塊具體還用于,對(duì)于所述長(zhǎng)視頻的標(biāo)題去除空格和特殊符號(hào),得到關(guān)鍵詞;以及,對(duì)于所述短視頻的標(biāo)題進(jìn)行分詞處理,得到關(guān)鍵詞。
[0038]所述關(guān)鍵詞搜索模塊,使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面進(jìn)一步包括:通過設(shè)定權(quán)重來調(diào)整所述網(wǎng)站的優(yōu)先權(quán);得到的所述網(wǎng)站頁(yè)面的信息權(quán)重值與網(wǎng)站的優(yōu)先權(quán)成正比。進(jìn)一步地,所述權(quán)重的調(diào)整方式為人為設(shè)定,或者通過機(jī)器編輯。進(jìn)一步地,所述使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面后還包括:通過對(duì)所述網(wǎng)站的頁(yè)面層次進(jìn)行去噪處理,去除無效頁(yè)面和信息重復(fù)的頁(yè)面。
[0039]所述數(shù)據(jù)分析計(jì)算模塊根據(jù)視頻屬性庫(kù)的對(duì)應(yīng)字段中的所述網(wǎng)站的頁(yè)面的權(quán)重和信息重復(fù)量來計(jì)算網(wǎng)站頁(yè)面的信息權(quán)重,具體的計(jì)算公式為:信息權(quán)重=(信息重復(fù)出現(xiàn)次數(shù)*權(quán)重*0.01) /頁(yè)面數(shù)量+tag庫(kù)完全匹配次數(shù)/此次信息中總匹配成功次數(shù)。
[0040]所述顯示模塊,獲得信息權(quán)重排名最高的I至5個(gè)對(duì)應(yīng)信息,用于填寫到不同的單選或多選或手動(dòng)填寫的文本框中,進(jìn)行顯示。
[0041]本發(fā)明的數(shù)據(jù)獲取的裝置根據(jù)視頻內(nèi)容的關(guān)鍵詞進(jìn)行數(shù)據(jù)抓取和數(shù)據(jù)準(zhǔn)備,在得到抓取的數(shù)據(jù)后,對(duì)內(nèi)容進(jìn)行分析和抽取,根據(jù)模式篩選,將內(nèi)容返回到視頻的發(fā)布系統(tǒng)中便于自動(dòng)填寫,實(shí)現(xiàn)自動(dòng)數(shù)據(jù)獲取,并提高數(shù)據(jù)獲取的有效性。
[0042]上述詳細(xì)描述通過實(shí)施例和/或示意圖闡明了系統(tǒng)和/或過程的各種實(shí)施例。就這些示意圖和/或包含一個(gè)或多個(gè)功能和/或操作而言,本領(lǐng)域技術(shù)人員將理解,這些示意圖或?qū)嵤├械拿恳粋€(gè)功能和/或操作都可由各種各樣的硬件、軟件、固件、或?qū)嶋H上其任意組合來單獨(dú)地和/或共同地實(shí)現(xiàn)。
[0043]需要說明的是,本發(fā)明的一種數(shù)據(jù)獲取方法的方案的范疇包括但不限于上述各部分之間的任意組合。
[0044]盡管具體地參考其優(yōu)選實(shí)施例來示出并描述了本發(fā)明,但本領(lǐng)域的技術(shù)人員可以理解,可以做出形式和細(xì)節(jié)上的各種改變而不脫離所附權(quán)利要求書中所述的本發(fā)明的范圍。以上結(jié)合本發(fā)明的具體實(shí)施例做了詳細(xì)描述,但并非是對(duì)本發(fā)明的限制。凡是依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所做的任何簡(jiǎn)單修改,均仍屬于本發(fā)明技術(shù)方案的范圍。
【權(quán)利要求】
1.一種數(shù)據(jù)獲取方法,包括如下步驟: 步驟1、對(duì)初始數(shù)據(jù)進(jìn)行分詞,獲得與初始數(shù)據(jù)相關(guān)的關(guān)鍵詞; 步驟2、使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面; 步驟3、對(duì)所述網(wǎng)站的頁(yè)面進(jìn)行信息爬取,根據(jù)所述網(wǎng)站的頁(yè)面的源文件與正則表達(dá)式進(jìn)行正則匹配,得到匹配結(jié)果; 步驟4、將匹配結(jié)果與所述關(guān)鍵詞或者與包含有影片視頻標(biāo)簽的標(biāo)簽庫(kù)進(jìn)行比對(duì),得到各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量,分別將根據(jù)所述匹配結(jié)果得到的各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量信息放置于對(duì)應(yīng)的視頻屬性庫(kù)的對(duì)應(yīng)字段中; 步驟5、根據(jù)視頻屬性庫(kù)的對(duì)應(yīng)字段中的所述網(wǎng)站的頁(yè)面的權(quán)重和信息重復(fù)量來計(jì)算網(wǎng)站頁(yè)面的信息權(quán)重; 步驟6、把符合要求的信息權(quán)重對(duì)應(yīng)的頁(yè)面數(shù)據(jù)進(jìn)行顯示。
2.如權(quán)利要求1所述的數(shù)據(jù)獲取的方法,其特征在于,所述步驟I中包括:判斷初始數(shù)據(jù)對(duì)應(yīng)的視頻內(nèi)容為長(zhǎng)視頻或者短視頻;其中,所述視頻內(nèi)容與制定的網(wǎng)站地圖進(jìn)行精準(zhǔn)匹配,能夠匹配到2條以上的信息的視頻內(nèi)容為長(zhǎng)視頻。
3.如權(quán)利要求2所述的數(shù)據(jù)獲取的方法,其特征在于,對(duì)于所述長(zhǎng)視頻的標(biāo)題去除空格和特殊符號(hào),得到關(guān)鍵詞。
4.如權(quán)利要求2所述的數(shù)據(jù)獲取的方法,其特征在于,對(duì)于所述短視頻的標(biāo)題進(jìn)行分詞處理,得到關(guān)鍵詞。
5.如權(quán)利要求1所述的數(shù)據(jù)獲取的方法,其特征在于,所述使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面進(jìn)一步包括:通過設(shè)定權(quán)重來調(diào)整所述網(wǎng)站的優(yōu)先權(quán);得到的所述網(wǎng)站頁(yè)面的信息權(quán)重值與網(wǎng)站的優(yōu)先權(quán)成正比。
6.如權(quán)利要求5所述的數(shù)據(jù)獲取的方法,其特征在于,所述權(quán)重的調(diào)整方式為人為設(shè)定,或者通過機(jī)器編輯。
7.如權(quán)利要求1所述的數(shù)據(jù)獲取的方法,其特征在于,所述使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面后還包括:通過對(duì)所述網(wǎng)站的頁(yè)面層次進(jìn)行去噪處理,去除無效頁(yè)面和信息重復(fù)的頁(yè)面。
8.如權(quán)利要求1所述的數(shù)據(jù)獲取的方法,其特征在于,所述根據(jù)視頻屬性庫(kù)的對(duì)應(yīng)字段中的所述網(wǎng)站的頁(yè)面的權(quán)重和信息重復(fù)量來計(jì)算網(wǎng)站頁(yè)面的信息權(quán)重的計(jì)算公式為:信息權(quán)重=(信息重復(fù)出現(xiàn)次數(shù)*權(quán)重*0.01)/頁(yè)面數(shù)量+標(biāo)簽庫(kù)完全匹配次數(shù)/此次信息中總匹配成功次數(shù)。
9.如權(quán)利要求8所述的數(shù)據(jù)獲取的方法,其特征在于,獲得信息權(quán)重排名最高的I至5個(gè)對(duì)應(yīng)信息,用于填寫到不同的單選或多選或手動(dòng)填寫的文本框中,進(jìn)行顯示。
10.一種數(shù)據(jù)獲取系統(tǒng),其特征在于,所述系統(tǒng)包括如下模塊: 分詞操作模塊,用于分詞操作,得到關(guān)鍵詞; 關(guān)鍵詞搜索模塊,用于使用所述關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站的頁(yè)面; 信息爬取和匹配模塊,用于對(duì)所述網(wǎng)站的頁(yè)面進(jìn)行信息爬取,根據(jù)所述網(wǎng)站的頁(yè)面的源文件與正則表達(dá)式進(jìn)行正則匹配,得到匹配結(jié)果; 信息分類對(duì)比模塊,用于將匹配結(jié)果與所述關(guān)鍵詞或者與包含有影片視頻標(biāo)簽的標(biāo)簽庫(kù)進(jìn)行比對(duì),得到各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量,分別將根據(jù)所述匹配結(jié)果得到的各個(gè)頁(yè)面的權(quán)重和信息重復(fù)量信息放置于對(duì)應(yīng)的視頻屬性庫(kù)的對(duì)應(yīng)字段中; 數(shù)據(jù)分析計(jì)算模塊,用于進(jìn)行數(shù)據(jù)分析,根據(jù)視頻屬性庫(kù)的對(duì)應(yīng)字段中的所述網(wǎng)站的頁(yè)面的權(quán)重和信息重復(fù)量來計(jì)算信息權(quán)重; 顯示模塊,用于把符合要求的信息權(quán)重對(duì)應(yīng)的頁(yè)面數(shù)據(jù)進(jìn)行顯示。
【文檔編號(hào)】G06F17/30GK104133830SQ201410021505
【公開日】2014年11月5日 申請(qǐng)日期:2014年1月17日 優(yōu)先權(quán)日:2013年5月2日
【發(fā)明者】段光明 申請(qǐng)人:樂視網(wǎng)信息技術(shù)(北京)股份有限公司