一種應(yīng)用于網(wǎng)頁的圖片提取方法及裝置的制造方法
【專利摘要】本申請(qǐng)公開一種應(yīng)用于網(wǎng)頁的圖片提取方法及裝置。該方法中,獲取待處理的網(wǎng)頁的原始編程語言;獲取原始編程語言的語言標(biāo)簽,根據(jù)語言標(biāo)簽,濾除其中與正文無關(guān)的內(nèi)容,得到目標(biāo)編程語言;根據(jù)目標(biāo)編程語言的語言標(biāo)簽的文字密度,確定文字密度最大的語言標(biāo)簽為目標(biāo)標(biāo)簽;將目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域作為目標(biāo)區(qū)域,選擇目標(biāo)區(qū)域中的圖片作為待提取的圖片。通過本方案,無需預(yù)先知悉網(wǎng)頁的布局結(jié)構(gòu),適用范圍較寬,從而解決現(xiàn)有技術(shù)中第一種圖片提取方法具有的通用性差的問題;而且只需對(duì)待處理的網(wǎng)頁的原始編程語言進(jìn)行分析處理,與現(xiàn)有技術(shù)中第二種圖片提取方法相比,需要處理的數(shù)據(jù)較少,解決該方法所具有的開發(fā)測(cè)試周期長,計(jì)算繁瑣復(fù)雜的問題。
【專利說明】
一種應(yīng)用于網(wǎng)頁的圖片提取方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明實(shí)施例涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種應(yīng)用于網(wǎng)頁的圖片提取方法及
目.0
【背景技術(shù)】
[0002]網(wǎng)頁中通常包含圖片和文字,其中,圖片往往比文字更直觀,表現(xiàn)力更強(qiáng),能夠讓用戶獲取更多信息,因此,有些情況下需要提取網(wǎng)頁中的主圖片。其中,所述主圖片用于展示與網(wǎng)頁中正文相關(guān)的內(nèi)容。例如,在QQ和微信等聊天軟件中,若聊天內(nèi)容中包含網(wǎng)址,在聊天軟件的顯示界面上,通常會(huì)顯示該網(wǎng)址,以及該網(wǎng)址指示的網(wǎng)頁中所包含的主圖片,以便用戶不用打開該網(wǎng)址,即可根據(jù)所述主圖片知悉該網(wǎng)址指示的網(wǎng)頁描述的內(nèi)容;在進(jìn)行信息搜索時(shí),搜索結(jié)果頁面上通常會(huì)顯示相應(yīng)的超鏈接和該超鏈接指示的網(wǎng)頁中所包含的主圖片,以便用戶在未打開該超鏈接之前,即可根據(jù)所述主圖片知悉該超鏈接指示的網(wǎng)頁描述的內(nèi)容。
[0003]為了獲取主圖片,現(xiàn)在通常采用以下兩種圖片提取方法:在其中一種方法中,需要預(yù)先知悉網(wǎng)頁的布局結(jié)構(gòu),當(dāng)需要獲取主圖片時(shí),根據(jù)所述布局結(jié)構(gòu)確定所述主圖片在網(wǎng)頁中的位置,然后根據(jù)該位置提取主圖片;另一種方法主要是基于數(shù)據(jù)挖掘思想實(shí)現(xiàn),該方法中,需要對(duì)大量的網(wǎng)頁進(jìn)行分析,獲取網(wǎng)頁中各元素的樣式屬性,然后根據(jù)該樣式屬性確定其中的主圖片。
[0004]但是,發(fā)明人在本申請(qǐng)的研究過程中發(fā)現(xiàn),第一種圖片提取的方法,只能夠應(yīng)用于預(yù)先知悉布局結(jié)構(gòu)的網(wǎng)頁,通用性較差,第二種圖片提取的方法需要對(duì)大量數(shù)據(jù)進(jìn)行處理,開發(fā)測(cè)試周期長,計(jì)算繁瑣復(fù)雜。
【發(fā)明內(nèi)容】
[0005]為克服相關(guān)技術(shù)中存在的問題,本發(fā)明實(shí)施例提供一種應(yīng)用于網(wǎng)頁的圖片提取方法及裝置。
[0006]為了解決上述技術(shù)問題,本發(fā)明實(shí)施例公開了如下技術(shù)方案:
[0007]根據(jù)本發(fā)明實(shí)施例的第一方面,提供一種應(yīng)用于網(wǎng)頁的圖片提取方法,包括:
[0008]獲取待處理的網(wǎng)頁的原始編程語言;
[0009]獲取所述原始編程語言中包括的語言標(biāo)簽,并根據(jù)所述語言標(biāo)簽,濾除所述原始編程語言中與正文無關(guān)的內(nèi)容,得到目標(biāo)編程語言;
[0010]根據(jù)所述目標(biāo)編程語言中包括的語言標(biāo)簽的文字密度,確定所述文字密度最大的語言標(biāo)簽為目標(biāo)標(biāo)簽;
[0011]將所述目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域作為目標(biāo)區(qū)域,選擇所述目標(biāo)區(qū)域中的圖片作為待提取的圖片。
[0012]根據(jù)本發(fā)明實(shí)施例的第二方面,提供一種應(yīng)用于網(wǎng)頁的圖片提取裝置,包括:
[0013]原始編程語言獲取模塊,用于獲取待處理的網(wǎng)頁的原始編程語言;
[0014]濾除模塊,用于獲取所述原始編程語言中包括的語言標(biāo)簽,并根據(jù)所述語言標(biāo)簽,濾除所述原始編程語言中與正文無關(guān)的內(nèi)容,得到目標(biāo)編程語言;
[0015]目標(biāo)標(biāo)簽確定模塊,用于根據(jù)所述目標(biāo)編程語言中包括的語言標(biāo)簽的文字密度,確定所述文字密度最大的語言標(biāo)簽為目標(biāo)標(biāo)簽;
[0016]圖片選擇模塊,用于將所述目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域作為目標(biāo)區(qū)域,選擇所述目標(biāo)區(qū)域中的圖片作為待提取的圖片。
[0017]本發(fā)明的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
[0018]本申請(qǐng)公開的應(yīng)用于網(wǎng)頁的圖片提取方法及裝置,無需預(yù)先知悉網(wǎng)頁的布局結(jié)構(gòu),適用范圍較寬,從而解決了現(xiàn)有技術(shù)中第一種圖片提取方法具有的通用性差的問題;另夕卜,本申請(qǐng)公開的方法只需對(duì)待處理的網(wǎng)頁的原始編程語言進(jìn)行分析處理,與現(xiàn)有技術(shù)中第二種圖片提取方法相比,需要處理的數(shù)據(jù)較少,處理過程較為簡單,從而解決了該方法所具有的開發(fā)測(cè)試周期長,計(jì)算繁瑣復(fù)雜的問題。
[0019]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。
【附圖說明】
[0020]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實(shí)施例,并與說明書一起用于解釋本發(fā)明的原理。
[0021]圖1是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種應(yīng)用于網(wǎng)頁的圖片提取方法的工作流程示意圖;
[0022]圖2是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種應(yīng)用于網(wǎng)頁的圖片提取方法中語言標(biāo)簽與文字密度的對(duì)應(yīng)關(guān)系示意圖;
[0023]圖3是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種應(yīng)用于網(wǎng)頁的圖片提取方法中,選擇目標(biāo)區(qū)域中的圖片作為待提取的圖片的工作流程示意圖;
[0024]圖4是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種應(yīng)用于網(wǎng)頁的圖片提取裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0025]這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
[0026]本申請(qǐng)公開一種應(yīng)用于網(wǎng)頁的圖片提取方法及裝置,以解決依靠現(xiàn)有技術(shù)提取圖片時(shí),第一種圖片提取方法具有的通用性差,以及第二種圖片提取方法所具有的開發(fā)測(cè)試周期長,計(jì)算繁瑣復(fù)雜的問題。
[0027]本申請(qǐng)的實(shí)施例一公開一種應(yīng)用于網(wǎng)頁的圖片提取方法。參見圖1所示的工作流程示意圖,所述應(yīng)用于網(wǎng)頁的圖片提取方法包括以下步驟:
[0028]步驟S11、獲取待處理的網(wǎng)頁的原始編程語言。
[0029]本申請(qǐng)公開的方案能夠支持多種類型的原始編程語言。例如,所述原始編程語言可以為html(HyperText Markup Language,超級(jí)文本標(biāo)記語言)。
[0030]步驟S12、獲取所述原始編程語言中包括的語言標(biāo)簽,并根據(jù)所述語言標(biāo)簽,濾除所述原始編程語言中與正文無關(guān)的內(nèi)容,得到目標(biāo)編程語言。
[0031]其中,語言標(biāo)簽為原始編程語言中的基本單位。若所述原始編程語言為html,則所述語言標(biāo)簽為html標(biāo)簽。
[0032]在原始編程語言中,通常包含多種語言標(biāo)簽,例如,在html標(biāo)簽中,包含有javascript標(biāo)簽、css標(biāo)簽和di V標(biāo)簽等。
[0033]步驟S13、根據(jù)所述目標(biāo)編程語言中包括的語言標(biāo)簽的文字密度,確定所述文字密度最大的語言標(biāo)簽為目標(biāo)標(biāo)簽。
[0034]在網(wǎng)頁中,往往包含正文區(qū)域和非正文區(qū)域。在非正文區(qū)域中,通常包含有廣告和網(wǎng)頁標(biāo)志等。而正文區(qū)域中,往往包含文字部分和穿插在文字中的一些圖片。另外,正文區(qū)域中由于包含大量文字,通常文字密度會(huì)大于非正文區(qū)域。因此,該步驟中通過文字密度確定目標(biāo)標(biāo)簽,所述目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域即為正文區(qū)域。
[0035]在步驟S12中,根據(jù)語言標(biāo)簽,濾除了原始編程語言中與正文無關(guān)的內(nèi)容。為了避免剩余的原始編程語言中由于語言標(biāo)簽使用錯(cuò)誤,仍然存在與正文無關(guān)的內(nèi)容,在步驟S13中,依據(jù)文字密度進(jìn)一步確定目標(biāo)標(biāo)簽,其中,所述目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域即為正文區(qū)域,從而提高了獲取正文區(qū)域的正確率。
[0036]步驟S14、將所述目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域作為目標(biāo)區(qū)域,選擇所述目標(biāo)區(qū)域中的圖片作為待提取的圖片。
[0037]其中,所述目標(biāo)區(qū)域指示的區(qū)域即為正文區(qū)域,所述待提取的圖片即為主圖片(SP用于展示與網(wǎng)頁中正文相關(guān)的內(nèi)容的圖片)。在網(wǎng)頁中,待提取的圖片一般位于正文區(qū)域中。本申請(qǐng)中,通過目標(biāo)標(biāo)簽實(shí)現(xiàn)對(duì)目標(biāo)區(qū)域的定位,再從所述目標(biāo)區(qū)域中選擇待提取的圖片。
[0038]本申請(qǐng)的步驟Sll至步驟S14公開一種應(yīng)用于網(wǎng)頁的圖片提取方法,該方法中,獲取待處理的網(wǎng)頁的原始編程語言后,根據(jù)所述原始編程語言中包含的語言標(biāo)簽,濾除所述原始編程語言中與正文無關(guān)的內(nèi)容,將剩余的原始編程語言作為目標(biāo)編程語言,再獲取所述目標(biāo)編程語言中包含的各個(gè)語言標(biāo)簽的文字密度,確定文字密度最大的語言標(biāo)簽為目標(biāo)標(biāo)簽,將所述目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域作為目標(biāo)區(qū)域,并從所述目標(biāo)區(qū)域中選擇待提取的圖片。
[0039]本申請(qǐng)公開的應(yīng)用于網(wǎng)頁的圖片提取方法,無需預(yù)先知悉網(wǎng)頁的布局結(jié)構(gòu),適用范圍較寬,從而解決了現(xiàn)有技術(shù)中第一種圖片提取方法具有的通用性差的問題;另外,本申請(qǐng)公開的方法只需對(duì)待處理的網(wǎng)頁的原始編程語言進(jìn)行分析處理,與現(xiàn)有技術(shù)中第二種圖片提取方法相比,需要處理的數(shù)據(jù)較少,處理過程較為簡單,從而解決了該方法所具有的開發(fā)測(cè)試周期長,計(jì)算繁瑣復(fù)雜的問題。
[0040]進(jìn)一步的,所述獲取所述原始編程語言中包括的語言標(biāo)簽,并根據(jù)所述語言標(biāo)簽,濾除所述原始編程語言中與正文無關(guān)的內(nèi)容,得到目標(biāo)編程語言,包括以下步驟:
[0041 ]首先,獲取所述原始編程語言中包含的語言標(biāo)簽后,生成DOM樹,其中,所述DOM樹的節(jié)點(diǎn)為所述原始編程語言中包含的語言標(biāo)簽;然后,遍歷所述DOM樹,查找所述DOM樹中與正文無關(guān)的語言標(biāo)簽,并濾除所述與正文無關(guān)的語言標(biāo)簽指示的編程語言,將剩余的編程語言作為目標(biāo)編程語言。
[0042]本申請(qǐng)中,通?;贒OM樹的算法濾除原始編程語言中與正文無關(guān)的內(nèi)容。在網(wǎng)頁中,通常由正文內(nèi)容和非正文內(nèi)容共同組成,在非正文區(qū)域中,往往包含有廣告和網(wǎng)頁標(biāo)志等,正文區(qū)域中,往往包含文字部分和圖片部分。而正文區(qū)域和非正文區(qū)域?qū)?yīng)的原始編程語言中,均包含語言標(biāo)簽。
[0043]在基于DOM樹的算法濾除原始編程語言中與正文無關(guān)的內(nèi)容時(shí),會(huì)根據(jù)原始編程語言中包含的各個(gè)語言標(biāo)簽創(chuàng)建DOM樹,其中,DOM樹中的各個(gè)節(jié)點(diǎn)為語言標(biāo)簽。然后,對(duì)所述DOM樹進(jìn)行遍歷,查找所述DOM樹中與正文無關(guān)的語言標(biāo)簽,并濾除所述與正文無關(guān)的語言標(biāo)簽指示的內(nèi)容。所述與正文無關(guān)的語言標(biāo)簽指示的內(nèi)容,即為所述原始編程語言中與正文無關(guān)的內(nèi)容。
[0044]另外,在本申請(qǐng)的步驟S13中,在根據(jù)文字密度確定目標(biāo)標(biāo)簽時(shí),往往需要確定各語言標(biāo)簽間的等級(jí)從屬關(guān)系。在本申請(qǐng)中,確定不包含其他語言標(biāo)簽的語言標(biāo)簽作為最細(xì)粒度語言標(biāo)簽。并且若某一語言標(biāo)簽包含所述最細(xì)粒度語言標(biāo)簽,則將該語言標(biāo)簽作為二級(jí)語言標(biāo)簽,若某一語言標(biāo)簽包含所述二級(jí)語言標(biāo)簽,則該語言標(biāo)簽為三級(jí)語言標(biāo)簽,并依此類推。本申請(qǐng)中,若文字密度最大的語言標(biāo)簽為多個(gè),則所述目標(biāo)標(biāo)簽為其中最低等級(jí)的語言標(biāo)簽。
[0045]參見圖2所示的各語言標(biāo)簽對(duì)應(yīng)的文字密度的對(duì)應(yīng)關(guān)系示意圖。該示意圖中,橫軸表示語言標(biāo)簽,縱軸表示文字密度。在該示意圖中,第28至第31個(gè)語言標(biāo)簽的文字密度最大,若第28個(gè)語言標(biāo)簽中未包含其他語言標(biāo)簽,而且第29個(gè)語言標(biāo)簽包含所述第28個(gè)語言標(biāo)簽,第30個(gè)語言標(biāo)簽包含所述第29個(gè)語言標(biāo)簽,第31個(gè)語言標(biāo)簽包含所述第30個(gè)語言標(biāo)簽,即第28個(gè)語言標(biāo)簽為最細(xì)粒度語言標(biāo)簽,且第29個(gè)語言標(biāo)簽為二級(jí)語言標(biāo)簽,第30個(gè)語言標(biāo)簽為三級(jí)語言標(biāo)簽,第31個(gè)語言標(biāo)簽為四級(jí)語言標(biāo)簽。這種情況下,由于第28個(gè)語言標(biāo)簽為其中等級(jí)最低的語言標(biāo)簽,則第28個(gè)語言標(biāo)簽為目標(biāo)語言標(biāo)簽。
[0046]進(jìn)一步的,本申請(qǐng)的步驟S14中,公開了選擇所述目標(biāo)區(qū)域中的圖片作為待提取的圖片的操作。參見圖3所示的工作流程示意圖,所述選擇所述目標(biāo)區(qū)域中的圖片作為待提取的圖片,包括以下步驟:
[0047]步驟S21、獲取所述目標(biāo)區(qū)域中包含的圖片,將所述目標(biāo)區(qū)域中包含的圖片作為目標(biāo)圖片;
[0048]步驟S22、將所述目標(biāo)圖片的數(shù)量與m作比較,其中,m為待提取的圖片的預(yù)設(shè)值,判斷所述目標(biāo)圖片的數(shù)量是否大于m,若否,即所述目標(biāo)圖片的數(shù)量不大于m,執(zhí)行步驟S23的操作,若是,即所述目標(biāo)圖片的數(shù)量大于m,執(zhí)行步驟S24的操作。
[0049]步驟S23、若所述目標(biāo)圖片的數(shù)量不大于m,確定所述目標(biāo)圖片為所述待提取的圖片。
[0050]步驟S24、若所述目標(biāo)圖片的數(shù)量大于m,濾除所述目標(biāo)圖片中的圖片,根據(jù)濾除后的剩余圖片確定所述待提取的圖片。
[0051]在該步驟中,通常通過各個(gè)目標(biāo)圖片的面積進(jìn)行過濾。這種情況下,在濾除操作中,會(huì)濾除所述目標(biāo)圖片中面積小于預(yù)設(shè)閾值的圖片。
[0052]不同應(yīng)用場(chǎng)景下,可能需要提取不同數(shù)量的圖片。例如,在進(jìn)行信息搜索時(shí),搜索結(jié)果頁面上通常顯示相應(yīng)的超鏈接,以及從所述超鏈接指示的網(wǎng)頁中提取的圖片,該圖片用于描述與網(wǎng)頁中正文相關(guān)的內(nèi)容,這種情況下,若只需要提取一張圖片,則待提取的圖片的預(yù)設(shè)值m為I,另外,若需要在每個(gè)超鏈接處顯示兩張圖片,則待提取的圖片的預(yù)設(shè)值m為2。當(dāng)然,所述待提取的圖片的預(yù)設(shè)值m也可以為其他數(shù)值,本申請(qǐng)對(duì)此不做限定。
[0053]若目標(biāo)圖片的數(shù)量不大于m,例如,目標(biāo)區(qū)域中只有一張圖片,而本次待提取的圖片的預(yù)設(shè)值為I,則直接確定所述目標(biāo)圖片為所述待提取的圖片。
[0054]另外,有些網(wǎng)頁的正文區(qū)域中,包含有多張圖片,例如,在賽事點(diǎn)評(píng)類的網(wǎng)頁中,正文區(qū)域通常包含多張比賽過程中的圖片。因此,所述目標(biāo)圖片的數(shù)量有時(shí)會(huì)大于m。這種情況下,需要對(duì)所述目標(biāo)圖片進(jìn)行再次過濾,以濾除所述目標(biāo)圖片中的圖片,根據(jù)濾除后的剩余圖片確定所述待提取的圖片。再次過濾時(shí),通常會(huì)濾除目標(biāo)圖片中面積小于預(yù)設(shè)閾值的圖片。例如,預(yù)設(shè)閾值為長寬為75*75像素,則再次過濾時(shí),會(huì)濾除目標(biāo)圖片中面積小于75*75像素的圖片。
[0055]進(jìn)一步的,所述根據(jù)濾除后的剩余圖片確定所述待提取的圖片,包括以下步驟:
[0056]首先,判斷所述濾除后的剩余圖片的數(shù)量是否大于m,其中,m為待提取的圖片的預(yù)設(shè)值;然后,若所述濾除后的剩余圖片的數(shù)量不大于m,則確定所述濾除后的剩余圖片為所述待提取的圖片,若所述濾除后的剩余圖片的數(shù)量大于m,將所述濾除后的剩余圖片的描述信息與所述網(wǎng)頁的描述內(nèi)容進(jìn)行內(nèi)容匹配,并根據(jù)匹配程度確定所述剩余圖片中的m張圖片為所述待提取的圖片。
[0057]其中,所述剩余圖片的描述信息為所述剩余圖片的title屬性信息和/或alt屬性
?目息O
[0058]若目標(biāo)圖片的數(shù)量大于m,且在過濾操作之后,濾除后的剩余圖片的數(shù)量大于m,則進(jìn)一步根據(jù)剩余圖片的描述信息與網(wǎng)頁的描述內(nèi)容之間的匹配程度進(jìn)行過濾。其中,匹配程度較高的m張圖片即為所述待提取的圖片。
[0059]相應(yīng)的,本申請(qǐng)的第二實(shí)施例公開一種應(yīng)用于網(wǎng)頁的圖片提取裝置,參見圖4所示的結(jié)構(gòu)示意圖,所述應(yīng)用于網(wǎng)頁的圖片提取裝置包括:原始編程語言獲取模塊100、濾除模塊200、目標(biāo)標(biāo)簽確定模塊300和圖片選擇模塊400。
[0060]其中,所述原始編程語言獲取模塊100,用于獲取待處理的網(wǎng)頁的原始編程語言。
[0061]所述濾除模塊200,用于獲取所述原始編程語言中包括的語言標(biāo)簽,并根據(jù)所述語言標(biāo)簽,濾除所述原始編程語言中與正文無關(guān)的內(nèi)容,得到目標(biāo)編程語言。
[0062]所述目標(biāo)標(biāo)簽確定模塊300,用于根據(jù)所述目標(biāo)編程語言中包括的語言標(biāo)簽的文字密度,確定所述文字密度最大的語言標(biāo)簽為目標(biāo)標(biāo)簽。
[0063]在網(wǎng)頁中,往往包含正文區(qū)域和非正文區(qū)域。在非正文區(qū)域中,往往包含有廣告和網(wǎng)頁標(biāo)志等。而正文區(qū)域中,往往包含文字部分和穿插在文字中的一些圖片。另外,正文區(qū)域中由于包含大量文字,通常文字密度會(huì)大于非正文區(qū)域。因此,該步驟中通過文字密度確定目標(biāo)標(biāo)簽,所述目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域即為正文區(qū)域。
[0064]所述圖片選擇模塊400,用于將所述目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域作為目標(biāo)區(qū)域,選擇所述目標(biāo)區(qū)域中的圖片作為待提取的圖片。
[0065]其中,所述目標(biāo)區(qū)域指示的區(qū)域即為正文區(qū)域,所述待提取的圖片即為主圖片(SP用于展示與網(wǎng)頁中正文相關(guān)的內(nèi)容的圖片)。在網(wǎng)頁中,待提取的圖片一般位于正文區(qū)域中。本申請(qǐng)中,通過目標(biāo)標(biāo)簽實(shí)現(xiàn)對(duì)目標(biāo)區(qū)域的定位,再從所述目標(biāo)區(qū)域中選擇待提取的圖片。
[0066]進(jìn)一步的,所述濾除模塊200包括:
[0067]DOM樹生成單元,用于獲取所述原始編程語言中包含的語言標(biāo)簽后,生成DOM樹,其中,所述DOM樹的節(jié)點(diǎn)為所述原始編程語言中包含的語言標(biāo)簽;
[0068]DOM樹遍歷單元,用于遍歷所述DOM樹,查找所述DOM樹中與正文無關(guān)的語言標(biāo)簽,并濾除所述與正文無關(guān)的語言標(biāo)簽指示的編程語言,將剩余的編程語言作為目標(biāo)編程語言。
[0069]在基于DOM樹的算法濾除原始編程語言中與正文無關(guān)的內(nèi)容時(shí),會(huì)根據(jù)原始編程語言中包含的各個(gè)語言標(biāo)簽創(chuàng)建DOM樹,其中,DOM樹中的各個(gè)節(jié)點(diǎn)為語言標(biāo)簽。然后,對(duì)所述DOM樹進(jìn)行遍歷,查找所述DOM樹中與正文無關(guān)的語言標(biāo)簽,并濾除所述與正文無關(guān)的語言標(biāo)簽指示的內(nèi)容。所述與正文無關(guān)的語言標(biāo)簽指示的內(nèi)容,即為所述原始編程語言中與正文無關(guān)的內(nèi)容。
[0070]進(jìn)一步的,所述圖片選擇模塊400包括:
[0071]目標(biāo)圖片獲取子模塊,用于獲取所述目標(biāo)區(qū)域中包含的圖片,將所述目標(biāo)區(qū)域中包含的圖片作為目標(biāo)圖片;
[0072]第一確定子模塊,用于若所述目標(biāo)圖片的數(shù)量不大于m,確定所述目標(biāo)圖片為所述待提取的圖片;
[0073]第二確定子模塊,用于若所述目標(biāo)圖片的數(shù)量大于m,濾除所述目標(biāo)圖片中的圖片,根據(jù)濾除后的剩余圖片確定所述待提取的圖片;
[0074]其中,m為待提取的圖片的預(yù)設(shè)值。
[0075]不同應(yīng)用場(chǎng)景下,可能需要提取不同數(shù)量的圖片。例如,在進(jìn)行信息搜索時(shí),搜索結(jié)果頁面上通常顯示相應(yīng)的超鏈接,以及從所述超鏈接指示的網(wǎng)頁中提取的圖片,該圖片用于描述與網(wǎng)頁中正文相關(guān)的內(nèi)容,這種情況下,若只需要提取一張圖片,則待提取的圖片的預(yù)設(shè)值m為I,另外,若需要在每個(gè)超鏈接處顯示兩張圖片,則待提取的圖片的預(yù)設(shè)值m為
2。當(dāng)然,所述待提取的圖片的預(yù)設(shè)值m也可以為其他數(shù)值,本申請(qǐng)對(duì)此不做限定。
[0076]但是,在有些網(wǎng)頁的正文區(qū)域中,包含有多張圖片,因此,所述目標(biāo)圖片的數(shù)量有時(shí)會(huì)大于m。這種情況下,需要對(duì)所述目標(biāo)圖片進(jìn)行再次過濾,以濾除所述目標(biāo)圖片中的圖片,根據(jù)濾除后的剩余圖片確定所述待提取的圖片。再次過濾時(shí),通常會(huì)濾除目標(biāo)圖片中面積小于預(yù)設(shè)閾值的圖片。例如,預(yù)設(shè)閾值為長寬為75*75像素,則再次過濾時(shí),會(huì)濾除目標(biāo)圖片中面積小于75*75像素的圖片。
[0077]進(jìn)一步的,所述第二確定子模塊包括:
[0078]判斷單元,用于判斷所述濾除后的剩余圖片的數(shù)量是否大于m;
[0079]第一確定單元,用于若所述濾除后的剩余圖片的數(shù)量不大于m,則確定所述濾除后的剩余圖片為所述待提取的圖片;
[0080]第二確定單元,用于若所述濾除后的剩余圖片的數(shù)量大于m,將所述濾除后的剩余圖片的描述信息與所述網(wǎng)頁的描述內(nèi)容進(jìn)行內(nèi)容匹配,并根據(jù)匹配程度確定所述剩余圖片中的m張圖片為所述待提取的圖片。
[0081]其中,所述剩余圖片的描述信息為所述剩余圖片的title屬性信息和/或alt屬性
?目息O
[0082]本申請(qǐng)公開的應(yīng)用于網(wǎng)頁的圖片提取裝置,無需預(yù)先知悉網(wǎng)頁的布局結(jié)構(gòu),適用范圍較寬,從而解決了現(xiàn)有技術(shù)中第一種圖片提取方法具有的通用性差的問題;另外,本申請(qǐng)公開的方法只需對(duì)待處理的網(wǎng)頁的原始編程語言進(jìn)行分析處理,與現(xiàn)有技術(shù)中第二種圖片提取方法相比,需要處理的數(shù)據(jù)較少,處理過程較為簡單,從而解決了該方法所具有的開發(fā)測(cè)試周期長,計(jì)算繁瑣復(fù)雜的問題。
[0083]關(guān)于上述實(shí)施例中的裝置,其中各個(gè)模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實(shí)施例中進(jìn)行了詳細(xì)描述,此處將不做詳細(xì)闡述說明。
[0084]本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本發(fā)明實(shí)施例未公開的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
[0085]應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。
【主權(quán)項(xiàng)】
1.一種應(yīng)用于網(wǎng)頁的圖片提取方法,其特征在于,包括: 獲取待處理的網(wǎng)頁的原始編程語言; 獲取所述原始編程語言中包括的語言標(biāo)簽,并根據(jù)所述語言標(biāo)簽,濾除所述原始編程語言中與正文無關(guān)的內(nèi)容,得到目標(biāo)編程語言; 根據(jù)所述目標(biāo)編程語言中包括的語言標(biāo)簽的文字密度,確定所述文字密度最大的語言標(biāo)簽為目標(biāo)標(biāo)簽; 將所述目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域作為目標(biāo)區(qū)域,選擇所述目標(biāo)區(qū)域中的圖片作為待提取的圖片。2.根據(jù)權(quán)利要求1所述的應(yīng)用于網(wǎng)頁的圖片提取方法,其特征在于,所述獲取所述原始編程語言中包括的語言標(biāo)簽,并根據(jù)所述語言標(biāo)簽,濾除所述原始編程語言中與正文無關(guān)的內(nèi)容,得到目標(biāo)編程語言,包括: 獲取所述原始編程語言中包含的語言標(biāo)簽后,生成DOM樹,其中,所述DOM樹的節(jié)點(diǎn)為所述原始編程語言中包含的語言標(biāo)簽; 遍歷所述DOM樹,查找所述DOM樹中與正文無關(guān)的語言標(biāo)簽,并濾除所述與正文無關(guān)的語言標(biāo)簽指示的編程語言,將剩余的編程語言作為目標(biāo)編程語言。3.根據(jù)權(quán)利要求1所述的應(yīng)用于網(wǎng)頁的圖片提取方法,其特征在于,所述選擇所述目標(biāo)區(qū)域中的圖片作為待提取的圖片,包括: 獲取所述目標(biāo)區(qū)域中包含的圖片,將所述目標(biāo)區(qū)域中包含的圖片作為目標(biāo)圖片; 若所述目標(biāo)圖片的數(shù)量不大于m,確定所述目標(biāo)圖片為所述待提取的圖片; 若所述目標(biāo)圖片的數(shù)量大于m,濾除所述目標(biāo)圖片中的圖片,根據(jù)濾除后的剩余圖片確定所述待提取的圖片; 其中,m為待提取的圖片的預(yù)設(shè)值。4.根據(jù)權(quán)利要求3所述的應(yīng)用于網(wǎng)頁的圖片提取方法,其特征在于,所述根據(jù)濾除后的剩余圖片確定所述待提取的圖片包括: 判斷所述濾除后的剩余圖片的數(shù)量是否大于m; 若所述濾除后的剩余圖片的數(shù)量不大于m,則確定所述濾除后的剩余圖片為所述待提取的圖片; 若所述濾除后的剩余圖片的數(shù)量大于m,將所述濾除后的剩余圖片的描述信息與所述網(wǎng)頁的描述內(nèi)容進(jìn)行內(nèi)容匹配,并根據(jù)匹配程度確定所述剩余圖片中的m張圖片為所述待提取的圖片。5.根據(jù)權(quán)利要求4所述的應(yīng)用于網(wǎng)頁的圖片提取方法,其特征在于,所述剩余圖片的描述信息為所述剩余圖片的t i 11 e屬性信息和/或a 11屬性信息。6.—種應(yīng)用于網(wǎng)頁的圖片提取裝置,其特征在于,包括: 原始編程語言獲取模塊,用于獲取待處理的網(wǎng)頁的原始編程語言; 濾除模塊,用于獲取所述原始編程語言中包括的語言標(biāo)簽,并根據(jù)所述語言標(biāo)簽,濾除所述原始編程語言中與正文無關(guān)的內(nèi)容,得到目標(biāo)編程語言; 目標(biāo)標(biāo)簽確定模塊,用于根據(jù)所述目標(biāo)編程語言中包括的語言標(biāo)簽的文字密度,確定所述文字密度最大的語言標(biāo)簽為目標(biāo)標(biāo)簽; 圖片選擇模塊,用于將所述目標(biāo)標(biāo)簽指示的網(wǎng)頁區(qū)域作為目標(biāo)區(qū)域,選擇所述目標(biāo)區(qū)域中的圖片作為待提取的圖片。7.根據(jù)權(quán)利要求6所述的應(yīng)用于網(wǎng)頁的圖片提取裝置,其特征在于,所述濾除模塊包括: DOM樹生成單元,用于獲取所述原始編程語言中包含的語言標(biāo)簽后,生成DOM樹,其中,所述DOM樹的節(jié)點(diǎn)為所述原始編程語言中包含的語言標(biāo)簽; DOM樹遍歷單元,用于遍歷所述DOM樹,查找所述DOM樹中與正文無關(guān)的語言標(biāo)簽,并濾除所述與正文無關(guān)的語言標(biāo)簽指示的編程語言,將剩余的編程語言作為目標(biāo)編程語言。8.根據(jù)權(quán)利要求6所述的應(yīng)用于網(wǎng)頁的圖片提取裝置,其特征在于,所述圖片選擇模塊包括: 目標(biāo)圖片獲取子模塊,用于獲取所述目標(biāo)區(qū)域中包含的圖片,將所述目標(biāo)區(qū)域中包含的圖片作為目標(biāo)圖片; 第一確定子模塊,用于若所述目標(biāo)圖片的數(shù)量不大于m,確定所述目標(biāo)圖片為所述待提取的圖片; 第二確定子模塊,用于若所述目標(biāo)圖片的數(shù)量大于m,濾除所述目標(biāo)圖片中的圖片,根據(jù)濾除后的剩余圖片確定所述待提取的圖片; 其中,m為待提取的圖片的預(yù)設(shè)值。9.根據(jù)權(quán)利要求8所述的應(yīng)用于網(wǎng)頁的圖片提取裝置,其特征在于,所述第二確定子模塊包括: 判斷單元,用于判斷所述濾除后的剩余圖片的數(shù)量是否大于m; 第一確定單元,用于若所述濾除后的剩余圖片的數(shù)量不大于m,則確定所述濾除后的剩余圖片為所述待提取的圖片; 第二確定單元,用于若所述濾除后的剩余圖片的數(shù)量大于m,將所述濾除后的剩余圖片的描述信息與所述網(wǎng)頁的描述內(nèi)容進(jìn)行內(nèi)容匹配,并根據(jù)匹配程度確定所述剩余圖片中的m張圖片為所述待提取的圖片。10.根據(jù)權(quán)利要求9所述的應(yīng)用于網(wǎng)頁的圖片提取裝置,其特征在于,所述剩余圖片的描述信息為所述剩余圖片的title屬性信息和/或alt屬性信息。
【文檔編號(hào)】G06F17/30GK105868346SQ201610184168
【公開日】2016年8月17日
【申請(qǐng)日】2016年3月28日
【發(fā)明人】謝曉靜
【申請(qǐng)人】樂視控股(北京)有限公司, 樂視網(wǎng)信息技術(shù)(北京)股份有限公司