專利名稱:一種文本內(nèi)容提取方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種文本內(nèi)容提取方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,瀏覽網(wǎng)頁(yè)逐漸成為人們獲取信息的主要手段,而在所有接觸的頁(yè)面信息中,文本信息又占了其中的主要部分。如何有效的提取頁(yè)面中的文本信息是很重要的,因?yàn)槿绻麑⑽谋镜膬?nèi)容全部提取出來(lái),其中必然會(huì)摻雜許多不必要的內(nèi)容,如廣告信息、導(dǎo)航信息等等,這些信息通常是大量重復(fù)的,而且并不是用戶感興趣和需要的內(nèi)容;再者,大量重復(fù)和無(wú)效的信息也會(huì)降低文本聚類和文本分類的準(zhǔn)確性,會(huì)加大內(nèi)容檢索的工作量。而在不同的網(wǎng)頁(yè)中,頁(yè)面的排版和布局是多種多樣的,若單從模塊或位置進(jìn)行劃分,則很難準(zhǔn)確的獲取有效的文本信息。目前,文本內(nèi)容的提取手段是將輸入網(wǎng)頁(yè)分解為多個(gè)模塊,并通過(guò)計(jì)算每個(gè)模塊的綜合得分來(lái)確定對(duì)應(yīng)模塊是否為內(nèi)容模塊。其中,綜合得分的計(jì)算方式為綜合得分=位置得分X文字長(zhǎng)度/鏈接文字長(zhǎng)度,然而,該計(jì)算方式仍然不夠精確,并不能準(zhǔn)確對(duì)內(nèi)容進(jìn)行劃分。所以,目前如何能提供一種文本提取方法,實(shí)現(xiàn)對(duì)文本內(nèi)容的準(zhǔn)確提取成為目前亟待解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明提供一種文本內(nèi)容提取方法和裝置,用以解決現(xiàn)有技術(shù)中采用的文本內(nèi)容提取方法不能準(zhǔn)確提取文本內(nèi)容的問(wèn)題。為了解決上述問(wèn)題,本發(fā)明采用的技術(shù)方案如下一方面,本發(fā)明提供一種文本內(nèi)容提取方法,包括將輸入的超文本標(biāo)記語(yǔ)言HTML網(wǎng)頁(yè)分解為多個(gè)模塊,根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置,確定各模塊的位置得分,并計(jì)算各模塊的文本長(zhǎng)度;提取各模塊包含的鏈接地址,統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容,將包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接,將不包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接;根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度,確定各模塊的綜合得分,并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。進(jìn)一步地,本發(fā)明所述方法中,使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊。進(jìn)一步地,本發(fā)明所述方法中,若分解得到的模塊還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況,則對(duì)分解后的模塊繼續(xù)分解。進(jìn)一步地,本發(fā)明所述方法中,在標(biāo)記有效鏈接和無(wú)效鏈接時(shí),統(tǒng)一計(jì)算各鏈接內(nèi)的文字長(zhǎng)度;或者,在確定各模塊的綜合得分時(shí),分別計(jì)算各模塊包含的每個(gè)鏈接內(nèi)的文字長(zhǎng)度。進(jìn)一步地,本發(fā)明所述方法中,計(jì)算各模塊的文本長(zhǎng)度具體包括對(duì)于每個(gè)模塊,提取出模塊的HTML標(biāo)簽,根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息,計(jì)算該文本信息的長(zhǎng)度,得到對(duì)應(yīng)模塊的文本長(zhǎng)度;進(jìn)一步地,本發(fā)明所述方法中,通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。另一方面,本發(fā)明還提供一種文本內(nèi)容提取裝置,包括網(wǎng)頁(yè)處理單元,用于將輸入的超文本標(biāo)記語(yǔ)言HTML網(wǎng)頁(yè)分解為多個(gè)模塊,根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置,確定各模塊的位置得分,并計(jì)算各模塊的文本長(zhǎng)度;標(biāo)記處理單元,用于提取各模塊包含的鏈接地址,統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容,將包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接,將不包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接;內(nèi)容提取單元,用于根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度,確定各模塊的綜合得分,并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。進(jìn)一步地,本發(fā)明所述裝置中,所述網(wǎng)頁(yè)處理單元,具體用于使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊。進(jìn)一步地,本發(fā)明所述裝置中,所述網(wǎng)頁(yè)處理單元,還用于判斷分解得到的模塊是否還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況,若是,則對(duì)分解后的模塊繼續(xù)分解。進(jìn)一步地,本發(fā)明所述裝置中,所述標(biāo)記處理單元,還用于在標(biāo)記有效鏈接和無(wú)效鏈接時(shí),統(tǒng)一計(jì)算各鏈接內(nèi)的文字長(zhǎng)度;或者,所述內(nèi)容提取單元,還用于在確定各模塊的綜合得分時(shí),分別計(jì)算各模塊包含的每個(gè)鏈接內(nèi)的文字長(zhǎng)度。進(jìn)一步地,本發(fā)明所述裝置中,所述網(wǎng)頁(yè)處理單元,具體用于對(duì)于每個(gè)模塊,提取出模塊的HTML標(biāo)簽,根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息,計(jì)算該文本信息的長(zhǎng)度,得到對(duì)應(yīng)模塊的文本長(zhǎng)度;進(jìn)一步地,本發(fā)明所述裝置中,所述標(biāo)記處理單元,具體用于通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。與現(xiàn)有技術(shù)相比,本發(fā)明有益效果如下本發(fā)明所述方法和裝置,使用了普通文本同有效鏈接文字長(zhǎng)度之和與無(wú)效鏈接文字長(zhǎng)度的比例,能夠更為準(zhǔn)確的對(duì)HTML網(wǎng)頁(yè)的內(nèi)容進(jìn)行提取,去除了冗余的廣告等信息,使得后面的分詞階段的工作量大大降低,提高了文本聚類和文本分類、自動(dòng)摘要的準(zhǔn)確性。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種文本內(nèi)容提取方法的流程圖;圖2為本發(fā)明實(shí)施例中網(wǎng)頁(yè)布局示意圖;圖3為本發(fā)明實(shí)施例提供的文本內(nèi)容提取方法具體流程圖4為本發(fā)明實(shí)施例提供的一種文本內(nèi)容提取裝置的結(jié)構(gòu)框圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。為了解決現(xiàn)有技術(shù)中采用的文本內(nèi)容提取方法不能準(zhǔn)確提取文本內(nèi)容的問(wèn)題,本發(fā)明實(shí)施例提供一種文本內(nèi)容提取方法和裝置。如圖1所示,本發(fā)明實(shí)施例提供的一種文本內(nèi)容提取方法,具體包括步驟S101,將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊,根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置,確定各模塊的位置得分,并計(jì)算各模塊的文本長(zhǎng)度;該步驟中,優(yōu)選地,使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊。進(jìn)一步地,該步驟中,若分解得到的模塊還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況,則對(duì)分解后的模塊繼續(xù)分解。其中,標(biāo)簽混雜目前主流的頁(yè)面布局方式主要分為兩種,即通過(guò)〈Table〉標(biāo)簽或<Div>標(biāo)簽進(jìn)行頁(yè)面結(jié)構(gòu)上的布局劃分,但在編輯頁(yè)面內(nèi)容時(shí),這兩個(gè)標(biāo)簽也可能互相包含,即米用〈Table〉布局的頁(yè)面中可能包含<Div>標(biāo)簽,同樣米用<Div>布局的頁(yè)面中也可能包含<Talbe>標(biāo)簽;另外,標(biāo)簽混雜也指控制結(jié)構(gòu)的標(biāo)簽(如<Table>、〈hl>)和控制表現(xiàn)的標(biāo)簽(如<font>、〈b>)混雜在一起使用,造成改版和數(shù)據(jù)劃分的困難。本發(fā)明中由于是需要對(duì)模塊進(jìn)行劃分,所以此處所用的標(biāo)簽混雜主要是指〈Table〉和〈Div>標(biāo)簽的混雜使用。進(jìn)一步地,該步驟中,計(jì)算各模塊的文本長(zhǎng)度具體包括對(duì)于每個(gè)模塊,提取出模塊的HTML標(biāo)簽,根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息,計(jì)算該文本信息的長(zhǎng)度,得到對(duì)應(yīng)模塊的文本長(zhǎng)度。步驟S102,提取各模塊包含的鏈接地址,統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容,將包含使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接,將不包含使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接;該步驟中,優(yōu)選地,通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。步驟S103,根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度,確定各模塊的綜合得分,并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。該步驟中所述的有效鏈接的文字長(zhǎng)度和無(wú)效鏈接的文字長(zhǎng)度,優(yōu)選地,是在標(biāo)記有效鏈接和無(wú)效鏈接時(shí),統(tǒng)一計(jì)算得到的;當(dāng)然,也可以在確定各模塊的綜合得分時(shí),針對(duì)每個(gè)模塊分別計(jì)算得到的。為了更清楚的闡述本發(fā)明所述方法的實(shí)現(xiàn)過(guò)程,下面結(jié)合附圖2至3對(duì)本發(fā)明所述方法進(jìn)行進(jìn)一步說(shuō)明,具體涉及如下內(nèi)容本發(fā)明實(shí)施例提供的文本內(nèi)容提取方法為改進(jìn)型的基于HTML特征的文本內(nèi)容提取方法,該方法能夠更加準(zhǔn)確和合理的劃分文本內(nèi)容。本發(fā)明實(shí)施例中,把網(wǎng)頁(yè)布局分為內(nèi)容模塊和非內(nèi)容模塊,如圖2所示,內(nèi)容模塊是網(wǎng)頁(yè)中的內(nèi)容部分,而非內(nèi)容模塊一般是用來(lái)展示導(dǎo)航信息,橫幅,版權(quán)申明或者廣告等信息。本發(fā)明實(shí)施例所述方案的目標(biāo)就是能夠準(zhǔn)確分解HTML網(wǎng)頁(yè),把內(nèi)容模塊從HTML網(wǎng)頁(yè)中提取出來(lái)。針對(duì)每個(gè)分解出來(lái)的模塊,根據(jù)它所在的網(wǎng)頁(yè)布局中的位置給與不同的得分,處于用戶視線焦點(diǎn)的模塊得分越高,反之得分越低,如果無(wú)效鏈接文字長(zhǎng)度相對(duì)該模塊比例過(guò)大,那么該模塊展示的可能是廣告或者導(dǎo)航信息。本發(fā)明實(shí)施例所述的基于HTML特征的文本內(nèi)容提取方法,具體包括步驟I,使用標(biāo)簽把輸入的HTML網(wǎng)頁(yè)分解成多個(gè)模塊;該步驟中,優(yōu)選地,采用Table或Div標(biāo)簽把輸入的HTML網(wǎng)頁(yè)分解成多個(gè)模塊。本發(fā)明實(shí)施例之所以采用Table標(biāo)簽和Div標(biāo)簽這兩個(gè)用于布局的標(biāo)簽來(lái)分解模塊,一方面是由于它們是用于網(wǎng)頁(yè)布局,另一方面也能夠減少分析網(wǎng)頁(yè)的復(fù)雜度,對(duì)諸如span,br這些其他的標(biāo)簽不進(jìn)行處理,大大的加快了網(wǎng)頁(yè)的解析速度,減少了系統(tǒng)資源的分析。步驟2,如果步驟I中分解的模塊還能繼續(xù)再分解,而且沒(méi)有出現(xiàn)Table或Div標(biāo)簽混雜的情況,那么再把該模塊送到步驟I繼續(xù)分解。步驟3,把輸入的模塊根據(jù)在布局中的不同位置給于不同位置得分。當(dāng)然,該步驟中,對(duì)于布局中每個(gè)位置的具體得分是預(yù)先設(shè)置的好的,其基本原則是模塊越處于布局中用戶注意力集中的位置其權(quán)重越高,位置得分也越高。步驟4,計(jì)算每個(gè)模塊內(nèi)的文本長(zhǎng)度。步驟5,統(tǒng)計(jì)所有模塊的鏈接地址中使用頻率最高的字符內(nèi)容,由于同屬于該網(wǎng)頁(yè)相關(guān)內(nèi)容的鏈接地址必然有部分字符內(nèi)容是相同的,而諸如廣告之類的鏈接地址則不會(huì)包含這部分相同的字符內(nèi)容,因此可以用所統(tǒng)計(jì)出的使用頻率最高的字符內(nèi)容來(lái)區(qū)分有效的鏈接地址(網(wǎng)頁(yè)相關(guān)內(nèi)容的鏈接)和無(wú)效的鏈接地址(廣告等同網(wǎng)頁(yè)內(nèi)容不相關(guān)的鏈接)。該步驟中,在統(tǒng)計(jì)使用頻率最高的字符內(nèi)容時(shí),將所有URL (統(tǒng)一資源定位符)均具有的共有字符,如畫、http這些共有的協(xié)議字符,排除在統(tǒng)計(jì)之外。步驟6,將包含步驟5中所統(tǒng)計(jì)出的字符內(nèi)容的鏈接地址標(biāo)記為有效鏈接,并計(jì)算各有效鏈接內(nèi)的文字長(zhǎng)度;步驟7,將不包含步驟5中所統(tǒng)計(jì)出的字符內(nèi)容的鏈接地址標(biāo)記為無(wú)效鏈接,并計(jì)算各無(wú)效鏈接內(nèi)的文字長(zhǎng)度。步驟8,根據(jù)模塊的綜合得分=模塊的位置得分X (模塊內(nèi)的文本長(zhǎng)度+有效鏈接內(nèi)的文字長(zhǎng)度)/無(wú)效鏈接內(nèi)的文字長(zhǎng)度,得出每個(gè)模塊綜合得分,綜合得分高于所設(shè)閾值的即認(rèn)為是內(nèi)容模塊。步驟9,根據(jù)事先設(shè)定的閾值(即認(rèn)為內(nèi)容模塊所應(yīng)達(dá)到的綜合得分下限),判斷所述的步驟8中的綜合得分,其分值若高于所設(shè)定的閾值,則認(rèn)為該模塊的內(nèi)容是需要提取的文本內(nèi)容?;谏鲜龅脑肀硎觯旅娼Y(jié)合以具體示例進(jìn)行說(shuō)明,如圖3所示,包括在獲取網(wǎng)頁(yè)后,把網(wǎng)頁(yè)作為輸入,如步驟①中,如果能使用Tab I e標(biāo)簽和D i v標(biāo)簽把輸入的網(wǎng)頁(yè)分解為多個(gè)模塊,就把輸入的網(wǎng)頁(yè)分解。在步驟②中判斷分解出來(lái)的模塊是否還可以繼續(xù)分解,如果可以那么回到步驟①繼續(xù)分解,否則進(jìn)入步驟③。步驟③提出由步驟②輸入的模塊中的所有HTML標(biāo)簽后獲得簡(jiǎn)單的文本,計(jì)算出這個(gè)文本的長(zhǎng)度。步驟④使用achor標(biāo)簽提取出所有的鏈接,并統(tǒng)計(jì)所有模塊的鏈接地址中使用頻率最高的字符內(nèi)容。步驟⑤計(jì)算包含和不包含步驟④所統(tǒng)計(jì)出的字符內(nèi)容的鏈接文字長(zhǎng)度,分別標(biāo)記為有效鏈接和無(wú)效鏈接。步驟⑥利用公式綜合得分=位置得分X (文字長(zhǎng)度+有效鏈接文字長(zhǎng)度)/無(wú)效鏈接文字長(zhǎng)度,計(jì)算出每個(gè)模塊的綜合得分。綜合得分小于閾值的模塊經(jīng)過(guò)步驟⑦刪除,綜合得分高于閾值的模塊進(jìn)入步驟⑧輸出。綜上所述,本發(fā)明實(shí)施例所述方法,使用了普通文本同有效鏈接文字長(zhǎng)度之和與無(wú)效鏈接文字長(zhǎng)度的比例,能夠更為準(zhǔn)確的對(duì)HTML網(wǎng)頁(yè)的內(nèi)容進(jìn)行提取,去除了冗余的廣告等信息,使得后面的分詞階段的工作量大大降低,提高了文本聚類和文本分類、自動(dòng)摘要的準(zhǔn)確性。如圖4所示,本發(fā)明實(shí)施例還提供一種文本內(nèi)容提取裝置,具體包括網(wǎng)頁(yè)處理單元410,用于將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊,根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置,確定各模塊的位置得分,并計(jì)算各模塊的文本長(zhǎng)度;標(biāo)記處理單元420,用于提取各模塊包含的鏈接地址,統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容,將包含使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接,將不包含使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接;內(nèi)容提取單元430,用于根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度,確定各模塊的綜合得分,并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。基于上述原理框架,下面給出上述各單元在實(shí)現(xiàn)對(duì)應(yīng)功能時(shí)的具體實(shí)現(xiàn)方式,具體如下本發(fā)明實(shí)施例中,網(wǎng)頁(yè)處理單元410,具體使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊;以及對(duì)于每個(gè)模塊,提取出模塊的HTML標(biāo)簽,根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息,計(jì)算該文本信息的長(zhǎng)度,得到對(duì)應(yīng)模塊的文本長(zhǎng)度。進(jìn)一步地,網(wǎng)頁(yè)處理單元410,還用于判斷分解得到的模塊是否還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況,若是,則對(duì)分解后的模塊繼續(xù)分解。本發(fā)明實(shí)施例中,標(biāo)記處理單元420,還用于在標(biāo)記有效鏈接和無(wú)效鏈接時(shí),統(tǒng)一計(jì)算各鏈接內(nèi)的文字長(zhǎng)度;或者,內(nèi)容提取單元430,在確定各模塊的綜合得分時(shí),分別計(jì)算各模塊包含的每個(gè)鏈接內(nèi)的文字長(zhǎng)度。進(jìn)一步地,本發(fā)明實(shí)施例中,標(biāo)記處理單元420,具體用于通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。綜上所述,本發(fā)明所述裝置,使用了普通文本同有效鏈接文字長(zhǎng)度之和與無(wú)效鏈接文字長(zhǎng)度的比例,能夠更為準(zhǔn)確的對(duì)HTML網(wǎng)頁(yè)的內(nèi)容進(jìn)行提取,去除了冗余的廣告等信息,使得后面的分詞階段的工作量大大降低,提高了文本聚類和文本分類、自動(dòng)摘要的準(zhǔn)確性。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種文本內(nèi)容提取方法,其特征在于,包括 將輸入的超文本標(biāo)記語(yǔ)言HTML網(wǎng)頁(yè)分解為多個(gè)模塊,根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置,確定各模塊的位置得分,并計(jì)算各模塊的文本長(zhǎng)度; 提取各模塊包含的鏈接地址,統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容,將包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接,將不包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接; 根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度,確定各模塊的綜合得分,并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。
2.如權(quán)利要求1所述的方法,其特征在于,所述方法中,使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊。
3.如權(quán)利要求2所述的方法,其特征在于,所述方法中,若分解得到的模塊還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況,則對(duì)分解后的模塊繼續(xù)分解。
4.如權(quán)利要求1所述的方法,其特征在于,所述方法中,在標(biāo)記有效鏈接和無(wú)效鏈接時(shí),統(tǒng)一計(jì)算各鏈接內(nèi)的文字長(zhǎng)度;或者,在確定各模塊的綜合得分時(shí),分別計(jì)算各模塊包含的每個(gè)鏈接內(nèi)的文字長(zhǎng)度。
5.如權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于, 所述方法中,計(jì)算各模塊的文本長(zhǎng)度具體包括對(duì)于每個(gè)模塊,提取出模塊的HTML標(biāo)簽,根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息,計(jì)算該文本信息的長(zhǎng)度,得到對(duì)應(yīng)模塊的文本長(zhǎng)度; 所述方法中,通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。
6.一種文本內(nèi)容提取裝置,其特征在于,包括 網(wǎng)頁(yè)處理單元,用于將輸入的超文本標(biāo)記語(yǔ)言HTML網(wǎng)頁(yè)分解為多個(gè)模塊,根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置,確定各模塊的位置得分,并計(jì)算各模塊的文本長(zhǎng)度; 標(biāo)記處理單元,用于提取各模塊包含的鏈接地址,統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容,將包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接,將不包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接; 內(nèi)容提取單元,用于根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度,確定各模塊的綜合得分,并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。
7.如權(quán)利要求6所述的裝置,其特征在于,所述網(wǎng)頁(yè)處理單元,具體用于使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊。
8.如權(quán)利要求7所述的裝置,其特征在于,所述網(wǎng)頁(yè)處理單元,還用于判斷分解得到的模塊是否還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況,若是,則對(duì)分解后的模塊繼續(xù)分解。
9.如權(quán)利要求6所述的裝置,其特征在于, 所述標(biāo)記處理單元,還用于在標(biāo)記有效鏈接和無(wú)效鏈接時(shí),統(tǒng)一計(jì)算各鏈接內(nèi)的文字長(zhǎng)度; 或者,所述內(nèi)容提取單元,還用于在確定各模塊的綜合得分時(shí),分別計(jì)算各模塊包含的每個(gè)鏈接內(nèi)的文字長(zhǎng)度。
10.如權(quán)利要求6至9中任一項(xiàng)所述的裝置,其特征在于, 所述網(wǎng)頁(yè)處理單元,具體用于對(duì)于每個(gè)模塊,提取出模塊的HTML標(biāo)簽,根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息,計(jì)算該文本信息的長(zhǎng)度,得到對(duì)應(yīng)模塊的文本長(zhǎng)度; 所述標(biāo)記處理單元,具體用于通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。
全文摘要
本發(fā)明公開(kāi)了一種文本內(nèi)容提取方法和裝置,所述方法包括將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊,根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置,確定各模塊的位置得分,并計(jì)算各模塊的文本長(zhǎng)度;提取各模塊包含的鏈接地址,統(tǒng)計(jì)所有鏈接地址中使用頻率最高的字符內(nèi)容,將包含所述字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接,將不包含所述字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接;根據(jù)綜合得分=位置得分×(文本長(zhǎng)度+有效鏈接的文字長(zhǎng)度)/無(wú)效鏈接的文字長(zhǎng)度,確定各模塊的綜合得分,并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。本發(fā)明所述方法能夠有效去除網(wǎng)頁(yè)中非內(nèi)容部分的冗余的信息,實(shí)現(xiàn)了更為準(zhǔn)確的對(duì)網(wǎng)頁(yè)的有效內(nèi)容進(jìn)行提取。
文檔編號(hào)G06F17/21GK103020129SQ201210469940
公開(kāi)日2013年4月3日 申請(qǐng)日期2012年11月20日 優(yōu)先權(quán)日2012年11月20日
發(fā)明者葉偉 申請(qǐng)人:中興通訊股份有限公司