一種文本內(nèi)容提取方法和裝置的制作方法

文檔序號(hào)：6381776閱讀：217來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種文本內(nèi)容提取方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及通信技術(shù)領(lǐng)域，尤其涉及一種文本內(nèi)容提取方法和裝置。
背景技術(shù)：
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展，瀏覽網(wǎng)頁(yè)逐漸成為人們獲取信息的主要手段，而在所有接觸的頁(yè)面信息中，文本信息又占了其中的主要部分。如何有效的提取頁(yè)面中的文本信息是很重要的，因?yàn)槿绻麑⑽谋镜膬?nèi)容全部提取出來(lái)，其中必然會(huì)摻雜許多不必要的內(nèi)容，如廣告信息、導(dǎo)航信息等等，這些信息通常是大量重復(fù)的，而且并不是用戶感興趣和需要的內(nèi)容；再者，大量重復(fù)和無(wú)效的信息也會(huì)降低文本聚類和文本分類的準(zhǔn)確性，會(huì)加大內(nèi)容檢索的工作量。而在不同的網(wǎng)頁(yè)中，頁(yè)面的排版和布局是多種多樣的，若單從模塊或位置進(jìn)行劃分，則很難準(zhǔn)確的獲取有效的文本信息。目前，文本內(nèi)容的提取手段是將輸入網(wǎng)頁(yè)分解為多個(gè)模塊，并通過(guò)計(jì)算每個(gè)模塊的綜合得分來(lái)確定對(duì)應(yīng)模塊是否為內(nèi)容模塊。其中，綜合得分的計(jì)算方式為綜合得分=位置得分X文字長(zhǎng)度/鏈接文字長(zhǎng)度，然而，該計(jì)算方式仍然不夠精確，并不能準(zhǔn)確對(duì)內(nèi)容進(jìn)行劃分。所以，目前如何能提供一種文本提取方法，實(shí)現(xiàn)對(duì)文本內(nèi)容的準(zhǔn)確提取成為目前亟待解決的技術(shù)問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明提供一種文本內(nèi)容提取方法和裝置，用以解決現(xiàn)有技術(shù)中采用的文本內(nèi)容提取方法不能準(zhǔn)確提取文本內(nèi)容的問(wèn)題。為了解決上述問(wèn)題，本發(fā)明采用的技術(shù)方案如下一方面，本發(fā)明提供一種文本內(nèi)容提取方法，包括將輸入的超文本標(biāo)記語(yǔ)言HTML網(wǎng)頁(yè)分解為多個(gè)模塊，根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置，確定各模塊的位置得分，并計(jì)算各模塊的文本長(zhǎng)度；提取各模塊包含的鏈接地址，統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容，將包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接，將不包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接；根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度，確定各模塊的綜合得分，并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。進(jìn)一步地，本發(fā)明所述方法中，使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊。進(jìn)一步地，本發(fā)明所述方法中，若分解得到的模塊還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況，則對(duì)分解后的模塊繼續(xù)分解。進(jìn)一步地,本發(fā)明所述方法中，在標(biāo)記有效鏈接和無(wú)效鏈接時(shí)，統(tǒng)一計(jì)算各鏈接內(nèi)的文字長(zhǎng)度；或者，在確定各模塊的綜合得分時(shí)，分別計(jì)算各模塊包含的每個(gè)鏈接內(nèi)的文字長(zhǎng)度。進(jìn)一步地，本發(fā)明所述方法中，計(jì)算各模塊的文本長(zhǎng)度具體包括對(duì)于每個(gè)模塊，提取出模塊的HTML標(biāo)簽，根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息，計(jì)算該文本信息的長(zhǎng)度，得到對(duì)應(yīng)模塊的文本長(zhǎng)度；進(jìn)一步地，本發(fā)明所述方法中，通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。另一方面，本發(fā)明還提供一種文本內(nèi)容提取裝置，包括網(wǎng)頁(yè)處理單元，用于將輸入的超文本標(biāo)記語(yǔ)言HTML網(wǎng)頁(yè)分解為多個(gè)模塊，根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置，確定各模塊的位置得分，并計(jì)算各模塊的文本長(zhǎng)度；標(biāo)記處理單元，用于提取各模塊包含的鏈接地址，統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容，將包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接，將不包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接；內(nèi)容提取單元，用于根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度，確定各模塊的綜合得分，并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。進(jìn)一步地，本發(fā)明所述裝置中，所述網(wǎng)頁(yè)處理單元，具體用于使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊。進(jìn)一步地，本發(fā)明所述裝置中，所述網(wǎng)頁(yè)處理單元，還用于判斷分解得到的模塊是否還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況，若是，則對(duì)分解后的模塊繼續(xù)分解。進(jìn)一步地，本發(fā)明所述裝置中，所述標(biāo)記處理單元，還用于在標(biāo)記有效鏈接和無(wú)效鏈接時(shí)，統(tǒng)一計(jì)算各鏈接內(nèi)的文字長(zhǎng)度；或者，所述內(nèi)容提取單元，還用于在確定各模塊的綜合得分時(shí)，分別計(jì)算各模塊包含的每個(gè)鏈接內(nèi)的文字長(zhǎng)度。進(jìn)一步地，本發(fā)明所述裝置中，所述網(wǎng)頁(yè)處理單元，具體用于對(duì)于每個(gè)模塊，提取出模塊的HTML標(biāo)簽，根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息，計(jì)算該文本信息的長(zhǎng)度，得到對(duì)應(yīng)模塊的文本長(zhǎng)度；進(jìn)一步地，本發(fā)明所述裝置中，所述標(biāo)記處理單元，具體用于通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。與現(xiàn)有技術(shù)相比，本發(fā)明有益效果如下本發(fā)明所述方法和裝置，使用了普通文本同有效鏈接文字長(zhǎng)度之和與無(wú)效鏈接文字長(zhǎng)度的比例，能夠更為準(zhǔn)確的對(duì)HTML網(wǎng)頁(yè)的內(nèi)容進(jìn)行提取，去除了冗余的廣告等信息，使得后面的分詞階段的工作量大大降低，提高了文本聚類和文本分類、自動(dòng)摘要的準(zhǔn)確性。

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種文本內(nèi)容提取方法的流程圖；圖2為本發(fā)明實(shí)施例中網(wǎng)頁(yè)布局示意圖；圖3為本發(fā)明實(shí)施例提供的文本內(nèi)容提取方法具體流程圖4為本發(fā)明實(shí)施例提供的一種文本內(nèi)容提取裝置的結(jié)構(gòu)框圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。為了解決現(xiàn)有技術(shù)中采用的文本內(nèi)容提取方法不能準(zhǔn)確提取文本內(nèi)容的問(wèn)題，本發(fā)明實(shí)施例提供一種文本內(nèi)容提取方法和裝置。如圖1所示，本發(fā)明實(shí)施例提供的一種文本內(nèi)容提取方法，具體包括步驟S101，將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊，根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置，確定各模塊的位置得分，并計(jì)算各模塊的文本長(zhǎng)度；該步驟中，優(yōu)選地，使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊。進(jìn)一步地，該步驟中，若分解得到的模塊還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況，則對(duì)分解后的模塊繼續(xù)分解。其中，標(biāo)簽混雜目前主流的頁(yè)面布局方式主要分為兩種，即通過(guò)〈Table〉標(biāo)簽或<Div>標(biāo)簽進(jìn)行頁(yè)面結(jié)構(gòu)上的布局劃分，但在編輯頁(yè)面內(nèi)容時(shí)，這兩個(gè)標(biāo)簽也可能互相包含，即米用〈Table〉布局的頁(yè)面中可能包含<Div>標(biāo)簽，同樣米用<Div>布局的頁(yè)面中也可能包含<Talbe>標(biāo)簽；另外，標(biāo)簽混雜也指控制結(jié)構(gòu)的標(biāo)簽(如<Table>、〈hl>)和控制表現(xiàn)的標(biāo)簽(如<font>、〈b>)混雜在一起使用，造成改版和數(shù)據(jù)劃分的困難。本發(fā)明中由于是需要對(duì)模塊進(jìn)行劃分，所以此處所用的標(biāo)簽混雜主要是指〈Table〉和〈Div>標(biāo)簽的混雜使用。進(jìn)一步地，該步驟中，計(jì)算各模塊的文本長(zhǎng)度具體包括對(duì)于每個(gè)模塊，提取出模塊的HTML標(biāo)簽，根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息，計(jì)算該文本信息的長(zhǎng)度，得到對(duì)應(yīng)模塊的文本長(zhǎng)度。步驟S102，提取各模塊包含的鏈接地址，統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容，將包含使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接，將不包含使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接；該步驟中，優(yōu)選地，通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。步驟S103，根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度，確定各模塊的綜合得分，并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。該步驟中所述的有效鏈接的文字長(zhǎng)度和無(wú)效鏈接的文字長(zhǎng)度，優(yōu)選地，是在標(biāo)記有效鏈接和無(wú)效鏈接時(shí)，統(tǒng)一計(jì)算得到的；當(dāng)然，也可以在確定各模塊的綜合得分時(shí)，針對(duì)每個(gè)模塊分別計(jì)算得到的。為了更清楚的闡述本發(fā)明所述方法的實(shí)現(xiàn)過(guò)程，下面結(jié)合附圖2至3對(duì)本發(fā)明所述方法進(jìn)行進(jìn)一步說(shuō)明，具體涉及如下內(nèi)容本發(fā)明實(shí)施例提供的文本內(nèi)容提取方法為改進(jìn)型的基于HTML特征的文本內(nèi)容提取方法，該方法能夠更加準(zhǔn)確和合理的劃分文本內(nèi)容。本發(fā)明實(shí)施例中，把網(wǎng)頁(yè)布局分為內(nèi)容模塊和非內(nèi)容模塊，如圖2所示，內(nèi)容模塊是網(wǎng)頁(yè)中的內(nèi)容部分，而非內(nèi)容模塊一般是用來(lái)展示導(dǎo)航信息，橫幅，版權(quán)申明或者廣告等信息。本發(fā)明實(shí)施例所述方案的目標(biāo)就是能夠準(zhǔn)確分解HTML網(wǎng)頁(yè)，把內(nèi)容模塊從HTML網(wǎng)頁(yè)中提取出來(lái)。針對(duì)每個(gè)分解出來(lái)的模塊，根據(jù)它所在的網(wǎng)頁(yè)布局中的位置給與不同的得分，處于用戶視線焦點(diǎn)的模塊得分越高，反之得分越低，如果無(wú)效鏈接文字長(zhǎng)度相對(duì)該模塊比例過(guò)大，那么該模塊展示的可能是廣告或者導(dǎo)航信息。本發(fā)明實(shí)施例所述的基于HTML特征的文本內(nèi)容提取方法，具體包括步驟I，使用標(biāo)簽把輸入的HTML網(wǎng)頁(yè)分解成多個(gè)模塊；該步驟中，優(yōu)選地，采用Table或Div標(biāo)簽把輸入的HTML網(wǎng)頁(yè)分解成多個(gè)模塊。本發(fā)明實(shí)施例之所以采用Table標(biāo)簽和Div標(biāo)簽這兩個(gè)用于布局的標(biāo)簽來(lái)分解模塊，一方面是由于它們是用于網(wǎng)頁(yè)布局，另一方面也能夠減少分析網(wǎng)頁(yè)的復(fù)雜度，對(duì)諸如span，br這些其他的標(biāo)簽不進(jìn)行處理，大大的加快了網(wǎng)頁(yè)的解析速度，減少了系統(tǒng)資源的分析。步驟2，如果步驟I中分解的模塊還能繼續(xù)再分解，而且沒(méi)有出現(xiàn)Table或Div標(biāo)簽混雜的情況，那么再把該模塊送到步驟I繼續(xù)分解。步驟3，把輸入的模塊根據(jù)在布局中的不同位置給于不同位置得分。當(dāng)然，該步驟中，對(duì)于布局中每個(gè)位置的具體得分是預(yù)先設(shè)置的好的，其基本原則是模塊越處于布局中用戶注意力集中的位置其權(quán)重越高，位置得分也越高。步驟4，計(jì)算每個(gè)模塊內(nèi)的文本長(zhǎng)度。步驟5，統(tǒng)計(jì)所有模塊的鏈接地址中使用頻率最高的字符內(nèi)容，由于同屬于該網(wǎng)頁(yè)相關(guān)內(nèi)容的鏈接地址必然有部分字符內(nèi)容是相同的，而諸如廣告之類的鏈接地址則不會(huì)包含這部分相同的字符內(nèi)容，因此可以用所統(tǒng)計(jì)出的使用頻率最高的字符內(nèi)容來(lái)區(qū)分有效的鏈接地址(網(wǎng)頁(yè)相關(guān)內(nèi)容的鏈接)和無(wú)效的鏈接地址(廣告等同網(wǎng)頁(yè)內(nèi)容不相關(guān)的鏈接)。該步驟中，在統(tǒng)計(jì)使用頻率最高的字符內(nèi)容時(shí)，將所有URL (統(tǒng)一資源定位符)均具有的共有字符，如畫、http這些共有的協(xié)議字符，排除在統(tǒng)計(jì)之外。步驟6，將包含步驟5中所統(tǒng)計(jì)出的字符內(nèi)容的鏈接地址標(biāo)記為有效鏈接，并計(jì)算各有效鏈接內(nèi)的文字長(zhǎng)度；步驟7，將不包含步驟5中所統(tǒng)計(jì)出的字符內(nèi)容的鏈接地址標(biāo)記為無(wú)效鏈接，并計(jì)算各無(wú)效鏈接內(nèi)的文字長(zhǎng)度。步驟8，根據(jù)模塊的綜合得分=模塊的位置得分X (模塊內(nèi)的文本長(zhǎng)度+有效鏈接內(nèi)的文字長(zhǎng)度)/無(wú)效鏈接內(nèi)的文字長(zhǎng)度，得出每個(gè)模塊綜合得分，綜合得分高于所設(shè)閾值的即認(rèn)為是內(nèi)容模塊。步驟9，根據(jù)事先設(shè)定的閾值(即認(rèn)為內(nèi)容模塊所應(yīng)達(dá)到的綜合得分下限)，判斷所述的步驟8中的綜合得分，其分值若高于所設(shè)定的閾值，則認(rèn)為該模塊的內(nèi)容是需要提取的文本內(nèi)容?；谏鲜龅脑肀硎觯旅娼Y(jié)合以具體示例進(jìn)行說(shuō)明，如圖3所示，包括在獲取網(wǎng)頁(yè)后，把網(wǎng)頁(yè)作為輸入，如步驟①中，如果能使用Tab I e標(biāo)簽和D i v標(biāo)簽把輸入的網(wǎng)頁(yè)分解為多個(gè)模塊，就把輸入的網(wǎng)頁(yè)分解。在步驟②中判斷分解出來(lái)的模塊是否還可以繼續(xù)分解，如果可以那么回到步驟①繼續(xù)分解，否則進(jìn)入步驟③。步驟③提出由步驟②輸入的模塊中的所有HTML標(biāo)簽后獲得簡(jiǎn)單的文本，計(jì)算出這個(gè)文本的長(zhǎng)度。步驟④使用achor標(biāo)簽提取出所有的鏈接，并統(tǒng)計(jì)所有模塊的鏈接地址中使用頻率最高的字符內(nèi)容。步驟⑤計(jì)算包含和不包含步驟④所統(tǒng)計(jì)出的字符內(nèi)容的鏈接文字長(zhǎng)度，分別標(biāo)記為有效鏈接和無(wú)效鏈接。步驟⑥利用公式綜合得分=位置得分X (文字長(zhǎng)度+有效鏈接文字長(zhǎng)度)/無(wú)效鏈接文字長(zhǎng)度，計(jì)算出每個(gè)模塊的綜合得分。綜合得分小于閾值的模塊經(jīng)過(guò)步驟⑦刪除，綜合得分高于閾值的模塊進(jìn)入步驟⑧輸出。綜上所述，本發(fā)明實(shí)施例所述方法，使用了普通文本同有效鏈接文字長(zhǎng)度之和與無(wú)效鏈接文字長(zhǎng)度的比例，能夠更為準(zhǔn)確的對(duì)HTML網(wǎng)頁(yè)的內(nèi)容進(jìn)行提取，去除了冗余的廣告等信息，使得后面的分詞階段的工作量大大降低，提高了文本聚類和文本分類、自動(dòng)摘要的準(zhǔn)確性。如圖4所示，本發(fā)明實(shí)施例還提供一種文本內(nèi)容提取裝置，具體包括網(wǎng)頁(yè)處理單元410，用于將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊，根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置，確定各模塊的位置得分，并計(jì)算各模塊的文本長(zhǎng)度；標(biāo)記處理單元420，用于提取各模塊包含的鏈接地址，統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容，將包含使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接，將不包含使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接；內(nèi)容提取單元430，用于根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度，確定各模塊的綜合得分，并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。基于上述原理框架，下面給出上述各單元在實(shí)現(xiàn)對(duì)應(yīng)功能時(shí)的具體實(shí)現(xiàn)方式，具體如下本發(fā)明實(shí)施例中，網(wǎng)頁(yè)處理單元410，具體使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊；以及對(duì)于每個(gè)模塊，提取出模塊的HTML標(biāo)簽，根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息，計(jì)算該文本信息的長(zhǎng)度，得到對(duì)應(yīng)模塊的文本長(zhǎng)度。進(jìn)一步地，網(wǎng)頁(yè)處理單元410，還用于判斷分解得到的模塊是否還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況，若是，則對(duì)分解后的模塊繼續(xù)分解。本發(fā)明實(shí)施例中，標(biāo)記處理單元420，還用于在標(biāo)記有效鏈接和無(wú)效鏈接時(shí)，統(tǒng)一計(jì)算各鏈接內(nèi)的文字長(zhǎng)度；或者，內(nèi)容提取單元430，在確定各模塊的綜合得分時(shí)，分別計(jì)算各模塊包含的每個(gè)鏈接內(nèi)的文字長(zhǎng)度。進(jìn)一步地,本發(fā)明實(shí)施例中，標(biāo)記處理單元420,具體用于通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。綜上所述，本發(fā)明所述裝置，使用了普通文本同有效鏈接文字長(zhǎng)度之和與無(wú)效鏈接文字長(zhǎng)度的比例，能夠更為準(zhǔn)確的對(duì)HTML網(wǎng)頁(yè)的內(nèi)容進(jìn)行提取，去除了冗余的廣告等信息，使得后面的分詞階段的工作量大大降低，提高了文本聚類和文本分類、自動(dòng)摘要的準(zhǔn)確性。顯然，本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種文本內(nèi)容提取方法，其特征在于，包括將輸入的超文本標(biāo)記語(yǔ)言HTML網(wǎng)頁(yè)分解為多個(gè)模塊，根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置，確定各模塊的位置得分，并計(jì)算各模塊的文本長(zhǎng)度；提取各模塊包含的鏈接地址，統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容，將包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接，將不包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接；根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度，確定各模塊的綜合得分，并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。
2.如權(quán)利要求1所述的方法，其特征在于，所述方法中，使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊。
3.如權(quán)利要求2所述的方法，其特征在于，所述方法中，若分解得到的模塊還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況，則對(duì)分解后的模塊繼續(xù)分解。
4.如權(quán)利要求1所述的方法，其特征在于，所述方法中，在標(biāo)記有效鏈接和無(wú)效鏈接時(shí)，統(tǒng)一計(jì)算各鏈接內(nèi)的文字長(zhǎng)度；或者，在確定各模塊的綜合得分時(shí)，分別計(jì)算各模塊包含的每個(gè)鏈接內(nèi)的文字長(zhǎng)度。
5.如權(quán)利要求1至4中任一項(xiàng)所述的方法，其特征在于，所述方法中，計(jì)算各模塊的文本長(zhǎng)度具體包括對(duì)于每個(gè)模塊，提取出模塊的HTML標(biāo)簽，根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息，計(jì)算該文本信息的長(zhǎng)度，得到對(duì)應(yīng)模塊的文本長(zhǎng)度；所述方法中，通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。
6.一種文本內(nèi)容提取裝置，其特征在于，包括網(wǎng)頁(yè)處理單元，用于將輸入的超文本標(biāo)記語(yǔ)言HTML網(wǎng)頁(yè)分解為多個(gè)模塊，根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置，確定各模塊的位置得分，并計(jì)算各模塊的文本長(zhǎng)度；標(biāo)記處理單元，用于提取各模塊包含的鏈接地址，統(tǒng)計(jì)所有鏈接地址中除協(xié)議字符外使用頻率最高的字符內(nèi)容，將包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接，將不包含所述使用頻率最高的字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接；內(nèi)容提取單元，用于根據(jù)綜合得分=模塊的位置得分X (模塊的文本長(zhǎng)度+模塊內(nèi)有效鏈接的文字長(zhǎng)度)/模塊內(nèi)無(wú)效鏈接的文字長(zhǎng)度，確定各模塊的綜合得分，并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。
7.如權(quán)利要求6所述的裝置，其特征在于，所述網(wǎng)頁(yè)處理單元，具體用于使用Table標(biāo)簽或Div標(biāo)簽將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊。
8.如權(quán)利要求7所述的裝置，其特征在于，所述網(wǎng)頁(yè)處理單元，還用于判斷分解得到的模塊是否還能夠繼續(xù)分解且未出現(xiàn)標(biāo)簽混雜的情況，若是，則對(duì)分解后的模塊繼續(xù)分解。
9.如權(quán)利要求6所述的裝置，其特征在于，所述標(biāo)記處理單元，還用于在標(biāo)記有效鏈接和無(wú)效鏈接時(shí)，統(tǒng)一計(jì)算各鏈接內(nèi)的文字長(zhǎng)度；或者，所述內(nèi)容提取單元，還用于在確定各模塊的綜合得分時(shí)，分別計(jì)算各模塊包含的每個(gè)鏈接內(nèi)的文字長(zhǎng)度。
10.如權(quán)利要求6至9中任一項(xiàng)所述的裝置，其特征在于，所述網(wǎng)頁(yè)處理單元，具體用于對(duì)于每個(gè)模塊，提取出模塊的HTML標(biāo)簽，根據(jù)所述HTML標(biāo)簽獲取對(duì)應(yīng)模塊中包含的文本信息，計(jì)算該文本信息的長(zhǎng)度，得到對(duì)應(yīng)模塊的文本長(zhǎng)度；所述標(biāo)記處理單元，具體用于通過(guò)achor標(biāo)簽提取出各模塊的鏈接地址。
全文摘要
本發(fā)明公開(kāi)了一種文本內(nèi)容提取方法和裝置，所述方法包括將輸入的HTML網(wǎng)頁(yè)分解為多個(gè)模塊，根據(jù)各模塊在網(wǎng)頁(yè)布局中的位置，確定各模塊的位置得分，并計(jì)算各模塊的文本長(zhǎng)度；提取各模塊包含的鏈接地址，統(tǒng)計(jì)所有鏈接地址中使用頻率最高的字符內(nèi)容，將包含所述字符內(nèi)容的各鏈接地址標(biāo)記為有效鏈接，將不包含所述字符內(nèi)容的各鏈接地址標(biāo)記為無(wú)效鏈接；根據(jù)綜合得分=位置得分×(文本長(zhǎng)度+有效鏈接的文字長(zhǎng)度)/無(wú)效鏈接的文字長(zhǎng)度，確定各模塊的綜合得分，并判定綜合得分超過(guò)設(shè)定閾值的模塊為內(nèi)容模塊。本發(fā)明所述方法能夠有效去除網(wǎng)頁(yè)中非內(nèi)容部分的冗余的信息，實(shí)現(xiàn)了更為準(zhǔn)確的對(duì)網(wǎng)頁(yè)的有效內(nèi)容進(jìn)行提取。
文檔編號(hào)G06F17/21GK103020129SQ201210469940
公開(kāi)日2013年4月3日申請(qǐng)日期2012年11月20日優(yōu)先權(quán)日2012年11月20日
發(fā)明者葉偉申請(qǐng)人:中興通訊股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：葉偉
技術(shù)所有人：中興通訊股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

python提取文本內(nèi)容相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文本內(nèi)容提取方法和裝置的制作方法