一種從單頁面中提取小說名稱的方法和裝置的制造方法

文檔序號：8258799閱讀：457來源：國知局

一種從單頁面中提取小說名稱的方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機數(shù)據(jù)挖掘領域，具體涉及一種從單頁面中提取小說名稱的方法和裝置。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)頁已成為一個巨大的、共享的信息資源。目前，網(wǎng)頁數(shù) 據(jù)大都是以HTML的形式出現(xiàn)，然而HTML缺乏對數(shù)據(jù)本身的描述，只是通過標簽告訴瀏覽器如何顯示它所描述的信息，沒有清晰的語義信息。因此，HTML描述的網(wǎng)頁頁面只適合人類瀏覽，應用程序無法直接解析并使用網(wǎng)頁上的信息。
[0003] 為了增強網(wǎng)頁信息的可用性，出現(xiàn)了網(wǎng)頁信息抽取技術，它通過某種方式包裝現(xiàn) 有網(wǎng)頁信息源，將網(wǎng)頁上的信息以結構化的形式提取出來，為應用程序使用網(wǎng)頁中的數(shù)據(jù) 提供了可能。網(wǎng)頁信息抽取技術以一定方式增加了語義信息，為網(wǎng)頁查詢提供了準確的方法，使得網(wǎng)頁信息的再利用成為可能。
[0004] 對于提取網(wǎng)頁結構化數(shù)據(jù)，當前一般采用"模板抽取"，即針對不同的站點配置不同的模板進行抽取。例如，對于垂直類的資源，如新聞網(wǎng)頁、小說網(wǎng)頁、視頻網(wǎng)頁等網(wǎng)頁，要準確提取新聞、小說、視頻標題，一般情況下是針對不同的站配置不同的模板，例如起點小說站網(wǎng)頁上的class屬性名為"title"的div標簽下的H1標簽對應的文字節(jié)點即為小說名。使用諸如類似上面介紹的方法來提取小說名、小說作者、小說章節(jié)信息等結構化數(shù)據(jù)。
[0005] 但是，通?；ヂ?lián)網(wǎng)中的小說站點非常多，采用模板抽取小說結構化數(shù)據(jù)的方法，首先需要一個站點一個站點地看網(wǎng)頁源碼以及配置模板，要花費非常多的時間，其次如果網(wǎng) 站源碼改變的話，之前配置的模板失效，需要人工維護模板。

【發(fā)明內(nèi)容】

[0006] 鑒于上述問題，提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種從單頁面中提取小說名稱的方法和裝置。
[0007] 依據(jù)本發(fā)明的一個方面，提供了一種從單頁面中提取小說名稱的方法，該方法包括：
[0008] 從小說網(wǎng)站的單頁面中的一項或多項特定數(shù)據(jù)段中分別提取各個字符串；統(tǒng)計各字符串的次數(shù)，根據(jù)統(tǒng)計次數(shù)提取小說名稱。
[0009] 可選地，所述從小說網(wǎng)站的單頁面中的一項或多項特定數(shù)據(jù)段中分別提取各個字符串包括：
[0010] 根據(jù)分隔符對各特定數(shù)據(jù)段中包含的文本進行切分，得到切分后的多個字符串；
[0011] 對于各個字符串，判斷其中是否包含小說特征字符，如果是，則將該字符串注明包含潛在小說名的標記，并將該字符串中的小說特征字符去除。
[0012] 可選地，所述統(tǒng)計各字符串的次數(shù)，根據(jù)統(tǒng)計次數(shù)提取小說名稱包括：
[0013] 統(tǒng)計各字符串的出現(xiàn)次數(shù)以及被注明包含潛在小說名的標記的次數(shù)；
[0014]基于出現(xiàn)次數(shù)最多的字符串以及被注明包含潛在小說名的標記次數(shù)最多的字符串確定小說名稱。
[0015] 可選地，所述小說特征字符至少包括如下中的一種或多種：
[0016] 最新章節(jié)、無彈窗、全文閱讀、免費閱讀、TXT下載。
[0017] 可選地，所述小說網(wǎng)站的單頁面中的一項或多項特定數(shù)據(jù)段為以下中的一種或多種：該頁面的title標簽、該頁面的hi標簽、該頁面上的說明頁面位置的塊以及該頁面上作者節(jié)點的前一節(jié)點。
[0018] 可選地，該方法進一步包括：
[0019] 從小說網(wǎng)站抓取屬于同一章節(jié)的多個頁面，對于各個頁面都按照上述方法提取小說名稱；
[0020] 綜合從所述多個頁面分別提取出的小說名稱，確定最終的小說名稱。
[0021] 依據(jù)本發(fā)明的另一個方面，提供了一種從單頁面中提取小說名稱的裝置，該裝置包括：
[0022] 字符串提取器，適于從小說網(wǎng)站的單頁面中的一項或多項特定數(shù)據(jù)段中分別提取各個字符串；
[0023] 統(tǒng)計分析器，適于統(tǒng)計各字符串的次數(shù)，根據(jù)統(tǒng)計次數(shù)提取小說名稱。
[0024] 可選地，所述字符串提取器，適于根據(jù)分隔符對各特定數(shù)據(jù)段中包含的文本進行切分，得到切分后的多個字符串；以及適于對于各個字符串，判斷其中是否包含小說特征字符，如果是，則將該字符串注明包含潛在小說名的標記，并將該字符串中的小說特征字符去除。
[0025] 可選地，所述統(tǒng)計分析器，適于統(tǒng)計各字符串的出現(xiàn)次數(shù)以及被注明包含潛在小說名的標記的次數(shù)，基于出現(xiàn)次數(shù)最多的字符串以及被注明包含潛在小說名的標記次數(shù)最多的字符串確定小說名稱。
[0026] 可選地，所述字符串提取器判斷字符串中是否包含小說特征字符，是判斷字符串中是否包含如下中的一種或多種：最新章節(jié)、無彈窗、全文閱讀、免費閱讀、TXT下載。
[0027] 可選地，所述字符串提取器適于從小說網(wǎng)站的單頁面中的如下一項或多項特定數(shù) 據(jù)段中分別提取多個字符串：該頁面的title標簽、該頁面的hi標簽、該頁面上的說明頁面位置的塊以及該頁面上作者節(jié)點的前一節(jié)點。
[0028] 可選地，該裝置進一步包括：抓取器，適于從小說網(wǎng)站抓取屬于同一章節(jié)的多個頁面；
[0029] 由所述字符串提取器和所述統(tǒng)計分析器從抓取的各個頁面提取小說名稱；
[0030] 該裝置進一步包括：綜合分析器，適于綜合從所述多個頁面分別提取出的小說名稱，確定最終的小說名稱。
[0031]有上述可知，本發(fā)明提供的技術方案通過字符串提取器和統(tǒng)計分析器的相互配合，對小說網(wǎng)站的單頁面中的特定數(shù)據(jù)段中字符串的統(tǒng)計，依據(jù)統(tǒng)計結果提取出單頁面對應的小說名稱。該方案基于頁面中的特定數(shù)據(jù)段進行處理，在網(wǎng)站頁面源碼改變的情況下不會受到影響，無需人力跟進和維護網(wǎng)站頁面的變化情況，簡化了單頁面中提取小說名稱的操作流程，提高提取效率。
[0032] 上述說明僅是本發(fā)明技術方案的概述，為了能夠更清楚了解本發(fā)明的技術手段，而可依照說明書的內(nèi)容予以實施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂，以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0033] 通過閱讀下文優(yōu)選實施方式的詳細描述，各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的，而并不認為是對本發(fā)明的限制。而且在整個附圖中，用相同的參考符號表示相同的部件。在附圖中：
[0034] 圖1示出了根據(jù)本發(fā)明一個實施例的一種從單頁面中提取小說名稱的方法的流程圖；
[0035] 圖2示出了根據(jù)本發(fā)明一個實施例的一種從單頁面中提取小說名稱的裝置的示意圖；
[0036] 圖3示出了根據(jù)本發(fā)明另一個實施例的一種從單頁面中提取小說名稱的裝置的示意圖；
[0037] 圖4A示出了根據(jù)本發(fā)明一個實施例的小說網(wǎng)站的單頁面的示意圖；
[0038] 圖4B示出了本發(fā)明一個實施例中圖4A所示頁面的title標簽的代碼段的截圖示意圖；
[0039] 圖4C示出了本發(fā)明一個實施例中圖4A所示頁面的hi標簽的代碼段的截圖示意圖；
[0040] 圖4D示出了根據(jù)本發(fā)明另一個實施例的小說網(wǎng)站的單頁面的示意圖。
【具體實施方式】
[0041] 下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例，然而應當理解，可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反，提供這些實施例是為了能夠更透徹地理解本公開，并且能夠將本公開的范圍完整的傳達給本領域的技術人員。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：鄭燕琴;
技術所有人：北京奇虎科技有限公司;奇智軟件（北京）有限公司;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

福昕閱讀器提取頁面相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種從單頁面中提取小說名稱的方法和裝置的制造方法