一種從單頁面中提取小說名稱的方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機數(shù)據(jù)挖掘領域,具體涉及一種從單頁面中提取小說名稱的方法 和裝置。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁已成為一個巨大的、共享的信息資源。目前,網(wǎng)頁數(shù) 據(jù)大都是以HTML的形式出現(xiàn),然而HTML缺乏對數(shù)據(jù)本身的描述,只是通過標簽告訴瀏覽器 如何顯示它所描述的信息,沒有清晰的語義信息。因此,HTML描述的網(wǎng)頁頁面只適合人類 瀏覽,應用程序無法直接解析并使用網(wǎng)頁上的信息。
[0003] 為了增強網(wǎng)頁信息的可用性,出現(xiàn)了網(wǎng)頁信息抽取技術,它通過某種方式包裝現(xiàn) 有網(wǎng)頁信息源,將網(wǎng)頁上的信息以結構化的形式提取出來,為應用程序使用網(wǎng)頁中的數(shù)據(jù) 提供了可能。網(wǎng)頁信息抽取技術以一定方式增加了語義信息,為網(wǎng)頁查詢提供了準確的方 法,使得網(wǎng)頁信息的再利用成為可能。
[0004] 對于提取網(wǎng)頁結構化數(shù)據(jù),當前一般采用"模板抽取",即針對不同的站點配置不 同的模板進行抽取。例如,對于垂直類的資源,如新聞網(wǎng)頁、小說網(wǎng)頁、視頻網(wǎng)頁等網(wǎng)頁,要 準確提取新聞、小說、視頻標題,一般情況下是針對不同的站配置不同的模板,例如起點小 說站網(wǎng)頁上的class屬性名為"title"的div標簽下的H1標簽對應的文字節(jié)點即為小說 名。使用諸如類似上面介紹的方法來提取小說名、小說作者、小說章節(jié)信息等結構化數(shù)據(jù)。
[0005] 但是,通?;ヂ?lián)網(wǎng)中的小說站點非常多,采用模板抽取小說結構化數(shù)據(jù)的方法,首 先需要一個站點一個站點地看網(wǎng)頁源碼以及配置模板,要花費非常多的時間,其次如果網(wǎng) 站源碼改變的話,之前配置的模板失效,需要人工維護模板。
【發(fā)明內(nèi)容】
[0006] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的一種從單頁面中提取小說名稱的方法和裝置。
[0007] 依據(jù)本發(fā)明的一個方面,提供了一種從單頁面中提取小說名稱的方法,該方法包 括:
[0008] 從小說網(wǎng)站的單頁面中的一項或多項特定數(shù)據(jù)段中分別提取各個字符串;統(tǒng)計各 字符串的次數(shù),根據(jù)統(tǒng)計次數(shù)提取小說名稱。
[0009] 可選地,所述從小說網(wǎng)站的單頁面中的一項或多項特定數(shù)據(jù)段中分別提取各個字 符串包括:
[0010] 根據(jù)分隔符對各特定數(shù)據(jù)段中包含的文本進行切分,得到切分后的多個字符串;
[0011] 對于各個字符串,判斷其中是否包含小說特征字符,如果是,則將該字符串注明包 含潛在小說名的標記,并將該字符串中的小說特征字符去除。
[0012] 可選地,所述統(tǒng)計各字符串的次數(shù),根據(jù)統(tǒng)計次數(shù)提取小說名稱包括:
[0013] 統(tǒng)計各字符串的出現(xiàn)次數(shù)以及被注明包含潛在小說名的標記的次數(shù);
[0014]基于出現(xiàn)次數(shù)最多的字符串以及被注明包含潛在小說名的標記次數(shù)最多的字符 串確定小說名稱。
[0015] 可選地,所述小說特征字符至少包括如下中的一種或多種:
[0016] 最新章節(jié)、無彈窗、全文閱讀、免費閱讀、TXT下載。
[0017] 可選地,所述小說網(wǎng)站的單頁面中的一項或多項特定數(shù)據(jù)段為以下中的一種或多 種:該頁面的title標簽、該頁面的hi標簽、該頁面上的說明頁面位置的塊以及該頁面上作 者節(jié)點的前一節(jié)點。
[0018] 可選地,該方法進一步包括:
[0019] 從小說網(wǎng)站抓取屬于同一章節(jié)的多個頁面,對于各個頁面都按照上述方法提取小 說名稱;
[0020] 綜合從所述多個頁面分別提取出的小說名稱,確定最終的小說名稱。
[0021] 依據(jù)本發(fā)明的另一個方面,提供了一種從單頁面中提取小說名稱的裝置,該裝置 包括:
[0022] 字符串提取器,適于從小說網(wǎng)站的單頁面中的一項或多項特定數(shù)據(jù)段中分別提取 各個字符串;
[0023] 統(tǒng)計分析器,適于統(tǒng)計各字符串的次數(shù),根據(jù)統(tǒng)計次數(shù)提取小說名稱。
[0024] 可選地,所述字符串提取器,適于根據(jù)分隔符對各特定數(shù)據(jù)段中包含的文本進行 切分,得到切分后的多個字符串;以及適于對于各個字符串,判斷其中是否包含小說特征字 符,如果是,則將該字符串注明包含潛在小說名的標記,并將該字符串中的小說特征字符去 除。
[0025] 可選地,所述統(tǒng)計分析器,適于統(tǒng)計各字符串的出現(xiàn)次數(shù)以及被注明包含潛在小 說名的標記的次數(shù),基于出現(xiàn)次數(shù)最多的字符串以及被注明包含潛在小說名的標記次數(shù)最 多的字符串確定小說名稱。
[0026] 可選地,所述字符串提取器判斷字符串中是否包含小說特征字符,是判斷字符串 中是否包含如下中的一種或多種:最新章節(jié)、無彈窗、全文閱讀、免費閱讀、TXT下載。
[0027] 可選地,所述字符串提取器適于從小說網(wǎng)站的單頁面中的如下一項或多項特定數(shù) 據(jù)段中分別提取多個字符串:該頁面的title標簽、該頁面的hi標簽、該頁面上的說明頁面 位置的塊以及該頁面上作者節(jié)點的前一節(jié)點。
[0028] 可選地,該裝置進一步包括:抓取器,適于從小說網(wǎng)站抓取屬于同一章節(jié)的多個頁 面;
[0029] 由所述字符串提取器和所述統(tǒng)計分析器從抓取的各個頁面提取小說名稱;
[0030] 該裝置進一步包括:綜合分析器,適于綜合從所述多個頁面分別提取出的小說名 稱,確定最終的小說名稱。
[0031]有上述可知,本發(fā)明提供的技術方案通過字符串提取器和統(tǒng)計分析器的相互配 合,對小說網(wǎng)站的單頁面中的特定數(shù)據(jù)段中字符串的統(tǒng)計,依據(jù)統(tǒng)計結果提取出單頁面對 應的小說名稱。該方案基于頁面中的特定數(shù)據(jù)段進行處理,在網(wǎng)站頁面源碼改變的情況下 不會受到影響,無需人力跟進和維護網(wǎng)站頁面的變化情況,簡化了單頁面中提取小說名稱 的操作流程,提高提取效率。
[0032] 上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段, 而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0033] 通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通 技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0034] 圖1示出了根據(jù)本發(fā)明一個實施例的一種從單頁面中提取小說名稱的方法的流 程圖;
[0035] 圖2示出了根據(jù)本發(fā)明一個實施例的一種從單頁面中提取小說名稱的裝置的示 意圖;
[0036] 圖3示出了根據(jù)本發(fā)明另一個實施例的一種從單頁面中提取小說名稱的裝置的 示意圖;
[0037] 圖4A示出了根據(jù)本發(fā)明一個實施例的小說網(wǎng)站的單頁面的示意圖;
[0038] 圖4B示出了本發(fā)明一個實施例中圖4A所示頁面的title標簽的代碼段的截圖示 意圖;
[0039] 圖4C示出了本發(fā)明一個實施例中圖4A所示頁面的hi標簽的代碼段的截圖示意 圖;
[0040] 圖4D示出了根據(jù)本發(fā)明另一個實施例的小說網(wǎng)站的單頁面的示意圖。
【具體實施方式】
[0041] 下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例 所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍 完整的傳達給本領域的技術人員。