網(wǎng)絡(luò)小說章節(jié)列表評估方法及裝置的制造方法
【專利說明】
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種網(wǎng)絡(luò)小說章節(jié)列表評估方法及裝置?!尽颈尘凹夹g(shù)】】
[0002]隨著計算機和計算機網(wǎng)絡(luò)的日益普及,互聯(lián)網(wǎng)已經(jīng)深入到人們工作、學(xué)習(xí)和生活的各個領(lǐng)域,成為人們發(fā)布和獲取信息的重要途徑。
[0003]在互聯(lián)網(wǎng)中,同一本電子書(例如小說等)通常同時在多個站點存在,因此當(dāng)搜索電子書時,在檢索結(jié)果中會展現(xiàn)多個存在該電子書的站點。但是同一本電子書在不同的站點的轉(zhuǎn)載過程中,會存在章節(jié)列表名稱不規(guī)范、章節(jié)重復(fù)、斷章、無效章節(jié)等情況,對用戶的體驗造成了影響。通常,在現(xiàn)有的檢索結(jié)果中排在最前面的站點是質(zhì)量最好的一個站點,即存在章節(jié)列表名稱不規(guī)范、章節(jié)重復(fù)、斷章、無效章節(jié)等情況最少的站點,但是其章節(jié)列表頁仍然可能是不完整的,甚至可能存在拼湊得到的虛假章節(jié)。
[0004]現(xiàn)有技術(shù)中,通過對小說站點人工配置模板進行章節(jié)列表頁的評估,該方法雖然準(zhǔn)確率高,但是缺點也很明顯:人力能覆蓋的網(wǎng)站有限,不夠智能。因此,如何靈活、快速以及準(zhǔn)確的評估章節(jié)列表頁成為目前需要解決的技術(shù)問題。
【
【發(fā)明內(nèi)容】
】
[0005]本發(fā)明的目的旨在解決上述至少一個問題,提供了一種網(wǎng)絡(luò)小說章節(jié)列表評估方法及裝置。
[0006]為實現(xiàn)該目的,本發(fā)明采用如下技術(shù)方案:
[0007]本發(fā)明提供了一種網(wǎng)絡(luò)小說章節(jié)列表評估方法,包括有如下步驟:
[0008]確定同一主體的多個章節(jié)列表頁之間的相似度,將相似度高于預(yù)設(shè)閾值的多個章節(jié)列表頁歸類為同一集合,每個章節(jié)列表頁對應(yīng)于一個站點;
[0009]獲取同一集合內(nèi)每個站點的權(quán)威值,將權(quán)威值的和值最大的集合作為第一集合,其中權(quán)威值根據(jù)多個用戶對該站點的評分確定;
[0010]獲取第一集合內(nèi)每個章節(jié)列表頁的至少一個特征量值;
[0011]根據(jù)預(yù)設(shè)規(guī)則計算每個章節(jié)列表頁的所述至少一個特征量值的綜合權(quán)值,獲取其中綜合權(quán)值最大的章節(jié)列表頁。
[0012]進一步的,在所述確定同一主體的多個章節(jié)列表頁之間的相似度的步驟之前,還包括步驟:
[0013]基于同一主體從多個站點獲取該主體對應(yīng)的章節(jié)列表頁。
[0014]具體的,所述確定同一主體的多個章節(jié)列表頁之間的相似度,將相似度高于預(yù)設(shè)閾值的多個章節(jié)列表頁歸類為同一集合的步驟中,還包括步驟:
[0015]依據(jù)所述章節(jié)列表頁所對應(yīng)站點的權(quán)威值,確定權(quán)威值最高的章節(jié)列表頁為參照章節(jié)列表頁;
[0016]提取每一章節(jié)列表頁的文字特征向量;
[0017]計算每一章節(jié)列表頁與所述參照章節(jié)列表頁具有相同文字特征向量的總數(shù);
[0018]當(dāng)該總數(shù)大于預(yù)設(shè)閾值時,將所述章節(jié)列表頁與所述參照章節(jié)列表頁歸類為同一隹A
口 ο
[0019]具體的,所述獲取第一集合內(nèi)每個章節(jié)列表頁的至少一個特征量值的步驟中,包括:
[0020]提取第一集合內(nèi)每一章節(jié)列表頁的文字特征向量;
[0021]計算所述第一集合中每兩個章節(jié)列表頁具有相同文字特征向量的數(shù)量的第一平均值;
[0022]計算某一章節(jié)列表頁與多個其他章節(jié)列表頁的相同文字特征向量的數(shù)量的第二平均值;
[0023]依據(jù)所述第二平均值與所述第一平均值的差值大小,基于預(yù)設(shè)的完整性規(guī)則設(shè)定表征該章節(jié)列表頁完整性的第一特征量值,其中該差值大小與第一特征量值相對應(yīng)。
[0024]進一步的,所述方法還包括有步驟:
[0025]依據(jù)所述第二平均值與所述第一平均值的差值大小,基于預(yù)設(shè)的正確性規(guī)則設(shè)定表征該章節(jié)列表頁正確性的第二特征量值,其中該差值大小與第二特征量值相對應(yīng)。
[0026]進一步的,所述獲取第一集合內(nèi)每個章節(jié)列表頁的至少一個特征量值的步驟中,還包括:
[0027]獲取該第一集合內(nèi)每個章節(jié)列表頁對應(yīng)于相同頁碼的章節(jié)列表中的文字特征向量,其中該頁碼所對應(yīng)的數(shù)值大于預(yù)設(shè)的頁碼閾值;
[0028]獲取某一個章節(jié)列表頁與多個其他章節(jié)列表頁具有相同文字特征向量的總數(shù);
[0029]根據(jù)所述總數(shù)與預(yù)設(shè)的表征實新性的第二閾值的大小關(guān)系,判斷該章節(jié)列表頁是否為虛假章節(jié)列表頁。
[0030]具體的,根據(jù)所述總數(shù)與預(yù)設(shè)的表征實新性的第二閾值的大小關(guān)系,判斷該章節(jié)列表頁是否為虛假章節(jié)列表頁的步驟,包括:
[0031]當(dāng)所述總數(shù)大于等于所述預(yù)設(shè)的第二閾值,確定所述章節(jié)列表頁為有效章節(jié)列表頁;
[0032]當(dāng)所述總數(shù)小于所述預(yù)設(shè)的第二閾值,確定所述章節(jié)列表頁為虛假章節(jié)列表頁。
[0033]進一步的,確定所述章節(jié)列表頁為虛假章節(jié)列表頁之后,還包括步驟:
[0034]過濾掉所述虛假章節(jié)列表頁。
[0035]進一步的,所述根據(jù)預(yù)設(shè)規(guī)則計算每個章節(jié)列表頁的至少一個特征量值的綜合權(quán)值,獲取其中綜合權(quán)值最大的章節(jié)列表頁的步驟中,包括:
[0036]根據(jù)預(yù)設(shè)規(guī)則對同一章節(jié)列表頁的至少一個特征量值進行加權(quán)處理,得到該章節(jié)列表頁的綜合權(quán)值;
[0037]比較每個章節(jié)列表頁對應(yīng)的綜合權(quán)值的大?。?br>[0038]獲取其中綜合權(quán)值最大的章節(jié)列表頁。
[0039]進一步的,所述根據(jù)預(yù)設(shè)規(guī)則對同一章節(jié)列表頁的至少一個特征量值進行加權(quán)處理,得到該章節(jié)列表頁的綜合權(quán)值的步驟中,包括:
[0040]根據(jù)預(yù)設(shè)的對應(yīng)于每個特定特征量值的權(quán)值,對該權(quán)值所對應(yīng)的特征量值進行加權(quán)處理,所得結(jié)果為該章節(jié)列表頁的綜合權(quán)值,其中特定特征量值表征章節(jié)列表頁完整性和/或正確性。
[0041]具體的,所述確定同一主體的多個章節(jié)列表頁之間的相似度的步驟中,還包括步驟:
[0042]確定同一主體的多個章節(jié)列表頁中章節(jié)列表名稱的文本特征向量之間的相似度;和/或
[0043]確定同一主體的多個章節(jié)列表頁中對應(yīng)于章節(jié)列表名稱的頁碼的數(shù)值特征向量之間的相似度。
[0044]本發(fā)明還提供了一種網(wǎng)絡(luò)小說章節(jié)列表評估裝置,包括有:
[0045]歸類模塊,用于確定同一主體的多個章節(jié)列表頁之間的相似度,將相似度高于預(yù)設(shè)閾值的多個章節(jié)列表頁歸類為同一集合,每個章節(jié)列表頁對應(yīng)于一個站點;
[0046]分集模塊,用于獲取同一集合內(nèi)每個站點的權(quán)威值,將權(quán)威值的和值最大的集合作為第一集合,其中權(quán)威值根據(jù)多個用戶對該站點的評分確定;
[0047]特征量獲取模塊,用于獲取第一集合內(nèi)每個章節(jié)列表頁的至少一個特征量值;
[0048]目標(biāo)獲取模塊,用于根據(jù)預(yù)設(shè)規(guī)則計算每個章節(jié)列表頁的所述至少一個特征量值的綜合權(quán)值,獲取其中綜合權(quán)值最大的章節(jié)列表頁。
[0049]進一步的,所述裝置還包括有列表頁獲取模塊,
[0050]所述列表頁獲取模塊,用于基于同一主體從多個站點獲取該主體對應(yīng)的章節(jié)列表頁。
[0051]具體的,所述歸類模塊還包括有:
[0052]參照頁確定單元,用于依據(jù)所述章節(jié)列表頁所對應(yīng)站點的權(quán)威值,確定權(quán)威值最高的章節(jié)列表頁為參照章節(jié)列表頁;
[0053]第一提取單元,用于提取每一章節(jié)列表頁的文字特征向量;
[0054]第一計算單元,用于計算每一章節(jié)列表頁與所述參照章節(jié)列表頁具有相同文字特征向量的總數(shù);
[0055]第一歸類單元,用于當(dāng)該總數(shù)大于預(yù)設(shè)閾值時,將所述章節(jié)列表頁與所述參照章節(jié)列表頁歸類為同一集合。
[0056]具體的,所述特征量獲取模塊還包括有:
[0057]第二提取單元,用于提取第一集合內(nèi)每一章節(jié)列表頁的文字特征向量;
[0058]第一平均值計算單元,用于計算所述第一集合中每兩個章節(jié)列表頁具有相同文字特征向量的數(shù)量的第一平均值;
[0059]第二平均值計算單元,用于計算某一章節(jié)列表頁與多個其他章節(jié)列表頁的相同文字特征向量的數(shù)量的第二平均值;
[0060]第一設(shè)定單元,用于依據(jù)所述第二平均值與所述第一平均值的差值大小,基于預(yù)設(shè)的完整性規(guī)則設(shè)定表征該章節(jié)列表頁完整性的第一特征量值,其中該差值大小與第一特征量值相對應(yīng)。
[0061]進一步的,本裝置還包括有第二設(shè)定單元:
[0062]所述第二設(shè)定單元,用于依據(jù)所述第二平均值與所述第一平均值的差值大小,基于預(yù)設(shè)的正確性規(guī)則設(shè)定表征該章節(jié)列表頁正確性的第二特征量值,其中該差值大小與第二特征量值相對應(yīng)。
[0063]具體的,所述特征量獲取模塊還包括有:
[0064]第一獲取單元,用于獲取該第一集合內(nèi)每個章節(jié)列表頁對應(yīng)于相同頁碼的章節(jié)列表中的文字特征向量,其中該頁碼所對應(yīng)的數(shù)值大于預(yù)設(shè)的頁碼閾值;
[0065]總數(shù)獲取單元,用于獲取某一個章節(jié)列表頁與多個其他章節(jié)列表頁具有相同文字特征向量的總數(shù);
[0066]判斷單元,用于根據(jù)所述總數(shù)與預(yù)設(shè)的表征實新性的第二閾值的大小關(guān)系,判斷該章節(jié)列表頁是否為虛假章節(jié)列表頁。
[0067]進一步的,所述判斷單元還用于當(dāng)所述總數(shù)大于等于所述預(yù)設(shè)的第二閾值,確定所述章節(jié)列表頁為有效章節(jié)列表頁;及
[0068]當(dāng)所述總數(shù)小于所述預(yù)設(shè)的第二閾值,確定所述章節(jié)列表頁為虛假章節(jié)列表頁。
[0069]進一步的,所述特征量獲取模塊還包括有過濾單元,所述過濾單元,用于所述判斷單元確定所述章節(jié)列表頁為虛假章節(jié)列表頁之后,過濾掉所述虛假章節(jié)列表頁。
[0070]具體的,所述目標(biāo)