国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      資訊篩選推送方法及裝置制造方法

      文檔序號:7777240閱讀:141來源:國知局
      資訊篩選推送方法及裝置制造方法
      【專利摘要】本發(fā)明公開了一種資訊篩選推送方法及裝置。該資訊篩選推送方法包括以下步驟:計算瀏覽記錄的關(guān)閉時間和打開時間的時間間隔,并依據(jù)時間間隔的大小選取第一類瀏覽記錄和第二類瀏覽記錄;從第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,記錄至關(guān)鍵詞數(shù)據(jù)庫;從第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,記錄至關(guān)鍵詞數(shù)據(jù)庫中;獲取新資訊;篩選出主題中包含第一主題關(guān)鍵詞且不包含第二主題關(guān)鍵詞的資訊;推送篩選出的資訊。本發(fā)明的資訊篩選推送方法及裝置,能夠高效地自動篩選出適應(yīng)用戶個性化需求的新資訊進行推送,節(jié)省了用戶用于搜索資訊的時間和網(wǎng)絡(luò)流量,同時篩選推送的資訊具有較佳的準(zhǔn)確性和針對性。
      【專利說明】資訊篩選推送方法及裝置
      【技術(shù)領(lǐng)域】
      [0001 ] 本發(fā)明涉及一種資訊篩選推送方法及裝置。
      【背景技術(shù)】
      [0002]隨著互聯(lián)網(wǎng)的不斷發(fā)展和普及,如今人們越來越多通過網(wǎng)絡(luò)來了解各類新聞、資訊等,通過網(wǎng)絡(luò)獲得資訊可以通過計算機、手機等多種設(shè)備來完成。這種新的資訊獲取方式不僅有效利用了網(wǎng)絡(luò)傳輸數(shù)據(jù)的高效以及便捷性,更利用了網(wǎng)絡(luò)中的海量資訊來滿足用戶的幾乎任何對于資訊的需求。然而,互聯(lián)網(wǎng)上的海量資訊也給用戶帶來了一些負面影響,即用戶在獲取資訊時需要自行進行搜索和篩選,這樣就會浪費時間和網(wǎng)絡(luò)流量。而一些網(wǎng)站為此設(shè)計的資訊推送方法,則是基于網(wǎng)站方面的統(tǒng)計將一段時間內(nèi)比較流行的或者點擊率較高的資訊向用戶端自動推送,這種方式盡管一定程度上減少了用戶自行搜索的時間和網(wǎng)絡(luò)流量,但對于用戶需求無法進行有效區(qū)分,更無法適應(yīng)于用戶個性化的需求,因而在資訊推送的準(zhǔn)確性和效率上仍有明顯不足,即在資訊內(nèi)容上無法準(zhǔn)確高效地匹配于用戶實際想要獲取的資訊。

      【發(fā)明內(nèi)容】

      [0003]本發(fā)明要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)中資訊的推送大多需要用戶進行搜索和篩選,而自動推送的資訊又無法適應(yīng)于個性化的需求,因而篩選推送的資訊的準(zhǔn)確性和效率較低的缺陷,提出一種資訊篩選推送方法及裝置。
      [0004]本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題的:
      [0005]本發(fā)明提供了一種資訊篩選推送方法,其特點在于,將客戶端的瀏覽記錄實時存入一瀏覽記錄池,每條瀏覽記錄包括主題、資訊文本、打開時間和關(guān)閉時間,該資訊篩選推送方法還包括以下步驟:
      [0006]S1、計算每條瀏覽記錄的關(guān)閉時間和打開時間的時間間隔,將該時間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔;
      [0007]S2、從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至一關(guān)鍵詞數(shù)據(jù)庫中;
      [0008]S3、從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中;
      [0009]S4、獲取發(fā)布時間距離當(dāng)前時刻之差小于預(yù)設(shè)的第三間隔的新資訊;
      [0010]S5、從新資訊中篩選出主題中包含該關(guān)鍵詞數(shù)據(jù)庫中的至少一第一主題關(guān)鍵詞、且不包含該關(guān)鍵詞數(shù)據(jù)庫中的任何第二主題關(guān)鍵詞的資訊作為待推送資訊;
      [0011]S6、將待推送資訊發(fā)送至該客戶端。
      [0012]該資訊篩選推送方法實質(zhì)上是基于對客戶端過去的瀏覽記錄的分析,從新資訊中篩選出和同一客戶端過去瀏覽的資訊在內(nèi)容上較相近的資訊進行推送。其中,主題表示這一瀏覽記錄所對應(yīng)的資訊的標(biāo)題,資訊文本即資訊的正文內(nèi)容、打開時間和關(guān)閉時間分別為客戶端打開和關(guān)閉這條資訊的時間。并且,本領(lǐng)域技術(shù)人員容易理解地,這一瀏覽記錄池通??梢栽O(shè)置為僅存儲有最近一段時間內(nèi)的瀏覽記錄,或者可以設(shè)置為其具有一定的容量并在存入新的瀏覽記錄時刪除生成時間最早的瀏覽記錄。
      [0013]步驟S1中計算得到的某一瀏覽記錄的時間間隔越長,通常說明用戶在這一瀏覽記錄上所花費的時間較長,反之亦然。步驟S1中選取了兩類瀏覽記錄,其中第一類瀏覽記錄的時間間隔較長,第二類瀏覽記錄的時間間隔較短,第二類瀏覽記錄更可能是由于用戶的誤操作而打開的資訊或者是用戶在打開這一資訊后很快發(fā)現(xiàn)這一資訊和自己的需求是不一致的,而第一類瀏覽記錄更可能是用戶經(jīng)仔細閱讀的資訊。因此,將第一類瀏覽記錄作為在資訊篩選中的關(guān)鍵詞來源,同時將第二類瀏覽記錄作為資訊篩選中需要排除的關(guān)鍵詞來源。為此不僅需要區(qū)別這兩類瀏覽記錄,在后續(xù)的步驟S2和S3中將從這兩類瀏覽記錄中提取的關(guān)鍵詞也進行區(qū)別。為了更切合用戶使用習(xí)慣來進行瀏覽記錄的區(qū)別,第一間隔和第二間隔的具體數(shù)值可由本領(lǐng)域技術(shù)人員根據(jù)統(tǒng)計數(shù)據(jù)進行設(shè)置。
      [0014]在步驟S5中,根據(jù)新資訊的主題對于新資訊進行了篩選,這樣篩選得到的待推送資訊,其內(nèi)容和用戶過去曾仔細閱讀的資訊較為接近,并且在篩選中排除了用戶誤操作對于分析結(jié)果的影響,因而能夠較準(zhǔn)確地適應(yīng)于用戶的實際需求。
      [0015]較佳地,S2包括以下步驟:
      [0016]S21、從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中;
      [0017]S22、計算各個第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一主題關(guān)鍵詞和權(quán)重值;
      [0018]S3包括以下步驟:
      [0019]S31、從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中;
      [0020]S32、計算各個第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)的負數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二主題關(guān)鍵詞和權(quán)重值;
      [0021]S5由步驟S5a替代:
      [0022]S5a、計算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      [0023]其中,步驟S22及S32中計算各個第一主題關(guān)鍵詞及第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)時,并不對同一個關(guān)鍵詞是提取自哪條瀏覽記錄進行區(qū)分。并且,若有一個詞組同時以第一主題關(guān)鍵詞和第二主題關(guān)鍵詞的形式出現(xiàn)在該關(guān)鍵詞數(shù)據(jù)庫中,則通過步驟S22及S32,在該關(guān)鍵詞數(shù)據(jù)庫中會同時記錄有這一詞組作為第一主題關(guān)鍵詞的權(quán)重值以及作為第二主題關(guān)鍵詞的權(quán)重值。
      [0024]在步驟S5a中,首先確定每條新資訊的主題中的詞組,接著對于其中的每個詞組、均在該關(guān)鍵詞數(shù)據(jù)庫中搜索是否有和這一詞組在用詞上相同的關(guān)鍵詞,應(yīng)當(dāng)注意,這里所說的關(guān)鍵詞包括上述第一主題關(guān)鍵詞和第二主題關(guān)鍵詞。然后計算這些用詞相同的關(guān)鍵詞的權(quán)重值之和,最后選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。也就是說,步驟S5a中的“詞組在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和”意為該關(guān)鍵詞數(shù)據(jù)庫中所有和詞組用詞相同的所有關(guān)鍵詞的權(quán)重值之和。通過這樣的篩選方法,既考慮到了用戶可能的誤操作的影響,又能夠基于量化的統(tǒng)計數(shù)據(jù)進行判斷,篩選結(jié)果更為客觀準(zhǔn)確。
      [0025]較佳地,S2還包括以下步驟:
      [0026]S23、對每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后,提取關(guān)鍵詞作為第一文本關(guān)鍵詞,并提取第一文本關(guān)鍵詞的權(quán)值;
      [0027]S24、取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值,其中該第一修正系數(shù)大于零;
      [0028]S25、在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一文本關(guān)鍵詞和權(quán)重值;
      [0029]S3還包括以下步驟:
      [0030]S33、對每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后,提取關(guān)鍵詞作為第二文本關(guān)鍵詞,并提取第二文本關(guān)鍵詞的權(quán)值;
      [0031]S34、取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值,其中該第二修正系數(shù)小于零;
      [0032]S35、在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二文本關(guān)鍵詞和權(quán)重值。
      [0033]較佳地,S5a由S5b替代,S5b包括以下步驟:
      [0034]S51b、對每條新資訊的資訊文本采用TF-1DF算法進行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞;
      [0035]S52b、計算每條新資訊的主題中的所有詞組以及S51b中提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      [0036]本發(fā)明還提供了一種資訊篩選推送裝置,其特點在于,包括:
      [0037]—瀏覽記錄接收模塊,用于接收并存儲客戶端的瀏覽記錄,每條瀏覽記錄包括主題、資訊文本、打開時間和關(guān)閉時間;
      [0038]一時間篩選模塊,用于計算每條瀏覽記錄的關(guān)閉時間和打開時間的時間間隔,將該時間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔;
      [0039]一第一關(guān)鍵詞提取模塊,用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至一關(guān)鍵詞數(shù)據(jù)庫中;
      [0040]一第二關(guān)鍵詞提取模塊,用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中;
      [0041]一資訊更新模塊,用于獲取發(fā)布時間距離當(dāng)前時刻之差小于預(yù)設(shè)的第三間隔的新資訊;
      [0042]一資訊篩選模塊,用于從新資訊中篩選出主題中包含該關(guān)鍵詞數(shù)據(jù)庫中的至少一第一主題關(guān)鍵詞、且不包含該關(guān)鍵詞數(shù)據(jù)庫中的任何第二主題關(guān)鍵詞的資訊作為待推送資訊;
      [0043]一推送模塊,用于將待推送資訊發(fā)送至該客戶端。
      [0044]較佳地,該第一關(guān)鍵詞提取模塊包括一第一主題提取單元和一第一主題權(quán)重計算單元,該第一主題提取單元用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫中,該第一主題權(quán)重計算單元用于計算各個第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)作為權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一主題關(guān)鍵詞和權(quán)重值;
      [0045]該第二關(guān)鍵詞提取模塊包括一第二主題提取單元和一第二主題權(quán)重計算單元,該第二主題提取單元用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫中,該第二主題權(quán)重計算單元用于計算各個第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)的負數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二主題關(guān)鍵詞和權(quán)重值;
      [0046]該資訊篩選模塊由一權(quán)重值計算模塊代替,該權(quán)重值計算模塊用于計算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      [0047]較佳地,該第一關(guān)鍵詞提取模塊還包括一第一分詞單元和一第一修正單元,該第一分詞單元用于對每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后、提取關(guān)鍵詞作為第一文本關(guān)鍵詞、并提取第一文本關(guān)鍵詞的權(quán)值,該第一修正單元用于取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一文本關(guān)鍵詞和權(quán)重值,其中該第一修正系數(shù)大于零;
      [0048]該第二關(guān)鍵詞提取模塊還包括一第二分詞單元和一第二修正單元,該第二分詞單元用于對每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后、提取關(guān)鍵詞作為第二文本關(guān)鍵詞、并提取第二文本關(guān)鍵詞的權(quán)值,該第二修正單元用于取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二文本關(guān)鍵詞和權(quán)重值,其中該第二修正系數(shù)小于零。
      [0049]較佳地,該權(quán)重值計算模塊由一資訊文本分析模塊代替,該資訊文本分析模塊用于對每條新資訊的資訊文本采用TF-1DF算法進行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞,然后計算每條新資訊的主題中的所有詞組以及提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      [0050]在符合本領(lǐng)域常識的基礎(chǔ)上,上述各優(yōu)選條件,可任意組合,即得本發(fā)明各較佳實例。
      [0051]本發(fā)明的積極進步效果在于:
      [0052]本發(fā)明的資訊篩選推送方法及裝置,通過對用戶端的瀏覽記錄依據(jù)打開時間和關(guān)閉時間的間隔的分類,以及進一步地對于瀏覽記錄中的關(guān)鍵詞的提取和統(tǒng)計分析,能夠高效地自動篩選出適應(yīng)用戶個性化需求的新資訊進行推送,節(jié)省了用戶用于搜索資訊的時間和網(wǎng)絡(luò)流量,同時篩選推送的資訊具有較佳的準(zhǔn)確性和針對性。
      【專利附圖】

      【附圖說明】
      [0053]圖1為本發(fā)明實施例1的資訊篩選推送方法的流程圖。
      [0054]圖2為本發(fā)明實施例2的資訊篩選推送方法的流程圖。
      【具體實施方式】
      [0055]下面結(jié)合附圖給出本發(fā)明較佳實施例,以詳細說明本發(fā)明的技術(shù)方案,但并不因此將本發(fā)明限制在所述的實施例范圍之中。[0056]實施例1
      [0057]本實施例的資訊篩選推送方法中,將客戶端的瀏覽記錄實時存入一瀏覽記錄池,每條瀏覽記錄包括主題、資訊文本、打開時間和關(guān)閉時間。參考圖1所示,本實施例的資訊篩選推送方法還包括以下步驟:
      [0058]S1、計算每條瀏覽記錄的關(guān)閉時間和打開時間的時間間隔,將該時間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔;
      [0059]S21、從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中;
      [0060]S22、計算各個第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一主題關(guān)鍵詞和權(quán)重值;
      [0061]S31、從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中;
      [0062]S32、計算各個第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)的負數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二主題關(guān)鍵詞和權(quán)重值;
      [0063]S4、獲取發(fā)布時間距離當(dāng)前時刻之差小于預(yù)設(shè)的第三間隔的新資訊;
      [0064]S5a、計算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊;
      [0065]S6、將待推送資訊發(fā)送至該客戶端。
      [0066]本實施例中,該第一間隔為10秒,該第二間隔為5秒。在步驟31中計算得到的某一瀏覽記錄的時間間隔如果大于10秒,也就是說用戶在這一瀏覽記錄上所花費的時間較長。反之如果時間間隔小于5秒,說明用戶在這一瀏覽記錄上僅花費了很短的時間就關(guān)閉了這一瀏覽記錄。因此,第一類瀏覽記錄很可能包括用戶真正感興趣的內(nèi)容,而第二類瀏覽記錄很可能并不包括用戶真正感興趣的內(nèi)容,僅僅由于用戶的誤操作或者對標(biāo)題信息的誤解才打開的資訊。應(yīng)當(dāng)注意的是,盡管根據(jù)時間間隔的長短判斷相應(yīng)的一篇資訊內(nèi)容是否是用戶真正感興趣的難以做到完全準(zhǔn)確,但對于大量的瀏覽記錄而言,從統(tǒng)計意義上來說,如果資訊中包含了用戶真正感興趣的內(nèi)容,那么用戶查看這類資訊所花費的時間會更長。因此,將第一類瀏覽記錄作為在資訊篩選中的關(guān)鍵詞來源,同時將第二類瀏覽記錄作為資訊篩選中需要排除的關(guān)鍵詞來源。為此不僅需要區(qū)別這兩類瀏覽記錄,在后續(xù)的步驟中將從這兩類瀏覽記錄中提取的關(guān)鍵詞也進行區(qū)別。
      [0067]其中,步驟S22及S32中計算各個第一主題關(guān)鍵詞及第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)時,并不對同一個關(guān)鍵詞是提取自哪條瀏覽記錄進行區(qū)分。并且,若有一個詞組同時以第一主題關(guān)鍵詞和第二主題關(guān)鍵詞的形式出現(xiàn)在該關(guān)鍵詞數(shù)據(jù)庫中,則通過步驟S22及S32,在該關(guān)鍵詞數(shù)據(jù)庫中會同時記錄有這一詞組作為第一主題關(guān)鍵詞的權(quán)重值以及作為第二主題關(guān)鍵詞的權(quán)重值。舉例來說,若從5條瀏覽記錄中分別提取了一次第一主題關(guān)鍵詞“電器”,同時從另外3條瀏覽記錄中分別提取了一次第二主題關(guān)鍵詞“電器”,那么在步驟S22及S32中計算該第一主題關(guān)鍵詞及第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)時,分別得到第一主題關(guān)鍵詞“電器”的出現(xiàn)次數(shù)為5,第二主題關(guān)鍵詞“電器”的出現(xiàn)次數(shù)為3。也就是說,在該關(guān)鍵詞數(shù)據(jù)庫中記錄了第一主題關(guān)鍵詞“電器”的權(quán)重值為5,第二主題關(guān)鍵詞“電器”的權(quán)重值為-3。
      [0068]在步驟S5a中,首先確定每條新資訊的主題中的詞組,接著對于其中的每個詞組、均在該關(guān)鍵詞數(shù)據(jù)庫中搜索是否有和這一詞組在用詞上相同的關(guān)鍵詞,應(yīng)當(dāng)注意,這里所說的關(guān)鍵詞包括上述第一主題關(guān)鍵詞和第二主題關(guān)鍵詞。然后計算這些用詞相同的關(guān)鍵詞的權(quán)重值之和,最后選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      [0069]舉例來說,在該關(guān)鍵詞數(shù)據(jù)庫中第一主題關(guān)鍵詞“電器”的權(quán)重值為5,第二主題關(guān)鍵詞“電器”的權(quán)重值為-3,另一第二主題關(guān)鍵詞“空調(diào)”的權(quán)重值為_4。并且4條新資訊A、B、C、D的主題中除了詞組“電器”和“空調(diào)”,其他詞組在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值均為零。新資訊A的主題中包括了詞組“電器”和“空調(diào)”,新資訊B的主題中僅包括詞組“電器”,新資訊C的主題中僅包括詞組“空調(diào)”,新資訊D的主題中則不包含詞組“電器”和“空調(diào)”。因此,新資訊A、B、C、D中的詞組在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和分別為_2、2、-4、
      O。這樣的條件下,若選取權(quán)重值之和相對較大的2條新資訊,則會選擇新資訊B、D作為待推送資訊,并在步驟S6中將新資訊B、D發(fā)送至該客戶端。
      [0070]本實施例的資訊篩選推送裝置,包括以下模塊:
      [0071]一瀏覽記錄接收模塊,用于接收并存儲客戶端的瀏覽記錄,每條瀏覽記錄包括主題、資訊文本、打開時間和關(guān)閉時間;
      [0072]一時間篩選模塊,用于計算每條瀏覽記錄的關(guān)閉時間和打開時間的時間間隔,將該時間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔;
      [0073]—第一關(guān)鍵詞提取模塊,用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至一關(guān)鍵詞數(shù)據(jù)庫中;
      [0074]一第二關(guān)鍵詞提取模塊,用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中;
      [0075]—資訊更新模塊,用于獲取發(fā)布時間距離當(dāng)前時刻之差小于預(yù)設(shè)的第三間隔的新資訊;
      [0076]一資訊篩選模塊,用于從新資訊中篩選出主題中包含該關(guān)鍵詞數(shù)據(jù)庫中的至少一第一主題關(guān)鍵詞、且不包含該關(guān)鍵詞數(shù)據(jù)庫中的任何第二主題關(guān)鍵詞的資訊作為待推送資訊;
      [0077]一推送模塊,用于將待推送資訊發(fā)送至該客戶端。
      [0078]其中,該第一關(guān)鍵詞提取模塊包括一第一主題提取單元和一第一主題權(quán)重計算單元,該第一主題提取單元用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫中,該第一主題權(quán)重計算單元用于計算各個第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)作為權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一主題關(guān)鍵詞和權(quán)重值。
      [0079]該第二關(guān)鍵詞提取模塊包括一第二主題提取單元和一第二主題權(quán)重計算單元,該第二主題提取單元用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫中,該第二主題權(quán)重計算單元用于計算各個第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)的負數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二主題關(guān)鍵詞和權(quán)重值。[0080]該資訊篩選模塊由一權(quán)重值計算模塊代替,該權(quán)重值計算模塊用于計算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      [0081]實施例2
      [0082]如圖2所示,本實施例的資訊篩選推送方法和實施例1相比,差別僅在于:
      [0083]S22之后還包括以下步驟:
      [0084]S23、對每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后,提取關(guān)鍵詞作為第一文本關(guān)鍵詞,并提取第一文本關(guān)鍵詞的權(quán)值;
      [0085]S24、取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值,其中該第一修正系數(shù)大于零;
      [0086]S25、在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一文本關(guān)鍵詞和權(quán)重值,然后執(zhí)行S31,S32后還包括以下步驟:
      [0087]S33、對每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后,提取關(guān)鍵詞作為第二文本關(guān)鍵詞,并提取第二文本關(guān)鍵詞的權(quán)值;
      [0088]S34、取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值,其中該第二修正系數(shù)小于零;
      [0089]S35、在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二文本關(guān)鍵詞和權(quán)重值,然后執(zhí)行S4。
      [0090]并且,S5a由S5b替代,S5b包括以下步驟:
      [0091]S51b、對每條新資訊的資訊文本采用TF-1DF算法進行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞;
      [0092]S52b、計算每條新資訊的主題中的所有詞組以及S51b中提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      [0093]其中,上述第一文本關(guān)鍵詞和第二文本關(guān)鍵詞的權(quán)值即在相應(yīng)的資訊文本中關(guān)鍵詞的TF-1DF值,其中TF為詞頻、IDF為逆向文件頻率。對于第一類瀏覽記錄中采用的TF-1DF算法,語料庫所包含的文件即所有的第一類瀏覽記錄中的資訊文本,對于第二類瀏覽記錄中采用的TF-1DF算法,語料庫所包含的文件即所有的第二類瀏覽記錄中的資訊文本。
      [0094]此外,在后續(xù)步驟S5a中,同樣首先確定每條新資訊的主題中的詞組,接著對于其中的每個詞組、均在該關(guān)鍵詞數(shù)據(jù)庫中搜索是否有和這一詞組在用詞上相同的關(guān)鍵詞,應(yīng)當(dāng)注意的是,在這一優(yōu)選的技術(shù)方案中,這里的關(guān)鍵詞不僅包括上述第一主題關(guān)鍵詞和第二主題關(guān)鍵詞,還包括第一文本關(guān)鍵詞和第二文本關(guān)鍵詞。然后計算這些用詞相同的關(guān)鍵詞的權(quán)重值之和,最后選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。在這一方案中,第一修正系數(shù)和第二修正系數(shù)的取值可由本領(lǐng)域技術(shù)人員根據(jù)需要進行設(shè)置,第一修正系數(shù)和第二修正系數(shù)的絕對值越大,則相應(yīng)的第一文本關(guān)鍵詞和第二文本關(guān)鍵詞在篩選過程中所起作用相對于第一和第二主題關(guān)鍵詞所起作用就越大,反之亦然。
      [0095]對于步驟S51b中的TF-1DF算法,其語料庫包含了所有的新資訊的資訊文本。同時,容易理解地,如果存在資訊關(guān)鍵詞和新資訊的主題中的詞組重復(fù)的情況,計算在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和無須重復(fù)執(zhí)行。上述對于資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和的計算,實質(zhì)上是對于和資訊關(guān)鍵詞在用詞上相同的、該關(guān)鍵詞數(shù)據(jù)庫中的所有關(guān)鍵詞的權(quán)重值之和的計算。
      [0096]本實施例的資訊篩選推送裝置和實施例1相比,差別僅在于:
      [0097]該第一關(guān)鍵詞提取模塊還包括一第一分詞單元和一第一修正單元,該第一分詞單元用于對每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后、提取關(guān)鍵詞作為第一文本關(guān)鍵詞、并提取第一文本關(guān)鍵詞的權(quán)值,該第一修正單元用于取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一文本關(guān)鍵詞和權(quán)重值,其中該第一修正系數(shù)大于零。
      [0098]該第二關(guān)鍵詞提取模塊還包括一第二分詞單元和一第二修正單元,該第二分詞單元用于對每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后、提取關(guān)鍵詞作為第二文本關(guān)鍵詞、并提取第二文本關(guān)鍵詞的權(quán)值,該第二修正單元用于取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二文本關(guān)鍵詞和權(quán)重值,其中該第二修正系數(shù)小于零。
      [0099]并且,該權(quán)重值計算模塊由一資訊文本分析模塊代替,該資訊文本分析模塊用于對每條新資訊的資訊文本采用TF-1DF算法進行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞,然后計算每條新資訊的主題中的所有詞組以及提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      [0100]雖然以上描述了本發(fā)明的【具體實施方式】,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說明,本發(fā)明的保護范圍是由所附權(quán)利要求書限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實質(zhì)的前提下,可以對這些實施方式做出多種變更或修改,但這些變更和修改均落入本發(fā)明的保護范圍。
      【權(quán)利要求】
      1.一種資訊篩選推送方法,其特征在于,將客戶端的瀏覽記錄實時存入一瀏覽記錄池,每條瀏覽記錄包括主題、資訊文本、打開時間和關(guān)閉時間,該資訊篩選推送方法還包括以下步驟: S1、計算每條瀏覽記錄的關(guān)閉時間和打開時間的時間間隔,將該時間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔; S2、從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至一關(guān)鍵詞數(shù)據(jù)庫中; S3、從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中; S4、獲取發(fā)布時間距離當(dāng)前時刻之差小于預(yù)設(shè)的第三間隔的新資訊; S5、從新資訊中篩選出主題中包含該關(guān)鍵詞數(shù)據(jù)庫中的至少一第一主題關(guān)鍵詞、且不包含該關(guān)鍵詞數(shù)據(jù)庫中的任何第二主題關(guān)鍵詞的資訊作為待推送資訊; S6、將待推送資訊發(fā)送至該客戶端。
      2.如權(quán)利要求1所述的資訊篩選推送方法,其特征在于,S2包括以下步驟: S21、從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中; S22、計算各個第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫中記錄權(quán)重值; S3包括以下步驟: S31、從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中; S32、計算各個第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)的負數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫中記錄權(quán)重值; S5由步驟S5a替代: S5a、計算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      3.如權(quán)利要求2所述的資訊篩選推送方法,其特征在于,S2還包括以下步驟: S23、對每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后,提取關(guān)鍵詞作為第一文本關(guān)鍵詞,并提取第一文本關(guān)鍵詞的權(quán)值; S24、取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值,其中該第一修正系數(shù)大于零; S25、在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一文本關(guān)鍵詞和權(quán)重值; S3還包括以下步驟: S33、對每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后,提取關(guān)鍵詞作為第二文本關(guān)鍵詞,并提取第二文本關(guān)鍵詞的權(quán)值; S34、取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值,其中該第二修正系數(shù)小于零; S35、在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二文本關(guān)鍵詞和權(quán)重值。
      4.如權(quán)利要求2或3所述的資訊篩選推送方法,其特征在于,S5a由S5b替代,S5b包括以下步驟: S51b、對每條新資訊的資訊文本采用TF-1DF算法進行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞; S52b、計算每條新資訊的主題中的所有詞組以及S51b中提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資τΗ ο
      5.一種資訊篩選推送裝置,其特征在于,包括: 一瀏覽記錄接收模塊,用于接收并存儲客戶端的瀏覽記錄,每條瀏覽記錄包括主題、資訊文本、打開時間和關(guān)閉時間; 一時間篩選模塊,用于計算每條瀏覽記錄的關(guān)閉時間和打開時間的時間間隔,將該時間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔; 一第一關(guān)鍵詞提取模塊,用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至一關(guān)鍵詞數(shù)據(jù)庫中; 一第二關(guān)鍵詞提取模塊,用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫中; 一資訊更新模塊,用于 獲取發(fā)布時間距離當(dāng)前時刻之差小于預(yù)設(shè)的第三間隔的新資訊; 一資訊篩選模塊,用于從新資訊中篩選出主題中包含該關(guān)鍵詞數(shù)據(jù)庫中的至少一第一主題關(guān)鍵詞、且不包含該關(guān)鍵詞數(shù)據(jù)庫中的任何第二主題關(guān)鍵詞的資訊作為待推送資訊; 一推送模塊,用于將待推送資訊發(fā)送至該客戶端。
      6.如權(quán)利要求5所述的資訊篩選推送裝置,其特征在于,該第一關(guān)鍵詞提取模塊包括一第一主題提取單元和一第一主題權(quán)重計算單元,該第一主題提取單元用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫中,該第一主題權(quán)重計算單元用于計算各個第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)作為權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一主題關(guān)鍵詞和權(quán)重值; 該第二關(guān)鍵詞提取模塊包括一第二主題提取單元和一第二主題權(quán)重計算單元,該第二主題提取單元用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫中,該第二主題權(quán)重計算單元用于計算各個第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的出現(xiàn)次數(shù)的負數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二主題關(guān)鍵詞和權(quán)重值; 該資訊篩選模塊由一權(quán)重值計算模塊代替,該權(quán)重值計算模塊用于計算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      7.如權(quán)利要求6所述的資訊篩選推送裝置,其特征在于,該第一關(guān)鍵詞提取模塊還包括一第一分詞單元和一第一修正單元,該第一分詞單元用于對每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后、提取關(guān)鍵詞作為第一文本關(guān)鍵詞、并提取第一文本關(guān)鍵詞的權(quán)值,該第一修正單元用于取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第一文本關(guān)鍵詞和權(quán)重值,其中該第一修正系數(shù)大于零; 該第二關(guān)鍵詞提取模塊還包括一第二分詞單元和一第二修正單元,該第二分詞單元用于對每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進行分詞后、提取關(guān)鍵詞作為第二文本關(guān)鍵詞、并提取第二文本關(guān)鍵詞的權(quán)值,該第二修正單元用于取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫中記錄第二文本關(guān)鍵詞和權(quán)重值,其中該第二修正系數(shù)小于零。
      8.如權(quán)利要求6或7所述的資訊篩選推送裝置,其特征在于,該權(quán)重值計算模塊由一資訊文本分析模塊代替,該資訊文本分析模塊用于對每條新資訊的資訊文本采用TF-1DF算法進行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞,然后計算每條新資訊的主題中的所有詞組以及提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫中的權(quán)重值之和,并選取權(quán)重值之和相對較大的若干條新資訊作為待推送資訊。
      【文檔編號】H04L29/06GK103559315SQ201310590508
      【公開日】2014年2月5日 申請日期:2013年11月20日 優(yōu)先權(quán)日:2013年11月20日
      【發(fā)明者】張記者 申請人:上海華勤通訊技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1