国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      確定詞信息熵及利用詞信息熵的搜索方法及其設備的制作方法

      文檔序號:6598947閱讀:324來源:國知局
      專利名稱:確定詞信息熵及利用詞信息熵的搜索方法及其設備的制作方法
      技術領域
      本申請涉及計算機網(wǎng)絡領域,尤其涉及一種確定詞信息熵的方法及設備,以及利用確定的詞信息熵進行搜索的方法及設備。
      背景技術
      搜索請求(Query)是搜索引擎場景下特有的短文本,用戶通過搜索請求描述想要檢索的信息,搜索引擎通過搜索請求中描述的信息檢索數(shù)據(jù)庫,返回用戶想要的結果。用戶發(fā)起的一次搜索請求平均由2. 4個詞語組成(例如真絲連衣裙、直板手機),一般情況下用戶使用自然文本作為搜索請求,而不是使用與、或、非之類的語句,因此搜索引擎根據(jù)接收到的搜索請求進行檢索時,需要根據(jù)搜索請求中的信息量確定用戶的意圖進行搜索,并將搜索的結果返回給用戶。詞語信息量的度量即為詞信息熵,一條信息的信息量大小與該信息的信息量是否準確有直接的關系。例如如果要搞清楚一件不確定的事,或是對相關信息一無所知的事, 就需要了解大量的信息;相反,如果已經(jīng)對某件事已經(jīng)有了較多的了解,則不需要太多的信息就能搞清楚。從這個角度出發(fā),可以認為信息量的度量就等于不確定性的多少。因此,利用詞信息熵的概念來確定搜索請求中的信息量,進而根據(jù)搜索請求中的信息量確定用戶的真實意圖并進行搜索。目前計算詞信息熵的方式是利用公式TF/IDF實現(xiàn)的,其中,TF表示一個詞語在文檔集合中出現(xiàn)的總次數(shù),IDF表示文檔集合中出現(xiàn)該詞語的文檔的個數(shù)。針對某一個詞語計算出的TF/IDF值越大,表示該詞語越重要,反之,則表示該詞語越不重要。上述通過TF/IDF公式計算詞信息熵的方式適用于大文本(如字數(shù)較多的文檔), 對于搜索請求之類的短文本,由于一個搜索請求平均只包含2. 4個詞語,而一個詞語在一個搜索請求中很少會出現(xiàn)多次,因此,采用TF/IDF公式計算詞信息熵時,無法區(qū)分搜索請求中各詞語的重要度。例如如果一個搜索請求是“新款手機”,則采用TF/IDF公式計算詞信息熵時,無法區(qū)分常用的修飾詞“新款”和表達中心意圖的詞“手機”的重要度。為了實現(xiàn)針對短文本的詞信息熵的計算,目前提出了一種基于語料的標題和描述統(tǒng)計詞語重要度的方法。其原理是將文檔(即大文本)的標題看作是一個搜索請求,利用標題中詞語在描述中出現(xiàn)的頻度信息為每個詞語計算一個詞信息熵。此算法避免了單純在短文本中使用TF/IDF公式計算詞信息熵的缺點,但該方法將文檔的標題視為搜索請求,而標題中的詞語不一定是文檔中出現(xiàn)頻次最高的詞語,因此,可能會導致計算出的各詞語的詞信息熵與用戶發(fā)起搜索請求的真實意圖有偏差,使得搜索結果準確度較低。

      發(fā)明內(nèi)容
      —方面,本申請?zhí)峁┮环N確定詞信息熵的方法及設備,用以解決現(xiàn)有技術中存在的對搜索請求中詞語的詞信息熵的確定存在偏差的問題。另一方面,本申請還提供一種搜索方法,用以解決在搜索請求沒有完全匹配的搜索結果時,怎樣提高搜索結果準確性的問題。一種確定詞信息熵的方法,所述方法包括確定用戶輸入的各搜索請求所屬的類目;根據(jù)所屬的類目將所述搜索請求劃分為多組;對每組內(nèi)的搜索請求分詞;統(tǒng)計分詞后得到的各詞語在每組內(nèi)出現(xiàn)的概率;根據(jù)所述概率確定各詞語的用于搜索的詞信息熵值。一種確定詞信息熵的設備,所述設備包括類目確定模塊,用于確定用戶輸入的各搜索請求所屬的類目;分組模塊,用于根據(jù)所屬的類目將所述搜索請求劃分為多組;分詞模塊,用于對每組內(nèi)的搜索請求分詞;概率確定模塊,用于統(tǒng)計分詞后得到的各詞語在每組內(nèi)出現(xiàn)的概率;詞信息熵值確定模塊,用于根據(jù)所述概率確定各詞語的用于搜索的詞信息熵值。一種利用詞信息熵的搜索方法,包括根據(jù)用戶輸入的一搜索請求,判斷是否存在與所述一搜索請求匹配的搜索結果;若不存在與所述一搜索請求匹配的搜索結果,則根據(jù)保存的各詞語及各詞語對應的詞信息熵值,在所述一搜索請求分詞后得到的詞語中選擇詞信息熵值小于設定閾值的至少一個詞語進行搜索;其中,各詞語及各詞語對應的詞信息熵值是通過以下方式確定的根據(jù)用戶輸入的各搜索請求所屬的類目將所述搜索請求劃分為多組,在對每組內(nèi)的搜索請求分詞后,根據(jù)統(tǒng)計分詞后得到的各詞語在每組內(nèi)出現(xiàn)的概率確定各詞語的詞信
      息熵值。一種利用詞信息熵的搜索設備,包括詞信息熵值確定模塊,用于根據(jù)用戶輸入的各搜索請求所屬的類目將所述搜索請求劃分為多組,在對每組內(nèi)的搜索請求分詞后,根據(jù)統(tǒng)計分詞后得到的各詞語在每組內(nèi)出現(xiàn)的概率確定各詞語的詞信息熵值;判斷模塊,用于判斷是否存在與用戶輸入的一搜索請求匹配的搜索結果;詞語選擇模塊,用于在不存在與所述一搜索請求匹配的搜索結果時,根據(jù)所述詞信息熵值確定模塊中的各詞語及各詞語對應的詞信息熵值,在所述一搜索請求分詞后得到的詞語中選擇詞信息熵值小于設定閾值的至少一個詞語;搜索模塊,用于根據(jù)選擇的詞語進行搜索。本申請實施例具有如下有益效果由于本申請中將搜索請求按照所屬的類目進行分組,形成一個類似于“大文本”的數(shù)據(jù)組,在此基礎上計算詞語的詞信息熵值,可以準確地度量詞語的重要程度,計算出的詞信息熵值準確;進一步地,利用計算出的詞信息熵值確定出搜索請求中重要的詞語,以便于在搜索請求沒有完全匹配的搜索結果時,將重要程度較高的詞語的匹配結果優(yōu)先展示給用戶,提高搜索結果的準確性。


      6
      圖1為本申請實施例一確定詞信息熵的方法示意圖;圖2為本申請實施例二利用利用詞信息熵的進行搜索的方法示意圖;圖3(a)和圖3(b)為本申請實施例四確定詞信息熵的設備結構示意圖;圖4為本申請實施例五利用詞信息熵的搜索設備結構示意圖。
      具體實施例方式為了實現(xiàn)本申請實施例目的,提出了一種新的確定詞信息熵的方案,通過將搜索請求按類目分組實現(xiàn)搜索請求的聚合,形成一個類似于“大文本”的數(shù)據(jù)組;將聚合在一起的搜索請求進行分詞,根據(jù)分詞后得到的各詞語在不同搜索請求組內(nèi)的出現(xiàn)概率計算詞語的詞信息熵,可以有效地度量詞語的重要性,以便于在未搜索出與搜索請求直接匹配的搜索結果時,可以以搜索請求中詞信息熵最小的詞語為關鍵字進行搜索,使搜索結果在最大程度上符合用戶的意圖。下面結合說明書附圖對本申請實施例進行詳細說明。實施例一本申請實施例一提供了一種確定詞信息熵的方法,其示意圖如圖1所示,包括以下步驟步驟101 接收用戶輸入的多個搜索請求,并確定各搜索請求所屬的類目。在本實施例中,用戶輸入的搜索請求是平均只包含約2 3個詞語的短文本。本實施例不限定確定搜索請求所屬類目的方案,下面給出兩種可用的方案第一種方案使用用戶行為數(shù)據(jù)自動挖掘搜索請求所屬類目。在網(wǎng)絡日志(web log)中從搜索請求到類目的直接點擊行為往往受頁面布局干擾,且數(shù)據(jù)較稀疏。因此需要一個間接的方法獲得搜索請求所屬類目。本申請實施例可以將在搜索對話框內(nèi)輸入搜索請求搜索跳轉后的頁面所屬的類目確定為搜索請求所屬的類目。 具體地,通過跳轉后的目標頁面訪問路徑中的導入網(wǎng)址(reference url, refurl),確定所述搜索請求能夠訪問的已經(jīng)確定所屬類目的目標頁面,由于每一目標頁面都有一個類目, 則將所述搜索請求能夠訪問的目標頁面所屬的類目作為搜索請求所屬的類目,從而將該搜索請求映射到確定的類目上。在第一種方案的情況下,由于根據(jù)網(wǎng)頁中當前的實際導入網(wǎng)址確定搜索請求所屬的類目,使得確定結果的真實性較高。第二種方案手動挖掘搜索請求所屬的類目。通過預先設定的對應關系將搜索請求指向對應的類目,具體地,根據(jù)預設的類目和詞語的對應關系,將搜索請求中的詞語對應的類目作為搜索請求所屬的類目。在第二種方案的情況下,可以根據(jù)對應關系直接、快速地確定搜索請求所屬的類目,提高類目確定過程的效率。需要說明的是,一個搜索請求可以屬于一個類目,也可以屬于多個類目,具體的分屬情況可以根據(jù)類目的劃分方式不同而不同。例如如果在商品的類目包含“手機類目”和 “電池類目”,則內(nèi)容是“手機電池”的一個搜索請求可以同時屬于“手機類目,,和“電池類目,,;如果在商品的類目包含“手機類目,,但不包含“電池類目”,則內(nèi)容是“手機電池”的一個搜索請求屬于“手機類目”。步驟102 根據(jù)搜索請求所屬的類目,將所述搜索請求劃分為多組。
      較優(yōu)的劃分原則可以是同一組內(nèi)的搜索請求屬于相同的類目。在本步驟中,將搜索請求按照所屬的類目進行劃分,劃分后每組內(nèi)包含的搜索請求可以看作是“大文本”,攜帶了多個搜索請求的信息量,后續(xù)可以在此基礎上計算各詞語的詞信息熵。步驟103 將每組內(nèi)的搜索請求分詞,得到搜索請求分詞后的詞語。在本步驟中將搜索請求分詞即為將搜索請求的內(nèi)容按照詞義進行劃分。例如內(nèi)容為“新款手機”的搜索請求分詞后可以得到“新款”和“手機”兩個詞語。步驟104 統(tǒng)計分詞后得到的各詞語在每組出現(xiàn)的概率。在本步驟中,將所述同一詞語在每個組出現(xiàn)的次數(shù)分別除以該詞語在所有組出現(xiàn)的次數(shù)之和,得到的商值為所述同一詞語在該組內(nèi)出現(xiàn)的概率,具體的計算公式如公式(1) 所示
      權利要求
      1.一種確定詞信息熵的方法,其特征在于包括以下步驟 確定用戶輸入的各搜索請求所屬的類目;根據(jù)所屬的類目將所述搜索請求劃分為多組; 對每組內(nèi)的搜索請求分詞; 統(tǒng)計分詞后得到的各詞語在每組內(nèi)出現(xiàn)的概率; 根據(jù)所述概率確定各詞語的用于搜索的詞信息熵值。
      2.如權利要求1所述的方法,其特征在于,確定搜索請求所屬的類目的方式為根據(jù)所述搜索請求確定能夠訪問的已經(jīng)確定所屬類目的目標網(wǎng)頁,將所述目標網(wǎng)頁所屬的類目作為所述搜索請求所屬的類目。
      3.如權利要求1所述的方法,其特征在于,確定搜索請求所屬的類目的方式為根據(jù)預設的類目和詞語的對應關系,將搜索請求中的詞語對應的類目作為搜索請求所屬的類目。
      4.如權利要求1 3任一所述的方法,其特征在于,在確定詞語的詞信息熵值之后,還包括如下詞信息熵值更新步驟確定用戶再次輸入的各搜索請求所屬的類目;根據(jù)所屬的類目將再次輸入的所述搜索請求劃分為多組;將再次輸入的各搜索請求劃分得到的多組與之前得到的多組合并;對再次輸入的各搜索請求進行分詞;重新統(tǒng)計全部詞語在合并后的各組內(nèi)出現(xiàn)的概率;根據(jù)各詞語在每組內(nèi)出現(xiàn)的概率重新確定各詞語的用于搜索的詞信息熵值。
      5.如權利要求4所述的方法,其特征在于,在確定詞語的詞信息熵值之后,詞信息熵值更新之前,所述方法還包括以下步驟收集用戶再次輸入的各搜索請求并對再次輸入的搜索請求進行累加; 在累加后的搜索請求的數(shù)量達到設定門限值時,根據(jù)累加后的搜索請求執(zhí)行所述詞信息熵值更新步驟。
      6.如權利要求4所述的方法,其特征在于,在確定詞語的詞信息熵值之后,詞信息熵值更新之前,所述方法還包括以下步驟收集用戶再次輸入的各搜索請求;在經(jīng)過設定的時間周期時,根據(jù)收集的搜索請求執(zhí)行所述詞信息熵值更新步驟。
      7.如權利要求4所述的方法,其特征在于,所述詞語的詞信息熵值通過以下公式確定
      8.一種利用詞信息熵的搜索方法,其特征在于包括根據(jù)用戶輸入的一搜索請求,判斷是否存在與所述一搜索請求匹配的搜索結果; 若不存在與所述一搜索請求匹配的搜索結果,則根據(jù)保存的各詞語及各詞語對應的詞信息熵值,在所述一搜索請求分詞后得到的詞語中選擇詞信息熵值小于設定閾值的至少一個詞語進行搜索;其中,各詞語及各詞語對應的詞信息熵值是通過以下方式確定的 根據(jù)用戶輸入的各搜索請求所屬的類目將所述搜索請求劃分為多組,在對每組內(nèi)的搜索請求分詞后,根據(jù)統(tǒng)計分詞后得到的各詞語在每組內(nèi)出現(xiàn)的概率確定各詞語的詞信息熵值。
      9.一種確定詞信息熵的設備,其特征在于包括類目確定模塊,用于確定用戶輸入的各搜索請求所屬的類目; 分組模塊,用于根據(jù)所屬的類目將所述搜索請求劃分為多組; 分詞模塊,用于對每組內(nèi)的搜索請求分詞;概率確定模塊,用于統(tǒng)計分詞后得到的各詞語在每組內(nèi)出現(xiàn)的概率; 詞信息熵值確定模塊,用于根據(jù)所述概率確定各詞語的用于搜索的詞信息熵值。
      10.如權利要求9所述的確定詞信息熵的設備,其特征在于,所述類目確定模塊,具體用于根據(jù)所述搜索請求確定能夠訪問的已經(jīng)確定所屬類目的目標網(wǎng)頁,將所述目標網(wǎng)頁所屬的類目作為所述搜索請求所屬的類目。
      11.如權利要求9所述的確定詞信息熵的設備,其特征在于,所述類目確定模塊,具體用于根據(jù)預設的類目和詞語的對應關系,將搜索請求中的詞語對應的類目作為搜索請求所屬的類目。
      12.如權利要求9 11任一所述的確定詞信息熵的設備,其特征在于, 所述類目確定模塊,還用于確定用戶再次輸入的各搜索請求所屬的類目;所述分組模塊,還用于根據(jù)所屬的類目將再次輸入的所述搜索請求劃分為多組; 所述確定詞信息熵的設備還包括合并模塊,用于將再次輸入的搜索請求劃分得到的多組與之前得到的多組合并;所述分詞模塊,還用于對再次輸入的各搜索請求進行分詞; 所述概率確定模塊,還用于重新統(tǒng)計全部詞語在合并后的各組內(nèi)出現(xiàn)的概率; 所述詞信息熵值確定模塊,還用于根據(jù)重新統(tǒng)計的各詞語在合并后的各組內(nèi)出現(xiàn)的概率重新確定各詞語的用于搜索的詞信息熵值。
      13.如權利要求12所述的確定詞信息熵的設備,其特征在于,所述確定詞信息熵的設備還包括第一收集模塊,用于收集再次輸入的各搜索請求并對再次輸入的搜索請求的數(shù)量進行累加;第一觸發(fā)模塊,用于在累加后的搜索請求的數(shù)量達到設定門限值時,根據(jù)累加后的搜索請求觸發(fā)所述類目確定模塊。
      14.如權利要求12所述的確定詞信息熵的設備,其特征在于,所述確定詞信息熵的設備還包括第二收集模塊,用于收集再次輸入的各搜索請求;第二觸發(fā)模塊,用于在經(jīng)過設定的時間周期時,根據(jù)收集的搜索請求觸發(fā)所述類目確定模塊。
      15.如權利要求12所述的確定詞信息熵的設備,其特征在于,所述詞信息熵值確定模塊,具體用于通過以下公式確定詞語的詞信息熵值
      16. 一種利用詞信息熵的搜索設備,其特征在于包括詞信息熵值確定模塊,用于根據(jù)用戶輸入的各搜索請求所屬的類目將所述搜索請求劃分為多組,在對每組內(nèi)的搜索請求分詞后,根據(jù)統(tǒng)計分詞后得到的各詞語在每組內(nèi)出現(xiàn)的概率確定各詞語的詞信息熵值;判斷模塊,用于判斷是否存在與用戶輸入的一搜索請求匹配的搜索結果; 詞語選擇模塊,用于在不存在與所述一搜索請求匹配的搜索結果時,根據(jù)所述詞信息熵值確定模塊中的各詞語及各詞語對應的詞信息熵值,在所述一搜索請求分詞后得到的詞語中選擇詞信息熵值小于設定閾值的至少一個詞語; 搜索模塊,用于根據(jù)選擇的詞語進行搜索。
      全文摘要
      本申請公開了一種確定詞信息熵及利用詞信息熵的搜索方法及其設備,主要內(nèi)容包括將各搜索請求按照所屬的類目進行分組,形成一個類似于“大文本”的數(shù)據(jù)組,在此基礎上計算詞語的詞信息熵值,可以準確地度量詞語的重要程度,計算出的詞信息熵值準確;進一步地,利用計算出的詞信息熵值確定出搜索請求中重要的詞語,以便于在搜索請求沒有完全匹配的搜索結果時,將重要程度較高的詞語的匹配結果優(yōu)先展示給用戶,提高搜索結果的準確性。
      文檔編號G06F17/27GK102193929SQ20101012056
      公開日2011年9月21日 申請日期2010年3月8日 優(yōu)先權日2010年3月8日
      發(fā)明者金凱民 申請人:阿里巴巴集團控股有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1