專利名稱:檢索詞核心權(quán)重確定方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明實施例涉及檢索技術(shù)領(lǐng)域,尤其涉及一種檢索詞核心權(quán)重確定方法和裝置。
背景技術(shù):
檢索詞(query)分析是檢索系統(tǒng)的基礎(chǔ),在智能廣告檢索中,拍賣詞僅能命中檢 索詞中的部分切詞(term),這時對檢索詞的切詞進行賦權(quán)就非常重要了,因為只有對檢索 詞的切詞進行合理的賦權(quán)才能對拍賣詞進行合理的分級和排序?,F(xiàn)有的檢索詞分析主要根據(jù)切詞的重要性賦權(quán)結(jié)果進行核心分析,確定核心權(quán)重。在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題(1)切詞的重要性分析訓練的語料是檢索詞,但未考慮用戶的行為,例如檢索詞 變換、修改或換頁等操作;(2)切詞重要性詞典在一次挖掘之后,作為一個靜態(tài)的詞典使用,因而在不同檢索 詞中相同的切詞,賦權(quán)結(jié)果是相同的;(3)根據(jù)切詞的重要性賦權(quán)結(jié)果進行核心分析未引入其他維度的信息,而這些信 息會對核心分析的結(jié)果造成影響,例如地域和時間詞等;綜上所述,現(xiàn)有的檢索詞分析方法存在核心權(quán)重準確度低、核心分析效果欠佳的 缺陷。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種檢索詞核心權(quán)重確定方法和裝置,以提高核心權(quán)重的準確 度,提高核心分析的效果。本發(fā)明實施例提供一種檢索詞核心權(quán)重確定方法,包括在線下核心計算生成的第一詞典文件中查找檢索詞;如果在所述第一詞典文件中查找到所述檢索詞,則輸出所述第一詞典文件對應(yīng)的 第一數(shù)據(jù)文件中保存的與所述檢索詞對應(yīng)的核心權(quán)重;如果在所述第一詞典文件中未查找到所述檢索詞,則對所述檢索詞進行處理,并 在所述第一詞典文件中查找處理后的檢索詞,如果查找到所述處理后的檢索詞,則輸出所 述第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與所述處理后的檢索詞對應(yīng)的核心權(quán)重;如 果在所述第一詞典文件中未查找到所述處理后的檢索詞,則對所述處理后的檢索詞進行切 詞計算,獲得所述處理后的檢索詞的核心權(quán)重。本發(fā)明實施例還提供一種檢索詞核心權(quán)重確定裝置,包括查找模塊,用于在線下核心計算生成的第一詞典文件中查找檢索詞;第一輸出模塊,用于當所述查找模塊在所述第一詞典文件中查找到所述檢索詞 時,輸出所述第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與所述檢索詞對應(yīng)的核心權(quán)重;
第二輸出模塊,用于當所述查找模塊在所述第一詞典文件中未查找到所述檢索詞 時,對所述檢索詞進行處理,所述查找模塊在所述第一詞典文件中查找到處理后的檢索詞 之后,輸出所述第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與所述處理后的檢索詞對應(yīng)的 核心權(quán)重;計算模塊,用于當所述查找模塊在所述第一詞典文件中未查找到所述處理后的檢 索詞時,對所述處理后的檢索詞進行切詞計算,獲得所述處理后的檢索詞的核心權(quán)重。本發(fā)明實施例的檢索詞核心權(quán)重確定方法和裝置,當在線下核心計算生成的第一 詞典文件中未查找到檢索詞時,對檢索詞進行處理,并在第一詞典文件中查找處理后的檢 索詞,查到后,輸出處理后的檢索詞對應(yīng)的核心權(quán)重;如果仍未查到,則對處理后的檢索詞 進行切詞計算,獲得處理后的檢索詞的核心權(quán)重。本發(fā)明實施例實現(xiàn)了提高核心權(quán)重的準 確度,進而提高了核心分析的效果。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根 據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明檢索詞核心權(quán)重確定方法一個實施例的流程圖;圖2為本發(fā)明檢索詞核心權(quán)重確定方法另一個實施例的流程圖;圖3為本發(fā)明對第二檢索詞進行切詞計算一個實施例的流程圖;圖4為本發(fā)明線下核心計算一個實施例的流程圖;圖5為本發(fā)明關(guān)聯(lián)檢索詞構(gòu)成的超圖一個實施例的示意圖;圖6為本發(fā)明檢索詞核心權(quán)重確定裝置一個實施例的結(jié)構(gòu)示意圖;圖7為本發(fā)明檢索詞核心權(quán)重確定裝置另一個實施例的結(jié)構(gòu)示意圖。
具體實施例方式為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖1為本發(fā)明檢索詞核心權(quán)重確定方法一個實施例的流程圖,如圖1所示,該實施 例可以包括步驟101,在線下核心計算生成的第一詞典文件中查找檢索詞。步驟102,判斷是否查找到檢索詞。如果查找到,則執(zhí)行步驟107 ;如果在第一詞典 文件中未查找到上述檢索詞,則執(zhí)行步驟103 步驟106。步驟103,對檢索詞進行處理。步驟104,在第一詞典文件中查找處理后的檢索詞。步驟105,判斷是否在第一詞典文件中查找到處理后的檢索詞。如果查找到,則執(zhí) 行步驟107 ;如果在第一詞典文件中未查找到處理后的檢索詞,則執(zhí)行步驟106。
步驟106,對處理后的檢索詞進行切詞計算,獲得處理后的檢索詞的核心權(quán)重。步驟107,輸出第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的核心權(quán)重。具體地,對于在第一詞典文件中,查找到檢索詞的情形,步驟107中輸出的是第一 詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與檢索詞對應(yīng)的核心權(quán)重;對于在第一詞典文件中,查找到處理后的檢索詞的情形,步驟107中輸出的是第 一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與處理后的檢索詞對應(yīng)的核心權(quán)重。上述實施例中,在線下核心計算生成的第一詞典文件中未查找到檢索詞時,對檢 索詞進行處理,并在第一詞典文件中查找處理后的檢索詞,查到后,輸出處理后的檢索詞對 應(yīng)的核心權(quán)重;如果仍未查到,則對處理后的檢索詞進行切詞計算,獲得處理后的檢索詞的 核心權(quán)重。本實施例實現(xiàn)了提高核心權(quán)重的準確度,進而提高了核心分析的效果。圖2為本發(fā)明檢索詞核心權(quán)重確定方法另一個實施例的流程圖,如圖2所示,該實 施例可以包括步驟201,在線下核心計算生成的第一詞典文件中查找檢索詞。步驟202,判斷是否查找到檢索詞。如果查找到,則執(zhí)行步驟210 ;如果在第一詞典 文件中未查找到上述檢索詞,則執(zhí)行步驟203步驟209。步驟203,去除檢索詞中的地域名詞,獲得第一檢索詞。具體地,去除檢索詞中的地域名詞針對的是檢索詞的混排切詞粒度首先對檢索 詞中包含的所有切詞進行詞性標注;其次,在預先保存的地域名詞表中,查找標注為地域名 詞的切詞,如果在地域名詞表中查找到上述標注為地域名詞的切詞,則去除該標注為地域 名詞的切詞。另外,為了防止將地域名詞去除后出現(xiàn)孤零的單字,例如當檢索詞為“北京到上 海機票”,在去除地域名詞后會出現(xiàn)“到機票”這種無意義的檢索詞,本實施例使用一個詞 表將與地域名詞有關(guān)并且在去除地域名詞后會孤單的單字,在去除地域名詞的時候一并去 除。去除檢索詞中的地域名詞后,原檢索詞中未被去除的切詞將依照原有的順序拼裝 成另外一個新的檢索詞,即第一檢索詞;考慮到去除地域名詞后會出現(xiàn)一些基本詞轉(zhuǎn)移的 情況,例如當檢索詞為“新浪鄂州網(wǎng)”時,基本詞為“新浪\鄂州\網(wǎng)”,去除地域名詞“鄂州” 后形成的第一檢索詞為“新浪網(wǎng)”,基本詞為“新浪\網(wǎng)”,基本詞發(fā)生了轉(zhuǎn)移,本實施例中, 在去除檢索詞中的地域名詞后,首先需要進行基本詞轉(zhuǎn)移的判斷,如果基本詞發(fā)生轉(zhuǎn)移,則 不再去除該檢索詞中的地域名詞。優(yōu)選地,本實施例中,在去除地域名詞時限制了地域名詞的數(shù)量,例如;可以設(shè)定 最多去除5個地域名詞,即順序去除地域名詞滿5個后不再去除檢索詞中的地域名詞;去除 的地域名詞作為地域切詞,也具有權(quán)重,目前設(shè)定為0. 1,并將該地域切詞放置在后續(xù)處理 得到核心切詞的尾部。步驟204,在第一詞典文件中查找第一檢索詞。步驟205,判斷是否在第一詞典文件中查找到第一檢索詞。如果查找到,則執(zhí)行步 驟210 ;如果在第一詞典文件中未查找到第一檢索詞,則執(zhí)行步驟206 步驟209。步驟206,對第一檢索詞進行規(guī)約操作,獲得第二檢索詞。本實施例中,對第一檢索詞進行規(guī)約操作是指裁剪第一檢索詞中信息量小的切
7詞,例如第一檢索詞中的介詞等;同樣,需要對第二檢索詞進行基本詞轉(zhuǎn)移判斷,如果進 行規(guī)約操作后,第一檢索詞的基本詞發(fā)生轉(zhuǎn)移,則仍使用第一檢索詞進行后續(xù)處理,否則使 用第二檢索詞進行后續(xù)處理。步驟207,在第一詞典文件中查找第二檢索詞。步驟208,判斷在第一詞典文件中是否查找到第二檢索詞。如果查找到,則執(zhí)行步 驟210 ;如果在第一詞典文件中未查找到第二檢索詞,則執(zhí)行步驟209。步驟209,對第二檢索詞進行切詞計算,獲得第二檢索詞的核心權(quán)重。步驟210,輸出第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的核心權(quán)重。具體地,對于在第一詞典文件中,查找到檢索詞的情形,步驟210中輸出的是第一 詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與檢索詞對應(yīng)的核心權(quán)重;對于在第一詞典文件中,查找到第一檢索詞的情形,步驟210中輸出的是第一詞 典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與第一檢索詞對應(yīng)的核心權(quán)重;對于在第一詞典文件中,查找到第二檢索詞的情形,步驟210中輸出的是第一詞 典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與第二檢索詞對應(yīng)的核心權(quán)重。
本實施例中,輸出的核心權(quán)重的數(shù)據(jù)結(jié)構(gòu)可以為 typedef struct—query—core—t
u_int signl ;/ u_int sign2 ;/ float rel ;//
V切詞簽名ι V切詞簽名2 核心權(quán)重
u_int flag;//標記由哪些基本詞粘接而成} query_core t ;下面結(jié)合圖3,對步驟209中對第二檢索詞進行切詞計算,獲得第二檢索詞的核心 權(quán)重的過程進行詳細介紹。圖3為本發(fā)明對第二檢索詞進行切詞計算一個實施例的流程圖,如圖3所示,該實 施例包括步驟301,對第二檢索詞進行切詞,獲得第二檢索詞包含的各切詞的重要性權(quán)重。具體地,可以通過調(diào)用切詞重要性接口獲得第二檢索詞包含的各切詞的重要性權(quán) 重;其中切詞重要性接口的輸入為一個檢索詞切詞后獲得的切詞序列,返回的是各切詞的 重要性權(quán)重。步驟302,在線下核心計算生成的第二詞典文件中查找上述切詞,獲得第二詞典文 件對應(yīng)的第二數(shù)據(jù)文件中保存的上述切詞對應(yīng)的關(guān)聯(lián)檢索詞和該關(guān)聯(lián)檢索詞對應(yīng)的核心 成分。本實施例中,關(guān)聯(lián)檢索詞是通過分析挖掘大量檢索日志得到用戶經(jīng)常一起查詢的 檢索詞,例如檢索“手機”的用戶有3. 4%的概率會同時檢索“諾基亞手機”。步驟303,以上述切詞的重要性權(quán)重對上述切詞對應(yīng)的關(guān)聯(lián)檢索詞進行加權(quán),按照 關(guān)聯(lián)檢索詞的權(quán)重由大至小的順序,選取預定數(shù)量的關(guān)聯(lián)檢索詞和該關(guān)聯(lián)檢索詞對應(yīng)的核 心成分組成第一特征向量。具體地,本實施例根據(jù)關(guān)聯(lián)檢索詞的權(quán)重,按照由大至小的順序?qū)﹃P(guān)聯(lián)檢索詞進行去重排序,去重規(guī)則為對于同一關(guān)聯(lián)檢索詞具有不同權(quán)重的情形,取較大的權(quán)重作為該 關(guān)聯(lián)檢索詞的權(quán)重。然后在排序后的關(guān)聯(lián)檢索詞中按照權(quán)重由大至小的順序,選擇預定數(shù) 量的關(guān)聯(lián)檢索詞和該預定數(shù)量的關(guān)聯(lián)檢索詞對應(yīng)的核心成分組成第一向量fv,第一向量 fv的元素為切詞的簽名以及對應(yīng)的權(quán)重。其中,該預定數(shù)量可以為20。步驟304,計算每個切詞對應(yīng)的關(guān)聯(lián)檢索詞和該關(guān)聯(lián)檢索詞對應(yīng)的核心成分組成 的第二特征向量fvn與第一特征向量fv的夾角的余弦值,該余弦值為每個切詞的權(quán)重。步驟305,按照切詞的權(quán)重由大到小的順序?qū)ι鲜銮性~進行排序,選擇權(quán)重最大的 切詞作為核心切詞T。。步驟306,將切詞中除核心切詞之外的其他切詞Ti與該核心切詞T。進行粘接,獲 得粘接切詞Tp。步驟307,根據(jù)上述切詞中除核心切詞之外的其他切詞Ti與核心切詞Τ。對應(yīng)的關(guān) 聯(lián)檢索詞,獲得粘接切詞Tp對應(yīng)的關(guān)聯(lián)檢索詞和該粘接切詞Tp對應(yīng)的關(guān)聯(lián)檢索詞的核心成 分,Tp對應(yīng)的關(guān)聯(lián)檢索詞和該Tp對應(yīng)的關(guān)聯(lián)檢索詞的核心成分組成第三特征向量。具體地,將Ti與Τ。的關(guān)聯(lián)檢索詞通過切詞的重要性權(quán)重加權(quán)后,按照關(guān)聯(lián)檢索詞 的權(quán)重由大至小的順序,選取預定數(shù)量(例如20)的關(guān)聯(lián)檢索詞,并將選取的關(guān)聯(lián)檢索詞 進行組合獲得Tp對應(yīng)的關(guān)聯(lián)檢索詞和該Tp對應(yīng)的關(guān)聯(lián)檢索詞的核心成分,Tp對應(yīng)的關(guān)聯(lián)檢 索詞和該Tp對應(yīng)的關(guān)聯(lián)檢索詞的核心成分組成第三特征向量fvp。步驟308,計算第三特征向量fvp與第一特征向量fv的夾角的余弦值,作為粘接切 詞Tp的權(quán)重,并對粘接切詞Tp的權(quán)重進行修正,修正后的粘接切詞的權(quán)重為第二檢索詞的 核心權(quán)重。具體地,在步驟308中,如果計算出來Tp的權(quán)重小于T。的權(quán)重R。,則將Tp的權(quán)重 直接修正為R。+delta,其中,delta為0. 0001/η, η為被粘貼的非核心切詞Ti在步驟305中 的排序位置。本實施例中,對于進行切詞計算權(quán)重的所有切詞,都將標志(flag)的第31位設(shè)為 1。另外,對于“干手機”這類詞,切詞后獲得的切詞“干\手機”中只有一個切詞“手 機”能在第二詞典文件中查找到關(guān)聯(lián)檢索詞以及該關(guān)聯(lián)檢索詞對應(yīng)的核心成分,而其他切 詞都沒有關(guān)聯(lián)檢索詞以及對應(yīng)的核心成分,這時直接使用切詞的重要性權(quán)重對各個切詞進 行加權(quán),并將flag的第30位設(shè)為1。上述實施例中,在線下核心計算生成的第一詞典文件中未查找到檢索詞時,對檢 索詞進行去除地域名詞和規(guī)約操作,并在第一詞典文件中查找處理后的檢索詞,查到后,輸 出處理后的檢索詞對應(yīng)的核心權(quán)重;如果仍未查到,則對處理后的檢索詞進行切詞計算, 獲得處理后的檢索詞的核心權(quán)重。本實施例實現(xiàn)了提高核心權(quán)重的準確度,進而提高了核 心分析的效果。經(jīng)實驗驗證,利用本實施例提供的方法,獲得核心權(quán)重的準確率可以達到 92. 22%。本發(fā)明圖1、圖2和圖3所示實施例中的第一詞典文件、第一數(shù)據(jù)文件、第二詞典文 件和第二數(shù)據(jù)文件是通過進行線下核心計算生成的,下面對線下核心計算進行詳細介紹。圖4為本發(fā)明線下核心計算一個實施例的流程圖,如圖4所示,該實施例可以包 括
步驟401,將預定時間內(nèi)的檢索日志匯總為日志文件。具體地,首先,可以每天定時從網(wǎng)頁搜索日志機下載根據(jù)用戶標識(cookieid)排 序的檢索日志c00kie_S0rt. *文件;該檢索日志COOkie_SOrt. *文件中的每一行代表了用 戶的一次檢索行為。例如假設(shè)一個檢索日志COOkie_SOrt. *文件中的一行為0000A7F0842AA9C4668858 26 70E8E6DC 121. 227. 2. 7222/Apr/2009 20:31:430-1-1-1-1-10 福利彩票雙色球-100其中,“0000A7F0842AA9C46688582670E8E6DC”為用戶的 cookieid ;“福利彩票雙 色球”為檢索詞。然后將下載得到的檢索日志中,預定時間內(nèi)的檢索詞去重后匯總到同一行下(以 “\t”分隔),一行中檢索詞的個數(shù)限制為100個,若檢索詞的個數(shù)超過100將被舍棄;并將 多個檢索日志匯總成以日期命名的一個文件,例如2009年4月22日的檢索日志處理后的 文件名為20090422。每一行包含的檢索詞可以為濱海古圓奉賢濱海古圓最后,去除檢索詞中的地域名詞,并對檢索詞進行規(guī)約操作,并具體可以為首先 對檢索詞中包含的所有切詞進行詞性標注;其次,在預先保存的地域名詞表中,查找標注為 地域名詞的切詞,如果在地域名詞表中查找到上述標注為地域名詞的切詞,則去除該標注 為地域名詞的切詞。再次,調(diào)用規(guī)約模塊進行規(guī)約操作,即裁剪檢索詞中信息量小的切詞, 例如檢索詞中的介詞等。經(jīng)上述處理后的檢索詞追加到當月的匯總?cè)罩疚募校阅暝旅?,例?200905。生成當月匯總?cè)罩疚募?,將刪除原始的日志文件以及中間文件。本實施例中,在 每月的1日,以時間新老順序依次將多月的檢索日志匯總成單一的日志文件;較新的檢索 日志置于該日志文件靠前的位置,反之則放到日志文件靠后的位置。步驟402,對日志文件中的檢索詞進行編碼,并對編碼后的檢索詞進行關(guān)聯(lián)挖掘, 獲得關(guān)聯(lián)檢索詞。具體地,考慮到時效性以及系統(tǒng)內(nèi)存開銷,本實施例限制了檢索詞的編碼范圍,例 如可以將編碼范圍限定為1 232_1,另外由于步驟401已經(jīng)按照檢索日志的生成時間由 新至舊的順序,對檢索日志進行整合生成日志文件,從而可以保證較新的檢索詞能夠得到 編碼并被處理,具有較好的時效性。編碼是將檢索詞映射為標識(Identifier ;以下簡稱 ID),可以節(jié)約存儲開銷,另外關(guān)聯(lián)挖掘過程都將基于檢索詞的ID進行,而非基于檢索詞本 身??紤]到內(nèi)存的實際情況,哈希(hash)表中不可能保存所有的檢索詞到ID的編碼 對〈query,ID>,因此當哈希表已滿時,將進行哈希表的遍歷,并刪除哈希表中統(tǒng)計計數(shù)低于 2的〈query,ID>對;因而這些被刪除的檢索詞,如果在后續(xù)的檢索流中再次出現(xiàn),將會被重 新編碼。另外限制ID的范圍為1 232_1,超過部分則不再進行編碼,也不再進行后續(xù)的挖 掘處理。在內(nèi)存為16G的機器上,設(shè)置的哈希節(jié)點數(shù)為256X10MXM00,內(nèi)存為32G的機 器上哈希節(jié)點數(shù)可調(diào)整為256 X 10 X 4600。編碼針對的對象是到日前為止積累下來的多個月的檢索日志合并成的日志文件,輸出為ID化的檢索日志流OlueryIDLog),以及ID到檢索詞的映射文件(QueryIDMap)。ID 到檢索詞的映射文件的一個示例如下1 baidu2 sina3 google其中,第一列為檢索詞ID,第二列為檢索詞。ID化的檢索日志流(QueryIDLog)的一個示例如下1 2 32 13 2當ID開始溢出時,可以刪除時間最老的日志文件,例如當文件名為200905和 200904的檢索日志合并生成的日志文件,在編碼時ID溢出,需要刪除的文件是200904,以
節(jié)省磁盤開銷。編碼之后,對日志文件使用apriori算法進行關(guān)聯(lián)挖掘,獲得關(guān)聯(lián)檢索詞。本實施 例中,關(guān)聯(lián)檢索詞是通過分析挖掘大量檢索日志得到用戶經(jīng)常一起查詢的檢索詞,例如檢 索“手機”的用戶有3. 4%的概率會同時檢索“諾基亞手機”。具體地,本實施例的關(guān)聯(lián)挖掘算法的輸入是編碼后的事務(wù)數(shù)據(jù),輸出是關(guān)聯(lián)檢索 詞構(gòu)成的超圖(hyper-graph)。超圖中的節(jié)點為關(guān)鍵檢索詞,兩個節(jié)點之間的連線上的權(quán) 值為兩個關(guān)聯(lián)檢索詞的相關(guān)程度。圖5為本發(fā)明關(guān)聯(lián)檢索詞構(gòu)成的超圖一個實施例的示意 圖。本實施例中的關(guān)聯(lián)挖掘算法是一種挖掘數(shù)據(jù)流的算法,能夠在有限的內(nèi)存空間上 完成對無限量數(shù)據(jù)的實時挖掘,該算法是可遞增的,因此具有很好的可伸縮性。該算法在保證一定誤差限度的前提下得到的關(guān)聯(lián)檢索詞挖掘結(jié)果是正確結(jié)果的 子集,但可能會漏掉少量的正確結(jié)果,因此會產(chǎn)生誤差,然而該誤差不會超過預定的閾值, 所以該算法的誤差是可控的。假設(shè)該算法的參數(shù)最小支持度為s,誤差系數(shù)為S,總事務(wù)數(shù) 為N,則該算法的性質(zhì)如下1、所有支持度計數(shù)大于sXN的頻繁項和頻繁項集被該算法挖掘到的概率大于 1"δ ;2、該算法不會挖掘出任何支持度計數(shù)小于sXN的頻繁項或者頻繁項集;3、該算法對頻繁項或者頻繁項集的支持度的近似值與其真實值相等的概率不小 于U ;4、該算法使用的內(nèi)存開銷最多不超過0+21nO/S))/s。支持本實施例的關(guān)聯(lián)挖掘算法處理海量數(shù)據(jù)的技術(shù)是數(shù)據(jù)流壓縮技術(shù),數(shù)據(jù)流壓 縮技術(shù)在保證一定精度的前提下,可以對數(shù)據(jù)流進行有損的壓縮。雖然會帶來一定的誤差, 但如上所述這種誤差是可控的。本實施例的關(guān)聯(lián)挖掘算法分為兩部分1、頻繁1項集挖掘;2、頻繁2項集挖掘。具 體流程如下1、頻繁1項挖掘算法頻繁1項挖掘算法0122]輸入事務(wù)數(shù)據(jù)流S,最小支持度閾值S,誤差概率δ。
0123]輸出S中的頻繁1項集P。
0124]方法
0125](1)設(shè)Iitl為內(nèi)存開銷的上限,其值通過最小支持度閾值s和誤差概率δ求得
權(quán)利要求
1.一種檢索詞核心權(quán)重確定方法,其特征在于,包括在線下核心計算生成的第一詞典文件中查找檢索詞;如果在所述第一詞典文件中查找到所述檢索詞,則輸出所述第一詞典文件對應(yīng)的第一 數(shù)據(jù)文件中保存的與所述檢索詞對應(yīng)的核心權(quán)重;如果在所述第一詞典文件中未查找到所述檢索詞,則對所述檢索詞進行處理,并在所 述第一詞典文件中查找處理后的檢索詞,如果查找到所述處理后的檢索詞,則輸出所述第 一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與所述處理后的檢索詞對應(yīng)的核心權(quán)重;如果在 所述第一詞典文件中未查找到所述處理后的檢索詞,則對所述處理后的檢索詞進行切詞計 算,獲得所述處理后的檢索詞的核心權(quán)重。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述檢索詞進行處理,并在所述第 一詞典文件中查找處理后的檢索詞,如果查找到所述處理后的檢索詞,則輸出所述第一詞 典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與所述處理后的檢索詞對應(yīng)的核心權(quán)重包括去除所述檢索詞中的地域名詞,獲得第一檢索詞;在所述第一詞典文件中查找所述第一檢索詞,如果查找到,則輸出所述第一詞典文件 對應(yīng)的第一數(shù)據(jù)文件中保存的與所述第一檢索詞對應(yīng)的核心權(quán)重;如果在所述第一詞典文件中未查找到所述第一檢索詞,則對所述第一檢索詞進行規(guī)約 操作,獲得第二檢索詞,并在所述第一詞典文件中查找所述第二檢索詞,如果查找到,則輸 出所述第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與所述第二檢索詞對應(yīng)的核心權(quán)重。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述處理后的檢索詞進行切詞計 算,獲得所述處理后的檢索詞的核心權(quán)重包括對所述第二檢索詞進行切詞,并獲得所述第二檢索詞包含的各切詞的重要性權(quán)重;在線下核心計算生成的第二詞典文件中查找所述切詞,獲得所述第二詞典文件對應(yīng)的 第二數(shù)據(jù)文件中保存的所述切詞對應(yīng)的關(guān)聯(lián)檢索詞和所述關(guān)聯(lián)檢索詞對應(yīng)的核心成分;以所述切詞的重要性權(quán)重對所述切詞對應(yīng)的關(guān)聯(lián)檢索詞進行加權(quán),按照所述關(guān)聯(lián)檢索 詞的權(quán)重由大至小的順序,選取預定數(shù)量的關(guān)聯(lián)檢索詞和所述關(guān)聯(lián)檢索詞對應(yīng)的核心成分 組成第一特征向量;計算所述切詞對應(yīng)的關(guān)聯(lián)檢索詞和所述關(guān)聯(lián)檢索詞對應(yīng)的核心成分組成的第二特征 向量與所述第一特征向量的夾角的余弦值,所述余弦值為所述切詞的權(quán)重;按照所述切詞的權(quán)重由大到小的順序?qū)λ銮性~進行排序,選擇權(quán)重最大的切詞作為 核心切詞;將所述切詞中除所述核心切詞之外的其他切詞與所述核心切詞進行粘接,獲得粘接 切詞,并根據(jù)所述切詞中除所述核心切詞之外的其他切詞與所述核心切詞對應(yīng)的關(guān)聯(lián)檢索 詞,獲得所述粘接切詞對應(yīng)的關(guān)聯(lián)檢索詞和所述粘接切詞對應(yīng)的關(guān)聯(lián)檢索詞的核心成分, 所述粘接切詞對應(yīng)的關(guān)聯(lián)檢索詞和所述粘接切詞對應(yīng)的關(guān)聯(lián)檢索詞的核心成分組成第三 特征向量;計算所述第三特征向量與所述第一特征向量的夾角的余弦值,作為所述粘接切詞的權(quán) 重,并對所述粘接切詞的權(quán)重進行修正,修正后的粘接切詞的權(quán)重為所述第二檢索詞的核 心權(quán)重。
4.根據(jù)權(quán)利要求1-3任意一項所述的方法,其特征在于,還包括進行線下核心計算,生成所述第一詞典文件、所述第一數(shù)據(jù)文件、所述第二詞典文件和所述第二數(shù)據(jù)文件。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述進行線下核心計算,生成所述第一詞 典文件、所述第一數(shù)據(jù)文件、所述第二詞典文件和所述第二數(shù)據(jù)文件包括將預定時間內(nèi)的檢索日志匯總為日志文件;對所述日志文件中的檢索詞進行編碼,并對編碼后的檢索詞進行關(guān)聯(lián)挖掘,獲得關(guān)聯(lián) 檢索詞;根據(jù)所述關(guān)聯(lián)檢索詞生成倒排索引文件;對所述倒排索引文件中的關(guān)聯(lián)檢索詞進行核心分析,獲得所述第一詞典文件和所述第 一數(shù)據(jù)文件;對所述倒排索引文件中的檢索詞進行切詞,并對所述檢索詞包含的切詞進行核心分 析,獲得所述第二詞典文件和所述第二數(shù)據(jù)文件。
6.一種檢索詞核心權(quán)重確定裝置,其特征在于,包括查找模塊,用于在線下核心計算生成的第一詞典文件中查找檢索詞;第一輸出模塊,用于當所述查找模塊在所述第一詞典文件中查找到所述檢索詞時,輸 出所述第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與所述檢索詞對應(yīng)的核心權(quán)重;第二輸出模塊,用于當所述查找模塊在所述第一詞典文件中未查找到所述檢索詞時, 對所述檢索詞進行處理,所述查找模塊在所述第一詞典文件中查找到處理后的檢索詞之 后,輸出所述第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與所述處理后的檢索詞對應(yīng)的核 心權(quán)重;計算模塊,用于當所述查找模塊在所述第一詞典文件中未查找到所述處理后的檢索詞 時,對所述處理后的檢索詞進行切詞計算,獲得所述處理后的檢索詞的核心權(quán)重。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第二輸出模塊包括去除子模塊,用于去除所述檢索詞中的地域名詞,獲得第一檢索詞;第一權(quán)重輸出子模塊,用于在所述查找模塊在所述第一詞典文件中查找到所述第一檢 索詞之后,輸出所述第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與所述第一檢索詞對應(yīng)的 核心權(quán)重;規(guī)約子模塊,用于當所述查找模塊在所述第一詞典文件中未查找到所述第一檢索詞 時,對所述第一檢索詞進行規(guī)約操作,獲得第二檢索詞;第二權(quán)重輸出子模塊,用于在所述查找模塊在所述第一詞典文件中查找到所述第二檢 索詞之后,輸出所述第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與所述第二檢索詞對應(yīng)的 核心權(quán)重。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述計算模塊包括切詞子模塊,用于對所述第二檢索詞進行切詞,并獲得所述第二檢索詞包含的各切詞 的重要性權(quán)重;切詞查找子模塊,用于在線下核心計算生成的第二詞典文件中查找所述切詞,獲得所 述第二詞典文件對應(yīng)的第二數(shù)據(jù)文件中保存的所述切詞對應(yīng)的關(guān)聯(lián)檢索詞和所述關(guān)聯(lián)檢 索詞對應(yīng)的核心成分;選取子模塊,用于以所述切詞的重要性權(quán)重對所述切詞對應(yīng)的關(guān)聯(lián)檢索詞進行加權(quán), 按照所述關(guān)聯(lián)檢索詞的權(quán)重由大至小的順序,選取預定數(shù)量的關(guān)聯(lián)檢索詞和所述關(guān)聯(lián)檢索詞對應(yīng)的核心成分組成第一特征向量;第一計算子模塊,用于計算所述切詞對應(yīng)的關(guān)聯(lián)檢索詞和所述關(guān)聯(lián)檢索詞對應(yīng)的核心 成分組成的第二特征向量與所述第一特征向量的夾角的余弦值,所述余弦值為所述切詞的 權(quán)重;排序子模塊,用于按照所述切詞的權(quán)重由大到小的順序?qū)λ銮性~進行排序,選擇權(quán) 重最大的切詞作為核心切詞;粘接子模塊,用于將所述切詞中除所述核心切詞之外的其他切詞與所述核心切詞進行 粘接,獲得粘接切詞;成分獲得子模塊,用于根據(jù)所述切詞中除所述核心切詞之外的其他切詞與所述核心切 詞對應(yīng)的關(guān)聯(lián)檢索詞,獲得所述粘接切詞對應(yīng)的關(guān)聯(lián)檢索詞和所述粘接切詞對應(yīng)的關(guān)聯(lián)檢 索詞的核心成分,所述粘接切詞對應(yīng)的關(guān)聯(lián)檢索詞和所述粘接切詞對應(yīng)的關(guān)聯(lián)檢索詞的核 心成分組成第三特征向量;第二計算子模塊,用于計算所述第三特征向量與所述第一特征向量的夾角的余弦值, 作為所述粘接切詞的權(quán)重;修正子模塊,用于對所述第二計算子模塊計算的粘接切詞的權(quán)重進行修正,修正后的 粘接切詞的權(quán)重為所述第二檢索詞的核心權(quán)重。
9.根據(jù)權(quán)利要求6-8任意一項所述的裝置,其特征在于,還包括線下計算模塊,用于進行線下核心計算,生成所述第一詞典文件、所述第一數(shù)據(jù)文件、 所述第二詞典文件和所述第二數(shù)據(jù)文件。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述線下計算模塊包括 匯總子模塊,用于將預定時間內(nèi)的檢索日志匯總為日志文件; 編碼子模塊,用于對所述日志文件中的檢索詞進行編碼;挖掘子模塊,用于對所述編碼子模塊編碼后的檢索詞進行關(guān)聯(lián)挖掘,獲得關(guān)聯(lián)檢索詞;生成子模塊,用于根據(jù)所述挖掘子模塊獲得的關(guān)聯(lián)檢索詞生成倒排索引文件; 第一獲得子模塊,用于對所述生成子模塊生成的倒排索引文件中的關(guān)聯(lián)檢索詞進行核 心分析,獲得所述第一詞典文件和所述第一數(shù)據(jù)文件;第二獲得子模塊,用于對所述生成子模塊生成的倒排索引文件中的檢索詞進行切詞, 并對所述檢索詞包含的切詞進行核心分析,獲得所述第二詞典文件和所述第二數(shù)據(jù)文件。
全文摘要
本發(fā)明實施例提供一種檢索詞核心權(quán)重確定方法和裝置,該檢索詞核心權(quán)重確定方法包括在線下核心計算生成的第一詞典文件中查找檢索詞;如果在第一詞典文件中查找到所述檢索詞,則輸出第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與檢索詞對應(yīng)的核心權(quán)重;如果在第一詞典文件中未查找到檢索詞,則對檢索詞進行處理,并在第一詞典文件中查找處理后的檢索詞,如果查找到處理后的檢索詞,則輸出第一詞典文件對應(yīng)的第一數(shù)據(jù)文件中保存的與處理后的檢索詞對應(yīng)的核心權(quán)重;如果在第一詞典文件中未查找到處理后的檢索詞,則對處理后的檢索詞進行切詞計算,獲得處理后的檢索詞的核心權(quán)重。本發(fā)明實施例實現(xiàn)了提高核心權(quán)重的準確度,進而提高了核心分析的效果。
文檔編號G06F17/30GK102103604SQ20091024287
公開日2011年6月22日 申請日期2009年12月18日 優(yōu)先權(quán)日2009年12月18日
發(fā)明者潘子浩, 秦首科 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司