一種交互式的檢索式生成方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種交互式的檢索式生成方法及系統(tǒng),該方法包括:在接收到用戶輸入的一級檢索式后獲取與所述一級檢索式相對應的一級檢索文檔集;對一級檢索文檔集進行主題聚類,獲取與各主題一一對應的一級檢索文檔子集;提取所述一級檢索文檔子集中的主題詞;將主題詞及其對應的主題提供給用戶,并提示用戶利用所述主題詞確定與其對應的主題相關的二級檢索式。本發(fā)明的交互式的檢索式生成方法及系統(tǒng)可以輔助用戶生成復雜檢索式,幫助專業(yè)檢索領域的專業(yè)檢索人員生成更為精確的檢索式。
【專利說明】一種交互式的檢索式生成方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及文本檢索領域,尤其涉及一種交互式的檢索式生成方法及系統(tǒng)。
【背景技術】
[0002]隨著現代社會各種信息量的高速增長以及存儲技術的不斷進步,從海量數據中快速有效的獲取有用信息也越來越困難,大量的數據得不到有效的利用。檢索是一種實現海量數據中有用信息快速獲取的技術手段,其接收用戶檢索式輸入,在數據庫中搜索與所述檢索式相關的內容。檢索式即理解和運算的查詞串,至少包括關鍵詞,對于復雜的檢索,通常還包括邏輯運算符、搜索指令(搜索語法)等,其中關鍵詞是檢索式的主體,邏輯運算符和搜索指令根據具體的查詢要求從不同的角度對關鍵詞進行搜索限定。
[0003]顯然構建更加高效的檢索式可以提高檢索的精確性,對一些專業(yè)檢索領域尤其具有重要意義。如電話服務行業(yè)的錄音數據,通過語音識別轉化為文本以后,由語音識別帶來的一些錯誤容易導致精確信息獲取的困難,而通過構建更加專業(yè)魯棒的檢索式則可以幫助我們對數據進行更加精確的定位,獲取更多的信息。
[0004]用戶在使用檢索系統(tǒng)時通常需要人工生成檢索式,然而即使是一些專業(yè)領域的專業(yè)檢索人員,也只是靠自己多年的從業(yè)經驗來生成比較好的檢索式,且個體差異很大。對此,為了改善和提高信息檢索的性能,目前在檢索領域一般采用查詢擴展的方法,以用戶原查詢?yōu)榛A,把與原查詢相關的詞或者詞組自動添加到原查詢,得到比原查詢更長的新查詢,以便更完整地描述原查詢所隱含的語義或者主題,幫助信息檢索系統(tǒng)提供更多有利于判斷文檔相關性的信息。其具體流程如下所示:
[0005]步驟1:接收用戶輸入的檢索式;
[0006]步驟2:根據所述檢索式在數據庫中搜索得到相關文檔,作為初檢結果;
[0007]步驟3:從所述初檢結果中獲取原檢索式的擴展詞,具體可以利用聚類技術、文本挖掘技術、關聯(lián)規(guī)則等,從文本集或者用戶查詢日志中獲??;
[0008]步驟4:根據所述擴展詞以及原檢索式,生成新的檢索式;
[0009]步驟5:根據所述新的檢索式重新檢索。
[0010]基于查詢擴展的檢索式生成方法,以全自動的方式獲得擴展詞,得到比原查詢更完備的新查詢,實現了對原查詢所隱含的語義或者主題的更完整的描述,從而幫助信息檢索系統(tǒng)提供更多有利于判斷文檔相關性的信息。然而該方法生成的檢索式對用戶完全不透明,因此,所產生的結果是無法預料的;其次,擴展詞之間通常采用“或”的邏輯進行連接,對檢索結果的性能提升有限,且對于檢索結果沒有有效的快速評估的方法,需要檢索人員一條一條的瀏覽;再次,生成的檢索式也無法重復利用,如果用戶想在不同的數據集上檢索得到該類數據,則需要重新進行構建檢索式。
【發(fā)明內容】
[0011]本發(fā)明的一個目的在于克服現有技術中的不足,提供了一種交互式的檢索式生成方法,以輔助用戶生成復雜檢索式,幫助專業(yè)檢索領域的專業(yè)檢索人員生成更為精確的檢索式。[0012]為了實現上述目的,本發(fā)明采用的技術方案為:一種交互式的檢索式生成方法,包括:
[0013]在接收到用戶輸入的一級檢索式后獲取與所述一級檢索式相對應的一級檢索文檔集;
[0014]對所述一級檢索文檔集進行主題聚類,獲取與各主題一一對應的一級檢索文檔子集;
[0015]提取所述一級檢索文檔子集中的主題詞;
[0016]將所述主題詞及其對應的主題提供給用戶,并提示用戶利用所述主題詞確定與其對應的主題相關的二級檢索式。
[0017]優(yōu)選的是,所述方法還包括:
[0018]在接收到用戶輸入的二級檢索式后,獲取與各二級檢索式--對應的二級檢索文
檔集;
[0019]對二級檢索式進行兩兩組合,使每組兩個二級檢索式成為兩個待驗證檢索式;
[0020]對兩個待驗證檢索式進行交叉驗證,獲取與兩個待驗證檢索式一一對應的兩個檢索文檔集的交叉文檔集,若所述交叉文檔集中文檔的數目大于設定閾值,則對兩個待驗證檢索式進行優(yōu)化。
[0021]優(yōu)選的是,所述對兩個待驗證檢索式進行優(yōu)化包括:
[0022]對所述交叉文檔集進行主題聚類,獲取與所述交叉文檔集的各主題一一對應的交叉文檔子集;
[0023]提取交叉文檔子集中的主題詞,并將交叉文檔子集的主題詞及其對應的主題提供給用戶,同時提示用戶利用交叉文檔子集的主題詞優(yōu)化兩個待驗證檢索式,確定兩個優(yōu)化檢索式。
[0024]優(yōu)選的是,所述方法還包括:
[0025]在接收到用戶輸入的兩個優(yōu)化檢索式后,獲取與兩個優(yōu)化檢索式一一對應的兩個檢索文檔集;
[0026]使兩個優(yōu)化檢索式作為兩個待驗證檢索式進行所述交叉驗證。
[0027]優(yōu)選的是,所述方法還包括:
[0028]為用戶提供用于確定檢索式的邏輯運算符,所述邏輯運算符包括“鄰近”,所述“鄰近”表示相“鄰近”的兩個關鍵詞在文檔中的距離在預設字數以內。
[0029]優(yōu)選的是,所述主題聚類的方法包括:
[0030]步驟al:設定待聚類文檔集為被拆分類,提取被拆分類中文檔的聚類特征,獲取與文檔對應的特征向量;
[0031]步驟a2:在被拆分類中選擇兩個密度最大的文檔作為種子文檔,文檔的密度為在被拆分類中與文檔的余弦距離小于0.5的文檔的個數,其中,文檔間的余弦距離為文檔的特征向量間的余弦距離;
[0032]步驟a3:以兩個所述種子文檔作為種子,用K均值聚類算法將所述被拆分類拆分為兩個主題;[0033]步驟a4:判斷兩個主題中是否有一個主題的文檔數量小于被拆分類的預設百分t匕,如是則主題聚類結束,否則將兩個主題中數量較多的一個主題作為被拆分類,繼續(xù)執(zhí)行步驟a2。
[0034]優(yōu)選的是,在步驟al中,對每篇文檔計算特征詞典中每個詞的TF-1DF值作為聚類特征,獲取k維的特征向量,其中,k等于特征詞典中詞的數量。
[0035]優(yōu)選的是,所述方法還包括:獲取所述特征詞典的方法為:
[0036]統(tǒng)計整個檢索庫中所有文檔所包含的詞及對應的詞頻,作為背景特征;
[0037]統(tǒng)計一級檢索文檔集中所有文檔所包含的詞及對應的詞頻,作為候選特征;
[0038]計算候選特征與背景特征之間的詞的詞頻的差異度,選擇差異度最大的預設數量的詞構成所述特征詞典。
[0039]優(yōu)選的是,提取經主題聚類得到的各文檔子集的主題詞包括:
[0040]提取各文檔子集的候選主題詞;
[0041]將同一候選主題詞分配給詞頻最高的文檔子集;
[0042]針對每個文檔子集選擇詞頻最高的6至12個候選主題詞作為主題詞;
[0043]優(yōu)選的是,所述提取各文檔子集的候選主題詞包括:
[0044]查找文檔子集中距離在m個詞以內的二元詞組,在二元詞組表中列出查找到的二元詞組及對應的詞頻,其中m取O至5的整數;
[0045]查找二元詞組表中的等同二元詞組,所述等同二元詞組由兩個詞相同、但語序不同的二元詞組構成;在二元詞組表中刪除等同二元詞組中詞頻較低的二元詞組,并將詞頻較高的二元詞組的詞頻更新為等同二元詞組的詞頻;
[0046]在二元詞組表中刪除具有停詞表中的停詞的二元詞組;
[0047]提取二元詞組表中詞頻最高的η個二元詞組作為文檔子集的候選主題詞,η取10至100的整數。
[0048]本發(fā)明的另一個目的在于克服現有技術中的不足,提供了一種交互式的檢索式生成系統(tǒng),以輔助用戶生成復雜檢索式,幫助專業(yè)檢索領域的專業(yè)檢索人員生成更為精確的檢索式。
[0049]為實現上述目的,本發(fā)明采用的技術方案為:一種交互式的檢索式生成系統(tǒng),包括:
[0050]第一輸入模塊,用于接收用戶輸入的一級檢索式;
[0051]第一檢索模塊,用于在接收到所述第一輸入模塊提供的一級檢索式后獲取與所述一級檢索式相對應的一級檢索文檔集;
[0052]聚類模塊,用于對所述一級檢索文檔集進行主題聚類,獲取與各主題一一對應的一級檢索文檔子集;
[0053]主題詞提取模塊,用于提取所述一級檢索文檔子集中的主題詞;
[0054]第一輸出模塊,用于將所述主題詞及其對應的主題提供給用戶,并提示用戶利用所述主題詞確定與其對應的主題相關的二級檢索式。
[0055]優(yōu)選的是,所述系統(tǒng)還包括:
[0056]第二輸入模塊,用于接收用戶輸入的二級檢索式;
[0057]第二檢索模塊,用于在接收到所述第二輸入模塊提供的二級檢索式后,獲取與各二級檢索式—對應的二級檢索文檔集;
[0058]組合模塊,用于對二級檢索式進行兩兩組合,使每組兩個二級檢索式成為兩個待驗證檢索式;以及,
[0059]交叉驗證模塊,用于對兩個待驗證檢索式進行交叉驗證,所述交叉驗證模塊包括:
[0060]統(tǒng)計單元,用于獲取與兩個待驗證檢索式一一對應的兩個檢索文檔集的交叉文檔集;
[0061]比較單元,用于將所述交叉文檔集中文檔的數目與設定閾值進行比較,如果交叉文檔集中文檔的數目大于設定閾值,則確定對兩個待驗證檢索式進行優(yōu)化。
[0062]優(yōu)選的是,所述比較單元還用于在確定對兩個待驗證檢索式進行優(yōu)化后,將所述交叉文檔集輸入至所述聚類模塊;所述聚類模塊還用于獲取與所述交叉文檔集的各主題一一對應的交叉文檔子集;所述主題詞提取模塊還用于提取交叉文檔子集的主題詞;所述系統(tǒng)還包括:
[0063]第二輸出模塊,用于將交叉文檔子集的主題詞及其對應的主題提供給用戶,同時提示用戶利用交叉文檔子集的主題詞優(yōu)化兩個待驗證檢索式,確定兩個優(yōu)化檢索式。
[0064]優(yōu)選的是,所述系統(tǒng)還包括:
[0065]第三輸入模塊,用于接收用戶輸入的兩個優(yōu)化檢索式,以及用于將兩個優(yōu)化檢索式作為兩個待驗證檢索式輸入至所述交叉驗證模塊;
[0066]第三檢索模塊,用于在接收到所述第三輸入模塊提供的兩個優(yōu)化檢索式后,獲取與兩個優(yōu)化檢索式一一對應的兩個優(yōu)化檢索文檔集。
[0067]優(yōu)選的是,所述聚類模塊包括:
[0068]特征向量計算單元,用于設定待聚類文檔集為被拆分類,提取被拆分類中各文檔的聚類特征,獲取與各文檔一一對應的特征向量;
[0069]種子文檔確定單元,用于在被拆分類中選擇兩個密度最大的文檔作為種子文檔,文檔的密度為在被拆分類中與文檔的余弦距離小于0.5的文檔的個數,其中,文檔間的余弦距離為文檔的特征向量間的余弦距離;
[0070]K均值聚類單元,用于以兩個所述種子文檔作為種子,用K均值聚類算法將所述被拆分類拆分為兩個主題;以及,
[0071]判斷單元,用于判斷兩個主題中是否有一個主題的文檔數量小于被拆分類的預設百分比,如是則主題聚類結束,否則將兩個主題中數量較多的一個主題作為被拆分類輸入至種子文檔確定單元。
[0072]優(yōu)選的是,所述特征向量計算單元用于對每篇文檔計算特征詞典中每個詞的TF-1DF值作為聚類特征,獲取k維的特征向量,其中,k等于特征詞典中詞的數量。
[0073]優(yōu)選的是,所述聚類模塊還包括特征詞典獲取模塊,所述特征詞典生成模塊包括:
[0074]背景特征統(tǒng)計單元,用于統(tǒng)計整個檢索庫中所有文檔所包含的詞及對應的詞頻,作為背景特征;
[0075]候選特征統(tǒng)計單元,用于統(tǒng)計一級檢索文檔集中所有文檔所包含的詞及對應的詞頻,作為候選特征;[0076]差異度計算單元,用于計算候選特征與背景特征之間的詞的詞頻的差異度,選擇差異度最大的預設數量的詞構成所述特征詞典。
[0077]優(yōu)選的是,所述主題詞提取模塊包括:
[0078]候選主題詞提取單元,用于提取各文檔子集的候選主題詞;
[0079]分配單元,用于將同一候選主題詞分配給詞頻最高的文檔子集;
[0080]主題詞選擇單元,用于針對每個文檔子集選擇詞頻最高的6至12個候選主題詞作為主題詞。
[0081]優(yōu)選的是,所述候選主題詞提取單元包括:
[0082]二元詞組查找子單元,用于查找文檔子集中距離在m個詞以內的二元詞組,在二元詞組表中列出查找到的二元詞組及對應的詞頻,其中m取O至5的整數;
[0083]合并子單元,用于查找二元詞組表中的等同二元詞組,所述等同二元詞組由兩個詞相同、但語序不同的二元詞組構成;在二元詞組表中刪除等同二元詞組中詞頻較低的二元詞組,并將詞頻較高的二元詞組的詞頻更新為等同二元詞組的詞頻;
[0084]刪除子單元,用于在二元詞組表中刪除具有停詞表中的停詞的二元詞組;
[0085]候選主題詞選擇子單元,用于提取二元詞組表中詞頻最高的η個二元詞組作為文檔子集的候選主題詞,η取10至100的整數。
[0086]本發(fā)明的有益效果在于,本發(fā)明提出的交互式的檢索式生成方法及系統(tǒng),可以輔助用戶生成復雜檢索式,幫助專業(yè)檢索領域的專業(yè)檢索人員生成更為精確的檢索式;可讓計算機等參與到檢索式的生成過程中,通過文本挖掘的技術為檢索人員提供作為候選檢索詞的主題詞,輔助檢索人員生成更加復雜及精確的檢索式;還可以輔助檢索人員對檢索結果進行驗證,快速對檢索性能進行有效評估,獲得更加精確的檢索結果;進一步地,通過本發(fā)明的方法生成的檢索式在同一類數據上可以重復利用,大大減輕了檢索人員的負擔,提高了檢索的準確率。
【專利附圖】
【附圖說明】
[0087]圖1示出了根據本發(fā)明所述交互式的檢索式生成方法的一種實施方式的流程圖;
[0088]圖2示出了根據本發(fā)明所述交互式的檢索式生成方法的另一種實施方式的流程圖;
[0089]圖3示出了進行圖2中所示交叉驗證的方法;
[0090]圖4示出了根據本發(fā)明所述交互式的檢索式生成方法的第三種實施方式的流程圖;
[0091]圖5示出了實現圖4所示第三種實施方式的一個具體實施步驟;
[0092]圖6示出了根據本發(fā)明所述交互式的檢索式生成系統(tǒng)的一種實施結構;
[0093]圖7示出了根據本發(fā)明所述交互式的檢索式生成系統(tǒng)的另一種實施結構;
[0094]圖8示出了根據本發(fā)明所述交互式的檢索式生成系統(tǒng)的第三種實施結構;
[0095]圖9示出了根據本發(fā)明所述交互式的檢索式生成系統(tǒng)的第四種實施結構。
【具體實施方式】
[0096]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0097]如圖1所示,本發(fā)明的交互式的檢索式生成方法包括:
[0098]步驟S1:在接收到用戶輸入的一級檢索式后獲取與所述一級檢索式相對應的一級檢索文檔集。
[0099]步驟S2:對所述一級檢索文檔集進行主題聚類,獲取與各主題一一對應的一級檢索文檔子集,即按照確定的各主題將一級檢索文檔集拆分成各一級檢索文檔子集;該主題聚類可采用現有的主題聚類方法。
[0100]步驟S3:提取所述一級檢索文檔子集中的主題詞。
[0101]步驟S4:將所述主題詞及其對應的主題提供給用戶,并提示用戶利用所述主題詞確定與其對應的主題相關的二級檢索式。在此,用戶可對每一個其認為有意義的主題提供一個二級檢索式,用戶可以選取該主題下的與自身的檢索目的相關的主題詞,以“與”、“或”、“非”、“near”(B卩“鄰近”)等邏輯運算符進行組合,獲取該主題的二級檢索式;以上的邏輯運算符“near”表示相“near”的兩個關鍵詞在文檔中的距離在預設字數以內,該預定字數通常選擇為O至5間的整數,最常用的選擇是3。
[0102]在此,主題詞的提取不僅可以告訴用戶各主題(或者稱為子類)中的文檔內容,而且可以幫助用戶生成與各主題相關的檢索式。在人類語言中,二元詞組比單個詞表達意思更加明確,比如“開通-流量”比單獨的“流量”更加清晰,但是如果用“開通&流量”這樣的檢索式在檢索庫中進行檢索,將會產生很多的虛警,比如一個文檔中出現了 “開通來電顯示”,同時“取消流量” ,就會被誤檢到,如果限定“開通”和“流量”兩個詞之間的距離,則可以大大的提高準確率,因此,本發(fā)明為用戶提供了“near”這個邏輯運算符,用以限定兩個詞之間的距離。
[0103]本發(fā)明的方法還可在以上提供的一次交互的基礎上進行更深層次的交互,為此,如圖2所示,該方法還包括:
[0104]步驟S5:在接收到用戶輸入的二級檢索式后,獲取與各二級檢索式--對應的二
級檢索文檔集。
[0105]步驟S6:對二級檢索式進行兩兩組合,使每組兩個二級檢索式成為兩個待驗證檢索式,以依次對各組二級檢索式進行交叉驗證;舉例說明該處所指的兩兩組合的含義,例如用戶輸入三個二級檢索式,分別為二級檢索式a、b、c,則組合形式為:第一組:二級檢索式
a、b ;第二組:二級檢索式a、c ;第三組:二級檢索式b、C。
[0106]步驟S7:對兩個待驗證檢索式進行交叉驗證,其中,如圖3所示,對兩個待驗證檢索式進行交叉驗證的方法包括:
[0107]步驟S71:獲取與兩個待驗證檢索式一一對應的兩個檢索文檔集的交叉文檔集,其中,如果待驗證檢索式為二級檢索式,則與其對應的檢索文檔集則為二級檢索文檔集,如果待驗證檢索式為在二級檢索式基礎上優(yōu)化得到的優(yōu)化檢索式,則與其對應的檢索文檔集則為優(yōu)化檢索文檔集。
[0108]步驟S72:判斷所述交叉文檔集中文檔的數目是否大于設定閾值,如是則執(zhí)行步驟S73,如否則執(zhí)行步驟S74,在此,該設定閾值通常為與兩個待驗證檢索式一一對應的兩個檢索文檔集的總文檔數的百分比,例如總文檔數的10 %至50 %,設定閾值的比例越低,檢索結果越準確,最終提供的檢索結果中的文檔數量也會越少,但相應地檢索優(yōu)化速度也會降低,本實施例選擇總文檔數的30%。
[0109]步驟S73:對兩個待驗證檢索式進行優(yōu)化。
[0110]步驟S74:告知用戶無需對兩個待驗證檢索式作進一步優(yōu)化。
[0111]如圖4所示,步驟S73中對兩個待驗證檢索式進行優(yōu)化的方法可包括:
[0112]步驟S731:對交叉文檔集進行主題聚類,獲取與所述交叉文檔集的各主題一一對應的交叉文檔子集。
[0113]步驟S732:提取交叉文檔子集的主題詞。
[0114]步驟S733:將交叉文檔子集的主題詞及其對應的主題提供給用戶,同時提示用戶利用交叉文檔子集的主題詞優(yōu)化兩個待驗證檢索式,確定兩個優(yōu)化檢索式,用戶可以根據自身的檢索需求將所提供的主題詞通過適當的邏輯運算符加入兩個待驗證檢索式中,以盡量降低兩個優(yōu)化檢索式的交叉文檔集中的文檔的數目。例如,用戶可根據交叉文檔子集的各主題的主題詞判斷交叉文檔子集的內容,如果兩個待驗證檢索式所代表的主題分別出現在為交叉文檔子集確定的兩個主題中,則用戶可將交叉文檔子集的主題詞通過各種邏輯運算符加入到兩個待驗證檢索式,形成兩個優(yōu)化檢索式。
[0115]步驟S734:判斷用戶是否輸入兩個優(yōu)化檢索式,如是則執(zhí)行步驟S745 ;如否則結束對兩個待驗證檢索式作進一步優(yōu)化;
[0116]步驟S735:獲取與兩個優(yōu)化檢索式一一對應的兩個優(yōu)化檢索文檔集,兩個優(yōu)化檢索式作為兩個待驗證檢索式執(zhí)行步驟S71。
[0117]以下給出一種對步驟S6確定的一組兩個二級檢索式進行交叉驗證的實施方法,以便于更好地理解以上的交叉驗證步驟,如圖5所示,在步驟S6后,賦值i=0,之后執(zhí)行以下各步驟:
[0118]步驟S7a:獲取兩個二級檢索式的交叉文檔集。
[0119]步驟S7b:判斷所述交叉文檔集中文檔的數目是否大于設定閾值,如是則執(zhí)行步驟S7c,如否則告知用戶無需對兩個二級檢索式作進一步優(yōu)化。步驟S7c:對交叉文檔集進行主題聚類,獲取與所述交叉文檔集的各主題一一對應的交叉文檔子集。
[0120]步驟S7d:提取交叉文檔子集的主題詞。
[0121]步驟S7e:賦值 i=i+l。
[0122]步驟S7f:將交叉文檔子集的主題詞及其對應的主題提供給用戶,同時提示用戶利用交叉文檔子集的主題詞優(yōu)化兩個二級檢索式,確定兩個i級優(yōu)化檢索式,在此,由于各級優(yōu)化檢索式均是在二級檢索式的基礎上進行優(yōu)化得到的,因此,對各級檢索式的優(yōu)化均被認為是對兩個二級檢索式的進一步優(yōu)化。
[0123]步驟S7g:判斷用戶是否輸入兩個i級優(yōu)化檢索式,如是則執(zhí)行步驟S7h ;如否則結束對兩個二級檢索式作進一步優(yōu)化;
[0124]步驟S7h:獲取與兩個i級優(yōu)化檢索式一一對應的兩個i級優(yōu)化檢索文檔集。
[0125]步驟S71:獲取兩個i級優(yōu)化檢索式的交叉文檔集,之后繼續(xù)執(zhí)行步驟S7b。
[0126]以下提供一種進行上述主題聚類的方法,其可包括:
[0127]步驟al:設定待聚類文檔集為被拆分類,提取被拆分類中文檔的聚類特征,獲取與文檔一一對應的特征向量;[0128]步驟a2:在被拆分類中選擇兩個密度最大的文檔作為種子文檔,文檔的密度為在被拆分類中與文檔的余弦距離小于0.5的文檔的個數,其中,文檔間的余弦距離為文檔的特征向量間的余弦距離;
[0129]步驟a3:以兩個所述種子文檔作為種子,用K均值聚類算法將所述被拆分類分成兩個主題;
[0130]步驟a4:判斷兩個主題中是否有一個主題的文檔數量小于被拆分類的預設百分t匕,如是則主題聚類結束,否則將兩個主題中數量較多的一個主題作為被拆分類,繼續(xù)執(zhí)行步驟a2。該預設百分比可根據聚類要求進行選擇,本實施例選擇為10%。
[0131]在上述步驟al中,對每篇文檔計算特征詞典中每個詞的TF-1DF (termfrequency -1nverse document frequency,詞頻-逆向文檔頻率)值作為聚類特征,獲取k維的特征向量,其中,k等于特征詞典中詞的數量。
[0132]本發(fā)明還提供了一種獲取上述特征詞典的方法,具體包括:
[0133]步驟bl:統(tǒng)計整個檢索庫中所有文檔所包含的詞及對應的詞頻,作為背景特征。
[0134]步驟b2:統(tǒng)計一級檢索文檔集中所有文檔所包含的詞及對應的詞頻,作為候選特征。
[0135]步驟b3:計算候選特征與背景特征之間的詞的詞頻的差異度,選擇差異度最大的預設數量的詞構成所述特征詞典,該預設數量通常為300至500間的整數。
[0136]本發(fā)明還提供了一種提取經主題聚類得到的各文檔子集的主題詞的方法,具體包括:
[0137]步驟Cl:提取各文檔子集的候選主題詞。
[0138]步驟c2:將同一候選主題詞分配給詞頻最高的文檔子集,即在步驟Cl中可能存在不同的文檔子集具有相同候選主題詞的情況,步驟c2即是對該種情況的處理。
[0139]步驟c3:針對每個文檔子集選擇詞頻最高的6至12個候選主題詞作為主題詞。
[0140]以上的提取各文檔子集的候選主題詞可包括:
[0141]步驟cll:查找文檔子集中距離在m個詞以內的二元詞組,在二元詞組表中列出查找到的二元詞組及對應的詞頻,其中m取O至5的整數,本實施例選為3。
[0142]步驟cl2:查找二元詞組表中的等同二元詞組,所述等同二元詞組由兩個詞相同、但語序不同的二元詞組構成,例如“開通一流量”與“流量一開通”即為等同二元詞組;在二元詞組表中刪除等同二元詞組中詞頻較低的二元詞組,并將等同二元詞組中詞頻較高的二元詞組的詞頻更新為等同二元詞組的詞頻。
[0143]步驟cl3:在二元詞組表中刪除具有停詞表中的停詞的二元詞組,該停詞表可以是人工獲得的詞典,詞典中通常包含了一些無意義的詞,例如“嗯”,“啊”等。
[0144]步驟cl4:提取二元詞組表中詞頻最高的η個二元詞組作為文檔子集的候選主題詞,η取10至100的整數,本實施例中η取50個。
[0145]本發(fā)明還提供了一種可以實現上述方法的一種交互式的檢索式生成系統(tǒng),如圖6所示,該系統(tǒng)包括第一輸入模塊1、第一檢索模塊2、聚類模塊3、主題詞提取模塊4和第一輸出模塊5,其中,第一輸入模塊I用于接收用戶輸入的一級檢索式;第一檢索模塊2用于在接收到第一輸入模塊I提供的一級檢索式后獲取與一級檢索式相對應的一級檢索文檔集;聚類模塊3用于對一級檢索文檔集進行主題聚類獲取與各主題一一對應的一級檢索文檔子集;主題詞提取模塊4用于提取一級檢索文檔子集中的主題詞;第一輸出模塊5用于將主題詞及其對應的主題提供給用戶,并提示用戶利用所述主題詞確定與其對應的主題相關的二級檢索式。
[0146]如圖7所示,本發(fā)明的系統(tǒng)還可以包括第二輸入模塊6、第二檢索模塊12、組合模塊8和交叉驗證模塊7,其中,第二輸入模塊6用于接收用戶輸入的二級檢索式;第二檢索
模塊12用于在接收到第二輸入模塊6提供的二級檢索式后,獲取與各二級檢索式--對應
的二級檢索文檔集;組合模塊8用于對二級檢索式進行兩兩組合,使每組兩個二級檢索式成為兩個待驗證檢索式;交叉驗證模塊7用于對兩個待驗證檢索式進行交叉驗證,該交叉驗證模塊7包括統(tǒng)計單元71和比較單元72,其中,統(tǒng)計單元71用于獲取與兩個待驗證檢索式一一對應的兩個檢索文檔集的交叉文檔集;比較單元72用于將交叉文檔集中文檔的數目與設定閾值進行比較,如果交叉文檔集中文檔的數目大于設定閾值,則確定對兩個待驗證檢索式進行優(yōu)化。
[0147]圖8所示的系統(tǒng)提供了一種對兩個待驗證檢索式進行優(yōu)化的具體結構,在該結構下,以上比較單元72還用于在確定對兩個待驗證檢索式進行優(yōu)化后,將交叉文檔集輸入至聚類模塊3 ;聚類模塊3還用于獲取與交叉文檔集的各主題一一對應的交叉文檔子集;主題詞提取模塊4還用于提取交叉文檔子集的主題詞;對于如圖8所示的實施方式,本發(fā)明的系統(tǒng)還包括第二輸出模塊9,第二輸出模塊9用于將交叉文檔子集的主題詞及其對應的主題提供給用戶,同時提示用戶利用交叉文檔子集的主題詞優(yōu)化兩個待驗證檢索式,確定兩個優(yōu)化檢索式。
[0148]如圖9所示的可 與用戶進行進一步交互的實施方式,本發(fā)明的系統(tǒng)還包括:
[0149]第三輸入模塊10,用于接收用戶輸入的兩個優(yōu)化檢索式,以及用于將兩個優(yōu)化檢索式作為兩個待驗證檢索式輸入至所述交叉驗證模塊;
[0150]第三檢索模塊11,用于在接收到第三輸入模塊10提供的兩個優(yōu)化檢索式后,獲取與兩個優(yōu)化檢索式一一對應的兩個優(yōu)化檢索文檔集。
[0151]以上聚類模塊可包括特征向量計算單元、種子文檔確定單元、K均值聚類單元和判斷單元,其中,特征向量計算單元用于設定待聚類文檔集為被拆分類,提取被拆分類中各文檔的聚類特征,獲取與各文檔一一對應的特征向量;種子文檔確定單元用于在被拆分類中選擇兩個密度最大的文檔作為種子文檔,文檔的密度為在被拆分類中與文檔的余弦距離小于0.5的文檔的個數,其中,文檔間的余弦距離為文檔的特征向量間的余弦距離;K均值聚類單元用于根據K均值聚類算法將所述被拆分類分成由種子文檔決定的兩個主題;判斷單元用于判斷兩個主題中是否有一個主題的文檔數量小于被拆分類的預設百分比,如是則主題聚類結束,如否,則將兩個主題中數量較多的一個主題作為被拆分類輸入至種子文檔確定單元。
[0152]以上特征向量計算單元具體用于對每篇文檔計算特征詞典中每個詞的TF-1DF值作為聚類特征,獲取k維的特征向量,其中,k等于特征詞典中詞的數量。
[0153]以上聚類模塊還可包括特征詞典獲取模塊,以便于獲取滿足用戶使用要求的特征詞典,該特征詞典生成模塊包括背景特征統(tǒng)計單元、候選特征統(tǒng)計單元和差異度計算單元,其中,背景特征統(tǒng)計單元用于統(tǒng)計整個檢索庫中所有文檔所包含的詞及對應的詞頻,作為背景特征;候選特征統(tǒng)計單元用于統(tǒng)計一級檢索文檔集中所有文檔所包含的詞及對應的詞頻,作為候選特征;差異度計算單元用于計算候選特征與背景特征之間的詞的詞頻的差異度,選擇差異度最大的預設數量的詞構成所述特征詞典。
[0154]以上主題詞提取模塊可包括候選主題詞提取單元、分配單元和主題詞選擇單元,其中,候選主題詞提取單元用于提取各文檔子集的候選主題詞;分配單元用于將同一候選主題詞分配給詞頻最高的文檔子集;主題詞選擇單元用于針對每個文檔子集選擇詞頻最高的6至12個候選主題詞作為主題詞。
[0155]以上候選主題詞提取單元可包括二元詞組查找子單元、合并子單元、刪除子單元和候選主題詞選擇子單元,其中,二元詞組查找子單元用于查找文檔子集中距離在m個詞以內的二元詞組,在二元詞組表中列出查找到的二元詞組及對應的詞頻,其中m取O至5的整數;合并子單元用于查找二元詞組表中的等同二元詞組(定義請參見上述說明),在二元詞組表中刪除等同二元詞組中詞頻較低的二元詞組,并將等同二元詞組中詞頻較高的二元詞組的詞頻更新為等同二元詞組的詞頻;刪除子單元用于在二元詞組表中刪除具有停詞表中的停詞的二元詞組;候選主題詞選擇子單元用于提取二元詞組表中詞頻最高的η個二元詞組作為文檔子集的候選主題詞,η取10至100的整數。
[0156]以上第一輸入模塊1、第二輸入模塊6和第三輸入模塊10可為同一輸入模塊,也可為單獨設置的不同模塊,這些輸入模塊為用戶提供用于確定檢索式的邏輯運算符,該邏輯運算符包括“鄰近”(其定義請參見上述說明)。
[0157]同理,第一輸出模塊5和第二輸出模塊9可為同一輸出模塊;第一檢索模塊2、第二檢索模塊12和第三檢索模塊11也可為同一檢索模塊。
[0158]以上依據圖式所示的實施例詳細說明了本發(fā)明的構造、特征及作用效果,以上所述僅為本發(fā)明的較佳實施例,但本發(fā)明不以圖面所示限定實施范圍,凡是依照本發(fā)明的構想所作的改變,或修改為等同變化的等效實施例,仍未超出說明書與圖示所涵蓋的精神時,均應在本發(fā)明的保護范圍內。
【權利要求】
1.一種交互式的檢索式生成方法,其特征在于,包括: 在接收到用戶輸入的一級檢索式后獲取與所述一級檢索式相對應的一級檢索文檔集; 對所述一級檢索文檔集進行主題聚類,獲取與各主題一一對應的一級檢索文檔子集; 提取所述一級檢索文檔子集中的主題詞; 將所述主題詞及其對應的主題提供給用戶,并提示用戶利用所述主題詞確定與其對應的主題相關的二級檢索式。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括: 在接收到用戶輸入的二級檢索式后,獲取與各二級檢索式--對應的二級檢索文檔集; 對二級檢索式進行兩兩組合,使每組兩個二級檢索式成為兩個待驗證檢索式; 對兩個待驗證檢索式進行交叉驗證,獲取與兩個待驗證檢索式一一對應的兩個檢索文檔集的交叉文檔集,若所述交叉文檔集中文檔的數目大于設定閾值,則對兩個待驗證檢索式進行優(yōu)化。
3.根據權利要求2 所述的方法,其特征在于,所述對兩個待驗證檢索式進行優(yōu)化包括: 對所述交叉文檔集進行主題聚類,獲取與所述交叉文檔集的各主題一一對應的交叉文檔子集; 提取交叉文檔子集中的主題詞,并將交叉文檔子集的主題詞及其對應的主題提供給用戶,同時提示用戶利用交叉文檔子集的主題詞優(yōu)化兩個待驗證檢索式,確定兩個優(yōu)化檢索式。
4.根據權利要求3所述的方法,其特征在于,所述方法還包括: 在接收到用戶輸入的兩個優(yōu)化檢索式后,獲取與兩個優(yōu)化檢索式一一對應的兩個優(yōu)化檢索文檔集; 使兩個優(yōu)化檢索式作為兩個待驗證檢索式進行所述交叉驗證。
5.根據權利要求1至4中任一項所述的方法,其特征在于,所述方法還包括: 為用戶提供用于確定檢索式的邏輯運算符,所述邏輯運算符包括“鄰近”,所述“鄰近”表示相“鄰近”的兩個關鍵詞在文檔中的距離在預設字數以內。
6.根據權利要求1至4中任一項所述的方法,其特征在于,所述主題聚類的方法包括: 步驟al:設定待聚類文檔集為被拆分類,提取被拆分類中文檔的聚類特征,獲取與文檔一一對應的特征向量; 步驟a2:在被拆分類中選擇兩個密度最大的文檔作為種子文檔,文檔的密度為在被拆分類中與文檔的余弦距離小于0.5的文檔的個數,其中,文檔間的余弦距離為文檔的特征向量間的余弦距離; 步驟a3:以兩個所述種子文檔作為種子,用K均值聚類算法將所述被拆分類拆分為兩個主題; 步驟a4:判斷兩個主題中是否有一個主題的文檔數量小于被拆分類的預設百分比,如是則主題聚類結束,否則將兩個主題中數量較多的一個主題作為被拆分類,繼續(xù)執(zhí)行步驟3-2 ο
7.根據權利要求6所述的方法,其特征在于,在步驟al中,對每篇文檔計算特征詞典中每個詞的TF-1DF值作為聚類特征,獲取k維的特征向量,其中,k等于特征詞典中詞的數量。
8.根據權利要求7所述的方法,其特征在于,所述方法還包括:獲取所述特征詞典的方法為: 統(tǒng)計整個檢索庫中所有文檔所包含的詞及對應的詞頻,作為背景特征; 統(tǒng)計一級檢索文檔集中所有文檔所包含的詞及對應的詞頻,作為候選特征; 計算候選特征與背景特征之間的詞的詞頻的差異度,選擇差異度最大的預設數量的詞構成所述特征詞典。
9.根據權利要求1至4中任一項所述的方法,其特征在于,提取經主題聚類得到的各文檔子集的主題詞包括: 提取各文檔子集的候選主題詞; 將同一候選主題詞分配給詞頻最高的文檔子集; 針對每個文檔子集選擇詞頻最高的6至12個候選主題詞作為主題詞。
10.根據權利要求9所述的方法,其特征在于,所述提取各文檔子集的候選主題詞包括: 查找文檔子集中距離在`m個詞以內的二元詞組,在二元詞組表中列出查找到的二元詞組及對應的詞頻,其中m取O至5的整數; 查找二元詞組表中的等同二元詞組,所述等同二元詞組由兩個詞相同、但語序不同的二元詞組構成;在二元詞組表中刪除等同二元詞組中詞頻較低的二元詞組,并將詞頻較高的二元詞組的詞頻更新為等同二元詞組的詞頻; 在二元詞組表中刪除具有停詞表中的停詞的二元詞組; 提取二元詞組表中詞頻最高的η個二元詞組作為文檔子集的候選主題詞,η取10至100的整數。
11.一種交互式的檢索式生成系統(tǒng),其特征在于,包括: 第一輸入模塊,用于接收用戶輸入的一級檢索式; 第一檢索模塊,用于在接收到所述第一輸入模塊提供的一級檢索式后獲取與所述一級檢索式相對應的一級檢索文檔集; 聚類模塊,用于對所述一級檢索文檔集進行主題聚類,獲取與各主題一一對應的一級檢索文檔子集; 主題詞提取模塊,用于提取所述一級檢索文檔子集中的主題詞; 第一輸出模塊,用于將所述主題詞及其對應的主題提供給用戶,并提示用戶利用所述主題詞確定與其對應的主題相關的二級檢索式。
12.根據權利要求11所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 第二輸入模塊,用于接收用戶輸入的二級檢索式; 第二檢索模塊,用于在接收到所述第二輸入模塊提供的二級檢索式后,獲取與各二級檢索式--對應的二級檢索文檔集; 組合模塊,用于對二級檢索式進行兩兩組合,使每組兩個二級檢索式成為兩個待驗證檢索式;以及,交叉驗證模塊,用于對兩個待驗證檢索式進行交叉驗證,所述交叉驗證模塊包括:統(tǒng)計單元,用于獲取與兩個待驗證檢索式一一對應的兩個檢索文檔集的交叉文檔集;比較單元,用于將所述交叉文檔集中文檔的數目與設定閾值進行比較,如果交叉文檔集中文檔的數目大于設定閾值,則確定對兩個待驗證檢索式進行優(yōu)化。
13.根據權利要求12所述的系統(tǒng),其特征在于, 所述比較單元還用于在確定對兩個待驗證檢索式進行優(yōu)化后,將所述交叉文檔集輸入至所述聚類模塊; 所述聚類模塊還用于獲取與所述交叉文檔集的各主題一一對應的交叉文檔子集;所述主題詞提取模塊還用于提取交叉文檔子集的主題詞; 所述系統(tǒng)還包括: 第二輸出模塊,用于將交叉文檔子集的主題詞及其對應的主題提供給用戶,同時提示用戶利用交叉文檔子集的主題詞優(yōu)化兩個待驗證檢索式,確定兩個優(yōu)化檢索式。
14.根據權利要求13所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 第三輸入模塊,用于接收用戶輸入的兩個優(yōu)化檢索式,以及用于將兩個優(yōu)化檢索式作為兩個待驗證檢索式輸入至所述交叉驗證模塊; 第三檢索模塊,用于在接收到所述第三輸入模塊提供的兩個優(yōu)化檢索式后,獲取與兩個優(yōu)化檢索式--對應的兩個優(yōu)化檢索文檔集。
15.根據權利要求11至14中任一項所述的系統(tǒng),其特征在于,所述聚類模塊包括: 特征向量計算單元,用于設定待聚類文檔集為被拆分類,提取被拆分類中各文檔的聚類特征,獲取與各文檔一一對 應的特征向量; 種子文檔確定單元,用于在被拆分類中選擇兩個密度最大的文檔作為種子文檔,文檔的密度為在被拆分類中與文檔的余弦距離小于0.5的文檔的個數,其中,文檔間的余弦距離為文檔的特征向量間的余弦距離; K均值聚類單元,用于以兩個所述種子文檔作為種子,用K均值聚類算法將所述被拆分類拆分為兩個主題;以及, 判斷單元,用于判斷兩個主題中是否有一個主題的文檔數量小于被拆分類的預設百分t匕,如是則主題聚類結束,否則將兩個主題中數量較多的一個主題作為被拆分類輸入至種子文檔確定單元。
16.根據權利要求15所述的系統(tǒng),其特征在于,所述特征向量計算單元用于對每篇文檔計算特征詞典中每個詞的TF-1DF值作為聚類特征,獲取k維的特征向量,其中,k等于特征詞典中詞的數量。
17.根據權利要求16所述的系統(tǒng),其特征在于,所述聚類模塊還包括特征詞典獲取模塊,所述特征詞典生成模塊包括: 背景特征統(tǒng)計單元,用于統(tǒng)計整個檢索庫中所有文檔所包含的詞及對應的詞頻,作為背景特征; 候選特征統(tǒng)計單元,用于統(tǒng)計一級檢索文檔集中所有文檔所包含的詞及對應的詞頻,作為候選特征; 差異度計算單元,用于計算候選特征與背景特征之間的詞的詞頻的差異度,選擇差異度最大的預設數量的詞構成所述特征詞典。
18.根據權利要求11至14中任一項所述的系統(tǒng),其特征在于,所述主題詞提取模塊包括: 候選主題詞提取單元,用于提取各文檔子集的候選主題詞; 分配單元,用于將同一候選主題詞分配給詞頻最高的文檔子集; 主題詞選擇單元,用于針對每個文檔子集選擇詞頻最高的6至12個候選主題詞作為主題詞。
19.根據權利要求18所述的系統(tǒng),其特征在于,所述候選主題詞提取單元包括: 二元詞組查找子單元,用于查找文檔子集中距離在m個詞以內的二元詞組,在二元詞組表中列出查找到的二元詞組及對應的詞頻,其中m取O至5的整數; 合并子單元,用于查找二元詞組表中的等同二元詞組,所述等同二元詞組由兩個詞相同、但語序不同的二元詞組構成;在二元詞組表中刪除等同二元詞組中詞頻較低的二元詞組,并將詞頻較高的二元詞組的詞頻更新為等同二元詞組的詞頻; 刪除子單元,用于在二元詞組表中刪除具有停詞表中的停詞的二元詞組; 候選主題詞選擇子單元,用于提取二元詞組表中詞頻最高的η個二元詞組作為文檔子集的候選主題詞,η取10至100的整數。
【文檔編號】G06F17/30GK103678513SQ201310611470
【公開日】2014年3月26日 申請日期:2013年11月26日 優(yōu)先權日:2013年11月26日
【發(fā)明者】吳及, 侯晉峰, 呂萍, 何婷婷, 胡國平, 胡郁 申請人:安徽科大訊飛信息科技股份有限公司