面向行業(yè)的主題搜索方法與流程

文檔序號：11677685閱讀：173來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于信息檢索技術(shù)領(lǐng)域，尤其涉及一種面向行業(yè)的主題搜索方法。

背景技術(shù)：

互聯(lián)網(wǎng)已經(jīng)成為人們最重要的信息傳播和內(nèi)容獲取方式。以谷歌、百度、必應(yīng)為代表的通用搜索引擎，為人們在互聯(lián)網(wǎng)上快速、準(zhǔn)確地獲取信息提供了巨大的便利。然而，通用搜索引擎需要建立龐大的搜索數(shù)據(jù)庫，搜索內(nèi)容面向全網(wǎng)，在用戶需要對特定行業(yè)進(jìn)行垂直搜索時，其查準(zhǔn)率相對偏低、資源耗費大。與此同時，以去哪兒、搜狗購物為代表的垂直搜索引擎，針對特殊領(lǐng)域?qū)ｉT建立自己的數(shù)據(jù)庫，行業(yè)約束大、應(yīng)用靈活性不足，查全率方面也不能盡如人意。

通過對現(xiàn)有垂直搜索引擎技術(shù)的分析可以發(fā)現(xiàn)，針對給定主題的搜索算法，通常利用基于內(nèi)容的搜索方式(如fish-search，shark-search等)，計算網(wǎng)頁與主題的相關(guān)度從而過濾掉與主題無關(guān)的網(wǎng)頁；然后利用基于網(wǎng)絡(luò)連接結(jié)構(gòu)的搜索算法(如相關(guān)度排序算法、pagerank算法等)，計算得到的網(wǎng)頁可信度分值排序從而建立索引庫。這種方式能夠建立冗余度小的主題數(shù)據(jù)庫，但若采用相關(guān)度大小排序，雖然檢索結(jié)果與主題相關(guān)度很高，卻降低了全局性，且不能保證內(nèi)容的可靠性；若按照網(wǎng)頁可信度分值排序，則檢索結(jié)果與主題的相關(guān)度又不能保證，造成“主題漂移”。

技術(shù)實現(xiàn)要素：

本發(fā)明的發(fā)明目的是：為了解決現(xiàn)有技術(shù)中存在的以上問題，本發(fā)明提出了一種面向行業(yè)的主題搜索方法，實現(xiàn)高效獲取高準(zhǔn)確率、高覆蓋率的檢索結(jié)果。

本發(fā)明的技術(shù)方案是：一種面向行業(yè)的主題搜索方法，包括以下步驟：

a、初始化爬行站點seedurls、爬蟲爬取時間t1、主題關(guān)鍵詞向量vectortopic和爬蟲再次爬取的時間間隔t2，通過爬行站點seedurls建立初始待爬取隊列url_queue；

b、判斷是否到達(dá)爬蟲爬取時間t1，若是則結(jié)束操作，若否則進(jìn)一步判斷步驟a中建立的待爬取隊列url_queue是否為空；若待爬取隊列url_queue為空則結(jié)束操作，若待爬取隊列url_queue不為空則進(jìn)行下一步驟；

c、采用shark-search-advanced算法計算網(wǎng)頁與主題的相關(guān)度值potential_score；

d、采用pagerank-advanced算法計算網(wǎng)頁的連接值pr和網(wǎng)頁排序分值rank；

e、判斷是否到達(dá)爬蟲再次爬取的時間間隔t2，若是則返回步驟c，若否則重復(fù)步驟e。

進(jìn)一步地，所述步驟c采用shark-search-advanced算法計算網(wǎng)頁與主題的相關(guān)度值potential_score具體包括以下分步驟：

c1、初始化待爬取隊列url_queue中各網(wǎng)頁的深度depth和相關(guān)度值potential_score；

c2、從待爬取隊列url_queue隊首彈出一個網(wǎng)頁并將其設(shè)定為current_node；

c3、判斷步驟c2中的current_node對應(yīng)的深度depth是否大于0，若是則進(jìn)行下一步驟，若否則返回步驟c2；

c4、采用shark-search算法計算步驟c2中的current_node與主題的相關(guān)度值potential_score。

c5、采用shark-search算法計算步驟c2中的current_node網(wǎng)頁內(nèi)容與主題的相關(guān)度值simcurr，并選取當(dāng)前網(wǎng)頁的前n個子網(wǎng)頁；

c6、根據(jù)當(dāng)前所有網(wǎng)頁構(gòu)建網(wǎng)絡(luò)圖，采用pagerank算法計算每一個網(wǎng)頁的pr值；

c7、采用shark-search算法計算子網(wǎng)頁的simi值和深度depth；

c8、計算每個網(wǎng)頁的聯(lián)合分值scorei，再根據(jù)每個網(wǎng)頁的聯(lián)合分值scorei計算當(dāng)前已爬取網(wǎng)頁的平均分值及網(wǎng)頁相關(guān)性判定系數(shù)δ；

c9、判斷每個網(wǎng)頁的聯(lián)合分值scorei是否大于網(wǎng)頁相關(guān)性判定系數(shù)δ；若是則將該網(wǎng)頁加入待爬取隊列url_queue隊尾，若否則將該網(wǎng)頁從待爬取隊列url_queue中刪除；

c10、動態(tài)維護待爬取隊列url_queue，返回步驟c2。

進(jìn)一步地，所述步驟c5還包括判斷current_node與主題的相關(guān)度值simcurr是否大于0，若是則選取當(dāng)前網(wǎng)頁的前α*width個子網(wǎng)頁，其中α為要加入url_queue子網(wǎng)頁數(shù)目的系數(shù)；若否則選取當(dāng)前網(wǎng)頁的前width個子網(wǎng)頁。

進(jìn)一步地，所述步驟c8中計算每個網(wǎng)頁的聯(lián)合分值scorei的計算公式具體為：

scorei＝β*simi+(1-β)*pri

其中，β為simi在scorei中所占比重，i∈[1,n]，n為網(wǎng)頁總數(shù)量。

進(jìn)一步地，所述步驟c8中計算當(dāng)前已爬取網(wǎng)頁的平均分值的計算公式具體為：

進(jìn)一步地，所述步驟c8中計算網(wǎng)頁相關(guān)性判定系數(shù)δ的計算公式具體為：

其中，nmax為當(dāng)前已爬取網(wǎng)頁中聯(lián)合分值大于平均分值的網(wǎng)頁數(shù)量，nmin為當(dāng)前已爬取網(wǎng)頁中聯(lián)合分值小于平均分值的網(wǎng)頁數(shù)量。

進(jìn)一步地，所述步驟d采用pagerank-advanced算法計算網(wǎng)頁的連接值pr和網(wǎng)頁排序分值rank具體包括以下分步驟：

d1、對所有已爬取網(wǎng)頁設(shè)定初始pr值，得到頁面初始pr值向量π0；

d2、采用pagerank-advanced算法計算所有網(wǎng)頁的pr值，并進(jìn)行向量表示；

d3、根據(jù)步驟c中網(wǎng)頁與主題的相關(guān)度值potential_score，結(jié)合步驟d2中網(wǎng)頁的pr值得到網(wǎng)頁排序分值rank。

進(jìn)一步地，所述步驟d2中網(wǎng)頁的pr值進(jìn)行向量表示具體為：

πk+1＝πkg

其中，πk為第k次計算網(wǎng)頁的pr值向量，

進(jìn)一步地，所述步驟d3中網(wǎng)頁排序分值rank表示為：

rank＝γ*potential_score+(1-γ)*pr。

本發(fā)明的有益效果是：本發(fā)明首先利用ssa算法在互聯(lián)網(wǎng)上爬取與指定主題相關(guān)的網(wǎng)頁，并計算輸出各個網(wǎng)頁與主題的相關(guān)度；其次將ssa算法中計算出來的相關(guān)度值和pra算法計算得到的基于連接的值聯(lián)合作為網(wǎng)頁最后排序的分值，通過該分值對檢索結(jié)果進(jìn)行排序，能夠有效的提高搜索結(jié)果的準(zhǔn)確性和可靠性，從而高效獲取高準(zhǔn)確率、高覆蓋率的檢索結(jié)果，保證搜索引擎可高效率、高準(zhǔn)確度、高覆蓋率的響應(yīng)用戶面向特定行業(yè)的搜索需求。

附圖說明

圖1是本發(fā)明的面向行業(yè)的主題搜索方法的流程示意圖。

圖2是本發(fā)明中ssa算法的的流程示意圖。

圖3是本發(fā)明中pra算法的的流程示意圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合附圖及實施例，對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

如圖1所示，為本發(fā)明的面向行業(yè)的主題搜索方法的流程示意圖。一種面向行業(yè)的主題搜索方法，包括以下步驟：

c、采用shark-search-advanced算法計算網(wǎng)頁與主題的相關(guān)度值potential_score；

d、采用pagerank-advanced算法計算網(wǎng)頁的連接值pr和網(wǎng)頁排序分值rank；

e、判斷是否到達(dá)爬蟲再次爬取的時間間隔t2，若是則返回步驟c，若否則重復(fù)步驟e。

本發(fā)明首先利用ssa算法在互聯(lián)網(wǎng)上爬取與指定主題相關(guān)的網(wǎng)頁，并計算輸出各個網(wǎng)頁與主題的相關(guān)度；再將ssa算法中計算出來的相關(guān)度值和pra算法計算得到的基于連接的值聯(lián)合作為網(wǎng)頁最后排序的分值，通過該分值對檢索結(jié)果進(jìn)行排序。

在步驟a中，本發(fā)明對搜索環(huán)境進(jìn)行初始化，即初始化爬行站點seedurls、爬蟲爬取時間t1、主題關(guān)鍵詞向量vectortopic和爬蟲再次爬取的時間間隔t2，這里的爬行站點為行業(yè)內(nèi)的權(quán)威網(wǎng)站；再通過爬行站點seedurls建立初始待爬取隊列url_queue。

在步驟b中，本發(fā)明分別判斷是否到達(dá)爬蟲爬取時間t1及步驟a中建立的待爬取隊列url_queue是否為空，當(dāng)未達(dá)到爬蟲爬取時間t1且待爬取隊列url_queue不為空時進(jìn)行下一步驟。

在步驟c中，如圖2所示，為本發(fā)明中ssa算法的的流程示意圖。本發(fā)明采用shark-search-advanced算法計算網(wǎng)頁與主題的相關(guān)度值potential_score，根據(jù)輸入的種子站點seedurls和主題關(guān)鍵詞向量vectortopic在互聯(lián)網(wǎng)上爬取并下載行業(yè)相關(guān)的網(wǎng)站，最終輸出結(jié)構(gòu)化的網(wǎng)頁內(nèi)容和已經(jīng)計算出的網(wǎng)頁相關(guān)度值potential_score和pr值，具體包括以下分步驟：

c1、初始化待爬取隊列url_queue中各網(wǎng)頁的深度depth和相關(guān)度值potential_score；

c2、從待爬取隊列url_queue隊首彈出一個網(wǎng)頁并將其設(shè)定為current_node；

c3、判斷步驟c2中的current_node對應(yīng)的深度depth是否大于0，若是則進(jìn)行下一步驟，若否則返回步驟c2；

c4、采用shark-search算法計算步驟c2中的current_node與主題的相關(guān)度值potential_score。

c5、采用shark-search算法計算步驟c2中的current_node網(wǎng)頁內(nèi)容與主題的相關(guān)度值simcurr，并選取當(dāng)前網(wǎng)頁的前n個子網(wǎng)頁；

c6、根據(jù)當(dāng)前所有網(wǎng)頁構(gòu)建網(wǎng)絡(luò)圖，采用pagerank算法計算每一個網(wǎng)頁的pr值；

c7、采用shark-search算法計算子網(wǎng)頁的simi值和深度depth；

c10、動態(tài)維護待爬取隊列url_queue，返回步驟c2。

在步驟c1中，本發(fā)明對待爬取隊列url_queue中各網(wǎng)頁的深度depth和相關(guān)度值potential_score賦初值為0。

在步驟c5中，本發(fā)明還包括判斷current_node與主題的相關(guān)度值simcurr是否大于0，若是則選取當(dāng)前網(wǎng)頁的前α*width個子網(wǎng)頁，其中α為預(yù)定義常量，通常被設(shè)為1.5，表示要加入url_queue子網(wǎng)頁數(shù)目的系數(shù)；若否則選取當(dāng)前網(wǎng)頁的前width個子網(wǎng)頁。

在步驟c6中，本發(fā)明根據(jù)當(dāng)前已經(jīng)爬取和加入url_queue中所有網(wǎng)頁構(gòu)建結(jié)構(gòu)化的網(wǎng)絡(luò)圖，采用pagerank算法遞歸計算每一個網(wǎng)頁的pr值。

在步驟c8中，本發(fā)明計算每個網(wǎng)頁的聯(lián)合分值scorei的計算公式具體為：

scorei＝β*simi+(1-β)*pri

其中，β為simi在scorei中所占比重，i∈[1,n]，n為網(wǎng)頁總數(shù)量。

計算當(dāng)前已爬取網(wǎng)頁的平均分值的計算公式具體為：

計算網(wǎng)頁相關(guān)性判定系數(shù)δ的計算公式具體為：

在步驟c10中，本發(fā)明通過對聯(lián)合分值scorei是否大于網(wǎng)頁相關(guān)性判定系數(shù)δ的網(wǎng)頁加入待爬取隊列url_queue隊尾，實現(xiàn)動態(tài)維護待爬取隊列url_queue，當(dāng)處理完當(dāng)前網(wǎng)頁的current_node后，返回步驟c2從待爬取隊列url_queue隊首彈出新的網(wǎng)頁繼續(xù)計算。

本發(fā)明通過從互聯(lián)網(wǎng)上爬取與主題相關(guān)的網(wǎng)頁，再對網(wǎng)頁進(jìn)行結(jié)構(gòu)化處理后建立數(shù)據(jù)庫。根據(jù)用戶的種子站點和查詢的關(guān)鍵詞或短語，將包含查詢串的頁面看作與主題相關(guān)，計算該頁面與主題的相關(guān)度，動態(tài)地維護待爬行的優(yōu)先級隊列url_queue。本發(fā)明將與主題相關(guān)度高的url排在隊列前端，優(yōu)先被爬蟲爬??；同時將相關(guān)度低的url排在隊列后端，后被爬蟲爬取。在計算頁面與主題的相關(guān)度時，本發(fā)明不僅計算了網(wǎng)頁內(nèi)容與主題的相關(guān)度，同時將網(wǎng)頁附近的錨文本、以及錨文本上下文與主題的相關(guān)度也考慮進(jìn)來，使信息更全面。若只是考慮網(wǎng)頁與主題的相關(guān)度，便忽略了網(wǎng)頁在全網(wǎng)的影響力，可能造成網(wǎng)頁內(nèi)容相關(guān)但信息本身不可靠的情況。因此本發(fā)明將pagerank算法利用進(jìn)來，通過pagerank的全局性再次對保留下來的主題相關(guān)網(wǎng)頁進(jìn)行過濾，以此保證剩下網(wǎng)頁的全局性。

在步驟d中，如圖3所示，為本發(fā)明中pra算法的的流程示意圖。本發(fā)明采用pagerank-advanced算法計算網(wǎng)頁的連接值pr和網(wǎng)頁排序分值rank，利用網(wǎng)頁之間的鏈接結(jié)構(gòu)采用隨機沖浪的模型建立分值計算方法，公平合理的將父親站點的分值分配給孩子站點，并將ssa算法中計算得到的potential_score與該方法得到的pr值進(jìn)行結(jié)合得到一種新型的計分機制，具體包括以下分步驟：

d1、對所有已爬取網(wǎng)頁設(shè)定初始pr值，得到頁面初始pr值向量π0；

d2、采用pagerank-advanced算法計算所有網(wǎng)頁的pr值，并進(jìn)行向量表示；

d3、根據(jù)步驟c中網(wǎng)頁與主題的相關(guān)度值potential_score，結(jié)合步驟d2中網(wǎng)頁的pr值得到網(wǎng)頁排序分值rank。

在步驟d1中，本發(fā)明根據(jù)網(wǎng)頁構(gòu)成的網(wǎng)絡(luò)圖g(v,e)對所有已爬取網(wǎng)頁設(shè)定初始pr值，其中權(quán)威網(wǎng)頁賦值為prauthority，普通網(wǎng)頁賦值為1，得到頁面初始pr值向量π0。網(wǎng)絡(luò)圖g(v,e)是網(wǎng)頁之間連接結(jié)構(gòu)形成的有向圖，其中v為點集即網(wǎng)頁集合，e為邊集，即網(wǎng)頁之間的連接關(guān)系。

在步驟d2中，本發(fā)明將所有網(wǎng)頁的pr值進(jìn)行向量表示：

πk+1＝πkg

其中，πk為第k次計算網(wǎng)頁的pr值向量，m為根據(jù)網(wǎng)頁連接結(jié)構(gòu)建立的初始分值分配矩陣，s為改進(jìn)小黑洞之后的矩陣，g為改進(jìn)大黑洞之后的矩陣；小黑洞指只有入鏈沒有出鏈的單個網(wǎng)頁，大黑洞指幾個網(wǎng)頁組成的只有入鏈沒有出鏈的網(wǎng)頁集。

在步驟d3中，本發(fā)明計算網(wǎng)頁排序分值rank的計算公式具體為：

rank＝γ*potential_score+(1-γ)*pr。

針對主題較明確的搜索，將γ值設(shè)定得較大可以篩選出與主題相關(guān)度很高的結(jié)果；而如果用戶對搜索關(guān)鍵詞主題不明確，可將γ設(shè)定得較小，篩選出權(quán)威性高的網(wǎng)頁，順便也給用戶提供了一些建議。

本發(fā)明利用pagerank-advanced算法解決檢索結(jié)果相關(guān)度排序問題，具體是根據(jù)網(wǎng)頁鏈接結(jié)構(gòu)構(gòu)建有向的網(wǎng)頁連接圖，依此計算網(wǎng)頁在全網(wǎng)中的重要性，并結(jié)合網(wǎng)頁內(nèi)容與主題的相關(guān)度，建立一種新型的排序機制。網(wǎng)頁在全網(wǎng)的重要性是基于其被引用的次數(shù)和被權(quán)威網(wǎng)頁引用與否來衡量的，即一個頁面的重要性被均分并傳遞給它所引用的頁面當(dāng)中，這能代表其全局性；網(wǎng)頁的主題相關(guān)度是通過ssa算法計算而來，代表內(nèi)容局部性，能夠避免只利用網(wǎng)頁鏈接結(jié)構(gòu)帶來的“主題漂移”的缺點。將兩個能體現(xiàn)網(wǎng)頁信息相關(guān)性和可靠性的量值進(jìn)行結(jié)合，建立一種新型的排序機制，將有效的提高搜索結(jié)果的準(zhǔn)確性和可靠性。

本發(fā)明基于相關(guān)度大小和網(wǎng)頁可信度分值對檢索結(jié)果進(jìn)行更合理的排序，同時，為了避免shark-search算法的局部性，結(jié)合pagerank算法建立一種改進(jìn)的選擇性爬取網(wǎng)頁的策略，下載只與主題相關(guān)的網(wǎng)頁，建立信息冗余度小的數(shù)據(jù)庫，同時又能避免傳統(tǒng)算法的主題漂移問題。

本領(lǐng)域的普通技術(shù)人員將會意識到，這里所述的實施例是為了幫助讀者理解本發(fā)明的原理，應(yīng)被理解為本發(fā)明的保護范圍并不局限于這樣的特別陳述和實施例。本領(lǐng)域的普通技術(shù)人員可以根據(jù)本發(fā)明公開的這些技術(shù)啟示做出各種不脫離本發(fā)明實質(zhì)的其它各種具體變形和組合，這些變形和組合仍然在本發(fā)明的保護范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉道桂;韋云凱;劉強;李源顥;蒲勇全;陳怡瑾
技術(shù)所有人：電子科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

面向行業(yè)的主題搜索方法與流程