一種搜索方法和系統(tǒng)的制作方法

文檔序號(hào)：6573641閱讀：230來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱：一種搜索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)技術(shù)，特別涉及一種搜索方法和系統(tǒng)。
背景技術(shù)：
隨著因特網(wǎng)的迅猛發(fā)展，各種信息呈現(xiàn)爆炸式的增長(zhǎng)，用戶要在信息海洋里查找信息，就象大海撈針一樣。每個(gè)上網(wǎng)用戶面臨信息過(guò)載的問(wèn)題，無(wú)法準(zhǔn)確找到所需要的信息。搜索引擎正是為了解決這個(gè)“迷航”問(wèn)題而出現(xiàn)的技術(shù)。搜索引擎提供的導(dǎo)航服務(wù)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù)，成為和電子郵件并列的最重要的互聯(lián)網(wǎng)應(yīng)用。搜索引擎為用戶提供信息“檢索”服務(wù)，它使用蜘蛛程序把因特網(wǎng)上的所有信息歸類(lèi)以幫助用戶在海量的互聯(lián)網(wǎng)信息中搜尋其所需要的信息。搜索引擎的原理主要包括三步1)從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)，2)建立索引數(shù)據(jù)庫(kù)，3)在索引數(shù)據(jù)庫(kù)中搜索排序。
搜索引擎是當(dāng)前競(jìng)爭(zhēng)非常激烈的領(lǐng)域，其競(jìng)爭(zhēng)的重要點(diǎn)除了內(nèi)容的豐富以外，還有用戶體驗(yàn)。目前，搜索的速度已經(jīng)成為用戶體驗(yàn)好壞的決定性因素之一。
目前，搜索引擎處理用戶請(qǐng)求，需要對(duì)用戶的檢索詞進(jìn)行拆分(分詞)，然后對(duì)拆分后的詞語(yǔ)分別索引查詢，得出每個(gè)詞語(yǔ)的搜索結(jié)果。例如，用戶搜索“北京體育館”時(shí)，搜索引擎的動(dòng)作為①把用戶的搜索請(qǐng)求“北京體育館”拆分為“北京”和“體育館”兩個(gè)詞；②對(duì)“北京”進(jìn)行索引查詢，得到結(jié)果集合A；③對(duì)“體育館”進(jìn)行索引查詢，得到結(jié)果集合B；④對(duì)A和B進(jìn)行求交集運(yùn)算，得到AB的交集X；⑤對(duì)AB進(jìn)行求并運(yùn)算，得到AB的并集合Y；⑥向用戶輸出搜索結(jié)果。搜索結(jié)果的排序順序?yàn)榧蟈中的網(wǎng)頁(yè)排在最前面，其次是Y中的不在X的元素，最后是A和B不在X集合中存在的元素。這樣，當(dāng)檢索詞為“中國(guó)人民銀行”時(shí)，首先拆分詞語(yǔ)為“中國(guó)”，“人民”，“銀行”，然后進(jìn)行三次索引查詢，如果采用兩兩求交，兩兩求并規(guī)則，要進(jìn)行三次求交集運(yùn)算、三次求并集運(yùn)算才能得到最終搜索結(jié)果。其缺點(diǎn)是對(duì)搜索詞條的拆分粒度小、搜索引擎的索引查詢次數(shù)和集合運(yùn)算次數(shù)多，系統(tǒng)查詢效率較低，搜索速度較低。
現(xiàn)有的搜索引擎在建立索引的過(guò)程中對(duì)無(wú)意義的組合也建立了索引，造成空間浪費(fèi)。如目前的二元索引就是不管詞語(yǔ)的邏輯關(guān)系，直接對(duì)每個(gè)二元組合建立索引，有“我看見(jiàn)”，“看見(jiàn)你”，“你在”，“在那里”等。又由于上述缺點(diǎn)，不可能建立太多元的索引，最多建立到三元，因?yàn)榭臻g膨脹太厲害，導(dǎo)致索引量不夠。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種搜索方法和系統(tǒng)，利用詞條相對(duì)頻度抽取復(fù)合詞單獨(dú)建立索引，減小搜索詞條的拆分粒度、減少集合運(yùn)算次數(shù)。
本發(fā)明的技術(shù)方案是一種搜索方法，在建立或更新索引數(shù)據(jù)庫(kù)時(shí)，執(zhí)行以下步驟A1，統(tǒng)計(jì)輸入的網(wǎng)頁(yè)正文中有效詞條的各種組合的頻次；A2，對(duì)頻次大于設(shè)定閾值的復(fù)合詞建立索引。
具體的，所述有效詞條是網(wǎng)頁(yè)正文中至少去掉停用詞后的詞條。
作為優(yōu)選，步驟A1中，所述統(tǒng)計(jì)詞條各種組合的頻次的方法包括以下步驟A11，讀取一個(gè)網(wǎng)頁(yè)正文，去停用詞后進(jìn)行分詞；A12，對(duì)分詞得到的詞條的各種組合進(jìn)行詞頻統(tǒng)計(jì)；A13，輸出頻次大于設(shè)定閾值的組合詞條，并保存到復(fù)合詞表中。
作為優(yōu)選，步驟A11中，在分詞前首先將網(wǎng)頁(yè)正文轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式，然后至少進(jìn)行過(guò)濾腳本標(biāo)示符和廣告信息的操作。
作為優(yōu)選，步驟A11中，對(duì)轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式的網(wǎng)頁(yè)正文去停用詞和虛詞后進(jìn)行分詞。
本發(fā)明中所述復(fù)合詞為二元以上的組合詞條。
本發(fā)明一種搜索方法進(jìn)一步包括步驟B1，在接收到檢索詞后，根據(jù)復(fù)合詞表對(duì)輸入的檢索詞進(jìn)行分詞；所述復(fù)合詞表包括頻次大于設(shè)定閾值的所有復(fù)合詞。
本發(fā)明還提供了一種搜索引擎的搜索系統(tǒng)，包括順次相連的網(wǎng)頁(yè)抓取模塊、網(wǎng)頁(yè)數(shù)據(jù)庫(kù)、索引模塊、索引數(shù)據(jù)庫(kù)和搜索模塊；所述索引模塊包括文檔預(yù)處理單元、分詞單元和索引建立單元；所述索引建立模塊還包括詞頻統(tǒng)計(jì)單元，用于對(duì)所述分詞單元輸出的詞條的各種組合進(jìn)行詞頻統(tǒng)計(jì)，并將頻次大于設(shè)定閾值的組合詞條輸出到索引建立單元，由索引建立單元對(duì)所述組合詞條建立索引。
進(jìn)一步的，所述索引數(shù)據(jù)庫(kù)用于存儲(chǔ)所述索引建立單元建立的索引；所述索引數(shù)據(jù)庫(kù)中還存儲(chǔ)有復(fù)合詞表，所述復(fù)合詞表中存儲(chǔ)著所述詞頻統(tǒng)計(jì)單元輸出的復(fù)合詞。
進(jìn)一步的，所述搜索模塊包括順次相連的檢索詞分詞單元、搜索單元和結(jié)果處理單元；所述檢索詞分詞單元用于根據(jù)所述復(fù)合詞表對(duì)輸入的檢索詞進(jìn)行分詞，并將分詞后詞條輸出到所述搜索單元；所述搜索單元用于將所述分詞后詞條作為關(guān)鍵詞在索引數(shù)據(jù)庫(kù)中進(jìn)行索引查詢，并將查詢結(jié)果發(fā)送到所述處理單元；所述處理單元用于對(duì)所述查詢結(jié)果進(jìn)行求并集、求交集，排序后發(fā)送到操作窗口進(jìn)行顯示。
本發(fā)明利用統(tǒng)計(jì)學(xué)原理統(tǒng)計(jì)出網(wǎng)頁(yè)中出現(xiàn)頻度高的復(fù)合詞，對(duì)這些復(fù)合詞單獨(dú)建立索引，減小搜索時(shí)對(duì)搜索詞條的拆分粒度，從而減少搜索引擎的索引查詢次數(shù)和求交集、求并集運(yùn)算的次數(shù)，大大地提高搜索引擎的檢索速度，達(dá)到快速響應(yīng)用戶的目的，提高用戶體驗(yàn)。同時(shí)，由于通過(guò)概率統(tǒng)計(jì)有選擇的對(duì)多元詞條建立索引，提高了索引數(shù)據(jù)庫(kù)的利用率和系統(tǒng)的檢索準(zhǔn)確率。

圖1是本發(fā)明搜索系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖。
圖2是本發(fā)明搜索方法在建立或更新索引數(shù)據(jù)庫(kù)時(shí)的流程圖。
圖3是本發(fā)明搜索方法在收到檢索請(qǐng)求后的流程圖。
具體實(shí)施例方式
下面根據(jù)附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步闡述。
如圖1所示，搜索系統(tǒng)10包括順次相連的網(wǎng)頁(yè)抓取模塊100、網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200、索引模塊300、索引數(shù)據(jù)庫(kù)400和搜索模塊500。
其中，網(wǎng)頁(yè)抓取模塊100負(fù)責(zé)自動(dòng)從互聯(lián)網(wǎng)提取信息，并將提取到的信息保存在網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200中。一般的做法是網(wǎng)頁(yè)抓取模塊100通過(guò)能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的網(wǎng)絡(luò)蜘蛛程序，自動(dòng)訪問(wèn)互聯(lián)網(wǎng)，并沿著任何網(wǎng)頁(yè)中的所有URL(統(tǒng)一資源定位器)爬到其它網(wǎng)頁(yè)，重復(fù)這過(guò)程，并把爬過(guò)的所有網(wǎng)頁(yè)收集到網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200中。搜索引擎的自動(dòng)信息搜集功能分兩種，一種是定期搜索，即每隔一段時(shí)間(比如28天)，網(wǎng)頁(yè)抓取模塊100主動(dòng)派出“蜘蛛”程序，對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索，一旦發(fā)現(xiàn)新的網(wǎng)站，“蜘蛛”程序會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200；另一種是提交網(wǎng)站搜索，即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址，搜索引擎的網(wǎng)頁(yè)抓取模塊100會(huì)在一定時(shí)間內(nèi)(2天到數(shù)月不等)定期對(duì)應(yīng)網(wǎng)站派出“蜘蛛”程序，掃描網(wǎng)站并將有關(guān)信息存入網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200。
網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200負(fù)責(zé)存儲(chǔ)網(wǎng)頁(yè)抓取模塊100獲得的全部網(wǎng)頁(yè)，以備用戶搜索使用。
索引模塊300負(fù)責(zé)對(duì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200中存儲(chǔ)的網(wǎng)頁(yè)進(jìn)行分析，提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類(lèi)型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等)，根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性)，然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引，并將建立好的索引存儲(chǔ)到索引數(shù)據(jù)庫(kù)400中。本實(shí)施例中，索引模塊300包括文檔預(yù)處理單元301、分詞單元302、詞頻統(tǒng)計(jì)單元303和索引建立單元304。
文檔預(yù)處理單元301負(fù)責(zé)從網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200中讀取一個(gè)網(wǎng)頁(yè)，將輸入的網(wǎng)頁(yè)中不同的數(shù)據(jù)格式轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式，如將HTML頁(yè)面、電子郵件或者PDF文件轉(zhuǎn)換為文本文件，同時(shí)需要過(guò)濾掉一些腳本標(biāo)示符和一些無(wú)用的廣告信息，然后輸出到分詞單元302。
分詞單元302負(fù)責(zé)對(duì)轉(zhuǎn)換格式后的網(wǎng)頁(yè)內(nèi)容進(jìn)行分詞處理。為了提高系統(tǒng)效率，在分詞前首先要把停用詞和虛詞等去掉(當(dāng)然也可以在分詞后去停用詞和虛詞等)，只留下有效詞條。本實(shí)施例中，分詞單元302負(fù)責(zé)按照詞典將轉(zhuǎn)換后網(wǎng)頁(yè)的正文和標(biāo)題切分成詞匯。如將“我看見(jiàn)了你在那里”去停用詞后進(jìn)行分詞，分為“我”、“看見(jiàn)”、“你”、“在”“那里”五個(gè)詞?，F(xiàn)有的分詞算法可分為三大類(lèi)基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。本實(shí)施例中采用基于字符串匹配的分詞方法。該方法又叫做機(jī)械分詞方法，它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配，若在詞典中找到某個(gè)字符串，則匹配成功(識(shí)別出一個(gè)詞)。
詞頻統(tǒng)計(jì)單元303負(fù)責(zé)進(jìn)行詞頻統(tǒng)計(jì)，為建立復(fù)合詞索引奠定基礎(chǔ)。顧名思義，復(fù)合詞就是由兩個(gè)或兩個(gè)以上詞語(yǔ)組成的組合詞條(即二元以上的組合詞條)，是有一定意義或者有一定關(guān)系的詞語(yǔ)。例如“吃蘋(píng)果”就是一個(gè)復(fù)合詞，它其實(shí)是由“吃”和“蘋(píng)果”兩個(gè)詞組成，再例如“中國(guó)銀行”和“陶瓷沙”都是由兩個(gè)詞組成的復(fù)合詞。某個(gè)詞條的詞頻就是詞條在文檔出現(xiàn)的次數(shù)，例如一個(gè)詞語(yǔ)在某文檔中出現(xiàn)的次數(shù)為三十，此詞條對(duì)這個(gè)文檔的頻度即為三十。詞頻統(tǒng)計(jì)單元303首先對(duì)分詞單元302輸出的詞條進(jìn)行各種組合，如將“中國(guó)知識(shí)產(chǎn)權(quán)的國(guó)際戰(zhàn)略選擇與國(guó)內(nèi)戰(zhàn)略安排”分詞后的詞語(yǔ)組合為“中國(guó)知識(shí)”、“知識(shí)產(chǎn)權(quán)”、“中國(guó)知識(shí)產(chǎn)權(quán)”、“產(chǎn)權(quán)國(guó)際”、“國(guó)際戰(zhàn)略”、“戰(zhàn)略選擇”等等，然后將上述組合詞條在網(wǎng)頁(yè)原文中進(jìn)行詞頻統(tǒng)計(jì)，當(dāng)所有的組合詞都統(tǒng)計(jì)完之后按照頻次高低進(jìn)行排序，將出現(xiàn)頻次大于設(shè)定閾值的組合詞條作為復(fù)合詞輸出到索引建立單元304。這樣用概率統(tǒng)計(jì)出的復(fù)合詞非常接近實(shí)際，而且不需要人工干預(yù)，能夠達(dá)到很好的效果。
索引建立單元304負(fù)責(zé)對(duì)分詞單元302輸出的所有詞條、以及詞頻統(tǒng)計(jì)單元303輸出的復(fù)合詞建立索引，并將建立好的索引保存到索引數(shù)據(jù)庫(kù)400中。索引建立單元304還將詞頻統(tǒng)計(jì)單元303輸出的復(fù)合詞發(fā)送到索引數(shù)據(jù)庫(kù)400中，索引數(shù)據(jù)庫(kù)400將接收到的所有復(fù)合詞保存在復(fù)合詞表中(圖1中未示出)。
搜索模塊500負(fù)責(zé)在用戶輸入檢索詞搜索后，分解搜索請(qǐng)求，從索引數(shù)據(jù)庫(kù)400中找到符合該檢索詞的所有相關(guān)網(wǎng)頁(yè)，進(jìn)行計(jì)算、排序后返回給用戶。
搜索模塊500包括檢索詞分詞單元501、搜索單元502和結(jié)果處理單元503。
檢索詞分詞單元501根據(jù)上述復(fù)合詞表對(duì)檢索詞進(jìn)行分詞(這樣，就可以直接將檢索詞“中國(guó)人民銀行”分詞為“中國(guó)人民”和“銀行”兩個(gè)詞)，再發(fā)送到搜索單元502。搜索單元502負(fù)責(zé)分別對(duì)檢索詞分詞后的詞條為關(guān)鍵詞在索引數(shù)據(jù)庫(kù)400中進(jìn)行搜索，提取滿足條件的網(wǎng)頁(yè)，發(fā)送到結(jié)果處理單元503。
結(jié)果處理單元503將收到的網(wǎng)頁(yè)進(jìn)行求交集和求并集運(yùn)算得到一個(gè)結(jié)果頁(yè)面集合，然后計(jì)算網(wǎng)頁(yè)和關(guān)鍵詞的相關(guān)度，根據(jù)相關(guān)度的數(shù)值返回前K篇結(jié)果(K為自然數(shù)，放在一個(gè)頁(yè)面中)給用戶。如果用戶查看的第二頁(yè)或者第多少頁(yè)，再把排序結(jié)果中在第K+1到2*K的網(wǎng)頁(yè)組織返回給用戶。本發(fā)明的其它實(shí)施例中，可一次性將全部搜索結(jié)果返回給用戶。本發(fā)明的其它實(shí)施例中，用戶輸入的檢索詞中的復(fù)合詞所對(duì)應(yīng)的結(jié)果頁(yè)面排在最前面。
為了理解本發(fā)明搜索引擎的搜索系統(tǒng)10，還需要介紹的是，與建立索引同時(shí)進(jìn)行的還有“鏈接信息提取處理”，即把網(wǎng)頁(yè)鏈接信息(包括錨文本、鏈接本身等信息)保存在一個(gè)鏈接數(shù)據(jù)庫(kù)(圖1中未示出)中，為網(wǎng)頁(yè)評(píng)級(jí)模塊(圖1中未示出)的網(wǎng)頁(yè)評(píng)級(jí)提供依據(jù)。在用戶進(jìn)行搜索時(shí)，搜索模塊500要在索引數(shù)據(jù)庫(kù)400中進(jìn)行相關(guān)網(wǎng)頁(yè)的查找，同時(shí)網(wǎng)頁(yè)評(píng)級(jí)模塊把查詢請(qǐng)求和鏈接信息結(jié)合起來(lái)對(duì)搜索結(jié)果進(jìn)行相關(guān)度的評(píng)價(jià)，搜索模塊500再按照相關(guān)度進(jìn)行排序，并提取關(guān)鍵詞的內(nèi)容摘要，組織最后的頁(yè)面返回給用戶。
這樣，如果用戶輸入“中國(guó)人民銀行”進(jìn)行搜索，系統(tǒng)就可以將檢索詞拆分為“中國(guó)人民”和“銀行”，進(jìn)行兩次索引查詢，再進(jìn)行一次求交集運(yùn)算，一次求并集運(yùn)算即可向用戶返回搜索結(jié)果，相對(duì)現(xiàn)有技術(shù)來(lái)說(shuō)，減少了求交集和求并集的運(yùn)算次數(shù)，提高了搜索速度。
綜上所述，如圖2所示，本發(fā)明所述的搜索方法在建立或更新索引數(shù)據(jù)庫(kù)400時(shí)包括以下步驟步驟S11，讀取一個(gè)網(wǎng)頁(yè)，將正文轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式，過(guò)濾掉腳本標(biāo)示符、廣告信息等無(wú)關(guān)信息；步驟S12，去停用詞、虛詞后進(jìn)行分詞；
步驟S13，對(duì)分詞得到的詞條的各種組合進(jìn)行詞頻統(tǒng)計(jì)；步驟S14，輸出頻次大于設(shè)定閾值的組合詞條作為復(fù)合詞；步驟S15，對(duì)頻次大于設(shè)定閾值的復(fù)合詞以及分詞得到的所有詞條建立索引并保存。
如圖3所示，以檢索詞是“中國(guó)人民銀行”為例，一種搜索引擎的搜索方法在收到用戶的檢索關(guān)鍵詞之后包括以下步驟步驟S21，根據(jù)復(fù)合詞表對(duì)檢索詞進(jìn)行分詞，得到“中國(guó)人民”和“銀行”；步驟S22，在索引數(shù)據(jù)庫(kù)中對(duì)“中國(guó)人民”進(jìn)行索引查詢，得到結(jié)果集合R1；對(duì)“銀行”進(jìn)行索引查詢，得到結(jié)果集合R2；步驟S23，對(duì)集合R1和R2進(jìn)行求交集運(yùn)算，得到集合R3；步驟S24，對(duì)集合R1和R2進(jìn)行求并運(yùn)算，得到集合R4；步驟S25，對(duì)結(jié)果進(jìn)行排序后返回給用戶，將集合R3中的網(wǎng)頁(yè)排在最前面，其次是集合R4中的不在集合R3的網(wǎng)頁(yè)。
本發(fā)明方法的其它實(shí)施例中，可在搜索的時(shí)候同時(shí)對(duì)復(fù)合詞進(jìn)行拆分搜索，以達(dá)到結(jié)果全面完整地目的。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
權(quán)利要求
1.一種搜索方法，其特征在于，在建立或更新索引數(shù)據(jù)庫(kù)時(shí)，執(zhí)行以下步驟A1，統(tǒng)計(jì)輸入的網(wǎng)頁(yè)正文中有效詞條的各種組合的頻次；A2，對(duì)頻次大于設(shè)定閾值的復(fù)合詞建立索引。
2.根據(jù)權(quán)利要求1所述的搜索方法，其特征在于所述有效詞條是網(wǎng)頁(yè)正文中至少去掉停用詞后的詞條。
3.根據(jù)權(quán)利要求2所述的搜索方法，其特征在于，步驟A1中，所述統(tǒng)計(jì)詞條各種組合的頻次的方法包括以下步驟A11，讀取一個(gè)網(wǎng)頁(yè)正文，去停用詞后進(jìn)行分詞；A12，對(duì)分詞得到的詞條的各種組合進(jìn)行詞頻統(tǒng)計(jì)；A13，輸出頻次大于設(shè)定閾值的組合詞條，并保存到復(fù)合詞表中。
4.根據(jù)權(quán)利要求3所述的搜索方法，其特征在于步驟A11中，在分詞前首先將網(wǎng)頁(yè)正文轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式，然后至少進(jìn)行過(guò)濾腳本標(biāo)示符和廣告信息的操作。
5.根據(jù)權(quán)利要求4所述的搜索方法，其特征在于步驟A11中，對(duì)轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式的網(wǎng)頁(yè)正文去停用詞和虛詞后進(jìn)行分詞。
6.根據(jù)權(quán)利要求1或3所述的一種搜索方法，其特征在于所述復(fù)合詞為二元以上的組合詞條。
7.根據(jù)權(quán)利要求1所述的搜索方法，其特征在于，進(jìn)一步包括步驟B1，在接收到檢索詞后，根據(jù)復(fù)合詞表對(duì)輸入的檢索詞進(jìn)行分詞；所述復(fù)合詞表包括頻次大于設(shè)定閾值的所有復(fù)合詞。
8.一種搜索系統(tǒng)，包括順次相連的網(wǎng)頁(yè)抓取模塊、網(wǎng)頁(yè)數(shù)據(jù)庫(kù)、索引模塊、索引數(shù)據(jù)庫(kù)和搜索模塊；所述索引模塊包括文檔預(yù)處理單元、分詞單元和索引建立單元；其特征在于所述索引建立模塊還包括詞頻統(tǒng)計(jì)單元，用于對(duì)所述分詞單元輸出的詞條的各種組合進(jìn)行詞頻統(tǒng)計(jì)，并將頻次大于設(shè)定閾值的組合詞條輸出到索引建立單元，由索引建立單元對(duì)所述組合詞條建立索引。
9.根據(jù)權(quán)利要求8所述的搜索系統(tǒng)，其特征在于所述索引數(shù)據(jù)庫(kù)用于存儲(chǔ)所述索引建立單元建立的索引；所述索引數(shù)據(jù)庫(kù)中還存儲(chǔ)有復(fù)合詞表，所述復(fù)合詞表中存儲(chǔ)著所述詞頻統(tǒng)計(jì)單元輸出的復(fù)合詞。
10.根據(jù)權(quán)利要求9所述的搜索系統(tǒng)，其特征在于所述搜索模塊包括順次相連的檢索詞分詞單元、搜索單元和結(jié)果處理單元；所述檢索詞分詞單元用于根據(jù)所述復(fù)合詞表對(duì)輸入的檢索詞進(jìn)行分詞，并將分詞后詞條輸出到所述搜索單元；所述搜索單元用于將所述分詞后詞條作為關(guān)鍵詞在索引數(shù)據(jù)庫(kù)中進(jìn)行索引查詢，并將查詢結(jié)果發(fā)送到所述處理單元；所述處理單元用于對(duì)所述查詢結(jié)果進(jìn)行求并集、求交集，排序后發(fā)送到操作窗口進(jìn)行顯示。
全文摘要
本發(fā)明公開(kāi)了一種搜索方法，在建立或更新索引數(shù)據(jù)庫(kù)時(shí)，執(zhí)行以下步驟A1，統(tǒng)計(jì)輸入的網(wǎng)頁(yè)正文中有效詞條的各種組合的頻次；A2，對(duì)頻次大于設(shè)定閾值的復(fù)合詞建立索引。本發(fā)明還公開(kāi)了一種搜索系統(tǒng)。本發(fā)明利用統(tǒng)計(jì)學(xué)原理統(tǒng)計(jì)出網(wǎng)頁(yè)中出現(xiàn)頻度高的復(fù)合詞，對(duì)這些復(fù)合詞單獨(dú)建立索引，減小搜索時(shí)對(duì)搜索詞條的拆分粒度，從而減少搜索引擎的索引查詢次數(shù)和求交集、求并集運(yùn)算的次數(shù)，大大地提高搜索引擎的檢索速度，達(dá)到快速響應(yīng)用戶的目的，提高用戶體驗(yàn)。同時(shí)，由于通過(guò)概率統(tǒng)計(jì)有選擇的對(duì)多元詞條建立索引，提高了索引數(shù)據(jù)庫(kù)的利用率和系統(tǒng)的檢索準(zhǔn)確率。
文檔編號(hào)G06F17/30GK101079056SQ200710073220
公開(kāi)日2007年11月28日申請(qǐng)日期2007年2月6日優(yōu)先權(quán)日2007年2月6日
發(fā)明者楊海松, 劉致遠(yuǎn), 劉云峰申請(qǐng)人:騰訊科技(深圳)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊海松;劉致遠(yuǎn);劉云峰
技術(shù)所有人：騰訊科技(深圳)有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

搜索引擎和推薦系統(tǒng)相關(guān)技術(shù)

優(yōu)惠券搜索系統(tǒng)9yue相關(guān)技術(shù)

優(yōu)惠券搜索系統(tǒng)相關(guān)技術(shù)

站內(nèi)搜索系統(tǒng)相關(guān)技術(shù)

中華燈謎搜索系統(tǒng)相關(guān)技術(shù)

搜索系統(tǒng)相關(guān)技術(shù)

蜂鳥(niǎo)搜索營(yíng)銷(xiāo)系統(tǒng)相關(guān)技術(shù)

win7系統(tǒng)搜索功能失效相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種搜索方法和系統(tǒng)的制作方法