專(zhuān)利名稱:一種搜索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù),特別涉及一種搜索方法和系統(tǒng)。
背景技術(shù):
隨著因特網(wǎng)的迅猛發(fā)展,各種信息呈現(xiàn)爆炸式的增長(zhǎng),用戶要在信息海洋里查找信息,就象大海撈針一樣。每個(gè)上網(wǎng)用戶面臨信息過(guò)載的問(wèn)題,無(wú)法準(zhǔn)確找到所需要的信息。搜索引擎正是為了解決這個(gè)“迷航”問(wèn)題而出現(xiàn)的技術(shù)。搜索引擎提供的導(dǎo)航服務(wù)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù),成為和電子郵件并列的最重要的互聯(lián)網(wǎng)應(yīng)用。搜索引擎為用戶提供信息“檢索”服務(wù),它使用蜘蛛程序把因特網(wǎng)上的所有信息歸類(lèi)以幫助用戶在海量的互聯(lián)網(wǎng)信息中搜尋其所需要的信息。搜索引擎的原理主要包括三步1)從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè),2)建立索引數(shù)據(jù)庫(kù),3)在索引數(shù)據(jù)庫(kù)中搜索排序。
搜索引擎是當(dāng)前競(jìng)爭(zhēng)非常激烈的領(lǐng)域,其競(jìng)爭(zhēng)的重要點(diǎn)除了內(nèi)容的豐富以外,還有用戶體驗(yàn)。目前,搜索的速度已經(jīng)成為用戶體驗(yàn)好壞的決定性因素之一。
目前,搜索引擎處理用戶請(qǐng)求,需要對(duì)用戶的檢索詞進(jìn)行拆分(分詞),然后對(duì)拆分后的詞語(yǔ)分別索引查詢,得出每個(gè)詞語(yǔ)的搜索結(jié)果。例如,用戶搜索“北京體育館”時(shí),搜索引擎的動(dòng)作為①把用戶的搜索請(qǐng)求“北京體育館”拆分為“北京”和“體育館”兩個(gè)詞;②對(duì)“北京”進(jìn)行索引查詢,得到結(jié)果集合A;③對(duì)“體育館”進(jìn)行索引查詢,得到結(jié)果集合B;④對(duì)A和B進(jìn)行求交集運(yùn)算,得到AB的交集X;⑤對(duì)AB進(jìn)行求并運(yùn)算,得到AB的并集合Y;⑥向用戶輸出搜索結(jié)果。搜索結(jié)果的排序順序?yàn)榧蟈中的網(wǎng)頁(yè)排在最前面,其次是Y中的不在X的元素,最后是A和B不在X集合中存在的元素。這樣,當(dāng)檢索詞為“中國(guó)人民銀行”時(shí),首先拆分詞語(yǔ)為“中國(guó)”,“人民”,“銀行”,然后進(jìn)行三次索引查詢,如果采用兩兩求交,兩兩求并規(guī)則,要進(jìn)行三次求交集運(yùn)算、三次求并集運(yùn)算才能得到最終搜索結(jié)果。其缺點(diǎn)是對(duì)搜索詞條的拆分粒度小、搜索引擎的索引查詢次數(shù)和集合運(yùn)算次數(shù)多,系統(tǒng)查詢效率較低,搜索速度較低。
現(xiàn)有的搜索引擎在建立索引的過(guò)程中對(duì)無(wú)意義的組合也建立了索引,造成空間浪費(fèi)。如目前的二元索引就是不管詞語(yǔ)的邏輯關(guān)系,直接對(duì)每個(gè)二元組合建立索引,有“我看見(jiàn)”,“看見(jiàn)你”,“你在”,“在那里”等。又由于上述缺點(diǎn),不可能建立太多元的索引,最多建立到三元,因?yàn)榭臻g膨脹太厲害,導(dǎo)致索引量不夠。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種搜索方法和系統(tǒng),利用詞條相對(duì)頻度抽取復(fù)合詞單獨(dú)建立索引,減小搜索詞條的拆分粒度、減少集合運(yùn)算次數(shù)。
本發(fā)明的技術(shù)方案是一種搜索方法,在建立或更新索引數(shù)據(jù)庫(kù)時(shí),執(zhí)行以下步驟A1,統(tǒng)計(jì)輸入的網(wǎng)頁(yè)正文中有效詞條的各種組合的頻次;A2,對(duì)頻次大于設(shè)定閾值的復(fù)合詞建立索引。
具體的,所述有效詞條是網(wǎng)頁(yè)正文中至少去掉停用詞后的詞條。
作為優(yōu)選,步驟A1中,所述統(tǒng)計(jì)詞條各種組合的頻次的方法包括以下步驟A11,讀取一個(gè)網(wǎng)頁(yè)正文,去停用詞后進(jìn)行分詞;A12,對(duì)分詞得到的詞條的各種組合進(jìn)行詞頻統(tǒng)計(jì);A13,輸出頻次大于設(shè)定閾值的組合詞條,并保存到復(fù)合詞表中。
作為優(yōu)選,步驟A11中,在分詞前首先將網(wǎng)頁(yè)正文轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式,然后至少進(jìn)行過(guò)濾腳本標(biāo)示符和廣告信息的操作。
作為優(yōu)選,步驟A11中,對(duì)轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式的網(wǎng)頁(yè)正文去停用詞和虛詞后進(jìn)行分詞。
本發(fā)明中所述復(fù)合詞為二元以上的組合詞條。
本發(fā)明一種搜索方法進(jìn)一步包括步驟B1,在接收到檢索詞后,根據(jù)復(fù)合詞表對(duì)輸入的檢索詞進(jìn)行分詞;所述復(fù)合詞表包括頻次大于設(shè)定閾值的所有復(fù)合詞。
本發(fā)明還提供了一種搜索引擎的搜索系統(tǒng),包括順次相連的網(wǎng)頁(yè)抓取模塊、網(wǎng)頁(yè)數(shù)據(jù)庫(kù)、索引模塊、索引數(shù)據(jù)庫(kù)和搜索模塊;所述索引模塊包括文檔預(yù)處理單元、分詞單元和索引建立單元;所述索引建立模塊還包括詞頻統(tǒng)計(jì)單元,用于對(duì)所述分詞單元輸出的詞條的各種組合進(jìn)行詞頻統(tǒng)計(jì),并將頻次大于設(shè)定閾值的組合詞條輸出到索引建立單元,由索引建立單元對(duì)所述組合詞條建立索引。
進(jìn)一步的,所述索引數(shù)據(jù)庫(kù)用于存儲(chǔ)所述索引建立單元建立的索引;所述索引數(shù)據(jù)庫(kù)中還存儲(chǔ)有復(fù)合詞表,所述復(fù)合詞表中存儲(chǔ)著所述詞頻統(tǒng)計(jì)單元輸出的復(fù)合詞。
進(jìn)一步的,所述搜索模塊包括順次相連的檢索詞分詞單元、搜索單元和結(jié)果處理單元;所述檢索詞分詞單元用于根據(jù)所述復(fù)合詞表對(duì)輸入的檢索詞進(jìn)行分詞,并將分詞后詞條輸出到所述搜索單元;所述搜索單元用于將所述分詞后詞條作為關(guān)鍵詞在索引數(shù)據(jù)庫(kù)中進(jìn)行索引查詢,并將查詢結(jié)果發(fā)送到所述處理單元;所述處理單元用于對(duì)所述查詢結(jié)果進(jìn)行求并集、求交集,排序后發(fā)送到操作窗口進(jìn)行顯示。
本發(fā)明利用統(tǒng)計(jì)學(xué)原理統(tǒng)計(jì)出網(wǎng)頁(yè)中出現(xiàn)頻度高的復(fù)合詞,對(duì)這些復(fù)合詞單獨(dú)建立索引,減小搜索時(shí)對(duì)搜索詞條的拆分粒度,從而減少搜索引擎的索引查詢次數(shù)和求交集、求并集運(yùn)算的次數(shù),大大地提高搜索引擎的檢索速度,達(dá)到快速響應(yīng)用戶的目的,提高用戶體驗(yàn)。同時(shí),由于通過(guò)概率統(tǒng)計(jì)有選擇的對(duì)多元詞條建立索引,提高了索引數(shù)據(jù)庫(kù)的利用率和系統(tǒng)的檢索準(zhǔn)確率。
圖1是本發(fā)明搜索系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖。
圖2是本發(fā)明搜索方法在建立或更新索引數(shù)據(jù)庫(kù)時(shí)的流程圖。
圖3是本發(fā)明搜索方法在收到檢索請(qǐng)求后的流程圖。
具體實(shí)施例方式
下面根據(jù)附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步闡述。
如圖1所示,搜索系統(tǒng)10包括順次相連的網(wǎng)頁(yè)抓取模塊100、網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200、索引模塊300、索引數(shù)據(jù)庫(kù)400和搜索模塊500。
其中,網(wǎng)頁(yè)抓取模塊100負(fù)責(zé)自動(dòng)從互聯(lián)網(wǎng)提取信息,并將提取到的信息保存在網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200中。一般的做法是網(wǎng)頁(yè)抓取模塊100通過(guò)能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的網(wǎng)絡(luò)蜘蛛程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL(統(tǒng)一資源定位器)爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集到網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200中。搜索引擎的自動(dòng)信息搜集功能分兩種,一種是定期搜索,即每隔一段時(shí)間(比如28天),網(wǎng)頁(yè)抓取模塊100主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,“蜘蛛”程序會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200;另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,搜索引擎的網(wǎng)頁(yè)抓取模塊100會(huì)在一定時(shí)間內(nèi)(2天到數(shù)月不等)定期對(duì)應(yīng)網(wǎng)站派出“蜘蛛”程序,掃描網(wǎng)站并將有關(guān)信息存入網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200。
網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200負(fù)責(zé)存儲(chǔ)網(wǎng)頁(yè)抓取模塊100獲得的全部網(wǎng)頁(yè),以備用戶搜索使用。
索引模塊300負(fù)責(zé)對(duì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200中存儲(chǔ)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類(lèi)型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引,并將建立好的索引存儲(chǔ)到索引數(shù)據(jù)庫(kù)400中。本實(shí)施例中,索引模塊300包括文檔預(yù)處理單元301、分詞單元302、詞頻統(tǒng)計(jì)單元303和索引建立單元304。
文檔預(yù)處理單元301負(fù)責(zé)從網(wǎng)頁(yè)數(shù)據(jù)庫(kù)200中讀取一個(gè)網(wǎng)頁(yè),將輸入的網(wǎng)頁(yè)中不同的數(shù)據(jù)格式轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式,如將HTML頁(yè)面、電子郵件或者PDF文件轉(zhuǎn)換為文本文件,同時(shí)需要過(guò)濾掉一些腳本標(biāo)示符和一些無(wú)用的廣告信息,然后輸出到分詞單元302。
分詞單元302負(fù)責(zé)對(duì)轉(zhuǎn)換格式后的網(wǎng)頁(yè)內(nèi)容進(jìn)行分詞處理。為了提高系統(tǒng)效率,在分詞前首先要把停用詞和虛詞等去掉(當(dāng)然也可以在分詞后去停用詞和虛詞等),只留下有效詞條。本實(shí)施例中,分詞單元302負(fù)責(zé)按照詞典將轉(zhuǎn)換后網(wǎng)頁(yè)的正文和標(biāo)題切分成詞匯。如將“我看見(jiàn)了你在那里”去停用詞后進(jìn)行分詞,分為“我”、“看見(jiàn)”、“你”、“在”“那里”五個(gè)詞?,F(xiàn)有的分詞算法可分為三大類(lèi)基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。本實(shí)施例中采用基于字符串匹配的分詞方法。該方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。
詞頻統(tǒng)計(jì)單元303負(fù)責(zé)進(jìn)行詞頻統(tǒng)計(jì),為建立復(fù)合詞索引奠定基礎(chǔ)。顧名思義,復(fù)合詞就是由兩個(gè)或兩個(gè)以上詞語(yǔ)組成的組合詞條(即二元以上的組合詞條),是有一定意義或者有一定關(guān)系的詞語(yǔ)。例如“吃蘋(píng)果”就是一個(gè)復(fù)合詞,它其實(shí)是由“吃”和“蘋(píng)果”兩個(gè)詞組成,再例如“中國(guó)銀行”和“陶瓷沙”都是由兩個(gè)詞組成的復(fù)合詞。某個(gè)詞條的詞頻就是詞條在文檔出現(xiàn)的次數(shù),例如一個(gè)詞語(yǔ)在某文檔中出現(xiàn)的次數(shù)為三十,此詞條對(duì)這個(gè)文檔的頻度即為三十。詞頻統(tǒng)計(jì)單元303首先對(duì)分詞單元302輸出的詞條進(jìn)行各種組合,如將“中國(guó)知識(shí)產(chǎn)權(quán)的國(guó)際戰(zhàn)略選擇與國(guó)內(nèi)戰(zhàn)略安排”分詞后的詞語(yǔ)組合為“中國(guó)知識(shí)”、“知識(shí)產(chǎn)權(quán)”、“中國(guó)知識(shí)產(chǎn)權(quán)”、“產(chǎn)權(quán)國(guó)際”、“國(guó)際戰(zhàn)略”、“戰(zhàn)略選擇”等等,然后將上述組合詞條在網(wǎng)頁(yè)原文中進(jìn)行詞頻統(tǒng)計(jì),當(dāng)所有的組合詞都統(tǒng)計(jì)完之后按照頻次高低進(jìn)行排序,將出現(xiàn)頻次大于設(shè)定閾值的組合詞條作為復(fù)合詞輸出到索引建立單元304。這樣用概率統(tǒng)計(jì)出的復(fù)合詞非常接近實(shí)際,而且不需要人工干預(yù),能夠達(dá)到很好的效果。
索引建立單元304負(fù)責(zé)對(duì)分詞單元302輸出的所有詞條、以及詞頻統(tǒng)計(jì)單元303輸出的復(fù)合詞建立索引,并將建立好的索引保存到索引數(shù)據(jù)庫(kù)400中。索引建立單元304還將詞頻統(tǒng)計(jì)單元303輸出的復(fù)合詞發(fā)送到索引數(shù)據(jù)庫(kù)400中,索引數(shù)據(jù)庫(kù)400將接收到的所有復(fù)合詞保存在復(fù)合詞表中(圖1中未示出)。
搜索模塊500負(fù)責(zé)在用戶輸入檢索詞搜索后,分解搜索請(qǐng)求,從索引數(shù)據(jù)庫(kù)400中找到符合該檢索詞的所有相關(guān)網(wǎng)頁(yè),進(jìn)行計(jì)算、排序后返回給用戶。
搜索模塊500包括檢索詞分詞單元501、搜索單元502和結(jié)果處理單元503。
檢索詞分詞單元501根據(jù)上述復(fù)合詞表對(duì)檢索詞進(jìn)行分詞(這樣,就可以直接將檢索詞“中國(guó)人民銀行”分詞為“中國(guó)人民”和“銀行”兩個(gè)詞),再發(fā)送到搜索單元502。搜索單元502負(fù)責(zé)分別對(duì)檢索詞分詞后的詞條為關(guān)鍵詞在索引數(shù)據(jù)庫(kù)400中進(jìn)行搜索,提取滿足條件的網(wǎng)頁(yè),發(fā)送到結(jié)果處理單元503。
結(jié)果處理單元503將收到的網(wǎng)頁(yè)進(jìn)行求交集和求并集運(yùn)算得到一個(gè)結(jié)果頁(yè)面集合,然后計(jì)算網(wǎng)頁(yè)和關(guān)鍵詞的相關(guān)度,根據(jù)相關(guān)度的數(shù)值返回前K篇結(jié)果(K為自然數(shù),放在一個(gè)頁(yè)面中)給用戶。如果用戶查看的第二頁(yè)或者第多少頁(yè),再把排序結(jié)果中在第K+1到2*K的網(wǎng)頁(yè)組織返回給用戶。本發(fā)明的其它實(shí)施例中,可一次性將全部搜索結(jié)果返回給用戶。本發(fā)明的其它實(shí)施例中,用戶輸入的檢索詞中的復(fù)合詞所對(duì)應(yīng)的結(jié)果頁(yè)面排在最前面。
為了理解本發(fā)明搜索引擎的搜索系統(tǒng)10,還需要介紹的是,與建立索引同時(shí)進(jìn)行的還有“鏈接信息提取處理”,即把網(wǎng)頁(yè)鏈接信息(包括錨文本、鏈接本身等信息)保存在一個(gè)鏈接數(shù)據(jù)庫(kù)(圖1中未示出)中,為網(wǎng)頁(yè)評(píng)級(jí)模塊(圖1中未示出)的網(wǎng)頁(yè)評(píng)級(jí)提供依據(jù)。在用戶進(jìn)行搜索時(shí),搜索模塊500要在索引數(shù)據(jù)庫(kù)400中進(jìn)行相關(guān)網(wǎng)頁(yè)的查找,同時(shí)網(wǎng)頁(yè)評(píng)級(jí)模塊把查詢請(qǐng)求和鏈接信息結(jié)合起來(lái)對(duì)搜索結(jié)果進(jìn)行相關(guān)度的評(píng)價(jià),搜索模塊500再按照相關(guān)度進(jìn)行排序,并提取關(guān)鍵詞的內(nèi)容摘要,組織最后的頁(yè)面返回給用戶。
這樣,如果用戶輸入“中國(guó)人民銀行”進(jìn)行搜索,系統(tǒng)就可以將檢索詞拆分為“中國(guó)人民”和“銀行”,進(jìn)行兩次索引查詢,再進(jìn)行一次求交集運(yùn)算,一次求并集運(yùn)算即可向用戶返回搜索結(jié)果,相對(duì)現(xiàn)有技術(shù)來(lái)說(shuō),減少了求交集和求并集的運(yùn)算次數(shù),提高了搜索速度。
綜上所述,如圖2所示,本發(fā)明所述的搜索方法在建立或更新索引數(shù)據(jù)庫(kù)400時(shí)包括以下步驟步驟S11,讀取一個(gè)網(wǎng)頁(yè),將正文轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式,過(guò)濾掉腳本標(biāo)示符、廣告信息等無(wú)關(guān)信息;步驟S12,去停用詞、虛詞后進(jìn)行分詞;
步驟S13,對(duì)分詞得到的詞條的各種組合進(jìn)行詞頻統(tǒng)計(jì);步驟S14,輸出頻次大于設(shè)定閾值的組合詞條作為復(fù)合詞;步驟S15,對(duì)頻次大于設(shè)定閾值的復(fù)合詞以及分詞得到的所有詞條建立索引并保存。
如圖3所示,以檢索詞是“中國(guó)人民銀行”為例,一種搜索引擎的搜索方法在收到用戶的檢索關(guān)鍵詞之后包括以下步驟步驟S21,根據(jù)復(fù)合詞表對(duì)檢索詞進(jìn)行分詞,得到“中國(guó)人民”和“銀行”;步驟S22,在索引數(shù)據(jù)庫(kù)中對(duì)“中國(guó)人民”進(jìn)行索引查詢,得到結(jié)果集合R1;對(duì)“銀行”進(jìn)行索引查詢,得到結(jié)果集合R2;步驟S23,對(duì)集合R1和R2進(jìn)行求交集運(yùn)算,得到集合R3;步驟S24,對(duì)集合R1和R2進(jìn)行求并運(yùn)算,得到集合R4;步驟S25,對(duì)結(jié)果進(jìn)行排序后返回給用戶,將集合R3中的網(wǎng)頁(yè)排在最前面,其次是集合R4中的不在集合R3的網(wǎng)頁(yè)。
本發(fā)明方法的其它實(shí)施例中,可在搜索的時(shí)候同時(shí)對(duì)復(fù)合詞進(jìn)行拆分搜索,以達(dá)到結(jié)果全面完整地目的。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
權(quán)利要求
1.一種搜索方法,其特征在于,在建立或更新索引數(shù)據(jù)庫(kù)時(shí),執(zhí)行以下步驟A1,統(tǒng)計(jì)輸入的網(wǎng)頁(yè)正文中有效詞條的各種組合的頻次;A2,對(duì)頻次大于設(shè)定閾值的復(fù)合詞建立索引。
2.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于所述有效詞條是網(wǎng)頁(yè)正文中至少去掉停用詞后的詞條。
3.根據(jù)權(quán)利要求2所述的搜索方法,其特征在于,步驟A1中,所述統(tǒng)計(jì)詞條各種組合的頻次的方法包括以下步驟A11,讀取一個(gè)網(wǎng)頁(yè)正文,去停用詞后進(jìn)行分詞;A12,對(duì)分詞得到的詞條的各種組合進(jìn)行詞頻統(tǒng)計(jì);A13,輸出頻次大于設(shè)定閾值的組合詞條,并保存到復(fù)合詞表中。
4.根據(jù)權(quán)利要求3所述的搜索方法,其特征在于步驟A11中,在分詞前首先將網(wǎng)頁(yè)正文轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式,然后至少進(jìn)行過(guò)濾腳本標(biāo)示符和廣告信息的操作。
5.根據(jù)權(quán)利要求4所述的搜索方法,其特征在于步驟A11中,對(duì)轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)格式的網(wǎng)頁(yè)正文去停用詞和虛詞后進(jìn)行分詞。
6.根據(jù)權(quán)利要求1或3所述的一種搜索方法,其特征在于所述復(fù)合詞為二元以上的組合詞條。
7.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,進(jìn)一步包括步驟B1,在接收到檢索詞后,根據(jù)復(fù)合詞表對(duì)輸入的檢索詞進(jìn)行分詞;所述復(fù)合詞表包括頻次大于設(shè)定閾值的所有復(fù)合詞。
8.一種搜索系統(tǒng),包括順次相連的網(wǎng)頁(yè)抓取模塊、網(wǎng)頁(yè)數(shù)據(jù)庫(kù)、索引模塊、索引數(shù)據(jù)庫(kù)和搜索模塊;所述索引模塊包括文檔預(yù)處理單元、分詞單元和索引建立單元;其特征在于所述索引建立模塊還包括詞頻統(tǒng)計(jì)單元,用于對(duì)所述分詞單元輸出的詞條的各種組合進(jìn)行詞頻統(tǒng)計(jì),并將頻次大于設(shè)定閾值的組合詞條輸出到索引建立單元,由索引建立單元對(duì)所述組合詞條建立索引。
9.根據(jù)權(quán)利要求8所述的搜索系統(tǒng),其特征在于所述索引數(shù)據(jù)庫(kù)用于存儲(chǔ)所述索引建立單元建立的索引;所述索引數(shù)據(jù)庫(kù)中還存儲(chǔ)有復(fù)合詞表,所述復(fù)合詞表中存儲(chǔ)著所述詞頻統(tǒng)計(jì)單元輸出的復(fù)合詞。
10.根據(jù)權(quán)利要求9所述的搜索系統(tǒng),其特征在于所述搜索模塊包括順次相連的檢索詞分詞單元、搜索單元和結(jié)果處理單元;所述檢索詞分詞單元用于根據(jù)所述復(fù)合詞表對(duì)輸入的檢索詞進(jìn)行分詞,并將分詞后詞條輸出到所述搜索單元;所述搜索單元用于將所述分詞后詞條作為關(guān)鍵詞在索引數(shù)據(jù)庫(kù)中進(jìn)行索引查詢,并將查詢結(jié)果發(fā)送到所述處理單元;所述處理單元用于對(duì)所述查詢結(jié)果進(jìn)行求并集、求交集,排序后發(fā)送到操作窗口進(jìn)行顯示。
全文摘要
本發(fā)明公開(kāi)了一種搜索方法,在建立或更新索引數(shù)據(jù)庫(kù)時(shí),執(zhí)行以下步驟A1,統(tǒng)計(jì)輸入的網(wǎng)頁(yè)正文中有效詞條的各種組合的頻次;A2,對(duì)頻次大于設(shè)定閾值的復(fù)合詞建立索引。本發(fā)明還公開(kāi)了一種搜索系統(tǒng)。本發(fā)明利用統(tǒng)計(jì)學(xué)原理統(tǒng)計(jì)出網(wǎng)頁(yè)中出現(xiàn)頻度高的復(fù)合詞,對(duì)這些復(fù)合詞單獨(dú)建立索引,減小搜索時(shí)對(duì)搜索詞條的拆分粒度,從而減少搜索引擎的索引查詢次數(shù)和求交集、求并集運(yùn)算的次數(shù),大大地提高搜索引擎的檢索速度,達(dá)到快速響應(yīng)用戶的目的,提高用戶體驗(yàn)。同時(shí),由于通過(guò)概率統(tǒng)計(jì)有選擇的對(duì)多元詞條建立索引,提高了索引數(shù)據(jù)庫(kù)的利用率和系統(tǒng)的檢索準(zhǔn)確率。
文檔編號(hào)G06F17/30GK101079056SQ200710073220
公開(kāi)日2007年11月28日 申請(qǐng)日期2007年2月6日 優(yōu)先權(quán)日2007年2月6日
發(fā)明者楊海松, 劉致遠(yuǎn), 劉云峰 申請(qǐng)人:騰訊科技(深圳)有限公司