專利名稱:一種利用語(yǔ)義分析的垂直搜索引擎系統(tǒng)與方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎系統(tǒng),更具體地說(shuō),涉及一種語(yǔ)義分析技術(shù),以及利用該語(yǔ)義分析技術(shù)實(shí)現(xiàn)的垂直搜索引擎系統(tǒng)與方法。
背景技術(shù):
搜索引擎已經(jīng)成為人們獲取信息的重要手段,它現(xiàn)在已經(jīng)取代門(mén)戶網(wǎng)站,成為人們上網(wǎng)的首選入口。目前搜索引擎所采用的技術(shù),基本是以全文檢索為主的。其一般原理就是利用倒排文件的技術(shù),將待搜索的文字文本建立索引,然后利用關(guān)鍵詞匹配的檢索技術(shù),從索引庫(kù)中,把包含相關(guān)關(guān)鍵詞的內(nèi)容返回給用戶。關(guān)鍵詞檢索技術(shù)一般利用詞頻等統(tǒng)計(jì)信息計(jì)算索引庫(kù)中的文檔和關(guān)鍵詞的相關(guān)度,然后按照相關(guān)度排序的方式給出包含這些關(guān)鍵詞的文檔。這種技術(shù)把關(guān)鍵詞當(dāng)做一個(gè)字符串進(jìn)行統(tǒng)計(jì)處理,基本上沒(méi)有考慮關(guān)鍵詞本身的語(yǔ)義和關(guān)鍵詞所在的語(yǔ)言環(huán)境。隨著搜索引擎的普及,人們對(duì)搜索引擎的期望也越來(lái)越高,把自然語(yǔ)言處理的技術(shù),特別是語(yǔ)義處理技術(shù)融合到搜索引擎中,成為搜索引擎的發(fā)展趨勢(shì)。也有很多企業(yè)在做各種積極的嘗試。美國(guó)powerset搜索引擎,在引擎中增加了語(yǔ)法分析,考慮了主謂賓的因素,能區(qū)分“A打敗B”和“B打敗A”是兩種不同的請(qǐng)求。Powerset只針對(duì)wikipedia進(jìn)行了搜索,沒(méi)有提供互聯(lián)網(wǎng)全網(wǎng)搜索。Powerset已被微軟公司收購(gòu)。美國(guó)的hakia搜索引擎, 利用施樂(lè)公司的自然語(yǔ)言處理技術(shù),能對(duì)同義、泛化等現(xiàn)象進(jìn)行處理。Congnition搜索引擎能搜索wiki、法律、健康等內(nèi)容,它在搜索時(shí)能區(qū)分每個(gè)詞不同的詞義,可以根據(jù)詞義選擇搜索結(jié)果。Silobreaker在關(guān)系搜索上做了一些探索,surfcanon在消除主流搜索引擎(比如google)的搜索結(jié)果上做了一些嘗試,能對(duì)搜索結(jié)果的相關(guān)性進(jìn)行調(diào)整。Swotti在產(chǎn)品評(píng)價(jià)上,能對(duì)評(píng)價(jià)進(jìn)行分級(jí),并分析出積極消極因素。Jodange在觀點(diǎn)提取方面做了一些工作,能提取在特定議題上擁有影響力的人物,監(jiān)測(cè)他們的觀點(diǎn)如何隨時(shí)間的推移而轉(zhuǎn)變,以及他們?nèi)绾瓮苿?dòng)媒體及公眾的情緒變化。另外,W3C也在推動(dòng)語(yǔ)義網(wǎng)的研究,希望能對(duì)互聯(lián)網(wǎng)的內(nèi)容加上語(yǔ)義標(biāo)簽,但總體來(lái)說(shuō),語(yǔ)義網(wǎng)還處在研究階段??梢钥闯觯壳暗难芯炕具€處在詞語(yǔ)層面和語(yǔ)法層面(powerset、hakia、 congnition等),或者針對(duì)某一方面的語(yǔ)義(swotti、jodange等),還沒(méi)有考慮句子,甚至更大范圍的語(yǔ)義語(yǔ)境對(duì)搜索的影響。如專利號(hào)98101921. 8模擬大腦語(yǔ)言感知過(guò)程的自然語(yǔ)言句類分析方法中的句類分析方法
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種利用語(yǔ)義分析的垂直搜索引擎系統(tǒng)與方法,以解決針對(duì)現(xiàn)有搜索引擎技術(shù)還處在詞語(yǔ)層面和語(yǔ)法層面,或者針對(duì)某一方面的語(yǔ)義,還沒(méi)有考慮句子,甚至更大范圍的語(yǔ)義語(yǔ)境對(duì)搜索的影響的缺陷。本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是采用以句為單位的語(yǔ)義分析技術(shù),
5提取文本中每個(gè)句子所表示的語(yǔ)境屬性,并對(duì)語(yǔ)境屬性進(jìn)行切分標(biāo)注;在索引時(shí),為每種類型的語(yǔ)境屬性單獨(dú)建立索引;在檢索時(shí),可以對(duì)不同語(yǔ)境屬性進(jìn)行獨(dú)立檢索,也可以進(jìn)行組合檢索。本發(fā)明所述的系統(tǒng),包括負(fù)責(zé)對(duì)文本進(jìn)行分析,提取文本中的語(yǔ)境屬性,形成帶語(yǔ)境屬性的標(biāo)注文本的文本語(yǔ)義分析模塊;負(fù)責(zé)調(diào)用文本語(yǔ)義分析模塊,并根據(jù)分析結(jié)果, 為待索引文本,在索引庫(kù)中建立索引的索引系統(tǒng)模塊;負(fù)責(zé)接收用戶的搜索請(qǐng)求,對(duì)請(qǐng)求進(jìn)行解析,從索引庫(kù)中檢索到相應(yīng)的結(jié)果,對(duì)結(jié)果進(jìn)行合并和相關(guān)度計(jì)算,并返回給用戶的檢索系統(tǒng)模塊;文本語(yǔ)義分析模塊包含一個(gè)在管理員配置垂直搜索引擎時(shí),根據(jù)所屬的行業(yè)和領(lǐng)域的特點(diǎn),所定義的文本語(yǔ)境屬性的分類標(biāo)準(zhǔn)的本體定義模塊、一個(gè)根據(jù)本體定義模塊,對(duì)待索引文檔進(jìn)行分析,提取文檔中每個(gè)句子的語(yǔ)境屬性模塊,并把語(yǔ)境屬性標(biāo)注到原始文檔中,形成帶語(yǔ)境屬性的標(biāo)注文本。所述的文本語(yǔ)義分析模塊,以句子為單位,對(duì)文本中的每個(gè)句子進(jìn)行語(yǔ)境屬性提??;提取的依據(jù)是以xml形式表示,定義了本體所屬的領(lǐng)域或行業(yè)、描述、定義者和定義時(shí)間,同時(shí)定義了多組語(yǔ)境屬性kmProp ;提取過(guò)程中,綜合了三方面的因素特征詞出現(xiàn)的次數(shù)、特征詞的概念屬性(動(dòng)詞、抽象概念、具體概念)加權(quán),以及特征詞在句子中的語(yǔ)義地位加權(quán);在所述的多組語(yǔ)境屬性kmProp中,每個(gè)語(yǔ)境屬性<SemProp>中有<name>表示屬性名稱,<tag>表示標(biāo)注在文本中的標(biāo)簽,還有〈Character〉表示該屬性的特征詞,特征詞可以有多個(gè),之間用逗號(hào)隔開(kāi)。所述文本語(yǔ)義分析模塊包括以下步驟步驟21中,把文本以句號(hào)為單位斷開(kāi),對(duì)每個(gè)句子進(jìn)行處理;步驟22中,判斷當(dāng)前句子是否已經(jīng)到文本末尾;如果是,則轉(zhuǎn)步驟四;否則轉(zhuǎn)步驟 23 ;步驟23中,調(diào)用句子語(yǔ)境屬性提取模塊(具體流程參見(jiàn)下文),提取句子的語(yǔ)境屬性 SemPropN ;步驟M中,判斷當(dāng)前句子提取的屬性 mPr0pN是否是該文本的第一個(gè)屬性;如果是,則轉(zhuǎn)步驟25 ;否則轉(zhuǎn)步驟沈;步驟25中,在文本的起始處設(shè)置屬性開(kāi)始標(biāo)志<kmPropN> ;轉(zhuǎn)步驟21進(jìn)行下一句處理;步驟沈中,判斷當(dāng)前提取的屬性^mPropN和該文本的上一個(gè)屬性kmPropN-l是否一樣;如果是,則轉(zhuǎn)步驟21進(jìn)行下一句處理;否則轉(zhuǎn)步驟27 ;步驟27中,在當(dāng)前句子之前,設(shè)置上一個(gè)屬性的結(jié)束標(biāo)志〈AemPropN-D ;步驟28中,在當(dāng)前句子之前,設(shè)置當(dāng)前屬性的開(kāi)始標(biāo)志〈SemPropN〉;轉(zhuǎn)步驟21進(jìn)行下一句處理;步驟四中,在文本末尾處設(shè)置最后一個(gè)屬性的結(jié)束標(biāo)志〈/SemPropN〉;步驟210中,輸出帶屬性標(biāo)志的標(biāo)注文本。所述文本語(yǔ)義分析模塊中的語(yǔ)境屬性模塊包括以下步驟步驟32中,對(duì)句子進(jìn)行分詞處理;步驟33中,分析句子的語(yǔ)義結(jié)構(gòu)(使用專利號(hào)為98101921. 8,模擬大腦語(yǔ)言感知過(guò)程的自然語(yǔ)言句類分析方法中的句類分析方法,分析句子的語(yǔ)義結(jié)構(gòu));步驟34中,根據(jù)本體定義14,提取句子中所有的屬性特征詞;步驟35中,對(duì)每個(gè)特征詞word,取出它所屬的屬性kmPropi,該屬性的權(quán)值為 weight (SemPropi) = 1 ;步驟36中,判斷特征詞word的詞性;如果是動(dòng)詞,則轉(zhuǎn)步驟37 ;如果是抽象概念, 則轉(zhuǎn)步驟38 ;如果是具體概念,則轉(zhuǎn)步驟39 ;步驟37中,特征詞word的詞性是動(dòng)詞,則weight (SemPropi) +5 ;步驟38中,特征詞word的詞性是抽象概念(抽象概念的定義是其所指的對(duì)象不具有物理屬性的概念,可參見(jiàn)文獻(xiàn)《HNC(概念層次網(wǎng)絡(luò))理論導(dǎo)論》苗傳江著,一般的,比如外交、差距等詞語(yǔ)都是抽象概念),則weight (SemPropi) +2 ;步驟39中,特征詞word的詞性是具體概念(具體概念的定義是其所指的對(duì)象具有物理屬性的概念,可參見(jiàn)文獻(xiàn)《HNC(概念層次網(wǎng)絡(luò))理論導(dǎo)論》苗傳江著,一般的,比如手機(jī)、自行車等詞語(yǔ)都是具體概念),則weight (SemPropi) +1 ;步驟310中,判斷特征詞word在句子語(yǔ)義結(jié)構(gòu)(該語(yǔ)義結(jié)構(gòu)是經(jīng)過(guò)步驟33得到的)中的位置,如果它是句子的核心(句子核心的判斷可參見(jiàn)專利98101921. 8),則轉(zhuǎn)步驟 312 ;如果它是語(yǔ)義塊(語(yǔ)義塊的定義可參見(jiàn)專利98101921. 8)的核心,則轉(zhuǎn)步驟311 ;否則轉(zhuǎn) 313 ;步驟311 中,給屬性 SemPropi 的權(quán)值乘以 2, weight (SemPropi) = weight (SemPropi)*2 ;步驟312 中,給屬性 SemPropi 的權(quán)值乘以 3,weight (SemPropi) = weight (SemPropi) *3 ;步驟313 中,給屬性 SemPropi 的權(quán)值乘以 l,weight (SemPropi) = weight (SemPropi)*1 ;步驟314中,對(duì)句子中提取的所有的屬性kmPropi按權(quán)值排序,取出權(quán)值最大的一個(gè) SemPropMax ;步驟315中,輸出kmPropMax為句子的語(yǔ)境屬性。所述索引系統(tǒng)模塊是對(duì)每個(gè)文檔的標(biāo)注結(jié)果,提取其語(yǔ)境屬性,為每個(gè)語(yǔ)境屬性在索引庫(kù)中單獨(dú)建立索引,索引庫(kù)中的每個(gè)索引,都是以按字詞混排的倒排文件形式存儲(chǔ)。所述的索引模塊,索引過(guò)程包括以下步驟步驟41中,判斷是否已到文本末尾;如果是,則結(jié)束;否則轉(zhuǎn)步驟42 ;步驟42中,提取下一個(gè)屬性開(kāi)始標(biāo)志<kmPropN> ;步驟43中,提取該屬性的結(jié)束標(biāo)志</^emPropN> ;步驟44中,對(duì)開(kāi)始標(biāo)志和結(jié)束標(biāo)志之間的內(nèi)容wordlist,進(jìn)行分詞;步驟45中,判斷當(dāng)前屬性^mPropN是否在索引庫(kù)中已存在;如果是,則轉(zhuǎn)步驟 47 ;否則轉(zhuǎn)步驟46 ;步驟46中,在索引庫(kù)17中增加一個(gè)子庫(kù),其名為^mPropN ;轉(zhuǎn)步驟47 ;步驟47中,把wordlist的分詞結(jié)果,如果是詞,則把詞索引加入到索引子庫(kù) SemPropN中;如果是字,則把字索引加入到索引子庫(kù)kmPropN中。所述檢索系統(tǒng)模塊包括搜索請(qǐng)求分析、對(duì)索引庫(kù)的檢索,以及檢索結(jié)果生成三個(gè)子模塊;搜索請(qǐng)求分析模塊解析用戶的請(qǐng)求,給出每個(gè)語(yǔ)境屬性的請(qǐng)求串和語(yǔ)境屬性之間的邏輯關(guān)系(與、或、非等);搜索請(qǐng)求分析模塊在搜索請(qǐng)求串中,語(yǔ)境屬性有幾種表示方式可以在請(qǐng)求串中用語(yǔ)境屬性”或者“語(yǔ)境屬性”來(lái)表示;可以在搜索頁(yè)面上,采用勾選的方式選擇(類似于google搜索引擎的高級(jí)檢索);所述的搜索請(qǐng)求分析模塊把請(qǐng)求串解析為多個(gè)子請(qǐng)求串Qi以及Qi之間的邏輯關(guān)系,其中可以用“ 0 ”來(lái)表示層次關(guān)系;所述子請(qǐng)求串Qi用以下方式表示,其中Qi表示解析出的一個(gè)子請(qǐng)求串,wordlist表示Qi這個(gè)子請(qǐng)求串所包含的檢索詞,SemPropi表示Qi子請(qǐng)求串所對(duì)應(yīng)的語(yǔ)境屬性,Ql =WordLiStiSemProplQ2 =WordListiSemProp2Qn WordLi StiSemPropN所述對(duì)索引庫(kù)的檢索模塊包括以下步驟步驟M中,對(duì)每個(gè)Qi進(jìn)行檢索;步驟55中,選擇Qi對(duì)應(yīng)的語(yǔ)境屬性kmPropi所在的子索引庫(kù)SemPropi_index ;步驟56中,在子索引中,對(duì)Qi的wordlist中的每個(gè)詞語(yǔ)word 進(jìn)行檢索;步驟57中,對(duì)每個(gè)word檢索返回的結(jié)果,進(jìn)行word和文檔之間的相關(guān)度計(jì)算,并排序;步驟58中,對(duì)wordlist中的所有詞語(yǔ)word的檢索結(jié)果集,進(jìn)行與操作,形成子請(qǐng)求串Qi的結(jié)果集;檢索結(jié)果生成模塊包括以下步驟步驟59中,利用子請(qǐng)求串Qi之間的邏輯關(guān)系53,對(duì)所有Qi的結(jié)果集進(jìn)行邏輯運(yùn)算;步驟510中,對(duì)結(jié)果集進(jìn)行相關(guān)度調(diào)整;并輸出結(jié)果集給用戶12。本發(fā)明的優(yōu)點(diǎn)在于,利用語(yǔ)境屬性來(lái)表示詞語(yǔ)所在的語(yǔ)言環(huán)境,語(yǔ)境屬性綜合了詞語(yǔ)的出現(xiàn)次數(shù)、詞語(yǔ)的概念屬性和詞語(yǔ)在句子中的語(yǔ)義地位,這樣在檢索時(shí),可以增加語(yǔ)言環(huán)境的限定,使得檢索結(jié)果的相關(guān)度更好。本發(fā)明特別適合于企業(yè)搜索、垂直搜索等與領(lǐng)域相關(guān)的搜索引擎系統(tǒng),也適合于通用搜索引擎對(duì)大量“暗網(wǎng)”數(shù)據(jù)的處理。
圖1是本發(fā)明的語(yǔ)義搜索引擎系統(tǒng)示意圖;圖2是本發(fā)明的文本語(yǔ)義分析流程圖;圖3是本發(fā)明的句子語(yǔ)境屬性提取流程圖;圖4是本發(fā)明的索引流程圖;圖5是本發(fā)明的檢索流程圖。
具體實(shí)施例方式下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。1.系統(tǒng)主要操作本發(fā)明所述的語(yǔ)義搜索引擎系統(tǒng)示意圖如附圖1所示。系統(tǒng)主要有三個(gè)操作過(guò)程文本語(yǔ)義分析操作、索引操作和搜索操作。索引操作會(huì)調(diào)用語(yǔ)義分析操作,他們都是在后臺(tái),由管理員完成的,對(duì)普通用戶是不可見(jiàn)的;搜索操作負(fù)責(zé)接收用戶的搜索請(qǐng)求,從索引庫(kù)中,檢索到相應(yīng)的內(nèi)容,并返回給用戶。文本語(yǔ)義分析的依據(jù)是本體定義,因此在分析之前,管理員必須先給出本體定義。對(duì)索引操作,本發(fā)明的重點(diǎn)在于語(yǔ)境屬性對(duì)索引的影響,至于索引庫(kù)的結(jié)構(gòu)和具體的存儲(chǔ)方式,和一般搜索引擎方法類似,不做特殊說(shuō)明。對(duì)檢索操作,本發(fā)明的重點(diǎn)在于檢索過(guò)程如何增加語(yǔ)境屬性的影響,至于如何從索引庫(kù)中檢索、相關(guān)度的具體計(jì)算方式等,和一般搜索引擎方法類似,不做特殊說(shuō)明。在本發(fā)明所述的系統(tǒng)中,所述的待索引文檔11,主要指文字文本,包括網(wǎng)頁(yè)(html 或xml格式)和純文本。在本發(fā)明所述的系統(tǒng)中,所述的用戶12,是指通過(guò)網(wǎng)頁(yè)上的搜索框,提交搜索請(qǐng)求,獲取搜索結(jié)果的人。在本發(fā)明所述的系統(tǒng)中,所述的本體定義14,是管理員配置垂直搜索引擎時(shí),根據(jù)所屬的行業(yè)和領(lǐng)域的特點(diǎn),所定義的文本語(yǔ)境屬性的分類標(biāo)準(zhǔn)。在本發(fā)明所述的系統(tǒng)中,所述的文本語(yǔ)義分析13,是根據(jù)本體定義14,對(duì)文本進(jìn)行分析,提取文本中每個(gè)句子的語(yǔ)境屬性,并把語(yǔ)境屬性標(biāo)注到原始文本中,形成帶語(yǔ)境屬性的標(biāo)注文本15。在本發(fā)明所述的系統(tǒng)中,所述的索引過(guò)程16,是對(duì)每個(gè)文檔的標(biāo)注結(jié)果15,提取其語(yǔ)境屬性,為每個(gè)語(yǔ)境屬性在索引庫(kù)17中單獨(dú)建立索引。索引庫(kù)17中的每個(gè)索引,都是以按字詞混排的倒排文件形式存儲(chǔ)。在本發(fā)明所述的系統(tǒng)中,所述的檢索過(guò)程,是指接收到用戶12的請(qǐng)求,搜索請(qǐng)求分析模塊19對(duì)請(qǐng)求進(jìn)行解析,檢索模塊18負(fù)責(zé)從索引庫(kù)17中檢索到相應(yīng)的結(jié)果,檢索結(jié)果生成模塊110對(duì)18返回的結(jié)果進(jìn)行合并和相關(guān)度計(jì)算,并返回給用戶12。所述的本體定義14,是一個(gè)以xml形式表示的映射文件,該映射文件格式如下<Sem0nto><domain> </domain><desc> </desc><author></author><time> </time><SemProp><name> </name><tag> </tag><Character>wordl, word2,…,wordn</Character)</SemProp></Sem0nto>所述的映射文件中,以<Sem0nto>開(kāi)始,以</^em0nto>結(jié)束?!磀omain〉表示該本
體所屬的領(lǐng)域或行業(yè),<desc>是對(duì)該本體文件的一些描述,〈author〉是該本體的定義者, <time>是該本體定義的時(shí)間。映射文件中可以有多組<SemPropX/^emProp>,來(lái)定義多組語(yǔ)境屬性。每個(gè)語(yǔ)境屬性〈SemProp〉中有〈name〉表示屬性名稱,<tag>表示標(biāo)注在文本中的標(biāo)簽,還有〈Character〉表示該屬性的特征詞,特征詞可以有多個(gè),之間用逗號(hào)隔開(kāi)。
每個(gè)語(yǔ)境屬性<SemProp>的<tag>會(huì)出現(xiàn)在標(biāo)注結(jié)果15中。每個(gè)<SemProp>在索引庫(kù)17中對(duì)應(yīng)一個(gè)索引。所述的文本語(yǔ)義分析13,其輸入是待索引文本11,其輸出是語(yǔ)境屬性標(biāo)注結(jié)果 15。該模塊利用語(yǔ)義分析技術(shù),對(duì)文本中的每個(gè)句子進(jìn)行語(yǔ)境屬性提取,如果相鄰兩個(gè)句子的語(yǔ)境屬性相同,則合并他們成為一個(gè)語(yǔ)境屬性標(biāo)注。對(duì)每個(gè)句子處理時(shí),如果本體定義14 中語(yǔ)境屬性的特征詞出現(xiàn),則激活語(yǔ)境屬性提取。提取過(guò)程中,綜合了三方面的因素特征詞出現(xiàn)的次數(shù)、特征詞的概念屬性(動(dòng)詞、抽象概念、具體概念)加權(quán),以及特征詞在句子中的語(yǔ)義地位加權(quán)。具體過(guò)程可參見(jiàn)下面的實(shí)施例。所述的索引模塊16,其輸入是標(biāo)注結(jié)果15,其輸出是索引庫(kù)17。該模塊負(fù)責(zé)從標(biāo)注結(jié)果中獲取語(yǔ)境屬性,對(duì)每個(gè)語(yǔ)境屬性建立不同的子索引。索引過(guò)程需要對(duì)每個(gè)語(yǔ)境屬性之間的文本進(jìn)行分詞,對(duì)其中的詞語(yǔ)建立詞索引,對(duì)其中不能構(gòu)成詞的單字建立字索引。所述的檢索模塊,其輸入是用戶12輸入的搜索請(qǐng)求,其輸出是返回給用戶12的搜索結(jié)果。檢索模塊包括搜索請(qǐng)求分析19,對(duì)索引庫(kù)的檢索18,以及檢索結(jié)果生成110三個(gè)子模塊。搜索請(qǐng)求分析19負(fù)責(zé)解析用戶的請(qǐng)求,給出每個(gè)語(yǔ)境屬性的請(qǐng)求串和語(yǔ)境屬性之間的邏輯關(guān)系(與、或、非等)。索引庫(kù)的檢索18負(fù)責(zé)對(duì)每個(gè)語(yǔ)境屬性的請(qǐng)求串進(jìn)行檢索, 它只給出相應(yīng)子索引的結(jié)果集。檢索結(jié)果生成110負(fù)責(zé)對(duì)18返回的結(jié)果集,按照語(yǔ)境屬性之間的邏輯關(guān)系,進(jìn)行集合運(yùn)算,并計(jì)算相關(guān)度。下面結(jié)合具體實(shí)施例,說(shuō)明文本語(yǔ)義分析操作、句子語(yǔ)境屬性提取操作、索引操作流程和檢索操作流程。2.文本語(yǔ)義分析操作文本語(yǔ)義分析流程圖如附圖2所示。文本語(yǔ)義分析的輸入是待索引文本11和本體定義14。假設(shè)一個(gè)本體定義如下<Sem0nto><domain>IT</domain><desc>IT電子產(chǎn)品說(shuō)明書(shū)的本體定義</desc><author> ^H </author><time>2009-12-3</time><SemProp><name> 構(gòu)成 </name><tag>const</tag><Character),1 </Character></SemProp><SemProp><name> 功能 </name><tag>func</tag><Character)</Character></SemProp><SemProp>
<name> 計(jì)算機(jī) </name> <tag>category</tag 〈Character〉顯示器,鍵盤(pán),硬盤(pán),內(nèi)存〈/Character〉 </SemProp></Sem0nto>例子計(jì)算機(jī)由顯示器、硬盤(pán)、內(nèi)存、CPU等構(gòu)成。顯示器顯示內(nèi)容給用戶。硬盤(pán)的功能是存儲(chǔ)數(shù)據(jù)。文本語(yǔ)義分析步驟如下步驟21中,把文本以句號(hào)為單位斷開(kāi),對(duì)每個(gè)句子進(jìn)行處理;步驟22中,判斷當(dāng)前句子是否已經(jīng)到文本末尾;如果是,則轉(zhuǎn)步驟四;否則轉(zhuǎn)步驟 23 ;步驟23中,調(diào)用句子語(yǔ)境屬性提取模塊(具體流程見(jiàn)“句子語(yǔ)境屬性提取操作”), 提取句子的語(yǔ)境屬性^mPropN ;步驟M中,判斷當(dāng)前句子提取的屬性 mPr0pN是否是該文本的第一個(gè)屬性;如果是,則轉(zhuǎn)步驟25 ;否則轉(zhuǎn)步驟沈;步驟25中,在文本的起始處設(shè)置屬性開(kāi)始標(biāo)志〈SemPropN〉;轉(zhuǎn)步驟21進(jìn)行下一句處理;步驟沈中,判斷當(dāng)前提取的屬性^mPropN和該文本的上一個(gè)屬性kmPropN-l是否一樣;如果是,則轉(zhuǎn)步驟21進(jìn)行下一句處理;否則轉(zhuǎn)步驟27 ;步驟27中,在當(dāng)前句子之前,設(shè)置上一個(gè)屬性的結(jié)束標(biāo)志〈AemPropN-D ;步驟28中,在當(dāng)前句子之前,設(shè)置當(dāng)前屬性的開(kāi)始標(biāo)志〈SemPropN〉;轉(zhuǎn)步驟21進(jìn)行下一句處理;步驟四中,在文本末尾處設(shè)置最后一個(gè)屬性的結(jié)束標(biāo)志〈/SemPropN〉;步驟210中,輸出帶屬性標(biāo)志的標(biāo)注文本;經(jīng)過(guò)上述步驟,對(duì)文本中的每個(gè)句子都做了語(yǔ)境屬性的標(biāo)注,給出了每個(gè)句子所表示的語(yǔ)言環(huán)境。這樣,相當(dāng)于給文本中的每個(gè)詞語(yǔ)都賦予了語(yǔ)境屬性。對(duì)下面的文本的標(biāo)注結(jié)果如下所示〈const〉計(jì)算機(jī)由顯示器、硬盤(pán)、內(nèi)存、CPU等構(gòu)成。顯示器用于顯示內(nèi)容給用戶。 </const><func>硬盤(pán)的功能是存儲(chǔ)數(shù)據(jù)。</func>3.句子語(yǔ)境屬性提取操作句子語(yǔ)境屬性提取流程圖如附圖3所示。句子語(yǔ)境屬性提取模塊的輸入是一個(gè)句子31,和本體定義14。例子S1計(jì)算機(jī)由顯示器、硬盤(pán)、內(nèi)存、CPU等構(gòu)成。S2顯示器顯示內(nèi)容給用戶。S3 硬盤(pán)的功能是存儲(chǔ)數(shù)據(jù)。句子語(yǔ)境屬性提取步驟如下步驟32中,對(duì)句子進(jìn)行分詞處理;步驟33中,調(diào)用句類分析方法,分析句子的語(yǔ)義結(jié)構(gòu);例子Sl {計(jì)算機(jī)} :B+{由} + {顯示器、硬盤(pán)、內(nèi)存、CPU等} :B+{構(gòu)成} =E0S2{顯示器} :B+{顯示} :E+{內(nèi)容給用戶} :C。
S3{硬盤(pán)的功能}出+{是} :E+{存儲(chǔ)數(shù)據(jù)} =B0(其中,B表示語(yǔ)義結(jié)構(gòu)中的對(duì)象,E是核心動(dòng)詞,C是內(nèi)容。)步驟34中,根據(jù)本體定義14,提取句子中所有的屬性特征詞;Sl 顯示器、硬盤(pán)、內(nèi)存、CPU構(gòu)成S2 顯示器S3 硬盤(pán)功能步驟35中,對(duì)每個(gè)特征詞word,取出它所屬的屬性kmPropi,該屬性的權(quán)值為 weight (SemPropi) = 1 ;例子:S1顯示器、硬盤(pán)、內(nèi)存、CPU weight (category) = 4構(gòu)成 weight (const) = 1S2 顯示器 weight (category) = 1S3 硬盤(pán) weight (category) = 1功能 weight (func) = 1步驟36中,判斷特征詞word的詞性;如果是動(dòng)詞,則轉(zhuǎn)步驟37 ;如果是抽象概念, 則轉(zhuǎn)步驟38 ;如果是具體概念,則轉(zhuǎn)步驟39 ;步驟37中,特征詞word的詞性是動(dòng)詞,則weight GemPropi)+5 ;例子=Sl 構(gòu)成 weight (const) =1+5 = 6步驟38中,特征詞word的詞性是抽象概念(抽象概念的定義是其所指的對(duì)象不具有物理屬性的概念比如外交、差距等詞語(yǔ)都是抽象概念),則weight (SemPropi) +2 S3 功能 weight (func) = 1+2 = 3步驟39中,特征詞word的詞性是具體概念(具體概念的定義是其所指的對(duì)象具有物理屬性的概念比如手機(jī)、自行車等詞語(yǔ)都是具體概念),則weight (SemPropi)不變;例子Sl顯示器、硬盤(pán)、內(nèi)存、CPU weight (category) = 4構(gòu)成 weight (const) = 1+5 = 6S2 顯示器 weight (category) = 1S3 硬盤(pán) weight (category) = 1功能 weight (func) =1+2 = 3步驟310中,判斷特征詞word在句子語(yǔ)義結(jié)構(gòu)(該語(yǔ)義結(jié)構(gòu)是經(jīng)過(guò)步驟33得到的)中的位置,如果它是句子的核心,則轉(zhuǎn)步驟312 ;如果它是語(yǔ)義塊的核心,則轉(zhuǎn)步驟311 ; 否則轉(zhuǎn)313 ;步驟311 中,給屬性 kmPropi 的權(quán)值乘以 2,weight (SemPropi)= weight (SemPropi)*2 ;例子:S1顯示器、硬盤(pán)、內(nèi)存、CPU weight (category) = 4*2 = 8構(gòu)成 weight (const) = 1+5 = 6S2 顯示器 weight (category) = 1*2 = 2S3 硬盤(pán) weight (category) = 1功能 weight (func) = 1+2 = 3*2 = 6
12
步驟312 中,給屬性 kmPropi 的權(quán)值乘以 3,weight (SemPropi)= weight (SemPropi)*3 ;例子:S1 構(gòu)成 weight (const) = 1+5 = 6*3 = 18步驟313 中,給屬性 kmPropi 的權(quán)值乘以 1,weight (SemPropi)= weight (SemPropi)*1 ;Sl 顯示器、硬盤(pán)、內(nèi)存、CPU weight (category) = 4*2 = 8構(gòu)成 weight (const) = 1+5 = 6*3 = 18S2 顯示器 weight (category) = 1*2 = 2S3 硬盤(pán) weight (category) = 1功能 weight (func) = 1+2 = 3*2 = 6步驟314中,對(duì)句子中提取的所有的屬性kmPropi按權(quán)值排序,取出權(quán)值最大的一個(gè) SemPropMax ;仿Ij子Sl SemPropMax = 18S2 SemPropMax = 2S3 SemPropMax = 6步驟315中,輸出kmPropMax為句子的語(yǔ)境屬性;例子Sl :constS2 :constS3 func句子語(yǔ)境屬性提取過(guò)程中,綜合了三方面的因素特征詞出現(xiàn)的次數(shù)。特征詞的每次出現(xiàn),都會(huì)給其權(quán)值weight至少加1 ;特征詞的概念屬性。不同的概念屬性(動(dòng)詞、抽象概念、具體概念),其權(quán)值weight 的加權(quán)不同;特征詞在句子中的語(yǔ)義地位加權(quán)。特征詞在句子語(yǔ)義結(jié)構(gòu)中的位置不同,說(shuō)明它的作用也不同,因此也有不同的加權(quán)。4.索引操作索引流程圖如附圖4所示。索引模塊的輸入是待索引文本的標(biāo)注結(jié)果15。索引模塊的步驟如下步驟41中,判斷是否已到文本末尾;如果是,則結(jié)束;否則轉(zhuǎn)步驟42 ;步驟42中,提取下一個(gè)屬性開(kāi)始標(biāo)志<kmPropN> ;步驟43中,提取該屬性的結(jié)束標(biāo)志</^emPropN> ;步驟44中,對(duì)開(kāi)始標(biāo)志和結(jié)束標(biāo)志之間的內(nèi)容wordlist,進(jìn)行分詞;步驟45中,判斷當(dāng)前屬性kmPropN是否在索引庫(kù)中已存在;如果是,則轉(zhuǎn)步驟 47 ;否則轉(zhuǎn)步驟46 ;步驟46中,在索引庫(kù)17中增加一個(gè)子庫(kù),其名為^mPropN ;轉(zhuǎn)步驟47 ;步驟47中,把wordlist的分詞結(jié)果,如果是詞,則把詞索引加入到索引子庫(kù) SemPropN中;如果是字,則把字索引加入到索引子庫(kù)kmPropN中;5.檢索操作
檢索流程圖如附圖5所示。檢索模塊接收用戶12的搜索請(qǐng)求。假設(shè)有兩個(gè)文檔Docl和Doc2,其中都包含“顯示器”,其標(biāo)注結(jié)果如下Docl :<c0nSt>計(jì)算機(jī)由顯示器、硬盤(pán)、內(nèi)存、CPU等構(gòu)成。顯示器顯示內(nèi)容給用戶。 </const><func>硬盤(pán)的功能是存儲(chǔ)數(shù)據(jù)。</func>Doc2 :<funC>該纖維材料可用于制作顯示器的防輻射屏保。</func>例子檢索“顯示器,在語(yǔ)境屬性“構(gòu)成const”中,并且包含關(guān)鍵詞“功能”檢索模塊的步驟如下步驟51中,對(duì)搜索請(qǐng)求串進(jìn)行解析,在搜索請(qǐng)求串中,語(yǔ)境屬性可以有幾種表示方式可以在請(qǐng)求串中用語(yǔ)境屬性”或者“語(yǔ)境屬性”來(lái)表示;可以在搜索頁(yè)面上,采用勾選的方式選擇(類似于google搜索引擎的高級(jí)檢索);請(qǐng)求串解析的結(jié)果有兩個(gè)1)每個(gè)語(yǔ)境屬性的檢索串52,可以表示為如下。其中Qi表示解析出的一個(gè)子請(qǐng)求串,wordlist表示Qi這個(gè)子請(qǐng)求串所包含的檢索詞,SemPropi表示Qi子請(qǐng)求串所對(duì)應(yīng)的語(yǔ)境屬性。如果沒(méi)有“(^emPropN”,則說(shuō)明不需要匹配語(yǔ)境屬性。Ql =WordLiStiSemProplQ2 =WordListiSemProp2Qn WordListiSemPropN例子Q1顯示器 OconstQ2 功能2)子請(qǐng)求串Qi之間的邏輯關(guān)系53。其中可以用“ 0 ”來(lái)表示層次關(guān)系。比如 “ (Q1&Q2) |Q3”表示Ql子請(qǐng)求串先和Q2子請(qǐng)求串做邏輯與,其結(jié)果再和Q3做邏輯或。例子Q1&Q2步驟M中,對(duì)每個(gè)Qi進(jìn)行檢索;步驟55中,選擇Qi對(duì)應(yīng)的語(yǔ)境屬性kmPropi所在的子索引庫(kù)kmPropi_index ;例子Ql選擇const子索引Q2不選擇子索引步驟56中,在子索引中,對(duì)Qi的wordlist中的每個(gè)詞語(yǔ)word 進(jìn)行檢索;例子Q1在const中檢索“顯示器”Q2在所有子索引中檢索“功能”步驟57中,對(duì)每個(gè)word檢索返回的結(jié)果,進(jìn)行word和文檔之間的相關(guān)度計(jì)算,并排序;步驟58中,對(duì)wordlist中的所有詞語(yǔ)word的檢索結(jié)果集,進(jìn)行與操作,形成子請(qǐng)求串Qi的結(jié)果集;例子:resultQl {docl}ResultQ2 {docl}
步驟59中,利用子請(qǐng)求串Qi之間的邏輯關(guān)系53,對(duì)所有Qi的結(jié)果集進(jìn)行邏輯運(yùn)算;例子:Result = {result} &{result2}步驟510中,對(duì)結(jié)果集進(jìn)行相關(guān)度調(diào)整;并輸出結(jié)果集給用戶12。例子=Result = {docl}
權(quán)利要求
1.一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的方法,其特征在于,采用以句為單位的語(yǔ)義分析技術(shù),提取文本中每個(gè)句子所表示的語(yǔ)境屬性,并對(duì)語(yǔ)境屬性進(jìn)行切分標(biāo)注;在索引時(shí),為每種類型的語(yǔ)境屬性單獨(dú)建立索引;在檢索時(shí),可以對(duì)不同語(yǔ)境屬性進(jìn)行獨(dú)立檢索,也可以進(jìn)行組合檢索。
2.一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng),其特征在于它包括負(fù)責(zé)對(duì)文本進(jìn)行分析,提取文本中的語(yǔ)境屬性,形成帶語(yǔ)境屬性的標(biāo)注文本的文本語(yǔ)義分析模塊;負(fù)責(zé)調(diào)用文本語(yǔ)義分析模塊,并根據(jù)分析結(jié)果,為待索引文本,在索引庫(kù)中建立索引的索引系統(tǒng)模塊;負(fù)責(zé)接收用戶的搜索請(qǐng)求,對(duì)請(qǐng)求進(jìn)行解析,從索引庫(kù)中檢索到相應(yīng)的結(jié)果,對(duì)結(jié)果進(jìn)行合并和相關(guān)度計(jì)算,并返回給用戶的檢索系統(tǒng)模塊;文本語(yǔ)義分析模塊包含一個(gè)在管理員配置垂直搜索引擎時(shí),根據(jù)所屬的行業(yè)和領(lǐng)域的特點(diǎn),所定義的文本語(yǔ)境屬性的分類標(biāo)準(zhǔn)的本體定義模塊、一個(gè)根據(jù)本體定義模塊,對(duì)待索引文檔進(jìn)行分析,提取文檔中每個(gè)句子的語(yǔ)境屬性模塊,并把語(yǔ)境屬性標(biāo)注到原始文檔中,形成帶語(yǔ)境屬性的標(biāo)注文本。
3.根據(jù)權(quán)利要求2所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng),其特征在于,所述的文本語(yǔ)義分析模塊,以句子為單位,對(duì)文本中的每個(gè)句子進(jìn)行語(yǔ)境屬性提?。惶崛〉囊罁?jù)是以xml形式表示,定義了本體所屬的領(lǐng)域或行業(yè)、描述、定義者和定義時(shí)間,同時(shí)定義了多組語(yǔ)境屬性^^^叩;提取過(guò)程中,綜合了三方面的因素特征詞出現(xiàn)的次數(shù)、 特征詞的概念屬性(動(dòng)詞、抽象概念、具體概念)加權(quán),以及特征詞在句子中的語(yǔ)義地位加權(quán);在所述的多組語(yǔ)境屬性kmProp中,每個(gè)語(yǔ)境屬性〈SemProp〉中有〈name〉表示屬性名稱,<tag>表示標(biāo)注在文本中的標(biāo)簽,還有〈Character〉表示該屬性的特征詞,特征詞可以有多個(gè),之間用逗號(hào)隔開(kāi)。
4.根據(jù)權(quán)利要求3所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng),其特征在于,所述文本語(yǔ)義分析模塊包括以下步驟步驟21中,把文本以句號(hào)為單位斷開(kāi),對(duì)每個(gè)句子進(jìn)行處理;步驟22中,判斷當(dāng)前句子是否已經(jīng)到文本末尾;如果是,則轉(zhuǎn)步驟四;否則轉(zhuǎn)步驟23 ;步驟23中,調(diào)用句子語(yǔ)境屬性提取模塊,提取句子的語(yǔ)境屬性kmPropN ;步驟M中,判斷當(dāng)前句子提取的屬性kmPropN是否是該文本的第一個(gè)屬性;如果是, 則轉(zhuǎn)步驟25 ;否則轉(zhuǎn)步驟沈;步驟25中,在文本的起始處設(shè)置屬性開(kāi)始標(biāo)志〈SemPropN〉;轉(zhuǎn)步驟21進(jìn)行下一句處理;步驟沈中,判斷當(dāng)前提取的屬性^mPropN和該文本的上一個(gè)屬性kmPropN-1是否一樣;如果是,則轉(zhuǎn)步驟21進(jìn)行下一句處理;否則轉(zhuǎn)步驟27 ;步驟27中,在當(dāng)前句子之前,設(shè)置上一個(gè)屬性的結(jié)束標(biāo)志〈AemPropN-D ;步驟觀中,在當(dāng)前句子之前,設(shè)置當(dāng)前屬性的開(kāi)始標(biāo)志〈SemPropN〉;轉(zhuǎn)步驟21進(jìn)行下一句處理;步驟四中,在文本末尾處設(shè)置最后一個(gè)屬性的結(jié)束標(biāo)志〈/SemPropN〉;步驟210中,輸出帶屬性標(biāo)志的標(biāo)注文本。
5.根據(jù)權(quán)利要求3所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng),其特征在于,所述文本語(yǔ)義分析模塊中的語(yǔ)境屬性模塊包括以下步驟步驟32中,對(duì)句子進(jìn)行分詞處理;2步驟33中,分析句子的語(yǔ)義結(jié)構(gòu);步驟34中,根據(jù)本體定義14,提取句子中所有的屬性特征詞; 步驟35中,對(duì)每個(gè)特征詞word,取出它所屬的屬性kmPropi,該屬性的權(quán)值為 weight (SemPropi) = 1 ;步驟36中,判斷特征詞word的詞性;如果是動(dòng)詞,則轉(zhuǎn)步驟37 ;如果是抽象概念,則轉(zhuǎn)步驟38 ;如果是具體概念,則轉(zhuǎn)步驟39 ;步驟37中,特征詞word的詞性是動(dòng)詞,則weight (SemPropi) +5 ; 步驟38中,特征詞word的詞性是抽象概念,則weight (SemPropi) +2 ; 步驟39中,特征詞word的詞性是具體概念,則weight (SemPropi) +1 ; 步驟310中,判斷特征詞word在句子語(yǔ)義結(jié)構(gòu)(該語(yǔ)義結(jié)構(gòu)是經(jīng)過(guò)步驟33得到的) 中的位置,如果它是句子的核心,則轉(zhuǎn)步驟312 ;如果它是語(yǔ)義塊的核心,則轉(zhuǎn)步驟311 ;否則轉(zhuǎn)313 ;步驟311 中,給屬性 SemPropi 的權(quán)值乘以 2,weight GemPropi) = weight (SemPropi) ; 步驟 312 中,給屬性 SemPropi 的權(quán)值乘以 3,weight GemPropi) = weight (SemPropi) ; 步驟 313 中,給屬性 SemPropi 的權(quán)值乘以 1,weight (SemPropi) = weight (SemPropi) * 1 ; 步驟314中,對(duì)句子中提取的所有的屬性kmPropi按權(quán)值排序,取出權(quán)值最大的一個(gè) SemPropMax ;步驟315中,輸出kmPropMax為句子的語(yǔ)境屬性。
6.根據(jù)權(quán)利要求2所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng),其特征在于,所述索引系統(tǒng)模塊是對(duì)每個(gè)文檔的標(biāo)注結(jié)果,提取其語(yǔ)境屬性,為每個(gè)語(yǔ)境屬性在索引庫(kù)中單獨(dú)建立索引,索引庫(kù)中的每個(gè)索引,都是以按字詞混排的倒排文件形式存儲(chǔ)。
7.根據(jù)權(quán)利要求6所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng),其特征在于,所述的索引模塊,索引過(guò)程包括以下步驟步驟41中,判斷是否已到文本末尾;如果是,則結(jié)束;否則轉(zhuǎn)步驟42 ; 步驟42中,提取下一個(gè)屬性開(kāi)始標(biāo)志〈SemPropN〉; 步驟43中,提取該屬性的結(jié)束標(biāo)志〈/SemPropN〉; 步驟44中,對(duì)開(kāi)始標(biāo)志和結(jié)束標(biāo)志之間的內(nèi)容wordlist,進(jìn)行分詞; 步驟45中,判斷當(dāng)前屬性kmPropN是否在索引庫(kù)中已存在;如果是,則轉(zhuǎn)步驟47 ;否則轉(zhuǎn)步驟46 ;步驟46中,在索引庫(kù)17中增加一個(gè)子庫(kù),其名為kmPropN ;轉(zhuǎn)步驟47 ; 步驟47中,把wordlist的分詞結(jié)果,如果是詞,則把詞索引加入到索引子庫(kù)MmPropN 中;如果是字,則把字索引加入到索引子庫(kù)kmPropN中。
8.根據(jù)權(quán)利要求2所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng),其特征在于,所述檢索系統(tǒng)模塊包括搜索請(qǐng)求分析、對(duì)索引庫(kù)的檢索,以及檢索結(jié)果生成三個(gè)子模塊;搜索請(qǐng)求分析模塊解析用戶的請(qǐng)求,給出每個(gè)語(yǔ)境屬性的請(qǐng)求串和語(yǔ)境屬性之間的邏輯關(guān)系(與、或、非等);搜索請(qǐng)求分析模塊在搜索請(qǐng)求串中,語(yǔ)境屬性有幾種表示方式可以在請(qǐng)求串中用語(yǔ)境屬性”或者“語(yǔ)境屬性”來(lái)表示;可以在搜索頁(yè)面上,采用勾選的方式選擇(類似于google搜索引擎的高級(jí)檢索);所述的搜索請(qǐng)求分析模塊把請(qǐng)求串解析為多個(gè)子請(qǐng)求串Qi以及Qi之間的邏輯關(guān)系,其中可以用“()”來(lái)表示層次關(guān)系;所述子請(qǐng)求串Qi用以下方式表示,其中Qi表示解析出的一個(gè)子請(qǐng)求串,wordlist表示Qi這個(gè)子請(qǐng)求串所包含的檢索詞,SemPropi表示Qi子請(qǐng)求串所對(duì)應(yīng)的語(yǔ)境屬性, Ql =WordListiSemPropl Q2 =WordListiSemProp2 Qn WordLiStiSemPropN 所述對(duì)索引庫(kù)的檢索模塊包括以下步驟 步驟M中,對(duì)每個(gè)Qi進(jìn)行檢索;步驟55中,選擇Qi對(duì)應(yīng)的語(yǔ)境屬性kmPropi所在的子索引庫(kù)kmPropi_index ; 步驟56中,在子索引中,對(duì)Qi的wordlist中的每個(gè)詞語(yǔ)word進(jìn)行檢索;步驟57中,對(duì)每個(gè)word檢索返回的結(jié)果,進(jìn)行word和文檔之間的相關(guān)度計(jì)算,并排序;步驟58中,對(duì)wordl i st中的所有詞語(yǔ)word的檢索結(jié)果集,進(jìn)行與操作,形成子請(qǐng)求串 Qi的結(jié)果集;檢索結(jié)果生成模塊包括以下步驟步驟59中,利用子請(qǐng)求串Qi之間的邏輯關(guān)系53,對(duì)所有Qi的結(jié)果集進(jìn)行邏輯運(yùn)算; 步驟510中,對(duì)結(jié)果集進(jìn)行相關(guān)度調(diào)整;并輸出結(jié)果集給用戶12。
全文摘要
本發(fā)明公開(kāi)了一種利用語(yǔ)義分析的垂直搜索引擎系統(tǒng)與方法。該系統(tǒng)包括文本語(yǔ)義分析、索引系統(tǒng)、檢索系統(tǒng)三個(gè)模塊。文本語(yǔ)義分析模塊以句為單位,提取文本中每個(gè)句子所表示的語(yǔ)境屬性,并對(duì)語(yǔ)境屬性進(jìn)行切分標(biāo)注;語(yǔ)境屬性綜合了詞語(yǔ)的出現(xiàn)次數(shù)、詞語(yǔ)的概念屬性和詞語(yǔ)在句子中的語(yǔ)義地位;索引模塊為每種類型的語(yǔ)境屬性單獨(dú)建立索引;在檢索時(shí),可以對(duì)不同語(yǔ)境屬性進(jìn)行獨(dú)立檢索,也可以進(jìn)行組合檢索。本發(fā)明的優(yōu)點(diǎn)在于,利用語(yǔ)境屬性來(lái)表示詞語(yǔ)所在的語(yǔ)言環(huán)境,這樣在檢索時(shí),可以增加語(yǔ)言環(huán)境的限定,使得檢索結(jié)果的相關(guān)度更好。本發(fā)明特別適合于企業(yè)搜索、垂直搜索等與領(lǐng)域相關(guān)的搜索引擎系統(tǒng),也適合于通用搜索引擎對(duì)大量“暗網(wǎng)”數(shù)據(jù)的處理。
文檔編號(hào)G06F17/30GK102200975SQ201010132348
公開(kāi)日2011年9月28日 申請(qǐng)日期2010年3月25日 優(yōu)先權(quán)日2010年3月25日
發(fā)明者晉耀紅 申請(qǐng)人:北京師范大學(xué)