一種利用語(yǔ)義分析的垂直搜索引擎系統(tǒng)與方法

文檔序號(hào)：6599752閱讀：239來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種利用語(yǔ)義分析的垂直搜索引擎系統(tǒng)與方法
技術(shù)領(lǐng)域：
本發(fā)明涉及搜索引擎系統(tǒng)，更具體地說(shuō)，涉及一種語(yǔ)義分析技術(shù)，以及利用該語(yǔ)義分析技術(shù)實(shí)現(xiàn)的垂直搜索引擎系統(tǒng)與方法。
背景技術(shù)：
搜索引擎已經(jīng)成為人們獲取信息的重要手段，它現(xiàn)在已經(jīng)取代門(mén)戶網(wǎng)站，成為人們上網(wǎng)的首選入口。目前搜索引擎所采用的技術(shù)，基本是以全文檢索為主的。其一般原理就是利用倒排文件的技術(shù)，將待搜索的文字文本建立索引，然后利用關(guān)鍵詞匹配的檢索技術(shù)，從索引庫(kù)中，把包含相關(guān)關(guān)鍵詞的內(nèi)容返回給用戶。關(guān)鍵詞檢索技術(shù)一般利用詞頻等統(tǒng)計(jì)信息計(jì)算索引庫(kù)中的文檔和關(guān)鍵詞的相關(guān)度，然后按照相關(guān)度排序的方式給出包含這些關(guān)鍵詞的文檔。這種技術(shù)把關(guān)鍵詞當(dāng)做一個(gè)字符串進(jìn)行統(tǒng)計(jì)處理，基本上沒(méi)有考慮關(guān)鍵詞本身的語(yǔ)義和關(guān)鍵詞所在的語(yǔ)言環(huán)境。隨著搜索引擎的普及，人們對(duì)搜索引擎的期望也越來(lái)越高，把自然語(yǔ)言處理的技術(shù)，特別是語(yǔ)義處理技術(shù)融合到搜索引擎中，成為搜索引擎的發(fā)展趨勢(shì)。也有很多企業(yè)在做各種積極的嘗試。美國(guó)powerset搜索引擎，在引擎中增加了語(yǔ)法分析，考慮了主謂賓的因素，能區(qū)分“A打敗B”和“B打敗A”是兩種不同的請(qǐng)求。Powerset只針對(duì)wikipedia進(jìn)行了搜索，沒(méi)有提供互聯(lián)網(wǎng)全網(wǎng)搜索。Powerset已被微軟公司收購(gòu)。美國(guó)的hakia搜索引擎，利用施樂(lè)公司的自然語(yǔ)言處理技術(shù)，能對(duì)同義、泛化等現(xiàn)象進(jìn)行處理。Congnition搜索引擎能搜索wiki、法律、健康等內(nèi)容，它在搜索時(shí)能區(qū)分每個(gè)詞不同的詞義，可以根據(jù)詞義選擇搜索結(jié)果。Silobreaker在關(guān)系搜索上做了一些探索，surfcanon在消除主流搜索引擎(比如google)的搜索結(jié)果上做了一些嘗試，能對(duì)搜索結(jié)果的相關(guān)性進(jìn)行調(diào)整。Swotti在產(chǎn)品評(píng)價(jià)上，能對(duì)評(píng)價(jià)進(jìn)行分級(jí)，并分析出積極消極因素。Jodange在觀點(diǎn)提取方面做了一些工作，能提取在特定議題上擁有影響力的人物，監(jiān)測(cè)他們的觀點(diǎn)如何隨時(shí)間的推移而轉(zhuǎn)變，以及他們?nèi)绾瓮苿?dòng)媒體及公眾的情緒變化。另外，W3C也在推動(dòng)語(yǔ)義網(wǎng)的研究，希望能對(duì)互聯(lián)網(wǎng)的內(nèi)容加上語(yǔ)義標(biāo)簽，但總體來(lái)說(shuō)，語(yǔ)義網(wǎng)還處在研究階段?？梢钥闯觯壳暗难芯炕具€處在詞語(yǔ)層面和語(yǔ)法層面(powerset、hakia、 congnition等)，或者針對(duì)某一方面的語(yǔ)義(swotti、jodange等)，還沒(méi)有考慮句子，甚至更大范圍的語(yǔ)義語(yǔ)境對(duì)搜索的影響。如專利號(hào)98101921. 8模擬大腦語(yǔ)言感知過(guò)程的自然語(yǔ)言句類分析方法中的句類分析方法

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種利用語(yǔ)義分析的垂直搜索引擎系統(tǒng)與方法，以解決針對(duì)現(xiàn)有搜索引擎技術(shù)還處在詞語(yǔ)層面和語(yǔ)法層面，或者針對(duì)某一方面的語(yǔ)義，還沒(méi)有考慮句子，甚至更大范圍的語(yǔ)義語(yǔ)境對(duì)搜索的影響的缺陷。本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是采用以句為單位的語(yǔ)義分析技術(shù)，
5提取文本中每個(gè)句子所表示的語(yǔ)境屬性，并對(duì)語(yǔ)境屬性進(jìn)行切分標(biāo)注；在索引時(shí)，為每種類型的語(yǔ)境屬性單獨(dú)建立索引；在檢索時(shí)，可以對(duì)不同語(yǔ)境屬性進(jìn)行獨(dú)立檢索，也可以進(jìn)行組合檢索。本發(fā)明所述的系統(tǒng)，包括負(fù)責(zé)對(duì)文本進(jìn)行分析，提取文本中的語(yǔ)境屬性，形成帶語(yǔ)境屬性的標(biāo)注文本的文本語(yǔ)義分析模塊；負(fù)責(zé)調(diào)用文本語(yǔ)義分析模塊，并根據(jù)分析結(jié)果，為待索引文本，在索引庫(kù)中建立索引的索引系統(tǒng)模塊；負(fù)責(zé)接收用戶的搜索請(qǐng)求，對(duì)請(qǐng)求進(jìn)行解析，從索引庫(kù)中檢索到相應(yīng)的結(jié)果，對(duì)結(jié)果進(jìn)行合并和相關(guān)度計(jì)算，并返回給用戶的檢索系統(tǒng)模塊；文本語(yǔ)義分析模塊包含一個(gè)在管理員配置垂直搜索引擎時(shí)，根據(jù)所屬的行業(yè)和領(lǐng)域的特點(diǎn)，所定義的文本語(yǔ)境屬性的分類標(biāo)準(zhǔn)的本體定義模塊、一個(gè)根據(jù)本體定義模塊，對(duì)待索引文檔進(jìn)行分析，提取文檔中每個(gè)句子的語(yǔ)境屬性模塊，并把語(yǔ)境屬性標(biāo)注到原始文檔中，形成帶語(yǔ)境屬性的標(biāo)注文本。所述的文本語(yǔ)義分析模塊，以句子為單位，對(duì)文本中的每個(gè)句子進(jìn)行語(yǔ)境屬性提??；提取的依據(jù)是以xml形式表示，定義了本體所屬的領(lǐng)域或行業(yè)、描述、定義者和定義時(shí)間，同時(shí)定義了多組語(yǔ)境屬性kmProp ；提取過(guò)程中，綜合了三方面的因素特征詞出現(xiàn)的次數(shù)、特征詞的概念屬性(動(dòng)詞、抽象概念、具體概念)加權(quán)，以及特征詞在句子中的語(yǔ)義地位加權(quán)；在所述的多組語(yǔ)境屬性kmProp中，每個(gè)語(yǔ)境屬性<SemProp>中有<name>表示屬性名稱，<tag>表示標(biāo)注在文本中的標(biāo)簽，還有〈Character〉表示該屬性的特征詞，特征詞可以有多個(gè)，之間用逗號(hào)隔開(kāi)。所述文本語(yǔ)義分析模塊包括以下步驟步驟21中，把文本以句號(hào)為單位斷開(kāi)，對(duì)每個(gè)句子進(jìn)行處理；步驟22中，判斷當(dāng)前句子是否已經(jīng)到文本末尾；如果是，則轉(zhuǎn)步驟四；否則轉(zhuǎn)步驟 23 ；步驟23中，調(diào)用句子語(yǔ)境屬性提取模塊(具體流程參見(jiàn)下文)，提取句子的語(yǔ)境屬性 SemPropN ；步驟M中，判斷當(dāng)前句子提取的屬性 mPr0pN是否是該文本的第一個(gè)屬性；如果是，則轉(zhuǎn)步驟25 ；否則轉(zhuǎn)步驟沈；步驟25中，在文本的起始處設(shè)置屬性開(kāi)始標(biāo)志<kmPropN> ；轉(zhuǎn)步驟21進(jìn)行下一句處理；步驟沈中，判斷當(dāng)前提取的屬性^mPropN和該文本的上一個(gè)屬性kmPropN-l是否一樣；如果是，則轉(zhuǎn)步驟21進(jìn)行下一句處理；否則轉(zhuǎn)步驟27 ；步驟27中，在當(dāng)前句子之前，設(shè)置上一個(gè)屬性的結(jié)束標(biāo)志〈AemPropN-D ；步驟28中，在當(dāng)前句子之前，設(shè)置當(dāng)前屬性的開(kāi)始標(biāo)志〈SemPropN〉；轉(zhuǎn)步驟21進(jìn)行下一句處理；步驟四中，在文本末尾處設(shè)置最后一個(gè)屬性的結(jié)束標(biāo)志〈/SemPropN〉；步驟210中，輸出帶屬性標(biāo)志的標(biāo)注文本。所述文本語(yǔ)義分析模塊中的語(yǔ)境屬性模塊包括以下步驟步驟32中，對(duì)句子進(jìn)行分詞處理；步驟33中，分析句子的語(yǔ)義結(jié)構(gòu)(使用專利號(hào)為98101921. 8，模擬大腦語(yǔ)言感知過(guò)程的自然語(yǔ)言句類分析方法中的句類分析方法，分析句子的語(yǔ)義結(jié)構(gòu))；步驟34中，根據(jù)本體定義14，提取句子中所有的屬性特征詞；步驟35中，對(duì)每個(gè)特征詞word，取出它所屬的屬性kmPropi，該屬性的權(quán)值為 weight (SemPropi) = 1 ；步驟36中，判斷特征詞word的詞性；如果是動(dòng)詞，則轉(zhuǎn)步驟37 ；如果是抽象概念，則轉(zhuǎn)步驟38 ；如果是具體概念，則轉(zhuǎn)步驟39 ；步驟37中，特征詞word的詞性是動(dòng)詞，則weight (SemPropi) +5 ；步驟38中，特征詞word的詞性是抽象概念(抽象概念的定義是其所指的對(duì)象不具有物理屬性的概念，可參見(jiàn)文獻(xiàn)《HNC(概念層次網(wǎng)絡(luò))理論導(dǎo)論》苗傳江著，一般的，比如外交、差距等詞語(yǔ)都是抽象概念)，則weight (SemPropi) +2 ；步驟39中，特征詞word的詞性是具體概念(具體概念的定義是其所指的對(duì)象具有物理屬性的概念，可參見(jiàn)文獻(xiàn)《HNC(概念層次網(wǎng)絡(luò))理論導(dǎo)論》苗傳江著，一般的，比如手機(jī)、自行車等詞語(yǔ)都是具體概念)，則weight (SemPropi) +1 ；步驟310中，判斷特征詞word在句子語(yǔ)義結(jié)構(gòu)(該語(yǔ)義結(jié)構(gòu)是經(jīng)過(guò)步驟33得到的)中的位置，如果它是句子的核心(句子核心的判斷可參見(jiàn)專利98101921. 8)，則轉(zhuǎn)步驟 312 ；如果它是語(yǔ)義塊(語(yǔ)義塊的定義可參見(jiàn)專利98101921. 8)的核心，則轉(zhuǎn)步驟311 ；否則轉(zhuǎn) 313 ；步驟311 中，給屬性 SemPropi 的權(quán)值乘以 2, weight (SemPropi) = weight (SemPropi)*2 ；步驟312 中，給屬性 SemPropi 的權(quán)值乘以 3，weight (SemPropi) = weight (SemPropi) *3 ；步驟313 中，給屬性 SemPropi 的權(quán)值乘以 l,weight (SemPropi) = weight (SemPropi)*1 ；步驟314中，對(duì)句子中提取的所有的屬性kmPropi按權(quán)值排序，取出權(quán)值最大的一個(gè) SemPropMax ；步驟315中，輸出kmPropMax為句子的語(yǔ)境屬性。所述索引系統(tǒng)模塊是對(duì)每個(gè)文檔的標(biāo)注結(jié)果，提取其語(yǔ)境屬性，為每個(gè)語(yǔ)境屬性在索引庫(kù)中單獨(dú)建立索引，索引庫(kù)中的每個(gè)索引，都是以按字詞混排的倒排文件形式存儲(chǔ)。所述的索引模塊，索引過(guò)程包括以下步驟步驟41中，判斷是否已到文本末尾；如果是，則結(jié)束；否則轉(zhuǎn)步驟42 ；步驟42中，提取下一個(gè)屬性開(kāi)始標(biāo)志<kmPropN> ；步驟43中，提取該屬性的結(jié)束標(biāo)志</^emPropN> ；步驟44中，對(duì)開(kāi)始標(biāo)志和結(jié)束標(biāo)志之間的內(nèi)容wordlist，進(jìn)行分詞；步驟45中，判斷當(dāng)前屬性^mPropN是否在索引庫(kù)中已存在；如果是，則轉(zhuǎn)步驟 47 ；否則轉(zhuǎn)步驟46 ；步驟46中，在索引庫(kù)17中增加一個(gè)子庫(kù)，其名為^mPropN ；轉(zhuǎn)步驟47 ；步驟47中，把wordlist的分詞結(jié)果，如果是詞，則把詞索引加入到索引子庫(kù) SemPropN中；如果是字，則把字索引加入到索引子庫(kù)kmPropN中。所述檢索系統(tǒng)模塊包括搜索請(qǐng)求分析、對(duì)索引庫(kù)的檢索，以及檢索結(jié)果生成三個(gè)子模塊；搜索請(qǐng)求分析模塊解析用戶的請(qǐng)求，給出每個(gè)語(yǔ)境屬性的請(qǐng)求串和語(yǔ)境屬性之間的邏輯關(guān)系(與、或、非等)；搜索請(qǐng)求分析模塊在搜索請(qǐng)求串中，語(yǔ)境屬性有幾種表示方式可以在請(qǐng)求串中用語(yǔ)境屬性”或者“語(yǔ)境屬性”來(lái)表示；可以在搜索頁(yè)面上，采用勾選的方式選擇(類似于google搜索引擎的高級(jí)檢索)；所述的搜索請(qǐng)求分析模塊把請(qǐng)求串解析為多個(gè)子請(qǐng)求串Qi以及Qi之間的邏輯關(guān)系，其中可以用“ 0 ”來(lái)表示層次關(guān)系；所述子請(qǐng)求串Qi用以下方式表示，其中Qi表示解析出的一個(gè)子請(qǐng)求串，wordlist表示Qi這個(gè)子請(qǐng)求串所包含的檢索詞，SemPropi表示Qi子請(qǐng)求串所對(duì)應(yīng)的語(yǔ)境屬性，Ql =WordLiStiSemProplQ2 =WordListiSemProp2Qn WordLi StiSemPropN所述對(duì)索引庫(kù)的檢索模塊包括以下步驟步驟M中，對(duì)每個(gè)Qi進(jìn)行檢索；步驟55中，選擇Qi對(duì)應(yīng)的語(yǔ)境屬性kmPropi所在的子索引庫(kù)SemPropi_index ；步驟56中，在子索引中，對(duì)Qi的wordlist中的每個(gè)詞語(yǔ)word 進(jìn)行檢索；步驟57中，對(duì)每個(gè)word檢索返回的結(jié)果，進(jìn)行word和文檔之間的相關(guān)度計(jì)算，并排序；步驟58中，對(duì)wordlist中的所有詞語(yǔ)word的檢索結(jié)果集，進(jìn)行與操作，形成子請(qǐng)求串Qi的結(jié)果集；檢索結(jié)果生成模塊包括以下步驟步驟59中，利用子請(qǐng)求串Qi之間的邏輯關(guān)系53，對(duì)所有Qi的結(jié)果集進(jìn)行邏輯運(yùn)算；步驟510中，對(duì)結(jié)果集進(jìn)行相關(guān)度調(diào)整；并輸出結(jié)果集給用戶12。本發(fā)明的優(yōu)點(diǎn)在于，利用語(yǔ)境屬性來(lái)表示詞語(yǔ)所在的語(yǔ)言環(huán)境，語(yǔ)境屬性綜合了詞語(yǔ)的出現(xiàn)次數(shù)、詞語(yǔ)的概念屬性和詞語(yǔ)在句子中的語(yǔ)義地位，這樣在檢索時(shí)，可以增加語(yǔ)言環(huán)境的限定，使得檢索結(jié)果的相關(guān)度更好。本發(fā)明特別適合于企業(yè)搜索、垂直搜索等與領(lǐng)域相關(guān)的搜索引擎系統(tǒng)，也適合于通用搜索引擎對(duì)大量“暗網(wǎng)”數(shù)據(jù)的處理。

圖1是本發(fā)明的語(yǔ)義搜索引擎系統(tǒng)示意圖；圖2是本發(fā)明的文本語(yǔ)義分析流程圖；圖3是本發(fā)明的句子語(yǔ)境屬性提取流程圖；圖4是本發(fā)明的索引流程圖；圖5是本發(fā)明的檢索流程圖。
具體實(shí)施例方式下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。1.系統(tǒng)主要操作本發(fā)明所述的語(yǔ)義搜索引擎系統(tǒng)示意圖如附圖1所示。系統(tǒng)主要有三個(gè)操作過(guò)程文本語(yǔ)義分析操作、索引操作和搜索操作。索引操作會(huì)調(diào)用語(yǔ)義分析操作，他們都是在后臺(tái)，由管理員完成的，對(duì)普通用戶是不可見(jiàn)的；搜索操作負(fù)責(zé)接收用戶的搜索請(qǐng)求，從索引庫(kù)中，檢索到相應(yīng)的內(nèi)容，并返回給用戶。文本語(yǔ)義分析的依據(jù)是本體定義，因此在分析之前，管理員必須先給出本體定義。對(duì)索引操作，本發(fā)明的重點(diǎn)在于語(yǔ)境屬性對(duì)索引的影響，至于索引庫(kù)的結(jié)構(gòu)和具體的存儲(chǔ)方式，和一般搜索引擎方法類似，不做特殊說(shuō)明。對(duì)檢索操作，本發(fā)明的重點(diǎn)在于檢索過(guò)程如何增加語(yǔ)境屬性的影響，至于如何從索引庫(kù)中檢索、相關(guān)度的具體計(jì)算方式等，和一般搜索引擎方法類似，不做特殊說(shuō)明。在本發(fā)明所述的系統(tǒng)中，所述的待索引文檔11，主要指文字文本，包括網(wǎng)頁(yè)(html 或xml格式)和純文本。在本發(fā)明所述的系統(tǒng)中，所述的用戶12，是指通過(guò)網(wǎng)頁(yè)上的搜索框，提交搜索請(qǐng)求，獲取搜索結(jié)果的人。在本發(fā)明所述的系統(tǒng)中，所述的本體定義14，是管理員配置垂直搜索引擎時(shí)，根據(jù)所屬的行業(yè)和領(lǐng)域的特點(diǎn)，所定義的文本語(yǔ)境屬性的分類標(biāo)準(zhǔn)。在本發(fā)明所述的系統(tǒng)中，所述的文本語(yǔ)義分析13，是根據(jù)本體定義14，對(duì)文本進(jìn)行分析，提取文本中每個(gè)句子的語(yǔ)境屬性，并把語(yǔ)境屬性標(biāo)注到原始文本中，形成帶語(yǔ)境屬性的標(biāo)注文本15。在本發(fā)明所述的系統(tǒng)中，所述的索引過(guò)程16，是對(duì)每個(gè)文檔的標(biāo)注結(jié)果15，提取其語(yǔ)境屬性，為每個(gè)語(yǔ)境屬性在索引庫(kù)17中單獨(dú)建立索引。索引庫(kù)17中的每個(gè)索引，都是以按字詞混排的倒排文件形式存儲(chǔ)。在本發(fā)明所述的系統(tǒng)中，所述的檢索過(guò)程，是指接收到用戶12的請(qǐng)求，搜索請(qǐng)求分析模塊19對(duì)請(qǐng)求進(jìn)行解析，檢索模塊18負(fù)責(zé)從索引庫(kù)17中檢索到相應(yīng)的結(jié)果，檢索結(jié)果生成模塊110對(duì)18返回的結(jié)果進(jìn)行合并和相關(guān)度計(jì)算，并返回給用戶12。所述的本體定義14，是一個(gè)以xml形式表示的映射文件，該映射文件格式如下<Sem0nto><domain> </domain><desc> </desc><author></author><time> </time><SemProp><name> </name><tag> </tag><Character>wordl, word2,…，wordn</Character)</SemProp></Sem0nto>所述的映射文件中，以<Sem0nto>開(kāi)始，以</^em0nto>結(jié)束?！磀omain〉表示該本
體所屬的領(lǐng)域或行業(yè)，<desc>是對(duì)該本體文件的一些描述，〈author〉是該本體的定義者， <time>是該本體定義的時(shí)間。映射文件中可以有多組<SemPropX/^emProp>，來(lái)定義多組語(yǔ)境屬性。每個(gè)語(yǔ)境屬性〈SemProp〉中有〈name〉表示屬性名稱，<tag>表示標(biāo)注在文本中的標(biāo)簽，還有〈Character〉表示該屬性的特征詞，特征詞可以有多個(gè)，之間用逗號(hào)隔開(kāi)。
每個(gè)語(yǔ)境屬性<SemProp>的<tag>會(huì)出現(xiàn)在標(biāo)注結(jié)果15中。每個(gè)<SemProp>在索引庫(kù)17中對(duì)應(yīng)一個(gè)索引。所述的文本語(yǔ)義分析13，其輸入是待索引文本11，其輸出是語(yǔ)境屬性標(biāo)注結(jié)果 15。該模塊利用語(yǔ)義分析技術(shù)，對(duì)文本中的每個(gè)句子進(jìn)行語(yǔ)境屬性提取，如果相鄰兩個(gè)句子的語(yǔ)境屬性相同，則合并他們成為一個(gè)語(yǔ)境屬性標(biāo)注。對(duì)每個(gè)句子處理時(shí)，如果本體定義14 中語(yǔ)境屬性的特征詞出現(xiàn)，則激活語(yǔ)境屬性提取。提取過(guò)程中，綜合了三方面的因素特征詞出現(xiàn)的次數(shù)、特征詞的概念屬性(動(dòng)詞、抽象概念、具體概念)加權(quán)，以及特征詞在句子中的語(yǔ)義地位加權(quán)。具體過(guò)程可參見(jiàn)下面的實(shí)施例。所述的索引模塊16，其輸入是標(biāo)注結(jié)果15，其輸出是索引庫(kù)17。該模塊負(fù)責(zé)從標(biāo)注結(jié)果中獲取語(yǔ)境屬性，對(duì)每個(gè)語(yǔ)境屬性建立不同的子索引。索引過(guò)程需要對(duì)每個(gè)語(yǔ)境屬性之間的文本進(jìn)行分詞，對(duì)其中的詞語(yǔ)建立詞索引，對(duì)其中不能構(gòu)成詞的單字建立字索引。所述的檢索模塊，其輸入是用戶12輸入的搜索請(qǐng)求，其輸出是返回給用戶12的搜索結(jié)果。檢索模塊包括搜索請(qǐng)求分析19，對(duì)索引庫(kù)的檢索18，以及檢索結(jié)果生成110三個(gè)子模塊。搜索請(qǐng)求分析19負(fù)責(zé)解析用戶的請(qǐng)求，給出每個(gè)語(yǔ)境屬性的請(qǐng)求串和語(yǔ)境屬性之間的邏輯關(guān)系(與、或、非等)。索引庫(kù)的檢索18負(fù)責(zé)對(duì)每個(gè)語(yǔ)境屬性的請(qǐng)求串進(jìn)行檢索，它只給出相應(yīng)子索引的結(jié)果集。檢索結(jié)果生成110負(fù)責(zé)對(duì)18返回的結(jié)果集，按照語(yǔ)境屬性之間的邏輯關(guān)系，進(jìn)行集合運(yùn)算，并計(jì)算相關(guān)度。下面結(jié)合具體實(shí)施例，說(shuō)明文本語(yǔ)義分析操作、句子語(yǔ)境屬性提取操作、索引操作流程和檢索操作流程。2.文本語(yǔ)義分析操作文本語(yǔ)義分析流程圖如附圖2所示。文本語(yǔ)義分析的輸入是待索引文本11和本體定義14。假設(shè)一個(gè)本體定義如下<Sem0nto><domain>IT</domain><desc>IT電子產(chǎn)品說(shuō)明書(shū)的本體定義</desc><author> ^H </author><time>2009-12-3</time><SemProp><name> 構(gòu)成 </name><tag>const</tag><Character)，1 </Character></SemProp><SemProp><name> 功能 </name><tag>func</tag><Character)</Character></SemProp><SemProp>

<name> 計(jì)算機(jī) </name> <tag>category</tag 〈Character〉顯示器，鍵盤(pán)，硬盤(pán)，內(nèi)存〈/Character〉 </SemProp></Sem0nto>例子計(jì)算機(jī)由顯示器、硬盤(pán)、內(nèi)存、CPU等構(gòu)成。顯示器顯示內(nèi)容給用戶。硬盤(pán)的功能是存儲(chǔ)數(shù)據(jù)。文本語(yǔ)義分析步驟如下步驟21中，把文本以句號(hào)為單位斷開(kāi)，對(duì)每個(gè)句子進(jìn)行處理；步驟22中，判斷當(dāng)前句子是否已經(jīng)到文本末尾；如果是，則轉(zhuǎn)步驟四；否則轉(zhuǎn)步驟 23 ；步驟23中，調(diào)用句子語(yǔ)境屬性提取模塊(具體流程見(jiàn)“句子語(yǔ)境屬性提取操作”)，提取句子的語(yǔ)境屬性^mPropN ；步驟M中，判斷當(dāng)前句子提取的屬性 mPr0pN是否是該文本的第一個(gè)屬性；如果是，則轉(zhuǎn)步驟25 ；否則轉(zhuǎn)步驟沈；步驟25中，在文本的起始處設(shè)置屬性開(kāi)始標(biāo)志〈SemPropN〉；轉(zhuǎn)步驟21進(jìn)行下一句處理；步驟沈中，判斷當(dāng)前提取的屬性^mPropN和該文本的上一個(gè)屬性kmPropN-l是否一樣；如果是，則轉(zhuǎn)步驟21進(jìn)行下一句處理；否則轉(zhuǎn)步驟27 ；步驟27中，在當(dāng)前句子之前，設(shè)置上一個(gè)屬性的結(jié)束標(biāo)志〈AemPropN-D ；步驟28中，在當(dāng)前句子之前，設(shè)置當(dāng)前屬性的開(kāi)始標(biāo)志〈SemPropN〉；轉(zhuǎn)步驟21進(jìn)行下一句處理；步驟四中，在文本末尾處設(shè)置最后一個(gè)屬性的結(jié)束標(biāo)志〈/SemPropN〉；步驟210中，輸出帶屬性標(biāo)志的標(biāo)注文本；經(jīng)過(guò)上述步驟，對(duì)文本中的每個(gè)句子都做了語(yǔ)境屬性的標(biāo)注，給出了每個(gè)句子所表示的語(yǔ)言環(huán)境。這樣，相當(dāng)于給文本中的每個(gè)詞語(yǔ)都賦予了語(yǔ)境屬性。對(duì)下面的文本的標(biāo)注結(jié)果如下所示〈const〉計(jì)算機(jī)由顯示器、硬盤(pán)、內(nèi)存、CPU等構(gòu)成。顯示器用于顯示內(nèi)容給用戶。 </const><func>硬盤(pán)的功能是存儲(chǔ)數(shù)據(jù)。</func>3.句子語(yǔ)境屬性提取操作句子語(yǔ)境屬性提取流程圖如附圖3所示。句子語(yǔ)境屬性提取模塊的輸入是一個(gè)句子31，和本體定義14。例子S1計(jì)算機(jī)由顯示器、硬盤(pán)、內(nèi)存、CPU等構(gòu)成。S2顯示器顯示內(nèi)容給用戶。S3 硬盤(pán)的功能是存儲(chǔ)數(shù)據(jù)。句子語(yǔ)境屬性提取步驟如下步驟32中，對(duì)句子進(jìn)行分詞處理；步驟33中，調(diào)用句類分析方法，分析句子的語(yǔ)義結(jié)構(gòu)；例子Sl {計(jì)算機(jī)} :B+{由} + {顯示器、硬盤(pán)、內(nèi)存、CPU等} :B+{構(gòu)成} =E0S2{顯示器} :B+{顯示} :E+{內(nèi)容給用戶} :C。
S3{硬盤(pán)的功能}出+{是} :E+{存儲(chǔ)數(shù)據(jù)} =B0(其中，B表示語(yǔ)義結(jié)構(gòu)中的對(duì)象，E是核心動(dòng)詞，C是內(nèi)容。)步驟34中，根據(jù)本體定義14，提取句子中所有的屬性特征詞；Sl 顯示器、硬盤(pán)、內(nèi)存、CPU構(gòu)成S2 顯示器S3 硬盤(pán)功能步驟35中，對(duì)每個(gè)特征詞word，取出它所屬的屬性kmPropi，該屬性的權(quán)值為 weight (SemPropi) = 1 ；例子:S1顯示器、硬盤(pán)、內(nèi)存、CPU weight (category) = 4構(gòu)成 weight (const) = 1S2 顯示器 weight (category) = 1S3 硬盤(pán) weight (category) = 1功能 weight (func) = 1步驟36中，判斷特征詞word的詞性；如果是動(dòng)詞，則轉(zhuǎn)步驟37 ；如果是抽象概念，則轉(zhuǎn)步驟38 ；如果是具體概念，則轉(zhuǎn)步驟39 ；步驟37中，特征詞word的詞性是動(dòng)詞，則weight GemPropi)+5 ；例子=Sl 構(gòu)成 weight (const) =1+5 = 6步驟38中，特征詞word的詞性是抽象概念(抽象概念的定義是其所指的對(duì)象不具有物理屬性的概念比如外交、差距等詞語(yǔ)都是抽象概念)，則weight (SemPropi) +2 S3 功能 weight (func) = 1+2 = 3步驟39中，特征詞word的詞性是具體概念(具體概念的定義是其所指的對(duì)象具有物理屬性的概念比如手機(jī)、自行車等詞語(yǔ)都是具體概念)，則weight (SemPropi)不變；例子Sl顯示器、硬盤(pán)、內(nèi)存、CPU weight (category) = 4構(gòu)成 weight (const) = 1+5 = 6S2 顯示器 weight (category) = 1S3 硬盤(pán) weight (category) = 1功能 weight (func) =1+2 = 3步驟310中，判斷特征詞word在句子語(yǔ)義結(jié)構(gòu)(該語(yǔ)義結(jié)構(gòu)是經(jīng)過(guò)步驟33得到的)中的位置，如果它是句子的核心，則轉(zhuǎn)步驟312 ；如果它是語(yǔ)義塊的核心，則轉(zhuǎn)步驟311 ；否則轉(zhuǎn)313 ；步驟311 中，給屬性 kmPropi 的權(quán)值乘以 2，weight (SemPropi)= weight (SemPropi)*2 ；例子:S1顯示器、硬盤(pán)、內(nèi)存、CPU weight (category) = 4*2 = 8構(gòu)成 weight (const) = 1+5 = 6S2 顯示器 weight (category) = 1*2 = 2S3 硬盤(pán) weight (category) = 1功能 weight (func) = 1+2 = 3*2 = 6
12
步驟312 中，給屬性 kmPropi 的權(quán)值乘以 3，weight (SemPropi)= weight (SemPropi)*3 ；例子:S1 構(gòu)成 weight (const) = 1+5 = 6*3 = 18步驟313 中，給屬性 kmPropi 的權(quán)值乘以 1，weight (SemPropi)= weight (SemPropi)*1 ；Sl 顯示器、硬盤(pán)、內(nèi)存、CPU weight (category) = 4*2 = 8構(gòu)成 weight (const) = 1+5 = 6*3 = 18S2 顯示器 weight (category) = 1*2 = 2S3 硬盤(pán) weight (category) = 1功能 weight (func) = 1+2 = 3*2 = 6步驟314中，對(duì)句子中提取的所有的屬性kmPropi按權(quán)值排序，取出權(quán)值最大的一個(gè) SemPropMax ；仿Ij子Sl SemPropMax = 18S2 SemPropMax = 2S3 SemPropMax = 6步驟315中，輸出kmPropMax為句子的語(yǔ)境屬性；例子Sl :constS2 :constS3 func句子語(yǔ)境屬性提取過(guò)程中，綜合了三方面的因素特征詞出現(xiàn)的次數(shù)。特征詞的每次出現(xiàn)，都會(huì)給其權(quán)值weight至少加1 ；特征詞的概念屬性。不同的概念屬性(動(dòng)詞、抽象概念、具體概念)，其權(quán)值weight 的加權(quán)不同；特征詞在句子中的語(yǔ)義地位加權(quán)。特征詞在句子語(yǔ)義結(jié)構(gòu)中的位置不同，說(shuō)明它的作用也不同，因此也有不同的加權(quán)。4.索引操作索引流程圖如附圖4所示。索引模塊的輸入是待索引文本的標(biāo)注結(jié)果15。索引模塊的步驟如下步驟41中，判斷是否已到文本末尾；如果是，則結(jié)束；否則轉(zhuǎn)步驟42 ；步驟42中，提取下一個(gè)屬性開(kāi)始標(biāo)志<kmPropN> ；步驟43中，提取該屬性的結(jié)束標(biāo)志</^emPropN> ；步驟44中，對(duì)開(kāi)始標(biāo)志和結(jié)束標(biāo)志之間的內(nèi)容wordlist，進(jìn)行分詞；步驟45中，判斷當(dāng)前屬性kmPropN是否在索引庫(kù)中已存在；如果是，則轉(zhuǎn)步驟 47 ；否則轉(zhuǎn)步驟46 ；步驟46中，在索引庫(kù)17中增加一個(gè)子庫(kù)，其名為^mPropN ；轉(zhuǎn)步驟47 ；步驟47中，把wordlist的分詞結(jié)果，如果是詞，則把詞索引加入到索引子庫(kù) SemPropN中；如果是字，則把字索引加入到索引子庫(kù)kmPropN中；5.檢索操作
檢索流程圖如附圖5所示。檢索模塊接收用戶12的搜索請(qǐng)求。假設(shè)有兩個(gè)文檔Docl和Doc2，其中都包含“顯示器”，其標(biāo)注結(jié)果如下Docl :<c0nSt>計(jì)算機(jī)由顯示器、硬盤(pán)、內(nèi)存、CPU等構(gòu)成。顯示器顯示內(nèi)容給用戶。 </const><func>硬盤(pán)的功能是存儲(chǔ)數(shù)據(jù)。</func>Doc2 :<funC>該纖維材料可用于制作顯示器的防輻射屏保。</func>例子檢索“顯示器，在語(yǔ)境屬性“構(gòu)成const”中，并且包含關(guān)鍵詞“功能”檢索模塊的步驟如下步驟51中，對(duì)搜索請(qǐng)求串進(jìn)行解析，在搜索請(qǐng)求串中，語(yǔ)境屬性可以有幾種表示方式可以在請(qǐng)求串中用語(yǔ)境屬性”或者“語(yǔ)境屬性”來(lái)表示；可以在搜索頁(yè)面上，采用勾選的方式選擇(類似于google搜索引擎的高級(jí)檢索)；請(qǐng)求串解析的結(jié)果有兩個(gè)1)每個(gè)語(yǔ)境屬性的檢索串52，可以表示為如下。其中Qi表示解析出的一個(gè)子請(qǐng)求串，wordlist表示Qi這個(gè)子請(qǐng)求串所包含的檢索詞，SemPropi表示Qi子請(qǐng)求串所對(duì)應(yīng)的語(yǔ)境屬性。如果沒(méi)有“(^emPropN”，則說(shuō)明不需要匹配語(yǔ)境屬性。Ql =WordLiStiSemProplQ2 =WordListiSemProp2Qn WordListiSemPropN例子Q1顯示器 OconstQ2 功能2)子請(qǐng)求串Qi之間的邏輯關(guān)系53。其中可以用“ 0 ”來(lái)表示層次關(guān)系。比如 “ (Q1&Q2) |Q3”表示Ql子請(qǐng)求串先和Q2子請(qǐng)求串做邏輯與，其結(jié)果再和Q3做邏輯或。例子Q1&Q2步驟M中，對(duì)每個(gè)Qi進(jìn)行檢索；步驟55中，選擇Qi對(duì)應(yīng)的語(yǔ)境屬性kmPropi所在的子索引庫(kù)kmPropi_index ；例子Ql選擇const子索引Q2不選擇子索引步驟56中，在子索引中，對(duì)Qi的wordlist中的每個(gè)詞語(yǔ)word 進(jìn)行檢索；例子Q1在const中檢索“顯示器”Q2在所有子索引中檢索“功能”步驟57中，對(duì)每個(gè)word檢索返回的結(jié)果，進(jìn)行word和文檔之間的相關(guān)度計(jì)算，并排序；步驟58中，對(duì)wordlist中的所有詞語(yǔ)word的檢索結(jié)果集，進(jìn)行與操作，形成子請(qǐng)求串Qi的結(jié)果集；例子:resultQl {docl}ResultQ2 {docl}
步驟59中，利用子請(qǐng)求串Qi之間的邏輯關(guān)系53，對(duì)所有Qi的結(jié)果集進(jìn)行邏輯運(yùn)算；例子:Result = {result} &{result2}步驟510中，對(duì)結(jié)果集進(jìn)行相關(guān)度調(diào)整；并輸出結(jié)果集給用戶12。例子=Result = {docl}
權(quán)利要求
1.一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的方法，其特征在于，采用以句為單位的語(yǔ)義分析技術(shù)，提取文本中每個(gè)句子所表示的語(yǔ)境屬性，并對(duì)語(yǔ)境屬性進(jìn)行切分標(biāo)注；在索引時(shí)，為每種類型的語(yǔ)境屬性單獨(dú)建立索引；在檢索時(shí)，可以對(duì)不同語(yǔ)境屬性進(jìn)行獨(dú)立檢索，也可以進(jìn)行組合檢索。
2.一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng)，其特征在于它包括負(fù)責(zé)對(duì)文本進(jìn)行分析，提取文本中的語(yǔ)境屬性，形成帶語(yǔ)境屬性的標(biāo)注文本的文本語(yǔ)義分析模塊；負(fù)責(zé)調(diào)用文本語(yǔ)義分析模塊，并根據(jù)分析結(jié)果，為待索引文本，在索引庫(kù)中建立索引的索引系統(tǒng)模塊；負(fù)責(zé)接收用戶的搜索請(qǐng)求，對(duì)請(qǐng)求進(jìn)行解析，從索引庫(kù)中檢索到相應(yīng)的結(jié)果，對(duì)結(jié)果進(jìn)行合并和相關(guān)度計(jì)算，并返回給用戶的檢索系統(tǒng)模塊；文本語(yǔ)義分析模塊包含一個(gè)在管理員配置垂直搜索引擎時(shí)，根據(jù)所屬的行業(yè)和領(lǐng)域的特點(diǎn)，所定義的文本語(yǔ)境屬性的分類標(biāo)準(zhǔn)的本體定義模塊、一個(gè)根據(jù)本體定義模塊，對(duì)待索引文檔進(jìn)行分析，提取文檔中每個(gè)句子的語(yǔ)境屬性模塊，并把語(yǔ)境屬性標(biāo)注到原始文檔中，形成帶語(yǔ)境屬性的標(biāo)注文本。
3.根據(jù)權(quán)利要求2所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng)，其特征在于，所述的文本語(yǔ)義分析模塊，以句子為單位，對(duì)文本中的每個(gè)句子進(jìn)行語(yǔ)境屬性提?。惶崛〉囊罁?jù)是以xml形式表示，定義了本體所屬的領(lǐng)域或行業(yè)、描述、定義者和定義時(shí)間，同時(shí)定義了多組語(yǔ)境屬性^^^叩；提取過(guò)程中，綜合了三方面的因素特征詞出現(xiàn)的次數(shù)、特征詞的概念屬性(動(dòng)詞、抽象概念、具體概念)加權(quán)，以及特征詞在句子中的語(yǔ)義地位加權(quán)；在所述的多組語(yǔ)境屬性kmProp中，每個(gè)語(yǔ)境屬性〈SemProp〉中有〈name〉表示屬性名稱，<tag>表示標(biāo)注在文本中的標(biāo)簽，還有〈Character〉表示該屬性的特征詞，特征詞可以有多個(gè)，之間用逗號(hào)隔開(kāi)。
4.根據(jù)權(quán)利要求3所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng)，其特征在于，所述文本語(yǔ)義分析模塊包括以下步驟步驟21中，把文本以句號(hào)為單位斷開(kāi)，對(duì)每個(gè)句子進(jìn)行處理；步驟22中，判斷當(dāng)前句子是否已經(jīng)到文本末尾；如果是，則轉(zhuǎn)步驟四；否則轉(zhuǎn)步驟23 ；步驟23中，調(diào)用句子語(yǔ)境屬性提取模塊，提取句子的語(yǔ)境屬性kmPropN ；步驟M中，判斷當(dāng)前句子提取的屬性kmPropN是否是該文本的第一個(gè)屬性；如果是，則轉(zhuǎn)步驟25 ；否則轉(zhuǎn)步驟沈；步驟25中，在文本的起始處設(shè)置屬性開(kāi)始標(biāo)志〈SemPropN〉；轉(zhuǎn)步驟21進(jìn)行下一句處理；步驟沈中，判斷當(dāng)前提取的屬性^mPropN和該文本的上一個(gè)屬性kmPropN-1是否一樣；如果是，則轉(zhuǎn)步驟21進(jìn)行下一句處理；否則轉(zhuǎn)步驟27 ；步驟27中，在當(dāng)前句子之前，設(shè)置上一個(gè)屬性的結(jié)束標(biāo)志〈AemPropN-D ；步驟觀中，在當(dāng)前句子之前，設(shè)置當(dāng)前屬性的開(kāi)始標(biāo)志〈SemPropN〉；轉(zhuǎn)步驟21進(jìn)行下一句處理；步驟四中，在文本末尾處設(shè)置最后一個(gè)屬性的結(jié)束標(biāo)志〈/SemPropN〉；步驟210中，輸出帶屬性標(biāo)志的標(biāo)注文本。
5.根據(jù)權(quán)利要求3所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng)，其特征在于，所述文本語(yǔ)義分析模塊中的語(yǔ)境屬性模塊包括以下步驟步驟32中，對(duì)句子進(jìn)行分詞處理；2步驟33中，分析句子的語(yǔ)義結(jié)構(gòu)；步驟34中，根據(jù)本體定義14，提取句子中所有的屬性特征詞；步驟35中，對(duì)每個(gè)特征詞word，取出它所屬的屬性kmPropi，該屬性的權(quán)值為 weight (SemPropi) = 1 ；步驟36中，判斷特征詞word的詞性；如果是動(dòng)詞，則轉(zhuǎn)步驟37 ；如果是抽象概念，則轉(zhuǎn)步驟38 ；如果是具體概念，則轉(zhuǎn)步驟39 ；步驟37中，特征詞word的詞性是動(dòng)詞，則weight (SemPropi) +5 ；步驟38中，特征詞word的詞性是抽象概念，則weight (SemPropi) +2 ；步驟39中，特征詞word的詞性是具體概念，則weight (SemPropi) +1 ；步驟310中，判斷特征詞word在句子語(yǔ)義結(jié)構(gòu)(該語(yǔ)義結(jié)構(gòu)是經(jīng)過(guò)步驟33得到的) 中的位置，如果它是句子的核心，則轉(zhuǎn)步驟312 ；如果它是語(yǔ)義塊的核心，則轉(zhuǎn)步驟311 ；否則轉(zhuǎn)313 ；步驟311 中，給屬性 SemPropi 的權(quán)值乘以 2，weight GemPropi) = weight (SemPropi) ；步驟 312 中，給屬性 SemPropi 的權(quán)值乘以 3，weight GemPropi) = weight (SemPropi) ；步驟 313 中，給屬性 SemPropi 的權(quán)值乘以 1，weight (SemPropi) = weight (SemPropi) * 1 ；步驟314中，對(duì)句子中提取的所有的屬性kmPropi按權(quán)值排序，取出權(quán)值最大的一個(gè) SemPropMax ；步驟315中，輸出kmPropMax為句子的語(yǔ)境屬性。
6.根據(jù)權(quán)利要求2所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng)，其特征在于，所述索引系統(tǒng)模塊是對(duì)每個(gè)文檔的標(biāo)注結(jié)果，提取其語(yǔ)境屬性，為每個(gè)語(yǔ)境屬性在索引庫(kù)中單獨(dú)建立索引，索引庫(kù)中的每個(gè)索引，都是以按字詞混排的倒排文件形式存儲(chǔ)。
7.根據(jù)權(quán)利要求6所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng)，其特征在于，所述的索引模塊，索引過(guò)程包括以下步驟步驟41中，判斷是否已到文本末尾；如果是，則結(jié)束；否則轉(zhuǎn)步驟42 ；步驟42中，提取下一個(gè)屬性開(kāi)始標(biāo)志〈SemPropN〉；步驟43中，提取該屬性的結(jié)束標(biāo)志〈/SemPropN〉；步驟44中，對(duì)開(kāi)始標(biāo)志和結(jié)束標(biāo)志之間的內(nèi)容wordlist，進(jìn)行分詞；步驟45中，判斷當(dāng)前屬性kmPropN是否在索引庫(kù)中已存在；如果是，則轉(zhuǎn)步驟47 ；否則轉(zhuǎn)步驟46 ；步驟46中，在索引庫(kù)17中增加一個(gè)子庫(kù)，其名為kmPropN ；轉(zhuǎn)步驟47 ；步驟47中，把wordlist的分詞結(jié)果，如果是詞，則把詞索引加入到索引子庫(kù)MmPropN 中；如果是字，則把字索引加入到索引子庫(kù)kmPropN中。
8.根據(jù)權(quán)利要求2所述的一種利用語(yǔ)義分析技術(shù)實(shí)現(xiàn)垂直搜索引擎的系統(tǒng)，其特征在于，所述檢索系統(tǒng)模塊包括搜索請(qǐng)求分析、對(duì)索引庫(kù)的檢索，以及檢索結(jié)果生成三個(gè)子模塊；搜索請(qǐng)求分析模塊解析用戶的請(qǐng)求，給出每個(gè)語(yǔ)境屬性的請(qǐng)求串和語(yǔ)境屬性之間的邏輯關(guān)系(與、或、非等)；搜索請(qǐng)求分析模塊在搜索請(qǐng)求串中，語(yǔ)境屬性有幾種表示方式可以在請(qǐng)求串中用語(yǔ)境屬性”或者“語(yǔ)境屬性”來(lái)表示；可以在搜索頁(yè)面上，采用勾選的方式選擇(類似于google搜索引擎的高級(jí)檢索)；所述的搜索請(qǐng)求分析模塊把請(qǐng)求串解析為多個(gè)子請(qǐng)求串Qi以及Qi之間的邏輯關(guān)系，其中可以用“()”來(lái)表示層次關(guān)系；所述子請(qǐng)求串Qi用以下方式表示，其中Qi表示解析出的一個(gè)子請(qǐng)求串，wordlist表示Qi這個(gè)子請(qǐng)求串所包含的檢索詞，SemPropi表示Qi子請(qǐng)求串所對(duì)應(yīng)的語(yǔ)境屬性， Ql =WordListiSemPropl Q2 =WordListiSemProp2 Qn WordLiStiSemPropN 所述對(duì)索引庫(kù)的檢索模塊包括以下步驟步驟M中，對(duì)每個(gè)Qi進(jìn)行檢索；步驟55中，選擇Qi對(duì)應(yīng)的語(yǔ)境屬性kmPropi所在的子索引庫(kù)kmPropi_index ；步驟56中，在子索引中，對(duì)Qi的wordlist中的每個(gè)詞語(yǔ)word進(jìn)行檢索；步驟57中，對(duì)每個(gè)word檢索返回的結(jié)果，進(jìn)行word和文檔之間的相關(guān)度計(jì)算，并排序；步驟58中，對(duì)wordl i st中的所有詞語(yǔ)word的檢索結(jié)果集，進(jìn)行與操作，形成子請(qǐng)求串 Qi的結(jié)果集；檢索結(jié)果生成模塊包括以下步驟步驟59中，利用子請(qǐng)求串Qi之間的邏輯關(guān)系53，對(duì)所有Qi的結(jié)果集進(jìn)行邏輯運(yùn)算；步驟510中，對(duì)結(jié)果集進(jìn)行相關(guān)度調(diào)整；并輸出結(jié)果集給用戶12。
全文摘要
本發(fā)明公開(kāi)了一種利用語(yǔ)義分析的垂直搜索引擎系統(tǒng)與方法。該系統(tǒng)包括文本語(yǔ)義分析、索引系統(tǒng)、檢索系統(tǒng)三個(gè)模塊。文本語(yǔ)義分析模塊以句為單位，提取文本中每個(gè)句子所表示的語(yǔ)境屬性，并對(duì)語(yǔ)境屬性進(jìn)行切分標(biāo)注；語(yǔ)境屬性綜合了詞語(yǔ)的出現(xiàn)次數(shù)、詞語(yǔ)的概念屬性和詞語(yǔ)在句子中的語(yǔ)義地位；索引模塊為每種類型的語(yǔ)境屬性單獨(dú)建立索引；在檢索時(shí)，可以對(duì)不同語(yǔ)境屬性進(jìn)行獨(dú)立檢索，也可以進(jìn)行組合檢索。本發(fā)明的優(yōu)點(diǎn)在于，利用語(yǔ)境屬性來(lái)表示詞語(yǔ)所在的語(yǔ)言環(huán)境，這樣在檢索時(shí)，可以增加語(yǔ)言環(huán)境的限定，使得檢索結(jié)果的相關(guān)度更好。本發(fā)明特別適合于企業(yè)搜索、垂直搜索等與領(lǐng)域相關(guān)的搜索引擎系統(tǒng)，也適合于通用搜索引擎對(duì)大量“暗網(wǎng)”數(shù)據(jù)的處理。
文檔編號(hào)G06F17/30GK102200975SQ201010132348
公開(kāi)日2011年9月28日申請(qǐng)日期2010年3月25日優(yōu)先權(quán)日2010年3月25日
發(fā)明者晉耀紅申請(qǐng)人:北京師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：晉耀紅
技術(shù)所有人：北京師范大學(xué)
我是此專利的發(fā)明人

上一篇：觸控筆的制作方法
上一篇：一種遙感圖像無(wú)縫鑲嵌拼接線的生成方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)義搜索引擎相關(guān)技術(shù)

語(yǔ)義攻擊利用的是相關(guān)技術(shù)

垂直搜索引擎相關(guān)技術(shù)

垂直搜索引擎有哪些相關(guān)技術(shù)

垂直搜索引擎產(chǎn)品相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種利用語(yǔ)義分析的垂直搜索引擎系統(tǒng)與方法