所確定的多個語義相關(guān)度來確定查詢請求與該候選結(jié)果的最終語義相關(guān)度,本申請在此方 面沒有限制。
[0068] 步驟510進(jìn)一步示出了根據(jù)本申請實(shí)施例的在確定查詢請求與候選結(jié)果的某一 語句之間的語義相關(guān)度的方法的示例性實(shí)現(xiàn)。在此實(shí)現(xiàn)中,語義相關(guān)度主要由兩部分組成: 語句之間的主題匹配相似度以及語句之間的轉(zhuǎn)義因子。
[0069] 具體的,在步驟511中,基于預(yù)先構(gòu)建的點(diǎn)擊轉(zhuǎn)義模型,利用句子間的文本主題匹 配模型計算查詢請求與候選結(jié)果的語句之間的主題匹配相似度。
[0070] 兩個語句之間的主題匹配相似度可以采取多種度量方式來表征。在一些實(shí)現(xiàn)中, 可以采用統(tǒng)一框架的向量空間模型相似度計算方法來計算語句之間的主題匹配相似度。
[0071] 例如,兩個句子可以分別用Sp 52表不如下:
[0074]上述公式中,將句子進(jìn)行分詞,例如第一個句子Si分成m個詞,第二個句子S2分成 n個詞。對分出來的詞進(jìn)行詞性標(biāo)注,從而在各個分詞位置上得到一個詞集合。例如,第一 個句子Si的分詞位置wn上的詞集合為(叫,…W'lu )。該詞集合包括分詞位置Wii對應(yīng)的 原詞、相關(guān)詞和小粒度組成部分。
[0075] 在本文中,相關(guān)詞是指與原詞的語義相同的詞語(或稱同義詞)或語義相近的詞 語,其統(tǒng)稱為相關(guān)詞。可以采用多種方式來挖掘原詞的相關(guān)詞,例如基于Query-Title點(diǎn)擊 對。上述挖掘相關(guān)詞的方法可以使用目前已知的各種方案來實(shí)現(xiàn),此處不再贅述。
[0076] 將句子表示為空間向量之后,可以采取多種度量方式來計算兩個向量之間的相似 性,也即語句之間的主題匹配相似度。這些度量方式包括但不限于,余弦距離或稱余弦相似 度,歐式距離,皮爾森Pearson相關(guān)系數(shù)法或修正的Pearson相關(guān)系數(shù)法。這些計算相似度 或相關(guān)性的方法在本領(lǐng)域中是已知的。以下僅以余弦距離為例進(jìn)行闡述。
[0077] 余弦距離是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大 小的度量。例如可以按下式計算兩個語句之間的主題匹配相似度:
[0079] #對(u),)表示詞的相似度權(quán)重,SentType(Si,s2)表示兩個句子是否匹配所對 應(yīng)的權(quán)重系數(shù),如果兩個句子SpS2問句類型匹配,則對應(yīng)的權(quán)重系數(shù)為第一值,例如1,否 則為第二值,例如0.8。
[0080] 以下結(jié)合一個具體的實(shí)例來描述如何計算兩個語句之間的主題匹配相似度。假設(shè) 第一個句子S1為"華中科技大學(xué)在湖北武漢哪個地方",第二個句子s2為"華科大在武漢市 什么位置"。
[0081] 首先對這兩個句子分別進(jìn)行分詞處理和詞性標(biāo)注。為了簡單起見,在此示例中未 示出詞性標(biāo)注。Si得到的分詞結(jié)果為:"華中科技大學(xué)"、"在"、"湖北"、"武漢"、"哪個地方"。 其中,"華中科技大學(xué)"對應(yīng)的更小分詞粒度的詞語為"華中"、"科技"、"大學(xué)";"哪個地方" 對應(yīng)的更小分詞粒度的詞語為"哪個"、"地方"。s2得到的分詞結(jié)果為:"華科大"、"在"、"武 漢市"、"什么位置"。其中"什么位置"對應(yīng)的更小分詞粒度的詞語為"什么"、"位置"。
[0082] 對分詞后得到的各詞語賦予權(quán)值??蛇x的或附加的,還對語句中語義冗余詞語進(jìn) 行識別,并對冗余的詞語進(jìn)行降權(quán)。語義冗余詞語識別可以使用各種現(xiàn)在已知或未來開發(fā) 的技術(shù)來實(shí)現(xiàn),本申請在此方面沒有限制。在進(jìn)行語義冗余詞語的識別后,例如確定第一個 句子中的"湖北"為語義冗余的詞語,對其進(jìn)行降權(quán)。
[0083] 然后將存在語義映射的詞語映射為歸一化的表述。具體而言,確定第一個句子Si 中"華中科技大學(xué)"映射為"華中科技大學(xué)","武漢"映射為"武漢","哪個地方"映射為"哪 里"。第二個句子s2中"華科大"映射為"華中科技大學(xué)","武漢市"映射為"武漢","什么 位置"映射為"哪里"。
[0084] 此外,對兩個句子的問句類型進(jìn)行匹配。由于疑問詞"哪個"與其上下文出現(xiàn)的名 詞"地方"對應(yīng)的問句類型為"地點(diǎn)",疑問詞"什么"與其上下文出現(xiàn)的名詞"位置"對應(yīng)的 問句類型為"地點(diǎn)",因此可以識別出問句3 1和32屬于相同的問句類型,從而可以確定權(quán)重 系數(shù)SentType^,^)取第一值,例如1。
[0085] 圖6示出了對語句進(jìn)行上述處理的結(jié)果的示意圖。
[0086] 如圖6所示,在第一個句子Si中,"華中科技大學(xué)"、"華中"、"科技"、"大學(xué)"對應(yīng)第 一個語義映射位,"湖北"對應(yīng)第二個語義映射位,"武漢"對應(yīng)第三個語義映射位,"哪個地 方"、"哪個"、"地方"對應(yīng)第四個語義映射位。在第二個句子&中,"華科大"對應(yīng)第一個語 義映射位,"武漢市"對應(yīng)第二個語義映射位,"什么位置"、"什么"、"位置"對應(yīng)第三個語義 映射位。
[0087] 由于"華中科技大學(xué)"和"華科大"映射到相同的歸一化表述,因此"華中科技大學(xué)" 和"華科大"為匹配成功的詞語。"在"是停用詞,將其忽略,不參與計算。"武漢"和"武漢 市"映射為相同的歸一化表述,因此"武漢"和"武漢市"也是匹配成功的詞語。"哪個地方" 和"什么位置"映射為相同的歸一化表述,因此"哪個地方"和"什么位置"也是匹配成功的 1司語。
[0088] 按照上面給出的公式(3)可以計算兩個句子之間的主題匹配相似度:
[0090] 在本申請實(shí)施例中,基于預(yù)先構(gòu)建的點(diǎn)擊轉(zhuǎn)義模型,利用句子間的文本主題匹配 模型計算查詢請求與候選結(jié)果的語句之間的主題匹配相似度可以表現(xiàn)為:利用點(diǎn)擊轉(zhuǎn)義模 型來調(diào)整候選結(jié)果的語句中的某些詞的相似度權(quán)重。
[0091] 詞的初始相似度權(quán)重可以利用文本挖掘領(lǐng)域的已知技術(shù)來分配??梢杂卸嘀胤峙?權(quán)重的方式,常用的例如包括TF-IDF(termfrequency-inversedocumentfrequency)。
[0092]TF-IDF是一種用于信息搜索和信息挖掘的常用加權(quán)技術(shù)。在搜索、文獻(xiàn)分類和其 他相關(guān)領(lǐng)域有廣泛的應(yīng)用。TF-IDF的主要思想是,如果某個詞或短語在一篇文章中出現(xiàn)的 頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力, 適合用來分類。TF詞頻(TermFrequency)指的是某一個給定的詞語在該文件中出現(xiàn)的次 數(shù)。IDF反文檔頻率(InverseDocumentFrequency)的主要思想是:如果包含詞條的文檔 越少,IDF越大,則說明詞條具有很好的類別區(qū)分能力。使用TF和IDF可以計算某個關(guān)鍵 字在某篇文章里面的重要性??梢曰赥F和IDF,利用各種函數(shù)關(guān)系來構(gòu)造詞語的權(quán)重。
[0093] 在一些實(shí)現(xiàn)中,詞語的初始權(quán)重可以按下式計算:
[0095] 其中)為分詞%的詞頻,其可以表示為分詞wlt.在該文檔中出現(xiàn)的次數(shù)與 該文檔分詞的總數(shù)之比;)為分詞叫,.的反文檔頻率,N為總文檔數(shù),出現(xiàn) 分詞wu,的文檔數(shù)。
[0096] 在本申請的一些實(shí)施例中,對各語句中的分詞確定初始權(quán)重之后,可以對候選結(jié) 果的語句中的某些分詞的相似度權(quán)重基于點(diǎn)擊轉(zhuǎn)義模型進(jìn)行調(diào)整。
[0097] 圖7示出了根據(jù)本申請實(shí)施例的基于點(diǎn)擊轉(zhuǎn)義模型調(diào)整分詞相似度權(quán)重的方法 的一種示例性流程圖。
[0098] 如圖7所示,在步驟710中,利用詞對齊從候選結(jié)果的語句中確定與查詢請求中的 詞語對齊的相鄰上文和下文。該步驟與前面結(jié)合圖2描述的構(gòu)建點(diǎn)擊轉(zhuǎn)義模型的步驟220 類似,此處不再贅述。
[0099] 接著,在步驟720中,根據(jù)轉(zhuǎn)義詞典和/或非轉(zhuǎn)義詞典調(diào)整候選結(jié)果的語句中的對 應(yīng)上文和下文的相似度權(quán)重。
[0100] 在此步驟中,針對識別出的相鄰上文和相鄰下文,可以查找轉(zhuǎn)義詞典和非轉(zhuǎn)義詞 典,以對這些相鄰上文和相鄰下文的相似度權(quán)重進(jìn)行調(diào)整。
[0101] 具體而言,若非轉(zhuǎn)義詞典中包括候選結(jié)果的語句中的對應(yīng)詞語及其相鄰上文或相 鄰下文,則降低該相鄰上文或相鄰下文的相似度權(quán)重。若轉(zhuǎn)義詞典中包括候選結(jié)果的語句 中的對應(yīng)詞語及其相鄰上文或相鄰下文,則調(diào)高該相鄰上文或相鄰下文的相似度權(quán)重。如 果非轉(zhuǎn)義詞典和轉(zhuǎn)移詞典中都未找到對應(yīng)詞語及其相鄰上文或相鄰下文,則可以不調(diào)整其 相似度權(quán)重。
[0102] 例如,查詢語句為"中國國旗",候選結(jié)果為"海里有掛滿中國國旗的漁船",相鄰上 文為"掛滿",相鄰下文為"漁船"。針對詞語"中國"和相鄰上文"掛滿",可以首先在原生轉(zhuǎn) 義詞典和非轉(zhuǎn)義詞典中進(jìn)行查找。如果原生非轉(zhuǎn)義詞典中有"中國,掛滿",則可以降低"掛 滿"的相似度權(quán)重,從而提高主題匹配相似度。如果原生轉(zhuǎn)義詞典和非轉(zhuǎn)義詞典中都沒有 "中國,掛滿",可以繼續(xù)查找泛化轉(zhuǎn)義詞典和非轉(zhuǎn)義詞典。如果在泛化非轉(zhuǎn)義詞典中查到 "【地名】,掛滿",則同樣可以對"掛滿"進(jìn)行降權(quán)處理,也即降低"掛滿"的相似度權(quán)重,從而 提高主題匹配相似度。針對詞語"國旗"和相鄰下文"漁船"可以基于同樣的思路進(jìn)行處理, 此處不再贅述。
[0103] 在對詞語的相似度權(quán)重基于點(diǎn)擊轉(zhuǎn)義模型進(jìn)行調(diào)整之后,可以利用上面描述的句 子間的文本主題匹配模型來計算查詢請求與候選結(jié)果的語句之間的主題匹配相似度。
[0104] 例如,可以按如下公式計算查詢請求與候選結(jié)果的語句之間的主題匹配相似度:
[0106] 其中,Sim(Q,S)表示Q和S之間的主題匹配相似度,Q表示查詢請求,S表示候選 結(jié)果的語句,SentType(Q,S)表示兩個句子類型匹配的權(quán)重系數(shù),Wgt(wlk)表示從查詢請求 中得到的詞wlk的相似度權(quán)重,M為詞wlk的數(shù)量,Wgt(w21)表示從候選結(jié)果的語句中得到的 詞w21的相似度權(quán)重,N為詞w21的數(shù)量,其中候選結(jié)果的語句中的某些詞(例如相鄰上文和 /或相鄰下文基于點(diǎn)擊轉(zhuǎn)