搜索方法和裝置制造方法
【專利摘要】本發(fā)明提出一種搜索方法和裝置。其中該方法包括:接收搜索詞;對搜索詞進(jìn)行分析以提取搜索詞中的數(shù)值類需求信息;根據(jù)搜索詞獲取搜索結(jié)果,并根據(jù)數(shù)值類需求信息對搜索結(jié)果進(jìn)行摘要提取以生成搜索結(jié)果對應(yīng)的摘要;以及提供搜索結(jié)果以及搜索結(jié)果對應(yīng)的摘要。本發(fā)明實施例方法,能夠在語義上滿足用戶的搜索需求,同時能夠從文本上保證與搜索詞的相關(guān)性。
【專利說明】搜索方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及搜索【技術(shù)領(lǐng)域】,尤其涉及一種搜索方法和裝置。
【背景技術(shù)】
[0002]隨著計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,國際互聯(lián)網(wǎng)已成為人們發(fā)布信息、獲取信息和交流信息的主要媒體之一。大量的信息資源存在于國際互聯(lián)網(wǎng)中,用戶可以通過國際互聯(lián)網(wǎng)獲取需要的信息,為了提高信息的獲取效率,可通過搜索引擎進(jìn)行搜索以獲取需要的信息。為了使用戶在很短時間內(nèi)了解每個搜索結(jié)果的內(nèi)容,可以提供搜索結(jié)果的摘要給用戶,摘要是能夠全面準(zhǔn)確地反映某個搜索結(jié)果的短文。
[0003]目前,摘要主要包括:靜態(tài)摘要、結(jié)構(gòu)化摘要和動態(tài)摘要。其中,靜態(tài)摘要可以在線下獲取,每個信息資源的摘要固定,存在的問題是,不會因為用戶輸入搜索詞的變化而變化;結(jié)構(gòu)化摘要主要根據(jù)搜索詞的分詞結(jié)果,為搜索詞的每個分詞生成相應(yīng)的摘要,存儲的問題是,覆蓋面小,僅針對特定網(wǎng)頁;動態(tài)摘要主要根據(jù)用戶的當(dāng)前輸入在線生成,例如,可根據(jù)搜索詞在網(wǎng)頁中出現(xiàn)的位置,提取出該位置周圍的相關(guān)內(nèi)容作為摘要,存在的問題是,無法直接將用戶真正需要查找的內(nèi)容提供給用戶。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0005]為此,本發(fā)明的第一個目的在于提出一種搜索方法。該方法能夠在語義上滿足用戶的搜索需求,同時能夠從文本上保證與搜索詞的相關(guān)性。
[0006]本發(fā)明的第二個目的在于提出一種搜索裝置。
[0007]為了實現(xiàn)上述目的,本發(fā)明第一方面實施例的搜索方法,包括:接收搜索詞;對所述搜索詞進(jìn)行分析以提取所述搜索詞中的數(shù)值類需求信息;根據(jù)所述搜索詞獲取搜索結(jié)果,并根據(jù)所述數(shù)值類需求信息對所述搜索結(jié)果進(jìn)行摘要提取以生成所述搜索結(jié)果對應(yīng)的摘要;以及提供所述搜索結(jié)果以及所述搜索結(jié)果對應(yīng)的摘要。
[0008]本發(fā)明實施例的搜索方法,對搜索詞進(jìn)行分析以提取數(shù)值類需求信息,并根據(jù)搜索詞獲取搜索結(jié)果,及根據(jù)數(shù)值類需求信息對搜索結(jié)果進(jìn)行摘要提取以生成搜索結(jié)果對應(yīng)的摘要,并將搜索結(jié)果以及摘要提供給用戶,由于直接根據(jù)搜索詞的數(shù)值類需求信息提取摘要,該摘要能夠直接展現(xiàn)用戶所需求的內(nèi)容,能夠在語義上滿足用戶的搜索需求,同時提取的摘要和搜索結(jié)果同時展現(xiàn),所以能夠從文本上保證與搜索詞的相關(guān)性,從而大大提升了用戶體驗。
[0009]為了實現(xiàn)上述目的,本發(fā)明第二方面實施例的搜索裝置,包括:接收模塊,用于接收搜索詞;數(shù)值類需求信息提取模塊,用于對所述搜索詞進(jìn)行分析以提取所述搜索詞中的數(shù)值類需求信息;摘要生成模塊,用于根據(jù)所述搜索詞獲取搜索結(jié)果,并根據(jù)所述數(shù)值類需求信息對所述搜索結(jié)果進(jìn)行摘要提取以生成所述搜索結(jié)果對應(yīng)的摘要;以及提供模塊,用于提供所述搜索結(jié)果以及所述搜索結(jié)果對應(yīng)的摘要。[0010]本發(fā)明實施例的搜索裝置,對搜索詞進(jìn)行分析以提取數(shù)值類需求信息,并根據(jù)搜索詞獲取搜索結(jié)果,及根據(jù)數(shù)值類需求信息對搜索結(jié)果進(jìn)行摘要提取以生成搜索結(jié)果對應(yīng)的摘要,并將搜索結(jié)果以及摘要提供給用戶,由于直接根據(jù)搜索詞的數(shù)值類需求信息提取摘要,該摘要能夠直接展現(xiàn)用戶所需求的內(nèi)容,能夠在語義上滿足用戶的搜索需求,同時提取的摘要和搜索結(jié)果同時展現(xiàn),所以能夠從文本上保證與搜索詞的相關(guān)性,從而大大提升了用戶體驗。
[0011]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中,
[0013]圖1是根據(jù)本發(fā)明一個實施例的搜索方法的流程圖;
[0014]圖2 Ca)是根據(jù)本發(fā)明一個實施例的一個效果示意圖;
[0015]圖2 (b)是根據(jù)本發(fā)明一個實施例的另一個效果示意圖;
[0016]圖3是根據(jù)本發(fā)明一個實施例的S103的具體實施過程的流程圖;
[0017]圖4是根據(jù)本發(fā)明一個實施例的S1031的具體實施過程的流程圖;
[0018]圖5是根據(jù)本發(fā)明一個實施例的搜索裝置的結(jié)構(gòu)示意圖;
[0019]圖6是根據(jù)本發(fā)明另一個實施例的搜索裝置的結(jié)構(gòu)示意圖;
[0020]圖7是根據(jù)本發(fā)明一個實施例的需求數(shù)值信息提取單元的結(jié)構(gòu)示意圖。
【具體實施方式】
[0021]下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0022]在本發(fā)明的描述中,需要理解的是,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。此外,在本發(fā)明的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。
[0023]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實施例所屬【技術(shù)領(lǐng)域】的技術(shù)人員所理解。
[0024]目前,最常用的摘要為結(jié)構(gòu)化摘要和動態(tài)摘要,但是都沒有從語義的角度出發(fā),例如,用戶搜索“姚明的身高”,該用戶最希望得到的結(jié)果是姚明的具體身高,例如“2.26米”等,而現(xiàn)有的摘要主要是基于搜索詞的文本特征而提取的,主要是姚明的相關(guān)信息,為了解決現(xiàn)有的摘要無法滿足用戶的真實需要即根據(jù)語義提取的缺陷,本發(fā)明提出一種搜索方法和裝置。
[0025]下面參考附圖描述根據(jù)本發(fā)明實施例的搜索方法和裝置。
[0026]圖1是根據(jù)本發(fā)明一個實施例的搜索方法的流程圖。
[0027]如圖1所示,搜索方法包括:
[0028]SlOl,接收搜索詞。
[0029]具體地,在本發(fā)明的實施例中,用戶可在搜索引擎提供的輸入框中輸入搜索詞,搜索引擎接收到用戶輸入的搜索詞,本方法的實施例對輸入框不進(jìn)行限定。舉例來說,用戶在搜索弓I擎的輸入框中輸入“姚明的身高”。
[0030]S102,對搜索詞進(jìn)行分析以提取搜索詞中的數(shù)值類需求信息。
[0031]舉例來說,用戶輸入的搜索詞是“姚明的身高”,對該搜索詞進(jìn)行分析,可以獲知該用戶需求信息是姚明的具體身高,所以提取搜索詞中的數(shù)值類需求信息為“身高”。
[0032]S103,根據(jù)搜索詞獲取搜索結(jié)果,并根據(jù)數(shù)值類需求信息對搜索結(jié)果進(jìn)行摘要提取以生成搜索結(jié)果對應(yīng)的摘要。
[0033]舉例來說,根據(jù)搜索詞“姚明的身高”獲取搜索結(jié)果,該搜索結(jié)果可包括多個,分別為與“姚明”有關(guān)的網(wǎng)頁,然后根據(jù)“身高”對每個搜索結(jié)果進(jìn)行摘要提取,例如,在相應(yīng)的搜索結(jié)果中提取的摘要中包含“姚明的身高”的具體數(shù)值“226cm”等。
[0034]S104,提供搜索結(jié)果以及搜索結(jié)果對應(yīng)的摘要。
[0035]舉例來說,如圖2 (a)所示的為本發(fā)明實施例的搜索方法的一個效果示例圖,如圖2 (b)所示的為本發(fā)明實施例的搜索方法的另一個效果示例圖。
[0036]本發(fā)明實施例的搜索方法,對搜索詞進(jìn)行分析以提取數(shù)值類需求信息,并根據(jù)搜索詞獲取搜索結(jié)果,及根據(jù)數(shù)值類需求信息對搜索結(jié)果進(jìn)行摘要提取以生成搜索結(jié)果對應(yīng)的摘要,并將搜索結(jié)果以及摘要提供給用戶,由于直接根據(jù)搜索詞的數(shù)值類需求信息提取摘要,該摘要能夠直接展現(xiàn)用戶所需求的內(nèi)容,能夠在語義上滿足用戶的搜索需求,同時提取的摘要和搜索結(jié)果同時展現(xiàn),所以能夠從文本上保證與搜索詞的相關(guān)性,從而大大提升了用戶體驗。
[0037]結(jié)合上述實施例,下面具體介紹S102中對搜索詞進(jìn)行分析以提取搜索詞中的數(shù)值類需求信息的實施過程。具體地,在本發(fā)明的實施例中,數(shù)值類需求信息包括數(shù)值類型。例如,數(shù)值類型可以為重量(WEIGHT)、速度(SPEED)、年齡(AGE)、溫度(TEMPERATURE)、體積(CAPACITY)、面積(AREA)、百分比(PERCENT)、價格(PRICE)、尺寸(SIZE)、長度/高度/距離(LENGTH)、電話(PHONE)和數(shù)值(VALUE)等,應(yīng)理解的是,數(shù)值類型不僅限于此,本發(fā)明的實施例不對數(shù)值類型進(jìn)行限定。
[0038]在本發(fā)明的實施例中,S102具體包括:在預(yù)設(shè)疑問詞表中查詢搜索詞,其中預(yù)設(shè)疑問詞表包括多個預(yù)設(shè)疑問詞及每個預(yù)設(shè)疑問詞的類型,并將查詢到的預(yù)設(shè)疑問詞的類型作為數(shù)值類需求信息的數(shù)值類型。
[0039]舉例來說,如果搜索詞是疑問句的形式,則可預(yù)設(shè)疑問詞表中查詢獲取該搜索詞對應(yīng)的數(shù)值類型。其中,預(yù)設(shè)疑問詞表包括多個預(yù)設(shè)疑問詞及每個預(yù)設(shè)疑問詞的類型,例如,預(yù)設(shè)疑問詞表中的預(yù)設(shè)疑問詞為“身高是多少”,該預(yù)設(shè)疑問詞的類型為“高度”;又如,預(yù)設(shè)疑問詞為“年齡是多少”,該預(yù)設(shè)疑問詞的類型為“年齡”。當(dāng)用戶搜索“姚明的身高是多少”時,將查詢到的預(yù)設(shè)疑問詞的類型“高度”作為數(shù)值類需求信息的數(shù)值類型。
[0040]在本發(fā)明的另一實施例中,S102具體包括:在實體-屬性表中查詢搜索詞,并在查詢到搜索詞的匹配實體時,將匹配實體對應(yīng)的類型作為數(shù)值類需求信息的數(shù)值類型。
[0041]舉例來說,還可以在在實體-屬性表中查詢搜索詞以獲取數(shù)值類型。例如,搜索詞為“姚明的身高”,則在實體-屬性表中查詢搜索詞,并在查詢到搜索詞的匹配實體(如,“人的身高”)時,將匹配實體對應(yīng)的類型(“高度”)作為數(shù)值類需求信息的數(shù)值類型。
[0042]應(yīng)理解的是,還可以根據(jù)現(xiàn)有的任何語義分析技術(shù)對搜索詞進(jìn)行分析以提取搜索詞中的數(shù)值類需求信息,上述實施例僅為舉例說明,本發(fā)明對此不進(jìn)行限定。
[0043]結(jié)合上述實施例,下面具體介紹S103中根據(jù)數(shù)值類需求信息對搜索結(jié)果進(jìn)行摘要提取的具體實施過程。
[0044]圖3是根據(jù)本發(fā)明一個實施例的S103的具體實施過程的流程圖。
[0045]在本發(fā)明的實施例中,如圖3所示,S103具體包括:
[0046]S1031,根據(jù)數(shù)值類型提取搜索結(jié)果中的需求數(shù)值信息。
[0047]具體地,以搜索詞為“姚明的身高”為例,則數(shù)值類型為“高度”,那么根據(jù)“高度”提取搜索結(jié)果中的需求數(shù)值信息“ 226cm”。
[0048]S1032,將需求數(shù)值信息作為強(qiáng)特征信息以生成搜索結(jié)果對應(yīng)的摘要。
[0049]具體地,將需求數(shù)值信息(如,“226cm”)作為強(qiáng)特征信息以生成搜索結(jié)果對應(yīng)的摘要,例如,生成的摘要為“姚明的身高為226cm”或“226cm”,或者生成的摘要中除了包含“226cm”還包括其它有關(guān)姚明的信息。
[0050]結(jié)合上述實施例,下面具體介紹S1031中根據(jù)數(shù)值類需求信息對搜索結(jié)果進(jìn)行摘要提取的具體實施過程。
[0051]圖4是根據(jù)本發(fā)明一個實施例的S1031的具體實施過程的流程圖。
[0052]在本發(fā)明的實施例中,如圖4所示,S1031具體包括:
[0053]S201,根據(jù)數(shù)值類型判斷是否進(jìn)行第一匹配。
[0054]在本發(fā)明的實施例中,第一匹配為純數(shù)值匹配。例如,搜索詞為“姚明的身高”時,可以確定具體的領(lǐng)域,則可以先進(jìn)行指定領(lǐng)域的第二匹配(將在后續(xù)實施例中介紹),之后再進(jìn)行第一匹配。又如,搜索詞為“一共多少人參加會議”時,不能夠確定具體的領(lǐng)域,則可以直接進(jìn)行第一匹配。
[0055]S202,如果否,則根據(jù)數(shù)值類型確定具有前后綴的匹配模板,并根據(jù)匹配模板在搜索結(jié)果中進(jìn)行第二匹配以獲取第一數(shù)值信息,并繼續(xù)執(zhí)行步驟S203以進(jìn)行第一匹配。
[0056]在本發(fā)明的實施例中,第二匹配為具有前后綴的匹配(即指定領(lǐng)域的匹配)。例如,搜索詞為“姚明的身高”時,根據(jù)數(shù)值類型“身高”確定具有前后綴的匹配模板,例如匹配模板中的前綴為“姚明”,后綴為“cm或m”等,根據(jù)匹配模板在搜索結(jié)果中進(jìn)行匹配以獲取第一數(shù)值信息(如 “2.26m”、“226cm” 等)。
[0057]S203,如果是,則提取搜索結(jié)果中的多個待選數(shù)值信息,并判斷每個待選數(shù)值信息是否是以詞典元素為前驅(qū)或后繼。
[0058]具體地,如果進(jìn)行第一匹配,即純數(shù)值匹配,則提取搜索結(jié)果中的多個待選數(shù)值信息,其中,多個待選數(shù)值信息中可能包括召回的覆蓋其他領(lǐng)域的數(shù)值信息,例如,輸入“汽車時速80km/h”,如果想識別與“重量”相關(guān)的數(shù)值信息則會誤召回“80”,所以需要根據(jù)數(shù)值類型對多個待選數(shù)值信息進(jìn)行篩選??赏ㄟ^詞典匹配進(jìn)行前驅(qū)后繼驗證來解決上述問題,首先需要判斷每個待選數(shù)值信息是否是以詞典元素為前驅(qū)或后繼,例如,詞典元素為“時速”或“ km/h ”,則需要判斷待選數(shù)值信息“ 80 ”是否以“時速”或“ km/h ”為前驅(qū)或后繼。
[0059]S204,如果待選數(shù)值信息是以詞典元素為前驅(qū)或后繼,則剔除對應(yīng)的待選數(shù)值信息,以獲取第二數(shù)值信息。
[0060]具體地,如S203中的舉例,待選數(shù)值信息“80”以“時速”為前驅(qū),以“km/h”為后
繼,則將待選數(shù)值信息“ 80 ”剔除。
[0061]S205,如果待選數(shù)值信息不是以詞典元素為前驅(qū)或后繼,則對每個待選數(shù)值信息所在句子進(jìn)行分詞,或?qū)γ總€待選數(shù)值信息的后繼詞進(jìn)行詞性標(biāo)注。
[0062]具體地,在進(jìn)行純數(shù)值匹配時,尤其是對中文數(shù)值匹配時會誤召回一些單個漢字的結(jié)果,但是在上下文中這個漢字并不是用于表示數(shù)量的,例如,“一共多少人參加會議”,則會召回“一”。那么,則對每個待選數(shù)值信息所在句子進(jìn)行分詞,在分詞結(jié)果中“一共”是一個切詞單元。
[0063]又如,在進(jìn)行純數(shù)值匹配時,會召回其他領(lǐng)域的數(shù)值信息,例如,“現(xiàn)在的網(wǎng)速是100兆的,試一下你就知道”,在這句中實際上沒有我們想召回的數(shù)值信息,但是會召回“100”和“一”。對此,可以對每個待選數(shù)值信息的后繼詞進(jìn)行詞性標(biāo)注。例如,對“100”的后繼詞“兆”進(jìn)行詞性標(biāo)注,標(biāo)注為量詞。
[0064]S206,判斷每個待選數(shù)值信息是否跨越分詞邊界,或以未知量詞為后繼詞。
[0065]具體地,判斷每個待選數(shù)值信息是否跨越分詞邊界,或以未知量詞為后繼詞。例如,在S205的舉例中,由于“一共”是一個切詞單元,那么待選數(shù)值信息“一”跨越了分詞邊界;而待選數(shù)值信息“ 100”的后繼詞“兆”為搜索詞所在領(lǐng)域之外的未知量詞。
[0066]S207,如果待選數(shù)值信息跨越分詞邊界,或待選數(shù)值信息以未知量詞為后繼詞,則剔除對應(yīng)的待選數(shù)值信息,以獲取第二數(shù)值信息。
[0067]具體地,在S206的舉例中,由于“一共”是一個切詞單元,那么待選數(shù)值信息“一”跨越了分詞邊界,則剔除待選數(shù)值信息“一”;待選數(shù)值信息“100”以未知量詞為后繼詞,則剔除待選數(shù)值信息“100”。
[0068]S208,根據(jù)第一匹配和第二匹配的置信度在第一數(shù)值信息和第二數(shù)值信息中確定需求數(shù)值信息,其中第一匹配的置信度小于第二匹配的置信度。
[0069]在本發(fā)明的實施例中,第二匹配屬于精準(zhǔn)匹配,置信度可以設(shè)置為1,第一匹配由于不能確定領(lǐng)域,置信度可以設(shè)置為0.5。那么在確定需求數(shù)值信息時,可以根據(jù)置信度進(jìn)行篩選。
[0070]在本發(fā)明的實施例中,S208在S204之后執(zhí)行,或者在S207之后執(zhí)行。
[0071]本發(fā)明實施例的搜索方法,通過純數(shù)值匹配和/或具有前后綴的匹配對待選數(shù)值信息進(jìn)行篩選,提高了篩選的準(zhǔn)確度,進(jìn)一步提升了用戶體驗。
[0072]為了實現(xiàn)上述實施例,本發(fā)明還提出一種搜索裝置。
[0073]圖5是根據(jù)本發(fā)明一個實施例的搜索裝置的結(jié)構(gòu)示意圖。
[0074]如圖5所示,根據(jù)本發(fā)明實施例的搜索裝置包括:接收模塊100、數(shù)值類需求信息提取模塊200、摘要生成模塊300和提供模塊400。
[0075]具體地,接收模塊100用于接收搜索詞。其中,在本發(fā)明的實施例中,用戶可在搜索引擎提供的輸入框中輸入搜索詞,接收模塊100接收到用戶輸入的搜索詞,本方法的實施例對輸入框不進(jìn)行限定。舉例來說,用戶在搜索引擎的輸入框中輸入“姚明的身高”。
[0076]數(shù)值類需求信息提取模塊200用于對搜索詞進(jìn)行分析以提取搜索詞中的數(shù)值類需求信息。舉例來說,用戶輸入的搜索詞是“姚明的身高”,數(shù)值類需求信息提取模塊200對該搜索詞進(jìn)行分析,可以獲知該用戶需求信息是姚明的具體身高,所以提取搜索詞中的數(shù)值類需求信息為“身高”。
[0077]摘要生成模塊300用于根據(jù)搜索詞獲取搜索結(jié)果,并根據(jù)數(shù)值類需求信息對搜索結(jié)果進(jìn)行摘要提取以生成搜索結(jié)果對應(yīng)的摘要。舉例來說,根據(jù)搜索詞“姚明的身高”獲取搜索結(jié)果,該搜索結(jié)果可包括多個,分別為與“姚明”有關(guān)的網(wǎng)頁,然后根據(jù)“身高”對每個搜索結(jié)果進(jìn)行摘要提取,例如,在相應(yīng)的搜索結(jié)果中提取的摘要中包含“姚明的身高”的具體數(shù)值“226cm”等。
[0078]提供模塊400用于提供搜索結(jié)果以及搜索結(jié)果對應(yīng)的摘要。
[0079]舉例來說,如圖2 (a)所示的為本發(fā)明實施例的搜索方法的一個效果示例圖,如圖2 (b)所示的為本發(fā)明實施例的搜索方法的另一個效果示例圖。
[0080]本發(fā)明實施例的搜索裝置,對搜索詞進(jìn)行分析以提取數(shù)值類需求信息,并根據(jù)搜索詞獲取搜索結(jié)果,及根據(jù)數(shù)值類需求信息對搜索結(jié)果進(jìn)行摘要提取以生成搜索結(jié)果對應(yīng)的摘要,并將搜索結(jié)果以及摘要提供給用戶,由于直接根據(jù)搜索詞的數(shù)值類需求信息提取摘要,該摘要能夠直接展現(xiàn)用戶所需求的內(nèi)容,能夠在語義上滿足用戶的搜索需求,同時提取的摘要和搜索結(jié)果同時展現(xiàn),所以能夠從文本上保證與搜索詞的相關(guān)性,從而大大提升了用戶體驗。
[0081 ] 在本發(fā)明的實施例中,數(shù)值類需求信息包括數(shù)值類型。例如,數(shù)值類型可以為重量(WEIGHT )、速度(SPEED )、年齡(AGE )、溫度(TEMPERATURE )、體積(CAPACITY )、面積(AREA )、百分比(PERCENT )、價格(PRICE )、尺寸(SIZE )、長度/高度/距離(LENGTH)、電話(PHONE )和數(shù)值(VALUE)等,應(yīng)理解的是,數(shù)值類型不僅限于此,本發(fā)明的實施例不對數(shù)值類型進(jìn)行限定。
[0082]在本發(fā)明的實施例中,數(shù)值類需求信息提取模塊200具體用于在預(yù)設(shè)疑問詞表中查詢搜索詞,其中預(yù)設(shè)疑問詞表包括多個預(yù)設(shè)疑問詞及每個預(yù)設(shè)疑問詞的類型,并將查詢到的預(yù)設(shè)疑問詞的類型作為數(shù)值類需求信息的數(shù)值類型。
[0083]舉例來說,如果搜索詞是疑問句的形式,則可預(yù)設(shè)疑問詞表中查詢獲取該搜索詞對應(yīng)的數(shù)值類型。其中,預(yù)設(shè)疑問詞表包括多個預(yù)設(shè)疑問詞及每個預(yù)設(shè)疑問詞的類型,例如,預(yù)設(shè)疑問詞表中的預(yù)設(shè)疑問詞為“身高是多少”,該預(yù)設(shè)疑問詞的類型為“高度”;又如,預(yù)設(shè)疑問詞為“年齡是多少”,該預(yù)設(shè)疑問詞的類型為“年齡”。當(dāng)用戶搜索“姚明的身高是多少”時,將查詢到的預(yù)設(shè)疑問詞的類型“高度”作為數(shù)值類需求信息的數(shù)值類型。
[0084]在本發(fā)明的另一實施例中,數(shù)值類需求信息提取模塊200具體用于在實體-屬性表中查詢搜索詞,并在查詢到搜索詞的匹配實體時,將匹配實體對應(yīng)的類型作為數(shù)值類需求信息的數(shù)值類型。
[0085]舉例來說,還可以在在實體-屬性表中查詢搜索詞以獲取數(shù)值類型。例如,搜索詞為“姚明的身高”,則在實體-屬性表中查詢搜索詞,并在查詢到搜索詞的匹配實體(如,“人的身高”)時,將匹配實體對應(yīng)的類型(“高度”)作為數(shù)值類需求信息的數(shù)值類型。
[0086]應(yīng)理解的是,還可以根據(jù)現(xiàn)有的任何語義分析技術(shù)對搜索詞進(jìn)行分析以提取搜索詞中的數(shù)值類需求信息,上述實施例僅為舉例說明,本發(fā)明對此不進(jìn)行限定。
[0087]圖6是根據(jù)本發(fā)明另一個實施例的搜索裝置的結(jié)構(gòu)示意圖。
[0088]如圖6所示,根據(jù)本發(fā)明實施例的搜索裝置包括:接收模塊100、數(shù)值類需求信息提取模塊200、摘要生成模塊300和提供模塊400,其中,摘要生成模塊300包括需求數(shù)值信息提取單元310和摘要生成單元320。
[0089]具體地,需求數(shù)值信息提取單元310用于根據(jù)數(shù)值類型提取搜索結(jié)果中的需求數(shù)值信息。更具體地,以搜索詞為“姚明的身高”為例,則數(shù)值類型為“高度”,那么根據(jù)“高度”提取搜索結(jié)果中的需求數(shù)值信息“226cm”。
[0090]摘要生成單元320用于將需求數(shù)值信息作為強(qiáng)特征信息以生成搜索結(jié)果對應(yīng)的摘要。更具體地,將需求數(shù)值信息(如,“226cm”)作為強(qiáng)特征信息以生成搜索結(jié)果對應(yīng)的摘要,例如,生成的摘要為“姚明的身高為226cm”或“226cm”,或者生成的摘要中除了包含“226cm”還包括其它有關(guān)姚明的信息。
[0091]結(jié)合上述實施例,下面具體介紹需求數(shù)值信息提取單元310。
[0092]圖7是根據(jù)本發(fā)明一個實施例的需求數(shù)值信息提取單元的結(jié)構(gòu)示意圖。
[0093]在本發(fā)明的實施例中,如圖7所示,需求數(shù)值信息提取單元310包括:判斷子單元311、第一數(shù)值信息獲取子單元312、第二數(shù)值信息獲取子單元313和選擇子單元314。
[0094]具體地,判斷子單元311用于根據(jù)數(shù)值類型判斷是否進(jìn)行第一匹配。
[0095]在本發(fā)明的實施例中,第一匹配為純數(shù)值匹配。例如,搜索詞為“姚明的身高”時,可以確定具體的領(lǐng)域,則可以先進(jìn)行指定領(lǐng)域的第二匹配(將在后續(xù)實施例中介紹),之后再進(jìn)行第一匹配。又如,搜索詞為“一共多少人參加會議”時,不能夠確定具體的領(lǐng)域,則可以直接進(jìn)行第一匹配。
[0096]第一數(shù)值信息獲取子單元312用于在判斷子單元311判斷不進(jìn)行第一匹配時,根據(jù)數(shù)值類型確定具有前后綴的匹配模板,并根據(jù)匹配模板在搜索結(jié)果中進(jìn)行第二匹配以獲取第一數(shù)值信息。
[0097]在本發(fā)明的實施例中,在本發(fā)明的實施例中,第二匹配為具有前后綴的匹配(即指定領(lǐng)域的匹配)。例如,搜索詞為“姚明的身高”時,根據(jù)數(shù)值類型“身高”確定具有前后綴的匹配模板,例如匹配模板中的前綴為“姚明”,后綴為“cm或m”等,根據(jù)匹配模板在搜索結(jié)果中進(jìn)行匹配以獲取第一數(shù)值信息(如“ 2.26m”、“ 226cm”等)。
[0098]第二數(shù)值信息獲取子單元313用于在判斷子單元311判斷進(jìn)行第一匹配時,提取搜索結(jié)果中的多個待選數(shù)值信息,并根據(jù)數(shù)值類型對多個待選數(shù)值信息進(jìn)行篩選以獲取第
二數(shù)值信息。
[0099]具體地,如果進(jìn)行第一匹配,即純數(shù)值匹配,則提取搜索結(jié)果中的多個待選數(shù)值信息,其中,多個待選數(shù)值信息中可能包括召回的覆蓋其他領(lǐng)域的數(shù)值信息,例如,輸入“汽車時速80km/h”,如果想識別與“重量”相關(guān)的數(shù)值信息則會誤召回“80”,所以需要根據(jù)數(shù)值類型對多個待選數(shù)值信息進(jìn)行篩選以獲取第二數(shù)值信息。
[0100]選擇子單元314用于根據(jù)第一匹配和第二匹配的置信度在第一數(shù)值信息和第二數(shù)值信息中確定需求數(shù)值信息,其中第一匹配的置信度小于第二匹配的置信度。
[0101]在本發(fā)明的實施例中,第二匹配屬于精準(zhǔn)匹配,置信度可以設(shè)置為1,第一匹配由于不能確定領(lǐng)域,置信度可以設(shè)置為0.5。那么在確定需求數(shù)值信息時,可以根據(jù)置信度進(jìn)行篩選。
[0102]結(jié)合上述實施例,下面具體介紹第二數(shù)值信息獲取子單元313的功能。
[0103]在本發(fā)明的實施例中,第二數(shù)值信息獲取子單元313具體用于判斷每個待選數(shù)值信息是否是以詞典元素為前驅(qū)或后繼;如果是,則剔除對應(yīng)的待選數(shù)值信息;如果否,則對每個待選數(shù)值信息所在句子進(jìn)行分詞,或?qū)γ總€待選數(shù)值信息的后繼詞進(jìn)行詞性標(biāo)注;判斷每個待選數(shù)值信息是否跨越分詞邊界,或以未知量詞為后繼詞;如果是,則剔除對應(yīng)的待選數(shù)值信息。
[0104]具體地,舉例來說,在進(jìn)行純數(shù)值匹配時,會召回其他領(lǐng)域的數(shù)值信息,例如,輸入“汽車時速80km/h”,如果想識別與“重量”相關(guān)的數(shù)值信息則會誤召回“80”。那么可通過詞典匹配進(jìn)行前驅(qū)后繼驗證來解決。首先需要判斷每個待選數(shù)值信息是否是以詞典元素為前驅(qū)或后繼,例如,詞典元素為“時速”或“km/h”,則需要判斷待選數(shù)值信息“80”是否以“時速”或“km/h”為前驅(qū)或后繼,待選數(shù)值信息“80”以“時速”為前驅(qū),以“km/h”為后繼,則將待選數(shù)值信息“80”剔除。
[0105]具體地,在進(jìn)行純數(shù)值匹配時,尤其是對中文數(shù)值匹配時會誤召回一些單個漢字的結(jié)果,但是在上下文中這個漢字并不是用于表示數(shù)量的,例如,“一共多少人參加會議”,則會召回“一”。那么,則對每個待選數(shù)值信息所在句子進(jìn)行分詞,在分詞結(jié)果中“一共”是一個切詞單元,那么待選數(shù)值信息“一”跨越了分詞邊界。
[0106]又如,在進(jìn)行純數(shù)值匹配時,會召回其他領(lǐng)域的數(shù)值信息,例如,“現(xiàn)在的網(wǎng)速是100兆的,試一下你就知道”,在這句中實際上沒有我們想召回的數(shù)值信息,但是會召回“100”和“一”。對此,可以對每個待選數(shù)值信息的后繼詞進(jìn)行詞性標(biāo)注。例如,對“100”的后繼詞“兆”進(jìn)行詞性標(biāo)注,標(biāo)注為量詞。而待選數(shù)值信息“ 100”的后繼詞“兆”為搜索詞所在領(lǐng)域之外的未知量詞,所以剔除待選數(shù)值信息“100”。
[0107]本發(fā)明實施例的搜索裝置,通過純數(shù)值匹配和/或具有前后綴的匹配對待選數(shù)值信息進(jìn)行篩選,提高了篩選的準(zhǔn)確度,進(jìn)一步提升了用戶體驗。
[0108]應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
[0109]在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
[0110]盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同物限定。
【權(quán)利要求】
1.一種搜索方法,其特征在于,包括: 接收搜索詞; 對所述搜索詞進(jìn)行分析以提取所述搜索詞中的數(shù)值類需求信息; 根據(jù)所述搜索詞獲取搜索結(jié)果,并根據(jù)所述數(shù)值類需求信息對所述搜索結(jié)果進(jìn)行摘要提取以生成所述搜索結(jié)果對應(yīng)的摘要;以及 提供所述搜索結(jié)果以及所述搜索結(jié)果對應(yīng)的摘要。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)值類需求信息包括數(shù)值類型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對搜索詞進(jìn)行分析以提取所述搜索詞中的數(shù)值類需求信息具體包括: 在預(yù)設(shè)疑問詞表中查詢所述搜索詞,其中所述預(yù)設(shè)疑問詞表包括多個預(yù)設(shè)疑問詞及每個預(yù)設(shè)疑問詞的類型,并將查詢到的所述預(yù)設(shè)疑問詞的類型作為所述數(shù)值類需求信息的所述數(shù)值類型;或 在實體-屬性表中查詢所述搜索詞,并在查詢到所述搜索詞的匹配實體時,將所述匹配實體對應(yīng)的類型作為所述數(shù)值類需求信息的所述數(shù)值類型。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述根據(jù)數(shù)值類需求信息對所述搜索結(jié)果進(jìn)行摘要提取具體包括: 根據(jù)所述數(shù)值類型提取所述搜索結(jié)果中的需求數(shù)值信息;以及 將所述需求數(shù)值信息作為強(qiáng)特征信息以生成所述搜索結(jié)果對應(yīng)的摘要。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)數(shù)值類型提取所述搜索結(jié)果中的需求數(shù)值信息具體包括: 51:根據(jù)所述數(shù)值類型判斷是否進(jìn)行第一匹配; 52:如果否,則根據(jù)所述數(shù)值類型確定具有前后綴的匹配模板,并根據(jù)所述匹配模板在所述搜索結(jié)果中進(jìn)行第二匹配以獲取第一數(shù)值信息,并繼續(xù)執(zhí)行步驟S3以進(jìn)行所述第一匹配; S3:如果是,則提取所述搜索結(jié)果中的多個待選數(shù)值信息,并根據(jù)所述數(shù)值類型對所述多個待選數(shù)值信息進(jìn)行篩選以獲取第二數(shù)值信息; S4:根據(jù)所述第一匹配和所述第二匹配的置信度在所述第一數(shù)值信息和所述第二數(shù)值信息中確定所述需求數(shù)值信息,其中所述第一匹配的置信度小于所述第二匹配的置信度。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)數(shù)值類型對所述多個待選數(shù)值信息進(jìn)行篩選以獲取第二數(shù)值信息具體包括: 判斷每個待選數(shù)值信息是否是以詞典元素為前驅(qū)或后繼; 如果是,則剔除對應(yīng)的所述待選數(shù)值信息; 如果否,則對所述每個待選數(shù)值信息所在句子進(jìn)行分詞,或?qū)λ雒總€待選數(shù)值信息的后繼詞進(jìn)行詞性標(biāo)注; 判斷所述每個待選數(shù)值信息是否跨越分詞邊界,或以未知量詞為所述后繼詞; 如果是,則剔除對應(yīng)的所述待選數(shù)值信息。
7.一種搜索裝置,其特征在于,包括: 接收模塊,用于接收搜索詞; 數(shù)值類需求信息提取模塊,用于對所述搜索詞進(jìn)行分析以提取所述搜索詞中的數(shù)值類需求息; 摘要生成模塊,用于根據(jù)所述搜索詞獲取搜索結(jié)果,并根據(jù)所述數(shù)值類需求信息對所述搜索結(jié)果進(jìn)行摘要提取以生成所述搜索結(jié)果對應(yīng)的摘要;以及提供模塊,用于提供所述搜索結(jié)果以及所述搜索結(jié)果對應(yīng)的摘要。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述數(shù)值類需求信息包括數(shù)值類型。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述數(shù)值類需求信息提取模塊具體用于, 在預(yù)設(shè)疑問詞表中查詢所述搜索詞,其中所述預(yù)設(shè)疑問詞表包括多個預(yù)設(shè)疑問詞及每個預(yù)設(shè)疑問詞的類型,并將查詢到的所述預(yù)設(shè)疑問詞的類型作為所述數(shù)值類需求信息的所述數(shù)值類型;或 在實體-屬性表中查詢所述搜索詞,并在查詢到所述搜索詞的匹配實體時,將所述匹配實體對應(yīng)的類型作為所述數(shù)值類需求信息的所述數(shù)值類型。
10.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述摘要生成模塊包括: 需求數(shù)值信息提取單元,用于根據(jù)所述數(shù)值類型提取所述搜索結(jié)果中的需求數(shù)值信息;以及 摘要生成單元,用于將所述需求數(shù)值信息作為強(qiáng)特征信息以生成所述搜索結(jié)果對應(yīng)的摘要。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述需求數(shù)值信息提取單元包括: 判斷子單元,用于根據(jù)所述數(shù)值類型判斷是否進(jìn)行第一匹配; 第一數(shù)值信息獲取子單元,用于在所述判斷子單元判斷不進(jìn)行第一匹配時,根據(jù)所述數(shù)值類型確定具有前后綴的匹配模板,并根據(jù)所述匹配模板在所述搜索結(jié)果中進(jìn)行第二匹配以獲取第一數(shù)值信息; 第二數(shù)值信息獲取子單元,用于在所述判斷子單元判斷進(jìn)行第一匹配時,提取所述搜索結(jié)果中的多個待選數(shù)值信息,并根據(jù)所述數(shù)值類型對所述多個待選數(shù)值信息進(jìn)行篩選以獲取第二數(shù)值信息;以及 選擇子單元,用于根據(jù)所述第一匹配和所述第二匹配的置信度在所述第一數(shù)值信息和所述第二數(shù)值信息中確定所述需求數(shù)值信息,其中所述第一匹配的置信度小于所述第二匹配的置信度。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述第二數(shù)值信息獲取子單元具體用于, 判斷每個待選數(shù)值信息是否是以詞典元素為前驅(qū)或后繼; 如果是,則剔除對應(yīng)的所述待選數(shù)值信息; 如果否,則對所述每個待選數(shù)值信息所在句子進(jìn)行分詞,或?qū)λ雒總€待選數(shù)值信息的后繼詞進(jìn)行詞性標(biāo)注; 判斷所述每個待選數(shù)值信息是否跨越分詞邊界,或以未知量詞為所述后繼詞; 如果是,則剔除對應(yīng)的所述待選數(shù)值信息。
【文檔編號】G06F17/30GK104035955SQ201410100928
【公開日】2014年9月10日 申請日期:2014年3月18日 優(yōu)先權(quán)日:2014年3月18日
【發(fā)明者】陳洪亮, 呼大為, 張衛(wèi)星 申請人:北京百度網(wǎng)訊科技有限公司