本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤其涉及一種搜索結(jié)果摘要的生成方法及裝置。
背景技術(shù):
搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供搜索服務(wù),將用戶搜索相關(guān)的信息展示給用戶的系統(tǒng)。據(jù)國(guó)家統(tǒng)計(jì)局的報(bào)道,中國(guó)網(wǎng)民人數(shù)已經(jīng)超過(guò)了4億,這個(gè)數(shù)據(jù)意味著中國(guó)已經(jīng)超過(guò)美國(guó)成為世界上第一大網(wǎng)民國(guó),且中國(guó)的網(wǎng)站總數(shù)量已經(jīng)超過(guò)了200萬(wàn)。因此,如何利用搜索服務(wù)最大限度滿足用戶需求,對(duì)于互聯(lián)網(wǎng)企業(yè)而言,始終是一個(gè)重要的課題。為了增強(qiáng)搜索引擎所提供的搜索結(jié)果的展示效果,在搜索結(jié)果中,除了頁(yè)面的標(biāo)題和頁(yè)面的統(tǒng)一資源定位符(Uniform Resource Locator,URL)之外,還可以進(jìn)一步包括一段來(lái)自頁(yè)面的摘要。通常,搜索引擎可以采用動(dòng)態(tài)摘要生成方式,即根據(jù)搜索關(guān)鍵詞在頁(yè)面中的位置,提取出周圍的內(nèi)容即片段例如,不完整的句子等來(lái),在輸出時(shí)將搜索關(guān)鍵詞進(jìn)行高亮顯示。
然而,現(xiàn)有的摘要完全依賴于其對(duì)所對(duì)應(yīng)的單個(gè)頁(yè)面,可能會(huì)導(dǎo)致摘要的質(zhì)量的降低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的多個(gè)方面提供一種搜索結(jié)果摘要的生成方法及裝置,用以提高摘要的質(zhì)量。
本發(fā)明的一方面,提供一種搜索結(jié)果摘要的生成方法,包括:
獲取搜索關(guān)鍵詞;
根據(jù)所述搜索關(guān)鍵詞,獲得至少一個(gè)頁(yè)面;
根據(jù)所述至少一個(gè)頁(yè)面中每個(gè)頁(yè)面,以及所述至少一個(gè)頁(yè)面中除了該頁(yè)面之外的其他頁(yè)面,獲得所述每個(gè)頁(yè)面的摘要;
輸出包含所述每個(gè)頁(yè)面的摘要的搜索結(jié)果。
如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述至少一個(gè)頁(yè)面中每個(gè)頁(yè)面,以及所述至少一個(gè)頁(yè)面中除了該頁(yè)面之外的其他頁(yè)面,獲得所述每個(gè)頁(yè)面的摘要,包括:
根據(jù)所述搜索關(guān)鍵詞中的內(nèi)容單元、所述每個(gè)頁(yè)面中的內(nèi)容單元和所述其他頁(yè)面中的內(nèi)容單元,獲得所述搜索關(guān)鍵詞中的內(nèi)容單元與所述每個(gè)頁(yè)面中的內(nèi)容單元之間的第一相關(guān)度,以及所述每個(gè)頁(yè)面中的內(nèi)容單元與所述其他頁(yè)面中的內(nèi)容單元之間的第二相關(guān)度;
根據(jù)所述第一相關(guān)度和第二相關(guān)度,獲得所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征;
根據(jù)所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征,獲得至少一個(gè)內(nèi)容單元;
根據(jù)所述至少一個(gè)內(nèi)容單元,獲得所述每個(gè)頁(yè)面的摘要。
如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述搜索關(guān)鍵詞中的內(nèi)容單元、所述每個(gè)頁(yè)面中的內(nèi)容單元和所述其他頁(yè)面中的內(nèi)容單元,獲得所述搜索關(guān)鍵詞中的內(nèi)容單元與所述每個(gè)頁(yè)面中的內(nèi)容單元之間的第一相關(guān)度,以及所述每個(gè)頁(yè)面中的內(nèi)容單元與所述其他頁(yè)面中的內(nèi)容單元之間的第二相關(guān)度,包括:
根據(jù)所述搜索關(guān)鍵詞中的內(nèi)容單元、所述每個(gè)頁(yè)面中的內(nèi)容單元和所述其他頁(yè)面中的內(nèi)容單元,
采用至少一種相關(guān)度算法,獲得所述搜索關(guān)鍵詞中的內(nèi)容單元與所述每個(gè)頁(yè)面中的內(nèi)容單元之間的第一相關(guān)度,以及所述每個(gè)頁(yè)面中的內(nèi)容單元與所述其他頁(yè)面中的內(nèi)容單元之間的第二相關(guān)度。
如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述至少一個(gè)頁(yè)面中每個(gè)頁(yè)面,以及所述至少一個(gè)頁(yè)面中除了該頁(yè)面之外的其他頁(yè)面,獲得所述每個(gè)頁(yè)面的摘要,還包括:
根據(jù)所述每個(gè)頁(yè)面,獲得所述每個(gè)頁(yè)面中的內(nèi)容單元的文檔特征;
所述根據(jù)所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征,獲得至少一個(gè)內(nèi)容單元,包括:
根據(jù)所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征和所述每個(gè)頁(yè)面中的內(nèi)容單元的文檔特征,獲得所述至少一個(gè)內(nèi)容單元。
如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述內(nèi)容單元包括字、詞和句子中的至少一項(xiàng)。
本發(fā)明的另一方面,提供一種搜索結(jié)果摘要的生成裝置,包括:
獲取單元,用于獲取搜索關(guān)鍵詞;
匹配單元,用于根據(jù)所述搜索關(guān)鍵詞,獲得至少一個(gè)頁(yè)面;
摘要單元,用于根據(jù)所述至少一個(gè)頁(yè)面中每個(gè)頁(yè)面,以及所述至少一個(gè)頁(yè)面中除了該頁(yè)面之外的其他頁(yè)面,獲得所述每個(gè)頁(yè)面的摘要;
輸出單元,用于輸出包含所述每個(gè)頁(yè)面的摘要的搜索結(jié)果。
如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述摘要單元,具體用于
根據(jù)所述搜索關(guān)鍵詞中的內(nèi)容單元、所述每個(gè)頁(yè)面中的內(nèi)容單元和所述其他頁(yè)面中的內(nèi)容單元,獲得所述搜索關(guān)鍵詞中的內(nèi)容單元與所述每個(gè)頁(yè)面中的內(nèi)容單元之間的第一相關(guān)度,以及所述每個(gè)頁(yè)面中的內(nèi)容單元與所述其他頁(yè)面中的內(nèi)容單元之間的第二相關(guān)度;
根據(jù)所述第一相關(guān)度和第二相關(guān)度,獲得所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征;
根據(jù)所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征,獲得至少一個(gè)內(nèi)容單元;以及
根據(jù)所述至少一個(gè)內(nèi)容單元,獲得所述每個(gè)頁(yè)面的摘要。
如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述摘要單元,具體用于
根據(jù)所述搜索關(guān)鍵詞中的內(nèi)容單元、所述每個(gè)頁(yè)面中的內(nèi)容單元和所述其他頁(yè)面中的內(nèi)容單元,采用至少一種相關(guān)度算法,獲得所述搜索關(guān)鍵詞中的內(nèi)容單元與所述每個(gè)頁(yè)面中的內(nèi)容單元之間的第一相關(guān)度,以及所述每個(gè)頁(yè)面中的內(nèi)容單元與所述其他頁(yè)面中的內(nèi)容單元之間的第二相關(guān)度。
如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述摘要單元,還用于
根據(jù)所述每個(gè)頁(yè)面,獲得所述每個(gè)頁(yè)面中的內(nèi)容單元的文檔特征;
所述摘要單元,具體用于
根據(jù)所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征和所述每個(gè)頁(yè)面中的內(nèi)容單元的文檔特征,獲得所述至少一個(gè)內(nèi)容單元。
如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述內(nèi)容單元包括字、詞和句子中的至少一項(xiàng)。
由上述技術(shù)方案可知,本發(fā)明實(shí)施例通過(guò)根據(jù)所獲取的搜索關(guān)鍵詞,獲得至少一個(gè)頁(yè)面,進(jìn)而根據(jù)所述至少一個(gè)頁(yè)面中每個(gè)頁(yè)面,以及所述至少一個(gè)頁(yè)面中除了該頁(yè)面之外的其他頁(yè)面,獲得所述每個(gè)頁(yè)面的摘要,使得能夠輸出包含所述每個(gè)頁(yè)面的摘要的搜索結(jié)果,由于不再完全依賴于單個(gè)頁(yè)面,而是結(jié)合與搜索關(guān)鍵詞所匹配的其他相關(guān)頁(yè)面來(lái)生成摘要,充分利用了大數(shù)據(jù)的特點(diǎn),從而提高了摘要的質(zhì)量。
另外,采用本發(fā)明所提供的技術(shù)方案,由于可以采用完整的句子作為生成摘要的內(nèi)容單元,能夠避免現(xiàn)有技術(shù)中由于采用搜索關(guān)鍵詞周圍的內(nèi)容即片段生成摘要而導(dǎo)致的可讀性差的問(wèn)題,因此,能夠有效提高摘要的可讀性。
另外,采用本發(fā)明所提供的技術(shù)方案,能夠有效地提高用戶的體驗(yàn)。
【附圖說(shuō)明】
為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明一實(shí)施例提供的搜索結(jié)果摘要的生成方法的流程示意圖;
圖2為圖1所對(duì)應(yīng)的實(shí)施例中文檔圖的實(shí)例;
圖3為本發(fā)明另一實(shí)施例提供的搜索結(jié)果摘要的生成裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的全部其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
需要說(shuō)明的是,本發(fā)明實(shí)施例中所涉及的終端可以包括但不限于手機(jī)、個(gè)人數(shù)字助理(Personal Digital Assistant,PDA)、無(wú)線手持設(shè)備、平板電腦(Tablet Computer)、個(gè)人電腦(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴設(shè)備(例如,智能眼鏡、智能手表、智能手環(huán)等)等。
另外,本文中術(shù)語(yǔ)“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:?jiǎn)为?dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。
圖1為本發(fā)明一實(shí)施例提供的搜索結(jié)果摘要的生成方法的流程示意圖,如圖1所示。
101、獲取搜索關(guān)鍵詞。
102、根據(jù)所述搜索關(guān)鍵詞,獲得至少一個(gè)頁(yè)面。
103、根據(jù)所述至少一個(gè)頁(yè)面中每個(gè)頁(yè)面,以及所述至少一個(gè)頁(yè)面中除了該頁(yè)面之外的其他頁(yè)面,獲得所述每個(gè)頁(yè)面的摘要。
104、輸出包含所述每個(gè)頁(yè)面的摘要的搜索結(jié)果。
需要說(shuō)明的是,101~104的執(zhí)行主體的部分或全部可以為位于本地終端的應(yīng)用,或者還可以為設(shè)置在位于本地終端的應(yīng)用中的插件或軟件開發(fā)工具包(Software Development Kit,SDK)等功能單元,或者還可以為位于網(wǎng)絡(luò)側(cè)服務(wù)器中的搜索引擎,或者還可以為位于網(wǎng)絡(luò)側(cè)的分布式系統(tǒng),本實(shí)施例對(duì)此不進(jìn)行特別限定。
可以理解的是,所述應(yīng)用可以是安裝在終端上的本地程序(nativeApp),或者還可以是終端上的瀏覽器的一個(gè)網(wǎng)頁(yè)程序(webApp),本實(shí)施例對(duì)此不進(jìn)行特別限定。
這樣,通過(guò)根據(jù)所獲取的搜索關(guān)鍵詞,獲得至少一個(gè)頁(yè)面,進(jìn)而根據(jù)所述至少一個(gè)頁(yè)面中每個(gè)頁(yè)面,以及所述至少一個(gè)頁(yè)面中除了該頁(yè)面之外的其他頁(yè)面,獲得所述每個(gè)頁(yè)面的摘要,使得能夠輸出包含所述每個(gè)頁(yè)面的摘要的搜索結(jié)果,由于不再完全依賴于單個(gè)頁(yè)面,而是結(jié)合與搜索關(guān)鍵詞所匹配的其他相關(guān)頁(yè)面來(lái)生成摘要,充分利用了大數(shù)據(jù)的特點(diǎn),從而提高了摘要的質(zhì)量。
可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在101中,具體可以采集用戶所提供的所述搜索關(guān)鍵詞。具體來(lái)說(shuō),具體可以通過(guò)用戶所觸發(fā)的搜索命令實(shí)現(xiàn)。具體可以采用但不限于下述幾種方式觸發(fā)搜索命令:
方式一:
用戶可以在當(dāng)前應(yīng)用所展現(xiàn)的頁(yè)面上所輸入所述搜索關(guān)鍵詞,然后,通過(guò)點(diǎn)擊該頁(yè)面上的搜索按鈕例如,百度一下,以觸發(fā)搜索命令,該搜索命令中包含所述搜索關(guān)鍵詞。其中,用戶輸入所述搜索關(guān)鍵詞的順序可以為任意順序。這樣,在接收到該搜索命令之后,則可以解析出其中所包含的所述搜索關(guān)鍵詞。
方式二:
采用異步加載技術(shù)例如,Ajax異步加載或Jsonp異步加載等,實(shí)時(shí)獲取用戶在當(dāng)前應(yīng)用所展現(xiàn)的頁(yè)面上所輸入的輸入內(nèi)容,為了與搜索關(guān)鍵詞進(jìn)行區(qū)分,此時(shí)的輸入內(nèi)容可以稱為是輸入關(guān)鍵詞。其中,用戶輸入所述搜索關(guān)鍵詞的順序可以為任意順序。具體地,具體可以提供Ajax接口或Jsonp接口等接口,這些接口可以使用Java、超級(jí)文本預(yù)處理(Hypertext Preprocessor,PHP)語(yǔ)言等語(yǔ)言進(jìn)行編寫,其具體的調(diào)用可以使用Jquery,或者原生的JavaScript等語(yǔ)言進(jìn)行編寫。
方式三:用戶可以通過(guò)長(zhǎng)按當(dāng)前應(yīng)用所展現(xiàn)的頁(yè)面上的語(yǔ)音搜索按鈕,說(shuō)出想要輸入的語(yǔ)音內(nèi)容,然后,松開語(yǔ)音搜索按鈕,以觸發(fā)搜索命令,該搜索命令中包含根據(jù)所說(shuō)出的語(yǔ)音內(nèi)容轉(zhuǎn)換的文本形式的搜索關(guān)鍵詞。這樣,在接收到該搜索命令之后,則可以解析出其中所包含的所述搜索關(guān)鍵詞。
方式四:用戶可以通過(guò)點(diǎn)擊當(dāng)前應(yīng)用所展現(xiàn)的頁(yè)面上的語(yǔ)音搜索按鈕,說(shuō)出想要輸入的語(yǔ)音內(nèi)容,待結(jié)束說(shuō)出語(yǔ)音內(nèi)容一段時(shí)間例如,2秒鐘之后,則觸發(fā)搜索命令,該搜索命令中包含根據(jù)所說(shuō)出的語(yǔ)音內(nèi)容轉(zhuǎn)換的文本形式的搜索關(guān)鍵詞。這樣,在接收到該搜索命令之后,則可以解析出其中所包含的所述搜索關(guān)鍵詞。
在獲取到所述輸入關(guān)鍵詞之后,則可以執(zhí)行后續(xù)操作即102~104。
可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在102中,具體可以采用現(xiàn)有的搜索方法,獲得與所述搜索關(guān)鍵詞,對(duì)應(yīng)的若干個(gè)頁(yè)面。詳細(xì)描述可以參見現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不在贅述。
可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在103中,具體可以根據(jù)所述搜索關(guān)鍵詞中的內(nèi)容單元、所述每個(gè)頁(yè)面中的內(nèi)容單元和所述其他頁(yè)面中的內(nèi)容單元,獲得所述搜索關(guān)鍵詞中的內(nèi)容單元與所述每個(gè)頁(yè)面中的內(nèi)容單元之間的第一相關(guān)度,以及所述每個(gè)頁(yè)面中的內(nèi)容單元與所述其他頁(yè)面中的內(nèi)容單元之間的第二相關(guān)度。進(jìn)而,則可以根據(jù)所述第一相關(guān)度和第二相關(guān)度,獲得所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征。然后,可以根據(jù)所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征,獲得至少一個(gè)內(nèi)容單元,并根據(jù)所述至少一個(gè)內(nèi)容單元,獲得所述每個(gè)頁(yè)面的摘要。
其中,所述內(nèi)容單元可以包括但不限于字、詞和句子中的至少一項(xiàng),本實(shí)施例對(duì)此不進(jìn)行特別限定。
以句子作為內(nèi)容單元為例,詳細(xì)說(shuō)明該實(shí)現(xiàn)方式。在獲取搜索關(guān)鍵詞、與搜索關(guān)鍵詞所匹配的若干個(gè)頁(yè)面中每個(gè)頁(yè)面的句子序列之后,通過(guò)句子之間的相關(guān)度計(jì)算,將這些句子構(gòu)造成為相互連接的文檔圖,進(jìn)而,支持在文檔圖上進(jìn)行句子的重要性特征即圖特征的計(jì)算。圖2是一個(gè)文檔圖的實(shí)例,文檔圖的節(jié)點(diǎn)表示頁(yè)面的句子,文檔圖的邊具有對(duì)應(yīng)的權(quán)重,表示兩個(gè)節(jié)點(diǎn)之間的相關(guān)度。在文檔圖中,Q表示搜索關(guān)鍵詞;S1、S2和S3表示主文檔(即待提取摘要的頁(yè)面)的句子;d1S1、d2S1、d2S2、d2S3、d3S1、d3S2、d4S1和d4S2表示相關(guān)文檔(即搜索關(guān)鍵詞所匹配的頁(yè)面中除了待提取摘要的頁(yè)面之外的其他頁(yè)面)的句子;邊表示句子之間的相關(guān)度。顯然,與越多的句子相關(guān)的句子,其重要性越高,概括能力越強(qiáng),更適合作為摘要。邊的權(quán)重對(duì)于計(jì)算句子之間的相關(guān)度,有關(guān)鍵作用,邊的權(quán)重越高,說(shuō)明兩個(gè)句子之間的相關(guān)度越高。具體地,具體可以采用如下相關(guān)度算法中的至少一種相關(guān)度算法,進(jìn)行上述相關(guān)度即第一相關(guān)度和第二相關(guān)度的計(jì)算。
A、TF-IDF相關(guān)度算法
將句子表示為單詞向量,每個(gè)單詞的權(quán)重用TF*IDF表示,TF為單詞在句子中頻次,IDF為單詞在語(yǔ)料中的逆向文檔頻率。在獲得兩個(gè)句子的單詞向量表示之后,通過(guò)向量距離余弦(Cosin)公式,即可計(jì)算兩個(gè)句子之間的相關(guān)度。此方法主要計(jì)算句子之間的單詞共現(xiàn)。
B、語(yǔ)義(Embedding)相關(guān)度算法
基于深度學(xué)習(xí)技術(shù),將句子轉(zhuǎn)化為固定維度(如128維)的連續(xù)向量表示,然后通過(guò)向量距離余弦(Cosin)公式,即可計(jì)算兩個(gè)句子之間的相關(guān)度。此方法主要在語(yǔ)義空間計(jì)算句子之間的相關(guān)度。
C、0/1相關(guān)度算法
在TF-IDF相關(guān)度算法的基礎(chǔ)之上,設(shè)置一個(gè)閾值,例如0.8等。將句子之間的相關(guān)度超過(guò)該閾值的置為1,其余置為0。此相關(guān)度僅考慮高度相似句子之間的相關(guān)度,能夠避免一個(gè)句子因?yàn)榕c大量不太相關(guān)的句子有關(guān)聯(lián),而變成重要。
如果分別采用上述三種相關(guān)度算法,則可以獲得三個(gè)文檔圖,兩個(gè)句子之間則會(huì)對(duì)應(yīng)三個(gè)相關(guān)度,利用這三個(gè)相關(guān)度分別參與后續(xù)的計(jì)算,即每個(gè)句子具有三個(gè)重要性特征,這樣,則可以提高相關(guān)度的可靠性。
對(duì)每個(gè)文檔圖通過(guò)網(wǎng)頁(yè)排名(PageRank)算法,計(jì)算獲得每個(gè)句子的重要性特征,具體可以采用如下公式:
其中,rank(s)表示句子的重要性特征;q表示搜索關(guān)鍵詞;s表示句子,v表示s的相鄰節(jié)點(diǎn),d表示搜索關(guān)鍵詞的相關(guān)度的權(quán)重,w(-,-)表示兩個(gè)節(jié)點(diǎn)之間的相關(guān)程度;Zq,Zv為對(duì)應(yīng)的歸一化值。
在一個(gè)具體的實(shí)現(xiàn)過(guò)程中,還可以進(jìn)一步根據(jù)所述每個(gè)頁(yè)面,獲得所述每個(gè)頁(yè)面中的內(nèi)容單元的文檔特征;那么,相應(yīng)地,則可以根據(jù)所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征和所述每個(gè)頁(yè)面中的內(nèi)容單元的文檔特征,獲得所述至少一個(gè)內(nèi)容單元。
其中,所述內(nèi)容單元的文檔特征,可以包括但不限于如下特征中的至少一項(xiàng):
位置特征;
詞匯特征;以及
內(nèi)容單元的類型。
所謂的位置特征,用于表示內(nèi)容單元在頁(yè)面中的位置;
所謂的詞匯特征,用于表示內(nèi)容單元中所包含的實(shí)體詞、名詞等的數(shù)量。
所謂的內(nèi)容單元的類型,用于表示內(nèi)容單元的類型,例如,疑問(wèn)句型、觀點(diǎn)句型等句子的類型。
在獲得每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征,以及每個(gè)頁(yè)面中的內(nèi)容單元的文檔特征之后,則可以基于這些特征,通過(guò)學(xué)習(xí)排序(Learning to Rank)模型,為每個(gè)內(nèi)容單元計(jì)算排序分?jǐn)?shù)。這個(gè)分?jǐn)?shù),就作為內(nèi)容單元的最終分?jǐn)?shù),此分?jǐn)?shù)越高,說(shuō)明內(nèi)容單元的重要性越高,作為摘要的可能性就越大。
例如,可以根據(jù)內(nèi)容單元的排序分?jǐn)?shù),從高到低選擇內(nèi)容單元,順序組成摘要。當(dāng)選擇出的內(nèi)容單元總數(shù)超過(guò)預(yù)先設(shè)置的閾值時(shí),摘要即生成完畢。為了避免摘要中,存在過(guò)多的冗余信息。在選擇內(nèi)容單元時(shí),可以根據(jù)如下公式進(jìn)行貪心選擇:
R=w*Rank(s)-(1-w)*redundancy(s,summary)
R表示內(nèi)容單元最終的排序分?jǐn)?shù),Rank(s)表示內(nèi)容單元本身的排序分?jǐn)?shù),redundancy(s,summary)為內(nèi)容單元與已選擇出內(nèi)容單元的冗余度,w為權(quán)重。
那么,則可以根據(jù)內(nèi)容單元最終的排序分?jǐn)?shù),從高到低選擇內(nèi)容單元,順序組成摘要。當(dāng)選擇出的內(nèi)容單元總數(shù)超過(guò)預(yù)先設(shè)置的閾值時(shí),摘要即生成完畢。也就是說(shuō),內(nèi)容單元最終的排序分?jǐn)?shù)越高,冗余度越低,該內(nèi)容單元越被選擇出來(lái)的概率則越大。
本發(fā)明中,在搜索引擎的摘要場(chǎng)景下,首先提出了使用多頁(yè)面信息改進(jìn)單頁(yè)面信息的摘要提取。同時(shí),在摘要提取的過(guò)程中,引入了多個(gè)文檔圖,用以計(jì)算多個(gè)文檔圖的圖特征即內(nèi)容單元的重要性特征。進(jìn)一步,還引入了多種文檔特征。最后,再基于LTR模型,將多個(gè)圖特征和文檔特征進(jìn)行融合,以提取出恰當(dāng)?shù)膬?nèi)容單元,組成頁(yè)面的摘要。其所提出的技術(shù)方案,具有如下優(yōu)勢(shì):
1、利用大量的相關(guān)網(wǎng)頁(yè),輔助單網(wǎng)頁(yè)的摘要提取,能夠有效提高摘要的質(zhì)量。
2、能夠提供數(shù)據(jù)統(tǒng)計(jì),讓用戶了解有多少相關(guān)網(wǎng)頁(yè)支持此摘要,便于用戶進(jìn)行決策。
3、摘要可以由語(yǔ)義完整的句子組成,語(yǔ)言的流暢性好,能夠有效提高摘要的可讀性。
本實(shí)施例中,通過(guò)根據(jù)所獲取的搜索關(guān)鍵詞,獲得至少一個(gè)頁(yè)面,進(jìn)而根據(jù)所述至少一個(gè)頁(yè)面中每個(gè)頁(yè)面,以及所述至少一個(gè)頁(yè)面中除了該頁(yè)面之外的其他頁(yè)面,獲得所述每個(gè)頁(yè)面的摘要,使得能夠輸出包含所述每個(gè)頁(yè)面的摘要的搜索結(jié)果,由于不再完全依賴于單個(gè)頁(yè)面,而是結(jié)合與搜索關(guān)鍵詞所匹配的其他相關(guān)頁(yè)面來(lái)生成摘要,充分利用了大數(shù)據(jù)的特點(diǎn),從而提高了摘要的質(zhì)量。
另外,采用本發(fā)明所提供的技術(shù)方案,由于可以采用完整的句子作為生成摘要的內(nèi)容單元,能夠避免現(xiàn)有技術(shù)中由于采用搜索關(guān)鍵詞周圍的內(nèi)容即片段生成摘要而導(dǎo)致的可讀性差的問(wèn)題,因此,能夠有效提高摘要的可讀性。
另外,采用本發(fā)明所提供的技術(shù)方案,能夠有效地提高用戶的體驗(yàn)。
需要說(shuō)明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。
在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
圖3為本發(fā)明另一實(shí)施例提供的搜索結(jié)果摘要的生成裝置的結(jié)構(gòu)示意圖,如圖3所示。本實(shí)施例的搜索結(jié)果摘要的生成裝置可以包括獲取單元31、匹配單元32、摘要單元33和輸出單元34。其中,獲取單元31,用于獲取搜索關(guān)鍵詞;匹配單元32,用于根據(jù)所述搜索關(guān)鍵詞,獲得至少一個(gè)頁(yè)面;摘要單元33,用于根據(jù)所述至少一個(gè)頁(yè)面中每個(gè)頁(yè)面,以及所述至少一個(gè)頁(yè)面中除了該頁(yè)面之外的其他頁(yè)面,獲得所述每個(gè)頁(yè)面的摘要;輸出單元34,用于輸出包含所述每個(gè)頁(yè)面的摘要的搜索結(jié)果。
需要說(shuō)明的是,本實(shí)施例所提供的搜索結(jié)果摘要的生成裝置的部分或全部可以為位于本地終端的應(yīng)用,或者還可以為設(shè)置在位于本地終端的應(yīng)用中的插件或軟件開發(fā)工具包(Software Development Kit,SDK)等功能單元,或者還可以為位于網(wǎng)絡(luò)側(cè)服務(wù)器中的搜索引擎,或者還可以為位于網(wǎng)絡(luò)側(cè)的分布式系統(tǒng),本實(shí)施例對(duì)此不進(jìn)行特別限定。
可以理解的是,所述應(yīng)用可以是安裝在終端上的本地程序(nativeApp),或者還可以是終端上的瀏覽器的一個(gè)網(wǎng)頁(yè)程序(webApp),本實(shí)施例對(duì)此不進(jìn)行特別限定。
可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述摘要單元33,具體可以用于根據(jù)所述搜索關(guān)鍵詞中的內(nèi)容單元、所述每個(gè)頁(yè)面中的內(nèi)容單元和所述其他頁(yè)面中的內(nèi)容單元,獲得所述搜索關(guān)鍵詞中的內(nèi)容單元與所述每個(gè)頁(yè)面中的內(nèi)容單元之間的第一相關(guān)度,以及所述每個(gè)頁(yè)面中的內(nèi)容單元與所述其他頁(yè)面中的內(nèi)容單元之間的第二相關(guān)度;根據(jù)所述第一相關(guān)度和第二相關(guān)度,獲得所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征;根據(jù)所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征,獲得至少一個(gè)內(nèi)容單元;以及根據(jù)所述至少一個(gè)內(nèi)容單元,獲得所述每個(gè)頁(yè)面的摘要。
其中,所述內(nèi)容單元可以包括但不限于字、詞和句子中的至少一項(xiàng),本實(shí)施例對(duì)此不進(jìn)行特別限定。
在一個(gè)具體的實(shí)現(xiàn)過(guò)程中,所述摘要單元33,具體可以用于根據(jù)所述搜索關(guān)鍵詞中的內(nèi)容單元、所述每個(gè)頁(yè)面中的內(nèi)容單元和所述其他頁(yè)面中的內(nèi)容單元,采用至少一種相關(guān)度算法,獲得所述搜索關(guān)鍵詞中的內(nèi)容單元與所述每個(gè)頁(yè)面中的內(nèi)容單元之間的第一相關(guān)度,以及所述每個(gè)頁(yè)面中的內(nèi)容單元與所述其他頁(yè)面中的內(nèi)容單元之間的第二相關(guān)度。
在另一個(gè)具體的實(shí)現(xiàn)過(guò)程中,所述摘要單元33,還可以進(jìn)一步用于根據(jù)所述每個(gè)頁(yè)面,獲得所述每個(gè)頁(yè)面中的內(nèi)容單元的文檔特征;那么,相應(yīng)地,所述摘要單元33,具體可以用于根據(jù)所述每個(gè)頁(yè)面中的內(nèi)容單元的重要性特征和所述每個(gè)頁(yè)面中的內(nèi)容單元的文檔特征,獲得所述至少一個(gè)內(nèi)容單元。
需要說(shuō)明的是,圖1對(duì)應(yīng)的實(shí)施例中方法,可以由本實(shí)施例提供的搜索結(jié)果摘要的生成裝置實(shí)現(xiàn)。詳細(xì)描述可以參見圖1對(duì)應(yīng)的實(shí)施例中的相關(guān)內(nèi)容,此處不再贅述。
本實(shí)施例中,通過(guò)匹配單元根據(jù)獲取單元所獲取的搜索關(guān)鍵詞,獲得至少一個(gè)頁(yè)面,進(jìn)而由摘要單元根據(jù)所述至少一個(gè)頁(yè)面中每個(gè)頁(yè)面,以及所述至少一個(gè)頁(yè)面中除了該頁(yè)面之外的其他頁(yè)面,獲得所述每個(gè)頁(yè)面的摘要,使得輸出單元能夠輸出包含所述每個(gè)頁(yè)面的摘要的搜索結(jié)果,由于不再完全依賴于單個(gè)頁(yè)面,而是結(jié)合與搜索關(guān)鍵詞所匹配的其他相關(guān)頁(yè)面來(lái)生成摘要,充分利用了大數(shù)據(jù)的特點(diǎn),從而提高了摘要的質(zhì)量。
另外,采用本發(fā)明所提供的技術(shù)方案,由于可以采用完整的句子作為生成摘要的內(nèi)容單元,能夠避免現(xiàn)有技術(shù)中由于采用搜索關(guān)鍵詞周圍的內(nèi)容即片段生成摘要而導(dǎo)致的可讀性差的問(wèn)題,因此,能夠有效提高摘要的可讀性。
另外,采用本發(fā)明所提供的技術(shù)方案,能夠有效地提高用戶的體驗(yàn)。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如,多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)裝置(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)裝置等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(Read-Only Memory,ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory,RAM)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。