對(duì)在線問(wèn)題的自動(dòng)回答的制作方法
【專(zhuān)利摘要】用于提供對(duì)問(wèn)題的自動(dòng)回答的方法、系統(tǒng)和裝置。在一個(gè)方面中,方法包括從客戶端接收問(wèn)題,并且對(duì)第一儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于該問(wèn)題的回答。如果從第一儲(chǔ)存庫(kù)沒(méi)有返回結(jié)果,則該方法將該問(wèn)題解析成關(guān)鍵詞集,并且對(duì)第二儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于該關(guān)鍵詞集的回答,以及根據(jù)排名標(biāo)準(zhǔn)對(duì)從第一儲(chǔ)存庫(kù)或第二儲(chǔ)存庫(kù)返回的回答進(jìn)行排序,并且最后向客戶端提供排序的回答的至少子集。
【專(zhuān)利說(shuō)明】對(duì)在線問(wèn)題的自動(dòng)回答
【背景技術(shù)】
[0001]本公開(kāi)涉及自動(dòng)提供對(duì)通過(guò)網(wǎng)絡(luò)提供的問(wèn)題的回答,以及具體地涉及根據(jù)通過(guò)網(wǎng)絡(luò)提供的現(xiàn)有回答提供對(duì)問(wèn)題的回答。
[0002]在因特網(wǎng)上的即時(shí)聊天和電子布告欄系統(tǒng)(BBS)發(fā)帖已在因特網(wǎng)中變得廣泛。許多用戶將聊天工具或在線電子布告欄用作為與其他用戶社交并且通信信息的方式??梢栽谶@些在線工具的不同用戶之間迅速交換信息。另外,搜索引擎還通過(guò)提供引用在Web上可用的資源的搜索結(jié)果來(lái)幫助人們找到他們想要的信息。
[0003]盡管有這些許多不同的工具和格式,用戶仍然可能沒(méi)有接收到對(duì)其問(wèn)題的回答、或可能沒(méi)有以及時(shí)方式接收到回答。例如,對(duì)于特定問(wèn)題,用戶可以在在線聊天室中對(duì)問(wèn)題進(jìn)行發(fā)帖并且等待看該聊天室中的任何其他人是否提供對(duì)該問(wèn)題的回答。用戶還可以將問(wèn)題發(fā)帖到電子布告欄并且在數(shù)小時(shí)或數(shù)天后回來(lái)看是否任何人已發(fā)帖了對(duì)該問(wèn)題的回答。同樣地,用戶還可以向搜索引擎提交查詢,并且查閱搜索結(jié)果和搜索結(jié)果引用的網(wǎng)頁(yè),以試圖搜集對(duì)問(wèn)題的任何有價(jià)值的信息。類(lèi)似地,用戶可以向詢問(wèn)用戶問(wèn)題并且提供其他人發(fā)帖的對(duì)問(wèn)題的回答的專(zhuān)用在線平臺(tái)提交回答。
[0004]這些平臺(tái)允許用戶對(duì)問(wèn)題進(jìn)行發(fā)帖并且從不同背景的寬泛用戶群接收響應(yīng)。然而,如果其他用戶尚未提供類(lèi)似問(wèn)題,則用戶典型地并不以及時(shí)方式接收回答。
【發(fā)明內(nèi)容】
[0005]總的來(lái)說(shuō),在本說(shuō)明書(shū)中描述的主題的一個(gè)創(chuàng)新方面涉及提供對(duì)問(wèn)題的自動(dòng)回答的方法。該方法可以包括從客戶端接收問(wèn)題,并且對(duì)第一儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于該問(wèn)題的回答。如果從第一儲(chǔ)存庫(kù)沒(méi)有返回結(jié)果,則該方法將該問(wèn)題解析成關(guān)鍵詞集,并且對(duì)第二儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于該關(guān)鍵詞集的回答。該方法根據(jù)排名標(biāo)準(zhǔn)對(duì)從第一儲(chǔ)存庫(kù)或第二儲(chǔ)存庫(kù)返回的回答進(jìn)行排序,并且向客戶端提供排序的回答的至少子集。替選地,將問(wèn)題解析成關(guān)鍵詞集并且對(duì)第二儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于該關(guān)鍵詞集的回答的步驟可以與查詢第一儲(chǔ)存庫(kù)的步驟同時(shí)發(fā)生。
[0006]在另一個(gè)方面中,該方法可以進(jìn)一步包括通過(guò)以下的至少一個(gè)使接收的問(wèn)題規(guī)范化的步驟:移除多余的詞;校正拼寫(xiě)錯(cuò)誤;移除不必要的標(biāo)點(diǎn)符號(hào);校正不正確的標(biāo)點(diǎn)符號(hào);以及移除多余的空格。
[0007]這些方面中的每一個(gè)的其他實(shí)施例可以包括對(duì)應(yīng)的系統(tǒng)、裝置和記錄在計(jì)算機(jī)存儲(chǔ)設(shè)備上的計(jì)算機(jī)程序,其每一個(gè)被配置成執(zhí)行這些方法的動(dòng)作。
[0008]在附圖和下面的描述中闡述了一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)。根據(jù)描述和附圖以及權(quán)利要求,其他的特征、目的和優(yōu)勢(shì)將是顯而易見(jiàn)的。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0009]圖1是用于提供對(duì)在線問(wèn)題的自動(dòng)回答的系統(tǒng)的圖。
[0010]圖2是圖示對(duì)用于存儲(chǔ)問(wèn)題回答對(duì)和關(guān)鍵詞集回答對(duì)的數(shù)據(jù)儲(chǔ)存庫(kù)的創(chuàng)建和維護(hù)的流程圖。
[0011]圖3A-3B是問(wèn)題回答對(duì)和關(guān)鍵詞集回答對(duì)的示例性儲(chǔ)存庫(kù)。
[0012]圖4是圖示提供對(duì)在線問(wèn)題的回答的過(guò)程的流程圖。
[0013]在各附圖中相同的參考符號(hào)指示相同的元素。
【具體實(shí)施方式】
[0014]圖1是提供對(duì)在線問(wèn)題的自動(dòng)回答的系統(tǒng)的圖。在該系統(tǒng)中,客戶端101可以是桌面應(yīng)用或呈現(xiàn)用于在線聊天的web應(yīng)用的web瀏覽器。該web瀏覽器或桌面應(yīng)用從登錄用戶接收輸入,并且將該輸入作為消息通信給另一個(gè)用戶或?qū)⒃撓V播給登錄入同一服務(wù)的用戶組??蛻舳诉€可以是向用戶供給與其他用戶的異步交互的電子布告欄應(yīng)用。替選地,客戶端101還可以是接受來(lái)自用戶的問(wèn)題并且提供對(duì)問(wèn)題的回答的web門(mén)戶接口。
[0015]服務(wù)器111位于另一個(gè)網(wǎng)絡(luò)位置處并且通過(guò)其處理器115處理來(lái)自客戶端101的請(qǐng)求。文檔語(yǔ)料庫(kù)114、第一儲(chǔ)存庫(kù)112和第二儲(chǔ)存庫(kù)113與服務(wù)器111數(shù)據(jù)通信。文檔語(yǔ)料庫(kù)114是搜索引擎通過(guò)因特網(wǎng)爬取的文檔集合。第一儲(chǔ)存庫(kù)112存儲(chǔ)問(wèn)題以及其對(duì)應(yīng)的回答,而第二儲(chǔ)存庫(kù)113被配置成存儲(chǔ)從特定問(wèn)題獲取的關(guān)鍵詞集以及對(duì)應(yīng)于問(wèn)題的回答。
[0016]在一些實(shí)施方式中,服務(wù)器111在其存儲(chǔ)器116中包括儲(chǔ)存庫(kù)維護(hù)模塊117和問(wèn)題處理模塊118。問(wèn)題處理模塊118對(duì)來(lái)自客戶端101的與特定問(wèn)題有關(guān)的請(qǐng)求進(jìn)行處理。儲(chǔ)存庫(kù)維護(hù)模塊117通過(guò)從文檔語(yǔ)料庫(kù)114提取問(wèn)題和回答數(shù)據(jù),對(duì)第一儲(chǔ)存庫(kù)112和第二儲(chǔ)存庫(kù)113中的數(shù)據(jù)進(jìn)行維護(hù)和更新。
[0017]在替選實(shí)施方式中,可以將儲(chǔ)存庫(kù)維護(hù)模塊117部署在獨(dú)立于服務(wù)器111的服務(wù)器上。在該獨(dú)立服務(wù)器上的儲(chǔ)存庫(kù)維護(hù)模塊117與第一儲(chǔ)存庫(kù)113和第二儲(chǔ)存庫(kù)114進(jìn)行通信,并且周期性或持續(xù)使用從文檔語(yǔ)料庫(kù)114獲取的新的問(wèn)題和回答數(shù)據(jù)來(lái)對(duì)兩個(gè)儲(chǔ)存庫(kù)中的數(shù)據(jù)進(jìn)行更新。
[0018]替選地,第一儲(chǔ)存庫(kù)112和第二儲(chǔ)存庫(kù)113以及文檔語(yǔ)料庫(kù)114可以位于不同的網(wǎng)絡(luò)位置處,并且例如通過(guò)諸如LAN或因特網(wǎng)的網(wǎng)絡(luò)與托管儲(chǔ)存庫(kù)維護(hù)模塊117的服務(wù)器進(jìn)行通信。
[0019]圖2是圖示對(duì)用于存儲(chǔ)問(wèn)題回答對(duì)和關(guān)鍵詞集回答對(duì)的數(shù)據(jù)儲(chǔ)存庫(kù)的創(chuàng)建和維護(hù)的流程圖。儲(chǔ)存庫(kù)維護(hù)模塊117,例如,運(yùn)行用于維護(hù)在兩個(gè)儲(chǔ)存庫(kù)中的問(wèn)題回答對(duì)和關(guān)鍵詞集對(duì)的數(shù)據(jù)的程序,負(fù)責(zé)從文檔語(yǔ)料庫(kù)114識(shí)別問(wèn)題-回答對(duì)。文檔語(yǔ)料庫(kù)可以包括已由搜索引擎爬取并且被存儲(chǔ)在索引數(shù)據(jù)庫(kù)中的聊天室消息的可用記錄文件、網(wǎng)頁(yè)的內(nèi)容等。如在此所使用的,用語(yǔ)“聊天室記錄文件”包括聊天室記錄、記錄被存儲(chǔ)在其上的網(wǎng)頁(yè)、以及通過(guò)聊天會(huì)話提供的數(shù)據(jù)被存儲(chǔ)的其他文件和存儲(chǔ)方案。文檔語(yǔ)料庫(kù)114還可以是接收各種用戶提交的內(nèi)容的數(shù)據(jù)存儲(chǔ)。儲(chǔ)存庫(kù)維護(hù)模塊117可以持續(xù)或周期性對(duì)文檔語(yǔ)料庫(kù)114查詢?nèi)魏涡陆砑拥臄?shù)據(jù),并且對(duì)這些數(shù)據(jù)進(jìn)行分析來(lái)識(shí)別用戶所提交的問(wèn)題以及其可能的回答。
[0020]在一些實(shí)施方式中,移除用戶的個(gè)人識(shí)別信息以處理回答,以使問(wèn)題和對(duì)應(yīng)的回答與用戶沒(méi)有關(guān)聯(lián)。例如,在存儲(chǔ)或使用問(wèn)題和回答之前,可以以一個(gè)或多個(gè)方式使問(wèn)題和回答匿名,以使移除個(gè)人可識(shí)別的信息。同樣地,可以使用戶的身份匿名,以使不能為用戶確定個(gè)人可識(shí)別的信息,并且使用戶問(wèn)題或回答的任何可識(shí)別信息一般化(例如,基于用戶人口特征來(lái)一般化),而不是與特定用戶相關(guān)聯(lián)??梢允公@取了位置信息的用戶的地理位置一般化(諸如到城市、郵編或州/省份級(jí)),以使不能確定用戶的特定位置。
[0021]下面的示例說(shuō)明了對(duì)數(shù)據(jù)儲(chǔ)存庫(kù)的創(chuàng)建和維護(hù)。假設(shè)用戶已在在線聊天室中輸入了問(wèn)題“where is world exposition20IOheId?(在哪里舉行世界博覽會(huì)2010 ?)”,并且其他人已給出了回答“Shanghai (上海)”,以及搜索引擎已爬取了整個(gè)對(duì)話的內(nèi)容。儲(chǔ)存庫(kù)維護(hù)模塊117可以通過(guò)使用一個(gè)或多個(gè)文本分析例程和/或語(yǔ)言分析例程來(lái)識(shí)別問(wèn)題和回答。例如,儲(chǔ)存庫(kù)維護(hù)模塊117可以通過(guò)辨識(shí)問(wèn)號(hào)“? ”或關(guān)鍵詞“where (在哪里)”來(lái)識(shí)別問(wèn)題,并且將例如來(lái)自另一個(gè)用戶的在該問(wèn)題之后的緊鄰消息確定為對(duì)該問(wèn)題的回答。儲(chǔ)存庫(kù)維護(hù)模塊117還可以使用字段分類(lèi),諸如“Q”和“A”分類(lèi)符,例如“Q:where isworldexposition2010held?” 和 “A:Shanghai”。
[0022]在一些實(shí)施方式中,可以從現(xiàn)有web文檔進(jìn)一步爬取問(wèn)題回答對(duì)。Web文檔可以包括如“問(wèn)題”和“回答”這樣的獨(dú)特關(guān)鍵詞、或諸如字母“Q”和“A”的更簡(jiǎn)單的分類(lèi)符。在一個(gè)示例中,儲(chǔ)存庫(kù)維護(hù)模塊117為潛在問(wèn)題回答對(duì)對(duì)web文檔進(jìn)行解析。當(dāng)識(shí)別了后緊跟冒號(hào)的關(guān)鍵詞“問(wèn)題”的存在時(shí),其可以確定在該關(guān)鍵詞之后的文本實(shí)際上是問(wèn)題。其將在冒號(hào)之后、直到問(wèn)號(hào)或句號(hào),例如句點(diǎn)等的第一出現(xiàn)為止的文本存儲(chǔ)為潛在問(wèn)題。
[0023]儲(chǔ)存庫(kù)維護(hù)模塊117對(duì)文檔進(jìn)一步解析來(lái)識(shí)別文本串“回答:”的緊接第一出現(xiàn)、讀取在該字符串之后直到第一句號(hào)為止的文本、并且將該文本存儲(chǔ)為對(duì)問(wèn)題的回答。在一些實(shí)施方式中,計(jì)算在問(wèn)題的結(jié)束直到回答的開(kāi)始為止之間的距離。如果發(fā)現(xiàn)該距離超過(guò)閾值,諸如50或100個(gè)字符、或如果從沒(méi)識(shí)別字符串“回答:”,則模塊117將先前讀取的問(wèn)題丟棄作為無(wú)效,并且前進(jìn)到為可能的字符串“問(wèn)題:”和“回答:”對(duì),對(duì)web文檔中的剩余文本進(jìn)行解析。
[0024]在一 些實(shí)施方式中,為了保持所識(shí)別的問(wèn)題和回答相對(duì)簡(jiǎn)短扼要,將所識(shí)別的問(wèn)題以及其對(duì)應(yīng)的回答的長(zhǎng)度限制在最大長(zhǎng)度。例如,如果問(wèn)題包含大于50個(gè)字符(或詞)、或如果回答包含大于30個(gè)字符(或詞),則將丟棄問(wèn)題和回答對(duì)。
[0025]在進(jìn)一步實(shí)施方式中,為了記錄對(duì)特定問(wèn)題的不同回答以及其相應(yīng)排名,可以以下述形式的結(jié)構(gòu)存儲(chǔ)所提取的回答:
[0026]struct value {
[0027]string answer;
[0028]int count;
[0029]}
[0030]其中參數(shù)“answer”存儲(chǔ)回答的文本,以及參數(shù)“count”示出值“answer”已被儲(chǔ)存庫(kù)維護(hù)模塊117識(shí)別的次數(shù)??梢詫⒃撚?jì)數(shù)作為對(duì)問(wèn)題的該特定回答的排名或分值對(duì)待。在一些實(shí)施方式中,被確定為相似的兩個(gè)回答的文本可以由字符串中的一個(gè)表示。例如,可以忽略連字符,數(shù)字拼寫(xiě)和數(shù)字可以被認(rèn)為是相同的等。
[0031]可以利用各種其他技術(shù)來(lái)識(shí)別問(wèn)題以及其對(duì)應(yīng)的回答。
[0032]諸如上述的,使用特定技術(shù)從文檔語(yǔ)料庫(kù)識(shí)別的問(wèn)題和回答可以是不恰當(dāng)識(shí)別的問(wèn)題和回答對(duì)。不恰當(dāng)識(shí)別的問(wèn)題和回答對(duì)是不滿足一個(gè)或多個(gè)預(yù)定義標(biāo)準(zhǔn)或置信閾值的文本??梢岳酶鞣N技術(shù)來(lái)識(shí)別不恰當(dāng)?shù)膯?wèn)題回答對(duì)并且將其排除在儲(chǔ)存庫(kù)之外。例如,可以排除包括垃圾詞語(yǔ)、不能被解析、看起來(lái)是隨機(jī)詞或字符等的問(wèn)題或回答。另外,在預(yù)先確定的時(shí)段內(nèi)具有低于閾值的低分值的對(duì)也可以被認(rèn)為是不恰當(dāng)?shù)幕卮饘?duì),因?yàn)樵摶卮鹂赡苁遣粶?zhǔn)確的。系統(tǒng)可以通過(guò)使用這些示例錯(cuò)誤處理技術(shù)來(lái)容忍第一儲(chǔ)存庫(kù)112或第二儲(chǔ)存庫(kù)113中的不恰當(dāng)或不準(zhǔn)確的問(wèn)題和回答信息。
[0033]在一些實(shí)施方式中,所辨識(shí)的問(wèn)題和回答可以在被存儲(chǔ)在兩個(gè)儲(chǔ)存庫(kù)中之前進(jìn)一步經(jīng)受規(guī)范化過(guò)程以規(guī)范化。這樣的規(guī)范化包括從問(wèn)題或回答的句子移除多余的詞;校正任何拼寫(xiě)錯(cuò)誤;移除不必要的標(biāo)點(diǎn)符號(hào);校正不正確的標(biāo)點(diǎn)符號(hào);移除多余的空格等。例如,如所獲取的原始問(wèn)題可以是“where is world exxposition2010held?”,其中“exxposition”具有拼寫(xiě)錯(cuò)誤,并且在“2010”和“held”之間存在多余空格。規(guī)范化過(guò)程可以識(shí)別該問(wèn)題中的這樣的鍵入錯(cuò)誤,并且將問(wèn)題自動(dòng)校正成“where is worldexposition2010held?” 的規(guī)范形式。
[0034]類(lèi)似地,可以使用上面的規(guī)范化過(guò)程從對(duì)應(yīng)于問(wèn)題的回答移除這樣的明顯鍵入錯(cuò)誤。校正的回答因此更可能被映射到儲(chǔ)存庫(kù)中的現(xiàn)有問(wèn)題和回答對(duì)。
[0035]另外,當(dāng)儲(chǔ)存庫(kù)維護(hù)模塊117將新的問(wèn)題和回答對(duì)映射到現(xiàn)有問(wèn)題和回答對(duì)時(shí),儲(chǔ)存庫(kù)維護(hù)模塊117為儲(chǔ)存庫(kù)中的現(xiàn)有對(duì)增加分值。該分值指示問(wèn)題和回答對(duì)的置信度或質(zhì)量,以及分值的增加指示置信度或質(zhì)量的增加(例如,問(wèn)題和回答對(duì)的準(zhǔn)確性的增加)。
[0036]例如,在問(wèn)題回答對(duì)已被識(shí)別之后,在步驟202,儲(chǔ)存庫(kù)維護(hù)模塊117可以將該對(duì)添加到第一儲(chǔ)存庫(kù)112。儲(chǔ)存庫(kù)維護(hù)模塊117首先通過(guò)對(duì)儲(chǔ)存庫(kù)查詢具有該問(wèn)題和回答的條目,來(lái)確定該問(wèn)題回答對(duì)是否已存在于第一儲(chǔ)存庫(kù)112中。可以通過(guò)文本的精確匹配(或規(guī)范化文本的精確匹配)來(lái)作出問(wèn)題回答對(duì)是否已存在于第一儲(chǔ)存庫(kù)112中的確定。如果這樣的對(duì)被確定存在于第一儲(chǔ)存庫(kù)112中,則在第一儲(chǔ)存庫(kù)112中通過(guò)使該條目的分值增加I (或取決于所使用的評(píng)分方案,一些其他的增值)來(lái)完成添加過(guò)程。如果發(fā)現(xiàn)在第一儲(chǔ)存庫(kù)112中不存在這樣的條目(例如,在儲(chǔ)存庫(kù)112中不存在新近識(shí)別的對(duì)與現(xiàn)有對(duì)的匹配),則將該問(wèn)題和回答對(duì)的新`條目添加到儲(chǔ)存庫(kù),并且為該條目存儲(chǔ)初始分值(例如,用于所使用的特定評(píng)分方案的單位值或最小值)。
[0037]也可以使用其他評(píng)分技術(shù)。例如,在第一儲(chǔ)存庫(kù)中的問(wèn)題回答對(duì)的分值可以是基于一些其他參數(shù)的加權(quán)分值,所述參數(shù)諸如從之提取問(wèn)題回答對(duì)的源的受歡迎度??梢越o予從受歡迎的知識(shí)庫(kù)提取的問(wèn)題回答對(duì)比從不那么受歡迎的知識(shí)庫(kù)提取的那些更高的分值。例如,問(wèn)題回答對(duì)的分值是至少受相同問(wèn)題回答對(duì)被包括入第一儲(chǔ)存庫(kù)112中的頻率和相同問(wèn)題回答對(duì)的各種源的受歡迎度影響的累積分值,因此,反映了在第一儲(chǔ)存庫(kù)112中的問(wèn)題回答對(duì)自身的受歡迎度。
[0038]在將問(wèn)題回答對(duì)添加到第一儲(chǔ)存庫(kù)112的步驟之后,在將關(guān)鍵詞集添加到第二儲(chǔ)存庫(kù)113之前,在步驟203,將對(duì)問(wèn)題進(jìn)行解析來(lái)獲取關(guān)鍵詞集。在一些實(shí)施方式中,解析問(wèn)題的步驟包括使用與編寫(xiě)問(wèn)題的語(yǔ)言相對(duì)應(yīng)的語(yǔ)言模型來(lái)將問(wèn)題分割成詞集。例如,對(duì)于“土豆是‘增肥’還是‘減肥’ ? ” (Is potato fattening or not?)的問(wèn)題,該問(wèn)題將被識(shí)別為用中文編寫(xiě),并且使用中文語(yǔ)言模型被進(jìn)一步處理來(lái)獲取該問(wèn)題的句子結(jié)構(gòu),從而將該問(wèn)題分割成包括主語(yǔ)、動(dòng)詞、謂語(yǔ)部分、連詞等的詞集。
[0039]在一些實(shí)施方式中,可以通過(guò)使用特定搜索引擎的搜索詞語(yǔ)集合來(lái)進(jìn)一步協(xié)助將問(wèn)題分割成語(yǔ)言結(jié)構(gòu)(例如,詞、短語(yǔ)等),從而識(shí)別最近已變得受歡迎但是不可能僅由對(duì)問(wèn)題的語(yǔ)言或語(yǔ)義分析識(shí)別的任何新的詞或短語(yǔ)。在上面的示例中,詞語(yǔ)“增肥”可能在特定詞典中沒(méi)有被正確辨識(shí)為辨識(shí)的詞,但是可以通過(guò)將該詞與搜索詞語(yǔ)集合相比較來(lái)識(shí)別。該搜索詞語(yǔ)集合可以由搜索引擎維護(hù),對(duì)于其,部分搜索詞語(yǔ)是新近創(chuàng)造的詞。
[0040]進(jìn)一步,可以從如此獲取的詞列表移除在該語(yǔ)言中最常出現(xiàn)并且沒(méi)有提供關(guān)于問(wèn)題的性質(zhì)的特定信息的某些停用詞。剩余的詞因此形成待被添加到第二儲(chǔ)存庫(kù)113的關(guān)鍵詞集。
[0041]在一些實(shí)施方式中,在將如此獲取的關(guān)鍵詞集添加到第二儲(chǔ)存庫(kù)113之前,可以確定該關(guān)鍵詞集的大小并且將其與預(yù)先確定的閾值進(jìn)行比較。例如,如果該集的大小小于歧義閾值(例如,三個(gè)詞、四個(gè)詞等),則不將從問(wèn)題得到的關(guān)鍵詞集以及其對(duì)應(yīng)的回答添加到第二儲(chǔ)存庫(kù)113,因?yàn)?,可以通過(guò)將上面過(guò)程用于在語(yǔ)言上不同于該問(wèn)題的另一個(gè)問(wèn)題來(lái)獲取相同的關(guān)鍵詞集。這減少了在用戶輸入問(wèn)題但是得到與不同的問(wèn)題相對(duì)應(yīng)的回答,因?yàn)槿鐝妮斎氲膯?wèn)題獲取的關(guān)鍵詞集與存儲(chǔ)在第二儲(chǔ)存庫(kù)113中的不同問(wèn)題的關(guān)鍵詞集相同的情況下,可能不準(zhǔn)確的回答的可能性。
[0042]如果如在上面所獲取的關(guān)鍵詞集的大小被確定成高于閾值(步驟204),則將問(wèn)題的關(guān)鍵詞集和對(duì)應(yīng)于該問(wèn)題的回答添加到第二儲(chǔ)存庫(kù)113 (步驟205)。將關(guān)鍵詞集和回答對(duì)添加到第二儲(chǔ)存庫(kù)113的特定步驟與如上所述將問(wèn)題和回答對(duì)添加到第一儲(chǔ)存庫(kù)的那些類(lèi)似。
[0043]還可以使用關(guān)鍵詞解析來(lái)確定問(wèn)題是否存在于儲(chǔ)存庫(kù)中。在這些實(shí)施方式中,首先對(duì)問(wèn)題進(jìn)行解析,然后對(duì)儲(chǔ)存庫(kù)搜索精確匹配或關(guān)鍵詞匹配。
[0044]圖3A-3B是被添加到第一儲(chǔ)存庫(kù)112和第二儲(chǔ)存庫(kù)113的問(wèn)題回答對(duì)和關(guān)鍵詞集回答對(duì)的示例性儲(chǔ)存庫(kù)。圖3A是在第一儲(chǔ)存庫(kù)112中的示例數(shù)據(jù)的表。在該表中,當(dāng)確定另一個(gè)問(wèn)題是否與在該列中的這些問(wèn)題中的一個(gè)相同,例如精確匹配時(shí),可以整體使用作為文本字符串的問(wèn)題。
[0045]圖3B是在第二儲(chǔ)存庫(kù)11`3中的示例數(shù)據(jù)的表。在該表中,列“關(guān)鍵詞集”包括在每一個(gè)條目的關(guān)鍵詞列表。通過(guò)使用分號(hào)來(lái)界定不同的關(guān)鍵詞。在關(guān)鍵詞之間的定界符替選地可以是冒號(hào)、表格空格等。在確定輸入問(wèn)題的關(guān)鍵詞集是否與存儲(chǔ)在第二儲(chǔ)存庫(kù)113中的關(guān)鍵詞集中的一個(gè)相同時(shí),可以將輸入問(wèn)題的關(guān)鍵詞集中的每一個(gè)關(guān)鍵詞與該儲(chǔ)存庫(kù)中的現(xiàn)有關(guān)鍵詞集中的每一個(gè)關(guān)鍵詞進(jìn)行比較,來(lái)看存在該關(guān)鍵詞的精確匹配。在一些實(shí)施方式中,僅當(dāng)兩個(gè)關(guān)鍵詞集具有完全相同的關(guān)鍵詞集,而不管列出這些關(guān)鍵詞的順序時(shí),這兩個(gè)關(guān)鍵詞集才相匹配。例如,考慮輸入問(wèn)題是“world exposition2010, whereis it held?”。該問(wèn)題的關(guān)鍵詞集可以是“world exposition;where;held”,其將被確定為與從問(wèn)題 “where is the world expos it ion20 IOhe Id?” 得到的關(guān)鍵詞集 “where; worldexposition; held,,相同。
[0046]還可以使用其他匹配標(biāo)準(zhǔn),例如其中可以將關(guān)鍵詞替代為另一個(gè)詞(將“shoes”替代為“sneakers”)的廣泛匹配、短語(yǔ)匹配等。
[0047]還可以為在第一儲(chǔ)存庫(kù)112和第二儲(chǔ)存庫(kù)113兩者中的相應(yīng)問(wèn)題回答對(duì)或關(guān)鍵詞集回答對(duì)的每一個(gè)條目維護(hù)其他屬性。這些屬性可以是最近添加問(wèn)題回答對(duì)或關(guān)鍵詞集回答對(duì)的時(shí)間、在最近過(guò)去,例如在過(guò)去六個(gè)月,添加問(wèn)題回答對(duì)或關(guān)鍵詞集回答對(duì)的頻率等。當(dāng)試圖為問(wèn)題獲取回答時(shí),該信息可以用于為問(wèn)題回答對(duì)或關(guān)鍵詞集回答對(duì)的受歡迎度賦予權(quán)重。
[0048]可以對(duì)分別將問(wèn)題回答對(duì)和關(guān)鍵詞集回答對(duì)添加到兩個(gè)儲(chǔ)存庫(kù)的上面步驟執(zhí)行替選順序。
[0049]圖4是圖示提供對(duì)在線問(wèn)題的回答的過(guò)程的流程圖。在步驟401,問(wèn)題從用戶(請(qǐng)求者)被接收并且通過(guò)諸如聊天應(yīng)用的客戶端被提交。在一些實(shí)施方式中,在客戶端上提供了控件以供用戶為在儲(chǔ)存庫(kù)中為匹配的問(wèn)題存儲(chǔ)的答復(fù)(回答)向特定服務(wù)器提交問(wèn)題。例如,當(dāng)用戶正在聊天室中與其他用戶組聊天并且輸入了問(wèn)題“where is theexposition2010held?”時(shí),用戶可以點(diǎn)擊在其界面上的、將該消息發(fā)送給實(shí)現(xiàn)上述模塊的服務(wù)器以供處理的控件,而不是將該問(wèn)題發(fā)送給用戶組。替選地,用戶可以將問(wèn)題輸入到網(wǎng)頁(yè)上的文本域中,并且通過(guò)web接口將該問(wèn)題提交給服務(wù)器。
[0050]在服務(wù)器處接收問(wèn)題之后,在步驟402,問(wèn)題處理模塊118可以前進(jìn)到確定在第一儲(chǔ)存庫(kù)112中是否已存在相同的問(wèn)題。如果在第一儲(chǔ)存庫(kù)112中存在具有相同問(wèn)題的一個(gè)或多個(gè)條目,則檢索這些條目的每一個(gè)中的對(duì)應(yīng)回答以供進(jìn)一步處理。在一些實(shí)施方式中,在將從客戶端接收的問(wèn)題用于查詢第一儲(chǔ)存庫(kù)112之前對(duì)該問(wèn)題進(jìn)一步規(guī)范化。該規(guī)范化過(guò)程可以包括如在上面指定的,從問(wèn)題的句子移除多余的詞;校正任何拼寫(xiě)錯(cuò)誤;移除不必要的標(biāo)點(diǎn)符號(hào);校正不正確的標(biāo)點(diǎn)符號(hào);移除多余的空格等。
[0051]如果在第一儲(chǔ)存庫(kù)112中不能找到帶有與所接收的問(wèn)題相同的問(wèn)題的條目(例如,沒(méi)有為該問(wèn)題返回結(jié)果),則問(wèn)題處理模塊118可以對(duì)所接收的問(wèn)題進(jìn)行解析來(lái)獲取對(duì)應(yīng)于該問(wèn)題的關(guān)鍵詞集(步驟 404)。除將所獲取的關(guān)鍵詞集的大小與歧義閾值進(jìn)行比較外,該解析步驟可以與在圖2中的步驟203中所述的類(lèi)似(例如,使用與編寫(xiě)問(wèn)題的語(yǔ)言相對(duì)應(yīng)的語(yǔ)言模型,以及可選地使用搜索引擎所收集的搜索詞語(yǔ)將回答分割成詞集)。將所接收的問(wèn)題的關(guān)鍵詞集用作為查詢第二儲(chǔ)存庫(kù)113的鍵。如果在第二儲(chǔ)存庫(kù)113中存在在列“關(guān)鍵詞”中具有相同的關(guān)鍵詞集的一個(gè)或多個(gè)條目、或另外與足夠的置信度相匹配,則檢索在列“回答”中的其對(duì)應(yīng)回答并且將其返回給問(wèn)題處理模塊118 (步驟404)。
[0052]在步驟405,從第一儲(chǔ)存庫(kù)112或第二儲(chǔ)存庫(kù)113檢索到的所接收的問(wèn)題的回答,如果有的話,根據(jù)這些回答的相應(yīng)分值來(lái)排序。替選地,在為結(jié)果中的回答中的每一個(gè)確定排名分值時(shí),可以使用其他信息,諸如最近添加問(wèn)題回答對(duì)或關(guān)鍵詞集回答對(duì)的時(shí)間、在過(guò)去六個(gè)月添加問(wèn)題回答對(duì)或關(guān)鍵詞集回答對(duì)的頻率。
[0053]最后,在步驟406,問(wèn)題處理模塊118將所接收的問(wèn)題的排序的回答集發(fā)送給問(wèn)題通過(guò)諸如因特網(wǎng)的網(wǎng)絡(luò)源起的客戶端101。在一些實(shí)施方式中,根據(jù)從發(fā)出請(qǐng)求的客戶端101與問(wèn)題一起接收的參數(shù)值,僅將排名最高的、所要求數(shù)量的回答發(fā)送給發(fā)出請(qǐng)求的客戶端101。例如,發(fā)出請(qǐng)求的客戶端101可能僅請(qǐng)求對(duì)所提交的問(wèn)題的一個(gè)回答。在這種情況下,問(wèn)題處理模塊118將挑選最高排名的回答,并且將其發(fā)送給客戶端101。
[0054]在替選實(shí)施方式中,可以在步驟402對(duì)第一儲(chǔ)存庫(kù)112查詢問(wèn)題的任何回答之前執(zhí)行在從發(fā)出請(qǐng)求的客戶端接收問(wèn)題之后將該問(wèn)題解析成關(guān)鍵詞集的步驟。替選地,可以與查詢第一儲(chǔ)存庫(kù)的步驟同時(shí)執(zhí)行解析步驟和查詢第二儲(chǔ)存庫(kù)113的步驟,以節(jié)省以順序地查詢兩個(gè)儲(chǔ)存庫(kù)對(duì)所接收的問(wèn)題進(jìn)行處理的額外等待時(shí)間。
[0055]在該實(shí)施方式的變體中,即使找到第一儲(chǔ)存庫(kù)中的匹配,也可以查詢兩個(gè)儲(chǔ)存庫(kù)。因此,在該實(shí)施方式中,可以返回來(lái)自兩個(gè)儲(chǔ)存庫(kù)的回答,并且從兩者為其相應(yīng)查詢返回結(jié)果。對(duì)兩個(gè)過(guò)程的同時(shí)執(zhí)行可以通過(guò)利用諸如多任務(wù)中的線程的編程技術(shù)來(lái)實(shí)現(xiàn)。
[0056]在本說(shuō)明書(shū)中所述的主題和功能操作的實(shí)施例可以以數(shù)字電子電路、以有形實(shí)現(xiàn)的計(jì)算機(jī)軟件或固件、以硬件,包括在本說(shuō)明書(shū)中公開(kāi)的結(jié)構(gòu)以及其結(jié)構(gòu)等價(jià)物、或以它們中的一個(gè)或多個(gè)的組合來(lái)實(shí)現(xiàn)??梢詫⒃诒菊f(shuō)明書(shū)中所述的主題的實(shí)施例實(shí)現(xiàn)為一個(gè)或多個(gè)計(jì)算機(jī)程序,即編碼在計(jì)算機(jī)存儲(chǔ)介質(zhì)上、供數(shù)據(jù)處理裝置執(zhí)行或控制數(shù)據(jù)處理裝置的操作的一個(gè)或多個(gè)計(jì)算機(jī)程序指令模塊。替選地或另外,程序指令可以被編碼在傳播信號(hào)上,該傳播信號(hào)是非自然生成的信號(hào),例如機(jī)器生成的電的、光學(xué)或電磁信號(hào),其被生成以編碼用于傳輸?shù)竭m當(dāng)接收器裝置以供數(shù)據(jù)處理裝置執(zhí)行的信息。計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是機(jī)器可讀存儲(chǔ)設(shè)備、機(jī)器可讀存儲(chǔ)基片、隨機(jī)或串行存取存儲(chǔ)器設(shè)備、或以上的一個(gè)或多個(gè)的組合。
[0057]用語(yǔ)“數(shù)據(jù)處理裝置”包含用于處理數(shù)據(jù)的所有類(lèi)型的裝置、設(shè)備以及機(jī)器,包括例如可編程處理器、計(jì)算機(jī)或多個(gè)處理器或計(jì)算機(jī)。裝置可以包括專(zhuān)用邏輯電路,例如FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)或ASIC (專(zhuān)用集成電路)。除硬件外,所述裝置還可以包括為討論中的計(jì)算機(jī)程序創(chuàng)建執(zhí)行環(huán)境的代碼,例如構(gòu)成處理器固件、協(xié)議堆棧、數(shù)據(jù)庫(kù)管理系統(tǒng)、操作系統(tǒng)或以上一個(gè)或多個(gè)的組合的代碼。
[0058]計(jì)算機(jī)程序(其也可以被稱(chēng)為程序、軟件、軟件應(yīng)用、腳本或代碼)可以以任何形式的編程語(yǔ)言編寫(xiě),包括編譯或解釋語(yǔ)言、或者說(shuō)明性或過(guò)程性語(yǔ)言,并且其可以以任何形式部署,包括作為獨(dú)立程序或作為模塊、組件、子程序或適于在計(jì)算環(huán)境中使用的其他單元。計(jì)算機(jī)程序可以但不必對(duì)應(yīng)于文件系統(tǒng)中的文件。可以將程序存儲(chǔ)在保持其他程序或數(shù)據(jù)的文件(例如,存儲(chǔ)在標(biāo)記語(yǔ)言文檔中的一個(gè)或多個(gè)腳本)的一部分、專(zhuān)用于討論中的程序的單個(gè)文件或者多個(gè)協(xié)調(diào)文件(例如,存儲(chǔ)一個(gè)或多個(gè)模塊、子程序或部分代碼的文件)中??梢詫⒂?jì)算機(jī)程序部署為在一個(gè)計(jì)算機(jī)上或者在位于一個(gè)地點(diǎn)或跨多個(gè)地點(diǎn)分布并且由通信網(wǎng)絡(luò)互連的多個(gè)計(jì)算機(jī)上執(zhí)行。
[0059]在本說(shuō)明書(shū)中所述的過(guò)程和邏輯流可以由執(zhí)行一個(gè)或多個(gè)計(jì)算機(jī)程序的一個(gè)或多個(gè)可編程處理器執(zhí)行,以通過(guò)操作輸入數(shù)據(jù)并且生成輸出來(lái)執(zhí)行功能。所述過(guò)程和邏輯流還可以由專(zhuān)用邏輯電路執(zhí)行,以及裝置還可以被實(shí)現(xiàn)為專(zhuān)用邏輯電路,專(zhuān)用邏輯電路例如FPGA (現(xiàn)場(chǎng)可編程門(mén)陣列)或ASIC (專(zhuān)用集成電路)。
[0060]適于執(zhí)行計(jì)算機(jī)程序的處理器包括例如通用和專(zhuān)用微處理器兩者,以及任何類(lèi)型的數(shù)字計(jì)算機(jī)的任何一個(gè)或多個(gè)處理器。通常,處理器將從只讀存儲(chǔ)器或隨機(jī)存取存儲(chǔ)器或兩者接收指令和數(shù)據(jù)。計(jì)算機(jī)的主要元件是用于執(zhí)行或施行指令的處理器和用于存儲(chǔ)指令和數(shù)據(jù)的一個(gè)或多個(gè)存儲(chǔ)器設(shè)備。通常,計(jì)算機(jī)還將包括用于存儲(chǔ)數(shù)據(jù)的一個(gè)或多個(gè)海量存儲(chǔ)設(shè)備,例如磁的、磁光盤(pán)或光盤(pán),或可操作地耦接以從所述一個(gè)或多個(gè)海量存儲(chǔ)設(shè)備接收數(shù)據(jù)或向所述一個(gè)或多個(gè)海量存儲(chǔ)設(shè)備傳送數(shù)據(jù),或兩者。然而,計(jì)算機(jī)不必具有這樣的設(shè)備。此外,可以將計(jì)算機(jī)嵌入另一個(gè)設(shè)備中,例如移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、移動(dòng)音頻或視頻播放器、游戲控制臺(tái)、全球定位系統(tǒng)(GPS)接收器或便攜式存儲(chǔ)設(shè)備(例如,通用串行總線(USB)閃存驅(qū)動(dòng)器),僅列出一些。
[0061]適于存儲(chǔ)計(jì)算機(jī)程序指令和數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)包括所有形式的非易失性存儲(chǔ)器、介質(zhì)和存儲(chǔ)器設(shè)備,包括例如:半導(dǎo)體存儲(chǔ)器設(shè)備,例如EPROM、EEPROM和閃存設(shè)備;磁盤(pán),例如內(nèi)部硬盤(pán)或可移動(dòng)盤(pán);磁光盤(pán);以及⑶-ROM和DVD-ROM盤(pán)。處理器和存儲(chǔ)器可以由專(zhuān)用邏輯電路補(bǔ)充,或合并入專(zhuān)用邏輯電路。
[0062]為了提供與用戶的交互,本說(shuō)明書(shū)中所述的主題的實(shí)施例可以在具有下述的計(jì)算機(jī)上實(shí)現(xiàn):用于向用戶顯示信息的顯示設(shè)備,例如CRT (陰極射線管)或IXD (液晶顯示)監(jiān)視器;以及,用戶通過(guò)其可以向計(jì)算機(jī)提供輸入的鍵盤(pán)和指示設(shè)備,例如鼠標(biāo)或跟蹤球。也可以使用其他類(lèi)型的設(shè)備來(lái)提供與用戶的交互;例如,提供給用戶的反饋可以是任何形式的感知反饋,例如視覺(jué)反饋、聽(tīng)覺(jué)反饋或觸覺(jué)反饋;以及可以以任何形式,包括聲學(xué)、話音或觸覺(jué)輸入,接收來(lái)自用戶的輸入。另外,計(jì)算機(jī)可以通過(guò)向用戶所使用的設(shè)備發(fā)送文檔并且從該設(shè)備接收文檔來(lái)與用戶交互;例如,通過(guò)響應(yīng)于從用戶的客戶端上的web瀏覽器接收的請(qǐng)求而向該web瀏覽器發(fā)送網(wǎng)頁(yè)。
[0063]雖然本說(shuō)明書(shū)包含許多【具體實(shí)施方式】細(xì)節(jié),但是這些細(xì)節(jié)不應(yīng)當(dāng)被解釋為對(duì)任何發(fā)明或可以主張的內(nèi)容的范圍的限制,而應(yīng)當(dāng)被解釋為對(duì)可以具體到特定發(fā)明的特定實(shí)施例的特征的描述。還可以將在本說(shuō)明書(shū)中在分離的實(shí)施例的情境中描述的某些特征組合在單個(gè)實(shí)施例中實(shí)現(xiàn)。相反地,也可以將在單個(gè)實(shí)施例的情境中描述的各種特征分離地在多個(gè)實(shí)施例中實(shí)現(xiàn)或在任何適當(dāng)?shù)淖咏M合中實(shí)現(xiàn)。此外,盡管可能在上面將特征描述為在某些組合中起作用,甚至最初主張如此,但是可以在一些情況下,將來(lái)自所主張的組合的一個(gè)或多個(gè)特征從該組合中刪去,并且所主張的組合可以針對(duì)子組合或子組合的變體。
[0064]類(lèi)似地,雖然在附圖中按照特定順序描繪了操作,但是不應(yīng)當(dāng)將這理解為需要按照所示的特定順序或按照連續(xù)順序執(zhí)行這樣的操作、或者需要執(zhí)行所有圖示的操作才能達(dá)到期望的結(jié)果。在某些情況下,多任務(wù)以及并行處理可以是有利的。此外,不應(yīng)當(dāng)將在上述實(shí)施例中的各種系統(tǒng)組件的分離理解為在所有實(shí)施例中均需要這樣的分離,而應(yīng)當(dāng)理解的是,通??梢詫⑺龀绦蚪M件和系統(tǒng)集成到一起成為單個(gè)軟件產(chǎn)品或封裝為多個(gè)軟件產(chǎn)品O
[0065]已描述了本主題的特定實(shí)施例。其他實(shí)施例在所附權(quán)利要求的范圍內(nèi)。例如,可以按照不同的順序來(lái)執(zhí)行權(quán)利要求中記載的動(dòng)作并且仍然達(dá)到期望的結(jié)果。作為一個(gè)示例,在附圖中描繪的過(guò)程不必需要所示的特定順序或連續(xù)順序,才能達(dá)到期望的結(jié)果。在某些實(shí)施方式中,多任務(wù)以及并行處理可以是有利的。
【權(quán)利要求】
1.一種提供對(duì)問(wèn)題的自動(dòng)回答的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括: 從客戶端接收定義問(wèn)題的數(shù)據(jù),所述問(wèn)題包括多個(gè)詞; 對(duì)第一儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于所述問(wèn)題的回答,所述第一儲(chǔ)存庫(kù)存儲(chǔ)問(wèn)題回答對(duì),所述問(wèn)題回答對(duì)中的每一個(gè)具有與其受歡迎度相對(duì)應(yīng)的相應(yīng)分值; 將所述問(wèn)題解析成關(guān)鍵詞集,并且對(duì)第二儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于所述關(guān)鍵詞集的回答,所述第二儲(chǔ)存庫(kù)存儲(chǔ)關(guān)鍵詞集回答對(duì),所述關(guān)鍵詞集回答對(duì)中的每一個(gè)具有與其受歡迎度相對(duì)應(yīng)的相應(yīng)分值; 根據(jù)排名標(biāo)準(zhǔn)對(duì)從所述第一儲(chǔ)存庫(kù)或所述第二儲(chǔ)存庫(kù)返回的所述回答進(jìn)行排序;以及 向所述客戶端提供所排序的回答的至少子集。
2.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括通過(guò)以下的至少一個(gè)步驟對(duì)所接收的問(wèn)題進(jìn)行規(guī)范化:移除多余的詞;校正拼寫(xiě)錯(cuò)誤;移除不必要的標(biāo)點(diǎn)符號(hào);校正不正確的標(biāo)點(diǎn)符號(hào);以及移除多余的空格。
3.根據(jù)權(quán)利要求1所述的方法,其中將所述問(wèn)題解析成關(guān)鍵詞集包括: 使用與編寫(xiě)所述問(wèn)題的語(yǔ)言相對(duì)應(yīng)的語(yǔ)言模型將所述問(wèn)題分割成詞集;以及 從所述詞集移除停用詞。
4.根據(jù)權(quán)利要求3所述的方法,其中通過(guò)以下步驟來(lái)精化分割所述問(wèn)題的步驟:將所述問(wèn)題的至少部分與搜索詞語(yǔ)集合進(jìn)行比較。
5.根據(jù)權(quán)利要求1所述的方法,其中提供所排序的回答的至少子集包括向所述客戶端提供具有最高排名的所述回答`。
6.根據(jù)權(quán)利要求1所述的方法,其中所述客戶端包括以下的至少一個(gè):聊天室應(yīng)用、電子布告欄應(yīng)用以及到搜索引擎的客戶端接口。
7.根據(jù)權(quán)利要求1所述的方法,其中將所述問(wèn)題解析成關(guān)鍵詞集以及對(duì)第二儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于所述關(guān)鍵詞集的回答與查詢所述第一儲(chǔ)存庫(kù)同時(shí)發(fā)生。
8.根據(jù)權(quán)利要求1所述的方法,其中將所述問(wèn)題解析成關(guān)鍵詞集以及對(duì)第二儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于所述關(guān)鍵詞集的回答僅當(dāng)響應(yīng)于對(duì)所述第一儲(chǔ)存庫(kù)的所述查詢而沒(méi)有接收到回答時(shí)才發(fā)生。
9.一種提供對(duì)問(wèn)題的自動(dòng)回答的系統(tǒng),包括: 第一儲(chǔ)存庫(kù),其存儲(chǔ)問(wèn)題回答對(duì),所述問(wèn)題回答對(duì)中的每一個(gè)具有與其受歡迎度相對(duì)應(yīng)的相應(yīng)分值; 第二儲(chǔ)存庫(kù),其存儲(chǔ)關(guān)鍵詞集回答對(duì),所述關(guān)鍵詞集回答對(duì)中的每一個(gè)具有與其受歡迎度相對(duì)應(yīng)的相應(yīng)分值; 問(wèn)題處理模塊,其被配置成: 從客戶端接收定義問(wèn)題的數(shù)據(jù),所述問(wèn)題包括多個(gè)詞; 對(duì)所述第一儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于所述問(wèn)題的回答; 將所述問(wèn)題解析成關(guān)鍵詞集,并且對(duì)所述第二儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于所述關(guān)鍵詞集的回答; 根據(jù)排名標(biāo)準(zhǔn)對(duì)從所述第一儲(chǔ)存庫(kù)或所述第二儲(chǔ)存庫(kù)返回的所述回答進(jìn)行排序; 向所述客戶端提供所排序的回答的至少子集以供展現(xiàn)。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述問(wèn)題處理模塊被進(jìn)一步配置成通過(guò)以下的至少一個(gè)步驟對(duì)所接收的問(wèn)題進(jìn)行規(guī)范化:移除多余的詞;校正拼寫(xiě)錯(cuò)誤;移除不必要的標(biāo)點(diǎn)符號(hào);校正不正確的標(biāo)點(diǎn)符號(hào);以及移除多余的空格。
11.根據(jù)權(quán)利要求9所述的系統(tǒng),其中將所述問(wèn)題解析成關(guān)鍵詞集的步驟至少包括: 使用與編寫(xiě)所述問(wèn)題的語(yǔ)言相對(duì)應(yīng)的語(yǔ)言模型將所述問(wèn)題分割成詞集;以及 從所述詞集移除停用詞。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中通過(guò)以下步驟來(lái)精化分割所述問(wèn)題的步驟:將所述問(wèn)題的至少部分與搜索詞語(yǔ)集合進(jìn)行比較。
13.根據(jù)權(quán)利要求9所述的系統(tǒng),其中將所述問(wèn)題解析成關(guān)鍵詞集以及對(duì)第二儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于所述關(guān)鍵詞集的回答與查詢所述第一儲(chǔ)存庫(kù)的步驟同時(shí)發(fā)生。
14.根據(jù)權(quán)利要求9所述的系統(tǒng),其中將所述問(wèn)題解析成關(guān)鍵詞集以及對(duì)第二儲(chǔ)存庫(kù)查詢對(duì)應(yīng)于所述關(guān)鍵詞集的回答僅當(dāng)響應(yīng)于對(duì)所述第一儲(chǔ)存庫(kù)的所述查詢而沒(méi)有接收到回答時(shí)才發(fā)生。
15.根據(jù)權(quán)利要求9所述的系統(tǒng),進(jìn)一步包括用于維護(hù)所述第一和第二儲(chǔ)存庫(kù)的儲(chǔ)存庫(kù)維護(hù)模塊,所述儲(chǔ)存庫(kù)維護(hù)模塊被配置成: 從在文檔語(yǔ)料庫(kù)之中的文檔識(shí)別問(wèn)題-回答對(duì),其中所述回答被映射到所述問(wèn)題; 將所述問(wèn)題-回答對(duì)添加到所述第一儲(chǔ)存庫(kù); 解析在所述問(wèn)題-回答對(duì)中的所述問(wèn)題來(lái)獲取關(guān)鍵詞集;以及 將所述關(guān)鍵詞集和所述回答添加到所述第二儲(chǔ)存庫(kù)。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述關(guān)鍵詞和所述回答僅在所述關(guān)鍵詞集的大小高于閾值時(shí)才被添加到所述第二儲(chǔ)存庫(kù)。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中在所述文檔中的所識(shí)別的問(wèn)題-回答對(duì)的所述問(wèn)題的結(jié)束和所述回答的開(kāi)始之間的距離在第一預(yù)先確定的閾值內(nèi)。
18.根據(jù)權(quán)利要求16或17所述的系統(tǒng),其中在所識(shí)別的問(wèn)題-回答對(duì)中的所述問(wèn)題的長(zhǎng)度在第二預(yù)先確定的閾值內(nèi),以及所識(shí)別的問(wèn)題-回答對(duì)中的所述回答的長(zhǎng)度在第三閾值內(nèi)。
19.根據(jù)權(quán)利要求15所述的系統(tǒng),其中將所述問(wèn)題-回答對(duì)添加到所述第一儲(chǔ)存庫(kù)包括: 確定所述問(wèn)題-回答對(duì)是否已存在于所述第一儲(chǔ)存庫(kù)中; 如果所述問(wèn)題-回答對(duì)已存在于所述第一儲(chǔ)存庫(kù)中,則增加所述問(wèn)題-回答對(duì)在所述第一儲(chǔ)存庫(kù)中的排名、或如果所述問(wèn)題-回答對(duì)不存在于所述第一儲(chǔ)存庫(kù)中,則將所述問(wèn)題-回答對(duì)的新條目存儲(chǔ)在所述第一儲(chǔ)存庫(kù)中,并且為所述對(duì)初始化排名。
20.根據(jù)權(quán)利要求15所述的系統(tǒng),其中在索引系統(tǒng)中將所述關(guān)鍵詞集和所述回答添加到所述第二儲(chǔ)存庫(kù)包括: 確定所述關(guān)鍵詞集和所述回答的對(duì)是否已存在于所述第二儲(chǔ)存庫(kù)中; 如果所述關(guān)鍵詞集和所述回答的所述對(duì)已存在于所述第二儲(chǔ)存庫(kù)中,則增加所述對(duì)在所述第二儲(chǔ)存庫(kù)中的排名;或 如果所述關(guān)鍵詞集和所述回答的所述對(duì)不存在于所述第二儲(chǔ)存庫(kù)中,則將所述關(guān)鍵詞集和所述回答的所述對(duì)的新條目存儲(chǔ)在所述第二儲(chǔ)存庫(kù)中,并且為所述對(duì)初始化排名。
21.根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述文檔語(yǔ)料庫(kù)包括聊天室記錄、電子布告欄數(shù)據(jù)以及網(wǎng)頁(yè)。
22.根據(jù)權(quán)利要求15所述的系統(tǒng),其中識(shí)別問(wèn)題-回答對(duì)的步驟包括通過(guò)以下的至少一個(gè)步驟對(duì)所述對(duì)中的所述問(wèn)題和回答進(jìn)行規(guī)范化:移除多余的詞;校正拼寫(xiě)錯(cuò)誤;移除不必要的標(biāo)點(diǎn)符號(hào);校正不正確的標(biāo)點(diǎn)符號(hào);移除多余的空格。
23.—種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括: 從在文檔語(yǔ)料庫(kù)之中的文檔識(shí)別問(wèn)題-回答對(duì),其中所述回答被映射到所述問(wèn)題; 將所述問(wèn)題-回答對(duì)添加到第一儲(chǔ)存庫(kù); 解析在所述問(wèn)題-回答對(duì)中的所述問(wèn)題來(lái)獲取關(guān)鍵詞集; 將所述關(guān)鍵詞集與所述回答相關(guān)聯(lián);以及 將所述關(guān)鍵詞集和所述回答添加到第二儲(chǔ)存庫(kù)。
24.根據(jù)權(quán)利要求23所述的方法,其中所述關(guān)鍵詞和所述回答僅在所述關(guān)鍵詞集的大小高于閾值時(shí)才被添加到所述第二儲(chǔ)存庫(kù)。
25.根據(jù)權(quán)利要求23所述的方法,其中從在文檔語(yǔ)料庫(kù)之中的文檔識(shí)別問(wèn)題-回答對(duì)包括僅當(dāng)在所述文檔中的所述問(wèn)題的結(jié)束和所述回答的開(kāi)始之間的距離在第一預(yù)先確定的閾值內(nèi)時(shí)才僅識(shí)別所述問(wèn)題-回答對(duì)。
26.根據(jù)權(quán)利要求25所述的方法,其中從在文檔語(yǔ)料庫(kù)之中的文檔識(shí)別問(wèn)題-回答對(duì)包括僅在所述問(wèn)題的長(zhǎng)度在第二預(yù)先確定的閾值內(nèi)時(shí)才識(shí)別所述問(wèn)題,以及僅在所識(shí)別的問(wèn)題-回答對(duì)的所述回答的長(zhǎng)度在第三閾值內(nèi)時(shí)才識(shí)別所述回答。
27.根據(jù)權(quán)利要求23所述的方法,其中將所述問(wèn)題-回答對(duì)添加到所述第一儲(chǔ)存庫(kù)包括: 確定所述問(wèn)題-回答對(duì)是否已存在于所述第一儲(chǔ)存庫(kù)中; 如果所述問(wèn)題-回答對(duì)已存在于所述第一儲(chǔ)存庫(kù)中,則增加所述問(wèn)題-回答對(duì)在所述第一儲(chǔ)存庫(kù)中的排名;以及 如果所述問(wèn)題-回答對(duì)不存在于所述第一儲(chǔ)存庫(kù)中,則將所述問(wèn)題-回答對(duì)的新條目存儲(chǔ)在所述第一儲(chǔ)存庫(kù)中,并且為所述對(duì)初始化排名。
28.根據(jù)權(quán)利要求23所述的方法,其中在索引系統(tǒng)中將所述關(guān)鍵詞集和所述回答添加到所述第二儲(chǔ)存庫(kù)包括: 確定所述關(guān)鍵詞集和所述回答的對(duì)是否已存在于所述第二儲(chǔ)存庫(kù)中; 如果所述關(guān)鍵詞集和所述回答的所述對(duì)已存在于所述第二儲(chǔ)存庫(kù)中,則增加所述對(duì)在所述第二儲(chǔ)存庫(kù)中的排名;以及 如果所述關(guān)鍵詞集和所述回答的所述對(duì)不存在于所述第二儲(chǔ)存庫(kù)中,則將所述關(guān)鍵詞集和所述回答的所述對(duì)的新條目存儲(chǔ)在所述第二儲(chǔ)存庫(kù)中,并且為所述對(duì)初始化排名。
29.根據(jù)權(quán)利要求23所述的方法,其中所述文檔語(yǔ)料庫(kù)包括聊天室消息、電子布告欄消息和網(wǎng)頁(yè)。
【文檔編號(hào)】G06F17/30GK103493045SQ201180069249
【公開(kāi)日】2014年1月1日 申請(qǐng)日期:2011年1月18日 優(yōu)先權(quán)日:2011年1月18日
【發(fā)明者】周欣 申請(qǐng)人:谷歌公司