国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種自然語言問答的方法

      文檔序號:6365018閱讀:452來源:國知局
      專利名稱:一種自然語言問答的方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及人工智能的技術(shù)領(lǐng)域,具體地涉及一種自然語言問答的方法。
      背景技術(shù)
      隨著互聯(lián)網(wǎng)信息爆炸式增長,用戶有了更多獲取信息的途徑。但也對用戶檢索信息的能力提出了更多的挑戰(zhàn)。關(guān)鍵詞檢索技術(shù)為眾多搜索引擎所采用,并在許多領(lǐng)域都取得了不錯(cuò)的效果,在工業(yè)界獲得了巨大的成功。然而,隨著信息的增加,這種信息獲取的方式逐漸無法滿足用戶的需求。這種基于關(guān)鍵詞檢索方式的信息獲取方法主要有以下2個(gè)不足(1)返回過多信息,用戶需要進(jìn)一步點(diǎn)擊返回的鏈接才可以獲得自己所需要的信息;簡單的若干個(gè)關(guān)鍵詞有時(shí)無法明確地表達(dá)用戶的需求,從而導(dǎo)致無法檢索得到需要的結(jié)果。 與之相反,問答方式允許用戶以自然語言形式提問,并返回簡潔明了的結(jié)果,這恰恰是用戶所需要的。問答系統(tǒng)也是人工智能領(lǐng)域比較火熱的研究課題之一。不過由于問答系統(tǒng)的復(fù)雜性,目前并沒有太多相關(guān)的商用系統(tǒng)。IBM Watson(沃森)是比較出名的問答系統(tǒng)。不過該系統(tǒng)主要是處理事實(shí)類型的問題,并且只能回答答案是簡單名詞短語的問題。這類事實(shí)型問題雖然很重要,但用戶有更多更復(fù)雜的問題希望能得到解決,例如尋找原因、尋找解決方案的問題。社區(qū)問答的出現(xiàn)就是希望依靠用戶的力量幫助用戶解決這些復(fù)雜問題,例如搜搜問問,百度知道等。但這類問答社區(qū)由于依賴其他用戶作答,因此很難及時(shí)有效地回答用戶的問題,尤其是與搜索引擎返回結(jié)果的速度相比就更難做到及時(shí)有效了。

      發(fā)明內(nèi)容
      為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明要解決的技術(shù)問題是提供了一種及時(shí)有效地回答用戶問題的自然語言問答的方法。本發(fā)明的技術(shù)方案是這種自然語言問答的方法,包括以下步驟(I)對于用戶輸入的問題進(jìn)行問題分析;(2)利用問題分析的結(jié)果以及社區(qū)問答的語料對問題作答;(3)利用問題分析的結(jié)果以及百科語料對問題作答;(4)對于從步驟(2)、(3)返回的答案,進(jìn)行答案驗(yàn)證及選擇,并最終返回最佳答案給用戶。由于利用了社區(qū)問答以及百科數(shù)據(jù)回答用戶自然語言問題,并進(jìn)行答案驗(yàn)證及選擇,所以能夠及時(shí)有效地回答用戶問題。


      圖I是根據(jù)本發(fā)明的自然語言問答的方法的流程圖;圖2是步驟(I)的流程圖3是步驟⑵的流程圖;圖4是步驟⑶的流程圖。
      具體實(shí)施方式
      下面對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。如圖I所示,這種自然語言問答的方法,包括以下步驟(I)對于用戶輸入的問題進(jìn)行問題分析;(2)利用問題分析的結(jié)果以及社區(qū)問答的語料對問題作答;(3)利用問題分析的結(jié)果以及百科語料對問題作答;(4)對于從步驟(2)、(3)返回的答案,進(jìn)行答案驗(yàn)證及選擇,并最終返回最佳答案給用戶。由于利用了社區(qū)問答以及百科數(shù)據(jù)回答用戶自然語言問題,并進(jìn)行答案驗(yàn)證及選擇,所以能夠及時(shí)有效地回答用戶問題。優(yōu)選地,如圖2所示,步驟(I)包括以下分步驟(I. I)利用中文分詞工具對于問題進(jìn)行分詞以及詞性標(biāo)注;(I. 2)抽取問題中的核心概念,采用的方法是利用詞性標(biāo)注結(jié)果,認(rèn)為名詞即重要概念;或者利用詞性信息的同時(shí)還利用詞頻信息,計(jì)算每個(gè)詞出現(xiàn)的文檔集合的大小,濾去高于指定閾值的詞;(I. 3)進(jìn)行問題分類,問題分類的標(biāo)準(zhǔn)是根據(jù)問題的需求進(jìn)行分為事實(shí)型問題,列表型問題,原因型問題,方法型問題,定義型問題以及導(dǎo)航型問題(如表I所示)。表I
      問題類型分類標(biāo)準(zhǔn)例子事實(shí)型問題的答案是一個(gè)事實(shí)型短語誰是美國總統(tǒng)?列表型問題的答案是一個(gè)事實(shí)型短語的 1990年誰得了諾_nm__貝爾獎(jiǎng)?原因型問題的答案是用于解釋問題或表為什么天空是藍(lán)的?_達(dá)對問題中事件的觀點(diǎn)__阿凡達(dá)怎么樣?方法型問題是尋求解決某任務(wù)的方法地震時(shí)該怎么辦?定義型問題的答案是對某概念的定義 “毛澤東”簡介?導(dǎo)航型問題的答案是某些網(wǎng)站或資源的哪里能下載星際爭_地址_[w__更進(jìn)一步地,步驟(I. 3)中采用根據(jù)馬爾可夫邏輯網(wǎng)的方法進(jìn)行分類定義如下幾種謂詞Type(q, t):如果問題q具有問題類型t則值為1,否則為O。
      MatchP (q,p):問題q可以匹配上strict pattern p的值為1,否則為0。MatchC(q,p):問題 q 匹配上 soft pattern p 的匹配度(0,I 之間)。謂詞之間的關(guān)系由如下兩類formulas來約束。
      權(quán)利要求
      1.一種自然語言問答的方法,其特征在于包括以下步驟 (1)對于用戶輸入的問題進(jìn)行問題分析; (2)利用問題分析的結(jié)果以及社區(qū)問答的語料對問題作答; (3)利用問題分析的結(jié)果以及百科語料對問題作答; (4)對于從步驟(2)、(3)返回的答案,進(jìn)行答案驗(yàn)證及選擇,并最終返回最佳答案給用戶。
      2.根據(jù)權(quán)利要求I所述的自然語言問答的方法,其特征在于步驟(I)包括以下分步驟 (I. I)利用中文分詞工具對于問題進(jìn)行分詞以及詞性標(biāo)注; (I. 2)抽取問題中的核心概念,采用的方法是利用詞性標(biāo)注結(jié)果,認(rèn)為名詞即重要概念;或者利用詞性信息的同時(shí)還利用詞頻信息,計(jì)算每個(gè)詞出現(xiàn)的文檔集合的大小,濾去高于指定閾值的詞; (I. 3)進(jìn)行問題分類,問題分類的標(biāo)準(zhǔn)是根據(jù)問題的需求進(jìn)行分為事實(shí)型問題,列表型問題,原因型問題,方法型問題,定義型問題以及導(dǎo)航型問題。
      3.根據(jù)權(quán)利要求2所述的自然語言問答的方法,其特征在于步驟(1.3)中采用根據(jù)馬爾可夫邏輯網(wǎng)的方法進(jìn)行分類 根據(jù)下面的公式計(jì)算問題q屬于某個(gè)類別t的概率p{t I q) cc exp ( ^ W1 * H1 {q, t)) 其中,F(xiàn)qt是問題q和類別t能夠觸發(fā)的模板集合,即問題q符合該模板,且該模板在訓(xùn)練集合中命中過類別t的問題!njq, t)是問題q符合的strict pattern的數(shù)量,或者是soft pattern的匹配程度,其中strictpattern是一個(gè)問題的虛詞所具有的特征,softpattern是一個(gè)問題的實(shí)意詞所具有的特征;利用LI-正規(guī)化方法,在訓(xùn)練集合上學(xué)習(xí)得到權(quán)重系數(shù)Wi。
      4.根據(jù)權(quán)利要求I所述的自然語言問答的方法,其特征在于步驟(2)包括以下分步驟 (2. I)根據(jù)問題分析的結(jié)果,檢索相似問題; (2. 2)對檢索得到的相似問題的答案集合進(jìn)行處理,得到答案。
      5.根據(jù)權(quán)利要求4所述的自然語言問答的方法,其特征在于步驟(2.2)中計(jì)算問題與返回相似問題的相似度的方法如下 兩個(gè)問題之間的總相似度是以下六項(xiàng)相似度的加權(quán),分別是 (1)兩個(gè)問題在詞上的余弦相似度,權(quán)值為I; (2)兩個(gè)問題在詞上的最大重疊相似度,權(quán)值為I; (3)兩個(gè)問題在重要詞上的余弦相似度,權(quán)值為O.5 ; (4)兩個(gè)問題在重要詞上的最大重疊相似度,權(quán)值為O.5 ; (5)兩個(gè)問題在字上的最長公共子序列相似度,權(quán)值為O.5 ; (6)兩個(gè)問題在字上的連續(xù)最長公共子序列相似度,權(quán)值為O.5 ; 其中 余弦相似度的定義為
      6.根據(jù)權(quán)利要求5所述的自然語言問答的方法,其特征在于步驟(4)在檢索得到相似問題后,按照以下處理 (4. I)如果問題類型是方法型或列表型,將最相似問題的答案中的列表形式的文本作為答案返回給用戶; (4. 2)如果返回的相似問題的相似度高,則利用網(wǎng)頁排名pagerank算法,計(jì)算每個(gè)答案的pagerank得分;計(jì)算時(shí),將每個(gè)答案視為圖上的節(jié)點(diǎn),答案與答案之間邊的權(quán)重正比于答案與答案之間的相似度;答案的相似度計(jì)算是利用余弦距離公式計(jì)算;每個(gè)答案的分?jǐn)?shù)=(最佳答案得分+pagerank分?jǐn)?shù))X相似問題相似度;選擇得分最高的答案返回給用戶; (4. 3)如果返回相似問題的相似度低,則采用文檔摘要的方法,對相似問題的答案進(jìn)行摘要抽取。
      7.根據(jù)權(quán)利要求6所述的自然語言問答的方法,其特征在于步驟(4.3)的摘要抽取基于信息距離理論,對于給定的需要進(jìn)行摘要的答案A = [A1, A2,. . .,AJ,最終生成的摘要S*定義為
      8.根據(jù)權(quán)利要求I所述的自然語言問答的方法,其特征在于步驟(3)包括以下分步驟 (3. I)為百科中的每個(gè)分類提取其對應(yīng)的屬性詞集合,抽取每個(gè)類別的文章中出現(xiàn)的高頻詞匯,并去除其中的停用詞集合,剩下的詞集就是這個(gè)類別對應(yīng)的屬性詞集合; (3. 2)為每個(gè)類別、屬性訓(xùn)練相應(yīng)混合語言模型; (3. 3)對于每一個(gè)輸入的“概念-屬性”問題,轉(zhuǎn)化為“概念屬性對”輸入后,查詢其對應(yīng)的混合語言模型; (3. 4)利用查詢得到的混合語言模型,對頁面中的文本片段進(jìn)行相關(guān)性計(jì)算以及排序,并最終輸出最相關(guān)文本片段作為答案。
      9.根據(jù)權(quán)利要求8所述的自然語言問答的方法,其特征在于步驟(3.4)中的混合語言模型是周邊文字語言模型STLM和類別語言模型CLM這兩個(gè)語言模型的集合,都是通過在對應(yīng)類別下包含屬性詞的文本上訓(xùn)練得到的;對于給定的文本P,假設(shè)其單詞集合為{tf},類別詞集合為K〗,其在類別C、屬性a下由STLM和CLM生成的概率分別是
      10.根據(jù)權(quán)利要求I所述的自然語言問答的方法,其特征在于步驟(4) 利用排序?qū)W習(xí)算法,對答案進(jìn)行排序,對于每個(gè)答案A,其對應(yīng)的特征集合為Fa = \ft \ t ^QTtS ^ Αψ其中QT是問題的類別集合,AS是答案質(zhì)量的打分方式,對應(yīng)于步驟(2)和(3)中的所有答案抽取方式,如果答案A不是由AS中的某種方式S抽取得到,則對任意的 t,4fs = O,否則= 丨 9) ■ scordA I s),其中 P (t I q)由步驟⑴給出,sccre (A | s)則由對應(yīng)的s方法給出
      全文摘要
      公開了一種及時(shí)有效地回答用戶問題的自然語言問答的方法,包括以下步驟(1)對于用戶輸入的問題進(jìn)行問題分析;(2)利用問題分析的結(jié)果以及社區(qū)問答的語料對問題作答;(3)利用問題分析的結(jié)果以及百科語料對問題作答;(4)對于從步驟(2)、(3)返回的答案,進(jìn)行答案驗(yàn)證及選擇,并最終返回最佳答案給用戶。
      文檔編號G06F17/30GK102637192SQ20121003875
      公開日2012年8月15日 申請日期2012年2月17日 優(yōu)先權(quán)日2012年2月17日
      發(fā)明者朱小燕, 郝宇, 黃民烈 申請人:清華大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1