国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種文本數(shù)據(jù)處理方法及裝置制造方法

      文檔序號(hào):6492720閱讀:286來源:國知局
      一種文本數(shù)據(jù)處理方法及裝置制造方法
      【專利摘要】本發(fā)明公開了一種文本數(shù)據(jù)處理方法及裝置,應(yīng)用于交互問答系統(tǒng)中,所述交互問答系統(tǒng)中存儲(chǔ)有至少一個(gè)問題文本,每一問題文本對(duì)應(yīng)有至少一個(gè)答案文本,用以提高答案文本與問題文本之間相關(guān)性衡量結(jié)果的準(zhǔn)確性。文本數(shù)據(jù)處理方法包括:接收用戶針對(duì)任一問題文本提交的新答案文本;將所述新答案文本分詞,得到所述新答案文本包含的所有詞語;根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù),其中,所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲(chǔ)的所述問題文本與該問題文本對(duì)應(yīng)的至少一個(gè)答案文本確定,所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
      【專利說明】一種文本數(shù)據(jù)處理方法及裝置
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,尤其涉及一種文本數(shù)據(jù)處理方法及裝置。
      【背景技術(shù)】
      [0002]隨著網(wǎng)絡(luò)通信技術(shù)的發(fā)展,通過網(wǎng)絡(luò)獲取問題的答案成為解決問題的一種有效手段。但是針對(duì)同一問題,網(wǎng)絡(luò)上存在的回答可能有很多,但是哪一個(gè)答案相對(duì)來說更準(zhǔn)確,即如何衡量答案與問題之間的相關(guān)性成為研究熱點(diǎn)之一。
      [0003]目前,主要都是通過問題與答案之間的文本相似度計(jì)算來進(jìn)行衡量的,但是通常情況下,問題都比較簡短,所包含的單詞少,從而導(dǎo)致與其對(duì)應(yīng)的答案之間存在語義鴻溝問題,因此,利用傳統(tǒng)的文本相似度的衡量方法,使得衡量結(jié)果存在較大的誤差。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明實(shí)施例提供一種文本數(shù)據(jù)處理方法,用以提高答案文本與問題文本之間相關(guān)性衡量結(jié)果的準(zhǔn)確性。
      [0005]本發(fā)明實(shí)施例提供一種文本數(shù)據(jù)處理方法,應(yīng)用于交互問答系統(tǒng)中,所述交互問答系統(tǒng)中存儲(chǔ)有至少一個(gè)問題文本,每一問題文本對(duì)應(yīng)有至少一個(gè)答案文本,包括:
      [0006]接收用戶針對(duì)任一問題文本提交的的新答案文本;
      [0007]將所述新答案文本分詞,得到所述新答案文本包含的所有詞語;
      [0008]根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù),其中,所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲(chǔ)的所述問題文本與該問題文本對(duì)應(yīng)的至少一個(gè)答案文本確定,所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
      [0009]本發(fā)明實(shí)施例提供一種文本數(shù)據(jù)處理裝置,應(yīng)用于交互問答系統(tǒng)中,所述交互問答系統(tǒng)中存儲(chǔ)有至少一個(gè)問題文本,每一問題文本對(duì)應(yīng)有至少一個(gè)答案文本,包括:
      [0010]接收單元,用于接收用戶針對(duì)任一問題文本提交的的新答案文本;
      [0011]分詞單元,用于將所述新答案文本分詞,得到所述新答案文本包含的所有詞語;
      [0012]確定單元,用于根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù),其中,所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲(chǔ)的所述問題文本與該問題文本對(duì)應(yīng)的至少一個(gè)答案文本確定,所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
      [0013]本發(fā)明實(shí)施例提供的文本數(shù)據(jù)處理方法,將接收到的待衡量的新答案文本分詞,得到新答案文本包含的所有詞語,根據(jù)該新答案文本包含的所有詞語,按照預(yù)設(shè)算法確定新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù),該響應(yīng)變量參數(shù)反應(yīng)了新答案文本與問題文本之間的匹配程度,若確定出的響應(yīng)變量參數(shù)越大,則答案文本與問題文本之間越匹配,反之,答案文本與問題文本之間越不匹配。
      [0014]本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
      【專利附圖】

      【附圖說明】
      [0015]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
      [0016]圖1為現(xiàn)有技術(shù)中,LDA模型下,文檔生成過程示意圖;
      [0017]圖2為本發(fā)明實(shí)施例中,sLDA模型下,文檔生成過程示意圖;
      [0018]圖3為本發(fā)明實(shí)施例中,文本數(shù)據(jù)處理方法的實(shí)施流程示意圖;
      [0019]圖4為本發(fā)明實(shí)施例中,文本數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0020]為了提高答案文本與問題文本衡量結(jié)果的準(zhǔn)確性,本發(fā)明實(shí)施例提供了一種文本數(shù)據(jù)處理方法及裝置。
      [0021]以下結(jié)合說明書附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明,并且在不沖突的情況下,本發(fā)明中的實(shí)施例及實(shí)施例中的特征可以相互組合。
      [0022]為了更好地理解本發(fā)明實(shí)施例,首先介紹一下潛在狄利克雷分配(LatentDirichlet Allocation,LDA)主題模型。LDA模型是典型的有向概率圖模型,具有清晰的層次結(jié)構(gòu),依次為:文檔集合層、文檔層和詞層。利用LDA模型能夠識(shí)別大規(guī)模文檔集中潛藏的主題信息,例如,對(duì)于問題-答案文檔集合來說,一個(gè)問題-答案對(duì)可以稱為一個(gè)文檔,每一文檔代表了一些主體所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。因此,對(duì)于每一文檔,可以按照以下過程生成:1)對(duì)每一文檔,從主題分布中抽取一個(gè)主題;2)從上述被抽取到的主體所對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞;3)重復(fù)上述過程直至遍歷文檔中的每一個(gè)單詞。更形式化一點(diǎn)說,每一文檔與T(通過反復(fù)試驗(yàn)等方法事先給定)個(gè)主題的一個(gè)多項(xiàng)分布相對(duì)應(yīng),將該多項(xiàng)分布記為Θ,每個(gè)主題又與詞匯表中的V個(gè)單詞的一個(gè)多項(xiàng)分布相對(duì)應(yīng),將這個(gè)多項(xiàng)分布記為Φ,上述詞匯表是由文檔集中所有文檔中的互異單詞組成。Θ和Φ分別有一個(gè)帶有超參數(shù)α和β的Dirichlet先驗(yàn)分布。對(duì)于文檔d中的每一個(gè)單詞,從該文檔所對(duì)應(yīng)的多項(xiàng)分布Θ中抽取一個(gè)主題z,然后再從主題ζ所對(duì)應(yīng)的多項(xiàng)分布Φ中抽取一個(gè)單詞W,將這個(gè)過程重復(fù)Nd次,可以產(chǎn)生文檔d,其中,Nd為文檔d包含的單詞總數(shù),如圖1所示,上述生成過程可以用圖1所示的圖模型表示,圖1中,陰影圓圈表示可觀測變量,非陰影圓圈表示潛在變量,方框表示重復(fù)抽樣,重復(fù)次數(shù)在方框的右下角。
      [0023]上述介紹的LDA模型屬于無監(jiān)督主題模型,相比于無監(jiān)督模型,監(jiān)督主題模型sLDA中引入了響應(yīng)變量參數(shù),引入響應(yīng)變量參數(shù)后能夠提高主題抽取的準(zhǔn)確性,從而能夠進(jìn)一步提高答案文本與問題文本衡量結(jié)果的準(zhǔn)確性。
      [0024]本發(fā)明實(shí)施例中,將一個(gè)問題文本與一個(gè)答案文本稱為一個(gè)文檔,而上述響應(yīng)變量參數(shù)為描述答案文本是否為問題文本的最佳答案文本的參數(shù)。如果答案文本為問題文本的最佳答案,在此情況下,答案文本和問題文本在主題分布上具有較大的相似性,從而其對(duì)應(yīng)的響應(yīng)變量參數(shù)設(shè)定為I;否則,答案文本和問題文本在主題分布上具有較少的共現(xiàn)性,這種情況下,其對(duì)應(yīng)的響應(yīng)變量參數(shù)設(shè)定為O。基于響應(yīng)變量與問題文本-答案文本之間的關(guān)系,能夠更好地發(fā)現(xiàn)文檔中的潛在主題,并可以根據(jù)已有文檔的訓(xùn)練結(jié)果,對(duì)訓(xùn)練結(jié)果用于新的問題文本-答案文本之間的響應(yīng)變量參數(shù)確定上。
      [0025]基于此,本發(fā)明實(shí)施例中,根據(jù)對(duì)已知的問題文本-答案文本(即已有的歷史答案文本)的訓(xùn)練結(jié)果,確定答案文本與問題文本之間響應(yīng)變量參數(shù)的計(jì)算模型。則針對(duì)該問題文本對(duì)應(yīng)的新的答案文本,可以根據(jù)上述計(jì)算模型來確定新的答案文本與問題文本之間的響應(yīng)變量參數(shù),如果響應(yīng)變量參數(shù)越高,則說明該新的答案文本與問題文本之間越相關(guān),該新的答案文本越可能是最佳答案,反之,答案文本與問題文本之間越不相關(guān),該新的答案文本越可能會(huì)是一個(gè)無關(guān)答案文本甚至可能是一個(gè)垃圾答案文本。
      [0026]以下介紹在sLDA主體模型中如何產(chǎn)生文檔d,類似于LDA模型,在sLDA模型中,假設(shè)文檔d是在一個(gè)主題ζ上的多項(xiàng)分布,而文檔d中包含的詞語又是在主題ζ和多項(xiàng)分布β上的聯(lián)合分布,而響應(yīng)變量參數(shù)b是一個(gè)在主題ζ和以η,σ為參數(shù)的正態(tài)分布的聯(lián)合分布。因此,sLDA模型中,文檔的產(chǎn)生模型可以分為以下三個(gè)部分:
      [0027]I)對(duì)于文檔d來說,其主題采樣Θ是一個(gè)在參數(shù)α上的狄利克雷分布,Dirichlet分布就是k取I時(shí)的Conjugate Prior(共軛先驗(yàn)分布)。若k維隨機(jī)向量elrichlet分布,則Θ的k個(gè) 分量θ_1,θ_2,…,9_k都取連續(xù)的非負(fù)值,且θ _1+ Θ _2+...+ Θ _k=l。具體實(shí)施時(shí),由于同一問題文本可能存在多個(gè)已知的答案文本,該問題文本與每一答案文本形成一個(gè)文檔,因此,針對(duì)同一問題可能存在多個(gè)文檔,對(duì)每個(gè)文檔進(jìn)行主題采樣,遍歷所有文檔確定出所有主題,最后每個(gè)文檔的主題概率分布θ a ^Dir(α ),例如,假設(shè)每個(gè)文檔由3個(gè)主題組成,Θ表示每個(gè)主題發(fā)生的概率,例如為{1/6,2/6,3/6},不同的文檔對(duì)應(yīng)的Θ也就不同,而Θ可以用來判斷文檔的相似度;
      [0028]2)對(duì)于文檔d所包含的每一詞語w來說,其產(chǎn)生過程可以分為以下兩步:
      [0029]第一步為主題ζ的分布采樣,其為在Θ上的多項(xiàng)式分布,即ζ I Θ ^Mult ( Θ );
      [0030]第二步為詞語w的采樣,其為在主題ζ和多項(xiàng)式分布β上的聯(lián)合概率分布,即wζ, β ~Mult ( β );
      [0031]3)響應(yīng)變量參數(shù)b時(shí)基于主題ζ以η,σ為參數(shù)的正態(tài)分布的聯(lián)合分布,SP
      【權(quán)利要求】
      1.一種文本數(shù)據(jù)處理方法,應(yīng)用于交互問答系統(tǒng)中,所述交互問答系統(tǒng)中存儲(chǔ)有至少一個(gè)問題文本,每一問題文本對(duì)應(yīng)有至少一個(gè)答案文本,其特征在于,包括: 接收用戶針對(duì)任一問題文本提交的的新答案文本; 將所述新答案文本分詞,得到所述新答案文本包含的所有詞語; 根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù),其中,所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲(chǔ)的所述問題文本與該問題文本對(duì)應(yīng)的至少一個(gè)答案文本確定,所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
      2.如權(quán)利要求1所述的方法,其特征在于,按照以下公式確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù):
      3.如權(quán)利要求2所述的方法,其特征在于,按照以下公式確定=W,其中: N表示所述問題文本及所述交互問答系統(tǒng)中存儲(chǔ)的該問題文本對(duì)應(yīng)的至少一個(gè)答案文本中所包含的詞語的數(shù)量。
      4.如權(quán)利要求2所述的方法,其特征在于,所述第二預(yù)設(shè)算法包括期望最大化EM算法。
      5.如權(quán)利要求1所述的方法,其特征在于,還包括: 根據(jù)所述響應(yīng)變量參數(shù),在預(yù)先建立的響應(yīng)變量參數(shù)與匹配參數(shù)之間的映射關(guān)系中,查找所述響應(yīng)變量參數(shù)對(duì)應(yīng)的匹配參數(shù),所述匹配參數(shù)表示所述新答案文本的價(jià)值。
      6.一種文本數(shù)據(jù)處理裝置,應(yīng)用于交互問答系統(tǒng)中,所述交互問答系統(tǒng)中存儲(chǔ)有至少一個(gè)問題文本,每一問題文本對(duì)應(yīng)有至少一個(gè)答案文本,其特征在于,包括: 接收單元,用于接收用戶針對(duì)任一問題文本提交的的新答案文本; 分詞單元,用于將所述新答案文本分詞,得到所述新答案文本包含的所有詞語; 確定單元,用于根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù),其中,所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲(chǔ)的所述問題文本與該問題文本對(duì)應(yīng)的至少一個(gè)答案文本確定,所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
      7.如權(quán)利要求6所述的裝置,其特征在于, 所述確定單元,具體用于按照以下公式確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù):
      I U I ^ν,α,β,η,σ2] = η1 A'[r | \ν,α,β],其中: E[b|w, α, β , η, σ2]為所述答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù);ζ為所述問題文本及所述交互問答系統(tǒng)中存儲(chǔ)的該問題文本對(duì)應(yīng)的至少一個(gè)答案文本中所包含的主題;W為所述新答案文本包含的所有詞語; α,β,η, σ 2分別為根據(jù)所述問題文本及所述交互問答系統(tǒng)中存儲(chǔ)的該問題文本對(duì)應(yīng)的至少一個(gè)答案文本和第二預(yù)設(shè)算法確定出的參數(shù)。
      8.如權(quán)利要求7所述的裝置,其特征在于, 所述確定單元,具體用于按照以下公式確定_
      9.如權(quán)利要求6所述的裝置,其特征在于,還包括: 查找單元,用于根據(jù)所述響應(yīng)變量參數(shù),在預(yù)先建立的響應(yīng)變量參數(shù)與匹配參數(shù)之間的映射關(guān)系中,確定所述答案文本與所述問題文本之間的匹配參數(shù),所述匹配參數(shù)表示所述新答案文本的價(jià)值。
      【文檔編號(hào)】G06F17/22GK103870440SQ201210534859
      【公開日】2014年6月18日 申請日期:2012年12月12日 優(yōu)先權(quán)日:2012年12月12日
      【發(fā)明者】凌俊民, 劉曉峰, 梁耿, 李廣杰, 韋媚 申請人:中國移動(dòng)通信集團(tuán)廣西有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1