一種文本數(shù)據(jù)處理方法及裝置制造方法

文檔序號(hào)：6492720閱讀：286來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本數(shù)據(jù)處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種文本數(shù)據(jù)處理方法及裝置，應(yīng)用于交互問答系統(tǒng)中，所述交互問答系統(tǒng)中存儲(chǔ)有至少一個(gè)問題文本，每一問題文本對(duì)應(yīng)有至少一個(gè)答案文本，用以提高答案文本與問題文本之間相關(guān)性衡量結(jié)果的準(zhǔn)確性。文本數(shù)據(jù)處理方法包括：接收用戶針對(duì)任一問題文本提交的新答案文本；將所述新答案文本分詞，得到所述新答案文本包含的所有詞語；根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù)，其中，所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲(chǔ)的所述問題文本與該問題文本對(duì)應(yīng)的至少一個(gè)答案文本確定，所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
【專利說明】一種文本數(shù)據(jù)處理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】，尤其涉及一種文本數(shù)據(jù)處理方法及裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)通信技術(shù)的發(fā)展，通過網(wǎng)絡(luò)獲取問題的答案成為解決問題的一種有效手段。但是針對(duì)同一問題，網(wǎng)絡(luò)上存在的回答可能有很多，但是哪一個(gè)答案相對(duì)來說更準(zhǔn)確，即如何衡量答案與問題之間的相關(guān)性成為研究熱點(diǎn)之一。
[0003]目前，主要都是通過問題與答案之間的文本相似度計(jì)算來進(jìn)行衡量的，但是通常情況下，問題都比較簡短，所包含的單詞少，從而導(dǎo)致與其對(duì)應(yīng)的答案之間存在語義鴻溝問題，因此，利用傳統(tǒng)的文本相似度的衡量方法，使得衡量結(jié)果存在較大的誤差。

【發(fā)明內(nèi)容】

[0004]本發(fā)明實(shí)施例提供一種文本數(shù)據(jù)處理方法，用以提高答案文本與問題文本之間相關(guān)性衡量結(jié)果的準(zhǔn)確性。
[0005]本發(fā)明實(shí)施例提供一種文本數(shù)據(jù)處理方法，應(yīng)用于交互問答系統(tǒng)中，所述交互問答系統(tǒng)中存儲(chǔ)有至少一個(gè)問題文本，每一問題文本對(duì)應(yīng)有至少一個(gè)答案文本，包括:
[0006]接收用戶針對(duì)任一問題文本提交的的新答案文本；
[0007]將所述新答案文本分詞，得到所述新答案文本包含的所有詞語；
[0008]根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù)，其中，所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲(chǔ)的所述問題文本與該問題文本對(duì)應(yīng)的至少一個(gè)答案文本確定，所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
[0009]本發(fā)明實(shí)施例提供一種文本數(shù)據(jù)處理裝置，應(yīng)用于交互問答系統(tǒng)中，所述交互問答系統(tǒng)中存儲(chǔ)有至少一個(gè)問題文本，每一問題文本對(duì)應(yīng)有至少一個(gè)答案文本，包括:
[0010]接收單元，用于接收用戶針對(duì)任一問題文本提交的的新答案文本；
[0011]分詞單元，用于將所述新答案文本分詞，得到所述新答案文本包含的所有詞語；
[0012]確定單元，用于根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù)，其中，所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲(chǔ)的所述問題文本與該問題文本對(duì)應(yīng)的至少一個(gè)答案文本確定，所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
[0013]本發(fā)明實(shí)施例提供的文本數(shù)據(jù)處理方法，將接收到的待衡量的新答案文本分詞，得到新答案文本包含的所有詞語，根據(jù)該新答案文本包含的所有詞語，按照預(yù)設(shè)算法確定新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù)，該響應(yīng)變量參數(shù)反應(yīng)了新答案文本與問題文本之間的匹配程度，若確定出的響應(yīng)變量參數(shù)越大，則答案文本與問題文本之間越匹配，反之，答案文本與問題文本之間越不匹配。
[0014]本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述，并且，部分地從說明書中變得顯而易見，或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
【專利附圖】

【附圖說明】
[0015]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解，構(gòu)成本發(fā)明的一部分，本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0016]圖1為現(xiàn)有技術(shù)中，LDA模型下，文檔生成過程示意圖；
[0017]圖2為本發(fā)明實(shí)施例中，sLDA模型下，文檔生成過程示意圖；
[0018]圖3為本發(fā)明實(shí)施例中，文本數(shù)據(jù)處理方法的實(shí)施流程示意圖；
[0019]圖4為本發(fā)明實(shí)施例中，文本數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020]為了提高答案文本與問題文本衡量結(jié)果的準(zhǔn)確性，本發(fā)明實(shí)施例提供了一種文本數(shù)據(jù)處理方法及裝置。
[0021]以下結(jié)合說明書附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說明，應(yīng)當(dāng)理解，此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明，并不用于限定本發(fā)明，并且在不沖突的情況下，本發(fā)明中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0022]為了更好地理解本發(fā)明實(shí)施例，首先介紹一下潛在狄利克雷分配(LatentDirichlet Allocation，LDA)主題模型。LDA模型是典型的有向概率圖模型，具有清晰的層次結(jié)構(gòu)，依次為:文檔集合層、文檔層和詞層。利用LDA模型能夠識(shí)別大規(guī)模文檔集中潛藏的主題信息，例如，對(duì)于問題-答案文檔集合來說，一個(gè)問題-答案對(duì)可以稱為一個(gè)文檔，每一文檔代表了一些主體所構(gòu)成的一個(gè)概率分布，而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。因此，對(duì)于每一文檔，可以按照以下過程生成:1)對(duì)每一文檔，從主題分布中抽取一個(gè)主題；2)從上述被抽取到的主體所對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞；3)重復(fù)上述過程直至遍歷文檔中的每一個(gè)單詞。更形式化一點(diǎn)說，每一文檔與T(通過反復(fù)試驗(yàn)等方法事先給定)個(gè)主題的一個(gè)多項(xiàng)分布相對(duì)應(yīng)，將該多項(xiàng)分布記為Θ，每個(gè)主題又與詞匯表中的V個(gè)單詞的一個(gè)多項(xiàng)分布相對(duì)應(yīng)，將這個(gè)多項(xiàng)分布記為Φ，上述詞匯表是由文檔集中所有文檔中的互異單詞組成。Θ和Φ分別有一個(gè)帶有超參數(shù)α和β的Dirichlet先驗(yàn)分布。對(duì)于文檔d中的每一個(gè)單詞，從該文檔所對(duì)應(yīng)的多項(xiàng)分布Θ中抽取一個(gè)主題z，然后再從主題ζ所對(duì)應(yīng)的多項(xiàng)分布Φ中抽取一個(gè)單詞W，將這個(gè)過程重復(fù)Nd次，可以產(chǎn)生文檔d，其中，Nd為文檔d包含的單詞總數(shù)，如圖1所示，上述生成過程可以用圖1所示的圖模型表示，圖1中，陰影圓圈表示可觀測變量，非陰影圓圈表示潛在變量，方框表示重復(fù)抽樣，重復(fù)次數(shù)在方框的右下角。
[0023]上述介紹的LDA模型屬于無監(jiān)督主題模型，相比于無監(jiān)督模型，監(jiān)督主題模型sLDA中引入了響應(yīng)變量參數(shù)，引入響應(yīng)變量參數(shù)后能夠提高主題抽取的準(zhǔn)確性，從而能夠進(jìn)一步提高答案文本與問題文本衡量結(jié)果的準(zhǔn)確性。
[0024]本發(fā)明實(shí)施例中，將一個(gè)問題文本與一個(gè)答案文本稱為一個(gè)文檔，而上述響應(yīng)變量參數(shù)為描述答案文本是否為問題文本的最佳答案文本的參數(shù)。如果答案文本為問題文本的最佳答案，在此情況下，答案文本和問題文本在主題分布上具有較大的相似性，從而其對(duì)應(yīng)的響應(yīng)變量參數(shù)設(shè)定為I;否則，答案文本和問題文本在主題分布上具有較少的共現(xiàn)性，這種情況下，其對(duì)應(yīng)的響應(yīng)變量參數(shù)設(shè)定為O。基于響應(yīng)變量與問題文本-答案文本之間的關(guān)系，能夠更好地發(fā)現(xiàn)文檔中的潛在主題，并可以根據(jù)已有文檔的訓(xùn)練結(jié)果，對(duì)訓(xùn)練結(jié)果用于新的問題文本-答案文本之間的響應(yīng)變量參數(shù)確定上。
[0025]基于此，本發(fā)明實(shí)施例中，根據(jù)對(duì)已知的問題文本-答案文本(即已有的歷史答案文本)的訓(xùn)練結(jié)果，確定答案文本與問題文本之間響應(yīng)變量參數(shù)的計(jì)算模型。則針對(duì)該問題文本對(duì)應(yīng)的新的答案文本，可以根據(jù)上述計(jì)算模型來確定新的答案文本與問題文本之間的響應(yīng)變量參數(shù)，如果響應(yīng)變量參數(shù)越高，則說明該新的答案文本與問題文本之間越相關(guān)，該新的答案文本越可能是最佳答案，反之，答案文本與問題文本之間越不相關(guān)，該新的答案文本越可能會(huì)是一個(gè)無關(guān)答案文本甚至可能是一個(gè)垃圾答案文本。
[0026]以下介紹在sLDA主體模型中如何產(chǎn)生文檔d，類似于LDA模型，在sLDA模型中，假設(shè)文檔d是在一個(gè)主題ζ上的多項(xiàng)分布，而文檔d中包含的詞語又是在主題ζ和多項(xiàng)分布β上的聯(lián)合分布，而響應(yīng)變量參數(shù)b是一個(gè)在主題ζ和以η，σ為參數(shù)的正態(tài)分布的聯(lián)合分布。因此，sLDA模型中，文檔的產(chǎn)生模型可以分為以下三個(gè)部分:
[0027]I)對(duì)于文檔d來說，其主題采樣Θ是一個(gè)在參數(shù)α上的狄利克雷分布，Dirichlet分布就是k取I時(shí)的Conjugate Prior(共軛先驗(yàn)分布)。若k維隨機(jī)向量elrichlet分布，則Θ的k個(gè) 分量θ_1，θ_2,…，9_k都取連續(xù)的非負(fù)值，且θ _1+ Θ _2+...+ Θ _k=l。具體實(shí)施時(shí)，由于同一問題文本可能存在多個(gè)已知的答案文本，該問題文本與每一答案文本形成一個(gè)文檔，因此，針對(duì)同一問題可能存在多個(gè)文檔，對(duì)每個(gè)文檔進(jìn)行主題采樣，遍歷所有文檔確定出所有主題，最后每個(gè)文檔的主題概率分布θ a ^Dir(α )，例如，假設(shè)每個(gè)文檔由3個(gè)主題組成，Θ表示每個(gè)主題發(fā)生的概率，例如為{1/6，2/6，3/6}，不同的文檔對(duì)應(yīng)的Θ也就不同，而Θ可以用來判斷文檔的相似度；
[0028]2)對(duì)于文檔d所包含的每一詞語w來說，其產(chǎn)生過程可以分為以下兩步:
[0029]第一步為主題ζ的分布采樣，其為在Θ上的多項(xiàng)式分布，即ζ I Θ ^Mult ( Θ )；
[0030]第二步為詞語w的采樣，其為在主題ζ和多項(xiàng)式分布β上的聯(lián)合概率分布，即wζ, β ~Mult ( β )；
[0031]3)響應(yīng)變量參數(shù)b時(shí)基于主題ζ以η，σ為參數(shù)的正態(tài)分布的聯(lián)合分布，SP
【權(quán)利要求】
1.一種文本數(shù)據(jù)處理方法，應(yīng)用于交互問答系統(tǒng)中，所述交互問答系統(tǒng)中存儲(chǔ)有至少一個(gè)問題文本，每一問題文本對(duì)應(yīng)有至少一個(gè)答案文本，其特征在于，包括: 接收用戶針對(duì)任一問題文本提交的的新答案文本；將所述新答案文本分詞，得到所述新答案文本包含的所有詞語；根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù)，其中，所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲(chǔ)的所述問題文本與該問題文本對(duì)應(yīng)的至少一個(gè)答案文本確定，所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
2.如權(quán)利要求1所述的方法，其特征在于，按照以下公式確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù):
3.如權(quán)利要求2所述的方法，其特征在于，按照以下公式確定=W，其中: N表示所述問題文本及所述交互問答系統(tǒng)中存儲(chǔ)的該問題文本對(duì)應(yīng)的至少一個(gè)答案文本中所包含的詞語的數(shù)量。
4.如權(quán)利要求2所述的方法，其特征在于，所述第二預(yù)設(shè)算法包括期望最大化EM算法。
5.如權(quán)利要求1所述的方法，其特征在于，還包括: 根據(jù)所述響應(yīng)變量參數(shù)，在預(yù)先建立的響應(yīng)變量參數(shù)與匹配參數(shù)之間的映射關(guān)系中，查找所述響應(yīng)變量參數(shù)對(duì)應(yīng)的匹配參數(shù)，所述匹配參數(shù)表示所述新答案文本的價(jià)值。
6.一種文本數(shù)據(jù)處理裝置，應(yīng)用于交互問答系統(tǒng)中，所述交互問答系統(tǒng)中存儲(chǔ)有至少一個(gè)問題文本，每一問題文本對(duì)應(yīng)有至少一個(gè)答案文本，其特征在于，包括: 接收單元，用于接收用戶針對(duì)任一問題文本提交的的新答案文本；分詞單元，用于將所述新答案文本分詞，得到所述新答案文本包含的所有詞語；確定單元，用于根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù)，其中，所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲(chǔ)的所述問題文本與該問題文本對(duì)應(yīng)的至少一個(gè)答案文本確定，所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
7.如權(quán)利要求6所述的裝置，其特征在于，所述確定單元，具體用于按照以下公式確定所述新答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù):
I U I ^ν,α,β,η,σ2] = η1 A'[r | \ν,α,β],其中: E[b|w, α, β , η, σ2]為所述答案文本對(duì)應(yīng)的響應(yīng)變量參數(shù)；ζ為所述問題文本及所述交互問答系統(tǒng)中存儲(chǔ)的該問題文本對(duì)應(yīng)的至少一個(gè)答案文本中所包含的主題；W為所述新答案文本包含的所有詞語； α，β，η, σ 2分別為根據(jù)所述問題文本及所述交互問答系統(tǒng)中存儲(chǔ)的該問題文本對(duì)應(yīng)的至少一個(gè)答案文本和第二預(yù)設(shè)算法確定出的參數(shù)。
8.如權(quán)利要求7所述的裝置，其特征在于，所述確定單元，具體用于按照以下公式確定_
9.如權(quán)利要求6所述的裝置，其特征在于，還包括: 查找單元，用于根據(jù)所述響應(yīng)變量參數(shù)，在預(yù)先建立的響應(yīng)變量參數(shù)與匹配參數(shù)之間的映射關(guān)系中，確定所述答案文本與所述問題文本之間的匹配參數(shù)，所述匹配參數(shù)表示所述新答案文本的價(jià)值。
【文檔編號(hào)】G06F17/22GK103870440SQ201210534859
【公開日】2014年6月18日申請日期:2012年12月12日優(yōu)先權(quán)日:2012年12月12日
【發(fā)明者】凌俊民, 劉曉峰, 梁耿, 李廣杰, 韋媚申請人:中國移動(dòng)通信集團(tuán)廣西有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：凌俊民;劉曉峰;梁耿;李廣杰;韋媚
技術(shù)所有人：中國移動(dòng)通信集團(tuán)廣西有限公司
我是此專利的發(fā)明人

上一篇：一種信息瀏覽的方法及裝置制造方法
上一篇：工作負(fù)載分配裝置及其工作負(fù)載分配方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本數(shù)據(jù)處理方法相關(guān)技術(shù)

文本數(shù)據(jù)處理相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文本數(shù)據(jù)處理方法及裝置制造方法