非停用詞是否屬于該對應(yīng)的非停用詞所在的訓(xùn)練文本的話題詞;確定該每個訓(xùn)練文本中的 該每個非停用詞的特征向量;根據(jù)該每個訓(xùn)練文本中的該每個非停用詞的特征向量以及該 每個訓(xùn)練文本中的該每個非停用詞的話題詞特征值,進(jìn)行邏輯回歸模型學(xué)習(xí),確定該話題 詞預(yù)測參數(shù),其中該每個訓(xùn)練文本中的該每個非停用詞的特征向量為該邏輯回歸模型的輸 入項(xiàng),該每個訓(xùn)練文本中的該每個非停用詞的話題詞特征值為該邏輯回歸模型的輸出項(xiàng)。
[0061] 該P(yáng)個訓(xùn)練文本是從該對話數(shù)據(jù)庫中選擇出來的,該P(yáng)個訓(xùn)練文本的非停用詞中 屬于話題詞的話題詞特征值標(biāo)記為1,該P(yáng)個訓(xùn)練文本的非停用詞中的非話題詞的話題詞 特征值標(biāo)記為〇,使用以下公式進(jìn)行邏輯回歸模型訓(xùn)練:
[0063] 其中,f (wx)表示非停用詞X的在非停用詞X所在的文本中的特征值,i為非停用 詞X的在非停用詞X所在的文本中的特征向量,表示權(quán)重向量,c表示常數(shù),其中石和c 即為需要訓(xùn)練得到的話題詞預(yù)測參數(shù)。
[0064] 204,根據(jù)該M1個非停用詞屬于該待回復(fù)文本的話題詞概率,以及該%個非停用詞 屬于該第i個候選回復(fù)文本的話題詞概率,確定該M 1個候選回復(fù)文本與該待回復(fù)文本的話 題詞相似度。
[0065] 具體來說,可以使用以下公式確定該待回復(fù)文本和該第i個候選回復(fù)文本的話題 詞相似度:
.......公式1. 4
[0067] 其中,Wq表示由該%個非停用詞分別屬于該待回復(fù)文本的話題詞概率所組成的向 量,Wd表示由該%個非停用詞分別屬于該第i個候選回復(fù)文本的話題詞概率所組成的向量, Wd = (wdii,......, Wdjt), Wq = (wqil,......, Wq, t),wd, t 表示該 Mi 個非話題詞中的第 t 個非 話題詞屬于該第i個候選回復(fù)文本的話題詞的概率,wqit表示該M1個非話題詞中的第t個 非話題詞屬于該待回復(fù)文本的話題詞概率,score (q,d)表示該待回復(fù)文本與該第i個候選 回復(fù)文本的話題詞相似度。
[0068] 205,對該N個待回復(fù)文本中其余的待回復(fù)文本均執(zhí)行如步驟202至步驟204所示 的過程,確定N個候選回復(fù)文本與該待回復(fù)文本的話題詞相似度。
[0069] 206,將該N個候選回復(fù)文本中與該待回復(fù)文本的話題詞相似度最高的候選回復(fù) 文本作為該待回復(fù)文本的回復(fù)文本。
[0070] 圖2所示的方法能夠預(yù)測出待回復(fù)文本以及多個候選回復(fù)文本的相同話題詞的 概率,根據(jù)預(yù)測出的概率確定待回復(fù)文本和多個候選回復(fù)文本話題的相似度,然后選擇相 似度最高的候選回復(fù)文本回復(fù)該待回復(fù)文本。這樣,回復(fù)文本的話題能夠緊扣待回復(fù)文本 的話題,大大降低回復(fù)文本的話題與待回復(fù)文本的話題無關(guān)的概率。
[0071] 下面,將結(jié)合具體實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步的描述。該實(shí)施例是圖1和圖2的 具體實(shí)施例。該實(shí)施例是為了更好的幫助理解本發(fā)明而并非對本發(fā)明的限制。
[0072] 假設(shè),用戶輸入的文本為:"選用代碼控制工具的時候,還是用SVN,不要用GIT,雖 然GIT比SVN強(qiáng)大很多。因?yàn)槿绻麍F(tuán)隊(duì)里有一個菜鳥,他各種各樣關(guān)于GIT的問題會煩死 你。SVN的優(yōu)勢就是極其簡單,菜鳥也可以很快掌握。"該文本就是需要得到回復(fù)的待回復(fù) 文本。
[0073] 該待回復(fù)文本分詞后的結(jié)果如下:"選用""代碼" "控制""工具""的""時候","還 是" "用" "SVN","不" "要" "用" "GIT","雖然" "GIT" "比" "SVN" "強(qiáng)大""很多"。"因 為""如果" "團(tuán)隊(duì)""里""有" "一" "個""菜鳥","他""各種各樣""關(guān)于" "GIT" "的""問 題""會""煩""死""你"。"SVN" "的""優(yōu)勢""就是" "極其""簡單","菜鳥""也""可 以" "很快""掌握"。
[0074] 對于分詞后的待回復(fù)文本,進(jìn)行去停用詞后的結(jié)果如下:"選用" "代碼""控 制" "SVN" "GIT" "強(qiáng)大""團(tuán)隊(duì)" "里" "一個""菜鳥""他""各種各樣""問題""煩""死""優(yōu) 勢" "簡單""很快""掌握"。可以看出,經(jīng)過預(yù)處理后的待回復(fù)文本中共包括K個非停用 詞。在該實(shí)施例中,K為19。
[0075] 根據(jù)該待回復(fù)文本中的非停用詞,從對話數(shù)據(jù)庫中檢索出N個候選回復(fù)文本。具 體來說,可以從對話數(shù)據(jù)庫中選擇包含有該待回復(fù)文本中的非停用詞的文本作為候選回復(fù) 文本。例如文本1為"我是保密員,菜鳥與90后努力為了不成為老菜鳥"。由于文本1包含 "菜鳥"詞項(xiàng),因此短文本1可以作為該N個帶候選回復(fù)文本中的一個候選回復(fù)文本。當(dāng)對 話數(shù)據(jù)庫中包含有已處理待回復(fù)文本中詞項(xiàng)的短文本過多時,可以利用詞項(xiàng)的權(quán)重從待回 復(fù)數(shù)據(jù)庫中選擇出N個候選回復(fù)文本,例如N的取值可以為30。檢索候選回復(fù)文本的過程 可以利用已有的工具實(shí)現(xiàn)(例如可以使用開源工具Lucene)。
[0076] 表1示出了檢索出的候選回復(fù)文本中的一部分候選回復(fù)文本。
[0078] 表1
[0079] 可以看出,表1中每一個候選回復(fù)文本中都包括有待回復(fù)文本中的非停用詞。
[0080] 對N個候選回復(fù)文本中的每一個候選回復(fù)文本均進(jìn)行分詞處理和去停用詞處理。
[0081] 對%個非停用詞中的每個非停用詞在該待回復(fù)文本中的特征進(jìn)行特征提取,獲取 該M1個非停用詞中每個非停用詞在該待回復(fù)文本中的特征向量,該M 1個非停用詞同時是該 待回復(fù)文本中的非停用詞以及該第i個候選回復(fù)文本的非停用詞。假設(shè)詞項(xiàng)w是該M1個非 停用詞中的任一個非停用詞,提取詞項(xiàng)w在該待回復(fù)文本中的以下特征:詞項(xiàng)w在當(dāng)前文本 (即該待回復(fù)文本)中出現(xiàn)的頻率、詞項(xiàng)w在整個對話數(shù)據(jù)庫中的逆文檔頻率、在當(dāng)前文本 中含有詞項(xiàng)w的句子的數(shù)目、詞項(xiàng)w是否出現(xiàn)在當(dāng)前文本的首句中、詞項(xiàng)w是否出現(xiàn)在當(dāng)前 文本的末句中、詞項(xiàng)w是否是命名實(shí)體(即人名、地名、機(jī)構(gòu)名、數(shù)詞和時間詞)、詞項(xiàng)w是否 是當(dāng)前文本首句中的命名實(shí)體、詞項(xiàng)w是否是當(dāng)前文本末句中的命名實(shí)體、詞項(xiàng)w的詞性。
[0082] 詞項(xiàng)w在整個對話數(shù)據(jù)庫中的逆文檔頻率可以通過以下公式確定:
[0083] IDF (w) = log(E-df+0. 5)/(df+0. 5),..................................... ....公式 I. 5
[0084] 其中,E表示整個對話數(shù)據(jù)庫中文本條數(shù),df表示整個對話數(shù)據(jù)庫中含有詞項(xiàng)w的 文本的條數(shù)。IDF(w)表示詞項(xiàng)w在整個對話數(shù)據(jù)庫中的逆文檔頻率。
[0085] 假設(shè)第i個候選回復(fù)文本為表1中的第4個候選回復(fù)文本,則該M1個非停用詞包 括"控制"和"工具"。這兩個非停用詞的在該待回復(fù)文本中的特征向量如表2所示。
[0087] 表 2
[0088] 其中,TF、IDF、SF、First、Last、NE、NE_First、NE_Last 以及 POS 的含義如表 3 所 /Jn 〇
[0089]
[0091] 表 3
[0092] 其中,F(xiàn)irst、Last、NE、NE_First、NE_Last 中取值為 1 表示"是",取值為"0" 表示 否。POS中,"η"表示名詞,"V"表示動詞,"a"表示形容詞,"0"表示其他詞性。具體實(shí)現(xiàn)時, 可以使用四個數(shù)值分別表示POS中的四種詞性,例如,可以分別以1000,0100,0010和0001 表示名詞、動詞、形容詞和其他詞。
[0093] 類似的,可以確定"控制"和"工具"在表1中第4個候選回復(fù)文本中的特征向量。
[0094] 在確定了"控制"和"工具"在待回復(fù)文本和第4個候選回復(fù)文本中的特征向量后, 可以利用公式I. 1確定"控制"和"工具"屬于待回復(fù)文本的話題詞概率,以及利用公式1. 2 確定"控制"和"工具"屬于第4個候選回復(fù)文本的話題詞概率。然后,利用公式1. 4確定第 4個候選回復(fù)文本與待回復(fù)文本的話題詞相似度。具體來說,在利用公式1. 4確定第4個候 選回復(fù)文本與待回復(fù)文本的話題詞相似度時,Wd = (Wdil,Wdi2),Wq = (Wqil,Wqi2),其中Wdil表 示"控制"屬于第4個候選回復(fù)文本的話題詞概率,W 42表示"工具"屬于第4個候選回復(fù)文 本的話題詞概率。Wqil表示"控制"屬于待回復(fù)文本的話題詞概率,表示"工具"屬于待 回復(fù)文本的話題詞概率??梢钥闯?,相同的非停用詞的話題詞概率在組成的兩個向量中的 位置是相同的。
[0095] 在確定了該已處理待回復(fù)文本與N個候選回復(fù)文本中的每一個候選回復(fù)文本的 話題相似度之后,選擇話題相似度取值最高的候選回復(fù)文本作為回復(fù)文本。
[0096] 下面將結(jié)合具體實(shí)施例對如何獲取該話題詞預(yù)測參數(shù)進(jìn)行進(jìn)一步描述。
[0097] 從對話數(shù)據(jù)庫中選取200個文本作為訓(xùn)練文本,其中該200個文本中共有2008個 非停用詞。這2008個非停用詞中,屬于所在的訓(xùn)練文本的非停用詞的話題詞特征值標(biāo)記為 1,不屬于所在的訓(xùn)練文本的非停用詞的話題詞特征值標(biāo)記為〇。確定出該2008個詞項(xiàng)在 所在的訓(xùn)練文本的特征向量。根據(jù)確定出的特征向量以及話題詞特征值,進(jìn)行邏輯回歸模 型學(xué)習(xí),就可以得到話題詞預(yù)測參數(shù)。本領(lǐng)域技術(shù)人員可以理解的是訓(xùn)練文本的數(shù)量