0030] 上述技術(shù)方案能夠預(yù)測出待回復(fù)文本以及多個候選回復(fù)文本的相同話題詞的概 率,根據(jù)預(yù)測出的概率確定待回復(fù)文本和多個候選回復(fù)文本話題的相似度,然后選擇相似 度最高的候選回復(fù)文本回復(fù)該待回復(fù)文本。這樣,回復(fù)文本的話題能夠緊扣待回復(fù)文本的 話題,大大降低回復(fù)文本的話題與待回復(fù)文本的話題無關(guān)的概率。
【附圖說明】
[0031] 為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對本發(fā)明實施例中所需要使 用的附圖作簡單地介紹,顯而易見地,下面所描述的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0032] 圖1是根據(jù)本發(fā)明實施例提供的處理文本的方法的示意性流程圖。
[0033] 圖2是根據(jù)本發(fā)明實施例提供的另一處理文本方法的示意性流程圖。
[0034] 圖3是根據(jù)本發(fā)明實施例提供的設(shè)備的結(jié)構(gòu)框圖。
[0035] 圖4是根據(jù)本發(fā)明實施例提供的另一設(shè)備的結(jié)構(gòu)框圖。
【具體實施方式】
[0036] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所述的實施例是本發(fā)明的一部分實施例,而不是全部實施例?;诒景l(fā)明 中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施 例,都應(yīng)屬于本發(fā)明保護的范圍。
[0037] 圖1是根據(jù)本發(fā)明實施例提供的處理文本的方法的示意性流程圖。
[0038] 101,獲取待回復(fù)文本和N個候選回復(fù)文本,其中每個候選回復(fù)文本包括該待回復(fù) 文本中的至少一個非停用詞。
[0039] 102,確定M1個非停用詞中的每個非停用詞屬于該待回復(fù)文本的話題詞概率,其中 該M 1個非停用詞為該N個候選回復(fù)文本中的第i個候選回復(fù)文本與該待回復(fù)文本相同的 非停用詞。
[0040] 103,確定該M1個非停用詞中的該每個非停用詞屬于該第i個候選回復(fù)文本的話 題詞概率。
[0041] 104,根據(jù)該M1個非停用詞屬于該待回復(fù)文本的話題詞概率,以及該%個非停用詞 屬于該第i個候選回復(fù)文本的話題詞概率,確定該第i個候選回復(fù)文本與該待回復(fù)文本的 話題詞相似度。
[0042] 105,將該N個候選回復(fù)文本中與該待回復(fù)文本的話題詞相似度最高的候選回復(fù) 文本作為該待回復(fù)文本的回復(fù)文本。
[0043] 圖1所示的方法能夠預(yù)測出待回復(fù)文本以及多個候選回復(fù)文本的相同話題詞的 概率,根據(jù)預(yù)測出的概率確定待回復(fù)文本和多個候選回復(fù)文本話題的相似度,然后選擇相 似度最高的候選回復(fù)文本回復(fù)該待回復(fù)文本。這樣,回復(fù)文本的話題能夠緊扣待回復(fù)文本 的話題,大大降低回復(fù)文本的話題與待回復(fù)文本的話題無關(guān)的概率。
[0044] 圖2是根據(jù)本發(fā)明實施例提供的另一處理文本方法的示意性流程圖。
[0045] 201,獲取待回復(fù)文本和N個候選回復(fù)文本,其中每個候選回復(fù)文本包括該待回復(fù) 文本中的至少一個非停用詞。
[0046] 具體來說,該待回復(fù)文本為用戶輸入的文本。在獲取了待回復(fù)文本之后,會對該待 回復(fù)文本進行預(yù)處理,該預(yù)處理包括分詞處理和去停用詞處理。分詞處理是現(xiàn)有技術(shù)中一 種常用的技術(shù)手段,分詞處理是將一句話中的詞項識別出來。分詞處理可以用已有的工具 (例如開源的分詞工具ICTCLAS)實現(xiàn)。在對待回復(fù)文本進行分詞處理后,還需要對分詞后 的待回復(fù)文本進行去停用詞處理。去停用詞處理是指將文本中的一些詞項去掉,這些去掉 的詞稱為停用詞,停用詞對理解句子的含義可有可無,例如"的" "地" "得"。一般來說,可 以存儲一個停用詞表。在進行去停用詞的時候,可以將屬于該停用詞表中的詞去除。在對 該待回復(fù)文本進行預(yù)處理后,該待回復(fù)文本是一個包含有一個或多個非停用詞的文本。然 后,根據(jù)該待回復(fù)文本中的非停用詞,從對話數(shù)據(jù)庫中選擇N個候選回復(fù)文本,每一個候選 回復(fù)文本都包括該待回復(fù)文本中的至少一個非停用詞。檢索候選回復(fù)文本的過程可以利用 已有的工具實現(xiàn)(例如可以使用開源工具Lucene)。同樣需要對檢索出的N個候選回復(fù)文 本進行分詞處理和去停用詞處理。對候選回復(fù)文本進行分詞處理與去停用詞處理的方法與 對待回復(fù)文本進行分詞處理與去停用詞處理的方法相同,在此就不必贅述。
[0047] 202,確定M1個非停用詞中的每個非停用詞屬于該待回復(fù)文本的話題詞概率,其中 該M 1個非停用詞為該N個候選回復(fù)文本中的第i個候選回復(fù)文本與該待回復(fù)文本相同的 非停用詞。
[0048] 可以理解的是,第i個候選回復(fù)文本是該N個候選回復(fù)文本中的任一個候選回復(fù) 文本。不同的候選回復(fù)文本與該待回復(fù)文本的相同的非停用詞的數(shù)量是不同的,但是應(yīng)當(dāng) 包含有至少一個相同的非停用詞。
[0049] 具體來說,該確定該M1個非停用詞中的每個非停用詞屬于該待回復(fù)文本的話題詞 概率,包括:確定該M 1個非停用詞中的該每個非停用詞在該待回復(fù)文本中的特征向量;根 據(jù)該M1個非停用詞中的該每個非停用詞在該待回復(fù)文本中的特征向量和話題詞預(yù)測參數(shù), 確定該M 1個非停用詞中的該每個非停用詞屬于該待回復(fù)文本的話題詞概率。假設(shè)詞項w是 該%個非停用詞中的任一個非停用詞,提取詞項w在該待回復(fù)文本中的以下特征:詞項w 在當(dāng)前文本(即該待回復(fù)文本)中出現(xiàn)的頻率、詞項w在整個對話數(shù)據(jù)庫中的逆文檔頻率、 在當(dāng)前文本中含有詞項W的句子的數(shù)目、詞項W是否出現(xiàn)在當(dāng)前文本的首句中、詞項W是否 出現(xiàn)在當(dāng)前文本的末句中、詞項W是否是命名實體(即人名、地名、機構(gòu)名、數(shù)詞和時間詞)、 詞項W是否是當(dāng)前文本首句中的命名實體、詞項W是否是當(dāng)前文本末句中的命名實體、詞項 W的詞性。該M1個非停用詞中每一個非停用詞在該待回復(fù)文本中的特征向量由該非停用詞 在該待回復(fù)文本中的特征組成。
[0050] 對于該M1個非停用詞中的任一個非停用詞,該任一個非停用詞屬于該待回復(fù)文本 的話題詞概率可以通過以下公式確定:
[0052] 其中,表示第一詞項在該待回復(fù)文本中的特征向量,其中該第一詞項為所述M1 個非停用詞中的任一個非停用詞,I表示權(quán)重向量,c表示常數(shù),其中&和c為該話題詞預(yù) 測參數(shù),P(tQPic I wY)表示該第一詞項為該待回復(fù)文本的話題詞概率。
[0053] 203,確定該M1個非停用詞中的該每個非停用詞屬于該第i個候選回復(fù)文本的話 題詞概率。
[0054] 具體來說,確定該M1個非停用詞中的該每個非停用詞屬于該第i個候選回復(fù)文本 的話題詞概率包括:確定該M 1個非停用詞中的該每個非停用詞在該第i個候選回復(fù)文本中 的特征向量;根據(jù)該M1個非停用詞中的該每個非停用詞在該第i個候選回復(fù)文本中的特征 向量和話題詞預(yù)測參數(shù),確定該M 1個非停用詞中的該每個非停用詞屬于該待回復(fù)文本的話 題詞概率。假設(shè)詞項w是該M1個非停用詞中的任一個非停用詞,提取詞項w在該第i個候 選回復(fù)文本中的以下特征:詞項w在當(dāng)前文本(即該第i個候選回復(fù)文本)中出現(xiàn)的頻率、 詞項w在整個對話數(shù)據(jù)庫中的逆文檔頻率、在當(dāng)前文本中含有詞項w的句子的數(shù)目、詞項w 是否出現(xiàn)在當(dāng)前文本的首句中、詞項w是否出現(xiàn)在當(dāng)前文本的末句中、詞項w是否是命名實 體(即人名、地名、機構(gòu)名、數(shù)詞和時間詞)、詞項w是否是當(dāng)前文本首句中的命名實體、詞項 w是否是當(dāng)前文本末句中的命名實體、詞項w的詞性。該M1個非停用詞中每一個非停用詞 的在該第i個候選回復(fù)文本中的特征向量由該非停用詞在該第i個候選回復(fù)文本的特征組 成。
[0055] 對于該Mi個非停用詞中的任一個非停用詞,該任一個非停用詞屬于該第i個候選 回復(fù)文本的話題詞概率可以通過以下公式確定:
[0057] 其中,€表示第二詞項在該第i個候選回復(fù)文本中的特征向量,其中該第二詞項 為該M1個非停用詞中的任一個非停用詞,^表示權(quán)重向量,c表示常數(shù),其中5和c為該話 題詞預(yù)測參數(shù),P(topic卜V xi)表示該第二詞項為該第i個候選回復(fù)文本的話題詞概率。
[0058] 可選的,作為另一個實施例,還可以計算出該待回復(fù)文本中每個非停用詞在該待 回復(fù)文本中的特征向量,并根據(jù)該待回復(fù)文本中的每個非停用詞在該待回復(fù)文本中的特征 向量以及話題詞預(yù)測參數(shù)計算出該待回復(fù)文本中的每個非停用詞為該待回復(fù)文本的話題 詞概率。同時,計算出該第i個候選回復(fù)文本中每個非停用詞在該第i個候選回復(fù)文本中 的特征向量,并根據(jù)該第i個候選回復(fù)文本中的每個非停用詞在該第i個候選回復(fù)文本中 的特征向量以及話題詞預(yù)測參數(shù),計算出該第i個候選回復(fù)文本中的每個非停用詞為該第 i個候選回復(fù)文本的話題詞概率。然后,找到同時屬于該待回復(fù)文本以及該第i個候選回復(fù) 文本的M1個非停用詞中的每個非停用詞在該待回復(fù)文本中的話題詞概率以及第i個候選 回復(fù)文本的話題詞概率。
[0059] 可選的,作為另一個實施例,該對話數(shù)據(jù)庫中的每個文本中的每個非停用詞屬于 當(dāng)前文本的話題詞概率可以是預(yù)先計算好并保存在一個話題詞概率數(shù)據(jù)庫中??梢詮脑撛?題詞概率數(shù)據(jù)庫中直接檢索到第i個候選回復(fù)文本中每個非停用詞屬于第i個候選回復(fù)文 本的話題詞概率。
[0060] 該話題詞預(yù)測參數(shù)是通過以下方式確定的:獲取P個訓(xùn)練文本,其中每個訓(xùn)練文 本中的每個非停用詞對應(yīng)的話題詞特征值是確定的,其中該話題詞特征值用于指示對應(yīng)的