国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      處理文本的方法和設(shè)備的制造方法

      文檔序號:9547172閱讀:240來源:國知局
      處理文本的方法和設(shè)備的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明實施例涉及信息技術(shù)領(lǐng)域,并且更具體地,涉及處理文本的方法和設(shè)備。
      【背景技術(shù)】
      [0002] 自動對話技術(shù)是信息技術(shù)領(lǐng)域中的一個熱點問題。利用自動對話技術(shù),用戶能夠 實現(xiàn)人機對話?,F(xiàn)有技術(shù)中的自動對話是通過信息檢索技術(shù)實現(xiàn)的。計算機或服務(wù)器等設(shè) 備接收到用戶發(fā)送的待回復(fù)文本后,會從對話數(shù)據(jù)庫中檢索出句子作為回復(fù)文本?,F(xiàn)有技 術(shù)進行回復(fù)文本檢索時僅會判斷回復(fù)文本中是否有與待回復(fù)文本相同的詞項。雖然回復(fù)文 本中會包括待回復(fù)文本中的詞項,但是回復(fù)文本的內(nèi)容卻并不一定適合。

      【發(fā)明內(nèi)容】

      [0003] 本發(fā)明實施例提供處理文本的方法和設(shè)備,能夠根據(jù)用戶輸入的待回復(fù)文本的話 題選擇合適的文本作為回復(fù)文本,使得回復(fù)文本能夠緊扣待回復(fù)文本的話題。
      [0004] 第一方面,本發(fā)明實施例提供一種處理文本的方法,該方法包括:獲取待回復(fù)文本 和N個候選回復(fù)文本,其中,每個候選回復(fù)文本包括該待回復(fù)文本中的至少一個非停用詞; 確定M1個非停用詞中的每個非停用詞屬于該待回復(fù)文本的話題詞概率,其中該M 1個非停用 詞為該N個候選回復(fù)文本中的第i個候選回復(fù)文本與該待回復(fù)文本相同的非停用詞;確定 該M 1個非停用詞中的該每個非停用詞屬于該第i個候選回復(fù)文本的話題詞概率;根據(jù)該M1 個非停用詞屬于該待回復(fù)文本的話題詞概率以及該M1個非停用詞屬于該第i個候選回復(fù) 文本的話題詞概率,確定該第i個候選回復(fù)文本與該待回復(fù)文本的話題詞相似度;將該N個 候選回復(fù)文本中與該待回復(fù)文本的話題詞相似度最高的候選回復(fù)文本作為該待回復(fù)文本 的回復(fù)文本。
      [0005] 結(jié)合第一方面,在第一方面的第一種可能的實現(xiàn)方式中,該確定M1個非停用詞中 的每個非停用詞屬于該待回復(fù)文本的話題詞概率,包括:確定該M1個非停用詞中的該每個 非停用詞在該待回復(fù)文本中的特征向量;根據(jù)該M 1個非停用詞中的該每個非停用詞在該待 回復(fù)文本中的特征向量和話題詞預(yù)測參數(shù),確定該M1個非停用詞中的該每個非停用詞屬于 該待回復(fù)文本的話題詞概率。
      [0006] 結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第一方面的第二種可能的實現(xiàn)方式 中,該M1個非停用詞中的任一個非停用詞屬于該待回復(fù)文本的話題詞概率是通過以下公式 確定的:
      [0008] 其中,.Xq .表TK第一詞項在該待回復(fù)文本中的特征向量,其中該第一詞項為該Mi個 非停用詞中的任一個非停用詞,表示權(quán)重向量,c表示常數(shù),其中&和c為該話題詞預(yù)測 參數(shù),pitopic卜V、)_表示該第一詞項為該待回復(fù)文本的話題詞概率。
      [0009] 結(jié)合第一方面,在第一方面的第三種可能的實現(xiàn)方式中,該確定M1個非停用詞中 的該每個非停用詞屬于該第i個候選回復(fù)文本的話題詞概率,包括:確定該M 1個非停用詞 中的該每個非停用詞在該第i個候選回復(fù)文本中的特征向量;根據(jù)該M1個非停用詞中的該 每個非停用詞在該第i個候選回復(fù)文本中的特征向量和話題詞預(yù)測參數(shù),確定該%個非停 用詞中的該每個非停用詞屬于該待回復(fù)文本的話題詞概率。
      [0010] 結(jié)合第一方面的第三種可能的實現(xiàn)方式,在第一方面的第四種可能的實現(xiàn)方式 中,該M1個非停用詞中的任一個非停用詞屬于該第i個候選回復(fù)文本的話題詞概率是通過 以下公式確定的:
      [0012] 其中,表示第二詞項在該第i個候選回復(fù)文本中的特征向量,其中該第二詞項 為該M1個非停用詞中的任一個非停用詞,^表示權(quán)重向量,c表示常數(shù),其中&和c為該話 題詞預(yù)測參數(shù),P( toPic I |)表示該第二詞項為該第i個候選回復(fù)文本的話題詞概率。
      [0013] 第一方面的第一種可能的實現(xiàn)方式至第一方面的第四種可能的實現(xiàn)方式中的任 一種可能的實現(xiàn)方式,在第一方面的第五種可能的實現(xiàn)方式中,該話題詞預(yù)測參數(shù)是通過 以下方式確定的:獲取P個訓(xùn)練文本,其中每個訓(xùn)練文本中的每個非停用詞對應(yīng)的話題詞 特征值是確定的,其中該話題詞特征值用于指示對應(yīng)的非停用詞是否屬于該對應(yīng)的非停用 詞所在的訓(xùn)練文本的話題詞;確定該每個訓(xùn)練文本中的該每個非停用詞的特征向量;根據(jù) 該每個訓(xùn)練文本中的該每個非停用詞的特征向量以及該每個訓(xùn)練文本中的該每個非停用 詞的話題詞特征值,進行邏輯回歸模型學(xué)習,確定該話題詞預(yù)測參數(shù),其中該每個訓(xùn)練文本 中的該每個非停用詞的特征向量為該邏輯回歸模型的輸入項,該每個訓(xùn)練文本中的該每個 非停用詞的話題詞特征值為該邏輯回歸模型的輸出項。
      [0014] 結(jié)合第一方面或第一方面的上述任一種可能的實現(xiàn)方式,在第一方面的第六種可 能的實現(xiàn)方式中,該第i個候選回復(fù)文本與該待回復(fù)文本的話題詞相似度是根據(jù)以下公式 確定的:
      [0016] 其中,Wq表示由該%個非停用詞分別屬于該待回復(fù)文本的話題詞概率所組成的向 量,W d表示由該%個非停用詞分別屬于該第i個候選回復(fù)文本的話題詞概率所組成的向量, score (q,d)表示該第i個候選回復(fù)文本與該待回復(fù)文本的話題詞相似度。
      [0017] 第二方面,本發(fā)明實施例提供一種設(shè)備,該設(shè)備包括:獲取單元,用于獲取待回復(fù) 文本和N個候選回復(fù)文本,其中,每個候選回復(fù)文本包括該待回復(fù)文本中的至少一個非停 用詞;第一確定單元,用于確定M 1個非停用詞中的每個非停用詞屬于該待回復(fù)文本的話題 詞概率,其中該M1個非停用詞為該N個候選回復(fù)文本中的第i個候選回復(fù)文本與該待回復(fù) 文本相同的非停用詞;第二確定單元,用于確定該M 1個非停用詞中的該每個非停用詞屬于 該第i個候選回復(fù)文本的話題詞概率;相似度確定單元,用于根據(jù)該M1個非停用詞屬于該 待回復(fù)文本的話題詞概率以及該M1個非停用詞屬于該第i個候選回復(fù)文本的話題詞概率, 確定該第i個候選回復(fù)文本與該待回復(fù)文本的話題詞相似度;第三確定單元,用于將該N個 候選回復(fù)文本中與該待回復(fù)文本的話題詞相似度最高的候選回復(fù)文本作為該待回復(fù)文本 的回復(fù)文本。
      [0018] 結(jié)合第二方面,在第二方面的第一種可能的實現(xiàn)方式中,該第一確定單元,具體用 于確定該M 1個非停用詞中的該每個非停用詞在該待回復(fù)文本中的特征向量;根據(jù)該M1個非 停用詞中的該每個非停用詞在該待回復(fù)文本中的特征向量和話題詞預(yù)測參數(shù),確定該M 1個 非停用詞中的該每個非停用詞屬于該待回復(fù)文本的話題詞概率。
      [0019] 結(jié)合第二方面的第一種可能的實現(xiàn)方式,在第二方面的第二種可能的實現(xiàn)方式 中,該第一確定單元,具體用于使用以下公式確定該M 1個非停用詞中的任一個非停用詞屬 于該待回復(fù)文本的話題詞概率:
      [0021] 其中,Xq表TK第一詞項在該待回復(fù)文本中的特征向量,其中該第一詞項為該M i個 非停用詞中的任一個非停用詞,表示權(quán)重向量,c表示常數(shù),其中G和c為該話題詞預(yù)測 參數(shù),pitcpicI Wsv)表示該第一詞項為該待回復(fù)文本的話題詞概率。
      [0022] 結(jié)合第二方面,在第二方面的第三種可能的實現(xiàn)方式中,該第二確定單元,具體用 于確定該M 1個非停用詞中的該每個非停用詞在該第i個候選回復(fù)文本中的特征向量;根據(jù) 該M1個非停用詞中的該每個非停用詞在該第i個候選回復(fù)文本中的特征向量和話題詞預(yù) 測參數(shù),確定該M 1個非停用詞中的該每個非停用詞屬于該待回復(fù)文本的話題詞概率。
      [0023] 結(jié)合第二方面的第三種可能的實現(xiàn)方式,在第二方面的第四種可能的實現(xiàn)方式 中,該第二確定單元,具體用于使用以下公式確定該M 1個非停用詞中的任一個非停用詞屬 于該第i個候選回復(fù)文本的話題詞概率:
      [0025] 其中,€表示第二詞項在該第i個候選回復(fù)文本中的特征向量,其中該第二詞項 為該M1個非停用詞中的任一個非停用詞,石..表示權(quán)重向量,c表示常數(shù),其中3和c為該話 題詞預(yù)測參數(shù),P( tQPie iw'Xi)表示該第二詞項為該第i個候選回復(fù)文本的話題詞概率。
      [0026] 結(jié)合第二方面的第一種可能的實現(xiàn)方式至第二方面的第四種可能的實現(xiàn)方式中 的任一種可能的實現(xiàn)方式,在第二方面的第五種可能的實現(xiàn)方式中,該設(shè)備還包括:訓(xùn)練文 本獲取單元,用于獲取P個訓(xùn)練文本,其中每個訓(xùn)練文本中的每個非停用詞對應(yīng)的話題詞 特征值是確定的,其中該話題詞特征值用于指示對應(yīng)的非停用詞是否屬于該對應(yīng)的非停用 詞所在的訓(xùn)練文本的話題詞;訓(xùn)練文本確定單元,用于確定該每個訓(xùn)練文本中的該每個非 停用詞的特征向量;預(yù)測參數(shù)確定單元,用于根據(jù)該每個訓(xùn)練文本中的該每個非停用詞的 特征向量以及該每個訓(xùn)練文本中的該每個非停用詞的話題詞特征值,進行邏輯回歸模型學(xué) 習,確定該話題詞預(yù)測參數(shù),其中該每個訓(xùn)練文本中的該每個非停用詞的特征向量為該邏 輯回歸模型的輸入項,該每個訓(xùn)練文本中的該每個非停用詞的話題詞特征值為該邏輯回歸 模型的輸出項。
      [0027] 結(jié)合第二方面或第二方面的上述任一種可能的實現(xiàn)方式,在第二方面的第六種可 能的實現(xiàn)方式中,該相似度確定單元,具體用于使用以下公式確定該第i個候選回復(fù)文本 與該待回復(fù)文本的話題詞相似度:
      [0029] 其中,Wq表示由該%個非停用詞分別屬于該待回復(fù)文本的話題詞概率所組成的向 量,W d表示由該%個非停用詞分別屬于該第i個候選回復(fù)文本的話題詞概率所組成的向量, score (q,d)表示該第i個候選回復(fù)文本與該待回復(fù)文本的話題詞相似度。
      [
      當前第1頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1