處理文本的方法和設(shè)備的制造方法_3

文檔序號：9547172閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>處理文本的方法和設(shè)備的制造方法

非停用詞是否屬于該對應(yīng)的非停用詞所在的訓(xùn)練文本的話題詞；確定該每個訓(xùn)練文本中的該每個非停用詞的特征向量；根據(jù)該每個訓(xùn)練文本中的該每個非停用詞的特征向量以及該每個訓(xùn)練文本中的該每個非停用詞的話題詞特征值，進(jìn)行邏輯回歸模型學(xué)習(xí)，確定該話題詞預(yù)測參數(shù)，其中該每個訓(xùn)練文本中的該每個非停用詞的特征向量為該邏輯回歸模型的輸入項(xiàng)，該每個訓(xùn)練文本中的該每個非停用詞的話題詞特征值為該邏輯回歸模型的輸出項(xiàng)。
[0061] 該P(yáng)個訓(xùn)練文本是從該對話數(shù)據(jù)庫中選擇出來的，該P(yáng)個訓(xùn)練文本的非停用詞中屬于話題詞的話題詞特征值標(biāo)記為1，該P(yáng)個訓(xùn)練文本的非停用詞中的非話題詞的話題詞特征值標(biāo)記為〇,使用以下公式進(jìn)行邏輯回歸模型訓(xùn)練：
[0063] 其中，f (wx)表示非停用詞X的在非停用詞X所在的文本中的特征值，i為非停用詞X的在非停用詞X所在的文本中的特征向量，表示權(quán)重向量，c表示常數(shù)，其中石和c 即為需要訓(xùn)練得到的話題詞預(yù)測參數(shù)。
[0064] 204,根據(jù)該M1個非停用詞屬于該待回復(fù)文本的話題詞概率，以及該％個非停用詞屬于該第i個候選回復(fù)文本的話題詞概率，確定該M 1個候選回復(fù)文本與該待回復(fù)文本的話題詞相似度。
[0065] 具體來說，可以使用以下公式確定該待回復(fù)文本和該第i個候選回復(fù)文本的話題詞相似度：
.......公式1. 4
[0067] 其中，Wq表示由該％個非停用詞分別屬于該待回復(fù)文本的話題詞概率所組成的向量，Wd表示由該％個非停用詞分別屬于該第i個候選回復(fù)文本的話題詞概率所組成的向量， Wd = (wdii,......, Wdjt), Wq = (wqil,......, Wq, t)，wd, t 表示該 Mi 個非話題詞中的第 t 個非話題詞屬于該第i個候選回復(fù)文本的話題詞的概率，wqit表示該M1個非話題詞中的第t個非話題詞屬于該待回復(fù)文本的話題詞概率，score (q，d)表示該待回復(fù)文本與該第i個候選回復(fù)文本的話題詞相似度。
[0068] 205,對該N個待回復(fù)文本中其余的待回復(fù)文本均執(zhí)行如步驟202至步驟204所示的過程，確定N個候選回復(fù)文本與該待回復(fù)文本的話題詞相似度。
[0069] 206,將該N個候選回復(fù)文本中與該待回復(fù)文本的話題詞相似度最高的候選回復(fù) 文本作為該待回復(fù)文本的回復(fù)文本。
[0070] 圖2所示的方法能夠預(yù)測出待回復(fù)文本以及多個候選回復(fù)文本的相同話題詞的概率，根據(jù)預(yù)測出的概率確定待回復(fù)文本和多個候選回復(fù)文本話題的相似度，然后選擇相似度最高的候選回復(fù)文本回復(fù)該待回復(fù)文本。這樣，回復(fù)文本的話題能夠緊扣待回復(fù)文本的話題，大大降低回復(fù)文本的話題與待回復(fù)文本的話題無關(guān)的概率。
[0071] 下面，將結(jié)合具體實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步的描述。該實(shí)施例是圖1和圖2的具體實(shí)施例。該實(shí)施例是為了更好的幫助理解本發(fā)明而并非對本發(fā)明的限制。
[0072] 假設(shè)，用戶輸入的文本為："選用代碼控制工具的時候，還是用SVN，不要用GIT，雖然GIT比SVN強(qiáng)大很多。因?yàn)槿绻麍F(tuán)隊(duì)里有一個菜鳥，他各種各樣關(guān)于GIT的問題會煩死你。SVN的優(yōu)勢就是極其簡單，菜鳥也可以很快掌握。"該文本就是需要得到回復(fù)的待回復(fù) 文本。
[0073] 該待回復(fù)文本分詞后的結(jié)果如下："選用""代碼" "控制""工具""的""時候"，"還是" "用" "SVN"，"不" "要" "用" "GIT"，"雖然" "GIT" "比" "SVN" "強(qiáng)大""很多"。"因為""如果" "團(tuán)隊(duì)""里""有" "一" "個""菜鳥"，"他""各種各樣""關(guān)于" "GIT" "的""問題""會""煩""死""你"。"SVN" "的""優(yōu)勢""就是" "極其""簡單"，"菜鳥""也""可以" "很快""掌握"。
[0074] 對于分詞后的待回復(fù)文本，進(jìn)行去停用詞后的結(jié)果如下："選用" "代碼""控制" "SVN" "GIT" "強(qiáng)大""團(tuán)隊(duì)" "里" "一個""菜鳥""他""各種各樣""問題""煩""死""優(yōu) 勢" "簡單""很快""掌握"。可以看出，經(jīng)過預(yù)處理后的待回復(fù)文本中共包括K個非停用詞。在該實(shí)施例中，K為19。
[0075] 根據(jù)該待回復(fù)文本中的非停用詞，從對話數(shù)據(jù)庫中檢索出N個候選回復(fù)文本。具體來說，可以從對話數(shù)據(jù)庫中選擇包含有該待回復(fù)文本中的非停用詞的文本作為候選回復(fù) 文本。例如文本1為"我是保密員，菜鳥與90后努力為了不成為老菜鳥"。由于文本1包含 "菜鳥"詞項(xiàng)，因此短文本1可以作為該N個帶候選回復(fù)文本中的一個候選回復(fù)文本。當(dāng)對話數(shù)據(jù)庫中包含有已處理待回復(fù)文本中詞項(xiàng)的短文本過多時，可以利用詞項(xiàng)的權(quán)重從待回復(fù)數(shù)據(jù)庫中選擇出N個候選回復(fù)文本，例如N的取值可以為30。檢索候選回復(fù)文本的過程可以利用已有的工具實(shí)現(xiàn)（例如可以使用開源工具Lucene)。
[0076] 表1示出了檢索出的候選回復(fù)文本中的一部分候選回復(fù)文本。

[0078] 表1
[0079] 可以看出，表1中每一個候選回復(fù)文本中都包括有待回復(fù)文本中的非停用詞。
[0080] 對N個候選回復(fù)文本中的每一個候選回復(fù)文本均進(jìn)行分詞處理和去停用詞處理。
[0081] 對％個非停用詞中的每個非停用詞在該待回復(fù)文本中的特征進(jìn)行特征提取，獲取該M1個非停用詞中每個非停用詞在該待回復(fù)文本中的特征向量，該M 1個非停用詞同時是該待回復(fù)文本中的非停用詞以及該第i個候選回復(fù)文本的非停用詞。假設(shè)詞項(xiàng)w是該M1個非停用詞中的任一個非停用詞，提取詞項(xiàng)w在該待回復(fù)文本中的以下特征：詞項(xiàng)w在當(dāng)前文本 (即該待回復(fù)文本）中出現(xiàn)的頻率、詞項(xiàng)w在整個對話數(shù)據(jù)庫中的逆文檔頻率、在當(dāng)前文本中含有詞項(xiàng)w的句子的數(shù)目、詞項(xiàng)w是否出現(xiàn)在當(dāng)前文本的首句中、詞項(xiàng)w是否出現(xiàn)在當(dāng)前文本的末句中、詞項(xiàng)w是否是命名實(shí)體（即人名、地名、機(jī)構(gòu)名、數(shù)詞和時間詞）、詞項(xiàng)w是否是當(dāng)前文本首句中的命名實(shí)體、詞項(xiàng)w是否是當(dāng)前文本末句中的命名實(shí)體、詞項(xiàng)w的詞性。
[0082] 詞項(xiàng)w在整個對話數(shù)據(jù)庫中的逆文檔頻率可以通過以下公式確定：
[0083] IDF (w) = log(E-df+0. 5)/(df+0. 5),..................................... ....公式 I. 5
[0084] 其中，E表示整個對話數(shù)據(jù)庫中文本條數(shù)，df表示整個對話數(shù)據(jù)庫中含有詞項(xiàng)w的文本的條數(shù)。IDF(w)表示詞項(xiàng)w在整個對話數(shù)據(jù)庫中的逆文檔頻率。
[0085] 假設(shè)第i個候選回復(fù)文本為表1中的第4個候選回復(fù)文本，則該M1個非停用詞包括"控制"和"工具"。這兩個非停用詞的在該待回復(fù)文本中的特征向量如表2所示。
[0087] 表 2
[0088] 其中，TF、IDF、SF、First、Last、NE、NE_First、NE_Last 以及 POS 的含義如表 3 所 /Jn 〇
[0089]
[0091] 表 3
[0092] 其中，F(xiàn)irst、Last、NE、NE_First、NE_Last 中取值為 1 表示"是"，取值為"0" 表示否。POS中，"η"表示名詞，"V"表示動詞，"a"表示形容詞，"0"表示其他詞性。具體實(shí)現(xiàn)時，可以使用四個數(shù)值分別表示POS中的四種詞性，例如，可以分別以1000,0100,0010和0001 表示名詞、動詞、形容詞和其他詞。
[0093] 類似的，可以確定"控制"和"工具"在表1中第4個候選回復(fù)文本中的特征向量。
[0094] 在確定了"控制"和"工具"在待回復(fù)文本和第4個候選回復(fù)文本中的特征向量后，可以利用公式I. 1確定"控制"和"工具"屬于待回復(fù)文本的話題詞概率，以及利用公式1. 2 確定"控制"和"工具"屬于第4個候選回復(fù)文本的話題詞概率。然后，利用公式1. 4確定第 4個候選回復(fù)文本與待回復(fù)文本的話題詞相似度。具體來說，在利用公式1. 4確定第4個候選回復(fù)文本與待回復(fù)文本的話題詞相似度時，Wd = (Wdil，Wdi2)，Wq = (Wqil，Wqi2)，其中Wdil表示"控制"屬于第4個候選回復(fù)文本的話題詞概率，W 42表示"工具"屬于第4個候選回復(fù)文本的話題詞概率。Wqil表示"控制"屬于待回復(fù)文本的話題詞概率，表示"工具"屬于待回復(fù)文本的話題詞概率?？梢钥闯?，相同的非停用詞的話題詞概率在組成的兩個向量中的位置是相同的。
[0095] 在確定了該已處理待回復(fù)文本與N個候選回復(fù)文本中的每一個候選回復(fù)文本的話題相似度之后，選擇話題相似度取值最高的候選回復(fù)文本作為回復(fù)文本。
[0096] 下面將結(jié)合具體實(shí)施例對如何獲取該話題詞預(yù)測參數(shù)進(jìn)行進(jìn)一步描述。
[0097] 從對話數(shù)據(jù)庫中選取200個文本作為訓(xùn)練文本，其中該200個文本中共有2008個非停用詞。這2008個非停用詞中，屬于所在的訓(xùn)練文本的非停用詞的話題詞特征值標(biāo)記為 1，不屬于所在的訓(xùn)練文本的非停用詞的話題詞特征值標(biāo)記為〇。確定出該2008個詞項(xiàng)在所在的訓(xùn)練文本的特征向量。根據(jù)確定出的特征向量以及話題詞特征值，進(jìn)行邏輯回歸模型學(xué)習(xí)，就可以得到話題詞預(yù)測參數(shù)。本領(lǐng)域技術(shù)人員可以理解的是訓(xùn)練文本的數(shù)量

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

廢舊設(shè)備處理相關(guān)技術(shù)

熱處理設(shè)備有哪些相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

處理文本的方法和設(shè)備的制造方法_3