獲取文本提取模型的方法及裝置與流程

文檔序號：12786500閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>獲取文本提取模型的方法及裝置與流程

技術(shù)特征：

1.一種獲取文本提取模型的方法，其特征在于，所述方法包括：

獲取第一文本提取模型，所述第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到；

如果所述第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，獲取第二訓(xùn)練文本集合，所述第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語料和通過所述第一文本提取模型從所述多個(gè)第一訓(xùn)練語料中提取的多個(gè)第一目標(biāo)文本；

根據(jù)所述第一訓(xùn)練文本集合和所述第二訓(xùn)練文本集合，獲取第二文本提取模型。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述如果所述第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，獲取第二訓(xùn)練文本集合包括：

如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值，獲取所述多個(gè)第一訓(xùn)練語料；

對于所述多個(gè)第一訓(xùn)練語料中的每個(gè)第一訓(xùn)練語料，通過所述第一文本提取模型從所述第一訓(xùn)練語料中提取出第一文本；

如果所述第一文本正確，將所述第一訓(xùn)練語料和所述第一文本作為所述第二訓(xùn)練文本集合中的一對訓(xùn)練文本；

如果所述第一文本錯(cuò)誤，將所述第一訓(xùn)練語料和人工修正的文本作為所述第二訓(xùn)練文本集合中的一對訓(xùn)練文本。

3.根據(jù)權(quán)利要求2所述的方法，所述如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值，獲取所述多個(gè)第一訓(xùn)練語料包括：

如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值，從聊天數(shù)據(jù)庫中獲取預(yù)設(shè)時(shí)段內(nèi)的對話語料，將所述預(yù)設(shè)時(shí)段內(nèi)的對話預(yù)料作為所述多個(gè)第一訓(xùn)練語料，所述聊天數(shù)據(jù)庫用于存儲(chǔ)用戶與聊天機(jī)器人之間的對話語料。

4.根據(jù)權(quán)利要求2所述的方法，所述如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值，獲取所述多個(gè)第一訓(xùn)練語料包括：

如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值，從聊天數(shù)據(jù)庫中篩選出對話成功的對話語料，將所述對話成功的對話預(yù)料作為所述多個(gè)第一訓(xùn)練語料，所述聊天數(shù)據(jù)庫用于存儲(chǔ)用戶與聊天機(jī)器人之間的對話語料，所述對話成功的對話語料是指所述聊天機(jī)器人成功為所述用戶提供服務(wù)的對話語料。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取第二訓(xùn)練文本集合之前，所述方法還包括：

獲取測試文本集合，所述測試文本集合包括多個(gè)測試語料和人工從所述多個(gè)測試語料中標(biāo)注出的多個(gè)正確文本；

對于所述多個(gè)測試語料中的每個(gè)測試語料，通過所述第一文本提取模型從所述測試語料中提取出第二文本；

將與任一正確文本相同的第二文本和所述多個(gè)正確文本的數(shù)量比例確定為所述第一文本提取模型的提取準(zhǔn)確度。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述第一訓(xùn)練文本集合和所述第二訓(xùn)練文本集合，獲取第二文本提取模型之后，所述方法還包括：

如果當(dāng)前的文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值，繼續(xù)獲取訓(xùn)練文本集合，并基于已獲取的各個(gè)訓(xùn)練文本集合進(jìn)行訓(xùn)練，直到訓(xùn)練得到的文本提取模型的提取準(zhǔn)確度不低于所述預(yù)設(shè)閾值，所述訓(xùn)練文本集合包括多個(gè)第二訓(xùn)練語料和通過所述當(dāng)前的文本提取模型從所述多個(gè)第二訓(xùn)練語料中提取的多個(gè)第二目標(biāo)文本。

7.一種獲取文本提取模型的裝置，其特征在于，所述裝置包括：

模型獲取模塊，用于獲取第一文本提取模型，所述第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到；

訓(xùn)練文本集合獲取模塊，用于如果所述第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，獲取第二訓(xùn)練文本集合，所述第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語料和通過所述第一文本提取模型從所述多個(gè)第一訓(xùn)練語料中提取的多個(gè)第一目標(biāo)文本；

所述模型獲取模塊，還用于根據(jù)所述第一訓(xùn)練文本集合和所述第二訓(xùn)練文本集合，獲取第二文本提取模型。

8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述訓(xùn)練文本集合獲取模塊用于：

如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值，獲取所述多個(gè)第一訓(xùn)練語料；

對于所述多個(gè)第一訓(xùn)練語料中的每個(gè)第一訓(xùn)練語料，通過所述第一文本提取模型從所述第一訓(xùn)練語料中提取出第一文本；

如果所述第一文本正確，將所述第一訓(xùn)練語料和所述第一文本作為所述第二訓(xùn)練文本集合中的一對訓(xùn)練文本；

如果所述第一文本錯(cuò)誤，將所述第一訓(xùn)練語料和人工修正的文本作為所述第二訓(xùn)練文本集合中的一對訓(xùn)練文本。

9.根據(jù)權(quán)利要求8所述的裝置，所述訓(xùn)練文本集合獲取模塊用于：

10.根據(jù)權(quán)利要求8所述的裝置，所述訓(xùn)練文本集合獲取模塊用于：

11.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述裝置還包括：

測試文本集合獲取模塊，用于獲取測試文本集合，所述測試文本集合包括多個(gè)測試語料和人工從所述多個(gè)測試語料中標(biāo)注出的多個(gè)正確文本；

提取模塊，用于對于所述多個(gè)測試語料中的每個(gè)測試語料，通過所述第一文本提取模型從所述測試語料中提取出第二文本；

確定模塊，用于將與任一正確文本相同的第二文本和所述多個(gè)正確文本的數(shù)量比例確定為所述第一文本提取模型的提取準(zhǔn)確度。

12.根據(jù)權(quán)利要求7所述的裝置，其特征在于，

所述訓(xùn)練文本集合獲取模塊，還用于如果當(dāng)前的文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值，繼續(xù)獲取訓(xùn)練文本集合；

所述模型獲取模塊，還用于基于已獲取的各個(gè)訓(xùn)練文本集合進(jìn)行訓(xùn)練，直到訓(xùn)練得到的文本提取模型的提取準(zhǔn)確度不低于所述預(yù)設(shè)閾值，所述訓(xùn)練文本集合包括多個(gè)第二訓(xùn)練語料和通過所述當(dāng)前的文本提取模型從所述多個(gè)第二訓(xùn)練語料中提取的多個(gè)第二目標(biāo)文本。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

自動(dòng)更換砂紙裝置模型相關(guān)技術(shù)

倫琴射線管裝置模型相關(guān)技術(shù)

文本表示模型相關(guān)技術(shù)

3d化工裝置模型相關(guān)技術(shù)

文本主題模型相關(guān)技術(shù)

文本向量空間模型相關(guān)技術(shù)

文本分類模型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

獲取文本提取模型的方法及裝置與流程