1.一種獲取文本提取模型的方法,其特征在于,所述方法包括:
獲取第一文本提取模型,所述第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到;
如果所述第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,獲取第二訓(xùn)練文本集合,所述第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語料和通過所述第一文本提取模型從所述多個(gè)第一訓(xùn)練語料中提取的多個(gè)第一目標(biāo)文本;
根據(jù)所述第一訓(xùn)練文本集合和所述第二訓(xùn)練文本集合,獲取第二文本提取模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述如果所述第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,獲取第二訓(xùn)練文本集合包括:
如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值,獲取所述多個(gè)第一訓(xùn)練語料;
對于所述多個(gè)第一訓(xùn)練語料中的每個(gè)第一訓(xùn)練語料,通過所述第一文本提取模型從所述第一訓(xùn)練語料中提取出第一文本;
如果所述第一文本正確,將所述第一訓(xùn)練語料和所述第一文本作為所述第二訓(xùn)練文本集合中的一對訓(xùn)練文本;
如果所述第一文本錯(cuò)誤,將所述第一訓(xùn)練語料和人工修正的文本作為所述第二訓(xùn)練文本集合中的一對訓(xùn)練文本。
3.根據(jù)權(quán)利要求2所述的方法,所述如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值,獲取所述多個(gè)第一訓(xùn)練語料包括:
如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值,從聊天數(shù)據(jù)庫中獲取預(yù)設(shè)時(shí)段內(nèi)的對話語料,將所述預(yù)設(shè)時(shí)段內(nèi)的對話預(yù)料作為所述多個(gè)第一訓(xùn)練語料,所述聊天數(shù)據(jù)庫用于存儲(chǔ)用戶與聊天機(jī)器人之間的對話語料。
4.根據(jù)權(quán)利要求2所述的方法,所述如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值,獲取所述多個(gè)第一訓(xùn)練語料包括:
如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值,從聊天數(shù)據(jù)庫中篩選出對話成功的對話語料,將所述對話成功的對話預(yù)料作為所述多個(gè)第一訓(xùn)練語料,所述聊天數(shù)據(jù)庫用于存儲(chǔ)用戶與聊天機(jī)器人之間的對話語料,所述對話成功的對話語料是指所述聊天機(jī)器人成功為所述用戶提供服務(wù)的對話語料。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取第二訓(xùn)練文本集合之前,所述方法還包括:
獲取測試文本集合,所述測試文本集合包括多個(gè)測試語料和人工從所述多個(gè)測試語料中標(biāo)注出的多個(gè)正確文本;
對于所述多個(gè)測試語料中的每個(gè)測試語料,通過所述第一文本提取模型從所述測試語料中提取出第二文本;
將與任一正確文本相同的第二文本和所述多個(gè)正確文本的數(shù)量比例確定為所述第一文本提取模型的提取準(zhǔn)確度。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一訓(xùn)練文本集合和所述第二訓(xùn)練文本集合,獲取第二文本提取模型之后,所述方法還包括:
如果當(dāng)前的文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值,繼續(xù)獲取訓(xùn)練文本集合,并基于已獲取的各個(gè)訓(xùn)練文本集合進(jìn)行訓(xùn)練,直到訓(xùn)練得到的文本提取模型的提取準(zhǔn)確度不低于所述預(yù)設(shè)閾值,所述訓(xùn)練文本集合包括多個(gè)第二訓(xùn)練語料和通過所述當(dāng)前的文本提取模型從所述多個(gè)第二訓(xùn)練語料中提取的多個(gè)第二目標(biāo)文本。
7.一種獲取文本提取模型的裝置,其特征在于,所述裝置包括:
模型獲取模塊,用于獲取第一文本提取模型,所述第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到;
訓(xùn)練文本集合獲取模塊,用于如果所述第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,獲取第二訓(xùn)練文本集合,所述第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語料和通過所述第一文本提取模型從所述多個(gè)第一訓(xùn)練語料中提取的多個(gè)第一目標(biāo)文本;
所述模型獲取模塊,還用于根據(jù)所述第一訓(xùn)練文本集合和所述第二訓(xùn)練文本集合,獲取第二文本提取模型。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述訓(xùn)練文本集合獲取模塊用于:
如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值,獲取所述多個(gè)第一訓(xùn)練語料;
對于所述多個(gè)第一訓(xùn)練語料中的每個(gè)第一訓(xùn)練語料,通過所述第一文本提取模型從所述第一訓(xùn)練語料中提取出第一文本;
如果所述第一文本正確,將所述第一訓(xùn)練語料和所述第一文本作為所述第二訓(xùn)練文本集合中的一對訓(xùn)練文本;
如果所述第一文本錯(cuò)誤,將所述第一訓(xùn)練語料和人工修正的文本作為所述第二訓(xùn)練文本集合中的一對訓(xùn)練文本。
9.根據(jù)權(quán)利要求8所述的裝置,所述訓(xùn)練文本集合獲取模塊用于:
如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值,從聊天數(shù)據(jù)庫中獲取預(yù)設(shè)時(shí)段內(nèi)的對話語料,將所述預(yù)設(shè)時(shí)段內(nèi)的對話預(yù)料作為所述多個(gè)第一訓(xùn)練語料,所述聊天數(shù)據(jù)庫用于存儲(chǔ)用戶與聊天機(jī)器人之間的對話語料。
10.根據(jù)權(quán)利要求8所述的裝置,所述訓(xùn)練文本集合獲取模塊用于:
如果所述第一文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值,從聊天數(shù)據(jù)庫中篩選出對話成功的對話語料,將所述對話成功的對話預(yù)料作為所述多個(gè)第一訓(xùn)練語料,所述聊天數(shù)據(jù)庫用于存儲(chǔ)用戶與聊天機(jī)器人之間的對話語料,所述對話成功的對話語料是指所述聊天機(jī)器人成功為所述用戶提供服務(wù)的對話語料。
11.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括:
測試文本集合獲取模塊,用于獲取測試文本集合,所述測試文本集合包括多個(gè)測試語料和人工從所述多個(gè)測試語料中標(biāo)注出的多個(gè)正確文本;
提取模塊,用于對于所述多個(gè)測試語料中的每個(gè)測試語料,通過所述第一文本提取模型從所述測試語料中提取出第二文本;
確定模塊,用于將與任一正確文本相同的第二文本和所述多個(gè)正確文本的數(shù)量比例確定為所述第一文本提取模型的提取準(zhǔn)確度。
12.根據(jù)權(quán)利要求7所述的裝置,其特征在于,
所述訓(xùn)練文本集合獲取模塊,還用于如果當(dāng)前的文本提取模型的提取準(zhǔn)確度低于所述預(yù)設(shè)閾值,繼續(xù)獲取訓(xùn)練文本集合;
所述模型獲取模塊,還用于基于已獲取的各個(gè)訓(xùn)練文本集合進(jìn)行訓(xùn)練,直到訓(xùn)練得到的文本提取模型的提取準(zhǔn)確度不低于所述預(yù)設(shè)閾值,所述訓(xùn)練文本集合包括多個(gè)第二訓(xùn)練語料和通過所述當(dāng)前的文本提取模型從所述多個(gè)第二訓(xùn)練語料中提取的多個(gè)第二目標(biāo)文本。