面向問答系統(tǒng)的數(shù)據(jù)糾錯方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及信息檢索與查詢領域,尤其涉及一種面向問答系統(tǒng)的數(shù)據(jù)糾錯方法及
目.0
【背景技術】
[0002]問答系統(tǒng)是信息檢索系統(tǒng)的一種高級形式,它能用準確、簡潔的自然語言回答用戶用自然語言提出的問題。其研究興起的主要原因是人們對快速、準確地獲取信息的需求。問答系統(tǒng)是指以自然語言理解技術為核心,使得機器能夠理解用戶的說話內(nèi)容,實現(xiàn)人與機器之間的有效交流溝通,它是一種通過自然語言技術自動與用戶對話的人工智能系統(tǒng)。目前,問答系統(tǒng)使用廣泛,主要應用于計算機客服系統(tǒng)、機器人、兒童玩具、語音助手和秘書類產(chǎn)品等中。
[0003]由于用戶通過自然語言對問答系統(tǒng)提出問題,不可避免的會出現(xiàn)一些識別錯誤或者其他輸入錯誤,這些錯誤隨著輸入進入問答系統(tǒng),會極大的影響問答系統(tǒng)輸出的正確率。目前,問答系統(tǒng)的設計主要側(cè)重于如何提高對用戶提出問題獲得的答案的質(zhì)量上,而沒有對用戶的提問進行判別和糾正。
[0004]問答系統(tǒng)由于用戶的輸入錯誤,必然會導致獲取的相應答案質(zhì)量降低,使問答系統(tǒng)的正確率降低,用戶體驗性不高。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種面向問答系統(tǒng)的數(shù)據(jù)糾錯方法及裝置,用以解決現(xiàn)有技術中通過自然語言對問答系統(tǒng)進行提問時,由于識別錯誤或其他輸入錯誤導致影響問答系統(tǒng)正確率的技術問題。
[0006]本發(fā)明一方面提供一種面向問答系統(tǒng)的數(shù)據(jù)糾錯方法,包括:
[0007]接收用戶輸入信息,并將用戶輸入信息轉(zhuǎn)換為標準文本格式信息,其中,用戶輸入信息包括語音信息和/或文本信息;
[0008]對標準文本格式信息進行去噪處理,并獲得第一信息;
[0009]利用錯誤詞庫對第一信息進行錯誤判別;
[0010]當?shù)谝恍畔⒅邪e誤內(nèi)容時,提取第一信息中的錯誤內(nèi)容;
[0011 ]對錯誤內(nèi)容按照預設處理算法進行替換;
[0012]根據(jù)替換結(jié)果獲得第二信息并輸出。
[0013]進一步的,利用錯誤詞庫對第一信息進行錯誤判別,包括:
[0014]針對第一信息在錯誤詞庫檢索,當所述第一信息中包含有錯誤詞庫中存儲的錯誤內(nèi)容,判別所述第一信息中包含錯誤內(nèi)容;
[0015]還包括:
[0016]當所述檢索失敗時,通過正確語料基準模型計算第一信息中包含錯誤內(nèi)容的概率,錯誤詞庫通過正確語料基準模型訓練得到;
[0017]當概率超過預設閾值時,判別第一信息中包含錯誤內(nèi)容。
[0018]進一步的,對錯誤內(nèi)容按照預設處理算法進行替換包括:
[0019]對錯誤內(nèi)容按照錯誤類型進行分類,在分類結(jié)果下,針對錯誤內(nèi)容生成多條待選糾錯內(nèi)容;
[0020]按照整體句法分析及上下文系統(tǒng)對多條待選糾錯內(nèi)容排序;
[0021 ]根據(jù)排序結(jié)果,生成糾錯內(nèi)容;
[0022]利用糾錯內(nèi)容,對錯誤內(nèi)容進行替換。
[0023]進一步的,上述方法還包括:采集標注為正確的語料,對正確語料基準模型進行訓練。
[0024]進一步的,還包括:將所述錯誤內(nèi)容輸入至錯誤詞庫中。
[0025]本發(fā)明另一方面提供一種面向問答系統(tǒng)的數(shù)據(jù)糾錯裝置,包括:
[0026]用戶信息接收模塊,用于接收用戶輸入信息,并將用戶輸入信息轉(zhuǎn)換為標準文本格式信息,其中,用戶輸入信息包括語音信息和/或文本信息;
[0027]預處理模塊,用于對標準文本格式息進行去噪處理,并獲得第一信息;
[0028]錯誤判別模塊,用于利用錯誤詞庫對第一信息進行錯誤判別;
[0029]錯誤內(nèi)容提取模塊,用于當?shù)谝恍畔⒅邪e誤內(nèi)容時,提取第一信息中的錯誤內(nèi)容;
[0030]預設處理算法模塊,用于對錯誤內(nèi)容按照預設處理算法進行替換;
[0031]正確內(nèi)容輸出模塊,用于根據(jù)替換結(jié)果獲得第二信息并輸出。
[0032]進一步的,錯誤判別模塊還包括:
[0033]錯誤內(nèi)容概率計算子模塊,用于針對第一信息在錯誤詞庫檢索失敗時,通過正確語料基準模型計算所述第一信息中包含錯誤內(nèi)容的概率;
[0034]錯誤內(nèi)容判別子模塊,用于當概率超過預設閾值時,判別第一信息中包含錯誤內(nèi)容。
[0035]進一步的,預設處理算法模塊,包括:
[0036]待選糾錯內(nèi)容獲取子模塊,用于對錯誤內(nèi)容按照錯誤類型進行分類,在分類結(jié)果下,針對錯誤內(nèi)容生成多條待選糾錯內(nèi)容;
[0037]待選糾錯內(nèi)容排序子模塊,用于按照整體句法分析及上下文系統(tǒng)對多條待選糾錯內(nèi)容排序;
[0038]糾錯內(nèi)容生成子模塊,根據(jù)排序結(jié)果,生成糾錯內(nèi)容;
[0039]替換子模塊,用于利用糾錯內(nèi)容,對錯誤內(nèi)容進行替換。
[0040]進一步的,還包括,正確語料訓練模塊,用于采集標注為正確的語料,對正確語料基準模型進行訓練。
[0041 ]進一步的,還包括,錯誤語料補充模塊,用于將所述錯誤內(nèi)容輸入至錯誤詞庫中。
[0042]本發(fā)明提供的面向問答系統(tǒng)的數(shù)據(jù)糾錯方法及裝置,將接收的用戶輸入信息轉(zhuǎn)換為標準的文本格式信息,然后對標準文本格式信息進行去噪處理獲得第一信息,并利用錯誤詞庫對第一信息進行錯誤判別,當?shù)谝恍畔⒅邪e誤內(nèi)容時,提取第一信息中的錯誤內(nèi)容,然后對錯誤內(nèi)容按照預設處理算法進行替換,獲得第二信息并輸出,此第二信息即為經(jīng)過糾正后的正確信息,這種糾錯方法和裝置能有效減少用戶對問答系統(tǒng)的輸入錯誤,從而提高問答系統(tǒng)回答用戶提問的正確率,有效提升問答系統(tǒng)的用戶體驗。
【附圖說明】
[0043]在下文中將基于實施例并參考附圖來對本發(fā)明進行更詳細的描述。其中:
[0044]圖1為根據(jù)本發(fā)明實施例一的面向問答系統(tǒng)的數(shù)據(jù)糾錯方法的流程示意圖;
[0045]圖2a為根據(jù)本發(fā)明實施例二的面向問答系統(tǒng)的數(shù)據(jù)糾錯方法的流程示意圖;
[0046]圖2b為根據(jù)本發(fā)明實施例二的面向問答系統(tǒng)的數(shù)據(jù)糾錯方法中對錯誤內(nèi)容按照預設處理算法進行替換的流程示意圖;
[0047]圖3為根據(jù)本發(fā)明實施例三的面向問答系統(tǒng)的數(shù)據(jù)糾錯裝置的結(jié)構(gòu)示意圖;
[0048]圖4為根據(jù)本發(fā)明實施例四的面向問答系統(tǒng)的數(shù)據(jù)糾錯裝置的結(jié)構(gòu)示意圖。
[0049]在附圖中,相同的部件使用相同的附圖標記。附圖并未按照實際的比例繪制。
【具體實施方式】
[0050]下面將結(jié)合附圖對本發(fā)明作進一步說明。
[0051 ] 實施例一
[0052]圖1為根據(jù)本發(fā)明實施例一的面向問答系統(tǒng)的數(shù)據(jù)糾錯方法的流程示意圖,如圖1所示,本發(fā)明提供一種面向問答系統(tǒng)的數(shù)據(jù)糾錯方法,包括:
[0053]步驟101,接收用戶輸入信息,并將用戶輸入信息轉(zhuǎn)換為標準文本格式信息,其中,用戶輸入信息包括語音信息和/或文本信息。
[0054]具體的,用戶輸入信息包括語音信息或文本信息,或者同時包括語音信息和文本信息,為了便于對用戶輸入信息進行統(tǒng)一處理,此處還需要將用戶輸入信息轉(zhuǎn)換成標準的文本格式信息。
[0055]步驟102,對所述標準文本格式信息進行去噪處理,并獲得第一信息。
[0056]具體的,一般情況下,標準文本格式信息中會包含一些錯誤的或者無用的文本內(nèi)容,會影響到以后的處理過程,所以此步驟中的去噪處理可將錯誤或無用的文本過濾掉,既不會影響用戶輸入信息的正確性,還可以減少對后續(xù)步驟的干擾,第一信息即為對標準文本格式信息進行去噪處理后獲得的結(jié)果。
[0057]步驟103,利用錯誤詞庫對第一信息進行錯誤判別。
[0058]具體的,針對第一信息在錯誤詞庫檢索,當所述第一信息中包含有錯誤詞庫中存儲的錯誤內(nèi)容,判別所述第一信息中包含錯誤內(nèi)容。錯誤詞庫是測試輸入信息中是否存在錯誤詞語的數(shù)據(jù)庫,該數(shù)據(jù)庫中包含的錯誤詞語越多,在對第一信息進行錯誤判別時,發(fā)現(xiàn)第一信息中錯誤詞語的概率就越大,即第一信息中的錯誤詞語就越容易被發(fā)現(xiàn)。
[0059]對第一信息進行判別,判斷第一信息中是否有錯誤內(nèi)容存在,若有,轉(zhuǎn)步驟104執(zhí)行;進一步的,若第一信息中沒有錯誤內(nèi)容存在,則直接將第一信息輸出。
[0060]步驟104,當所述第一信息中包含錯誤內(nèi)容時,提取第一信息中的錯誤內(nèi)容。
[0061]具體的,本步驟需要對第一信息中的錯誤內(nèi)容進行提取,即提取步驟103中根據(jù)錯誤詞庫發(fā)現(xiàn)的錯誤內(nèi)容。
[0062]步驟105,對所述錯誤內(nèi)容按照預設處理算法進行替換。
[0063]具體的,預設處理算法可將第一信息中的錯誤內(nèi)容用糾錯內(nèi)容替換,從而獲得第二信息。
[0064]步驟106,根據(jù)替換結(jié)果獲得第二信息并輸出。具體的,對第一信息中的錯誤內(nèi)容進行替換之后所獲得的信息為第二信息,將第二信息輸出。
[0065]本發(fā)明提供的面