一種主客觀分類器構(gòu)建方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開的主客觀分類器構(gòu)建方法和系統(tǒng),在著眼于對問題進(jìn)行訓(xùn)練的同時(shí),還著眼于對問題的答案進(jìn)行訓(xùn)練,分別在問題和答案兩類文本上構(gòu)建基分類器,后續(xù)通過對兩個(gè)基分類器進(jìn)行融合,得到最終的主客觀分類器??梢?,本發(fā)明在主客觀分類中加入了答案分類,通過結(jié)合答案特征對問題分類進(jìn)行補(bǔ)正、校準(zhǔn),實(shí)現(xiàn)了基于問題與答案互補(bǔ)的主客觀分類,規(guī)避了因問題訓(xùn)練樣本的歧義性而導(dǎo)致分類器準(zhǔn)確率低的弊端,提高了利用主客觀分類器對問題進(jìn)行分類的準(zhǔn)確率,進(jìn)而提升了問答系統(tǒng)的性能。
【專利說明】一種主客觀分類器構(gòu)建方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于自然語言處理及模式識(shí)別【技術(shù)領(lǐng)域】,尤其涉及一種主客觀分類器構(gòu)建 方法和系統(tǒng)。
【背景技術(shù)】
[0002] 自動(dòng)問答技術(shù)是自然語言處理領(lǐng)域中的一個(gè)研究熱點(diǎn),其一般包括三個(gè)主要組成 部分:問題分類、信息檢索和答案抽取。
[0003] 問題分類能夠有效地減少候選答案的空間,提高自動(dòng)問答系統(tǒng)返回答案的準(zhǔn)確 率。其中,主客觀分類是實(shí)現(xiàn)問題分類的基礎(chǔ),針對用戶提出的問題,自動(dòng)問答系統(tǒng)首先需 對其進(jìn)行主客觀分類,后續(xù)在主客觀分類的基礎(chǔ)上對問題的類別進(jìn)行進(jìn)一步細(xì)分。目前, 主流的主客觀分類方法是基于機(jī)器學(xué)習(xí)的監(jiān)督分類方法,該方法實(shí)現(xiàn)主客觀分類的過程包 括:訓(xùn)練過程和分類過程。其中,在訓(xùn)練過程中,人工標(biāo)注一定數(shù)目的主觀性問題和客觀 性問題,作為標(biāo)注樣本,然后利用標(biāo)注樣本和機(jī)器學(xué)習(xí)分類方法(例如,支持向量機(jī)分類方 法)訓(xùn)練主客觀分類器;后續(xù)利用訓(xùn)練所得的主客觀分類器對未知問題進(jìn)行分類給出其主 客觀類別。
[0004] 可見,現(xiàn)有主客觀分類器的構(gòu)建僅著眼于對問題進(jìn)行訓(xùn)練,然而,有些問題的類別 可能會(huì)存在歧義,即其可能會(huì)因答案的不同而屬于不同的主客觀類別,從而導(dǎo)致最終訓(xùn)練 所得的主客觀分類器的分類準(zhǔn)確率較低。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明的目的在于提供一種主客觀分類器構(gòu)建方法和系統(tǒng),以克服現(xiàn) 有技術(shù)的上述問題,提高主客觀分類器的分類準(zhǔn)確率,進(jìn)而提升問答系統(tǒng)的性能。
[0006] 為此,本發(fā)明公開如下技術(shù)方案:
[0007] -種主客觀分類器構(gòu)建方法,包括:
[0008] 利用預(yù)定個(gè)數(shù)的問題訓(xùn)練樣本對第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練,得到 問題基分類器;
[0009] 利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對第二預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練, 得到答案基分類器,其中,所述答案訓(xùn)練樣本與所述問題訓(xùn)練樣本一一對應(yīng),且一一對應(yīng)的 問題訓(xùn)練樣本與答案訓(xùn)練樣本為具有問答關(guān)系的問答對;
[0010] 依據(jù)預(yù)先設(shè)定的融合規(guī)則,對所述問題基分類器、答案基分類器進(jìn)行融合,得到目 標(biāo)主客觀分類器。
[0011] 上述方法,優(yōu)選的,所述第一預(yù)設(shè)分類算法及所述第二預(yù)設(shè)分類算法為支持向量 機(jī)分類方法,所述融合規(guī)則為貝葉斯融合規(guī)則。
[0012] 上述方法,優(yōu)選的,所述第一預(yù)設(shè)分類算法利用問題訓(xùn)練樣本的一元詞特征對問 題訓(xùn)練樣本進(jìn)行主客觀分類;所述第二預(yù)設(shè)算法利用答案訓(xùn)練樣本的一元詞特征對答案訓(xùn) 練樣本進(jìn)行主客觀分類。
[0013] 上述方法,優(yōu)選的,還包括如下的預(yù)處理過程:
[0014] 抓取第一預(yù)設(shè)數(shù)量的問答對;
[0015] 過濾掉參考價(jià)值較低的問答對,其中參考價(jià)值較低的問答對包括:人工無法判別 問題或答案的主客觀類別的問答對和答非所問、答案無效的問答對;
[0016] 對過濾后所剩余問答對的主客觀類別進(jìn)行人工標(biāo)注,其中,主觀類別問答對的個(gè) 數(shù)與客觀類別問答對的個(gè)數(shù)相同;
[0017] 從已標(biāo)注類別的問答對中選取第二預(yù)設(shè)數(shù)量的問答對作為測試樣本,其余問答對 作為訓(xùn)練樣本,其中,測試樣本及訓(xùn)練樣本中主、客觀類別的問答對數(shù)目相同。
[0018] 上述方法,優(yōu)選的,還包括:
[0019] 利用所述測試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率,并基于所述分類準(zhǔn) 確率評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0020] 上述方法,優(yōu)選的,所述利用測試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率, 并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能包括:
[0021] 利用所述目標(biāo)主客觀分類器,對所述測試樣本進(jìn)行主客觀分類;
[0022] 將利用所述目標(biāo)主客觀分類器分類所得的測試樣本的分類類別與所述測試樣本 的標(biāo)注類別相比對,并獲取分類類別與標(biāo)注類別相同的測試樣本的個(gè)數(shù)^ ;
[0023] 基于式k = &/%,獲取所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k,其中,%表示測試 樣本的總個(gè)數(shù);
[0024] 基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0025] 一種主客觀分類器構(gòu)建系統(tǒng),包括:
[0026] 第一訓(xùn)練模塊,用于利用預(yù)定個(gè)數(shù)的問題訓(xùn)練樣本對第一預(yù)設(shè)分類算法進(jìn)行主、 客觀分類訓(xùn)練,得到問題基分類器;
[0027] 第二訓(xùn)練模塊,用于利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對第二預(yù)設(shè)分類算法進(jìn)行 主、客觀分類訓(xùn)練,得到答案基分類器,其中,所述答案訓(xùn)練樣本與所述問題訓(xùn)練樣本一一 對應(yīng),且一一對應(yīng)的問題訓(xùn)練樣本與答案訓(xùn)練樣本為具有問答關(guān)系的問答對;
[0028] 融合模塊,用于依據(jù)預(yù)先設(shè)定的融合規(guī)則,對所述問題基分類器、答案基分類器進(jìn) 行融合,得到目標(biāo)主客觀分類器。
[0029] 上述系統(tǒng),優(yōu)選的,還包括預(yù)處理模塊,所述預(yù)處理模塊包括:
[0030] 抓取單元,用于抓取第一預(yù)設(shè)數(shù)量的問答對;
[0031] 過濾單元,用于過濾掉參考價(jià)值較低的問答對,其中參考價(jià)值較低的問答對包括 人工無法判別問題或答案的主客觀類別的問答對和答非所問、答案無效的問答對;
[0032] 標(biāo)注單元,用于對過濾后所剩余問答對的主客觀類別進(jìn)行人工標(biāo)注,其中,主觀類 別問答對的個(gè)數(shù)與客觀類別問答對的個(gè)數(shù)相同;
[0033] 選取單元,用于從已標(biāo)注類別的問答對中選取第二預(yù)設(shè)數(shù)量的問答對作為測試樣 本,其余問答對作為訓(xùn)練樣本,其中,測試樣本及訓(xùn)練樣本中主、客觀類別的問答對數(shù)目相 同。
[0034] 上述系統(tǒng),優(yōu)選的,還包括:
[0035] 驗(yàn)證和評(píng)估模塊,用于利用所述測試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確 率,并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0036] 上述系統(tǒng),優(yōu)選的,所述驗(yàn)證和評(píng)估模塊包括:
[0037] 分類單元,用于利用所述目標(biāo)主客觀分類器,對所述的測試樣本進(jìn)行主客觀分 類;
[0038] 比對單元,用于將利用所述目標(biāo)主客觀分類器分類所得的測試樣本的分類類別與 所述測試樣本的標(biāo)注類別相比對,并獲取分類類別與標(biāo)注類別相同的測試樣本的個(gè)數(shù)^ ;
[0039] 計(jì)算單元,用于基于式k = n/rv計(jì)算所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k,其 中,1?表示測試樣本的總個(gè)數(shù);
[0040] 評(píng)估單元,用于基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0041] 由以上方案可知,本發(fā)明公開的主客觀分類器構(gòu)建方法和系統(tǒng),在著眼于對問題 進(jìn)行訓(xùn)練的同時(shí),還著眼于對問題的答案進(jìn)行訓(xùn)練,分別在問題和答案兩類文本上構(gòu)建基 分類器,后續(xù)通過對兩個(gè)基分類器進(jìn)行融合,得到最終的主客觀分類器??梢姡景l(fā)明在主 客觀分類中加入了答案分類,通過結(jié)合答案特征對問題分類進(jìn)行補(bǔ)正、校準(zhǔn),實(shí)現(xiàn)了基于問 題與答案互補(bǔ)的主客觀分類,規(guī)避了因問題訓(xùn)練樣本的歧義性而導(dǎo)致分類器準(zhǔn)確率低的弊 端,提高了利用主客觀分類器對問題進(jìn)行分類的準(zhǔn)確率,進(jìn)而提升了問答系統(tǒng)的性能。
【專利附圖】
【附圖說明】
[0042] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0043] 圖1是本發(fā)明實(shí)施例一公開的主客觀分類器構(gòu)建方法的一種流程圖;
[0044] 圖2是本發(fā)明實(shí)施例一公開的預(yù)處理過程流程圖;
[0045] 圖3是本發(fā)明實(shí)施例二公開的主客觀分類器構(gòu)建方法的另一種流程圖;
[0046] 圖4是本發(fā)明實(shí)施例二公開的四種分類器的分類準(zhǔn)確率曲線對比圖;
[0047] 圖5是本發(fā)明實(shí)施例三公開的主客觀分類器構(gòu)建系統(tǒng)的一種結(jié)構(gòu)示意圖;
[0048] 圖6是本發(fā)明實(shí)施例三公開的主客觀分類器構(gòu)建系統(tǒng)的另一種結(jié)構(gòu)示意圖;
[0049] 圖7是本發(fā)明實(shí)施例三公開的主客觀分類器構(gòu)建系統(tǒng)的又一種結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0050] 為了引用和清楚起見,下文中使用的技術(shù)名詞、簡寫或縮寫總結(jié)解釋如下:
[0051] 主客觀分類:是將文本分為主觀性文本或者客觀性文本的任務(wù)。
[0052] 主觀性文本:是指對于非事實(shí)進(jìn)行描述的文本,在文本中會(huì)帶有發(fā)表者的個(gè)人情 感傾向。例如,"送懷孕班主任什么禮物好?送康乃馨吧"為主觀性文本。
[0053] 客觀性文本:是指作者對于事件、對象等進(jìn)行基于事實(shí)的描述,不帶有個(gè)人的好惡 或偏見等個(gè)人情感傾向。例如,"淘寶從什么時(shí)候開的? 2003年5月10日投資創(chuàng)立"為客 觀性文本。
[0054] -元模型(Unigram):-元詞特征,例如"秦羊奶粉怎么認(rèn)真假"分詞成:'秦'、 '羊'、'奶粉'、'怎么'、'認(rèn)'、'真假'。
[0055] 二元模型(Bigram):二元詞特征,將上述一元詞特征前后兩兩結(jié)合,例如:'秦_ 羊'、'羊_奶粉'、'奶粉_怎么'、'怎么_認(rèn)'、'認(rèn)_真'、'真_假'。
[0056] Unigram+Bigram :在一元詞特征的基礎(chǔ)上,加入二元詞特征,例如"秦羊奶粉怎么 認(rèn)真假"的Unigram+Bigram特征為:'秦'、'羊'......'認(rèn)'、'真假'、'秦_羊'、'羊_奶 粉'……'認(rèn)_真假"從包裝、粉質(zhì)、顏色來辨別"的Unigram+Bigram特征為:'從'、'包 裝'……'來'、'辨別'、'從_包裝'、'包裝_粉質(zhì)'……'來_辨別'。
[0057] 機(jī)器學(xué)習(xí)分類方法(Classification Methods Based on Machine Learning):用 于構(gòu)建分類器的統(tǒng)計(jì)學(xué)習(xí)方法,輸入是表示樣本的向量,輸出是樣本的類別標(biāo)簽。根據(jù)學(xué)習(xí) 算法的不同,常見的分類方法有樸素貝葉斯、最大熵分類方法、支持向量機(jī)等分類方法,本 發(fā)明采用支持向量機(jī)。
[0058] TF向量表示法:即文檔向量的分量為相應(yīng)的單詞在該文檔中出現(xiàn)的頻度。
[0059] 支持向量機(jī)分類方法(SVM):是在統(tǒng)計(jì)理論基礎(chǔ)上發(fā)展起來的一種新的通用學(xué)習(xí) 方法,它在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的近似實(shí)現(xiàn),因?yàn)樗瑫r(shí)是最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和VC維的界。 在主客觀分類任務(wù)中,這種分類方法得到了很大的應(yīng)用,相關(guān)的研究工作非常多。
[0060] 基分類器(Base Classifier):在多分類器系統(tǒng)(Multiple Classifier System)中, 參與的每個(gè)分類器稱為基分類器。
[0061] 融合規(guī)則(Combining Rule):用于融合多個(gè)分類器結(jié)果的方法。
[0062] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0063] 實(shí)施例一
[0064] 本實(shí)施例一公開一種主客觀分類器構(gòu)建方法,參考圖1,所述方法可以包括以下步 驟:
[0065] S101 :利用預(yù)定個(gè)數(shù)的問題訓(xùn)練樣本對第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練, 得到問題基分類器。
[0066] 參考圖2,在執(zhí)行本發(fā)明方法的各個(gè)步驟之前,需首先進(jìn)行如下的預(yù)處理過程: [0067] S201 :抓取第一預(yù)設(shè)數(shù)量的問答對;
[0068] S202 :過濾掉參考價(jià)值較低的問答對,其中參考價(jià)值較低的問答對包括人工無法 判別問題或答案的主客觀類別的問答對和答非所問、答案無效的問答對;
[0069] S203:對過濾后所剩余問答對的主客觀類別進(jìn)行人工標(biāo)注,其中,主觀類別問答對 的個(gè)數(shù)與客觀類別問答對的個(gè)數(shù)相同;
[0070] S204:從已標(biāo)注類別的問答對中選取第二預(yù)設(shè)數(shù)量的問答對作為測試樣本,其余 問答對作為訓(xùn)練樣本,其中,測試樣本及訓(xùn)練樣本中主、客觀類別的問答對數(shù)目相同。
[0071] 具體地,本實(shí)施例通過網(wǎng)絡(luò)爬蟲程序從百度知道生活類別中抓取15000對高懸賞 的問答對,并基于如下原因過濾掉其中的一些問答對:
[0072] a、不少問題的答案太過簡短,人工無法判別其主客觀類別;
[0073] b、許多問題答非所問,導(dǎo)致答案無效;
[0074] c、一些問答對的內(nèi)容抓取不全,導(dǎo)致難以判別其主客觀類別。
[0075] 最終篩選出1300對參考價(jià)值較高的問答對,并對其進(jìn)行主客觀類別的人工標(biāo)注, 其中,1300對問答對中,主、客觀問答對的數(shù)目分別為650對。在此基礎(chǔ)上,從1300對問答 對中選出1000對作為訓(xùn)練樣本(500對主觀、500對客觀),其中,1000對問答對中的1000 條問題用于作為問題訓(xùn)練樣本,1000條答案用于作為答案訓(xùn)練樣本;而剩余的300對問答 對作為測試樣本(150對主觀、150對客觀)。
[0076] 本實(shí)施例中,語料標(biāo)注具體由兩位不同標(biāo)注者參與。在實(shí)際標(biāo)注過程中,不同的標(biāo) 注者對語料主客觀類別的標(biāo)注可能存在不一致性,即不同標(biāo)注者可能會(huì)對相同語料有不同 的標(biāo)注結(jié)果,具體地,諸如受人工失誤、理解偏差,或語料的類別本身存在歧義等各種因素 的影響,均可導(dǎo)致標(biāo)注不一致現(xiàn)象的產(chǎn)生,參考表1,表1即提供了不同標(biāo)注者標(biāo)注不一致 的示例。
[0077] 表 1
[0078]
【權(quán)利要求】
1. 一種主客觀分類器構(gòu)建方法,其特征在于,包括: 利用預(yù)定個(gè)數(shù)的問題訓(xùn)練樣本對第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練,得到問題 基分類器; 利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對第二預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練,得到 答案基分類器,其中,所述答案訓(xùn)練樣本與所述問題訓(xùn)練樣本一一對應(yīng),且一一對應(yīng)的問題 訓(xùn)練樣本與答案訓(xùn)練樣本為具有問答關(guān)系的問答對; 依據(jù)預(yù)先設(shè)定的融合規(guī)則,對所述問題基分類器、答案基分類器進(jìn)行融合,得到目標(biāo)主 客觀分類器。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一預(yù)設(shè)分類算法及所述第二預(yù)設(shè) 分類算法為支持向量機(jī)分類方法,所述融合規(guī)則為貝葉斯融合規(guī)則。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一預(yù)設(shè)分類算法利用問題訓(xùn)練樣 本的一元詞特征對問題訓(xùn)練樣本進(jìn)行主客觀分類;所述第二預(yù)設(shè)算法利用答案訓(xùn)練樣本的 一元詞特征對答案訓(xùn)練樣本進(jìn)行主客觀分類。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括如下的預(yù)處理過程: 抓取第一預(yù)設(shè)數(shù)量的問答對; 過濾掉參考價(jià)值較低的問答對,其中參考價(jià)值較低的問答對包括:人工無法判別問題 或答案的主客觀類別的問答對和答非所問、答案無效的問答對; 對過濾后所剩余問答對的主客觀類別進(jìn)行人工標(biāo)注,其中,主觀類別問答對的個(gè)數(shù)與 客觀類別問答對的個(gè)數(shù)相同; 從已標(biāo)注類別的問答對中選取第二預(yù)設(shè)數(shù)量的問答對作為測試樣本,其余問答對作為 訓(xùn)練樣本,其中,測試樣本及訓(xùn)練樣本中主、客觀類別的問答對數(shù)目相同。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,還包括: 利用所述測試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率,并基于所述分類準(zhǔn)確率 評(píng)估所述目標(biāo)主客觀分類器的分類性能。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述利用測試樣本驗(yàn)證所述目標(biāo)主客觀 分類器的分類準(zhǔn)確率,并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能包 括: 利用所述目標(biāo)主客觀分類器,對所述測試樣本進(jìn)行主客觀分類; 將利用所述目標(biāo)主客觀分類器分類所得的測試樣本的分類類別與所述測試樣本的標(biāo) 注類別相比對,并獲取分類類別與標(biāo)注類別相同的測試樣本的個(gè)數(shù)^ ; 基于式k = n/rv獲取所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k,其中,%表示測試樣本 的總個(gè)數(shù); 基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
7. -種主客觀分類器構(gòu)建系統(tǒng),其特征在于,包括: 第一訓(xùn)練模塊,用于利用預(yù)定個(gè)數(shù)的問題訓(xùn)練樣本對第一預(yù)設(shè)分類算法進(jìn)行主、客觀 分類訓(xùn)練,得到問題基分類器; 第二訓(xùn)練模塊,用于利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對第二預(yù)設(shè)分類算法進(jìn)行主、 客觀分類訓(xùn)練,得到答案基分類器,其中,所述答案訓(xùn)練樣本與所述問題訓(xùn)練樣本一一對 應(yīng),且一一對應(yīng)的問題訓(xùn)練樣本與答案訓(xùn)練樣本為具有問答關(guān)系的問答對; 融合模塊,用于依據(jù)預(yù)先設(shè)定的融合規(guī)則,對所述問題基分類器、答案基分類器進(jìn)行融 合,得到目標(biāo)主客觀分類器。
8. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括預(yù)處理模塊,所述預(yù)處理模塊包 括: 抓取單元,用于抓取第一預(yù)設(shè)數(shù)量的的問答對; 過濾單元,用于過濾掉參考價(jià)值較低的問答對,其中參考價(jià)值較低的問答對包括人工 無法判別問題或答案的主客觀類別的問答對和答非所問、答案無效的問答對; 標(biāo)注單元,用于對過濾后所剩余問答對的主客觀類別進(jìn)行人工標(biāo)注,其中,主觀類別問 答對的個(gè)數(shù)與客觀類別問答對的個(gè)數(shù)相同; 選取單元,用于從已標(biāo)注類別的問答對中選取第二預(yù)設(shè)數(shù)量的問答對作為測試樣本, 其余問答對作為訓(xùn)練樣本,其中,測試樣本及訓(xùn)練樣本中主、客觀類別的問答對數(shù)目相同。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,還包括: 驗(yàn)證和評(píng)估模塊,用于利用所述測試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率, 并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述驗(yàn)證和評(píng)估模塊包括: 分類單元,用于利用所述目標(biāo)主客觀分類器,對所述的測試樣本進(jìn)行主客觀分類; 比對單元,用于將利用所述目標(biāo)主客觀分類器分類所得的測試樣本的分類類別與所述 測試樣本的標(biāo)注類別相比對,并獲取分類類別與標(biāo)注類別相同的測試樣本的個(gè)數(shù)^ ; 計(jì)算單元,用于基于式k = h/rv計(jì)算所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k,其中,% 表示測試樣本的總個(gè)數(shù); 評(píng)估單元,用于基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
【文檔編號(hào)】G06F17/28GK104268134SQ201410508281
【公開日】2015年1月7日 申請日期:2014年9月28日 優(yōu)先權(quán)日:2014年9月28日
【發(fā)明者】李壽山, 張棟, 周國棟 申請人:蘇州大學(xué)