基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法
【專利摘要】本發(fā)明公開了一種基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法,按照三個(gè)大步驟實(shí)施:I、從源數(shù)據(jù)集中篩選實(shí)例階段。首先,定義了評(píng)價(jià)函數(shù),確定了共有特征集中代表實(shí)例并且傾向于少數(shù)類的特征集;其次,以余弦相似度排序篩選得到源數(shù)據(jù)集實(shí)例;II、實(shí)例特征向量空間一致性處理階段。采用以相似度為權(quán)值合成實(shí)例的特征向量空間,使其與目標(biāo)實(shí)例的特征向量空間一致;III、合并獲取的實(shí)例和目標(biāo)數(shù)據(jù)集實(shí)例階段。將獲取的實(shí)例歸入到目標(biāo)數(shù)據(jù)集中,共同訓(xùn)練分類器模型。
【專利說明】基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種用于信息檢索、抽取與管理的自然語言處理技術(shù),特別是面向一種互聯(lián)網(wǎng)交互式文本話題的識(shí)別方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展,基于交互式文本的網(wǎng)絡(luò)應(yīng)用不斷涌現(xiàn),如直播課堂、網(wǎng)絡(luò)答疑聊天室、社群討論等典型的交互文本應(yīng)用場景。這些真實(shí)場景產(chǎn)生的交互文本一般呈現(xiàn)著話題類別分布非平衡的性質(zhì),分類器在訓(xùn)練模型時(shí)常忽略少數(shù)類,使得少數(shù)類話題的識(shí)別精度普遍偏低。針對(duì)非平衡交互文本,如何克服其非平衡性,提高少數(shù)類話題的識(shí)別精度是一個(gè)重要的工作。 申請(qǐng)人:經(jīng)過查新,未檢索到與本發(fā)明相關(guān)的專利文獻(xiàn)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是提供一種解決交互文本的非平衡性問題、可提高少數(shù)類話題識(shí)別精度的互聯(lián)網(wǎng)話題識(shí)別方法。
[0004]為達(dá)到以上目的,本發(fā)明是采取如下技術(shù)方案予以實(shí)現(xiàn)的:
[0005]一種基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法,包括如下步驟:
[0006]1、一種基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法,其特征在于:包括如下步驟:
[0007]第一步:從源數(shù)據(jù)集中篩選實(shí)例階段:
[0008](I)確定共有特征集中代表實(shí)例的特征集,即從源數(shù)據(jù)集DsetS()U_和目標(biāo)數(shù)據(jù)集Dsetlarget的共有特征集中選擇代表實(shí)例并且傾向于少數(shù)類的特征集,具體算法為:
[0009]Stepl:按照label空間所有類別計(jì)算Fs_e和Ftoget各特征的信息增益值InformationGain,并將計(jì)算結(jié)果分別按降序排列各數(shù)據(jù)集特征,排序后的特征集如下:
[0010]Fsource- {fSource (I),fsource ⑵,…,fsource ⑴,…,fSource (?) } J I ≤ I≤ R:
[0011]FTarget-{fTarget ⑴,fTarget (2),…,fjarget (j),…,fTarget (?) ≤J I≤ j ≤R2
[0012]其中,fs_Ji)是Fstjuree中排序?yàn)榈趇個(gè)位置的特征,fTarget (j)是Ftoget中排序?yàn)榈趈個(gè)位置的特征,R1為Fs_中特征的總個(gè)數(shù),R2為Ftogrt中特征的總個(gè)數(shù)。各特征是特征詞詞典中的詞,特征值為在類標(biāo)簽空間label下,采用TF-1DF算法獲得的各特征值;
[0013]St印2 =^F=Fsource H Flarget= Φ成立,則,所提算法終止,實(shí)例獲取失敗;否則,有F⑴e F,其中,F(xiàn)⑴為共有特征集F中第I個(gè)特征,I≤I≤M,M^miniR1, R2},且定義有M個(gè)元素的數(shù)組TopN_IGratio,同時(shí),設(shè)TopN_IGratio (m)表示數(shù)組TopN_IGratio的第m個(gè)元素中存儲(chǔ)的值;
[0014]Step3:確定共有特征F (m)在Fsmnxe中的位置n_Source,形成特征與位置對(duì)(n_Source, F(I)),并按照n_source的值升序排列所有特征與位置對(duì),并記最大的位置n_source為MAX_n_source ;確定共有特征F (m)在FTmget中的位置n_Target,形成特征與位置對(duì)(n_Target,F(xiàn) (I)),并按照n_Target的值升序排列所有特征與位置對(duì),并記最大的位置n—Target為ΜΑΧ—η—Target ;將升序排序后的特征與位置對(duì)(n—source,F(xiàn)(I))放入新生產(chǎn)的二維數(shù)組Loeation中,且Location (m,col)表示Location中第m行第col列的元素,且I ^ m ^ M ^ R1Col=U, 2} ;If MAX—n—Target>Max—n—source 則,令 Location (M,I) =MAX_n_Target,令 m=l
[0015]Step4:N=Location (m, 2), N ^ R1 ;
[0016]Step5:在DSets_e和Dsettoget的前N個(gè)特征中進(jìn)行匹配,得到共有特征的子集Fs(Hi),并設(shè)Fs(m)的元素個(gè)數(shù)為np,計(jì)算以下評(píng)價(jià)函數(shù):
[0017]
【權(quán)利要求】
1.一種基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法,其特征在于:包括如下步驟: 第一步:從源數(shù)據(jù)集中篩選實(shí)例階段: (I)確定共有特征集中代表實(shí)例的特征集,即從源數(shù)據(jù)集Dsetswra和目標(biāo)數(shù)據(jù)集Dsetlarget的共有特征集中選擇代表實(shí)例并且傾向于少數(shù)類的特征集,具體算法為: Step:按照label空間所有類別計(jì)算FSw_和Ftogrt各特征的信息增益值InformationGain,并將計(jì)算結(jié)果分別按降序排列各數(shù)據(jù)集特征,排序后的特征集如下:
2.如權(quán)利要求1所述的基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法,其特征在于:所述第三步的合并獲取的實(shí)例和目標(biāo)數(shù)據(jù)集實(shí)例的具體過程為: Stepl:)|# Dsetlnstance中的實(shí)例與Dsettoget的實(shí)例合并,形成新的數(shù)據(jù)集DsetNew,包括H個(gè)實(shí)例,實(shí)例的構(gòu)成如下:
DsetNew(h) = {fNew(l),…,fNew, (i),…,fNew (G), label (h)}, I ≤ i ≤ G, I ≤ h ≤ H
其中:G為實(shí)例向量的特征維數(shù);fNew(i)為特征值;label (h)為第h個(gè)實(shí)例的類標(biāo)簽;
Step2:在DsetNew上采用線性核函數(shù)的SVM分類器訓(xùn)練模型model ; Step3:調(diào)用訓(xùn)練得到的model,在測試數(shù)據(jù)集上完成話題分類任務(wù)。
【文檔編號(hào)】G06F17/30GK103500159SQ201310403755
【公開日】2014年1月8日 申請(qǐng)日期:2013年9月6日 優(yōu)先權(quán)日:2013年9月6日
【發(fā)明者】田鋒, 高鵬達(dá), 鄭慶華, 吳凡 申請(qǐng)人:西安交通大學(xué)