基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法

文檔序號(hào)：6510520閱讀：170來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法
【專利摘要】本發(fā)明公開了一種基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法，按照三個(gè)大步驟實(shí)施：I、從源數(shù)據(jù)集中篩選實(shí)例階段。首先，定義了評(píng)價(jià)函數(shù)，確定了共有特征集中代表實(shí)例并且傾向于少數(shù)類的特征集；其次，以余弦相似度排序篩選得到源數(shù)據(jù)集實(shí)例；II、實(shí)例特征向量空間一致性處理階段。采用以相似度為權(quán)值合成實(shí)例的特征向量空間，使其與目標(biāo)實(shí)例的特征向量空間一致；III、合并獲取的實(shí)例和目標(biāo)數(shù)據(jù)集實(shí)例階段。將獲取的實(shí)例歸入到目標(biāo)數(shù)據(jù)集中，共同訓(xùn)練分類器模型。
【專利說明】基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種用于信息檢索、抽取與管理的自然語言處理技術(shù)，特別是面向一種互聯(lián)網(wǎng)交互式文本話題的識(shí)別方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展，基于交互式文本的網(wǎng)絡(luò)應(yīng)用不斷涌現(xiàn)，如直播課堂、網(wǎng)絡(luò)答疑聊天室、社群討論等典型的交互文本應(yīng)用場景。這些真實(shí)場景產(chǎn)生的交互文本一般呈現(xiàn)著話題類別分布非平衡的性質(zhì)，分類器在訓(xùn)練模型時(shí)常忽略少數(shù)類，使得少數(shù)類話題的識(shí)別精度普遍偏低。針對(duì)非平衡交互文本，如何克服其非平衡性，提高少數(shù)類話題的識(shí)別精度是一個(gè)重要的工作。申請(qǐng)人:經(jīng)過查新，未檢索到與本發(fā)明相關(guān)的專利文獻(xiàn)。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的是提供一種解決交互文本的非平衡性問題、可提高少數(shù)類話題識(shí)別精度的互聯(lián)網(wǎng)話題識(shí)別方法。
[0004]為達(dá)到以上目的，本發(fā)明是采取如下技術(shù)方案予以實(shí)現(xiàn)的:
[0005]一種基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法，包括如下步驟:
[0006]1、一種基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法，其特征在于:包括如下步驟:
[0007]第一步:從源數(shù)據(jù)集中篩選實(shí)例階段:
[0008](I)確定共有特征集中代表實(shí)例的特征集，即從源數(shù)據(jù)集DsetS()U_和目標(biāo)數(shù)據(jù)集Dsetlarget的共有特征集中選擇代表實(shí)例并且傾向于少數(shù)類的特征集，具體算法為:
[0009]Stepl:按照label空間所有類別計(jì)算Fs_e和Ftoget各特征的信息增益值InformationGain,并將計(jì)算結(jié)果分別按降序排列各數(shù)據(jù)集特征，排序后的特征集如下:
[0010]Fsource- {fSource (I)，fsource ⑵，…，fsource ⑴，…，fSource (?) } J I ≤ I≤ R:
[0011]FTarget-{fTarget ⑴，fTarget (2)，…，fjarget (j)，…，fTarget (?) ≤J I≤ j ≤R2
[0012]其中，fs_Ji)是Fstjuree中排序?yàn)榈趇個(gè)位置的特征，fTarget (j)是Ftoget中排序?yàn)榈趈個(gè)位置的特征，R1為Fs_中特征的總個(gè)數(shù)，R2為Ftogrt中特征的總個(gè)數(shù)。各特征是特征詞詞典中的詞，特征值為在類標(biāo)簽空間label下，采用TF-1DF算法獲得的各特征值；
[0013]St印2 =^F=Fsource H Flarget= Φ成立，則，所提算法終止，實(shí)例獲取失敗；否則，有F⑴e F，其中，F(xiàn)⑴為共有特征集F中第I個(gè)特征，I≤I≤M，M^miniR1, R2}，且定義有M個(gè)元素的數(shù)組TopN_IGratio,同時(shí)，設(shè)TopN_IGratio (m)表示數(shù)組TopN_IGratio的第m個(gè)元素中存儲(chǔ)的值；
[0014]Step3:確定共有特征F (m)在Fsmnxe中的位置n_Source,形成特征與位置對(duì)(n_Source, F(I)),并按照n_source的值升序排列所有特征與位置對(duì)，并記最大的位置n_source為MAX_n_source ;確定共有特征F (m)在FTmget中的位置n_Target,形成特征與位置對(duì)(n_Target，F(xiàn) (I))，并按照n_Target的值升序排列所有特征與位置對(duì)，并記最大的位置n—Target為ΜΑΧ—η—Target ;將升序排序后的特征與位置對(duì)(n—source，F(xiàn)(I))放入新生產(chǎn)的二維數(shù)組Loeation中，且Location (m，col)表示Location中第m行第col列的元素，且I ^ m ^ M ^ R1Col=U, 2} ;If MAX—n—Target>Max—n—source 則，令 Location (M，I) =MAX_n_Target，令 m=l
[0015]Step4:N=Location (m, 2), N ^ R1 ；
[0016]Step5:在DSets_e和Dsettoget的前N個(gè)特征中進(jìn)行匹配，得到共有特征的子集Fs(Hi)，并設(shè)Fs(m)的元素個(gè)數(shù)為np，計(jì)算以下評(píng)價(jià)函數(shù):
[0017]
【權(quán)利要求】
1.一種基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法，其特征在于:包括如下步驟: 第一步:從源數(shù)據(jù)集中篩選實(shí)例階段: (I)確定共有特征集中代表實(shí)例的特征集，即從源數(shù)據(jù)集Dsetswra和目標(biāo)數(shù)據(jù)集Dsetlarget的共有特征集中選擇代表實(shí)例并且傾向于少數(shù)類的特征集，具體算法為: Step:按照label空間所有類別計(jì)算FSw_和Ftogrt各特征的信息增益值InformationGain,并將計(jì)算結(jié)果分別按降序排列各數(shù)據(jù)集特征，排序后的特征集如下:
2.如權(quán)利要求1所述的基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法，其特征在于:所述第三步的合并獲取的實(shí)例和目標(biāo)數(shù)據(jù)集實(shí)例的具體過程為: Stepl:)|# Dsetlnstance中的實(shí)例與Dsettoget的實(shí)例合并，形成新的數(shù)據(jù)集DsetNew,包括H個(gè)實(shí)例，實(shí)例的構(gòu)成如下:
DsetNew(h) = {fNew(l),…，fNew, (i),…，fNew (G), label (h)}, I ≤ i ≤ G, I ≤ h ≤ H
其中:G為實(shí)例向量的特征維數(shù)；fNew(i)為特征值；label (h)為第h個(gè)實(shí)例的類標(biāo)簽；
Step2:在DsetNew上采用線性核函數(shù)的SVM分類器訓(xùn)練模型model ； Step3:調(diào)用訓(xùn)練得到的model，在測試數(shù)據(jù)集上完成話題分類任務(wù)。
【文檔編號(hào)】G06F17/30GK103500159SQ201310403755
【公開日】2014年1月8日申請(qǐng)日期:2013年9月6日優(yōu)先權(quán)日:2013年9月6日
【發(fā)明者】田鋒, 高鵬達(dá), 鄭慶華, 吳凡申請(qǐng)人:西安交通大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：田鋒;高鵬達(dá);鄭慶華;吳凡
技術(shù)所有人：西安交通大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于實(shí)例獲取的非平衡交互文本的話題識(shí)別方法