一種文本主題檢測方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明適用計(jì)算機(jī)技術(shù)領(lǐng)域,提供了一種文本主題檢測方法及系統(tǒng),該方法包括:使用LDA模型對輸入的目標(biāo)文本進(jìn)行訓(xùn)練,以得到目標(biāo)文本中各個詞語與主題之間的初始分配,將預(yù)先獲取的外部語料的詞嵌入設(shè)置為目標(biāo)文本的詞嵌入的初始值,根據(jù)得到的初始分配,使用模型對目標(biāo)文本進(jìn)行訓(xùn)練,以得到目標(biāo)文本的詞嵌入和主題向量,根據(jù)獲取的初始分配、目標(biāo)文本的詞嵌入和主題向量,對目標(biāo)文本中包括的每篇文檔進(jìn)行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的主題檢測步驟,以得到目標(biāo)文本所涉及的主題,從而可保證學(xué)習(xí)到的詞嵌入和主題向量語義更強(qiáng),與其他詞語之間的聯(lián)系也更緊密,有效提高了主題識別的準(zhǔn)確率。
【專利說明】
一種文本主題檢測方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種文本主題檢測方法及系統(tǒng)。
【背景技術(shù)】
[0002] 主題檢測的主要目標(biāo)是通過對大量的文本集合進(jìn)行分析、處理,從中發(fā)現(xiàn)隱含的 語義結(jié)構(gòu),以鑒別其所討論的內(nèi)容。近年來,隨著現(xiàn)代網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展、web 2.0應(yīng)用的 普及,網(wǎng)絡(luò)媒體逐漸成為了民眾發(fā)表觀點(diǎn)、表達(dá)意見的公眾平臺,網(wǎng)絡(luò)上集聚的信息也已呈 現(xiàn)爆炸式的增長趨勢,面對海量的數(shù)據(jù),如何有效地對其內(nèi)容進(jìn)行組織、整理、挖掘和分析, 以準(zhǔn)確識別出其中包含的主題信息,對于各行各業(yè)的人及時了解大眾訴求,掌握市場態(tài)勢, 以及發(fā)現(xiàn)未然危機(jī)起著舉足輕重的作用。
[0003] 目前,大部分主題檢測都是基于概率主題模型而展開,其基本結(jié)構(gòu)為潛在狄利克 雷分布(Latent Dirichlet Allocation,LDA)模型,但該類方法大多只是從數(shù)據(jù)本身的屬 性出發(fā),以詞為基本特征,基于詞共現(xiàn)統(tǒng)計(jì)進(jìn)行主題概率計(jì)算,每個詞都被看作是一個單一 的實(shí)體,各詞語、語句之間語義層面的聯(lián)系考慮較少,難以滿足實(shí)際應(yīng)用的需要。為了對LDA 模型的檢測效果進(jìn)行改善,基于詞嵌入的LDA模型(簡稱:LFLDA)被提出,然而,該模型中的 詞嵌入的質(zhì)量完全依賴于外部語料,因而無法保證該詞嵌入與當(dāng)前訓(xùn)練文本中詞語的詞義 表達(dá)保持高度一致,從而導(dǎo)致主題識別準(zhǔn)確率不高。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于提供一種文本主題檢測方法及系統(tǒng),旨在解決現(xiàn)有技術(shù)的文本 主題識別準(zhǔn)確率不高的問題。
[0005] -方面,本發(fā)明提供了一種文本主題檢測方法,所述方法包括下述步驟:
[0006] 使用LDA模型對輸入的目標(biāo)文本進(jìn)行訓(xùn)練,以得到所述目標(biāo)文本中各個詞語與主 題之間的初始分配;
[0007] 將預(yù)先獲取的外部語料的詞嵌入設(shè)置為所述目標(biāo)文本的詞嵌入的初始值;
[0008] 根據(jù)所述得到的初始分配,使用模壟
對所述目標(biāo)文本進(jìn)行訓(xùn)練,以獲得所述目標(biāo)文本的詞嵌入和主題向量,其中,V表示所述目 標(biāo)文本對應(yīng)的詞典中詞語總個數(shù),c表示所述模型L中滑動窗口的大小,^為訓(xùn)練目標(biāo)詞, Wi+j為Wi的窗口詞,ti為詞Wi對應(yīng)的主題表示;
[0009] 根據(jù)所述初始分配、所述目標(biāo)文本的詞嵌入和主題向量,對所述目標(biāo)文本中包括 的每篇文檔進(jìn)行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的主題檢測步驟,以得到所述 目標(biāo)文本所涉及的主題。
[0010] 另一方面,本發(fā)明提供了一種文本主題檢測系統(tǒng),所述系統(tǒng)包括:
[0011] 第一訓(xùn)練單元,用于使用LDA模型對輸入的目標(biāo)文本進(jìn)行訓(xùn)練,以得到所述目標(biāo)文 本中各個詞語與主題之間的初始分配;
[0012] 值設(shè)置單元,用于將預(yù)先獲取的外部語料的詞嵌入設(shè)置為所述目標(biāo)文本的詞嵌入 的初始值;
[0013] 第二訓(xùn)練單元,用于根據(jù)所述得至啲初始分配,使用模型
+ log p(叼| ?7)]對所述目標(biāo)文本進(jìn)行訓(xùn)練,以獲得所述目標(biāo)文本的詞嵌入和主題向量, 其中,V表示所述目標(biāo)文本對應(yīng)的詞典中詞語總個數(shù),c表示所述模型L中滑動窗口的大小, Wi為訓(xùn)練目標(biāo)詞,Wi+j為Wi的窗口詞,ti為詞Wi對應(yīng)的主題表示;以及
[0014] 主題獲取單元,用于根據(jù)所述初始分配、所述目標(biāo)文本的詞嵌入和主題向量,對所 述目標(biāo)文本中包括的每篇文檔進(jìn)行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的主題檢測 步驟,以得到所述目標(biāo)文本所涉及的主題。
[0015] 在本發(fā)明實(shí)施例中,利用模型L同時對詞嵌入和主題向量進(jìn)行訓(xùn)練,并且在此訓(xùn)練 過程中引入外部擴(kuò)展語料對目標(biāo)文本的詞嵌入進(jìn)行初始化,從而可保證訓(xùn)練得到的詞嵌入 和主題向量語義更強(qiáng),與其他詞語之間的聯(lián)系也更緊密,有效提高了文本主題識別的準(zhǔn)確 率。
【附圖說明】
[0016] 圖1是本發(fā)明實(shí)施例一提供的文本主題檢測方法的實(shí)現(xiàn)流程圖;
[0017] 圖2是本發(fā)明實(shí)施例二提供的文本主題檢測方法的實(shí)現(xiàn)流程圖;
[0018] 圖3是本發(fā)明實(shí)施例三提供的文本主題檢測系統(tǒng)的結(jié)構(gòu)示意圖;
[0019] 圖4是本發(fā)明實(shí)施例四提供的文本主題檢測系統(tǒng)的結(jié)構(gòu)示意圖;以及
[0020] 圖5是本發(fā)明實(shí)施例四提供的文本主題檢測系統(tǒng)中主題獲取單元的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0021] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0022] 以下結(jié)合具體實(shí)施例對本發(fā)明的具體實(shí)現(xiàn)進(jìn)行詳細(xì)描述:
[0023] 實(shí)施例一:
[0024] 圖1示出了本發(fā)明實(shí)施例一提供的文本主題檢測方法的實(shí)現(xiàn)流程,為了便于說明, 僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,詳述如下:
[0025]在步驟S101中,使用LDA模型對輸入的目標(biāo)文本進(jìn)行訓(xùn)練,以得到目標(biāo)文本中各個 詞語與主題之間的初始分配。
[0026]在本發(fā)明實(shí)施例中,目標(biāo)文本可以是公用的傳統(tǒng)主題檢測數(shù)據(jù)樣本,也可以為來 自網(wǎng)絡(luò)的微博、博客、論壇等社會媒體數(shù)據(jù)文檔。當(dāng)然,在獲取后這些文檔后,應(yīng)對這些文檔 進(jìn)行預(yù)處理,例如,分詞、去停用詞、高低頻詞以及非法字符等,以得到本發(fā)明實(shí)施例中的目 標(biāo)文本。之后,通過LDA模型對待檢測的目標(biāo)文本進(jìn)行訓(xùn)練,以得到文本中各個詞與主題之 間的初始分配,即將詞語分配到對應(yīng)的主題下。
[0027]在步驟S102中,將預(yù)先獲取的外部語料的詞嵌入設(shè)置為目標(biāo)文本的詞嵌入的初始 值。
[0028] 在本發(fā)明實(shí)施例中,外部擴(kuò)展語料可作為目標(biāo)文本對應(yīng)的原始數(shù)據(jù)的語義補(bǔ)充, 使用預(yù)設(shè)詞嵌入訓(xùn)練程序?qū)Λ@取的外部擴(kuò)展語料進(jìn)行預(yù)訓(xùn)練,以得到外部擴(kuò)展語料中各個 詞語的詞嵌入,進(jìn)而利用得到的詞嵌入對目標(biāo)文本的詞嵌入進(jìn)行初始化。
[0029] 具體地,外部語料應(yīng)盡可能地包含目標(biāo)文本中的所有詞語,這樣,可保證目標(biāo)文本 中的每個詞都能從外部語料獲取一個初始的詞嵌入作為該詞語義和詞義的補(bǔ)充,用于進(jìn)一 步學(xué)習(xí)詞嵌入和主題向量。優(yōu)選地,外部擴(kuò)展語料為維基百科或百度百科,從而得到提高詞 嵌入訓(xùn)練的效率。優(yōu)選地,預(yù)設(shè)的詞嵌入訓(xùn)練程序?yàn)閣ord2 vec或者GloVe工具,從而簡化詞 嵌入的訓(xùn)練過程,提高訓(xùn)練速度,保證了訓(xùn)練結(jié)果的穩(wěn)定性。
[0030] 在步驟S103中,根據(jù)得到的初始分配,使用模型
+ log p(^+, | G)]對目標(biāo)文本進(jìn)行訓(xùn)練,以得到目標(biāo)文本的詞嵌入和主題向量。
[0031] 在本發(fā)明實(shí)施例中,V表示目標(biāo)文本對應(yīng)的詞典中詞語總個數(shù),c表示模型L中滑動 窗口的大小,Wi為訓(xùn)練目標(biāo)詞,Wi+j為Wi的窗口詞,ti為詞Wi對應(yīng)的主題表示。具體地,在目標(biāo) 文本進(jìn)行訓(xùn)練時,若模型L取得最大值,則可對應(yīng)地得到目標(biāo)文本的詞嵌入和主題向量。
[0032] 在本發(fā)明實(shí)施例中,使用于模型L對目標(biāo)文本進(jìn)行訓(xùn)練,可同時對目標(biāo)文本的詞嵌 入和主題向量進(jìn)行訓(xùn)練,實(shí)現(xiàn)了 word2vec的Skip-gram模型的改進(jìn),既可以保證訓(xùn)練的時間 復(fù)雜度不會明顯增加,又能得到包含一定語義和語法信息的詞嵌入和主題向量。
[0033] 在步驟S104中,根據(jù)獲取的初始分配、目標(biāo)文本的詞嵌入和主題向量,對目標(biāo)文本 中包括的每篇文檔進(jìn)行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的主題檢測步驟,以得 到目標(biāo)文本所涉及的主題。
[0034] 在本發(fā)明實(shí)施例中,目標(biāo)文本可以看成是由多篇文檔組成,多篇文檔可以涉及相 同或不同的主題。具體在獲取目標(biāo)文本所涉及的主題時,根據(jù)前述步驟中獲取的初始分配、 目標(biāo)文本的詞嵌入和主題向量對目標(biāo)文本中包括的每篇文檔進(jìn)行掃描,對掃描到的每個訓(xùn) 練目標(biāo)詞執(zhí)行預(yù)設(shè)的主題檢測步驟。
[0035] 在本發(fā)明實(shí)施例中,利用模型L同時對詞嵌入和主題向量進(jìn)行訓(xùn)練,并且在此訓(xùn)練 過程中引入外部擴(kuò)展語料對目標(biāo)文本的詞嵌入進(jìn)行初始化,從而可保證訓(xùn)練得到的詞嵌入 和主題向量語義更強(qiáng),與其他詞語之間的聯(lián)系也更緊密,有效了提高主題識別的準(zhǔn)確率。
[0036] 實(shí)施例二:
[0037] 圖2示出了本發(fā)明實(shí)施例一提供的文本主題檢測方法中主題檢測步驟的實(shí)現(xiàn)流 程,為了便于說明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,詳述如下:
[0038] 在步驟S201 中,根據(jù)公式p(\./= tlz':,+ a MS,。p + (1 - 計(jì)算訓(xùn)練目標(biāo)詞在每個主題下分配的概率,為所述訓(xùn)練目標(biāo)詞采樣主題。
[0039] 在本發(fā)明實(shí)施例中,該公式從向量和詞頻統(tǒng)計(jì)的角度,綜合考慮兩種不同表示方 式下的分布函數(shù):主題向量-詞嵌入和LDA模型中主題-詞的條件概率分布,來共同為訓(xùn)練目 標(biāo)詞采樣主題。詞嵌入富含豐富的語義和詞義信息,可以有效捕捉到詞語之間、詞語與主題 之間的內(nèi)在聯(lián)系,因而兩者結(jié)合能有效彌補(bǔ)傳統(tǒng)基于詞頻統(tǒng)計(jì)的話題檢測方法因語義不足 而導(dǎo)致的識別準(zhǔn)確率低的缺陷。
[0040] 在本發(fā)明實(shí)施例中,為訓(xùn)練目標(biāo)詞采樣主題是指將目標(biāo)詞分配到最相關(guān)的主題 中,其中表示文檔d中的第i個詞《^在當(dāng)前文檔中采樣得到的文檔-主題的分布,t表示 主題,m〃,i表示除當(dāng)前文檔外,詞w<u的主題分布,表示詞Wd,^應(yīng)的詞嵌入,w<u表示 文檔d中的第i個詞,^表示主題t對應(yīng)的主題向量,乂,為二值變量,服從以λ為先驗(yàn)的伯努 利分布,表示除當(dāng)前文檔外,第i個詞所在的文檔d被分配到主題t的次數(shù),α表示文檔-主題分布的Dirichlet先驗(yàn)超參數(shù),ρ表示主題向量-詞嵌入的分布,q表示LDA模型中的主 題-詞分布。
[0041 ] 具體地
其中W表示詞典中所有詞語構(gòu) 成的集合,表示詞典中的每一個詞,表示訓(xùn)練目標(biāo)詞w對應(yīng)的詞嵌入,表示詞典中的 詞對應(yīng)的詞嵌入表示,β表示主題-詞分布的Dirichlet先驗(yàn)超參數(shù),V表示詞典的大小, 表示除文檔d中的第i個詞外,主題t下分配到的總詞數(shù),表示文檔d中的第i個詞 、被分配到主題t的次數(shù),不包含當(dāng)前分配。
[0042] 在步驟S202中,最小化主題和訓(xùn)練目標(biāo)詞的概率分布、以及LDA模型下主題和訓(xùn)練 目標(biāo)詞的概率分布的KL散度,以得到訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和訓(xùn)練目標(biāo)詞與主題之間的 分布。
[0043] -般說來,詞嵌入特征表達(dá)訓(xùn)練得到的主題-詞分布,與主題模型得到的主題-詞 分布雖然表達(dá)方式不同,但兩者需符合一個基本的準(zhǔn)則:兩種表達(dá)方式下得到的目標(biāo)文本 在語義或主題上應(yīng)盡可能地接近。因此,本發(fā)明實(shí)施例以最小化兩者概率分布的KL散度 (Kullback Leibler divergence)為目標(biāo)來共同訓(xùn)練詞嵌入并識別主題。在本發(fā)明實(shí)施例 中,最小化主題和訓(xùn)練目標(biāo)詞的概率分布、以及LDA模型下主題和訓(xùn)練目標(biāo)詞的概率分布的 KL散度,以得到在最小化KL散度時訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和訓(xùn)練目標(biāo)詞與主題之間的分 布。
[0044] 優(yōu)選地,本發(fā)明實(shí)施例使用對稱的KL散度函數(shù)
而 KL散度具有非對稱性,Dk>1(p| |q)乒DkJql |p),因此為了讓ρ分布和q分布互相接近(即主題 盡可能地接近),本發(fā)明實(shí)施例中使用了對稱的KL散度。其中,Dk>1(p| |q)表示q分布擬合ρ分 布時產(chǎn)生的信息損耗
良不P分布擬合q分布時產(chǎn)生的信息損耗。
[0045] 在步驟S203中,更新訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和訓(xùn)練目標(biāo)詞與主題之間的分布。
[0046] 在本發(fā)明實(shí)施例中,通過步驟S203得到訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和訓(xùn)練目標(biāo)詞與 主題之間的分布后,替換訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和訓(xùn)練目標(biāo)詞與主題之間的分布原有 值,以實(shí)現(xiàn)訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和訓(xùn)練目標(biāo)詞與主題之間的分布的更新。
[0047] 由于詞嵌入將詞語用一個低維的實(shí)值向量來表示,向量的每一個維度都代表了詞 的一個特征屬性,可以捕捉到詞語之間的內(nèi)部語義關(guān)系,因此,本發(fā)明實(shí)施例將詞嵌入引入 到主題模型中,通過L模型訓(xùn)練包含有用特征屬性的詞嵌入和主題向量,然后通過最小化主 題向量-詞嵌入以及LDA中主題-詞的條件概率分布的KL散度,來協(xié)同訓(xùn)練詞嵌入和主題模 型,從而可以有效彌補(bǔ)傳統(tǒng)基于詞頻統(tǒng)計(jì)的話題檢測方法因語義不足而導(dǎo)致的識別效果不 佳的缺陷。
[0048] 本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以 通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于一計(jì)算機(jī)可讀取存儲介質(zhì)中, 所述的存儲介質(zhì),如R0M/RAM、磁盤、光盤等。
[0049] 實(shí)施例三:
[0050] 圖3示出了本發(fā)明實(shí)施例三提供的文本主題檢測系統(tǒng)的結(jié)構(gòu),為了便于說明,僅示 出了與本發(fā)明實(shí)施例相關(guān)的部分,其中包括:
[0051 ]第一訓(xùn)練單元31,用于使用LDA模型對輸入的目標(biāo)文本進(jìn)行訓(xùn)練,以得到目標(biāo)文本 中各個詞語與主題之間的初始分配;
[0052]值設(shè)置單元32,用于將預(yù)先獲取的外部語料的詞嵌入設(shè)置為目標(biāo)文本的詞嵌入的 初始值;
[0053] 第二訓(xùn)練單元33,用于根據(jù)得到的初始分配,使用模型 | ?、.)_+ log| iy)]對目標(biāo)文本進(jìn)行訓(xùn)練,以獲得目標(biāo)文本的詞嵌入和主題向量,其 中,V表示目標(biāo)文本對應(yīng)的詞典中詞語總個數(shù),C表示模型L中滑動窗口的大小,^為訓(xùn)練目 標(biāo)詞,Wi+j為Wi的窗口詞,ti為詞Wi對應(yīng)的主題表示;以及
[0054] 主題獲取單元34,用于根據(jù)得到的初始分配、目標(biāo)文本的詞嵌入和主題向量,對目 標(biāo)文本中包括的每篇文檔進(jìn)行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的主題檢測步 驟,以得到目標(biāo)文本所涉及的主題。
[0055] 在本發(fā)明實(shí)施例中,文本主題檢測系統(tǒng)的各單元可由相應(yīng)的硬件或軟件單元實(shí) 現(xiàn),各單元可以為獨(dú)立的軟、硬件單元,也可以集成為一個軟、硬件單元,在此不用以限制本 發(fā)明。各單元的【具體實(shí)施方式】可參考實(shí)施例一的描述,在此不再贅述。
[0056] 實(shí)施例四:
[0057] 圖4示出了本發(fā)明實(shí)施例四提供的文本主題檢測系統(tǒng)的結(jié)構(gòu),為了便于說明,僅示 出了與本發(fā)明實(shí)施例相關(guān)的部分,其中包括:
[0058]語料獲取單元41,用于獲取外部擴(kuò)展語料,以作為目標(biāo)文本對應(yīng)的原始數(shù)據(jù)的語 義補(bǔ)充;
[0059]語料訓(xùn)練單元42,用于使用預(yù)設(shè)詞嵌入訓(xùn)練程序?qū)Λ@取的外部擴(kuò)展語料進(jìn)行預(yù)訓(xùn) 練,以得到外部擴(kuò)展語料中各個詞語的詞嵌入;
[0060]第一訓(xùn)練單元43,用于使用LDA模型對輸入的目標(biāo)文本進(jìn)行訓(xùn)練,以得到目標(biāo)文本 中各個詞語與主題之間的初始分配;
[0061 ]值設(shè)置單元44,用于將預(yù)先獲取的外部語料的詞嵌入設(shè)置為目標(biāo)文本的詞嵌入的 初始值;
[0062]第二訓(xùn)練單元45,用于根據(jù)得到的初始分配,使用模壟
I I) + Log p(ri+/ |匕)]對目標(biāo)文本進(jìn)行訓(xùn)練,以獲得目標(biāo)文本的詞嵌入和主題向量,其 中,V表示目標(biāo)文本對應(yīng)的詞典中詞語總個數(shù),c表示模型L中滑動窗口的大小,^為訓(xùn)練目 標(biāo)詞,Wi+j為Wi的窗口詞,ti為詞Wi對應(yīng)的主題表示;以及
[0063]主題獲取單元46,用于根據(jù)得到的初始分配、目標(biāo)文本的詞嵌入和主題向量,對目 標(biāo)文本中包括的每篇文檔進(jìn)行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的主題檢測步 驟,以得到目標(biāo)文本所涉及的主題。
[0064] 優(yōu)選地,如圖5所示,主題獲取單元46可包括:
[0065]主題采樣單元461,用于根據(jù)公式ΡΚ" = ,''s」4?:,1Λ + α.). . p + (1 - 計(jì)算訓(xùn)練目標(biāo)詞在每個主題下分配的概率,為訓(xùn)練目標(biāo)詞采樣主題,其中,',_表示文檔d中 的第i個詞《^:在當(dāng)前文檔中采樣得到的文檔-主題的分布,t表示主題,7表示除當(dāng)前 文檔外,詞w<U的主題分布,表示詞《^對應(yīng)的詞嵌入,《^表示文檔d中的第i個詞,^表 示主題t對應(yīng)的主題向量,為二值變量,服從以λ為先驗(yàn)的伯努利分布,表示除當(dāng)前 文檔外,第i個詞所在的文檔d被分配到主題t的次數(shù),α表示文檔-主題分布的Dirichlet先 驗(yàn)超參數(shù),P表示主題向量-詞嵌入的分布,q表示LDA模型中的主題-詞分布;
[0066]向量和分布獲取單元462,用于最小化主題和訓(xùn)練目標(biāo)詞的概率分布、以及LDA模 型下主題和訓(xùn)練目標(biāo)詞的概率分布的KL散度,以得到訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和訓(xùn)練目標(biāo) 詞與主題之間的分布;以及
[0067]更新單元463,用于更新訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和訓(xùn)練目標(biāo)詞與主題之間的分 布。
[0068] 優(yōu)選地,向量和分布獲取單元462包括:
[0069] 獲取子單元4621,用于最小化KL散度函數(shù)K 以得到 訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和訓(xùn)練目標(biāo)詞與主題之間的分布,其中,Dk>1(p| |q)表示q分布擬 合P分布時產(chǎn)生的信息損耗
表不P分布擬合q分布時產(chǎn)生的信息損耗。
[0070] 在本發(fā)明實(shí)施例中,文本主題檢測系統(tǒng)的各單元可由相應(yīng)的硬件或軟件單元實(shí) 現(xiàn),各單元可以為獨(dú)立的軟、硬件單元,也可以集成為一個軟、硬件單元,在此不用以限制本 發(fā)明。各單元的【具體實(shí)施方式】可參考實(shí)施例一的描述,在此不再贅述。
[0071] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種文本主題檢測方法,其特征在于,所述方法包括下述步驟: 使用LDA模型對輸入的目標(biāo)文本進(jìn)行訓(xùn)練,W得到所述目標(biāo)文本中各個詞語與主題之 間的初始分配; 將預(yù)先獲取的外部語料的詞嵌入設(shè)置為所述目標(biāo)文本的詞嵌入的初始值; 根據(jù)所述得到的初始分配,使用模型對所述目標(biāo)文本進(jìn)行訓(xùn)練,W獲得所述目標(biāo)文本的詞嵌入和主題向量,其中,V表示所述目 標(biāo)文本對應(yīng)的詞典中詞語總個數(shù),C表示所述模型L中滑動窗口的大小,wi為訓(xùn)練目標(biāo)詞, Wi+j為Wi的窗口詞,ti為詞Wi對應(yīng)的主題表示; 根據(jù)所述初始分配、所述目標(biāo)文本的詞嵌入和主題向量,對所述目標(biāo)文本中包括的每 篇文檔進(jìn)行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的主題檢測步驟,W得到所述目標(biāo) 文本所設(shè)及的主題。2. 如權(quán)利要求1所述的方法,其特征在于,預(yù)設(shè)的主題檢測步驟包括: 根據(jù)公式計(jì)算 訓(xùn)練目標(biāo)詞在每個主題下分配的概率,為所述訓(xùn)練目標(biāo)詞采樣主題,其中,,_表示文檔d中 的第1個詞*<1,1在當(dāng)前文檔中采樣得到的文檔-主題的分布,*表示主題,^^^,。表示除當(dāng)前 文檔外,詞Wd,i的主題分布,\.1表示詞Wd,擁應(yīng)的詞嵌入,Wd,康示文檔d中的第i個詞,τ康 示主題t對應(yīng)的主題向量Λ,,.為二值變量,服從Κλ為先驗(yàn)的伯努利分布,表示除當(dāng)前 文檔外,第i個詞所在的文檔d被分配到主題t的次數(shù),α表示文檔-主題分布的Dirichlet先 驗(yàn)超參數(shù),P表示主題向量-詞嵌入的分布,q表示LDA模型中的主題-詞分布; 最小化主題和所述訓(xùn)練目標(biāo)詞的概率分布、W及LDA模型下主題和所述訓(xùn)練目標(biāo)詞的 概率分布的化散度,W得到所述訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和所述訓(xùn)練目標(biāo)詞與主題之間的 分布; 更新所述訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和所述訓(xùn)練目標(biāo)詞與主題之間的分布。3. 如權(quán)利要求2所述的方法,其特征在于,最小化主題和所述訓(xùn)練目標(biāo)詞的概率分布、 W及LDA模型下主題和所述訓(xùn)練目標(biāo)詞的概率分布的KL散度的步驟,包括: 最小化KL散度函I其中,Dk,i(p| k)表示q分布擬合P分 布時產(chǎn)生的信息損耗:良不P分布擬合q分布時產(chǎn)生的信息損耗。4. 如權(quán)利要求1所述的方法,其特征在于,將預(yù)先獲取的外部語料詞嵌入設(shè)置為所述目 標(biāo)文本的詞嵌入的初始值的步驟之前,所述方法還包括: 獲取外部擴(kuò)展語料,W作為所述目標(biāo)文本對應(yīng)的原始數(shù)據(jù)的語義補(bǔ)充; 使用預(yù)設(shè)詞嵌入訓(xùn)練程序?qū)λ霁@取的外部擴(kuò)展語料進(jìn)行預(yù)訓(xùn)練,W得到所述外部擴(kuò) 展語料中各個詞語的詞嵌入。5. 如權(quán)利要求4所述的方法,其特征在于,所述外部擴(kuò)展語料為維基百科或百度百科。6. 如權(quán)利要求4所述的方法,其特征在于,所述預(yù)設(shè)詞嵌入訓(xùn)練程序?yàn)閣ord2vec或者 GloVe工具。7. -種文本主題檢測系統(tǒng),其特征在于,所述系統(tǒng)包括: 第一訓(xùn)練單元,用于使用LDA模型對輸入的目標(biāo)文本進(jìn)行訓(xùn)練,W得到所述目標(biāo)文本中 各個詞語與主題之間的初始分配; 值設(shè)置單元,用于將預(yù)先獲取的外部語料的詞嵌入設(shè)置為所述目標(biāo)文本的詞嵌入的初 始值; 第二訓(xùn)練單元,用于根據(jù)所述得到的初始分配,使用模里+ log Mr,t ,. I ij)]對所述目標(biāo)文本進(jìn)行訓(xùn)練,W獲得所述目標(biāo)文本的詞嵌入和主題向量, 其中,V表示所述目標(biāo)文本對應(yīng)的詞典中詞語總個數(shù),C表示所述模型L中滑動窗口的大小, Wi為訓(xùn)練目標(biāo)詞,巧Wi的窗口詞,ti為詞Wi對應(yīng)的主題表示;W及 主題獲取單元,用于根據(jù)所述初始分配、所述目標(biāo)文本的詞嵌入和主題向量,對所述目 標(biāo)文本中包括的每篇文檔進(jìn)行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的主題檢測步 驟,W得到所述目標(biāo)文本所設(shè)及的主題。8. 如權(quán)利要求7所述的系統(tǒng),其特征在于,所述主題獲取單元包括: 主題采樣單元,用于根據(jù)公苗計(jì)算訓(xùn)練目標(biāo)詞在每個主題下分配的概率,為所述訓(xùn)練目標(biāo)詞采樣主題,其中表示文 檔d中的第i個詞wd,i在當(dāng)前文檔中采樣得到的文檔-主題的分布,t表示主題,表示除 當(dāng)前文檔外,詞Wd,i的主題分布,V^表示詞Wd,i對應(yīng)的詞嵌入,Wd,i表示文檔d中的第i個詞, Tt表示主題t對應(yīng)的主題向量,為二值變量,服從Κλ為先驗(yàn)的伯努利分布,J心,,表示除 當(dāng)前文檔外,第i個詞所在的文檔d被分配到主題t的次數(shù),α表示文檔-主題分布的 Dirichlet先驗(yàn)超參數(shù),Ρ表示主題向量-詞嵌入的分布,q表示LDA模型中的主題-詞分布; 向量和分布獲取單元,用于最小化主題和所述訓(xùn)練目標(biāo)詞的概率分布、W及LDA模型下 主題和所述訓(xùn)練目標(biāo)詞的概率分布的化散度,W得到所述訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和所述 訓(xùn)練目標(biāo)詞與主題之間的分布;W及 更新單元,用于更新所述訓(xùn)練目標(biāo)詞對應(yīng)的詞嵌入和所述訓(xùn)練目標(biāo)詞與主題之間的分 布。9. 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述向量和分布獲取單元包括: 獲取子單元,用于最小化化散度函避W得到所述訓(xùn)練 目標(biāo)詞對應(yīng)的詞嵌入和所述訓(xùn)練目標(biāo)詞與主題之間的分布,其中,Dk,i(p| k)表示q分布擬 合P分布時產(chǎn)生的信息損耗表示P分布擬合q分布時產(chǎn)生的信息損耗。 10 .如權(quán)利要求7所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 語料獲取單元,用于獲取外部擴(kuò)展語料,W作為所述目標(biāo)文本對應(yīng)的原始數(shù)據(jù)的語義 補(bǔ)充;W及 語料訓(xùn)練單元,用于使用預(yù)設(shè)詞嵌入訓(xùn)練程序?qū)λ霁@取的外部擴(kuò)展語料進(jìn)行預(yù)訓(xùn) 練,W得到所述外部擴(kuò)展語料中各個詞語的詞嵌入。
【文檔編號】G06F17/30GK105975499SQ201610269821
【公開日】2016年9月28日
【申請日】2016年4月27日
【發(fā)明人】傅向華, 李晶
【申請人】深圳大學(xué)