基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng),其中的方法包括,通過預(yù)設(shè)的本體庫將資源文檔按照語義相關(guān)度分割成資源文檔片段,根據(jù)LDA算法對(duì)資源文檔片段構(gòu)建主題-詞匯分布。利用上述根據(jù)本發(fā)明的基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng),通過資源文檔增加了一個(gè)根據(jù)預(yù)設(shè)的本體庫進(jìn)行分割的過程,對(duì)于那些包含多個(gè)話題的資源文檔進(jìn)行適當(dāng)?shù)恼Z義劃分,劃分成若干具有獨(dú)立語義的資源文檔片段,然后對(duì)這些獨(dú)立語義的資源文檔片段使用LDA算法構(gòu)建主題-詞匯分布,因此,能構(gòu)建相對(duì)準(zhǔn)確的主題-單詞分布,提高學(xué)習(xí)到的主題的質(zhì)量。
【專利說明】基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本分析【技術(shù)領(lǐng)域】,更為具體地,涉及一種基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)。
【背景技術(shù)】
[0002]在文本分析領(lǐng)域中,LDA (Latent Dirichlet Allocation,隱含狄利克雷分布)算法是一種常見的基于無監(jiān)督學(xué)習(xí)的統(tǒng)計(jì)方法,在這種方法中,對(duì)于給定的文檔集合,系統(tǒng)通過參數(shù)估計(jì)能夠確定一些隱含的主題(Topic),每個(gè)主題是一個(gè)詞匯表上的概率分布,每篇文檔則可以表示為在多個(gè)主題上的概率分布,和詞袋模型中的單詞相比隱含主題的維度要低得多,可以有效地避免詞一級(jí)的噪音,因此得到了廣泛的應(yīng)用。
[0003]但是在現(xiàn)實(shí)世界中的文檔,由于其交流特性和組織方式并不是圍繞著一個(gè)話題(話題可以認(rèn)為對(duì)若干領(lǐng)域概念之間的關(guān)系的描述)來嚴(yán)格地進(jìn)行論述的,而是圍繞著多個(gè)話題,進(jìn)行多方位的描述,如果將這樣的文檔作為主題學(xué)習(xí)算法的輸入,就會(huì)將那些只是在討論多個(gè)特定領(lǐng)域問題時(shí)才會(huì)使用的多個(gè)詞語不適當(dāng)?shù)仃P(guān)聯(lián)到一起,從而導(dǎo)致了嚴(yán)重的語義污染問題。
[0004]為了解決上述問題,常用的解決方法是通過收集足夠多的語料,找到各種情景下被討論問題的全部語料,那么根據(jù)概率計(jì)算,那些稀少的話題-話題組合就不會(huì)取得主要的地位,從而不會(huì)對(duì)結(jié)果產(chǎn)生嚴(yán)重的影響。
[0005]一般情況下,這種解決方法是可行的,但是,在企業(yè)內(nèi)部的知識(shí)管理這個(gè)領(lǐng)域中,企業(yè)內(nèi)部所能提供的文檔集總是局部的,因此語義污染總是存在,所以,上述問題仍需要一種解決方案。
【發(fā)明內(nèi)容】
[0006]鑒于上述問題,本發(fā)明的目的是提供一種基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng),以解決因語義污染造成得到的主題質(zhì)量差的問題。
[0007]本發(fā)明提供的基于文檔分段的構(gòu)建主題-詞匯分布的方法,包括:
[0008]通過預(yù)設(shè)的本體庫將資源文檔按照語義相關(guān)度分割成資源文檔片段;
[0009]根據(jù)LDA算法對(duì)資源文檔片段構(gòu)建主題-詞匯分布。
[0010]其中,在將資源文檔按照語義相關(guān)度分割成資源文檔片段的過程中,
[0011]獲取所述資源文檔中的句法段落和語義段落;其中,
[0012]如果所述資源文檔包含一個(gè)句法段落,則不分割所述資源文檔,直接根據(jù)所述LDA算法對(duì)所述資源文檔構(gòu)建主題-詞匯分布;
[0013]如果所述資源文檔包含一個(gè)語義段落,則不分割所述資源文檔,直接根據(jù)所述LDA算法對(duì)所述資源文檔構(gòu)建主題-詞匯分布;
[0014]如果資源文檔包含多于一個(gè)的句法段落和多于一個(gè)的語義段落,則獲取兩個(gè)相鄰的句法段落之間的語義距離,將語義距離大于預(yù)設(shè)的語義距離閾值的兩個(gè)相鄰的句法段落皆作為語義段落,將語義距離小于預(yù)設(shè)的語義距離閾值的兩個(gè)相鄰的句法段落合并成一個(gè)語義段落,在句法段落合并成語義段落之后,再將語義距離小于預(yù)設(shè)的語義距離閾值的多個(gè)相鄰的語義段落合并成一個(gè)語義段落,如果多個(gè)相鄰的語義段落合并后仍存在多個(gè)相鄰的語義段落,則重新計(jì)算多個(gè)相鄰的語義段落之間的語義距離,再與預(yù)設(shè)的語義距離閾值比較后進(jìn)行合并,重復(fù)上述多個(gè)相鄰的語義段落的合并過程,直到任意兩個(gè)語義段落之間的距離都大于預(yù)設(shè)的語義距離閾值為止,將每個(gè)語義段落作為一個(gè)資源文檔片段輸出。
[0015]其中,根據(jù)預(yù)設(shè)的本體庫計(jì)算兩個(gè)相鄰的句法段落之間的語義距離,所述語義距離的計(jì)算公式為:
【權(quán)利要求】
1.一種基于文檔分段的構(gòu)建主題-詞匯分布的方法,包括: 通過預(yù)設(shè)的本體庫將資源文檔按照語義相關(guān)度分割成資源文檔片段; 根據(jù)LDA算法對(duì)所述資源文檔片段構(gòu)建主題-詞匯分布。
2.如權(quán)利要求1所述的基于文檔分段的構(gòu)建主題-詞匯分布的方法,在將資源文檔按照語義相關(guān)度分割成資源文檔片段的過程中, 獲取所述資源文檔中的句法段落和語義段落;其中, 如果所述資源文檔包含一個(gè)句法段落,則不分割所述資源文檔,直接根據(jù)所述LDA算法對(duì)所述資源文檔構(gòu)建主題-詞匯分布; 如果所述資源文檔包含一個(gè)語義段落,則不分割所述資源文檔,直接根據(jù)所述LDA算法對(duì)所述資源文檔構(gòu)建主題-詞匯分布; 如果所述資源文檔包含多于一個(gè)的句法段落和多于一個(gè)的語義段落,則獲取兩個(gè)相鄰的句法段落之間的語義距離,將語義距離大于預(yù)設(shè)的語義距離閾值的兩個(gè)相鄰的句法段落皆作為語義段落,將語義距離小于預(yù)設(shè)的語義距離閾值的兩個(gè)相鄰的句法段落合并成一個(gè)語義段落,在句法段落合并成語義段落之后,再將語義距離小于預(yù)設(shè)的語義距離閾值的多個(gè)相鄰的語義段落合并成一個(gè)語義段落,如果多個(gè)相鄰的語義段落合并后仍存在多個(gè)相鄰的語義段落,則重新計(jì)算多個(gè)相鄰的語義段落之間的語義距離,再與預(yù)設(shè)的語義距離閾值比較后進(jìn)行合并,重復(fù)上述多個(gè)相鄰的語義段落的合并過程,直到任意兩個(gè)語義段落之間的距離都大于預(yù)設(shè)的語義距離閾值為止,將每個(gè)語義段落作為一個(gè)資源文檔片段。
3.如權(quán)利要求2所述的基于文檔分段的構(gòu)建主題-詞匯分布的方法,根據(jù)預(yù)設(shè)的本體庫計(jì)算兩個(gè)相鄰的句法段落之間的語義距離,所述語義距離的計(jì)算公式為:
4.如權(quán)利要求2所述的基于文檔分段的構(gòu)建主題-詞匯分布的方法, 在構(gòu)建主題-詞匯分布后,通過構(gòu)建的主題-詞匯分布對(duì)其它的資源文檔進(jìn)行分割;其中, 在根據(jù)構(gòu)建的主題-詞匯分布確定其它資源文檔中兩個(gè)相鄰的句法段落之間的語義距離的過程中,分別獲取兩個(gè)相鄰的句法段落在構(gòu)建的主題-詞匯分布上的主題向量,然后使用余弦距離公式計(jì)算上述兩個(gè)主題向量,獲得值為兩個(gè)相鄰的句法段落之間的語義距離;所述余弦距離公式為:
5.一種基于文檔分段的構(gòu)建主題-詞匯分布的系統(tǒng),包括: 資源文檔分割單元,用于通過預(yù)設(shè)的本體庫將資源文檔按照語義相關(guān)度分割成資源文檔片段; 主題分布構(gòu)建單元,用于根據(jù)LDA算法對(duì)所述資源文檔分割單元分割的所述資源文檔片段構(gòu)建主題-詞匯分布。
6.如權(quán)利要求5所述的基于文檔分段的構(gòu)建主題-詞匯分布的系統(tǒng),其中,資源文檔分割單元包括: 句法段落獲取模塊,用于獲取資源文檔中的句法段落; 語義段落獲取模塊,用于獲取資源文檔中的語義段落; 資源文檔分割識(shí)別模塊,用于根據(jù)資源文檔的句法段落和語義段落的數(shù)量識(shí)別所述資源文檔是否需要分割,如果所述資源文檔包含一個(gè)句法段落或一個(gè)語義段落,則不需要分害I],主題分布構(gòu)建單元直接對(duì)所述資源文檔構(gòu)建主題-詞匯分布;如果所述資源文檔包含多個(gè)句法段落和多個(gè)語義段落,則需要分割; 資源文檔分割模塊,用于對(duì)包含多于一個(gè)句法段落和多于一個(gè)語義段落的資源文檔進(jìn)行分割;其中,所述資源文檔分割模塊包括: 語義距離獲取模塊,用于獲取兩個(gè)相鄰的句法段落之間的語義距離; 語義段落生成模塊,用于將語義距離大于預(yù)設(shè)的語義距離閾值的兩個(gè)相鄰的句法段落皆作為語義段落或?qū)⒄Z義距離小于預(yù)設(shè)的語義距離閾值的相鄰句法段落合并成一個(gè)語義段落; 語義段落合并模塊,用于將語義距離小于預(yù)設(shè)的語義距離閾值的多個(gè)相鄰的語義段落合并成一個(gè)語義段落,直到任意兩個(gè)語義段落之間的距離都大于預(yù)設(shè)的語義距離閾值為止,將每個(gè)語義段落作為一個(gè)資源文檔片段; 資源文檔片段生成模塊,用于將每個(gè)語義段落作為一個(gè)資源文檔片段。
【文檔編號(hào)】G06F17/27GK103678277SQ201310657341
【公開日】2014年3月26日 申請(qǐng)日期:2013年12月4日 優(yōu)先權(quán)日:2013年12月4日
【發(fā)明者】王勇, 趙立軍 申請(qǐng)人:東軟集團(tuán)股份有限公司