基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)的制作方法

文檔序號(hào)：6522680閱讀：208來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)，其中的方法包括，通過預(yù)設(shè)的本體庫將資源文檔按照語義相關(guān)度分割成資源文檔片段，根據(jù)LDA算法對(duì)資源文檔片段構(gòu)建主題-詞匯分布。利用上述根據(jù)本發(fā)明的基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)，通過資源文檔增加了一個(gè)根據(jù)預(yù)設(shè)的本體庫進(jìn)行分割的過程，對(duì)于那些包含多個(gè)話題的資源文檔進(jìn)行適當(dāng)?shù)恼Z義劃分，劃分成若干具有獨(dú)立語義的資源文檔片段，然后對(duì)這些獨(dú)立語義的資源文檔片段使用LDA算法構(gòu)建主題-詞匯分布，因此，能構(gòu)建相對(duì)準(zhǔn)確的主題-單詞分布，提高學(xué)習(xí)到的主題的質(zhì)量。
【專利說明】基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本分析【技術(shù)領(lǐng)域】，更為具體地，涉及一種基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)。
【背景技術(shù)】
[0002]在文本分析領(lǐng)域中，LDA (Latent Dirichlet Allocation,隱含狄利克雷分布)算法是一種常見的基于無監(jiān)督學(xué)習(xí)的統(tǒng)計(jì)方法，在這種方法中，對(duì)于給定的文檔集合，系統(tǒng)通過參數(shù)估計(jì)能夠確定一些隱含的主題(Topic)，每個(gè)主題是一個(gè)詞匯表上的概率分布，每篇文檔則可以表示為在多個(gè)主題上的概率分布，和詞袋模型中的單詞相比隱含主題的維度要低得多，可以有效地避免詞一級(jí)的噪音，因此得到了廣泛的應(yīng)用。
[0003]但是在現(xiàn)實(shí)世界中的文檔，由于其交流特性和組織方式并不是圍繞著一個(gè)話題(話題可以認(rèn)為對(duì)若干領(lǐng)域概念之間的關(guān)系的描述)來嚴(yán)格地進(jìn)行論述的，而是圍繞著多個(gè)話題，進(jìn)行多方位的描述，如果將這樣的文檔作為主題學(xué)習(xí)算法的輸入，就會(huì)將那些只是在討論多個(gè)特定領(lǐng)域問題時(shí)才會(huì)使用的多個(gè)詞語不適當(dāng)?shù)仃P(guān)聯(lián)到一起，從而導(dǎo)致了嚴(yán)重的語義污染問題。
[0004]為了解決上述問題，常用的解決方法是通過收集足夠多的語料，找到各種情景下被討論問題的全部語料，那么根據(jù)概率計(jì)算，那些稀少的話題-話題組合就不會(huì)取得主要的地位，從而不會(huì)對(duì)結(jié)果產(chǎn)生嚴(yán)重的影響。
[0005]一般情況下，這種解決方法是可行的，但是，在企業(yè)內(nèi)部的知識(shí)管理這個(gè)領(lǐng)域中，企業(yè)內(nèi)部所能提供的文檔集總是局部的，因此語義污染總是存在，所以，上述問題仍需要一種解決方案。

【發(fā)明內(nèi)容】

[0006]鑒于上述問題，本發(fā)明的目的是提供一種基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)，以解決因語義污染造成得到的主題質(zhì)量差的問題。
[0007]本發(fā)明提供的基于文檔分段的構(gòu)建主題-詞匯分布的方法，包括:
[0008]通過預(yù)設(shè)的本體庫將資源文檔按照語義相關(guān)度分割成資源文檔片段；
[0009]根據(jù)LDA算法對(duì)資源文檔片段構(gòu)建主題-詞匯分布。
[0010]其中，在將資源文檔按照語義相關(guān)度分割成資源文檔片段的過程中，
[0011]獲取所述資源文檔中的句法段落和語義段落；其中，
[0012]如果所述資源文檔包含一個(gè)句法段落，則不分割所述資源文檔，直接根據(jù)所述LDA算法對(duì)所述資源文檔構(gòu)建主題-詞匯分布；
[0013]如果所述資源文檔包含一個(gè)語義段落，則不分割所述資源文檔，直接根據(jù)所述LDA算法對(duì)所述資源文檔構(gòu)建主題-詞匯分布；
[0014]如果資源文檔包含多于一個(gè)的句法段落和多于一個(gè)的語義段落，則獲取兩個(gè)相鄰的句法段落之間的語義距離，將語義距離大于預(yù)設(shè)的語義距離閾值的兩個(gè)相鄰的句法段落皆作為語義段落，將語義距離小于預(yù)設(shè)的語義距離閾值的兩個(gè)相鄰的句法段落合并成一個(gè)語義段落，在句法段落合并成語義段落之后，再將語義距離小于預(yù)設(shè)的語義距離閾值的多個(gè)相鄰的語義段落合并成一個(gè)語義段落，如果多個(gè)相鄰的語義段落合并后仍存在多個(gè)相鄰的語義段落，則重新計(jì)算多個(gè)相鄰的語義段落之間的語義距離，再與預(yù)設(shè)的語義距離閾值比較后進(jìn)行合并，重復(fù)上述多個(gè)相鄰的語義段落的合并過程，直到任意兩個(gè)語義段落之間的距離都大于預(yù)設(shè)的語義距離閾值為止，將每個(gè)語義段落作為一個(gè)資源文檔片段輸出。
[0015]其中，根據(jù)預(yù)設(shè)的本體庫計(jì)算兩個(gè)相鄰的句法段落之間的語義距離，所述語義距離的計(jì)算公式為:
【權(quán)利要求】
1.一種基于文檔分段的構(gòu)建主題-詞匯分布的方法，包括: 通過預(yù)設(shè)的本體庫將資源文檔按照語義相關(guān)度分割成資源文檔片段；根據(jù)LDA算法對(duì)所述資源文檔片段構(gòu)建主題-詞匯分布。
2.如權(quán)利要求1所述的基于文檔分段的構(gòu)建主題-詞匯分布的方法，在將資源文檔按照語義相關(guān)度分割成資源文檔片段的過程中，獲取所述資源文檔中的句法段落和語義段落；其中，如果所述資源文檔包含一個(gè)句法段落，則不分割所述資源文檔，直接根據(jù)所述LDA算法對(duì)所述資源文檔構(gòu)建主題-詞匯分布；如果所述資源文檔包含一個(gè)語義段落，則不分割所述資源文檔，直接根據(jù)所述LDA算法對(duì)所述資源文檔構(gòu)建主題-詞匯分布；如果所述資源文檔包含多于一個(gè)的句法段落和多于一個(gè)的語義段落，則獲取兩個(gè)相鄰的句法段落之間的語義距離，將語義距離大于預(yù)設(shè)的語義距離閾值的兩個(gè)相鄰的句法段落皆作為語義段落，將語義距離小于預(yù)設(shè)的語義距離閾值的兩個(gè)相鄰的句法段落合并成一個(gè)語義段落，在句法段落合并成語義段落之后，再將語義距離小于預(yù)設(shè)的語義距離閾值的多個(gè)相鄰的語義段落合并成一個(gè)語義段落，如果多個(gè)相鄰的語義段落合并后仍存在多個(gè)相鄰的語義段落，則重新計(jì)算多個(gè)相鄰的語義段落之間的語義距離，再與預(yù)設(shè)的語義距離閾值比較后進(jìn)行合并，重復(fù)上述多個(gè)相鄰的語義段落的合并過程，直到任意兩個(gè)語義段落之間的距離都大于預(yù)設(shè)的語義距離閾值為止，將每個(gè)語義段落作為一個(gè)資源文檔片段。
3.如權(quán)利要求2所述的基于文檔分段的構(gòu)建主題-詞匯分布的方法，根據(jù)預(yù)設(shè)的本體庫計(jì)算兩個(gè)相鄰的句法段落之間的語義距離，所述語義距離的計(jì)算公式為:

4.如權(quán)利要求2所述的基于文檔分段的構(gòu)建主題-詞匯分布的方法，在構(gòu)建主題-詞匯分布后，通過構(gòu)建的主題-詞匯分布對(duì)其它的資源文檔進(jìn)行分割；其中，在根據(jù)構(gòu)建的主題-詞匯分布確定其它資源文檔中兩個(gè)相鄰的句法段落之間的語義距離的過程中，分別獲取兩個(gè)相鄰的句法段落在構(gòu)建的主題-詞匯分布上的主題向量，然后使用余弦距離公式計(jì)算上述兩個(gè)主題向量，獲得值為兩個(gè)相鄰的句法段落之間的語義距離；所述余弦距離公式為:
5.一種基于文檔分段的構(gòu)建主題-詞匯分布的系統(tǒng)，包括: 資源文檔分割單元，用于通過預(yù)設(shè)的本體庫將資源文檔按照語義相關(guān)度分割成資源文檔片段；主題分布構(gòu)建單元，用于根據(jù)LDA算法對(duì)所述資源文檔分割單元分割的所述資源文檔片段構(gòu)建主題-詞匯分布。
6.如權(quán)利要求5所述的基于文檔分段的構(gòu)建主題-詞匯分布的系統(tǒng)，其中，資源文檔分割單元包括: 句法段落獲取模塊，用于獲取資源文檔中的句法段落；語義段落獲取模塊，用于獲取資源文檔中的語義段落；資源文檔分割識(shí)別模塊，用于根據(jù)資源文檔的句法段落和語義段落的數(shù)量識(shí)別所述資源文檔是否需要分割，如果所述資源文檔包含一個(gè)句法段落或一個(gè)語義段落，則不需要分害I]，主題分布構(gòu)建單元直接對(duì)所述資源文檔構(gòu)建主題-詞匯分布；如果所述資源文檔包含多個(gè)句法段落和多個(gè)語義段落，則需要分割；資源文檔分割模塊，用于對(duì)包含多于一個(gè)句法段落和多于一個(gè)語義段落的資源文檔進(jìn)行分割；其中，所述資源文檔分割模塊包括: 語義距離獲取模塊，用于獲取兩個(gè)相鄰的句法段落之間的語義距離；語義段落生成模塊，用于將語義距離大于預(yù)設(shè)的語義距離閾值的兩個(gè)相鄰的句法段落皆作為語義段落或?qū)⒄Z義距離小于預(yù)設(shè)的語義距離閾值的相鄰句法段落合并成一個(gè)語義段落；語義段落合并模塊，用于將語義距離小于預(yù)設(shè)的語義距離閾值的多個(gè)相鄰的語義段落合并成一個(gè)語義段落，直到任意兩個(gè)語義段落之間的距離都大于預(yù)設(shè)的語義距離閾值為止，將每個(gè)語義段落作為一個(gè)資源文檔片段；資源文檔片段生成模塊，用于將每個(gè)語義段落作為一個(gè)資源文檔片段。
【文檔編號(hào)】G06F17/27GK103678277SQ201310657341
【公開日】2014年3月26日申請(qǐng)日期:2013年12月4日優(yōu)先權(quán)日:2013年12月4日
【發(fā)明者】王勇, 趙立軍申請(qǐng)人:東軟集團(tuán)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王勇;趙立軍
技術(shù)所有人：東軟集團(tuán)股份有限公司
我是此專利的發(fā)明人

上一篇：一種可儲(chǔ)存數(shù)據(jù)的數(shù)字x射線平板探測器的制造方法
上一篇：Ito線路線阻的測算方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于文檔分段的構(gòu)建主題-詞匯分布的方法及系統(tǒng)的制作方法