基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)的制作方法

文檔序號：6356239閱讀：764來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明屬于拷貝檢測技術(shù)領(lǐng)域，具體涉及一種基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)。
背景技術(shù)：
隨著互聯(lián)網(wǎng)時代的發(fā)展，信息呈現(xiàn)出爆炸式增長的趨勢。由于數(shù)字文檔本身易于被復(fù)制的特點，導(dǎo)致網(wǎng)絡(luò)中出現(xiàn)了大數(shù)量的重復(fù)的網(wǎng)頁和文檔。這些重復(fù)的信息對基于Web 信息的應(yīng)用來說，造成了嚴重的負擔(dān)。因此，對于拷貝檢測問題的研究，在近年來逐漸成為了信息檢索領(lǐng)域的一個研究熱點?，F(xiàn)有的研究工作主要著眼于如何進行文檔級別的拷貝檢測。文檔級別拷貝檢測的研究成果在普通的網(wǎng)頁的拷貝檢測中取得了不錯的成果。但目前仍存在一些問題，無法用現(xiàn)有的針對文檔級別的方法來解決。兩個較為典型的例子分別為文檔中抄襲部分和引用部分的拷貝檢測。由于抄襲通常不會是文檔級別的抄襲，而是段落級別和句子級別的抄襲，即將他人文章中的部分段落或句子抄入自己的文章中。因此抄襲的檢測無法使用文檔級別的拷貝檢測方法有效地檢測出來。而對于文檔中的引用也存在相同的問題。在文章或是新聞中出現(xiàn)引用時，引用的通常是幾句話或是一個短小的文字段落，因此兩個文檔之間的相似度不會高，因而也無法使用文檔級別的拷貝檢測方法有效地檢測出來。除了以上的問題之外，在網(wǎng)頁的拷貝檢測中還存在一些不能使用文檔級別拷貝檢測方法解決的問題，如分頁新聞以及論壇中帖子(Thread)等的拷貝檢測。這些問題的一個共同特點是，兩個文檔之中只是部分互為拷貝，這些部分拷貝需要基于更細粒度的句子級別拷貝檢測的方法才能被有效地檢測出來。這類問題的解決方法通常分為兩個步驟首先進行句子級別的拷貝檢測，即將文檔中互為拷貝的句子對檢測出來；然后，通過對互為拷貝的句子進行序列匹配(即將上一步中得到的互為拷貝的句子對，按照文檔集中起來，并從中找出互為拷貝的連續(xù)的序列)，從而將文檔間互為拷貝的部分檢測并定位出來。如圖I所示，文檔I中第I1個句子到第J1個句子的部分與文檔2中第Hl1個句子到第Ii1個句子的部分互為拷貝，而同時文檔I中第i2個句子到第j2個句子的部分與文檔2中第m2個句子到第n2 個句子的部分互為拷貝，這樣就將句子級別的拷貝檢測提高到了段落的級別?？梢钥闯鏊惴ǖ谝徊街械木渥蛹墑e的拷貝檢測將直接影響到整個任務(wù)的精度和效率。因此有必要對句子級別的拷貝檢測進行更詳細的研究。同時如何實現(xiàn)一個可以高速準確地找出文檔集中包含部分拷貝的文檔對，并定位互為拷貝的范圍的文檔拷貝檢測系統(tǒng)也是本發(fā)明的研究內(nèi)容之一。

發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種算法精度和效率高的文本特征提取方法，以及相應(yīng)的文檔拷貝檢測系統(tǒng)。
本發(fā)明提出的文本特征提取方法，是一種改進型的基于句子級別的文本特征提取方法，稱為Low-IDF-Sig算法。該算法可以高效地從句子中提取出可以很好地表示整個句子核心內(nèi)容的Low-IDF-Sig特征。本發(fā)明在句子級別的GoldenSet實驗集上對本發(fā)明的 Low-IDF-Sig方法，以及現(xiàn)在已有的文檔級別上較有代表性的方法(包括Shingling算法、 SpotSig算法以及I-Match算法)進行了綜合性的評測。本發(fā)明提出的文檔拷貝檢測系統(tǒng)，是一種基于倒排索引進行剪枝的可以高速準確地找出文檔集中包含部分拷貝的文檔對，并定位互為拷貝的范圍的文檔拷貝檢測系統(tǒng)。接下來將對上述兩個方面分別進行說明?！ow-IDF-Sig 特征提取方法
該算法選取一定數(shù)量的具有最低逆向文件頻率(inverse document frequency, IDF) 的常見詞匯作為先行詞，以抽取改進的Shingle特征，用以表示整個句子。一個Low-IDF-Sig特征Si可以表示為一條緊跟在一個先行詞Bi后的具有固定長度Ci的詞鏈,該詞鏈的取詞間隔為一個固定值dj。使用標(biāo)記Bi(C^Ci)表不一個先行詞為ai;詞鏈長度為Ci,取詞間隔為di的Low-IDF-Sig特征Si。舉例來說，is (2，3)表示的 Low-IDF-Sig特征在句子中每次出現(xiàn)is時進行提取，其中提取的間隔為2，詞鏈長度為3，假設(shè)is在文中出現(xiàn)的位置為I的話，則位置3，5，7處的詞被提取出來作為詞鏈的組成部分，如果在前一先行詞的詞鏈范圍內(nèi)出現(xiàn)了其他的先行詞的情況下，有可能出現(xiàn)兩個特征部分重疊的情況。Low-IDF-Sig特征提取方法的具體步驟如下
(1)給定先行詞集合A，詞鏈長度C，取詞間隔d；
(2)遍歷句子中的每個詞，若詞匯出現(xiàn)在先行詞集合中，詞匯當(dāng)前位置為p，則提取 p+0*d, p+l*d, p+2*d…p+c*d處的詞形成一個特征；
(3)對句子中的每個詞重復(fù)步驟(2)，直到?jīng)]有更多詞匯，從而將句子轉(zhuǎn)換為一個有權(quán)特征集合。一個利用Low-IDF-Sig進行特征抽取的例子如下
考慮如下的句子“As we are taking your candidature ahead we would like to highlight that INTEL as an organization believes and practices high standards of ethical behavior from every potential candidate. ”
假設(shè)我們從逆向文件頻率表中獲得了前五個具有最低的逆向文件詞頻的單詞{as， to, that, of, from}作為先行詞，并以Ci=2作為詞鏈的長度，(Ii=I作為取詞間隔，則我們可以將上面的句子變?yōu)槿缦碌挠蒐ow-IDF-Sig特征組成的集合S = {as:we:are, to!highlight: that, that:intel: as, as: an: organization, of: ethical:behavior, from:every:potential}?？梢钥闯錾鲜黾弦呀?jīng)很好地覆蓋到了整個句子的核心內(nèi)容。Low-IDF-Sig特征作為改進型SpotSig算法,與SpotSig算法主要存在以下幾個差別
(1)Low-IDF-Sig特征在選取先行詞時，總是從作為外部資源的一個逆向文件頻率表中選取具有最低逆向文件頻率的前η個常見詞作為Low-IDF-Sig特征的先行詞；但為了保證每個句子至少有一個特征，我們簡單地選取句子中的第一個詞作為一個特殊的先行詞；
(2)Low-IDF-Sig特征在構(gòu)成Shingle時，詞鏈中不僅包括先行詞后提取的詞，同時也包括先行詞本身；
(3)SpotSig算法在選取構(gòu)成詞鏈的詞語時，簡單地跳過了所有的停止詞，即停止詞不會出現(xiàn)在如何一條詞鏈中。SpotSig的理由是停止詞本身的語義信息較少，對于文檔級別的文本來說可以忽略。但我們在實驗中發(fā)現(xiàn)，對于文本長度較短的句子而言，停止詞的信息量仍對整個句子可以產(chǎn)生較大的影響，因此不應(yīng)該簡單地跳過所有的停止詞。在Low-IDF-Sig 算法中，本發(fā)明在選取構(gòu)成詞鏈的詞語時，只跳過少部分的停止詞，這部分的停止詞包括部分的冠詞與介詞。原因是，在實驗中發(fā)現(xiàn)兩個互為拷貝的句子，可能會使用不同的冠詞或介詞，但仍然表示相同的意義。本發(fā)明通過實驗證明Low-IDF-Sig特征提取算法的表現(xiàn)優(yōu)于其他類似方法。表I各特征在GoldenSet上的綜合表現(xiàn)
權(quán)利要求
1.一種基于句子級別的文本特征提取方法，選取一定數(shù)量的具有最低逆向文件頻率的常見詞匯作為先行詞，以抽取改進的Shingle特征，用以表示整個句子；設(shè)一個 Low-IDF-Sig特征Si表示為一條緊跟在一個先行詞％后的具有固定長度Ci的詞鏈，該詞鏈的取詞間隔為一個固定值dj ;使用標(biāo)記ai (dO表不一個先行詞為ai;詞鏈長度為Ci,取詞間隔為(Ii的Low-IDF-Sig特征Si ;具體步驟如下(1)給定先行詞集合A，詞鏈長度C，取詞間隔d；(2)遍歷句子中的每個詞，若詞匯出現(xiàn)在先行詞集合中，詞匯當(dāng)前位置為p，則提取 p+0*d, p+l*d, p+2*d…p+c*d處的詞形成一個特征；(3)對句子中的每個詞重復(fù)步驟(2)，直到?jīng)]有更多詞匯，從而將句子轉(zhuǎn)換為一個有權(quán)特征集合。
2.一種基于句子級別的文檔拷貝檢測系統(tǒng)，其特征在于由文檔讀取子系統(tǒng)、斷句子系統(tǒng)、特征提取子系統(tǒng)、拷貝檢測子系統(tǒng)、序列匹配子系統(tǒng)組成；其中所述文檔讀取子系統(tǒng)，以文檔集合作為輸入，單個的文檔為輸出，用于讀取文檔集合中的文檔，并將單個的文檔輸出到后續(xù)的斷句子系統(tǒng)中；所述斷句子系統(tǒng)，以文檔讀取子系統(tǒng)輸出的單個文檔為輸入，單個的句子為輸出，用于讀取文檔并斷句后輸出文本表示的句子；所述特征提取子系統(tǒng)，以斷句子系統(tǒng)輸出的單個句子為輸入，句子的特征向量表示以及倒排索引為輸出，用于將句子文本轉(zhuǎn)換為特征向量表示，并加入倒排索引中；所述拷貝檢測子系統(tǒng)，以特征提取子系統(tǒng)輸出的句子的特征向量表示以及倒排索引為輸入，互為拷貝的句子對集合為輸出，用于根據(jù)倒排索引找出互為拷貝的句子對；所述序列匹配子系統(tǒng)，以拷貝檢測子系統(tǒng)輸出的互為拷貝的句子對集合為輸入，互為拷貝的段落序列集合為輸出，用于將句子對集合按照文檔組織起來，并找出互為拷貝的序列；文檔拷貝檢測系統(tǒng)處理流程為首先由文檔讀取子系統(tǒng)從文檔集合中獲取一個文檔，由斷句子系統(tǒng)將文檔轉(zhuǎn)換為句子的集合，然后由特征提取子系統(tǒng)將句子轉(zhuǎn)換為特征向量，并加入倒排索引中；當(dāng)對所有文檔都進行過上述處理后，由拷貝檢測子系統(tǒng)分析倒排索引和句子向量集合，找出互為拷貝的句子對；最后由序列匹配子系統(tǒng)將句子對按照文檔整理，匹配文檔中互為拷貝的序列，并產(chǎn)生最后的結(jié)果。
3.根據(jù)權(quán)利要求2所述的基于句子級別的文檔拷貝檢測系統(tǒng)，其特征在于所述拷貝檢測子系統(tǒng)使用如下相似度計算方法假設(shè)兩個句子經(jīng)過轉(zhuǎn)換，變?yōu)閮蓚€由Low-IDF-Sig特征組成的集合A和B，它們間的相似度定義為
全文摘要
本發(fā)明屬于拷貝檢測技術(shù)領(lǐng)域，具體為一種基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)。本發(fā)明提出的基于句子級別的文本特征提取方法，選取一定數(shù)量的具有最低逆向文件頻率的常見詞匯作為先行詞，以抽取改進的Shingle特征，用以表示整個句子；本還提出基于句子級別的文檔拷貝檢測系統(tǒng)，該系統(tǒng)包括文檔讀取子系統(tǒng)、斷句子系統(tǒng)、特征提取子系統(tǒng)、拷貝檢測子系統(tǒng)和序列匹配子系統(tǒng)，可以高速準確地找出文檔集合中包含部分拷貝的文檔對，并定位互為拷貝的范圍。
文檔編號G06F17/22GK102591976SQ201210000918
公開日2012年7月18日申請日期2012年1月4日優(yōu)先權(quán)日2012年1月4日
發(fā)明者俞昊旻, 張奇, 黃萱菁申請人:復(fù)旦大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：俞昊旻;張奇;黃萱菁
技術(shù)所有人：復(fù)旦大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本特征提取相關(guān)技術(shù)

文本特征提取算法相關(guān)技術(shù)

文本特征提取方法相關(guān)技術(shù)

文本特征向量提取相關(guān)技術(shù)

文本特征提取和向量化相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)的制作方法