国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      確定文檔之間的相似度的方法和設備的制作方法

      文檔序號:6422978閱讀:181來源:國知局
      專利名稱:確定文檔之間的相似度的方法和設備的制作方法
      技術領域
      本發(fā)明涉及用于確定多個文檔之間的相似度的方法、設備和計算機程序。
      背景技術
      現(xiàn)在,演示文檔的創(chuàng)建逐步增加。經常在一個或多個現(xiàn)有文檔的基礎上創(chuàng)建新的演示文檔。在這種環(huán)境中,當機密文檔被泄露時,公司會擔心喪失信譽度,并且由于喪失信譽度而導致的財務損失風險也將增加。很難斷絕有問題文檔的泄露并且很難確定該演示文檔的創(chuàng)建基礎。對于只包括文本的文檔,其比較方法是公知的。但是,由于演示文檔中混合了對象、文本以及圖形和圖像等非文本信息,所以很難進行比較。在專利文獻1中,每個圖形的面積用作比較確定的基礎。具體地說,在比較兩個頁面時,通過將一個頁面上對象之間的面積比與另一頁面上對象之間的面積比相比較來確定頁面之間的相似度。但是,在專利文獻1的方法中,當對象之間的面積比不同時,則確定不存在相似度。因此,這種確定明顯不同于人類執(zhí)行的相似度確定。而且,在專利文獻1中, 僅使用圖像信息而未考慮文本信息。總之,專利文獻1中的方法可以被認為是一種在生成完整頁面的縮放副本時有效的相似度確定方法。在非專利文獻1中,采用了一種方法,其中當獲得了圖像之間的相似度時,矢量圖像被轉換為圖形表示,并且圖像之間的相似度被計算為圖形之間的相似度。但是,在計算諸如演示文檔之類的包括圖形的文檔之間的相似度時,通過非專利文獻1中的方法無法獲得足夠的準確性。這是因為演示文檔包括文本數(shù)據以及圖形數(shù)據,并且文本數(shù)據顯著影響文檔的特性。此外,在非專利文獻1的方法中,當在完全不同的文檔中使用相同圖像對象(例如,跨各文檔頻繁使用的公司標識或剪貼畫)時,這些文檔將被錯誤地檢測為是相似文檔。非專利文獻2披露了一種基于隨機游動的圖挖掘方法。非專利文獻2未描述使用對象之間的面積比獲取文本之間的相似度或文檔之間的相似度的方法。引用列表專利文獻[PTL 1]日本未審查的申請公開No. 2007-164648非專利文獻[NPL IjAnoop M. Namboodiri,Anil K. Jain,"Retrieval of on-line Hand-Drawn Sketches(檢索在線手繪草圖,icpr,Vol 2,第642-645頁,第17屆國際模式識別大會 (ICPR' 04)-卷 2,2004) ”[NPL 2]Kashima H. , Tsuda K.禾口 Inokuchi A.的“Marginalized kernels between labeled graphs (標記圖之間的邊際核函數(shù),ICML,‘ 03 第20屆國際機器學習大會會議記錄,AAAI Press, 2003,321-328) ”

      發(fā)明內容
      技術問題
      鑒于上述情況,本發(fā)明的目標是提供一種用于檢測其中混合了文本信息和非文本信息的文檔之間的相似度的技術、一種用于在考慮每個對象的重要度的情況下檢測文檔之間的相似度的技術,以及一種用于以非常符合人類在一瞥之下確定文檔之間相似度的方式執(zhí)行文檔之間的相似度確定的技術。解決方案為了解決上述問題,本發(fā)明提供了一種支持確定兩個文檔數(shù)據段之間的相似度的計算機可執(zhí)行的方法。所述文檔數(shù)據段包括對象,所述對象包括文本、非文本或文本與非文本的組合。所述方法包括以下步驟將所述文檔數(shù)據段中的每個文檔數(shù)據段轉換為有向圖并存儲所述有向圖,以及通過計算機的操作,使用每個對象的重要度計算轉換后的有向圖之間的相似度。在這種情況下,每個對象的重要度可以是所述對象的面積與所有對象的總面積的比(面積比)。此外,轉換為有向圖的步驟可包括以下步驟將文檔數(shù)據中的對象轉換為節(jié)點并將所述對象中的每個對象的屬性存儲為所述節(jié)點中的一個對應節(jié)點所擁有的特征,以及通過邊連接所述節(jié)點并存儲指示要連接的節(jié)點之間的位置關系的信息。在這種情況下,所述節(jié)點所擁有的特征可包括文本、圖像或圖形屬性。此外,指示所述位置關系的信息可包括上方、下方、左側或右側。此外,可通過圖挖掘來執(zhí)行計算有向圖之間的相似度的步驟。此外,可使用以下項執(zhí)行通過圖挖掘計算相似度的步驟運算從節(jié)點i開始的概率、發(fā)生通過邊轉移到與節(jié)點i相連的節(jié)點j的概率、運算在節(jié)點i結束的概率、指示一對節(jié)點(v,ν')之間的相似度的核函數(shù),以及指示一對邊(e,e')之間的相似度的核函數(shù)。在這種情況下,可通過基于隨機游動的圖挖掘來執(zhí)行通過圖挖掘計算相似度的步驟,并且假設轉換后的有向圖為G和G',當使用以下項計算指示有向圖G和G'之間的相似度的核函數(shù)K(G,G')時ps (i)隨機游動從節(jié)點i開始的概率,pt (j I i)發(fā)生從節(jié)點i轉移到節(jié)點j的轉移概率,pq(i)隨機游動在節(jié)點i結束的概率,K(ν, ν')指示所述一對節(jié)點(ν,ν')之間的相似度的核函數(shù),以及K(e,e')指示所述一對邊(e,e‘)之間的相似度的核函數(shù),ps (i)或pt(j|i)的值可隨每個對象的面積與所有對象的總面積的比(面積比) 而成比例地增大。此外,作為另一方面,提供了一種支持確定兩個文檔數(shù)據段之間的相似度的計算機可執(zhí)行的系統(tǒng)。所述文檔數(shù)據段包括對象,所述對象包括文本、非文本或文本與非文本的組合。所述系統(tǒng)包括用于將所述文檔數(shù)據段中的每個文檔數(shù)據段轉換為有向圖并存儲所述有向圖的裝置,以及用于通過計算機的操作,使用每個對象的重要度計算轉換后的有向圖之間的相似度的裝置。此外,作為另一方面,提供了一種支持確定兩個文檔數(shù)據段之間的相似度的計算機程序。所述計算機程序使計算機執(zhí)行上述每種方法中的步驟。此外,作為另一方面,提供了存儲上述計算機程序以便所述計算機程序可以由計算機讀取的記錄介質。本發(fā)明的有益效果使用本發(fā)明能夠檢測其中混合了文本信息和非文本信息的文檔之間的相似度,并且在考慮每個對象的重要度的情況下檢測文檔之間的相似度。在本發(fā)明中,對象的面積越大,比較該對象的頻率也越高。因此,對象越大,該對象對相似度計算的貢獻也越大。在此布置中,可使計算機以非常符合人類在一瞥之下確定文檔之間相似度的方式執(zhí)行確定。


      圖1示出了本發(fā)明的過程的概述;
      圖2示出了將文檔數(shù)據段轉換為標記有向圖的流程的更詳細的流程圖
      圖3示出了節(jié)點和邊的示意性特征;
      圖4示出了在將演示圖用作文檔數(shù)據的情況下到有向圖的示意性轉換
      圖5示出了節(jié)點的特征的內部數(shù)據結構;
      圖6示出了邊的標記的數(shù)據結構;
      圖7是本發(fā)明的文檔相似度確定系統(tǒng)的方塊圖8是本發(fā)明的文檔相似度確定系統(tǒng)的詳細流程圖9是比較頁面相似度的過程的更詳細的流程圖10是本發(fā)明的文檔數(shù)據相似度確定系統(tǒng)的示意性硬件方塊圖;以及
      圖11是示出更實際的比較方法的圖。
      具體實施例方式圖1示出了本發(fā)明的過程的概述。在步驟110,將每個都包括對象的文檔數(shù)據段轉換為標記有向圖(labeled directed graph)。此時,將每個對象轉換為節(jié)點并計算所述對象的特征。然后,通過邊連接所述節(jié)點。要被連接的節(jié)點之間的地理位置關系被用作分配給對應邊的標記。然后,在步驟120,使用獲取有向圖之間的相似度的函數(shù)計算所述文檔數(shù)據段之間的相似度。此時,除了每個節(jié)點的特征和邊的位置關系以外,還使用每個對象的重要度執(zhí)行計算。在本發(fā)明中,對象的面積被視為對象的重要度。備選地,可以在不偏離本發(fā)明本質的情況下使用其他指標,例如,與特殊形狀成比例的信息或使用數(shù)字水印技術嵌入的重要度。在本發(fā)明的一個實施例中,在節(jié)點和邊的相似度計算中,將對象的面積與所有對象的總面積的比(面積比)用作對象的重要度。圖2示出了將文檔數(shù)據段轉換為標記有向圖的步驟110的更詳細的流程圖。在步驟210,將文檔數(shù)據中的每個對象首先轉換為節(jié)點。此時,對象的屬性被設為節(jié)點的特征。 然后,在步驟220,通過邊連接各節(jié)點。將要連接的節(jié)點之間的位置關系分配給對應的邊作為標記。圖3示出了對象的涉及節(jié)點和邊的屬性。在將文檔數(shù)據轉換為標記有向圖時,節(jié)點所擁有的特征主要包括文本、位像和圖形屬性。文本的內容包括字符串。位像包括作者的用戶ID和面積。圖形屬性包括前景顏色、背景顏色、線型、寬度、高度、形狀以及面積。邊所擁有的特征包括方向和標記。方向包含指示方向從哪個節(jié)點延伸到哪個節(jié)點的信息。標記包含地理位置信息。
      圖4示出了在將演示圖用作文檔數(shù)據的情況下到有向圖的示意性轉換。在兩個圖中,上圖示出了原始圖,下圖示出了原始圖轉換而成的有向圖。符號vl、v2、v3、v4、v5和v6 均表示一個節(jié)點。原始圖中的符號Vl、v2、v3、v4、v5和v6是為了清晰地表達與圖的對應, 實際圖中沒有這些符號。在有向圖中,節(jié)點中的E指示原始對象的形狀為橢圓,節(jié)點中的R 指示原始對象的形狀為矩形,并且節(jié)點中的B指示原始對象為位形。另外,邊的標記A、 B、L和R分別表示上方、下方、左側和右側。例如,在節(jié)點vl與v2之間的關系中,對應的標記指示節(jié)點v2位于節(jié)點Vl右側的位置關系。另外,每個節(jié)點都具有特征。例如,在節(jié)點v3 中,文本為“風險”,線條顏色為黑色,填充色為淺綠色。節(jié)點v6具有對位圖唯一的標識符并且 UID 為 A593F7。圖5示出了節(jié)點的特征的內部數(shù)據結構。此數(shù)據結構存儲在存儲器中。在圖5中, 示出了節(jié)點v3。應該理解,針對每個節(jié)點號存儲了特征名以及值。在圖5中,對應對象的形狀為橢圓。例如,對于節(jié)點v6,對應對象的形狀為B,唯一 ID包含在特征名中,并且A593F7 包含在值中。圖5僅示出了一個實例,并且取決于對象類型,可以適當?shù)乜紤]使用多種特征類型。圖6示出了邊的標記的數(shù)據結構。此數(shù)據結構也存儲在存儲器中。在圖6中,示出了節(jié)點v4與v5之間的邊。邊包括以下特征方向和標記。方向包括指示方向從哪個節(jié)點延伸到哪個節(jié)點的“自”和“至”,在“自”和“至”中將節(jié)點號設為值。在標記中設置地理位置信息值“上方”、“下方”、“左側”和“右側”之一。地理位置信息指示相對于對應邊起點處的節(jié)點,所述邊的終點處的節(jié)點的位置。由于節(jié)點v5位于節(jié)點v4下方,因此在對應值中設置“下方”。另外,由于節(jié)點v4位于節(jié)點v5上方,因此在對應值中設置“上方”。實施例披露了通過核方法實現(xiàn)的采用圖挖掘的相似度確定方法作為實施例。圖挖掘可以計算可由諸如分子結構之類的圖形表示的數(shù)據的相似度,并且用于例如根據獲取的相似度查找具有特定屬性的物質。由于圖挖掘方法是公知的,因此將省略具體的方法。例如,非專利文獻2中提出了一種方法,其中結合了圖挖掘方法以外的隨機游動和核方法。因此,現(xiàn)在將其中定義了適合確定文檔數(shù)據相似度的核函數(shù)并將其用于相似度確定的實例示為本發(fā)明的實施例。圖挖掘概述在基于隨機游動的圖挖掘中,兩個標記有向圖G和G'之間的核函數(shù)K(G,G')表示為[E1]
      權利要求
      1.一種支持確定兩個文檔數(shù)據段之間的相似度的計算機可執(zhí)行的方法,所述文檔數(shù)據段包括對象,所述對象包括文本、非文本或文本與非文本的組合,所述方法包括以下步驟將所述文檔數(shù)據段中的每個文檔數(shù)據段轉換為有向圖并存儲所述有向圖;以及使用每個對象的重要度計算轉換后的有向圖之間的相似度。
      2.如權利要求1中所述的方法,其中每個對象的重要度是所述對象的面積與所有對象的總面積的比亦即面積比。
      3.如權利要求1中所述的方法,其中轉換為有向圖的步驟包括以下步驟將文檔數(shù)據中的對象轉換為節(jié)點并將所述對象中的每個對象的屬性存儲為所述節(jié)點中的一個對應節(jié)點所擁有的特征,以及通過邊連接所述節(jié)點并存儲指示要連接的節(jié)點之間的位置關系的信息。
      4.如權利要求3中所述的方法,其中所述節(jié)點所擁有的特征包括文本、圖像或圖形屬性。
      5.如權利要求3中所述的方法,其中指示所述位置關系的信息包括上方、下方、左側或右側。
      6.如權利要求1中所述的方法,其中通過圖挖掘來執(zhí)行計算有向圖之間的相似度的步馬聚ο
      7.如權利要求6中所述的方法,其中使用以下項執(zhí)行通過圖挖掘計算相似度的步驟 運算從節(jié)點i開始的概率、發(fā)生通過邊轉移到與節(jié)點i相連的節(jié)點j的概率、運算在節(jié)點i 結束的概率、指示一對節(jié)點(v,ν')之間的相似度的核函數(shù),以及指示一對邊(e,e')之間的相似度的核函數(shù)。
      8.如權利要求7中所述的方法,其中通過基于隨機游動的圖挖掘來執(zhí)行通過圖挖掘計算相似度的步驟,并且假設轉換后的有向圖為G和G',當使用以下項計算指示有向圖G和 G'之間的相似度的核函數(shù)K(G,G')時ps (i)隨機游動從節(jié)點i開始的概率,Pt (j I i)發(fā)生從節(jié)點i轉移到節(jié)點j的轉移概率,pq(i)隨機游動在節(jié)點i結束的概率,K(ν, ν')指示所述一對節(jié)點(ν,ν')之間的相似度的核函數(shù),以及 K(e,e')指示所述一對邊(e,e')之間的相似度的核函數(shù), ps (i)或pt(j|i)的值隨每個對象的面積與所有對象的總面積的比亦即面積比而成比例地增大。
      9.一種支持確定兩個文檔數(shù)據段之間的相似度的計算機可執(zhí)行的系統(tǒng),所述文檔數(shù)據段包括對象,所述對象包括文本、非文本或文本與非文本的組合,所述系統(tǒng)包括用于將所述文檔數(shù)據段中的每個文檔數(shù)據段轉換為有向圖并存儲所述有向圖的裝置;以及用于通過計算機的操作,使用每個對象的重要度計算轉換后的有向圖之間的相似度的直ο
      10.如權利要求9中所述的系統(tǒng),其中每個對象的重要度是所述對象的面積與所有對象的總面積的比亦即面積比。
      11.如權利要求9中所述的系統(tǒng),其中用于轉換為有向圖的裝置包括用于將文檔數(shù)據中的對象轉換為節(jié)點并將所述對象中的每個對象的屬性存儲為所述節(jié)點中的一個對應節(jié)點所擁有的特征的裝置,以及用于通過邊連接所述節(jié)點并存儲指示要連接的節(jié)點之間的位置關系的信息的裝置。
      12.如權利要求11中所述的系統(tǒng),其中所述節(jié)點所擁有的特征包括文本、圖像或圖形屬性。
      13.如權利要求11中所述的系統(tǒng),其中指示所述位置關系的信息包括上方、下方、左側或右側。
      14.如權利要求9中所述的系統(tǒng),其中通過圖挖掘來執(zhí)行有向圖之間的相似度的計算。
      15.如權利要求14中所述的系統(tǒng),其中使用以下項執(zhí)行通過圖挖掘計算所述相似度 運算從節(jié)點i開始的概率、發(fā)生通過邊轉移到與節(jié)點i相連的節(jié)點j的概率、運算在節(jié)點i 結束的概率、指示一對節(jié)點(v,ν')之間的相似度的核函數(shù),以及指示一對邊(e,e')之間的相似度的核函數(shù)。
      16.如權利要求15中所述的系統(tǒng),其中通過基于隨機游動的圖挖掘來執(zhí)行通過圖挖掘計算所述相似度,并且假設轉換后的有向圖為G和G',當使用以下項計算指示有向圖G和 G'之間的相似度的核函數(shù)K(G,G')時ps (i)隨機游動從節(jié)點i開始的概率,Pt (j I i)發(fā)生從節(jié)點i轉移到節(jié)點j的轉移概率,pq(i)隨機游動在節(jié)點i結束的概率,K(ν, ν')指示所述一對節(jié)點(ν,ν')之間的相似度的核函數(shù),以及 K(e,e')指示所述一對邊(e,e')之間的相似度的核函數(shù), ps (i)或pt(j|i)的值隨每個對象的面積與所有對象的總面積的比亦即面積比而成比例地增大。
      全文摘要
      本發(fā)明涉及一種確定文檔之間的相似度的方法和設備。本發(fā)明的目標是提供一種檢測其中混合了文本信息和非文本信息的文檔之間的相似度的技術。為了實現(xiàn)上述目標,作為第一方面,提供了一種支持確定兩個文檔數(shù)據段之間的相似度的計算機可執(zhí)行的方法。所述文檔數(shù)據段包括對象,所述對象包括文本、非文本或文本與非文本的組合。所述方法包括以下步驟將所述文檔數(shù)據段中的每個文檔數(shù)據段轉換為有向圖并存儲所述有向圖;以及通過計算機的操作,使用每個對象的重要度計算轉換后的有向圖之間的相似度。
      文檔編號G06F17/30GK102236693SQ20111010350
      公開日2011年11月9日 申請日期2011年4月25日 優(yōu)先權日2010年4月28日
      發(fā)明者三品拓也, 吉濱佐知子 申請人:國際商業(yè)機器公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1