国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      利用文檔聚類的多文檔概括的制作方法

      文檔序號(hào):6578865閱讀:186來(lái)源:國(guó)知局

      專利名稱::利用文檔聚類的多文檔概括的制作方法利用文檔聚類的多文檔概括本申請(qǐng)要求于2008年5月28日提交的臨時(shí)申請(qǐng)序號(hào)61/056,595的優(yōu)先權(quán),其內(nèi)容結(jié)合于此以供參考。
      技術(shù)領(lǐng)域
      本申請(qǐng)涉及用于生成多文檔概要(summaiy)的系統(tǒng)和方法。技術(shù)背景多文檔概括(multi-documentsummarization)^il過(guò)在保持原始文檔主要特征的同時(shí)減少文檔大小以產(chǎn)生一般或集中于主題的概要的過(guò)程。由于導(dǎo)致數(shù)據(jù)超載(overload)問(wèn)題的一個(gè)原因是許多文檔共享相同或相似的主題,所以近年來(lái)自動(dòng)多文檔概括獲得了很大關(guān)注?;ミB網(wǎng)上文檔爆炸式的增加已促進(jìn)了對(duì)概括應(yīng)用的需求。例如,WEB搜索中提供信息片段(informativesnippet)的生成能夠幫助用戶進(jìn)一步探索片段,以及在問(wèn)/答系統(tǒng)中,經(jīng)常需要基于問(wèn)題的概要來(lái)提供問(wèn)題中所提問(wèn)的信息。另一個(gè)例子是在新聞服務(wù)中用于新聞組的短概要,其能夠促進(jìn)用戶更好地理解新聞組中的新聞文章。文檔概括可以是一般的或者是查詢相關(guān)的。一般的多文檔概括應(yīng)當(dāng)反映文檔的一般內(nèi)容而沒(méi)有任何額外信息。查詢相關(guān)的多文檔概括應(yīng)當(dāng)集中于給定査詢中所表示的信息上,即概要必須側(cè)重于給定査詢。所述系統(tǒng)能夠處理一般的和查詢相關(guān)的多文檔概括。多文檔概括的主要問(wèn)題如下首先,包含在不同文檔中的信息經(jīng)常彼此交迭,因此在識(shí)別并刪除冗余時(shí)必須找到一種有效的方式對(duì)文檔進(jìn)行融合。另一個(gè)問(wèn)題在于,識(shí)別文檔之間重要的區(qū)別并覆蓋盡可能多的問(wèn)題的信息內(nèi)容。目前的多文檔概括方法通常集中在詞i敔巨陣(termmatrix)的句子上,或者對(duì)其執(zhí)行矩陣因子分解或者對(duì)其進(jìn)行句子相似性分析,并且將句子分組形成聚類(duster)。接著,可通過(guò)從每個(gè)句子聚類中提取代表性句子建立概要。現(xiàn)有這些方法的問(wèn)題在于它們忽視/句子的上下文關(guān)聯(lián),并且在句子形成聚類和提取期間認(rèn)為它們是彼此獨(dú)立的。然而,同一文檔或同文檔聚類中的句子的確存在相互的影響,這種影響能夠被用作附加知識(shí)以幫助概括。因此,給定文檔的集合,通過(guò)文檔聚類發(fā)現(xiàn)文檔中隱藏的主題能夠在概括期間有助于句子上下文的分析。表l示出了一個(gè)簡(jiǎn)單的示例,用于證明^A在文檔聚類中的隱藏主題的有用性。合成的數(shù)據(jù)集包含四篇非常短的文章,其中每篇僅包含兩個(gè)句子(共8個(gè)句子)。任務(wù)是為這些文章生成兩個(gè)句子的一般概要。<table>tableseeoriginaldocumentpage5</column></row><table>在表l示意性示例中,D,表示第/個(gè)文檔,并且s是第乂個(gè)句子。直接考慮數(shù)據(jù),A和D/談?wù)撎O果產(chǎn)品的良好設(shè)計(jì),而D3和Dj步及高的價(jià)格。高質(zhì)量的概要應(yīng)該包括蘋果產(chǎn)品的上述兩個(gè)特鄰:。然而,如果僅基于句子的相似性將這八個(gè)句子聚類成兩組,則&、&、&和&相同并且應(yīng)該被分在個(gè)聚類中。并且其余句子為討論蘋果的產(chǎn)品的另一組。如果概要被限制為兩個(gè)句子的長(zhǎng)度,則所述概要僅能覆蓋蘋果產(chǎn)品的一個(gè)特征,或者是良好的設(shè)計(jì),或者是高的價(jià)格。因此該概要并不全面。
      發(fā)明內(nèi)容在一個(gè)方面,公開(kāi)了系統(tǒng)和方法,所述系統(tǒng)和方法用于通過(guò)生成作為文檔聚類混合體(mixture)的文檔模型概括多文檔,每個(gè)文檔又具有句子混合體,其中所述模型同時(shí)表示概括信息和文檔聚類結(jié)構(gòu);并且確定用于評(píng)估模型和優(yōu)化模型的損失函數(shù)。在另一方面,一種用于概括文檔的方法包括接收用于文檔的文檔語(yǔ)言模型;從文檔中提取候選句子,并且接收用于每個(gè)候選句子的句子語(yǔ)言模型;根據(jù)所括二者的多文檔概括系統(tǒng)是基于語(yǔ)言模型的,其肯,同時(shí)聚類和概括多個(gè)文檔。該模型將聚婁概括問(wèn)題轉(zhuǎn)換為對(duì)給定文檔和模型重構(gòu)詞語(yǔ)之間的Kullback-Leibler散度(diveiBence)進(jìn)行最小化。最小f^ii禾驢生^^合定聚類(隱含主題)下句子的概率(probabilityofsentencesgivenclusters(hiddentopics))的矩陣。iM^h聚類中具有高概率的句子形要。所述模型顯示出與文檔聚類的隱含主題相關(guān)的附加知識(shí)能夠影響/幫助句子的聚類和提取。tte實(shí)施例的優(yōu)點(diǎn)可能包括以下中的一個(gè)或多個(gè)系統(tǒng)在將文檔聚類為給定大小的目標(biāo)性(tainted)概括的同時(shí)概括多個(gè)文檔。系統(tǒng)按照針對(duì)廣泛使用的DUC文檔和ROUGE度量的評(píng)估,aa使用簡(jiǎn)單的詞袋(bag力f-word)特征產(chǎn)生更高質(zhì)量的概要。該系統(tǒng)也具有如下效果通過(guò)估計(jì)參數(shù)來(lái)獲得給定聚類下句子的概率,其就選^ti要句子的評(píng)分(score)。圖1示出了示例性多文檔概括系統(tǒng)的框架結(jié)構(gòu)。圖2示出了用于概括多個(gè)文檔的示例性過(guò)程。圖3提供了用來(lái)學(xué)習(xí)模型參數(shù)的詳細(xì)框圖。具體實(shí)施方式圖1示出了示例性多文檔概括系統(tǒng)的框架結(jié)構(gòu)。首先,接收多個(gè)文檔(io)。通過(guò)去除格式化字符和無(wú)用詞(stoppingword)對(duì)文檔進(jìn)行預(yù)處理(20)。然后,使用一元語(yǔ)言模型(unigramlanguagemodel)^il過(guò)詞語(yǔ)獲得文檔并且M31詞語(yǔ)矩陣獲得句子。如果任務(wù)是查詢相關(guān)的概括,則通過(guò)詞語(yǔ)矩陣所獲得的句子將被投影到子空間,其中每個(gè)候選句子與該查詢相關(guān)。之后,給定兩個(gè)矩陣,系統(tǒng)針對(duì)該文檔執(zhí)行非負(fù)因子分解(nonnegativefactorization),并且同時(shí)將文檔和句子聚類為隱含主題(30)。采用主題中具有高概率的句子形成概括(40)。圖2示出了用于概括多個(gè)文檔的示例性過(guò)程。在圖IB中,在框101中提供許多文檔作為輸入。在框102中,該過(guò)程獲得用于每^t入文檔的語(yǔ)言模型。在一個(gè)實(shí)施例中,^f寺征表示文檔中特定單詞(詞語(yǔ))出現(xiàn)的數(shù)量。文檔的特征形戯巨陣,用A表示。A的大小是該特征的數(shù)量乘以文檔的數(shù)量。A中的每一列表示一個(gè)文檔,A中的每一行表示一個(gè)待征(或一元語(yǔ)言模型中的詞語(yǔ))。A中的每一個(gè)條目表示給定文檔中特定詞語(yǔ)出現(xiàn)的數(shù)量。與框102平行,該過(guò)程在框103中從文檔中提取句子。該文檔被拆分成句子。僅j爐用于概要的那些句子l雌作fl魏句子。接下來(lái),在框104中,該過(guò)程獲取用于在框102中所識(shí)別出的齡{1魏句子的語(yǔ)言模型。該語(yǔ)言,魏可以與一元語(yǔ)言模型(也就是詞袋特征)一樣簡(jiǎn)單,其中每個(gè)特征表示句子中特定單詞(詞語(yǔ))出現(xiàn)的數(shù)量。該特征集與用于框102中的文檔的特征集相同。句子的特征形戯臥車,用B表示。B的大小是特征的數(shù)量乘以候選句子的數(shù)量。B中的每一列表示一個(gè)句子,B中的每一行表示一個(gè)特征(或一元語(yǔ)言模型中的詞語(yǔ))。B中的每一個(gè)條目表示給定句子中特定詞語(yǔ)出現(xiàn)的比例。框105中,該過(guò)禾雖左用X寸來(lái)自A和B的模型參數(shù)的學(xué)習(xí)(leaming)。該框在圖3中詳細(xì)描述。在框106中,為在每個(gè)聚類(框206中的U)中具有高概率的句子形成概要。在框107中,生》劃既要作為輸出。圖3更詳細(xì)地示出了框105。在框201中,該過(guò)程接收來(lái)自102的文檔語(yǔ)言模型A和來(lái)自104的句子語(yǔ)言模型B作為輸入。在框202中,對(duì)模型BUV7,進(jìn)行制定(formulate),其中U是句子聚類矩陣而V是文檔聚類矩陣。矩陣U的大小是候選句子的數(shù)量乘以聚類的數(shù)量。U的條目是非負(fù)的。U中的每一列的和(sum)是1。矩陣U中的每個(gè)條目代表給定聚類下句子的概率。矩陣V的大小是文檔數(shù)量乘以聚類的數(shù)量。V的條目是非負(fù)的。V中的每一行的和是1。矩陣V中的每個(gè)條冃代表給定文檔下聚類的概率。因此,模型BUV『中的每一列為具有參數(shù)U和V的模型生成的對(duì)應(yīng)文檔的特征。損失(loss)A和BUV7'之間可以是Kullback-Leibler散度,或Frobenius矩陣范數(shù)。在框203中,該過(guò)程更新U以減少損失,并且在框204中,該過(guò)程更新V以減少損失,以下將更加詳細(xì)地討論。在框205,該過(guò)程重復(fù)框203和204直到損失收斂(convene)到預(yù)定水平。在框206中,該過(guò)程返回參數(shù)矩陣U和V作為輸出。如下所述為用于圖3的流程圖的示意性偽代碼算法1給定基(Base)情況下的非負(fù)因子分解7AlgorUhm1No,egativeFactork誠(chéng)i進(jìn)withgivenBasInput:A:documentsbywordsmatrix,13:woi'dsbysen^ncesmatrix;Output:U:訓(xùn)t^ce-topie腿lxix;V:docu騰nMopkmatrix,beginLInitiaHzatioii:InitklizeUandVfolbwDirieWetdistritario踐,withhypei'-jpanuinietero^/andf^sj^ctiveiy,2JCo.rnpjte=A4j/[B'U'VTij;■2,2AssignTJ"一BTCJ\L丄"andno隱alkeeachcohimnto1;2:3Compute=A。/[BUVT]^+ox"andn()r腦lizeeachrowtol''im川convergenceend而口接下來(lái)將詳細(xì)討論語(yǔ)言模型和算法。在上述算法中,對(duì)于詞語(yǔ)的生成過(guò)程weW,給定文檔c/GD,該操作包括*衫隨主題,ZET,符合多項(xiàng)式分布p(糾,*Mi^句子,ses,符令多項(xiàng)式分布p(刺,*扭隨詞語(yǔ),weW,符合多項(xiàng)式分布p(wl力。此處,文檔、主題、句子和詞語(yǔ)形成元組,("Uw)。該過(guò)程使用用于^vvk)的所觀察句子的經(jīng)驗(yàn)分布,并且使得Bw,外小)。該模型參數(shù)是(U,V),其屮u、,齡),(i)VCI力.(2)對(duì)于U和V的先驗(yàn)分布(priordistribution)而言,按多項(xiàng)式分布的共軛先驗(yàn)(conjugatepriorofmultinomialdistribution)獲得Dirichl改分布。U.fDir(《),(3)v一ir(《).(4)信息上(informatively),偽實(shí)例(pseudoinstance)的總數(shù)是a,并且它們均勻分布在所有可能的元組上。由于《,和《,分別被看作具有("A')值和(","值的偽元組的數(shù)量—:a/(|S|x|r|),(5)《=a/(|Z)|x|r|).(6)參數(shù)估計(jì)是N個(gè)所觀察文檔的MAP估計(jì)(或最大似然估計(jì)),順w,力。任務(wù)是(7>u,v=argmin其中f(U'V)=KL(A||BUVT)—lnPr(U.V)。;于表1所給示例,使用上述算法過(guò)程,輸入矩陣表示如下:對(duì)于表2AT=2211111110111111011111000011110000000000、1I0000000110001111以及0.200.250.200.170.200.330.200.200.200.200.200.200.200.200.200.200.200.200.200.200.200.200.200.20、0.250.250.250.170.170.170.170.170.330.330.200,200.200.209該過(guò)程對(duì)U和V進(jìn)行隨機(jī)初始化并相M它們進(jìn)行歸一化(normalize)(在收斂(convergence)和歸一tt^后<formula>formulaseeoriginaldocumentpage10</formula>根據(jù)U和V,A和A屬于一個(gè)聚類而A和A屬于另一組。并且&和&是被選中用于形^1要的兩^U子。結(jié)果與人的感知一致?!繼系纟過(guò){柳文檔聚^(寸多個(gè)文檔進(jìn)行概括。該系統(tǒng)l頓生成文檔作為聚類混合體的模型,該混合體又是文檔中句子的混合體。通過(guò)估計(jì)參數(shù),該系統(tǒng)得出給定聚類下句子的概率,其給出了對(duì)選擇概要句子的評(píng)分。實(shí)驗(yàn)數(shù)據(jù)說(shuō)明該系統(tǒng)優(yōu)于其他方法。圖3的模型同時(shí)代表概括和聚類,并且相應(yīng)的損失函數(shù)(lossflmction)用于評(píng)估該模型。該方法將概括和聚類問(wèn)題轉(zhuǎn)換為對(duì)給定文檔和模型重構(gòu)詞語(yǔ)之間的特定損失進(jìn)行最小化。這樣的損失包括Kullback-Leibler散度、Frobenius矩陣范數(shù)。該最小化過(guò)程產(chǎn)生表示纟合定聚類下句子的概率的矩陣。采用每個(gè)聚類中具有高概率的那些句子形成概要。給定文檔下詞語(yǔ)的生成處理的模型可以表示如下參給定文檔,扭隨符合多項(xiàng)式分布的聚類,*給定聚類,衫隨符合多項(xiàng)式分布的句子,給定句子,衫隨符合多項(xiàng)式分布的詞語(yǔ)。本發(fā)明可以以硬件、固件或軟件或者三者的結(jié)^在可編程的計(jì)算機(jī)上執(zhí)行的計(jì)算機(jī)程序來(lái)實(shí)現(xiàn),該計(jì)儲(chǔ)系統(tǒng)、易失件和非易失性存儲(chǔ)器和/或存儲(chǔ)元件、辛-個(gè)輸出設(shè)備。根據(jù)小例,接下來(lái)討論支持該系統(tǒng)的計(jì)割L框圖。W腿地,該計(jì)算機(jī)包括現(xiàn)。tt^地,本發(fā)明以里器、數(shù)據(jù)存-^^入設(shè)備以及至少由CPU總線耦合的處理器、隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)、禾號(hào)存儲(chǔ)器(,為可寫(xiě)的只讀存儲(chǔ)器(ROM),如閃存ROM)和輸A/輸出(I/O)控制器。該計(jì)算機(jī)可任淑也包括硬盤控制器,其與石鵬和CPU總線耦合。硬盤可以被用來(lái)存儲(chǔ)應(yīng)用禾號(hào),如本發(fā)明和數(shù)據(jù)??蛇x地,應(yīng)用禾驕可以保存在RAM或ROM上。I/O控制器借助于I/O總線耦合到I/O接口。I/O接口在通信鏈路上接收和錢模擬或數(shù)字形式的數(shù)據(jù),該通信鏈路例如串行鏈路、局域網(wǎng)、無(wú)線鏈路以及并行鏈路??蛇x的,顯示器、,和指示設(shè)備(鼠標(biāo))也被連接到i/o總線??商娲?,也可將^^蟲(chóng)連接(^^蟲(chóng)總線)用于I/0接口、顯示器、鵬和指示設(shè)備。可通過(guò)從另一個(gè)源(如軟盤、CD-ROM或另一臺(tái)計(jì)飾下載辦而對(duì)可編程處理系統(tǒng)預(yù)編程或被編程(以及預(yù)編程)。每個(gè)計(jì)算機(jī)程序被明確地保存在機(jī)器可讀存儲(chǔ)介質(zhì)上或通過(guò)通用或?qū)S玫目删幊逃?jì)算機(jī)可讀取的設(shè)備(如程序存儲(chǔ)器或磁盤)上,當(dāng)存儲(chǔ)介質(zhì)或設(shè)備被計(jì)算機(jī)讀取以執(zhí)行其中所描述的程序時(shí),該計(jì)算機(jī)程序用于配置和控制計(jì)算機(jī)的操作。本發(fā)明的系統(tǒng)也可以考慮包含在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,其配置有計(jì)算機(jī)超芊,其中這樣配置的存儲(chǔ)介質(zhì)使得計(jì)算機(jī)以特定的、預(yù)定義方式操作以執(zhí)行在此描述的功能。此處已對(duì)本發(fā)明進(jìn)行了詳細(xì)描述,以便符合專利法并且為本領(lǐng)域技術(shù)人員提供了應(yīng)用該新的原理以及構(gòu)造和使用該專門部件所需的信息。然而,應(yīng)當(dāng)理解本發(fā)明能夠通過(guò)特定地不同設(shè)備和裝置來(lái)實(shí)施,并且關(guān)于設(shè)備細(xì)節(jié)和操作過(guò)程的各種修改能在不背離本發(fā)明自身范圍的情況下被實(shí)現(xiàn)。雖然以上己經(jīng)結(jié)合附圖詳細(xì)描述了本發(fā)明的特定實(shí)施例,但應(yīng)當(dāng)理解本發(fā)明并不局限于所示出的特定實(shí)施例,而是能夠進(jìn)行大量的重新配置、修改和替代而不背離本發(fā)明的范圍。所附權(quán)利要求意在包含所有這些修改。權(quán)利要求1.一種用于概括文檔的方法,包括a.生成作為文檔聚類混合體的文檔模型,每個(gè)文檔又具有句子的混合體,其中所述模型同時(shí)表示概括信息和文檔聚類結(jié)構(gòu);以及b.確定損失函數(shù),用于評(píng)估所述模型和優(yōu)化所述模型。2.如權(quán)利要求1所述的方法,包括接收用于文檔的文檔語(yǔ)言模型。3.如權(quán)利要求2戶脫的方法,其中文檔語(yǔ)言模型包括一元語(yǔ)言模型。4.如權(quán)利要求1戶,的方法,包括從文檔中提取fl魏句子,并且接收用于每個(gè)候選句子的句子語(yǔ)言模型。5.如權(quán)利要求4所述的方法,其中句子語(yǔ)言模型包括一元語(yǔ)言模型。6.如權(quán)利要求1所述的方法,包括根據(jù)文檔語(yǔ)言模型和句子語(yǔ)言模型確定模型參數(shù)。7.如權(quán)利要求1所述的方法,包括基于戶腿模型為所述文檔生成概要。8.如權(quán)利要求1所述的方法,包括生;^^f述文檔或戶;M句子的特征矩陣。9.如權(quán)禾腰求10M的方法,包括生/^莫型BUV、其中U是句子聚類矩陣并且V是文檔聚類矩陣。10.如權(quán)利要求9所述的方法,其中模型BUV'中的每一列包括由具有參數(shù)U和V的所述模Mi^生成的相應(yīng)文檔的特征。11.如權(quán)利要求9所述的方法,包括制定模型BUV『以對(duì)文檔語(yǔ)言模型進(jìn)微似。12.如權(quán)利要求l戶脫的方法,其中損失函數(shù)包括Kullback-Leibler散度函數(shù)或Frobenius矢巨陣范數(shù)。13.如權(quán)禾腰求l戶腿的方法,包括最小化所述損失函數(shù)。14.一種用于概括文檔的方法,包括a.接收用于文檔的文檔語(yǔ)言模型;b.從所述文檔中提取候選句子并且接收用于每個(gè)候選句子的句子語(yǔ)言模型;c.根據(jù)文檔語(yǔ)言模型和句子語(yǔ)言模型確定模型參數(shù);以及d.為戶皿文檔生淑既要。15.如權(quán)利要求14所述的方法,其中文檔或句子語(yǔ)言模型包括一元語(yǔ)言模型。16.如權(quán)利要求15戶脫的方法,包括生j^腿文檔的特征矩陣。17.如權(quán)禾腰求15戶腿的方法,包括生^^M句子的特征矩陣。18.如權(quán)利要求14所述的方法,包括生成模型BUV、其中U是句子聚類矩陣并且V是文檔聚類矩陣。19.如權(quán)利要求18所述的方法,其中模型BUV^中的每一列包括由具有參數(shù)U和V的所述模型生成的相應(yīng)文檔的特征。20.如權(quán)利要求18所述的方法,包括制定模型BUV^以對(duì)文檔語(yǔ)言1tM進(jìn),測(cè)以。21.如權(quán)利要求14所述的方法,包括確定損失函數(shù)。全文摘要本發(fā)明涉及利用文檔聚類的多文檔概括。用于通過(guò)產(chǎn)生作為文檔聚類的混合體的文檔模型概括多文檔的系統(tǒng)和方法,每個(gè)文檔又具有句子混合體,其中所述模型同時(shí)表示概括信息和文檔聚類結(jié)構(gòu);以及確定損失函數(shù),用于評(píng)估所述模型和優(yōu)化所述模型。文檔編號(hào)G06F17/27GK101676897SQ200910149778公開(kāi)日2010年3月24日申請(qǐng)日期2009年5月27日優(yōu)先權(quán)日2008年5月28日發(fā)明者D·王,S·朱,Y·赤,Y·龔申請(qǐng)人:美國(guó)日本電氣實(shí)驗(yàn)室公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1