專利名稱:指數(shù)模型的自適應的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及指數(shù)模型,尤其涉及使指數(shù)模型適應特定數(shù)據(jù)。
背景技術(shù):
指數(shù)概率模型包括諸如最大熵模型和條件隨機場(CRF)模型等模型。在最大熵模型中,常見的是具有一組特征,它們是當特征在數(shù)據(jù)集中存在時具有值1,而當特征不存在時具有值0的指示函數(shù)。對特征的加權(quán)和取指數(shù)并歸一化以形成最大熵概率。
通常,最大熵模型的權(quán)值在大訓練數(shù)據(jù)集上訓練。為避免過訓練權(quán)值(模型),現(xiàn)有技術(shù)的至少一種技術(shù)應用平滑來為未看見的數(shù)據(jù)保存概率質(zhì)量。
盡管使用大訓練數(shù)據(jù)集令最大熵模型在大輸入數(shù)據(jù)集上是有用的,然而它也產(chǎn)生了不對特定類型的輸入數(shù)據(jù)最優(yōu)的最大熵模型。
由此,期望的是能夠使在大訓練數(shù)據(jù)集上訓練的最大熵模型適應特定的期望數(shù)據(jù)集,使得它們可用該期望數(shù)據(jù)來更好地執(zhí)行。
發(fā)明內(nèi)容
提供了用于適應指數(shù)概率模型的方法和裝置。在第一階段,通過基于一組背景數(shù)據(jù)為概率模型確定一組模型參數(shù),從背景數(shù)據(jù)構(gòu)建通用背景模型。然后使用背景模型參數(shù)來為尤其適合感興趣的適應數(shù)據(jù)集的已適應概率模型的參數(shù)定義先驗模型。適應數(shù)據(jù)集一般在大小上比背景數(shù)據(jù)集更小。然后基于該適應數(shù)據(jù)集和先驗模型為已適應的概率模型確定第二組模型參數(shù)。
圖1是其中可實施本發(fā)明的一個計算環(huán)境的框圖。
圖2是其中可實施本發(fā)明的一個替換計算環(huán)境的框圖。
圖3是識別文本串中的單詞的大寫化的方法的流程圖。
圖4是在本發(fā)明的一個實施例中適應最大熵模型的方法的流程圖。
圖5是在本發(fā)明的一個實施例中用于適應最大熵模型的元件的框圖。
具體實施例方式
圖1示出了適合在其中實現(xiàn)本發(fā)明的計算系統(tǒng)環(huán)境100的一個示例。計算系統(tǒng)環(huán)境100僅為合適的計算環(huán)境的一個示例,并非暗示對本發(fā)明的使用范圍或功能的局限。也不應將計算環(huán)境100解釋為對示例性操作環(huán)境100中示出的任一組件或其組合具有任何依賴或需求。
本發(fā)明可以使用眾多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置來操作。適合使用本發(fā)明的眾所周知的計算系統(tǒng)、環(huán)境和/或配置包括但不限于個人計算機、服務器計算機、手持式或膝上設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費者電子設備、網(wǎng)絡PC、小型機、大型機、包括任一上述系統(tǒng)或設備的分布式計算環(huán)境等等。
本發(fā)明可以在諸如由網(wǎng)絡環(huán)境中的計算機執(zhí)行的程序模塊等計算機可執(zhí)行指令的一般上下文環(huán)境中描述。一般而言,程序模塊包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等,執(zhí)行特定的任務或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。本發(fā)明被設計成在分布式計算環(huán)境中實踐,其中,任務由通過通信網(wǎng)絡連接的遠程處理設備來執(zhí)行。在分布式計算環(huán)境中,程序模塊可以位于包括存儲器存儲設備的本地和遠程計算機存儲介質(zhì)中。
參考圖1,用于實現(xiàn)本發(fā)明的示例性系統(tǒng)包括計算機110形式的通用計算裝置。計算機110的組件包括但不限于,處理單元120、系統(tǒng)存儲器130以及將包括系統(tǒng)存儲器的各類系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干種總線結(jié)構(gòu)類型的任一種,包括存儲器總線或存儲器控制器、外圍總線以及使用各類總線體系結(jié)構(gòu)的局部總線。作為示例而非局限,這類體系結(jié)構(gòu)包括工業(yè)標準體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強ISA(EISA)總線、視頻電子技術(shù)標準協(xié)會(VESA)局部總線以及外圍部件互連(PCI)總線,也稱為Mezzanine總線。
計算機110通常包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是可由計算機110訪問的任一可用介質(zhì),包括易失性和非易失性介質(zhì)、可移動和不可移動介質(zhì)。作為示例而非局限,計算機可讀介質(zhì)包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)包括以用于儲存諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的任一方法或技術(shù)實現(xiàn)的易失性和非易失性,可移動和不可移動介質(zhì)。計算機存儲介質(zhì)包括但不限于,RAM、ROM、EEPROM、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁盒、磁帶、磁盤存儲或其它磁存儲設備、或可以用來儲存所期望的信息并可由計算機110訪問的任一其它介質(zhì)。通信介質(zhì)通常在諸如載波或其它傳輸機制的已調(diào)制數(shù)據(jù)信號中包含計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包括任一信息傳送介質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號”指以對信號中的信息進行編碼的方式設置或改變其一個或多個特征的信號。作為示例而非局限,通信介質(zhì)包括有線介質(zhì),如有線網(wǎng)絡或直接連線連接,以及無線介質(zhì),如聲學、RF、紅外和其它無線介質(zhì)。上述任一的組合也應當包括在計算機可讀介質(zhì)的范圍之內(nèi)。
系統(tǒng)存儲器130包括以易失性和/或非易失性存儲器形式的計算機存儲介質(zhì),如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)包括如在啟動時幫助在計算機110內(nèi)的元件之間傳輸信息的基本例程,通常儲存在ROM 131中。RAM 132通常包含處理單元120立即可訪問或者當前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非局限,圖1示出了操作系統(tǒng)134、應用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計算機110也可包括其它可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)。僅作示例,圖1示出了對不可移動、非易失性磁介質(zhì)進行讀寫的硬盤驅(qū)動器141、對可移動、非易失性磁盤152進行讀寫的磁盤驅(qū)動器151以及對可移動、非易失性光盤156,如CD ROM或其它光介質(zhì)進行讀寫的光盤驅(qū)動器155。可以在示例性操作環(huán)境中使用的其它可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字視頻帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動器141通常通過不可移動存儲器接口,如接口140連接到系統(tǒng)總線121,磁盤驅(qū)動器151和光盤驅(qū)動器155通常通過可移動存儲器接口,如接口150連接到系統(tǒng)總線121。
上文討論并在圖1示出的驅(qū)動器及其關(guān)聯(lián)的計算機存儲介質(zhì)為計算機110提供了計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲。例如,在圖1中,示出硬盤驅(qū)動器141儲存操作系統(tǒng)144、應用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應用程序135、其它程序模塊136和程序數(shù)據(jù)137相同,也可以與它們不同。這里對操作系統(tǒng)144、應用程序145、其它程序模塊146和程序數(shù)據(jù)147給予不同的標號來說明至少它們是不同的副本。
用戶可以通過輸入設備,如鍵盤162和定點設備161(通常指鼠標、跟蹤球或觸摸板)向計算機110輸入命令和信息。其它輸入設備(未示出)可包括麥克風、操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等等。這些和其它輸入設備通常通過耦合至系統(tǒng)總線的用戶輸入接口160連接至處理單元120,但是也可以通過其它接口和總線結(jié)構(gòu)連接,如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器191或其它類型的顯示設備也通過接口,如視頻接口190連接至系統(tǒng)總線121。除監(jiān)視器之外,計算機也可包括其它外圍輸出設備,如揚聲器197和打印機196,它們通過輸出外圍接口195連接。
計算機110可以在使用到一個或多個遠程計算機,如遠程計算機180的邏輯連接的網(wǎng)絡化環(huán)境中操作。遠程計算機180可以是個人計算機、服務器、路由器、網(wǎng)絡PC、對等設備或其它公用網(wǎng)絡節(jié)點,并通常包括許多或所有相對于計算機110所描述的元件。圖1描述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,這里示出作為示例而非局限。這類網(wǎng)絡環(huán)境常見于辦公室、企業(yè)范圍計算機網(wǎng)絡、內(nèi)聯(lián)網(wǎng)以及因特網(wǎng)。
當在LAN網(wǎng)絡環(huán)境中使用時,計算機110通過網(wǎng)絡接口或適配器170連接至LAN 171。當在WAN網(wǎng)絡環(huán)境中使用時,計算機110可包括調(diào)制解調(diào)器172或用于通過WAN 173,如因特網(wǎng)建立通信的其它裝置。調(diào)制解調(diào)器172可以是內(nèi)置或外置的,通過用戶輸入接口160或其它適當?shù)臋C制連接至系統(tǒng)總線121。在網(wǎng)絡化環(huán)境中,相對于計算機110所描述的程序模塊或其部分可儲存在遠程存儲器存儲設備中。作為示例而非局限,圖1示出遠程應用程序185駐留在遠程計算機180上??梢岳斫?,示出的網(wǎng)絡連接是示例性的,也可以使用在計算機之間建立通信鏈路的其它裝置。
圖2是移動設備200的框圖,它是一個示例性計算環(huán)境。移動設備200包括微處理器202、存儲器204、輸入/輸出(I/O)組件206和用于與遠程計算機或其它移動設備通信的通信接口208。在一個實施例中,上述組件被耦合在一起用于通過合適的總線210彼此通信。
存儲器204被實現(xiàn)為非易失性電子存儲器,如具有電池備份模塊(未示出)的隨機存取存儲器(RAM),使得當關(guān)閉移動設備200的總電源時,儲存在存儲器204中的信息也不會丟失。存儲器204的一部分較佳地被分配為用于程序執(zhí)行的可尋址存儲器,而存儲器204的另一部分較佳地用于存儲,如模擬盤驅(qū)動器上的存儲。
存儲器204包括操作系統(tǒng)212、應用程序214以及對象存儲216。在操作期間,操作系統(tǒng)212較佳地由處理器202從存儲器204執(zhí)行。在一個較佳實施例中,操作系統(tǒng)212是可從微軟公司購買的WINDOWSCE品牌的操作系統(tǒng)。操作系統(tǒng)212較佳地被設計成用于移動設備,并實現(xiàn)可由應用程序214通過一組展現(xiàn)的應用編程接口和方法來使用的數(shù)據(jù)庫特征。對象存儲216中的對象由應用程序214和操作系統(tǒng)212至少部分地響應于對所展現(xiàn)的應用編程接口和方法的調(diào)用來維護。
通信接口208表示允許移動設備200發(fā)送和接收信息的眾多設備和技術(shù)。僅舉幾個例子,設備包括有線和無線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器。移動設備200也可直接耦合到計算機以與其交換數(shù)據(jù)。在這些情況下,通信接口208可以是紅外收發(fā)器或串行或并行通信連接,它們所有都能夠發(fā)送流信息。
輸入/輸出組件206包括各種輸入設備,如觸敏屏幕、按鈕、滾軸和麥克風,以及各種輸出設備,包括音頻發(fā)生器、振動裝置和顯示屏。以上列出的設備作為示例,并不需要都在移動設備200上存在。另外,在本發(fā)明的范圍內(nèi),其它輸入/輸出設備可被附加到移動設備200,或與移動設備200一起建造。
本發(fā)明解決了將句子的大寫識別為序列標記問題的問題,其中,向單詞序列分配指示要應用于單詞的大寫的類型或形式的大寫標簽序列。在一個實施例中,可能的大寫標簽包括LOC小寫CAP大寫MXC混合大小寫;對于這類單詞的大寫不作進一步的猜測。一種可能性是使用訓練數(shù)據(jù)中遇到的最頻繁的那一個。
AUC所有大寫PNC標點基于這一方法,本發(fā)明的一個實施例構(gòu)造了一種馬爾可夫模型,它向給定單詞序列W=w1...wn的任一可能的標簽序列T=t1...tn=T1n分配一概率p(T|W)。在一個實施例中,這一概率被確定為P(T|W)=Πi-1nP(ti|x‾i(W,T1i-1))]]>公式1其中,ti是對應于單詞i的標簽,而xi(W,T1i-1)是在其上構(gòu)建概率模型的單詞序列中的位置i處的條件或上下文信息。
在一個實施例中,上下文信息是可從單詞序列中的前一單詞、當前單詞和下一單詞以及先前的兩個大寫標簽中確定的信息。由這些值提供的信息不僅包括單詞和標簽本身,還包括每一單詞的各部分,以及從單詞形成的二字母組和三字母組,和從標簽形成的二字母組。
在本發(fā)明的一個實施例中,概率 使用最大熵模型來建模。該模型使用特征,它們是以下類型的指示函數(shù) 公式2其中,y替換ti使用,而x表示上下文信息 盡管特征被示出為具有值0或1,然而在其它實施例中,特征可以是任何實數(shù)值。
假定其基數(shù)為F一組特征F,概率分配依照以下公式作出pΛ(y|x‾)=Z-1(x‾,Λ)·exp[Σi=1Fλifi(x‾,y)]]]>公式3Z(x‾,Λ)=Σyexp[Σi=1Fλifi(x‾,y)]]]>公式4其中,Λ={λ1...λF}∈RF是實值模型參數(shù)集。由此,最大熵模型通過對指示函數(shù)的加權(quán)和取指數(shù)來計算。
圖3提供了用于訓練并使用最大熵概率來識別文本串的大寫化的方法的流程圖。在步驟300,從預定特征集中選擇特征。這一選擇使用簡單的計數(shù)截止算法來執(zhí)行,該算法對訓練語料庫中的每一特征的出現(xiàn)次數(shù)進行計數(shù)。其計數(shù)小于預先指定的閾值的那些特征被丟棄。這減少了必須訓練的參數(shù)的數(shù)量??扇芜x地,通過將閾值設為0來保持預定集中的所有特征是可能的。
在步驟302,估算最大熵模型的權(quán)值。在一個實施例中,估算模型參數(shù)Λ={λ1...λF}∈RF,使得該模型向服從以零為中心的確保平滑的高斯先驗的訓練數(shù)據(jù)集分配最大對數(shù)似然函數(shù)。在其它實施例中,可使用不同的先驗分布來平滑,如指數(shù)先驗。在使用改進的迭代縮放來確定模型參數(shù)的一個實施例中,這導致對每一λ更新公式λi(t+1)=λi(t)+δi]]>公式5其中,δi滿足
Σx‾,yp~(x‾,y)fi(x‾,y)-λiσi2=δiσi2+]]>Σx‾,yp~(x‾)pΛ(y|x‾)fi(x‾,y)exp(δif#(x‾,y))]]>公式6其中,f#(x,y)是觸發(fā)事件x,y的特征的和。在公式6中, 是訓練數(shù)據(jù)中上下文x和輸出或標簽y的共同出現(xiàn)的相對頻率, 是訓練數(shù)據(jù)中上下文的相對頻率,而σi2是零均值高斯先驗的方差。
盡管示出了用于改進的迭代縮放估算技術(shù)的更新公式,然而可使用其它技術(shù)通過最大化對數(shù)似然函數(shù)來估算模型參數(shù),如廣義迭代縮放、快速迭代縮放、梯度上升變體或任一其它已知的估算技術(shù)。
一旦已訓練了最大熵模型的權(quán)值,在步驟304接收要大寫化的文本串。在步驟306,使用訓練的最大熵權(quán)值來找出用于文本串中的單詞序列的大寫形式序列,它最大化了條件概率的P(T|W)。最大化這一概率的大寫序列被選中作為用于文本串的大寫化。
對最大化條件概率的標簽序列的搜索可使用任何可接受的搜索技術(shù)來執(zhí)行。例如,可通過將串中的每一單詞的可能大寫形式表示為網(wǎng)格結(jié)構(gòu)來執(zhí)行維特比(Viterbi)搜索。在每一單詞處,對從前一單詞的大寫形式到每一大寫形式的每一可能路徑確定得分。當計算這些得分時,從沿該路徑找到的大寫形式中取出在最大熵特征中使用的過去的大寫形式。提供最高得分的成為大寫形式的路徑被選中作為該大寫形式的路徑。然后使用為當前單詞的該大寫形式確定的概率更新該路徑的得分。在最后一個單詞處,選擇具有最高得分的路徑,然后使用沿該路徑的大寫形式序列作為該單詞序列的大寫形式。
盡管上文使用了最大熵模型,然而在本發(fā)明的其它實施例中,可使用利用指數(shù)概率的其它模型來確定條件概率。例如,可使用條件隨機場(CRF)。
在本發(fā)明的某些實施例中,在大背景數(shù)據(jù)集上訓練最大熵模型,然后使其適應較小的特定數(shù)據(jù)集,使得該模型用較小的特定數(shù)據(jù)集中找到的類型的數(shù)據(jù)能夠執(zhí)行良好。圖4提供了在本發(fā)明中使用最大熵模型的方法的流程圖,圖5提供了用于適應最大熵模型的元件的框圖。
在步驟400,選擇特征閾值計數(shù)。在步驟401,這一閾值計數(shù)由訓練器502使用來基于背景訓練數(shù)據(jù)504選擇一組特征500。在一個實施例中,這涉及每次當在背景訓練數(shù)據(jù)504中的一組預定特征506的每一個時對次數(shù)進行計數(shù),然后僅選擇出現(xiàn)次數(shù)比由閾值計數(shù)所表示的次數(shù)多的那些特征。
在步驟402,從一組可能的方差508中對每一權(quán)值選擇先驗高斯模型的方差。在步驟404,訓練器502訓練基于背景訓練數(shù)據(jù)504訓練的最大熵模型的權(quán)值,同時通過上述公式5和6使用平滑和所選擇的方差。
注意,在上文的公式5和6中,使用了一種改進的迭代縮放技術(shù)來估算最大化對數(shù)似然函數(shù)的權(quán)值。步驟404不限于這一估算技術(shù),也可使用其它估算技術(shù),如廣義迭代縮放、快速迭代縮放、梯度上升或任何其它估算技術(shù)來識別權(quán)值。
在步驟406,訓練器502確定在方差組508中是否還有方差應當被評估。在本發(fā)明中,使用對每一組權(quán)值使用不同的方差組來訓練多組權(quán)值。如果在步驟406還有方差組需要被評估,則過程返回到步驟402,并且在步驟404對該組方差訓練一組權(quán)值之前選擇一組新的方差。重復步驟402、404和406,直到不再有方差組要被評估。
當在步驟406不再有方差組要被評估時,過程在步驟407確定是否還有閾值計數(shù)要被評估。如果還有閾值計數(shù),則在步驟400選擇一新的閾值計數(shù),然后對該新的閾值計數(shù)重復步驟401、402、404和406。通過使用不同的閾值計數(shù),使用不同的特征集來構(gòu)造不同的最大熵模型。
當在步驟407沒有閾值計數(shù)要被評估時,產(chǎn)生了一組可能的模型510,其每一個具有其自己的權(quán)值組。選擇單元512然后在步驟408選擇提供背景開發(fā)數(shù)據(jù)514上的最佳大寫準確性的模型。所選擇的模型形成初始背景模型516。
在步驟409,再一次選擇特征閾值計數(shù),并且在步驟410,對一組適應訓練數(shù)據(jù)518重復特征選擇過程,以產(chǎn)生適應特征520。這可導致相同的組,雖然一般它將產(chǎn)生來自在步驟400所選擇的那些的特征的超集。
在步驟412,再一次從方差集合508中為先驗模型選擇一組方差。使用所選擇的一組方差、適應訓練數(shù)據(jù)518和初始背景模型516的權(quán)值,自適應單元522在步驟414訓練一組已適應的權(quán)值。在一個實施例中,權(quán)值的先驗分布被模型化為高斯分布,使得自適應訓練數(shù)據(jù)的對數(shù)似然函數(shù)變?yōu)長(Λ)=Σx‾,yp~(x‾,y)logpΛ(y|x‾)-Σi-1F(λi-λi0)22σi2+const(Λ)]]>公式7其中,公式7右邊的第二項中的求和 表示給定具有等于初始背景模型516中的權(quán)值的均值以及在步驟412選擇的方差的高斯先驗時值的權(quán)值的概率。第二項中的求和被從通過在步驟400的特征選擇步驟形成的所選擇的特征500與通過步驟410的特征選擇過程形成的自適應特征520的并操作中形成的所有特征取代。對于背景數(shù)據(jù)中不存在的特征,將先驗均值設為0。在其它實施例中,不執(zhí)行步驟409和410,并且在公式7中使用從背景數(shù)據(jù)識別的相同特征來適應該模型。
使用該先驗模型以及改進的迭代縮放技術(shù),用于在步驟414訓練已適應權(quán)值的更新公式變?yōu)?amp;lambda;it+1=λit+δi]]>公式8其中,δi滿足Σx‾,yp~(x‾,y)fi(x‾,y)-(λi-λi0)σi2=δiσi2+]]>Σx‾,yp~(x‾)pΛ(y|x‾)fi(x‾,y)exp(δif#(x‾,y))]]>公式9其中, 是自適應訓練數(shù)據(jù)518中上下文x和輸出或標簽y的共同出現(xiàn)的相對頻率,而 是適應訓練數(shù)據(jù)518中上下文的相對頻率。
先驗概率的效果是保持模型參數(shù)λi接近于從背景數(shù)據(jù)生成的模型參數(shù)。從初始模型參數(shù)中離開的成本由方差σi的量來指定,使得小方差將保持模型參數(shù)接近于初始模型參數(shù),而大方差將令正則化的對數(shù)似然函數(shù)對初始模型參數(shù)不敏感,從而允許模型參數(shù)更好地符合自適應數(shù)據(jù)。
在特征不存在于自適應訓練數(shù)據(jù)518而存在于背景訓練數(shù)據(jù)504中的情況下,仍在步驟414更新該特征的權(quán)值。
在步驟416,該方法確定是否還有方差組要被評估。如果還有方差組要被評估,則過程返回到步驟412,并且選擇一組新的方差。然后在步驟414使用該組新的方差和初始背景模型516的權(quán)值來適應另一權(quán)值組。重復步驟412、414和416,直到?jīng)]有方差要被評估。
當在步驟416沒有方差組要被評估時,該過程在步驟417確定是否還有特征閾值計數(shù)要被評估。如果還有特征計數(shù),則在步驟409選擇新的特征計數(shù),并對新的閾值計數(shù)重復步驟410、412、414和416。
步驟412、414和416產(chǎn)生了一組可能的已適應模型524。在步驟418,使用公式7提供了自適應開發(fā)數(shù)據(jù)集526的最高對數(shù)似然函數(shù)的已自適應模型由選擇單元528選中,作為最終的已自適應模型530。
盡管在以上描述中,在公式7的對數(shù)似然函數(shù)確定中使用了高斯先驗分布,然而本領(lǐng)域的技術(shù)人員將認識到,可使用其它形式的先驗分布。特別地,可使用指數(shù)先驗概率來替代高斯先驗。
盡管上文參考大寫化討論的自適應算法,然而它可以應用到使用最大熵模型的任何分類問題,諸如用于垃圾郵件過濾和語言建模的文本分類。
通過允許使模型權(quán)值自適應小的自適應數(shù)據(jù)集,對最大熵模型訓練初始模型參數(shù),并將那些模型參數(shù)放置在發(fā)貨或發(fā)送給顧客的產(chǎn)品中是可能的。顧客然后可在顧客的系統(tǒng)中的特定數(shù)據(jù)上自適應最大熵模型。例如,顧客可具有諸如科學雜志文章等特定類型的文本的示例。使用本自適應算法中的這些項目,顧客能夠自適應最大熵模型參數(shù),因此它們能用科學雜志文章來更好地操作。
盡管參考特定實施例描述了本發(fā)明,然而本領(lǐng)域的技術(shù)人員將認識到,可以在不脫離本發(fā)明的精神和范圍的情況下在形式和細節(jié)上作出改變。
權(quán)利要求
1.一種形成已自適應的指數(shù)概率模型的方法,所述方法包括基于一背景數(shù)據(jù)集為背景概率模型確定一組模型參數(shù);使用所述模型參數(shù)來為已自適應的概率模型的模型參數(shù)定義先驗模型;以及基于一自適應數(shù)據(jù)集和所述先驗模型為所述已自適應的概率模型確定第二組模型參數(shù)。
2.如權(quán)利要求1所述的方法,其特征在于,基于一背景數(shù)據(jù)集為所述背景概率模型確定一組模型參數(shù)包括選擇為所述背景數(shù)據(jù)集提供最大似然函數(shù)的模型參數(shù)。
3.如權(quán)利要求2所述的方法,其特征在于,基于一背景數(shù)據(jù)集為所述背景概率模型確定一組模型數(shù)據(jù)還包括選擇為服從平滑條件的背景數(shù)據(jù)集提供最大似然函數(shù)的模型參數(shù)。
4.如權(quán)利要求3所述的方法,其特征在于,所述平滑條件包括每一模型參數(shù)的先驗概率。
5.如權(quán)利要求4所述的方法,其特征在于,所述平滑條件包括對每一模型參數(shù)具有零均值的先驗概率。
6.如權(quán)利要求1所述的方法,其特征在于,使用所述模型參數(shù)來定義先驗模型包括定義高斯先驗模型。
7.如權(quán)利要求1所述的方法,其特征在于,使用所述模型參數(shù)來定義先驗模型包括定義指數(shù)先驗模型。
8.如權(quán)利要求1所述的方法,其特征在于,確定第二組模型參數(shù)包括選擇最大化服從先驗模型的自適應數(shù)據(jù)的似然函數(shù)的一組模型參數(shù)。
9.如權(quán)利要求1所述的方法,其特征在于,所述已自適應的概率模型是特征的加權(quán)和的指數(shù)函數(shù)。
10.如權(quán)利要求9所述的方法,其特征在于,還包括從所述背景數(shù)據(jù)中識別一特征集。
11.如權(quán)利要求10所述的方法,其特征在于,還包括從所述自適應數(shù)據(jù)中識別一特征集。
12.如權(quán)利要求11所述的方法,其特征在于,確定第二組模型參數(shù)包括使用來自所述背景數(shù)據(jù)的特征集和來自所述自適應數(shù)據(jù)的特征集。
13.如權(quán)利要求1所述的方法,其特征在于,所述指數(shù)概率模型包括最大熵模型。
14.如權(quán)利要求1所述的方法,其特征在于,所述指數(shù)概率模型包括對數(shù)線性模型。
15.如權(quán)利要求1所述的方法,其特征在于,所述指數(shù)概率模型包括特征的指數(shù)加權(quán)和,它被歸一化使得它提供正確的概率分配。
16.一種具有用于執(zhí)行以下步驟的計算機可執(zhí)行指令的計算機可讀介質(zhì)確定最大化背景數(shù)據(jù)集的似然函數(shù)的一組初始權(quán)值,其中,所述似然函數(shù)基于指數(shù)概率模型;以及確定最大化自適應數(shù)據(jù)集的似然函數(shù)一組已自適應權(quán)值,其中,所述似然函數(shù)基于第二指數(shù)概率模型以及從所述初始權(quán)值組形成的先驗模型。
17.如權(quán)利要求16所述的計算機可讀介質(zhì),其特征在于,所述先驗模型包括高斯模型。
18.如權(quán)利要求16所述的計算機可讀介質(zhì),其特征在于,所述先驗模型包括指數(shù)模型。
19.如權(quán)利要求16所述的計算機可讀介質(zhì),其特征在于,所述指數(shù)概率模型使用特征集的加權(quán)和。
20.如權(quán)利要求19所述的計算機可讀介質(zhì),其特征在于,所述第二指數(shù)概率模型使用第二特征集的加權(quán)和。
21.如權(quán)利要求20所述的計算機可讀介質(zhì),其特征在于,所述特征集從所述背景數(shù)據(jù)中確定。
22.如權(quán)利要求21所述的計算機可讀介質(zhì),其特征在于,所述第二特征集從所述背景數(shù)據(jù)和所述自適應數(shù)據(jù)中確定。
23.一種自適應概率模型的方法,所述方法包括從初始數(shù)據(jù)集中識別第一特征集;使用所述第一特征集來選擇最大化所述初始數(shù)據(jù)集的初始模型參數(shù)組;從所述初始數(shù)據(jù)集和第二數(shù)據(jù)集中識別第二特征集;使用所述第二特征集來選擇最大化所述第二數(shù)據(jù)集的似然函數(shù)的已自適應模型參數(shù)組,其中,所述似然函數(shù)部分地基于所述初始模型參數(shù)組。
24.如權(quán)利要求23所述的方法,其特征在于,還包括使用所述初始模型參數(shù)組來形成先驗模型,并在確定所述第二數(shù)據(jù)集的似然函數(shù)時使用所述先驗模型。
全文摘要
提供了一種用于自適應指數(shù)概率模型的方法和裝置。在第一階段,通過基于一背景數(shù)據(jù)集為概率模型確定一組模型參數(shù)來從背景數(shù)據(jù)構(gòu)建通用背景模型。該背景模型參數(shù)然后用于為尤其對感興趣的自適應數(shù)據(jù)集自適應的概率模型的參數(shù)定義一先驗模型。該自適應數(shù)據(jù)集一般在大小上比背景數(shù)據(jù)集要小得多。然后基于該自適應數(shù)據(jù)集和先驗模型為已自適應的概率模型確定第二組模型參數(shù)。
文檔編號G06F17/21GK1725212SQ20051008235
公開日2006年1月25日 申請日期2005年6月21日 優(yōu)先權(quán)日2004年7月21日
發(fā)明者A·阿塞羅, C·I·切爾巴 申請人:微軟公司