專(zhuān)利名稱(chēng):用于調(diào)試與語(yǔ)言模型一起使用的類(lèi)實(shí)體詞典的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)言模型,特別涉及根據(jù)用戶(hù)輸入來(lái)調(diào)試語(yǔ)言模型。
背景技術(shù):
語(yǔ)言模型提供了對(duì)文本字符串出現(xiàn)的一系列字詞的概率度量。這樣的模型用于語(yǔ)音識(shí)別、中文斷詞和語(yǔ)音-字符轉(zhuǎn)換,如中文中的拼音-漢字轉(zhuǎn)換,以在已知字詞序列格的情況下識(shí)別一個(gè)最為可能的序列。例如,在語(yǔ)音識(shí)別中,語(yǔ)言模型能識(shí)別出短語(yǔ)“go to bed”比語(yǔ)音上相似的短語(yǔ)“go too bed”更為可能。
一般來(lái)說(shuō),語(yǔ)言模型要在語(yǔ)句庫(kù)上訓(xùn)練。盡管這樣的集在訓(xùn)練語(yǔ)言模型以處理一般字詞上很有效,但在訓(xùn)練語(yǔ)言模型以處理專(zhuān)有名詞,如人和事的名稱(chēng)上,卻不是非常有效。其原因是那些專(zhuān)有名詞在語(yǔ)料庫(kù)中發(fā)生得不夠頻繁,難以精確模擬。
有些系統(tǒng)允許用戶(hù)來(lái)糾正由語(yǔ)言模型所犯的錯(cuò)誤。但是,一個(gè)系統(tǒng)即使在得知了該糾正后,也無(wú)法根據(jù)該糾正來(lái)調(diào)整語(yǔ)言模型,因?yàn)闊o(wú)法估計(jì)由該糾正所形成的字詞序列的概率。因此,該系統(tǒng)在以后遇到同樣輸入時(shí),一般會(huì)犯同樣的錯(cuò)誤。
所以,需要一種允許根據(jù)由用戶(hù)所作糾正來(lái)修改語(yǔ)言模型和動(dòng)態(tài)詞典的系統(tǒng)。
發(fā)明內(nèi)容
提供一種根據(jù)由用戶(hù)所作糾正來(lái)擴(kuò)大具有類(lèi)實(shí)體詞典的語(yǔ)言模型的方法和設(shè)備。在該方法和設(shè)備下,用戶(hù)通過(guò)以正確的片斷替換輸出片斷來(lái)糾正部分基于語(yǔ)言模型的輸出。將該正確片斷添加到在類(lèi)實(shí)體詞典中的片斷類(lèi)中,并根據(jù)與該輸出片斷相關(guān)的n字列概率和與該類(lèi)相關(guān)的n字列概率來(lái)估計(jì)該正確片斷在該類(lèi)中的概率。然后用所估計(jì)的這一概率來(lái)產(chǎn)生進(jìn)一步的輸出。
圖1是可在其中實(shí)現(xiàn)本發(fā)明的計(jì)算環(huán)境的方框圖;圖2是可在其中實(shí)現(xiàn)本發(fā)明的可替代計(jì)算環(huán)境的方框圖;圖3是在本發(fā)明一實(shí)施例下更新類(lèi)實(shí)體詞典的流程圖;圖4是本發(fā)明某個(gè)拼音-漢字轉(zhuǎn)換實(shí)施例的方框圖;圖5是在本發(fā)明某實(shí)施例下利用類(lèi)實(shí)體詞典的流程圖;圖6是本發(fā)明模式識(shí)別系統(tǒng)實(shí)施例的方框圖。
具體實(shí)施例方式
圖1例示了一個(gè)可在其中實(shí)現(xiàn)本發(fā)明的合適的計(jì)算系統(tǒng)環(huán)境100的實(shí)例。該計(jì)算系統(tǒng)環(huán)境100只是合適的計(jì)算系統(tǒng)環(huán)境的一個(gè)實(shí)例,而無(wú)意對(duì)本發(fā)明的使用范圍或功能作任何限制。該計(jì)算系統(tǒng)環(huán)境100也不能被解釋為對(duì)于在操作環(huán)境示例100中所示的任一部分或其組合具有任何依賴(lài)或要求。
本發(fā)明可以在其它多種一般用途或特殊用途的計(jì)算系統(tǒng)環(huán)境或配置中運(yùn)作??梢赃m合與本發(fā)明一起使用的眾所周知的計(jì)算系統(tǒng)、環(huán)境和/或配置的例子包括,但不限于,個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持或膝上設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、電話(huà)系統(tǒng)、包含以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等。
本發(fā)明可以在計(jì)算機(jī)可執(zhí)行指令的總環(huán)境(諸如如由計(jì)算機(jī)執(zhí)行的程序模塊)中描述。一般而言,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類(lèi)型的過(guò)程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等。本發(fā)明也可以在由經(jīng)通信網(wǎng)絡(luò)聯(lián)接的遠(yuǎn)端處理設(shè)備執(zhí)行任務(wù)的分布式計(jì)算環(huán)境中實(shí)現(xiàn)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包含記憶存儲(chǔ)設(shè)備的本地或遠(yuǎn)端計(jì)算機(jī)存儲(chǔ)媒體上。
參照?qǐng)D1,實(shí)現(xiàn)本發(fā)明的一個(gè)示例系統(tǒng)包含計(jì)算機(jī)110形式的一般用途的計(jì)算設(shè)備。計(jì)算機(jī)110的部件可以包括,但不限于,處理單元120、系統(tǒng)存儲(chǔ)器130、把包括系統(tǒng)存儲(chǔ)器的多種系統(tǒng)部件連接到處理單元120的系統(tǒng)總線(xiàn)121。系統(tǒng)總線(xiàn)121可以是幾種總線(xiàn)結(jié)構(gòu)類(lèi)型中的任何一種,這幾種總線(xiàn)結(jié)構(gòu)類(lèi)型包括存儲(chǔ)器總線(xiàn)或存儲(chǔ)器控制器、外圍設(shè)備總線(xiàn)、使用多種總線(xiàn)體系結(jié)構(gòu)中任何一種的局部總線(xiàn)。舉例而言,但非限制,這樣的體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線(xiàn)、微通道結(jié)構(gòu)(MCA)總線(xiàn)、增強(qiáng)ISA(EISA)總線(xiàn)、視頻電子產(chǎn)品標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線(xiàn),以及也被稱(chēng)為“夾層”總線(xiàn)的外圍設(shè)備部件互連(PCI)總線(xiàn)。
計(jì)算機(jī)110一般包含多種計(jì)算機(jī)可讀取媒體。計(jì)算機(jī)可讀取媒體可以是可由計(jì)算機(jī)110訪(fǎng)問(wèn)的任何可購(gòu)得的媒體,包括易失的與非易失的媒體、可擦除的與不可擦除的媒體。舉例而言,但非限制,計(jì)算機(jī)可讀取媒體可以包括計(jì)算機(jī)存儲(chǔ)媒體和通信媒體。計(jì)算機(jī)存儲(chǔ)媒體包括以任何方法或技術(shù)用于存儲(chǔ)諸如計(jì)算機(jī)可讀取指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失的與非易失的媒體、可擦除的與不可擦除的媒體。計(jì)算機(jī)存儲(chǔ)媒體包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字通用盤(pán)(DVD)或其它光盤(pán)存儲(chǔ)器、盒式磁帶、磁帶、磁盤(pán)存儲(chǔ)器或其它磁存儲(chǔ)設(shè)備,或任何可以用來(lái)存儲(chǔ)所期望信息并可由計(jì)算機(jī)110訪(fǎng)問(wèn)的其它媒體。通信媒體一般具體表現(xiàn)為某種已調(diào)制的數(shù)字信號(hào),如某種載波或其它傳輸機(jī)制的計(jì)算機(jī)可讀取指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)。術(shù)語(yǔ)“已調(diào)制的數(shù)字信號(hào)”是指一種信號(hào),其一個(gè)或多個(gè)特征以某種方式被設(shè)置或變化,以在該信號(hào)中編碼信息。舉例而言,但非限制,通信媒體包括有線(xiàn)媒體如某種有線(xiàn)網(wǎng)絡(luò)或直接線(xiàn)纜連接,和無(wú)線(xiàn)媒體如聲音、RF、紅外及其它無(wú)線(xiàn)媒體。以上所述的任何組合也應(yīng)包括在計(jì)算機(jī)可讀取媒體的范圍內(nèi)。
系統(tǒng)存儲(chǔ)器130包括易失和/或非易失形式的存儲(chǔ)器,如只讀存儲(chǔ)器(ROM)131和隨機(jī)存取存儲(chǔ)器(RAM)132。在ROM131中一般存儲(chǔ)基本輸入/輸出系統(tǒng)(BIOS)133,包含了如在啟動(dòng)的時(shí)候幫助在計(jì)算機(jī)110內(nèi)的元件間傳輸信息的基本過(guò)程。RAM132一般包含可立即由處理單元120訪(fǎng)問(wèn)和/或正由處理單元120運(yùn)行的數(shù)據(jù)和/或程序模塊。舉例而言,但非限制,圖1例示了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計(jì)算機(jī)110還可以包含其它可擦除/不可擦除、易失/非易失的計(jì)算機(jī)存儲(chǔ)媒體。僅舉例而言,圖1例示了讀寫(xiě)不可擦除、非易失磁媒體的硬盤(pán)驅(qū)動(dòng)器141、讀寫(xiě)可擦除、非易失磁盤(pán)152的磁盤(pán)驅(qū)動(dòng)器151和讀寫(xiě)可擦除、非易失光盤(pán)156,如CDROM或其它光媒體的光盤(pán)驅(qū)動(dòng)器155。其它可用于例示操作環(huán)境的可擦除/不可擦除、易失/非易失的計(jì)算機(jī)存儲(chǔ)媒體包括,但不限于,盒式磁帶、閃存卡、數(shù)字通用盤(pán)、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等。硬盤(pán)驅(qū)動(dòng)器141一般經(jīng)由不可擦除存儲(chǔ)器接口,諸如接口140,連接到系統(tǒng)總線(xiàn)121,而磁盤(pán)驅(qū)動(dòng)器151和光盤(pán)驅(qū)動(dòng)器155一般通過(guò)可擦除存儲(chǔ)器接口,諸如接口150,連接到系統(tǒng)總線(xiàn)121。
以上所討論并在圖1中例示的驅(qū)動(dòng)器及與之相關(guān)的計(jì)算機(jī)存儲(chǔ)媒體為計(jì)算機(jī)110提供了對(duì)計(jì)算機(jī)可讀取指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲(chǔ)。例如,在圖1中,硬盤(pán)驅(qū)動(dòng)器141被例示為存儲(chǔ)了操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。請(qǐng)注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同,也可以與之不同。這里給了操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147不同的編號(hào),以最小程度地例示出它們是不同的拷貝。
用戶(hù)可以經(jīng)由輸入設(shè)備,如鍵盤(pán)162、話(huà)筒163和指點(diǎn)設(shè)備161諸如鼠標(biāo)、跟蹤球或觸摸板),來(lái)將命令和信息輸入計(jì)算機(jī)110。其它的輸入設(shè)備(未示出)可以包括操縱桿、游戲鍵盤(pán)、衛(wèi)星碟形天線(xiàn)、掃描儀等。這些及其它的輸入設(shè)備通常經(jīng)由接入系統(tǒng)總線(xiàn)的用戶(hù)輸入接口160連接處理單元120,但也可以通過(guò)其它接口和總線(xiàn)結(jié)構(gòu),如并行端口、游戲端口或通用串行總線(xiàn)(USB)來(lái)連接。監(jiān)視器191或其它類(lèi)型的顯示設(shè)備也經(jīng)由諸如視頻接口190的接口連接到系統(tǒng)總線(xiàn)121。在監(jiān)視器以外,計(jì)算機(jī)還可以包含其它外圍輸出設(shè)備,諸如可以通過(guò)外圍輸出接口190連接的揚(yáng)聲器197和打印機(jī)196。
計(jì)算機(jī)110可以用與諸如遠(yuǎn)端計(jì)算機(jī)180的一臺(tái)或多臺(tái)遠(yuǎn)端計(jì)算機(jī)的邏輯連接在聯(lián)網(wǎng)環(huán)境中運(yùn)作。遠(yuǎn)端計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、手持設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其它普通網(wǎng)絡(luò)節(jié)點(diǎn),并且一般包括以上關(guān)于計(jì)算機(jī)110所描述的多數(shù)或所有元件。在圖1中所描述的邏輯連接包括局域網(wǎng)絡(luò)(LAN)和廣域網(wǎng)絡(luò)(WAN),也可以包括其它網(wǎng)絡(luò)。這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和互聯(lián)網(wǎng)中是很平常的。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110通過(guò)網(wǎng)絡(luò)接口或適配器170連接到LAN 171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110一般包含調(diào)制解調(diào)器172或其它在WAN 173(諸如互聯(lián)網(wǎng))上建立通信的手段。調(diào)制解調(diào)器172,可以是外置的或內(nèi)置的,可以經(jīng)由用戶(hù)輸入接口160或其它適當(dāng)?shù)臋C(jī)制連接到系統(tǒng)總線(xiàn)121。在聯(lián)網(wǎng)環(huán)境中,關(guān)于計(jì)算機(jī)110所描述的程序模塊,或其部分,可以存儲(chǔ)在遠(yuǎn)端的記憶存儲(chǔ)設(shè)備中。舉例而言,但非限制,圖1將遠(yuǎn)端應(yīng)用程序185例示為駐留在遠(yuǎn)端計(jì)算機(jī)180上??梢砸庾R(shí)到,所示的網(wǎng)絡(luò)連接是示例性的,還可以使用其它在計(jì)算機(jī)間建立通信鏈路的手段。
圖2是移動(dòng)設(shè)備200的方框圖,這是一個(gè)可作替代的示例性計(jì)算環(huán)境。移動(dòng)設(shè)備200包含微處理器202、存儲(chǔ)器204、輸入/輸出(I/O)部件206,以及用于與遠(yuǎn)端計(jì)算機(jī)或其它移動(dòng)設(shè)備通信的通信接口208。在某實(shí)施例中,前述這些部件通過(guò)合適的總線(xiàn)210互相連接進(jìn)行通信。
存儲(chǔ)器204以非易失電子存儲(chǔ)器,如帶有電池后備模塊(未示出)的隨機(jī)存取存儲(chǔ)器來(lái)實(shí)現(xiàn),這樣當(dāng)至移動(dòng)設(shè)備的通用供電關(guān)閉時(shí),存儲(chǔ)在存儲(chǔ)器204中的信息也不會(huì)丟失。存儲(chǔ)器204的一部分最好被分配成用于程序執(zhí)行的可尋址存儲(chǔ)器,而存儲(chǔ)器204的另一部分最好被用于存儲(chǔ),諸如用于模擬在硬盤(pán)驅(qū)動(dòng)器上的存儲(chǔ)。
存儲(chǔ)器204包含操作系統(tǒng)212、應(yīng)用程序214以及對(duì)象庫(kù)216。在操作過(guò)程中,操作系統(tǒng)212最好是由處理器202從存儲(chǔ)器204中執(zhí)行。在一較佳實(shí)施例中,操作系統(tǒng)212是Microsoft Corporation的可商用的WINDOWSCE商標(biāo)操作系統(tǒng)。操作系統(tǒng)212最好是針對(duì)移動(dòng)設(shè)備設(shè)計(jì),并實(shí)現(xiàn)可由應(yīng)用214通過(guò)一些公開(kāi)的應(yīng)用編程接口與方法來(lái)利用的數(shù)據(jù)庫(kù)特性。在對(duì)象庫(kù)216中的對(duì)象由應(yīng)用214及操作系統(tǒng)212至少部分地響應(yīng)對(duì)公開(kāi)的應(yīng)用編程接口與方法的調(diào)用而予以維持。
通信接口208代表了可以讓移動(dòng)設(shè)備200發(fā)送與接收信息的多種設(shè)備和技術(shù)。這樣的設(shè)備略舉幾種,包括有線(xiàn)與無(wú)線(xiàn)調(diào)制解調(diào)器、衛(wèi)星接收機(jī)和廣播調(diào)諧器。移動(dòng)設(shè)備200還可以直接與計(jì)算機(jī)相連接。以與之交換數(shù)據(jù)。在這種情況下,通信接口208可以是能夠傳輸流信息的紅外收發(fā)器或串行或并行通信連接。
輸入/輸出部件206包括多種輸入設(shè)備,如某種可感知觸摸的屏幕、按鈕、滾輪和話(huà)筒,以及多種輸出設(shè)備,包括音響發(fā)生器、振動(dòng)裝置和顯示器。上面所列的設(shè)備是舉例而言的,并不需要統(tǒng)統(tǒng)出現(xiàn)在移動(dòng)設(shè)備200上。此外,在本發(fā)明的范圍內(nèi),其它的輸入/輸出設(shè)備也可以被附屬于移動(dòng)設(shè)備200或出現(xiàn)在移動(dòng)設(shè)備200上。
本發(fā)明為在多個(gè)應(yīng)用中使用與調(diào)試統(tǒng)計(jì)學(xué)的語(yǔ)言模型及基于類(lèi)的詞典提供了一種手段。統(tǒng)計(jì)學(xué)的語(yǔ)言模型提供了字詞序列在語(yǔ)言中出現(xiàn)的概率。n字列語(yǔ)言模型一般定義字詞序列的概率為Pr(H)=Pr(w1)*Pr(w2|w1)*…*Pr(wi|wi-(n-1),…,wi-1)*…*Pr(wt|wt-(n-1),…,wt-1)(方程式1)其中H是字詞序列w1,w2,…,wt,t為該序列中的字詞數(shù),n-1為已用于預(yù)測(cè)下一字詞的已過(guò)字詞的數(shù)量,而Pr(wi|wi-(n-1),…,wi-1)為第i個(gè)字詞在已知前面n-1個(gè)字詞時(shí)的概率。如此在二字列語(yǔ)言模型中n=2,而在三字列語(yǔ)言模型中n=3。
統(tǒng)計(jì)學(xué)的語(yǔ)言模型的一個(gè)問(wèn)題是它們無(wú)法為未知的或罕用的字詞,如專(zhuān)有名詞提供精確的概率。為克服這一點(diǎn),本發(fā)明使用了一種基于類(lèi)的語(yǔ)言模型。
在本發(fā)明的基于類(lèi)的語(yǔ)言模型中,該模型對(duì)字詞類(lèi)與單個(gè)字詞的序列進(jìn)行預(yù)測(cè)。為做到這一點(diǎn),當(dāng)在一個(gè)或多個(gè)字詞處使用一個(gè)類(lèi)時(shí),應(yīng)修改方程式1。例如,對(duì)于一個(gè)三字列語(yǔ)言模型,所計(jì)算的與一個(gè)類(lèi)記號(hào)N相關(guān)的概率為Pr(H)=…*Pr(wi-1|wi-3,wi-2)*Pr(Ti|Ni)*Pr(Ni|wi-2,wi-1)*Pr(wi+1|wi-1,Ni)*…Pr(wi+2|Ni,wi+1)*…(方程式2)其中,為求簡(jiǎn)化,只顯示了類(lèi)概率附近的那些概率,Ni是在序列中第i個(gè)位置的類(lèi),Ti是類(lèi)N中的一個(gè)實(shí)體,而Pr(Ti|Ni)指提供已知類(lèi)N時(shí)實(shí)體T的概率的內(nèi)部概率。在某實(shí)施例中,該內(nèi)部概率由定義在每個(gè)類(lèi)中所出現(xiàn)字詞的類(lèi)實(shí)體詞典來(lái)提供。在一實(shí)施例中,該類(lèi)實(shí)體詞典提供了一套定義在特定類(lèi)中所出現(xiàn)已知字詞的語(yǔ)法規(guī)則。例如,針對(duì)類(lèi)[名字]的上下文無(wú)關(guān)語(yǔ)法可以包含“Hank Hanson”規(guī)則。外部概率(某個(gè)類(lèi)在前面字詞中的概率)由基于類(lèi)的語(yǔ)言模型提供。
基于類(lèi)的語(yǔ)言模型有助于克服與某些類(lèi)的字詞(諸如專(zhuān)有名詞)相關(guān)的稀少問(wèn)題。這樣的字詞在訓(xùn)練數(shù)據(jù)中出現(xiàn)得如此稀少,以至于不使用類(lèi)的語(yǔ)言模型將總是會(huì)傾向于更為普通的字詞,而不是這些少用的字詞。通過(guò)使用類(lèi),本發(fā)明的語(yǔ)言模型增大了類(lèi)被識(shí)別出來(lái)的概率,因?yàn)樵谟?xùn)練數(shù)據(jù)中一個(gè)字詞類(lèi)比該類(lèi)中的單個(gè)字詞發(fā)生得更為頻繁。
基于類(lèi)的語(yǔ)言模型或類(lèi)實(shí)體詞典在使用前,必須先訓(xùn)練。在一實(shí)施例中,基于類(lèi)的語(yǔ)言模型或類(lèi)實(shí)體詞典通過(guò)首先標(biāo)記訓(xùn)練語(yǔ)料庫(kù),以根據(jù)一套試探法來(lái)標(biāo)識(shí)在類(lèi)范圍內(nèi)的字詞,而初始地訓(xùn)練。這套試探法提供了一套根據(jù)輸入中的其它字詞來(lái)預(yù)測(cè)某個(gè)類(lèi)字詞位置的規(guī)則。例如,如果動(dòng)詞“叫”是一個(gè)輸入的字詞,則試探法規(guī)則能指示可以將“叫”的后一個(gè)或后兩個(gè)詞考慮成[名字]類(lèi)的部分(如,“叫Jack Jones”)。
用試探法所標(biāo)識(shí)出的字詞將由它們的類(lèi)來(lái)替代,然后用標(biāo)準(zhǔn)訓(xùn)練法來(lái)按語(yǔ)料庫(kù)中的字詞和類(lèi)訓(xùn)練基于類(lèi)的語(yǔ)言模型。
類(lèi)實(shí)體詞典通過(guò)將每個(gè)類(lèi)中所標(biāo)識(shí)的字詞劃分成子部分來(lái)初始地訓(xùn)練。然后在標(biāo)準(zhǔn)n字列訓(xùn)練技術(shù)中用這些子部分來(lái)標(biāo)識(shí)這些字詞在類(lèi)中的概率。這樣的概率就構(gòu)成了類(lèi)的內(nèi)部概率。
本發(fā)明在另外的方面提供了根據(jù)用戶(hù)的輸入而對(duì)類(lèi)實(shí)體詞典和基于類(lèi)的語(yǔ)言模型的更新與擴(kuò)充。特別是,在用戶(hù)改變某個(gè)已譯解的字詞序列時(shí),類(lèi)實(shí)體詞典可得以擴(kuò)充,這樣修改后的序列就包含了某個(gè)不在類(lèi)實(shí)體詞典中的字詞。例如,如果基于類(lèi)的語(yǔ)言模型和類(lèi)實(shí)體詞典譯解了字詞序列“寫(xiě)一封信給Phil”,而用戶(hù)將該序列改變?yōu)椤皩?xiě)一封信給Bill”,則“Bill”如果以前不在類(lèi)實(shí)體詞典中,就將會(huì)被添加到類(lèi)實(shí)體詞典中。
為了在類(lèi)實(shí)體詞典中添加一個(gè)實(shí)體,必須確定該實(shí)體的內(nèi)部概率。如上面所記述,內(nèi)部概率提供了已知類(lèi)時(shí)實(shí)體的概率。這一概率無(wú)法準(zhǔn)確計(jì)算,因?yàn)闆](méi)有足夠的數(shù)據(jù)來(lái)確定已知該類(lèi)時(shí)該實(shí)體的概率。取而代之的是,在本發(fā)明的實(shí)施例中,通過(guò)假設(shè)該實(shí)體內(nèi)部概率和該類(lèi)的語(yǔ)言模型概率的乘積至少應(yīng)該等于由譯解器所不正確地標(biāo)識(shí)的字詞的語(yǔ)言模型概率,來(lái)估計(jì)這一內(nèi)部概率。
以一個(gè)對(duì)三字列語(yǔ)言模型的方程式而言,這一假設(shè)為Pr(Ti|Ni)*Pr(Ni|wi-2,wi-1)=Pr(pi|wi-2,wi-1) (方程式3)其中Pr(Ti|Ni)為已修改的實(shí)體Ti在類(lèi)Ni已知時(shí)的內(nèi)部概率,Pr(Ni|wi-2,wi-1)為類(lèi)Ni在序列中前面兩個(gè)字詞已知時(shí)的語(yǔ)言模型概率,而Pr(pi|wi-2,wi-1)為先被譯解而后又被修改形成修改后實(shí)體Ti的不正確實(shí)體pi的語(yǔ)言模型概率。
利用這一假設(shè),就可以估計(jì)內(nèi)部概率為Pr(Ti|Ni)=Pr(pi|wi-2,wi-1)Pr(Ni|wi-2,wi-1)]]>(方程式4)然而,這一估計(jì)高度依賴(lài)于序列中前面的字詞。為減少這一依賴(lài)而使估計(jì)更為通用,該概率可以重新寫(xiě)為Pr(Ti|Ni)=Pr(pi|<unknown>i-2,<unknown>i-1)Pr(Ni|<unknown>i-2,<unknown>i-1)]]>(方程式5)其中Pr(pi|<unknown>i-2,<unknown>i-1)代表pi在任何兩個(gè)前面字詞給定時(shí)的概率,而Pr(Ni|<unknown>i-2,<unknown>i-1)代表Ni在任何兩個(gè)前面字詞給定時(shí)的概率。請(qǐng)注意,通過(guò)以<unknown>標(biāo)記替代前面的字詞,并確定pi和Ni在<unknown>標(biāo)記給定時(shí)的概率,Pr(pi|<unknown>i-2,<unknown>i-1)和Pr(Ni|<unknown>i-2,<unknown>i-1)得以在訓(xùn)練過(guò)程中存儲(chǔ)入語(yǔ)言模型。
在為所修改的實(shí)體估計(jì)出概率后,就可以將所修改的實(shí)體和所估計(jì)的內(nèi)部概率添加到類(lèi)實(shí)體詞典中適當(dāng)?shù)念?lèi)下。
用戶(hù)對(duì)所譯解字詞序列的修改并不總是包含沒(méi)有出現(xiàn)在類(lèi)實(shí)體詞典中的字詞。取而代之的是,原來(lái)所譯解的字詞或已修改的字詞都可以出現(xiàn)在類(lèi)實(shí)體詞典中。圖3提供了用于根據(jù)用戶(hù)的修改確定如何來(lái)改變類(lèi)實(shí)體詞典的步驟的流程圖。
總的來(lái)看,圖3中的過(guò)程可以以三種方式來(lái)調(diào)整內(nèi)部概率。對(duì)于已經(jīng)在類(lèi)實(shí)體詞典中的修改過(guò)的字詞來(lái)說(shuō),該字詞未得到譯解的事實(shí)說(shuō)明其內(nèi)部概率過(guò)低。因此,其概率需要增高。對(duì)于已經(jīng)在類(lèi)實(shí)體詞典中的已譯解的字詞來(lái)說(shuō),用戶(hù)修改該字詞的事實(shí)說(shuō)明所譯解字詞的內(nèi)部概率過(guò)高。因此,其概率需要降低。對(duì)于不在類(lèi)實(shí)體詞典中的已修改的字詞來(lái)說(shuō),所修改的字詞需要添加到詞典中,并用上面的方程式5來(lái)計(jì)算其初始概率。
為確定要采取哪種調(diào)整,圖3中的過(guò)程開(kāi)始于步驟300,在該步驟中檢查經(jīng)過(guò)用戶(hù)修改所產(chǎn)生的字詞序列,以判定所修改的字詞是否在類(lèi)實(shí)體詞典中。如果所修改的字詞在類(lèi)實(shí)體詞典中,則在步驟320進(jìn)行所修改的字詞是否僅發(fā)現(xiàn)在單個(gè)類(lèi)中的判定。
如果所修改的字詞發(fā)現(xiàn)在多于一個(gè)的類(lèi)中,則利用基于類(lèi)的語(yǔ)言模型,通過(guò)使用單獨(dú)序列中每一可能的類(lèi),并標(biāo)識(shí)出提供最大概率的序列,來(lái)選擇最為可能的類(lèi)。在圖3中這被顯示為步驟322。
如果在步驟320中所修改的字詞僅發(fā)現(xiàn)在單一類(lèi)中,或者在步驟322中標(biāo)識(shí)出一個(gè)類(lèi)后,則需要調(diào)整所修改字符的內(nèi)部概率,因?yàn)榧词顾薷牡淖衷~在類(lèi)實(shí)體詞典中,由于其內(nèi)部概率過(guò)低,譯解器也沒(méi)能從輸入中標(biāo)識(shí)出它們。為糾正這一情況,在步驟324中提高存儲(chǔ)在類(lèi)實(shí)體詞典中的所修改字符的內(nèi)部概率。在某些實(shí)施例中,通過(guò)乘以一個(gè)1.5的因子來(lái)提高該內(nèi)部概率。
如果在步驟300中所修改的字符不在類(lèi)實(shí)體詞典中,則在步驟302中使用一套試探法來(lái)確定所修改字符的類(lèi)。然后用這些類(lèi)中的每一個(gè)來(lái)與其它已譯解的字詞組建單獨(dú)的序列或詞語(yǔ)。而后用基于類(lèi)的語(yǔ)言模型來(lái)標(biāo)識(shí)最為可能的序列,從而標(biāo)識(shí)出所修改字詞的最可能的類(lèi)。
如果在步驟304中可以對(duì)所修改的字詞標(biāo)識(shí)出類(lèi),則在步驟308中用上面的方程式5來(lái)確定所修改字詞的內(nèi)部概率,并在步驟310中將所修改的字詞及概率添加到類(lèi)實(shí)體詞典中。
如果在步驟304中對(duì)所修改的字詞無(wú)法標(biāo)識(shí)出類(lèi),則在步驟312中檢查已譯解并由用戶(hù)所修改的字詞,以判定該已譯解的字詞是否在類(lèi)實(shí)體詞典中。如果在步驟312中該已譯解的字詞在類(lèi)實(shí)體詞典中,則該已譯解字詞而非所修改字詞被標(biāo)識(shí)出來(lái)的事實(shí)意味著該已譯解字詞的內(nèi)部概率被設(shè)置得過(guò)高。為糾正這一情況,在步驟314中降低該已譯解字符的內(nèi)部概率。在許多實(shí)施例中,該內(nèi)部概率降低1/1.5。(換句話(huà)說(shuō),就是將該內(nèi)部概率除以1.5來(lái)形成新概率)。
如果在步驟312中該已譯解的字詞不在類(lèi)實(shí)體詞典中,則既然該已譯解字詞與所修改的字詞都不在某個(gè)類(lèi)的范圍內(nèi),就不需要對(duì)類(lèi)實(shí)體詞典做任何改變。因此,在步驟318中類(lèi)實(shí)體詞典不變。
本發(fā)明中的基于類(lèi)的語(yǔ)言模型及更新基于類(lèi)的語(yǔ)言模型的方法可以用于許多系統(tǒng)。例如,圖4提供了一個(gè)可以在圖1和2的環(huán)境中實(shí)現(xiàn)并利用本發(fā)明某個(gè)實(shí)施例的語(yǔ)音-字符轉(zhuǎn)換系統(tǒng)400的方框圖。在圖5的流程圖中顯示了這一系統(tǒng)的運(yùn)作。
在圖5的步驟500中,將語(yǔ)音輸入402,即出現(xiàn)在基于字符的語(yǔ)言如漢語(yǔ)、日語(yǔ)或朝鮮語(yǔ)中的字符的語(yǔ)音描述,提供給譯解器404。在漢語(yǔ)中,語(yǔ)音輸入的一種具體形式是拼音輸入。在步驟502中,譯解器404首先用詞典406建立一個(gè)可以以該語(yǔ)音輸入表示的字詞格。然后在步驟504中通過(guò)使用類(lèi)實(shí)體詞典412和試探法規(guī)則416從該格的字詞中標(biāo)識(shí)類(lèi)實(shí)體來(lái)對(duì)該格進(jìn)行擴(kuò)充。所標(biāo)識(shí)出的類(lèi)將作為單獨(dú)的節(jié)點(diǎn)而添加到該格中。
在步驟506中,譯解器404利用提供路徑上每個(gè)字詞表示一個(gè)語(yǔ)音段的概率的語(yǔ)音模型408、提供類(lèi)的內(nèi)部概率的類(lèi)實(shí)體詞典、提供字詞和/或類(lèi)的序列發(fā)生在語(yǔ)言中的概率的語(yǔ)言模型310,以及上面的方程式2,為經(jīng)過(guò)該格的每條路徑確定概率。然后在步驟508中將提供最高概率的路徑上的字詞序列作為所譯解的字詞串輸出。
在所譯解出的序列提供給用戶(hù)后,系統(tǒng)可以在步驟510中接收用戶(hù)的修改。這樣的修改指示出用戶(hù)通過(guò)其輸入所想要的正確字詞。在步驟512中,檢查這一修改,以確定如何用它來(lái)使用圖3中的過(guò)程改變類(lèi)實(shí)體詞典。特別的是,類(lèi)析取單元422使用試探法416和類(lèi)實(shí)體詞典412來(lái)為所修改的字詞標(biāo)識(shí)類(lèi),并判定所譯解的字詞或所修改的字詞是否在類(lèi)實(shí)體詞典中。而后一個(gè)概率確定單元424如在上面圖3中所指示的那樣,計(jì)算所修改字詞(如果它沒(méi)有出現(xiàn)在詞典中)的概率,或?yàn)樗薷牡淖衷~或所譯解的字詞確定新的概率,以改善譯解器的表現(xiàn)。
在第二個(gè)實(shí)施例中,本發(fā)明的基于類(lèi)的語(yǔ)言模型用于語(yǔ)音識(shí)別系統(tǒng),諸如圖6中的語(yǔ)音識(shí)別系統(tǒng)。在圖6中,來(lái)自說(shuō)話(huà)者600的輸入語(yǔ)音信號(hào)和加性噪聲602通過(guò)與模數(shù)(A/D)轉(zhuǎn)換器606連接的話(huà)筒604轉(zhuǎn)換成電信號(hào)。
A/D轉(zhuǎn)換器606將來(lái)自話(huà)筒604的模擬信號(hào)轉(zhuǎn)換成一系列數(shù)字值。在若干實(shí)施例中,A/D轉(zhuǎn)換器606以16kHz與每次采樣16比特來(lái)對(duì)模擬信號(hào)進(jìn)行采樣,從而生成每秒32千字節(jié)的語(yǔ)音數(shù)據(jù)。
由A/D轉(zhuǎn)換器606所生成的數(shù)字?jǐn)?shù)據(jù)供給可任選的降噪模塊608,該模塊用一種或多種降噪技術(shù)來(lái)消除該數(shù)字信號(hào)中的部分噪聲。
降噪模塊608的輸出供給從該數(shù)字信號(hào)中析取特征的特征析取器600。特征析取模塊的實(shí)例包括用于執(zhí)行線(xiàn)性預(yù)測(cè)編碼(LPC)、源于LPC的倒譜、感知線(xiàn)性預(yù)測(cè)(PLP)、聽(tīng)覺(jué)模型特征析取和Mel頻標(biāo)倒譜系數(shù)(MFCC)特征析取的模塊。請(qǐng)注意,本發(fā)明并不限于這些特征析取模塊,其它的模塊也可以用于本發(fā)明的環(huán)境中。
特征析取模塊從降噪模塊接收數(shù)字值的流,并生成特征向量的流,其中每一個(gè)特征向量都與一幀語(yǔ)音信號(hào)相關(guān)。在許多實(shí)施例中,幀的中央以10毫秒間隔。
請(qǐng)注意,盡管在圖6的實(shí)施例中降噪模塊608被顯示在特征析取器600之前,但在其它實(shí)施例中,降噪模塊608出現(xiàn)在特征析取器600之后。
由析取模塊所生成的特征向量流供給譯解器612,譯解器612根據(jù)該特征向量流、特殊詞匯614、語(yǔ)言模型616、聲學(xué)模型618、試探法規(guī)則622和類(lèi)實(shí)體詞典620來(lái)識(shí)別出一個(gè)最為可能的字詞序列。
聲學(xué)模型618提供了由語(yǔ)言單元如元音素、音素、雙音素或三音素的發(fā)音來(lái)產(chǎn)生某個(gè)輸入特征向量的概率。
譯解器612使用語(yǔ)言模型616、類(lèi)實(shí)體詞典620和試探法規(guī)則622的方式與譯解器404使用語(yǔ)言模型410、類(lèi)實(shí)體詞典412和試探法規(guī)則416的方式相似。
根據(jù)聲學(xué)模型、語(yǔ)言模型、特殊詞匯、類(lèi)實(shí)體詞典和試探法規(guī)則,譯解器612從所有可能的字詞序列中識(shí)別出一個(gè)最為可能的字詞序列。具體而言,譯解器612使用圖5中的步驟500、502、504、506和508來(lái)標(biāo)識(shí)該最為可能的字詞序列。
然后該最為可能的字詞序列要受到可能的用戶(hù)修改630。如果用戶(hù)修改了所譯解的序列中的字詞,則所修改的字詞將被提供給類(lèi)析取單元632和概率確定單元634,其運(yùn)作方式與圖4中的類(lèi)析取單元422和概率確定單元424相似。而后,利用圖3中的過(guò)程,就能根據(jù)用戶(hù)對(duì)所譯解字詞的修改來(lái)修改類(lèi)實(shí)體詞典620。
盡管本發(fā)明是參照特殊的實(shí)施例所描述,相關(guān)技術(shù)的熟練工作者將認(rèn)識(shí)到,可以不背離本發(fā)明的精神和范圍,而在形式與細(xì)節(jié)上作出改變。
權(quán)利要求
1.一種譯解輸入的方法,所述方法包含從輸入中識(shí)別可能的字詞序列;使用基于類(lèi)的語(yǔ)言模型和類(lèi)實(shí)體詞典來(lái)從可能的字詞序列中選擇一個(gè)作為輸出序列;其特征在于,所述方法包括接收對(duì)輸出序列所作的修改,并且使用該修改來(lái)改變類(lèi)實(shí)體詞典。
2.一種計(jì)算機(jī)可讀取媒體,具有用于執(zhí)行以下步驟的計(jì)算機(jī)可執(zhí)行指令部分地根據(jù)為至少一個(gè)類(lèi)的實(shí)體提供概率的類(lèi)實(shí)體詞典來(lái)產(chǎn)生字詞序列;接收對(duì)該字詞序列的修改,使該字詞序列中的已譯解實(shí)體修改成已修改的實(shí)體;并且其特征在于至少部分地根據(jù)已譯解實(shí)體與已修改實(shí)體中的至少一個(gè)來(lái)設(shè)定類(lèi)實(shí)體詞典中實(shí)體的概率。
3.如權(quán)利要求1所述的方法,其特征在于,使用修改來(lái)改變類(lèi)實(shí)體詞典包含了使用修改來(lái)將實(shí)體添加到類(lèi)實(shí)體詞典中。
4.如權(quán)利要求3所述的方法,其特征在于,添加實(shí)體進(jìn)一步包含了估計(jì)所添加的實(shí)體在給定該實(shí)體所加入的類(lèi)時(shí)的概率。
5.如權(quán)利要求4所述的方法,其特征在于,估計(jì)該實(shí)體的概率包含了部分地根據(jù)與輸出序列中已譯解實(shí)體相關(guān)的概率來(lái)估計(jì)概率。
6.如權(quán)利要求6所述的方法,其特征在于,估計(jì)該實(shí)體的概率包含了根據(jù)與已譯解實(shí)體相關(guān)的n字列概率和與在修改中被修改的實(shí)體所加入的類(lèi)相關(guān)的n字列概率來(lái)估計(jì)概率。
7.如權(quán)利要求1所述的方法,其特征在于,使用修改來(lái)改變類(lèi)實(shí)體詞典包含了提高與類(lèi)實(shí)體詞典中的實(shí)體相關(guān)的概率。
8.如權(quán)利要求1所述的方法,其特征在于,使用修改來(lái)改變類(lèi)實(shí)體詞典包含了降低與類(lèi)實(shí)體詞典中的實(shí)體相關(guān)的概率。
9.如權(quán)利要求2所述的計(jì)算機(jī)可讀取媒體,其特征在于,設(shè)定在類(lèi)實(shí)體詞典中實(shí)體的概率包含了將所修改的實(shí)體添加到類(lèi)實(shí)體詞典中并為所修改的實(shí)體選擇概率。
10.如權(quán)利要求9所述的計(jì)算機(jī)可讀取媒體,其特征在于,為所修改的實(shí)體選擇概率包含了根據(jù)與已譯解實(shí)體相關(guān)的概率來(lái)估計(jì)概率。
11.如權(quán)利要求10所述的計(jì)算機(jī)可讀取媒體,其特征在于,估計(jì)概率包含了根據(jù)與已譯解實(shí)體相關(guān)的n字列概率和與類(lèi)實(shí)體詞典中的類(lèi)相關(guān)的n字列概率來(lái)估計(jì)概率。
12.如權(quán)利要求2所述的計(jì)算機(jī)可讀取媒體,其特征在于,設(shè)定實(shí)體的概率包含了提高實(shí)體的概率。
13.如權(quán)利要求2所述的計(jì)算機(jī)可讀取媒體,其特征在于,設(shè)定實(shí)體的概率包含了降低實(shí)體的概率。
全文摘要
提供一種根據(jù)由用戶(hù)所作糾正來(lái)擴(kuò)大具有類(lèi)實(shí)體詞典(412)的語(yǔ)言模型(410)的方法和設(shè)備。在該方法和設(shè)備下,用戶(hù)通過(guò)以正確的片斷替換輸出片斷來(lái)糾正部分地基于語(yǔ)言模型的輸出。將該正確片斷添加到在類(lèi)實(shí)體詞典(412)中的片斷類(lèi)中,并根據(jù)與該輸出片斷相關(guān)的n字列概率和與該類(lèi)相關(guān)的n字列概率來(lái)估計(jì)該正確片斷在給定該類(lèi)時(shí)的概率。然后用所估計(jì)的這一概率來(lái)產(chǎn)生進(jìn)一步的輸出。
文檔編號(hào)G10L21/00GK1419184SQ0215069
公開(kāi)日2003年5月21日 申請(qǐng)日期2002年11月13日 優(yōu)先權(quán)日2001年11月13日
發(fā)明者陳正, 高劍峰, 李明鏡, 章鋒 申請(qǐng)人:微軟公司