專利名稱:用于用戶模型化以增強(qiáng)對命名實(shí)體識(shí)別的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及命名實(shí)體識(shí)別,尤其涉及對用戶模式進(jìn)行模型化以增強(qiáng)對命名實(shí)體的識(shí)別。
背景技術(shù):
命名實(shí)體(NE)是特定的語言項(xiàng),比如專有名稱、公司名稱、電子郵件地址、地點(diǎn)等,它被應(yīng)用看作為一個(gè)單元。命名實(shí)體識(shí)別器是已知的,并且可知命名實(shí)體處理是語言分析的重要階段。
當(dāng)前NE識(shí)別以多種方法進(jìn)行。一些NE識(shí)別的方法在NE是固定的(或靜態(tài)的)時(shí)使用列表查詢,如城市名、國家名、名字、公司名、類似產(chǎn)品名的固定項(xiàng)等。其他方法使用常規(guī)表達(dá)和語法規(guī)則,其能夠?qū)⒕浞ㄐ畔⑴c詞典或列表查詢相結(jié)合以識(shí)別NE。大多數(shù)公知的方法直接從訓(xùn)練數(shù)據(jù)中建立有限狀態(tài)的識(shí)別器。
個(gè)人信息管理(PIM)一直是自動(dòng)語音識(shí)別的主要應(yīng)用區(qū)域。在PIM系統(tǒng)中,NE識(shí)別是一項(xiàng)重要的任務(wù)。例如,語音激活電子郵件程序依靠NE識(shí)別。這些應(yīng)用中的處理需要許多NE的識(shí)別,例如電子郵件接收方。類似地,一些PIM涉及電話的話音撥打、調(diào)度等,這些也需要NE識(shí)別。
一般在語音識(shí)別引擎的領(lǐng)域中,NE識(shí)別引起許多問題。首先,NE用戶可以使用組成NE的許多名稱和其他項(xiàng)。例如,在任何已知的公司或社團(tuán)中具有許多區(qū)別的專有名稱。這導(dǎo)致NE識(shí)別中大量混淆,從而導(dǎo)致NE識(shí)別任務(wù)中的極大差錯(cuò)率。
另一困難涉及不在標(biāo)準(zhǔn)詞典中的名稱。創(chuàng)建包含世界上每個(gè)名稱或者包含所有英語發(fā)音名稱的詞典是非常困難的。即使存在這樣的詞典,由于包含大量可能的發(fā)音,使用這樣的詞典也會(huì)大大降低識(shí)別的精度。
還有一個(gè)存在于NE識(shí)別的困難是有許多不同的方式稱呼一個(gè)人。例如不同人以不同的方法稱呼一個(gè)人。一些人用他或她的名字稱呼一個(gè)人,而其他人用姓和名稱呼一個(gè)人,另外還有其他人以不同的方式稱呼同一個(gè)人,如使用名字以及姓的首字母,或者使用昵稱等。此外,一個(gè)人可以用多種不同的方式稱呼其他人。例如,一個(gè)人僅僅使用名字稱呼他或她的鄰居或同事中的一個(gè),而僅僅使用姓稱呼另一個(gè)鄰居或同事。
再有一個(gè)存在于NE識(shí)別的困難是使用名字時(shí)的不定性。由許多共用的名字,即使NE識(shí)別器(如自動(dòng)語音識(shí)別系統(tǒng))正確識(shí)別構(gòu)成名字的單詞,用戶仍舊是無法確定的。例如,如果用戶說出單詞“David”,自動(dòng)語音識(shí)別系統(tǒng)可以精確地將“David”識(shí)別為NE。然而,在大公司中,由許多人的名字是“David”,并且需要用戶搜索存在于識(shí)別器中的“David”的列表(通常以姓的字母順序排列)以找到合適的一個(gè)。
發(fā)明內(nèi)容
本發(fā)明利用用戶模型化以對用戶的行為模式進(jìn)行模型化。隨后使用用戶的行為模式影響命名實(shí)體(NE)的識(shí)別。
在一實(shí)施例中,跨應(yīng)用進(jìn)行用戶模型化。在該實(shí)施例中,從不同源取得從用戶產(chǎn)生的數(shù)據(jù)或以某種方式與用戶相關(guān)的數(shù)據(jù)。這些源包括語音識(shí)別系統(tǒng)、應(yīng)用和其他源。在數(shù)據(jù)中標(biāo)識(shí)命名實(shí)體,并且對每一標(biāo)識(shí)的命名實(shí)體產(chǎn)生概率。利用所產(chǎn)生的概率影響后續(xù)的命名實(shí)體的識(shí)別。
在一實(shí)施例中,在所收集的數(shù)據(jù)中間歇地根據(jù)各種不同的觸發(fā)器,標(biāo)識(shí)命名實(shí)體。觸發(fā)器可包括用戶操作、應(yīng)用操作、定時(shí)器、所收集的數(shù)據(jù)量或另一觸發(fā)器。
在一實(shí)施例中,與命名實(shí)體相關(guān)的概率根據(jù)語境和創(chuàng)建數(shù)據(jù)的時(shí)間而變化。在另一實(shí)施例中,所收集的數(shù)據(jù)是根據(jù)數(shù)據(jù)源而加權(quán)的。
在另一實(shí)施例中,命名實(shí)體與語法結(jié)合,如與概率語境無關(guān)的語法。命名實(shí)體還可與語言模型結(jié)合,如口述語言模型,或者將命名實(shí)體添加到用戶詞典中。此外,命名實(shí)體可以其他方式結(jié)合,如鏈接到文本框作為降序列表的一部分(或者其他控制以提供由學(xué)習(xí)概率排序的自動(dòng)完成列表),或者命名實(shí)體用于命令和控制作為指令的一部分。
圖1是使用本發(fā)明的一示例環(huán)境的框圖。
圖2使用與產(chǎn)生命名實(shí)體列表(或命名實(shí)體模型)的系統(tǒng)框圖。
圖3是示出圖2所示系統(tǒng)操作的流程圖。
圖4是示出為了取得和結(jié)合NE列表而進(jìn)行的NE分析的流程圖。
圖5是NE列表或NE模型的一個(gè)示例性實(shí)施例。
圖6示出通過將NE列表鏈接到文本框的NE列表結(jié)合。
具體實(shí)施例方式
本發(fā)明涉及使用用戶模型化以產(chǎn)生命名實(shí)體(NE)列表(或NE模型)的系統(tǒng)。本發(fā)明還涉及用于結(jié)合和使用NE模型的系統(tǒng)。但是在詳細(xì)討論本發(fā)明之前,描述可使用本發(fā)明的一個(gè)示例環(huán)境。
圖1描述了可實(shí)現(xiàn)本發(fā)明的合適的計(jì)算系統(tǒng)環(huán)境100的一個(gè)示例。該計(jì)算系統(tǒng)環(huán)境100只是合適的計(jì)算環(huán)境的一個(gè)示例,并非想局限本發(fā)明的使用或功能范圍。也不應(yīng)認(rèn)為計(jì)算環(huán)境100對示例操作環(huán)境100所描述的任一組件或其組合具有任何依賴性和需求。
本發(fā)明在眾多其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置中都是可操作的。適合使用本發(fā)明的眾所周知的計(jì)算系統(tǒng)、環(huán)境、和/或配置的示例包括但不限于,個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式或膝上設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)類電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算系統(tǒng)等等。
在計(jì)算機(jī)可執(zhí)行指令的通常環(huán)境下描述本發(fā)明,計(jì)算機(jī)可執(zhí)行指令如由計(jì)算機(jī)執(zhí)行程序模塊。程序模塊通常包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等,它們完成特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。本發(fā)明也可以在分布式計(jì)算環(huán)境中實(shí)現(xiàn),在該環(huán)境中,任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)端處理裝置來完成。在分布式計(jì)算環(huán)境中,程序模塊可以同時(shí)位于本地和遠(yuǎn)端計(jì)算機(jī)存儲(chǔ)介質(zhì)中,包括存儲(chǔ)器裝置。
參考圖1,實(shí)現(xiàn)本發(fā)明的一個(gè)示例系統(tǒng)包括以計(jì)算機(jī)110的形式表示的通用計(jì)算裝置。計(jì)算機(jī)110的組件包括但不限于,處理單元120、系統(tǒng)存儲(chǔ)器130以及將包括系統(tǒng)存儲(chǔ)器在內(nèi)的各種系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是幾種總線結(jié)構(gòu)的任何一種,包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外部總線,以及使用任意總線結(jié)構(gòu)的本地總線。作為示例,但非局限,這類結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、增強(qiáng)型ISA(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)本地總線、以及外圍部件互聯(lián)(PCI)總線,也稱Mezzanine總線。
計(jì)算機(jī)110通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是任何可由計(jì)算機(jī)110存取的可用介質(zhì),包括易失性介質(zhì)和非易失性介質(zhì),可移動(dòng)介質(zhì)和不可移動(dòng)介質(zhì)。作為示例,并非局限,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括在任意用于存儲(chǔ)信息的方法或技術(shù)中實(shí)現(xiàn)的易失性介質(zhì)和非易失性介質(zhì)、可移動(dòng)介質(zhì)和不可移動(dòng)介質(zhì),這些信息包括計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于,RAM、ROM、EEPROM、按塊擦除存儲(chǔ)器或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲(chǔ)、磁盒、磁帶、磁盤存儲(chǔ)或其它磁存儲(chǔ)裝置、或任何其它可以用于儲(chǔ)存需要的信息并可由計(jì)算機(jī)110存取的介質(zhì)。通信介質(zhì)通常包括計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它已調(diào)制數(shù)據(jù)信號(hào)如載波或其它傳輸機(jī)制中的數(shù)據(jù),包括任何信息傳送介質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號(hào)”表示一種信號(hào),該信號(hào)具有一個(gè)或多個(gè)通過對信號(hào)中的信息進(jìn)行編碼而設(shè)定或改變的特征。作為示例,并非局限,通信介質(zhì)包括有線介質(zhì),如有線網(wǎng)絡(luò)或直接連線連接,以及無線介質(zhì),如聲學(xué)、RF、紅外以及其它無線介質(zhì)。上述介質(zhì)的組合也應(yīng)當(dāng)包含在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
系統(tǒng)存儲(chǔ)器130包括易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì),如只讀存儲(chǔ)器(ROM)131和隨機(jī)存取存儲(chǔ)器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)通常儲(chǔ)存在ROM 131中,包含協(xié)助在計(jì)算機(jī)110內(nèi)如啟動(dòng)時(shí)在元件之間進(jìn)行信息傳輸?shù)幕纠?。RAM 132通常包含處理單元120立即可存取和/或當(dāng)前正操作的程序模塊。作為示例,并非局限,圖1描述了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136以及程序數(shù)據(jù)137。
計(jì)算機(jī)110也可包括其它可移動(dòng)/不可移動(dòng)的易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。僅作示例,圖1描述了硬盤驅(qū)動(dòng)器141,對不可移動(dòng)、非易失性磁介質(zhì)進(jìn)行讀寫;磁盤驅(qū)動(dòng)器151,對可移動(dòng)、非易失性磁盤152進(jìn)行讀寫;以及光盤驅(qū)動(dòng)器155,對可移動(dòng)、非易失性光盤156如CD-ROM或其它光學(xué)介質(zhì)進(jìn)行讀寫。其它可在示例操作環(huán)境中使用的可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字視頻磁帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動(dòng)器141通常通過不可移動(dòng)存儲(chǔ)器接口,如接口140,連接至系統(tǒng)總線121。磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器155通常通過可移動(dòng)存儲(chǔ)器接口,如接口150,連接至系統(tǒng)總線121。
以上討論并在圖1中描述的驅(qū)動(dòng)器連同其相關(guān)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算機(jī)110提供了計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲(chǔ)。例如,在圖1中,將硬盤驅(qū)動(dòng)器141描述為儲(chǔ)存操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146以及程序數(shù)據(jù)147。值得注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136以及程序數(shù)據(jù)137相同,也可以不同。此處為操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146以及程序數(shù)據(jù)147標(biāo)上不同的號(hào)碼,以至少表明它們是不同的副本。
用戶可以通過輸入設(shè)備,如鍵盤162、話筒163、以及定位設(shè)備161,如鼠標(biāo)、跟蹤球或觸摸板,向計(jì)算機(jī)110輸入命令和信息。其它輸入設(shè)備(未示出)可包括操縱桿、游戲操縱桿、衛(wèi)星式圓盤、掃描儀等等。這些或其它輸入設(shè)備通常通過耦合至系統(tǒng)總線的用戶輸入接口連接至處理單元120,也可以通過其它接口和總線接口來連接,如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器191或其它類型的顯示設(shè)備也通過接口,如視頻接口190,連接至系統(tǒng)總線121。除監(jiān)視器之外,計(jì)算機(jī)也可以包括其它外圍輸出設(shè)備,如揚(yáng)聲器197和打印機(jī)196,通過輸出外圍接口190連接。
計(jì)算機(jī)110可以采用邏輯連接至一個(gè)或多個(gè)遠(yuǎn)端計(jì)算機(jī),如遠(yuǎn)端計(jì)算機(jī)180,在建立網(wǎng)絡(luò)的環(huán)境中操作。遠(yuǎn)端計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、手持式設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等裝置或其它常見網(wǎng)絡(luò)節(jié)點(diǎn),通常包括上文描述的同計(jì)算機(jī)110相關(guān)的許多或所有元件。圖1描述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,也可以包括其它網(wǎng)絡(luò)。這類聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)中是常見的。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110通過網(wǎng)絡(luò)接口或適配器170同LAN 171相連接。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110通常包括調(diào)制解調(diào)器172或其它用于通過WAN 173,如因特網(wǎng),建立通信的裝置。調(diào)制解調(diào)器172可以是內(nèi)置的,也可以是外置的,通過用戶輸入接口160或其它合適的機(jī)制連接至系統(tǒng)總線121。在建立網(wǎng)絡(luò)的環(huán)境中,所述的同計(jì)算機(jī)110或其部分相關(guān)的程序模塊可以儲(chǔ)存在遠(yuǎn)端存儲(chǔ)器設(shè)備中。作為示例,并非限制,圖1描述遠(yuǎn)端應(yīng)用程序185駐留于遠(yuǎn)程計(jì)算機(jī)180中。此處所示的網(wǎng)絡(luò)連接是示例性的,也可使用其它在計(jì)算機(jī)之間建立通信鏈路的裝置。
值得注意的是,本發(fā)明在計(jì)算機(jī)系統(tǒng)上執(zhí)行,如圖1所述的。然而,本發(fā)明也可在服務(wù)器、專用于消息處理的計(jì)算機(jī),或分布式系統(tǒng)上執(zhí)行,其中在分布式計(jì)算系統(tǒng)的不同部分執(zhí)行本發(fā)明的不同部分。
圖2是用于產(chǎn)生命名實(shí)體(NE)列表或NE模型202的系統(tǒng)200。系統(tǒng)200包括傳感器204,它由各種不同的可選觸發(fā)器中的一個(gè)觸發(fā),如事件觸發(fā)器206,用戶觸發(fā)器208、定時(shí)器210或一些其他的觸發(fā)器212。系統(tǒng)200還包括記錄器214、分析器216和可選的緩沖器218。值得注意的是,雖然分別示出了傳感器204、記錄器214和分析器216,但是其可進(jìn)行組合或在一些實(shí)現(xiàn)中省略。圖2還示出了從各種源收集數(shù)據(jù),如應(yīng)用220、語音識(shí)別引擎222或其他NE的源。
圖3是示出圖2所示系統(tǒng)200操作一個(gè)實(shí)施例的流程圖。如以下所述,系統(tǒng)200對用戶的使用模式進(jìn)行模型化以標(biāo)識(shí)NE和計(jì)算與每一NE相關(guān)的概率。隨后將這個(gè)NE列表與相關(guān)的概率(或NE模型)202用于跨不同應(yīng)用或不同環(huán)境中的NE識(shí)別。
為了產(chǎn)生NE模型202,收集表示特定用戶使用模式的數(shù)據(jù)。這由圖3中框230表示。圖2示出源可包括應(yīng)用220,如字文檔、電子郵件應(yīng)用、元數(shù)據(jù)或來自電子郵件應(yīng)用中不同域(如“to”域、“cc”域或“from”域)的信息,該信息對應(yīng)用、聯(lián)系列表等進(jìn)行調(diào)度。另外,應(yīng)用220可以是地圖或地理應(yīng)用,在此情況下,從該應(yīng)用收集城市、州和其他地點(diǎn)名稱。
類似地,圖2示出由用戶使用的系統(tǒng)包括語音識(shí)別引擎222,其中顯示用戶使用模式的收集數(shù)據(jù)的一個(gè)源可以是語音識(shí)別引擎222。通過語音激活應(yīng)用220或直接從語音識(shí)別引擎222向傳感器204提供表示識(shí)別結(jié)果的數(shù)據(jù)。
其他NE源224還向傳感器204提供數(shù)據(jù),該數(shù)據(jù)表示用戶使用模式。當(dāng)然,可直接從源220、222和224向傳感器204提供數(shù)據(jù),或者在可選的緩沖器218中緩沖數(shù)據(jù)。
在一示例實(shí)施例中,NE的所有源220、222和224提供與被模型化的特定用戶有關(guān)的NE。例如,在電子郵件應(yīng)用的“to”、“cc”或“from”域中所標(biāo)識(shí)的電子郵件接收方來自于由該用戶產(chǎn)生或接收的電子郵件。此外,用戶聯(lián)系列表或標(biāo)識(shí)用戶經(jīng)常聯(lián)系的人的類似類型的數(shù)據(jù)庫也可用作為NE的源。類似地,也可使用公司范圍的姓名目錄。在許多公司中,姓名目錄是以電子形式的,并以工作組、部門或其他合作單位或工作單位進(jìn)行排列。在這種情況下,用戶所在單位中的姓名可作為與該用戶密切相關(guān)的NE源。此外,如果NE源是地圖應(yīng)用,則由用戶選擇或“選中“的地點(diǎn)可作為與該用戶密切相關(guān)的信息。另外,也可使用緊密接近用戶地點(diǎn)的地點(diǎn),或者由定位系統(tǒng)提供的地點(diǎn),如全球定位系統(tǒng)(GPS)。
除了與特定用戶緊密相關(guān)的NE源之外,也可是用于該用戶不是緊密相關(guān)的其他NE源。例如,可使用公司范圍地址簿中的所有姓名。類似地,可使用地圖應(yīng)用中普通和著名的地點(diǎn),即使它們與特定用戶不是緊密相關(guān)。此外,在包括與用戶非緊密相關(guān)的信息作為NE源的情況下,可對該信息進(jìn)行加權(quán),其權(quán)重要小于與該用戶緊密相關(guān)的信息。例如,如果公司范圍的地址簿用作NE源,則給予地址簿中所有其它姓名的權(quán)重要小于該特定用戶所在工作組中的姓名的權(quán)重,或小于來自另一緊密相關(guān)源的姓名的權(quán)重,如用戶的電子郵件應(yīng)用。類似地,在將地圖應(yīng)用中普通或著名地點(diǎn)用作NE源的情況下,其權(quán)重小于用戶在地圖應(yīng)用中實(shí)際選擇或“點(diǎn)擊”的地點(diǎn)。這樣,本發(fā)明并不僅限于與特定用戶緊密相關(guān)的NE源。
還可使用其它的NE源。一些字處理器和操作系統(tǒng)保留“常用列表”,它是經(jīng)常使用的項(xiàng)(如文檔)的列表。諸如瀏覽器的其他系統(tǒng)保留“歷史列表”,它列出了最近使用的項(xiàng)(如最近訪問的站點(diǎn))。從這些源中取得的NE可以是一些名稱,如標(biāo)識(shí)文檔、web地址、項(xiàng)目名,用戶名等的名稱。
當(dāng)然,應(yīng)該理解,這里所述的NE并不限于專有名詞,而是還包括對人、地點(diǎn)等的其他指代。例如,命名實(shí)體可標(biāo)識(shí)為“我的經(jīng)理”或“Joe的經(jīng)理”。命名實(shí)體還可標(biāo)識(shí)為“我的指導(dǎo)報(bào)告”,等等。
在任何情況下,一旦收集了反映用戶使用模式的信息,傳感器204就接收傳感器的觸發(fā)輸入,表示這是處理所收集信息以標(biāo)識(shí)其中的NE的時(shí)間了。這由圖3中的框232表示。圖2示出具有多種觸發(fā)機(jī)構(gòu)用于觸發(fā)傳感器204以識(shí)別收集的數(shù)據(jù)中的NE。例如,時(shí)間觸發(fā)器206是應(yīng)用產(chǎn)生的觸發(fā)器,它根據(jù)應(yīng)用的事件觸發(fā)傳感器204。例如在電子郵件應(yīng)用中,發(fā)送和接收都可以是觸發(fā)傳感器204搜索所收集數(shù)據(jù)以標(biāo)識(shí)NE的事件。當(dāng)然,事件觸發(fā)器206還可包括多種其他事件的任何一種,如開啟、關(guān)閉、操作系統(tǒng)事件等。
觸發(fā)器還包括用戶產(chǎn)生的觸發(fā)器208。用戶產(chǎn)生的觸發(fā)器208的一個(gè)例子就是在字處理應(yīng)用中用戶保存文檔。一旦用戶開始了保存操作,就可提供該文檔到傳感器204(可選地通過緩沖器218),并且傳感器隨后處理該文檔(以及其他所收集信息)標(biāo)識(shí)其中的NE。
另外的觸發(fā)器包括定時(shí)器。在該實(shí)施例中,每當(dāng)傳感器204處理了所收集數(shù)據(jù),定時(shí)器就簡單重置。當(dāng)定時(shí)器210過時(shí)了,它就再次觸發(fā)傳感器204檢查所收集數(shù)據(jù)中的NE。
還有其他的觸發(fā)器212可用于觸發(fā)傳感器204。例如,當(dāng)使用語音識(shí)別引擎222時(shí),語音識(shí)別引擎222示例性地輸出一指示,說明它取得了識(shí)別結(jié)果。該指示用作對傳感器204的觸發(fā),并且隨后處理該識(shí)別結(jié)果以標(biāo)識(shí)其中的NE。
其他觸發(fā)器可包括多種附加的觸發(fā)器。例如,在緩沖器218中僅根據(jù)其容量監(jiān)測所收集的數(shù)據(jù)量。當(dāng)收集了足夠量的數(shù)據(jù)時(shí),就可將其用于觸發(fā)傳感器204處理所收集的數(shù)據(jù)以標(biāo)識(shí)NE。
當(dāng)然,還應(yīng)注意,可以使用任何觸發(fā)器206-212本身,或它們與任何或所有其他或附加觸發(fā)器的組合。
一旦觸發(fā)了傳感器204,它就處理收集來自源220、222和224的數(shù)據(jù)并在該數(shù)據(jù)中標(biāo)識(shí)NE。這由圖3中的框234表示??梢砸远喾N已知方式的任何一種進(jìn)行NE的標(biāo)識(shí),并且由傳感器204標(biāo)識(shí)NE所使用的特定方法不構(gòu)成本發(fā)明的一部分。例如,一些系統(tǒng)通過對考慮中的文本進(jìn)行語言分析而標(biāo)識(shí)NE。該語言分析具有定義指定NE的準(zhǔn)則算法。
在任何情況下,一旦由傳感器204標(biāo)識(shí)NE,就將它們提供到記錄器214。記錄器214處理并可選地存儲(chǔ)NE,以由分析器216進(jìn)行進(jìn)一步分析。在一實(shí)施例中,記錄器214對NE進(jìn)行歸一化以進(jìn)一步進(jìn)行分析,如通過將NE中的字轉(zhuǎn)換為規(guī)范形式。隨后記錄器214存儲(chǔ)歸一化的NE直到由分析器216對它們進(jìn)行檢索。在該實(shí)施例中,記錄器214以任何合適的形式存儲(chǔ)NE,如XML文件或其他形式。另外,記錄器214向分析器216提供歸一化的NE以立即進(jìn)行分析。
分析器216對由記錄器214提供的歸一化NE進(jìn)行分析,并且創(chuàng)建或更新NE列表(或NE模型)202。隨后NE模型202可用于系統(tǒng)中需要對其加以利用的任何其他部件,如應(yīng)用220、語音識(shí)別引擎222、其他源224或由用戶使用的任何其他的系統(tǒng)部件。由圖4中框238表示分析NE以取得新的NE列表。由框240表示可用于系統(tǒng)其他部件的新的或更新的NE列表202。
在更詳細(xì)討論NE分析之前,應(yīng)當(dāng)注意可以離線、在線或兩者兼而有之產(chǎn)生NE模型。例如,在一實(shí)施例中,一開始離線創(chuàng)建NE模型202并隨后進(jìn)行優(yōu)化。在該實(shí)施例中,通過處理來自源220-224的信息而離線建立初始模型,這些源可用于離線環(huán)境。這樣的源包括諸如過去由特定用戶發(fā)送的電子郵件、用戶的聯(lián)系列表、用戶的公司目錄,先前由用戶創(chuàng)作的文檔等。類似地,可用來自其他源的某些信息對NE模型202進(jìn)行初始化,如來自地圖應(yīng)用的著名地點(diǎn),靠近用戶的地理區(qū)域中的城市等。
盡管初始模型202是離線產(chǎn)生和適配的,但企業(yè)可以在在線環(huán)境中產(chǎn)生和適配。這可以如圖2和3所示進(jìn)行。換言之,提供實(shí)時(shí)觸發(fā)使得感應(yīng)、記錄和分析與系統(tǒng)操作同時(shí)進(jìn)行。
現(xiàn)在針對圖4更詳細(xì)地討論由分析器216所進(jìn)行的NE分析。圖4示出了描述分析NE的多個(gè)不同實(shí)施例流程圖。在一實(shí)施例中,首先由分析器216將由記錄器214提供的歸一化NE分類合并為多個(gè)不同的類別。這由圖4中的框242表示。
一些示例的類別包括人的類和地點(diǎn)類。人的類包括諸如人的專有名稱,還包括對人的從屬指代,如“我的老板”等。地點(diǎn)類包括城市、州、學(xué)校和其他地點(diǎn),它不需要是專有名稱,如吸引人的地方和普通地點(diǎn)。
還可根據(jù)所屬類別將NE與屬性相關(guān)。例如,人的類可以具有諸如名字、姓和電子郵件地址的屬性。地點(diǎn)類可包括諸如地址、地理區(qū)域等的屬性。
可以以多種形式的任何一種進(jìn)行分類合并。一個(gè)進(jìn)行分類合并的示例方法是基于信息所提取自的環(huán)境。例如,來自聯(lián)系或郵件列表的姓名可置于人的類,基于它們來自于聯(lián)系或郵件列表這一事實(shí)。來自于地圖應(yīng)用的城市名置于地點(diǎn)類,基于它們來自地圖應(yīng)用這一事實(shí)。例如,從地質(zhì)簿地址字段所獲得的地址也可置于地點(diǎn)類。類似地,分類合并可基于所分析文檔的語言分析。例如,如果文本或字處理文檔是經(jīng)過分析的,則語言分析會(huì)指示特定命名實(shí)體是地點(diǎn)。該指示可由分析器216使用而將該命名實(shí)體分類合并為合適的類別。
當(dāng)然應(yīng)當(dāng)注意,一些命名實(shí)體可置于幾個(gè)不同的類別。例如,一些命名實(shí)體在不同環(huán)境中具有不同的含義。例如,如果從地圖應(yīng)用中檢索到字“Washington”,則它可置于地點(diǎn)類。而如果還從聯(lián)系列表中檢索到字“Washington”,則它最好置于人的類。
將NE分類合并為不同的類別的一個(gè)理由是不僅為了提高模型202操作的效率,還為了協(xié)助將模型結(jié)合到不同類型的使用場合。例如,類別具有語義。這樣NE所處的類別就可用作基于類的語言模型中的類。類似地,該類別可用作與環(huán)境無關(guān)的語法中的類。
圖5示出了進(jìn)行分類合并后NE模型202的示圖。將NE分類合并為模型202中所示的簇1-n。當(dāng)然,如上所述,某些NE還可分類合并為多個(gè)不同的簇。
在任何情況下,一旦將NE分類合并為類別,就可對NE計(jì)算概率。這由圖4中的框244表示。此概率可基于用戶使用特定NE的頻率。然而,概率還可基于其他因素。例如,不同NE在由不同應(yīng)用和環(huán)境使用時(shí)具有不同的概率估計(jì)。例如,在地圖應(yīng)用中,地點(diǎn)NE的概率不僅基于當(dāng)前用戶訪問特定地點(diǎn)NE的頻率,還基于表示該地點(diǎn)在一般公眾中的普及率的普及測量,以及基于表示從用戶住處或當(dāng)前住所到該地點(diǎn)距離的距離測量。
又如,用于電子郵件應(yīng)用的NE具有一概率,該概率不僅基于用戶對特定NE產(chǎn)生電子郵件的頻率,還基于公司組織圖中該特定NE對特定用戶的接近度,以及最近使用NE的時(shí)間與現(xiàn)在的接近度。NE越接近用戶,概率就越高。
當(dāng)然,這些僅是例子,根據(jù)使用NE模型202的特定應(yīng)用,如何計(jì)算概率會(huì)有所不同。
此外,為了計(jì)算NE的概率,分析器216對來自不同源的信息進(jìn)行不同的加權(quán)。例如,如以上簡述,當(dāng)計(jì)算從不同NE源提取的NE的概率時(shí),可根據(jù)其對特定用戶的接近度對信息進(jìn)行加權(quán)。例如,如果在計(jì)算概率時(shí)使用的NE是從電子郵件應(yīng)用中提取的,則對那些位于用戶特定姓名短列表中的姓名給予最高權(quán)重,該短列表僅包括用戶過去已向其發(fā)送電子郵件的姓名。對從發(fā)送到用戶的電子郵件或用戶工作組目錄中相關(guān)姓名取得的NE給予第二最高權(quán)重。對從公司范圍地址簿提取的NE給予最低權(quán)重。
類似地,可根據(jù)特定NE的符合率確定權(quán)重。換言之,如果NE符合從用戶的NE短列表產(chǎn)生的電子郵件接收方語法,則其被賦予一特定權(quán)重。如果它符合對用戶的工作組列表產(chǎn)生的接收方語法,則其被賦予第二權(quán)重,如果它符合對公司范圍地址簿產(chǎn)生的語法,則其被賦予第三權(quán)重。權(quán)重可使用拒絕閾值作為基數(shù),并且在詞匯表之外的NE仍舊具有一些估計(jì)的概率以將未見的訓(xùn)練數(shù)據(jù)考慮在內(nèi)。
一個(gè)特定的例子是有幫助的。假設(shè)一般的語音識(shí)別引擎根據(jù)以下準(zhǔn)則識(shí)別語音等式1w^=argmaxwP(A|w)P(w)]]>其中A是所接收的聲學(xué)特征表示,w是候選字,而P(w)是候選w的先驗(yàn)概率(如語言模型概率)。
根據(jù)本發(fā)明一實(shí)施例的用戶模型化根據(jù)用戶的使用歷史估計(jì)先驗(yàn)概率,并因此減少混淆并增加識(shí)別精度。以下討論針對一個(gè)例子,其中電子郵件接收方的語音識(shí)別是所論述的任務(wù)。在NE識(shí)別任務(wù)中估計(jì)兩個(gè)概率接收方的概率和接收方以某種方式被讀出的概率。
估計(jì)接收方的概率的問題描述如下給定以時(shí)間排序的接收方序列,每一接收方是下一個(gè)接收方的概率是多少。一般,接收方i是否在時(shí)間t出現(xiàn)可表示如下等式2xi(t)=Σkδ(t-tik)]]>其中tik表示用戶第k次將電子郵件發(fā)送到接收方i的時(shí)間,而δ是Kroneckerdelta。在時(shí)間T內(nèi)接收方i出現(xiàn)的總次數(shù)可表示如下ci(T)=Σtxi(t)w(T-t)=ΣkΣtδ(t-tik)w(T-t)]]>等式3=Σkw(T-tik)]]>其中w(t)是所施加的窗函數(shù)。這樣接收方的概率可估計(jì)如下等式4p^i=ci(T)Σjcj(T)=Σkw(T-tik)ΣjΣkw(T-tjk)]]>
如果基本隨機(jī)過程是固定的,則w(t)就應(yīng)是矩形窗,并且以上估計(jì)可簡化為等式5p^i=niΣjni]]>其中ni是過去接收方i出現(xiàn)的次數(shù)。
但是,接收方i是下一個(gè)接收方的概率是隨時(shí)間變化的,這是因?yàn)橛脩舻氖褂媚J绞亲兓?。此外,變化的模式對于不同的接收方是不同的。例如,?dāng)用戶改變了組,則用戶不需要像以前一樣經(jīng)常對舊組中的同事發(fā)送電子郵件。但是用戶可以繼續(xù)向非工作的朋友或家人發(fā)送電子郵件,就向他或她過去經(jīng)常做的一樣。
為了補(bǔ)償基本隨機(jī)過程的時(shí)變特性,施加如下指數(shù)窗等式6w(t)=e-λt其中λ是遺忘因子,選擇遺忘因子使得最近的數(shù)據(jù)具有較高的權(quán)重。λ越大,對新數(shù)據(jù)賦予的權(quán)重越大。但是,對新數(shù)據(jù)的偏移太大會(huì)引起過當(dāng)。因此如下,在一示例實(shí)施例中,λ是緩慢變化的參數(shù),它由控制數(shù)據(jù)組進(jìn)行自動(dòng)調(diào)整以最小化控制數(shù)據(jù)組的KL距離等式7E^=Σip‾ilogp‾ip^i]]>其中pi是根據(jù)控制組中接收方的出現(xiàn)估計(jì)如下等式8p‾i=niΣjni]]>系統(tǒng)可以多種不同的方式調(diào)整λ。在一實(shí)施例中,使用梯度下降算法,其中梯度定義如下
dE^dλ=d(-Σip‾ilogp^i)dλ=-Σip‾ip^i·dp^idλ]]>等式9=Σip‾ip^i·(Σk(T-tik)e-λ(T-tik)-p^iΣjΣk(T-tik)e-λ(T-tjk)ΣjΣke-λ(T-tjk))]]>=Σip‾ip^iΣk(T-tik)e-λ(T-tik)-ΣjΣk(T-tjk)e-λ(T-tjk)ΣjΣke-λ(T-tjk)]]>從這點(diǎn)來看,該模型對用戶過去實(shí)際向其發(fā)送過電子郵件的接收方進(jìn)行處理。但是,在用戶聯(lián)系列表中的所有人以及向用戶發(fā)送電子郵件的所有人都是潛在的接收方,即使用戶過去從沒有向他們發(fā)送過電子郵件。對于這些人,系統(tǒng)示例性地提供一基礎(chǔ)概率,它等于用戶在過去的預(yù)定時(shí)間(如100天之前)曾經(jīng)向接收方發(fā)送電子郵件的概率。對于這樣的潛在接收方r,此概率可如下計(jì)算等式10p^r=Σkw(T-tik)ΣjΣkw(T-tjk)=e-100λΣjΣkw(T-tjk)]]>根據(jù)另一實(shí)施例,在學(xué)習(xí)過程中,系統(tǒng)200還學(xué)習(xí)由被模式化的特定用戶稱呼接收方的方式。系統(tǒng)可示例性地以一組規(guī)則開始,該組規(guī)則提供對于稱呼給定接收方所有方式的先驗(yàn)概率。該系統(tǒng)隨后記錄使用特定方式稱呼每一接收方的頻率,并由此更新與概率環(huán)境無關(guān)的語法(PCFG)中與稱呼接收方不同方式相關(guān)的概率。當(dāng)然,語音識(shí)別引擎可利用PCFG識(shí)別任何NE。
當(dāng)然可以理解,以上討論的用于產(chǎn)生與NE相關(guān)的概率的算法僅僅是用于產(chǎn)生這樣概率的示例性算法。也可利用其他需要的算法產(chǎn)生這些概率。
在對每一NE計(jì)算了概率之后,將NE和相關(guān)概率與不同使用場合結(jié)合。當(dāng)然結(jié)合新的NE列表以及相關(guān)概率的特定使用場合是依賴于配置為使用NE列表202的特定應(yīng)用或其他部件的。以下僅僅為了示例討論多種示例性的結(jié)合。
在一實(shí)施例中,利用NE列表202和相關(guān)概率產(chǎn)生與概率環(huán)境無關(guān)的語法(PCFG)。這由圖4中的框246示出??梢砸远喾N不同的方式使用這樣的PCFG。一個(gè)示例性的方式就是用于名稱識(shí)別。例如,在語音激活電子郵件程序中,當(dāng)用戶說出接收方是“Peter”時(shí),就不需要為用戶提供公司或用戶聯(lián)系列表中按字母排序的所有“Peter”的冗長列表,用戶也不需要從中選擇,PCFG會(huì)偏向用戶最經(jīng)常將他作為電子郵件接收方的這一特定的“Peter”,同時(shí)對應(yīng)于該“Peter”的NE會(huì)置于列表的頂端。
另一示例就是用于命令和控制。例如,在語音激活命令和控制系統(tǒng)中,用戶可以發(fā)出請求“向Peter發(fā)送電子郵件”。系統(tǒng)就無需要求用戶指定是使用公司或用戶聯(lián)系列表中眾多“Peter”中哪一個(gè),而是默認(rèn)具有最高概率的“Peter”,從而通過減少所需的用戶交互同時(shí)不增加總的差錯(cuò)率,來增加用戶的滿意度。
另一結(jié)合NE列表和相關(guān)概率的示例是將它們用于NE的口述產(chǎn)生基于類的口述語言模型。盡管基于類的語言模型是已知的,還是示例性地對基于類的語言模型進(jìn)行簡要討論。在傳統(tǒng)的語言模型中(如在雙字母組或三字母組語言模型中),模型分別提供向?qū)τ谝粋€(gè)或兩個(gè)其他字有關(guān)的字的概率。在基于類的語言模型中,模型還提供一個(gè)字屬于特定語義類的概率和/或類彼此相關(guān)和特定字處于這些類的概率。圖4中的框248示出了口述模型(或基于類的語言模型)的產(chǎn)生和更新。
在將NE和相關(guān)概率結(jié)合到使用場合中的另一實(shí)施例中,使用NE和相關(guān)概率對用戶詞典進(jìn)行擴(kuò)充。換言之,簡單地將NE列表和相關(guān)概率作為新字直接附加到語音識(shí)別引擎222中的用戶訶典中。圖4中的框250示出了使用NE和概率產(chǎn)生和擴(kuò)充用戶詞典。
將NE和概率與使用場合結(jié)合的還有一種方式就是將它們與控制結(jié)合。例如,即使不使用語音識(shí)別引擎,也可將NE和相關(guān)概率鏈接到不同應(yīng)用和操作系統(tǒng)的控制。將NE列表鏈接到控制的一個(gè)例子就是將其鏈接到文本框。在一個(gè)示例實(shí)施例中,由開發(fā)者用類屬性定義文本框,該類屬性具有開發(fā)者指定的值。圖6示出了文本框252的一個(gè)實(shí)施例,其具有類屬性254,其值標(biāo)識(shí)為“州”。類屬性中的值對應(yīng)于由分析器216將NE分類合并到的類別。這樣,當(dāng)用戶選擇文本框252并開始對其進(jìn)行輸入時(shí),NE模型202就輸出用于自動(dòng)完成文本框252的候選NE列表。在圖6所示的例子中,用戶打入了字母“MI”。NE模型202就自動(dòng)輸出對應(yīng)于州的NE列表,其按照與每一NE相關(guān)的概率順序排列。由于與NE“Minnesota”相關(guān)的概率最高,就在用于自動(dòng)完成文本框252的NE降序列表256中首先顯示該NE。
應(yīng)該注意,即使用戶以前從未對文本框進(jìn)行輸入,NE也會(huì)以概率的順序加以顯示。這是因?yàn)镹E不具有僅僅根據(jù)先前對文本框252的輸入計(jì)算的概率。而是從對用戶使用模式進(jìn)行最佳模式化的多個(gè)不同源提取數(shù)據(jù),從這些數(shù)據(jù)中計(jì)算概率。因此,即使用戶過去從未調(diào)用文本框252,該用戶仍舊使降序列表256進(jìn)行顯示,其具有根據(jù)跨多個(gè)源的用戶使用模式,以最大可能的順序排列的NE。
圖4中框258示出了將NE鏈接到控制。
上述NE列表和相關(guān)概率與其他的結(jié)合僅是示例性的。當(dāng)然,可以根據(jù)需要訪問NE和概率的特定部件進(jìn)行NE的其他結(jié)合。這由圖4中的框260所示。
由此可見,根據(jù)本發(fā)明的一個(gè)實(shí)施例,NE識(shí)別基于用戶模型化而不是應(yīng)用模型化。從多個(gè)由用戶使用的源收集信息,并將其用于產(chǎn)生于NE相關(guān)的概率。當(dāng)然,不僅可使用針對給定用戶的信息,還可使用更一般性質(zhì)的其他信息。另外,如上所述,在計(jì)算NE相關(guān)概率時(shí)給予較一般信息的權(quán)重小于給予較特定信息的概率。一旦產(chǎn)生了NE列表和相關(guān)概率,可以跨所有所需的應(yīng)用和在所有期望環(huán)境中使用該列表。這樣,本發(fā)明作為一般的解決方法解決了與NE識(shí)別相關(guān)的困難。
最后,應(yīng)該注意,NE列表產(chǎn)生和適配系統(tǒng)可位于用戶專用機(jī)。另外,也可用于服務(wù)器上,或者與NE產(chǎn)生和適配有關(guān)的功能可在服務(wù)器之間或一個(gè)或多個(gè)服務(wù)器和用戶專用機(jī)之間分離。
例如,在一示例實(shí)施例中,可在服務(wù)器上實(shí)現(xiàn)分析器216,分析器216從多個(gè)不同的用戶專用的記錄器214收集歸一化的NE。對所有信息進(jìn)行集中分析并重新分配給用戶,或者從多個(gè)用戶收集一些信息,在服務(wù)器級對這些信息進(jìn)行分析,同時(shí)在用戶專用級上分析其他信息。此外,當(dāng)然也可在用戶專用級上分析所有信息。
通過利用本發(fā)明,可以發(fā)現(xiàn)特定用戶所需的NE數(shù)量比通用NE模型所需的NE數(shù)量要小得多。例如,公司范圍的目錄所具有的條目數(shù)與公司的雇員數(shù)一樣多。例如,在具有20000個(gè)條目的公司中,從公司目錄提取的NE數(shù)就為20000。然而,通過分析用戶的使用模式,可以發(fā)現(xiàn),用戶僅需要使用其中的250個(gè)。因此根據(jù)本發(fā)明,模型中的NE數(shù)比先前系統(tǒng)中的要小得多。
此外,本發(fā)明徹底減少了與先前系統(tǒng)有關(guān)的詞匯表之外的比率。例如,即使用戶具有與整個(gè)公司目錄有關(guān)的NE(例如,其數(shù)目為20000),但是該用戶也僅僅想要向熟人或家人發(fā)送電子郵件,他們并沒有出現(xiàn)在公司目錄中。然而,通過分析用戶的使用模式,就可以標(biāo)識(shí)這些NE并將他們添加到用戶專用NE列表中。這樣,即使用戶列表中的NE數(shù)比先前系統(tǒng)大大減少了,但是詞匯表之外的比率也徹底減少了。減少了混淆,增加了精度。
盡管本發(fā)明是參考特定實(shí)施例來描述的,對本領(lǐng)域的熟練技術(shù)人員來說,可以在不背離本發(fā)明精神和范圍的情況下以任何形式和細(xì)節(jié)作出改變。
權(quán)利要求
1.一種命名實(shí)體(NE)列表發(fā)生器,包括NE標(biāo)識(shí)器,配置為從多個(gè)不同的源接收信息,并在信息中標(biāo)識(shí)NE,至少部分信息對應(yīng)于特定用戶組;以及分析器,用于計(jì)算與所標(biāo)識(shí)NE相關(guān)的概率,以獲得具有相關(guān)概率的特定組NE列表。
2.如權(quán)利要求1所述的NE列表發(fā)生器,其特征在于所述特定用戶組包括單一特定用戶。
3.如權(quán)利要求1所述的NE列表發(fā)生器,其特征在于將傳感器配置為根據(jù)觸發(fā)輸入在信息中標(biāo)識(shí)NE。
4.如權(quán)利要求3所述的NE列表發(fā)生器,其特征在于所述多個(gè)不同源的至少一個(gè)包括應(yīng)用程序。
5.如權(quán)利要求4所述的NE列表發(fā)生器,其特征在于所述觸發(fā)輸入包括應(yīng)用產(chǎn)生的觸發(fā)輸入,它是由應(yīng)用程序產(chǎn)生的。
6.如權(quán)利要求5所述的NE列表發(fā)生器,其特征在于所述應(yīng)用包括電子郵件應(yīng)用,并且所述應(yīng)用產(chǎn)生的觸發(fā)包括發(fā)送或接收事件。
7.如權(quán)利要求3所述的NE列表發(fā)生器,其特征在于所述觸發(fā)輸入包括用戶產(chǎn)生的觸發(fā)輸入。
8.如權(quán)利要求7所述的NE列表發(fā)生器,其特征在于所述多個(gè)不同源的至少一個(gè)包括字處理應(yīng)用,并且所述用戶產(chǎn)生的觸發(fā)輸入包括保存文檔輸入。
9.如權(quán)利要求3所述的NE列表發(fā)生器,其特征在于所述源的至少一個(gè)包括語音識(shí)別引擎。
10.如權(quán)利要求9所述的NE列表發(fā)生器,其特征在于所述觸發(fā)輸入包括來自所述語音識(shí)別引擎的識(shí)別結(jié)果指示。
11.如權(quán)利要求3所述的NE列表發(fā)生器,其特征在于所述觸發(fā)輸入包括定時(shí)器輸入,它表示所需時(shí)間段已過。
12.如權(quán)利要求3所述的NE列表發(fā)生器,其特征在于所述觸發(fā)輸入是基于為由所述NE標(biāo)識(shí)器進(jìn)行處理而收集的信息量。
13.如權(quán)利要求1所述的NE列表發(fā)生器,其特征在于將所述分析器配置為通過根據(jù)信息源對信息進(jìn)行加權(quán)而計(jì)算所述概率。
14.如權(quán)利要求13所述的NE列表發(fā)生器,其特征在于多個(gè)信息源的第一個(gè)提供密切相關(guān)信息,它與所述特定用戶組密切相關(guān),并且多個(gè)信息源的第二個(gè)提供弱相關(guān)信息,其與所述特定用戶組的相關(guān)性與所述密切相關(guān)信息相比更弱。
15.如權(quán)利要求14所述的NE列表發(fā)生器,其特征在于將所述分析器配置為在計(jì)算所述概率時(shí)對所述密切相關(guān)信息賦予的權(quán)重與所述弱相關(guān)信息相比更大。
16.如權(quán)利要求1所述的NE列表發(fā)生器,其特征在于所述NE列表和概率用于與多個(gè)不同系統(tǒng)部件結(jié)合,并且所述分析器根據(jù)所述NE列表和概率所結(jié)合的系統(tǒng)部件計(jì)算所述概率。
17.如權(quán)利要求1所述的NE列表發(fā)生器,其特征在于將所述分析器配置為從所述NE列表和概率中產(chǎn)生與概率環(huán)境無關(guān)的語法。
18.如權(quán)利要求1所述的NE列表發(fā)生器,其特征在于將所述分析器配置為將所標(biāo)識(shí)的NE分類合并為各個(gè)組。
19.如權(quán)利要求18所述的NE列表發(fā)生器,其特征在于將所述分析器配置為從所述NE和概率產(chǎn)生基于類的語言模型,并且所述組的每一個(gè)對應(yīng)于所述基于類的語言模型中的一語義類。
20.如權(quán)利要求1所述的NE列表發(fā)生器,其特征在于將所述分析器配置為根據(jù)所述NE和概率產(chǎn)生語音識(shí)別引擎的詞典。
21.如權(quán)利要求1所述的NE列表發(fā)生器,其特征在于將所述分析器配置為將所述NE列表和概率鏈接到控制。
22.一種產(chǎn)生命名實(shí)體(NE)模型的方法,包括從表示特定用戶使用模式的源中接收信息;以及根據(jù)所接收的信息產(chǎn)生用戶特定NE模型。
23.如權(quán)利要求22所述的方法,其特征在于,接收信息包括從多個(gè)不同的源接收信息。
24.如權(quán)利要求23所述的方法,其特征在于,產(chǎn)生用戶特定NE模型包括在所接收的信息中標(biāo)識(shí)NE;以及根據(jù)所接收的信息計(jì)算與每一NE相關(guān)的概率。
25.如權(quán)利要求24所述的方法,其特征在于,計(jì)算概率包括通過根據(jù)信息接收來自的源對不同接收的信息進(jìn)行加權(quán)而計(jì)算所述概率。
26.如權(quán)利要求24所述的方法,其特征在于,產(chǎn)生用戶特定NE模型包括將所標(biāo)識(shí)的NE分類合并為多個(gè)簇中的一個(gè)或多個(gè)。
27.如權(quán)利要求26所述的方法,其特征在于,分類合并包括根據(jù)所標(biāo)識(shí)的NE來自的源將NE置于簇中。
28.如權(quán)利要求22所述的方法,其特征在于,產(chǎn)生用戶特定NE模型包括產(chǎn)生與概率環(huán)境無關(guān)的語法。
29.如權(quán)利要求22所述的方法,其特征在于,產(chǎn)生用戶特定NE模型包括產(chǎn)生基于類的語言模型。
30.如權(quán)利要求22所述的方法,其特征在于,產(chǎn)生用戶特定NE模型包括產(chǎn)生用于語音識(shí)別引擎中的詞典。
31.如權(quán)利要求22所述的方法,其特征在于,產(chǎn)生用戶特定NE模型包括將用戶特定NE模型鏈接到控制。
全文摘要
本發(fā)明利用用戶模型化對用戶的行為模式進(jìn)行模型化。隨后使用用戶的行為模式影響命名實(shí)體(NE)的識(shí)別。
文檔編號(hào)G06N3/00GK1573923SQ20041004570
公開日2005年2月2日 申請日期2004年5月27日 優(yōu)先權(quán)日2003年5月27日
發(fā)明者俞棟, P·K·L·毛, K·王, M·馬哈詹, A·阿塞羅 申請人:微軟公司