專利名稱:模式匹配方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于匹配音素序列的裝置和方法。本發(fā)明用于響應(yīng)用戶的輸入查詢,搜索具有關(guān)聯(lián)語(yǔ)音注釋的數(shù)據(jù)文件的數(shù)據(jù)庫(kù)。輸入查詢可以為語(yǔ)音查詢或打字查詢。
信息數(shù)據(jù)庫(kù)是眾所周知的,其問題是如何快速、有效地從數(shù)據(jù)庫(kù)中定位并檢索所需的信息?,F(xiàn)有數(shù)據(jù)庫(kù)搜索工具允許用戶使用打字關(guān)鍵字來(lái)搜索數(shù)據(jù)庫(kù)。雖然上述工具是快速有效的,但此類搜索并不適合不同類型的數(shù)據(jù)庫(kù),如視頻或音頻數(shù)據(jù)庫(kù)。
近來(lái),人們提議用音頻和視頻文件中語(yǔ)音內(nèi)容的語(yǔ)音轉(zhuǎn)錄,為此類視頻和音頻數(shù)據(jù)庫(kù)作注釋,然后通過比較用戶的輸入查詢的語(yǔ)音轉(zhuǎn)錄與數(shù)據(jù)庫(kù)中的音素注釋數(shù)據(jù),實(shí)現(xiàn)檢索。用于匹配音素序列的技術(shù)首先定義查詢中的一組特征,將每個(gè)特征視為來(lái)自音素串的重疊的固定大小的碎片,然后標(biāo)識(shí)各特征在查詢和注釋中的出現(xiàn)頻率,最后通過使用上述出現(xiàn)頻率的余弦度量,確定查詢和注釋之間的相似性度量。上述音素比較技術(shù)的一個(gè)優(yōu)點(diǎn)在于能夠處理以下情況,即查詢?cè)~序不與注釋詞序完全匹配的情況。然而,其問題是容易出現(xiàn)錯(cuò)誤,特別是當(dāng)以不同速度說出查詢和注釋,并且如果從查詢中刪除了部分單詞而并未從注釋中刪除單詞時(shí),反之亦然。
本發(fā)明的目的在于提供一種用于搜索數(shù)據(jù)庫(kù)的選擇系統(tǒng)。
根據(jù)一個(gè)方面,本發(fā)明提供一種特征比較裝置,包括用于接收第一和第二特征序列的裝置;使第一特征序列的特征和第二特征序列的特征一致以形成許多調(diào)整對(duì)的裝置;用于比較各調(diào)整對(duì)的特征以生成比較得分的裝置,比較得分表示調(diào)整對(duì)之間的相似性;以及組合所有調(diào)整對(duì)的比較得分以提供第一和第二特征序列之間的相似性度量的裝置;其特征在于比較裝置包括第一比較裝置,對(duì)于每個(gè)調(diào)整對(duì),比較調(diào)整對(duì)中第一特征序列的特征與預(yù)定特征集合中取得的眾多特征的每個(gè)特征,以提供相對(duì)應(yīng)的眾多中間比較得分,比較得分表示所述第一特征序列的特征和來(lái)自所述集合的各特征之間的相似性;第二比較裝置,對(duì)于每個(gè)調(diào)整對(duì),比較調(diào)整對(duì)中第二特征序列的特征與來(lái)自該集合的所述眾多特征的每個(gè)特征,以提供更多相對(duì)應(yīng)的眾多中間比較得分,比較得分表示所述第二特征序列的特征和來(lái)自該集合的各特征之間的相似性;以及通過組合所述眾多中間比較得分計(jì)算調(diào)整對(duì)的所述比較得分的裝置。此類系統(tǒng)的優(yōu)點(diǎn)在于允許識(shí)別系統(tǒng)由于錯(cuò)誤識(shí)別特征而改變第一和第二特征序列。
根據(jù)另一方面,本發(fā)明提供用于搜索數(shù)據(jù)庫(kù)中的信息條目以標(biāo)識(shí)需要從中檢索的信息的裝置,數(shù)據(jù)庫(kù)中的每個(gè)條目包括一個(gè)語(yǔ)音特征序列,該裝置包括用于接收輸入查詢的裝置,輸入查詢包括一個(gè)語(yǔ)音特征序列;用于比較所述語(yǔ)音特征之查詢序列與所述數(shù)據(jù)庫(kù)之各語(yǔ)音特征序列以提供一組比較結(jié)果的裝置;以及使用所述比較結(jié)果標(biāo)識(shí)從所述數(shù)據(jù)庫(kù)中檢索的所述信息的裝置;其特征在于,所述比較裝置具有許多不同的比較操作模式,并且該裝置還包括用于確定(i)語(yǔ)音特征的查詢序列是否是從音頻信號(hào)或文本生成的;用于確定(ii)當(dāng)前數(shù)據(jù)庫(kù)的語(yǔ)音特征序列是否是從音頻信號(hào)或文本生成的,并用于輸出確定結(jié)果的裝置;以及為當(dāng)前數(shù)據(jù)庫(kù)序列,依據(jù)比較結(jié)果選擇所述比較裝置的操作模式的裝置。最好當(dāng)確定裝置確定輸入查詢和注釋均是根據(jù)語(yǔ)音生成的,比較裝置起上述裝置的作用。
根據(jù)另一方面,本發(fā)明提供搜索數(shù)據(jù)庫(kù)以標(biāo)識(shí)需要從中檢索的信息的裝置,其中數(shù)據(jù)庫(kù)包括許多信息條目,所述許多信息條目中的每個(gè)條目具有一個(gè)關(guān)聯(lián)注釋,注釋包括一個(gè)語(yǔ)音注釋特征序列,該裝置包括用于接收輸入語(yǔ)音查詢的許多音頻解釋的裝置;用于將輸入查詢的每種解釋轉(zhuǎn)換為語(yǔ)音查詢特征序列的裝置,語(yǔ)音查詢特征序列表示解釋內(nèi)的語(yǔ)音;用于比較每種解釋的語(yǔ)音查詢序列與每個(gè)注釋的語(yǔ)音注釋特征以提供一組比較結(jié)果的裝置;用于組合通過比較每個(gè)解釋的語(yǔ)音查詢特征與同一注釋的語(yǔ)音注釋特征而獲得的比較結(jié)果,為每個(gè)注釋提供輸入查詢和注釋之間的相似性度量的裝置;以及使用所有注釋的組合裝置提供的相似性度量標(biāo)識(shí)需要從所述數(shù)據(jù)庫(kù)中檢索的所述信息的裝置。
根據(jù)另一方面,本發(fā)明提供特征比較裝置,包括用于接收第一和第二查詢特征序列的裝置,每個(gè)序列表示輸入查詢的一種解釋;用于接收注釋特征序列的裝置;用于使每個(gè)解釋的查詢特征與注釋的注釋特征一致以形成許多調(diào)整組的裝置,每個(gè)調(diào)整組包括來(lái)自每個(gè)解釋的一個(gè)查詢特征和一個(gè)注釋特征;用于比較各調(diào)整組的特征以生成比較得分的裝置,比較得分表示調(diào)整組的特征之間的相似性;以及組合所有調(diào)整組的比較得分以提供輸入查詢的解釋和注釋之間的相似性度量的裝置;其特征在于所述比較裝置包括第一特征比較器,對(duì)于每個(gè)調(diào)整組,比較調(diào)整組中第一查詢序列特征與預(yù)定特征集合中取得的眾多特征的每個(gè)特征,以提供相對(duì)應(yīng)的眾多中間比較得分,比較得分表示所述第一查詢序列特征和來(lái)自該集合的各特征之間的相似性;第二特征比較器,對(duì)于每個(gè)調(diào)整組,比較調(diào)整組中第二查詢序列特征與來(lái)自該集合的所述眾多特征的每個(gè)特征,以提供更多相對(duì)應(yīng)的眾多中間比較得分,比較得分表示所述第二查詢序列特征和來(lái)自該集合的各特征之間的相似性;第三特征比較器,對(duì)于每個(gè)調(diào)整組,比較調(diào)整組中的注釋特征與來(lái)自該集合的所述眾多特征的每個(gè)特征,以提供更多相對(duì)應(yīng)的眾多中間比較得分,比較得分表示所述注釋特征和來(lái)自該集合的各特征之間的相似性;以及通過組合所述眾多中間比較得分計(jì)算調(diào)整組的所述比較得分的裝置。
以下參照
圖1至28說明本發(fā)明的示例性實(shí)施方式,在附圖中圖1是一個(gè)示意框圖,表示利用用戶打字輸入或語(yǔ)音輸入生成的注釋數(shù)據(jù)為數(shù)據(jù)文件作注釋的用戶終端;圖2是音素和字格注釋數(shù)據(jù)的示意圖,字格注釋數(shù)據(jù)是為了給數(shù)據(jù)文件作注釋而根據(jù)用戶的打字輸入生成的;圖3是音素和字格注釋數(shù)據(jù)的示意圖,字格注釋數(shù)據(jù)是為了給數(shù)據(jù)文件作注釋而根據(jù)用戶的語(yǔ)音輸入生成的;圖4是允許用戶利用打字輸入或語(yǔ)音查詢從數(shù)據(jù)庫(kù)中檢索信息的用戶終端的示意框圖;圖5a是一個(gè)流程圖,表示圖4所示的用戶終端的控制流程的一部分;圖5b是一個(gè)流程圖,表示圖4所示的用戶終端的控制流程的剩余部分;圖6a是一個(gè)示意圖,表示基礎(chǔ)統(tǒng)計(jì)模型,采用該模型生成查詢和注釋;圖6b是一個(gè)示意圖,表示代表打字輸入的第一音素序列和代表用戶語(yǔ)音輸入的第二音素序列,該圖表示相對(duì)于打字輸入,用戶之語(yǔ)音輸入中的音素插入和刪除的可能性;圖6c是一個(gè)示意圖,表示分別代表語(yǔ)音輸入的第一和第二音素序列,以及代表正則音素序列的第三音素序列,正則音素序列與對(duì)應(yīng)語(yǔ)音輸入中實(shí)際說的音素序列相對(duì)應(yīng),該圖表示相對(duì)于對(duì)應(yīng)的正則音素序列,兩種語(yǔ)音輸入中的音素插入和刪除的可能性;圖7示意表示注釋音素序列和查詢音素序列創(chuàng)建的搜索空間,以及起始空節(jié)點(diǎn)和終止空節(jié)點(diǎn);圖8是一個(gè)二維圖,水平軸用于注釋音素,垂直軸用于查詢音素,該圖表示許多格點(diǎn),每個(gè)格點(diǎn)與注釋音素和查詢音素之間的一個(gè)可能匹配相對(duì)應(yīng);圖9a示意表示注釋為打字輸入并且根據(jù)語(yǔ)音輸入生成查詢時(shí),動(dòng)態(tài)規(guī)劃匹配過程中采用的動(dòng)態(tài)規(guī)劃約束;圖9b示意表示當(dāng)查詢?yōu)榇蜃州斎氩⑶耶?dāng)注釋為語(yǔ)音輸入時(shí),動(dòng)態(tài)規(guī)劃匹配過程中采用的動(dòng)態(tài)規(guī)劃約束;圖10示意表示為示例音素存儲(chǔ)的刪除和譯碼概率;圖11示意表示注釋和查詢均為語(yǔ)音輸入時(shí),動(dòng)態(tài)規(guī)劃匹配過程中采用的動(dòng)態(tài)規(guī)劃約束;圖12是一個(gè)流程圖,表示動(dòng)態(tài)規(guī)劃過程中執(zhí)行的主要處理步驟;圖13是一個(gè)流程圖,表示通過從一個(gè)空的起點(diǎn)傳播到所有可能起點(diǎn)而開始動(dòng)態(tài)規(guī)劃處理時(shí)采用的主要處理步驟;圖14是一個(gè)流程圖,表示為了將動(dòng)態(tài)規(guī)劃路徑從起點(diǎn)傳播到所有可能終點(diǎn)而采用的主要處理步驟;圖15是一個(gè)流程圖,表示將路徑從終止節(jié)點(diǎn)傳播到一個(gè)空的終止節(jié)點(diǎn)時(shí)采用的主要處理步驟;圖16a是一個(gè)流程圖,表示使用動(dòng)態(tài)規(guī)劃約束傳播路徑時(shí)執(zhí)行的處理步驟的一部分;圖16b是一個(gè)流程圖,表示使用動(dòng)態(tài)規(guī)劃約束傳播路徑時(shí)包含的剩余處理步驟;圖17是一個(gè)流程圖,表示為了從起點(diǎn)到終點(diǎn)傳播路徑而確定躍遷得分時(shí)包含的處理步驟;圖18a是一個(gè)流程圖,表示為刪除和譯碼注釋和查詢音素而計(jì)算得分時(shí)采用的處理步驟的一部分;圖18b是一個(gè)流程圖,表示為刪除和譯碼注釋和查詢音素而計(jì)算得分時(shí)采用的剩余步驟;圖19示意表示一個(gè)注釋音素序列和兩個(gè)查詢音素序列創(chuàng)建的搜索空間,以及一個(gè)起始空節(jié)點(diǎn)和一個(gè)終止空節(jié)點(diǎn);圖20是一個(gè)流程圖,表示通過從一個(gè)空的起始節(jié)點(diǎn)傳播到所有可能起始節(jié)點(diǎn)而開始動(dòng)態(tài)規(guī)劃處理時(shí)采用的主要處理步驟;圖21是一個(gè)流程圖,表示為了將動(dòng)態(tài)規(guī)劃路徑從起點(diǎn)傳播到所有可能終點(diǎn)而采用的主要處理步驟;圖22是一個(gè)流程圖,表示將路徑從終止節(jié)點(diǎn)傳播到空的終止節(jié)點(diǎn)時(shí)采用的主要處理步驟;圖23是一個(gè)流程圖,表示使用動(dòng)態(tài)規(guī)劃約束傳播路徑時(shí)執(zhí)行的處理步驟;圖24是一個(gè)流程圖,表示為了從起點(diǎn)到終點(diǎn)傳播路徑而確定躍遷得分時(shí)包含的處理步驟;圖25a是一個(gè)流程圖,表示為刪除和譯碼注釋和查詢音素而計(jì)算得分時(shí)采用的處理步驟的第一部分;圖25b是一個(gè)流程圖,表示為刪除和譯碼注釋和查詢音素而計(jì)算得分時(shí)采用的處理步驟的第二部分;圖25c是一個(gè)流程圖,表示為刪除和譯碼注釋和查詢音素而計(jì)算得分時(shí)采用的處理步驟的第三部分;圖25d是一個(gè)流程圖,表示為刪除和譯碼注釋和查詢音素而計(jì)算得分時(shí)采用的處理步驟的第四部分;圖25e是一個(gè)流程圖,表示為刪除和譯碼注釋和查詢音素而計(jì)算得分時(shí)采用的剩余步驟;圖26a示意表示備擇實(shí)施方式,該實(shí)施方式為使查詢與各注釋一致而采用不同技術(shù);圖26b表示動(dòng)態(tài)規(guī)劃得分隨圖26a所示的實(shí)施方式中的查詢與注釋之比較結(jié)果的變化方式;圖27是一個(gè)示意框圖,表示響應(yīng)輸入語(yǔ)音查詢從遠(yuǎn)程服務(wù)器上的數(shù)據(jù)中檢索數(shù)據(jù)文件的備擇用戶終端的構(gòu)成;以及圖28表示允許用戶響應(yīng)輸入語(yǔ)音查詢從遠(yuǎn)程服務(wù)器上的數(shù)據(jù)庫(kù)中檢索數(shù)據(jù)的另一種用戶終端。
可以使用專用硬件電路實(shí)現(xiàn)本發(fā)明的實(shí)施方式,但是本文使用計(jì)算機(jī)軟件(即,代碼)實(shí)現(xiàn)所述實(shí)施方式,其中計(jì)算機(jī)軟件連同諸如個(gè)人計(jì)算機(jī)、工作站、影印機(jī)、傳真機(jī)、個(gè)人數(shù)字助理(PDA)等一起運(yùn)行。
數(shù)據(jù)文件注釋圖1表示用戶終端59的組成,用戶終端59允許用戶通過鍵盤3或麥克風(fēng)7輸入打字或語(yǔ)音注釋數(shù)據(jù),以便為數(shù)據(jù)庫(kù)29中存儲(chǔ)的數(shù)據(jù)文件91作注釋。在本實(shí)施方式中,數(shù)據(jù)文件91包括利用照相機(jī)生成的二維圖像。用戶終端59允許用戶39利用適當(dāng)注釋給2D圖像作注釋,以便隨后利用該注釋從數(shù)據(jù)庫(kù)29中檢索2D圖像。在本實(shí)施方式中,由語(yǔ)音轉(zhuǎn)錄部件75將打字輸入轉(zhuǎn)換為音素(或類似于音素)和字格注釋數(shù)據(jù),然后傳送到控制部件55。圖2表示為打字輸入“pictureof Taj Mahal”生成的音素和字格注釋數(shù)據(jù)。正如圖2所示,音素和字格為具有一個(gè)入口和一個(gè)出口的有向無(wú)環(huán)圖。它表示用戶輸入的不同語(yǔ)法分析。如圖所示,語(yǔ)音轉(zhuǎn)錄部件75根據(jù)內(nèi)部語(yǔ)音字典(未示出)識(shí)別許多不同的可能音素串,后者與打字輸入相對(duì)應(yīng)。
同樣,自動(dòng)語(yǔ)音識(shí)別部件51將語(yǔ)音輸入轉(zhuǎn)換為音素(或類似于音素)和字格注釋數(shù)據(jù),然后傳送到控制部件55。自動(dòng)語(yǔ)音識(shí)別部件51生成音素和字格注釋數(shù)據(jù),其方法是(i)生成輸入發(fā)言的音素格;(ii)然后識(shí)別音素格內(nèi)的單詞;以及(iii)最后組合二者。圖3表示為輸入發(fā)言“picture of Taj Mahal”生成的音素和字格。如圖所示,自動(dòng)語(yǔ)音識(shí)別部件識(shí)別許多不同的可能音素串,后者與輸入發(fā)言相對(duì)應(yīng)。正如語(yǔ)音識(shí)別技術(shù)人員熟知的那樣,不同可能性可以具有語(yǔ)音識(shí)別部件51生成的特有權(quán)重,權(quán)重表示語(yǔ)音識(shí)別部件之輸出的置信度。然而,在本實(shí)施方式中,并不對(duì)音素進(jìn)行加權(quán)處理。正如圖3所示,將自動(dòng)語(yǔ)音識(shí)別部件51在音素格內(nèi)識(shí)別的單詞,插入到音素格數(shù)據(jù)結(jié)構(gòu)中。對(duì)于以上給定的示例短語(yǔ),自動(dòng)語(yǔ)音識(shí)別部件51識(shí)別單詞“picture”、“of”、“off”、“the”、“other”、“ta”、“tar”、“jam”、“ah”、“hal”、“ha”和“al”。
如圖3所示,自動(dòng)語(yǔ)音識(shí)別部件51生成的音素和字格是一個(gè)具有一個(gè)入口和一個(gè)出口的有向無(wú)環(huán)圖。它表示用戶的輸入注釋發(fā)言不同語(yǔ)法分析。它并不僅僅是一個(gè)帶有選擇的單詞序列,由于無(wú)需用一個(gè)選擇替換每個(gè)單詞,所以可以將一個(gè)單詞替換為兩個(gè)或多個(gè)單詞或音素,并且整個(gè)結(jié)構(gòu)能夠形成一個(gè)或多個(gè)單詞或音素的替換。因此,音素和字格注釋數(shù)據(jù)內(nèi)的數(shù)據(jù)密度在注釋數(shù)據(jù)內(nèi)基本上保持線性,而不會(huì)像在生成音頻注釋輸入的N個(gè)最佳單詞列表的系統(tǒng)中那樣呈指數(shù)增長(zhǎng)。
在本實(shí)施方式中,自動(dòng)語(yǔ)音識(shí)別部件51或語(yǔ)音轉(zhuǎn)錄部件75生成的注釋數(shù)據(jù)具有以下通式標(biāo)題-標(biāo)志,是否混合了單詞或音素-時(shí)間索引,將存儲(chǔ)器內(nèi)注釋數(shù)據(jù)塊的位置關(guān)聯(lián)到給定的時(shí)間點(diǎn)。
-使用的單詞集(即,字典)-使用的音素集-詞匯所屬語(yǔ)言-音素概率數(shù)據(jù)塊(i)i=0,1,2,......
節(jié)點(diǎn)Njj=0,1,2,......
-節(jié)點(diǎn)從塊的起始的時(shí)間偏移-音素鏈表(k)k=0,1,2,......
節(jié)點(diǎn)Nj的偏移=Nk-Nj(Nk為鏈表K擴(kuò)展到的節(jié)點(diǎn))與鏈表(k)關(guān)聯(lián)的音素-單詞鏈表(l)l=0,1,2,……節(jié)點(diǎn)Nj的偏移=Ni-Nj(Nj為鏈表l擴(kuò)展到的節(jié)點(diǎn))與鏈表(l)關(guān)聯(lián)的單詞由于并非數(shù)據(jù)庫(kù)內(nèi)的所有數(shù)據(jù)文件均包含上述組合音素和字格注釋數(shù)據(jù),所以提供標(biāo)志,后者標(biāo)識(shí)注釋數(shù)據(jù)是字注釋數(shù)據(jù),還是音素注釋數(shù)據(jù),抑或是混合數(shù)據(jù),此時(shí),將使用不同的搜索策略來(lái)搜索注釋數(shù)據(jù)。
在本實(shí)施方式中,將注釋數(shù)據(jù)劃分為節(jié)點(diǎn)塊,以便允許搜索跳到用于給定搜索的注釋數(shù)據(jù)的中間位置。因此,標(biāo)題包括一個(gè)時(shí)間索引,時(shí)間索引將存儲(chǔ)器內(nèi)注釋數(shù)據(jù)塊的位置,關(guān)聯(lián)到起始時(shí)間和與塊的開始相對(duì)應(yīng)的時(shí)間之間的給定時(shí)間偏移。
標(biāo)題還包括定義所用單詞集(即,字典)、所有音素集及其概率以及詞匯所屬語(yǔ)言的數(shù)據(jù)。同時(shí),標(biāo)題可以包含用于生成注釋數(shù)據(jù)的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的詳細(xì)信息,以及生成注釋數(shù)據(jù)期間使用的任何適當(dāng)設(shè)置。
標(biāo)題之后是注釋數(shù)據(jù)塊,對(duì)于塊內(nèi)的每個(gè)節(jié)點(diǎn),注釋數(shù)據(jù)塊標(biāo)識(shí)該節(jié)點(diǎn)從塊的起始的時(shí)間偏移,利用音素將該節(jié)點(diǎn)鏈接到其他節(jié)點(diǎn)的音素鏈表,以及利用單詞將該節(jié)點(diǎn)鏈接到其他節(jié)點(diǎn)的單詞鏈表。每個(gè)音素鏈表和單詞鏈表標(biāo)識(shí)與該鏈表關(guān)聯(lián)的音素或單詞。同時(shí)標(biāo)識(shí)到當(dāng)前節(jié)點(diǎn)的偏移。例如,如果利用音素鏈表將節(jié)點(diǎn)N50鏈接到節(jié)點(diǎn)N55,則到節(jié)點(diǎn)N50的偏移為5。正如本領(lǐng)域的技術(shù)人員理解的那樣,通過使用上述偏移表示允許將連續(xù)注釋數(shù)據(jù)劃分為單獨(dú)塊。
在自動(dòng)語(yǔ)音識(shí)別部件輸出權(quán)重的實(shí)施方式中,該數(shù)據(jù)結(jié)構(gòu)還包括權(quán)重或置信度得分,其中權(quán)重表示語(yǔ)音識(shí)別部件輸出的置信度。具體而言,為各節(jié)點(diǎn)提供置信度得分,后者表示到達(dá)該節(jié)點(diǎn)的置信度,并且每個(gè)音素和單詞鏈表將包含依賴于相應(yīng)音素或單詞之權(quán)重的躍遷得分。通過放棄具有較低置信度得分的匹配,使用上述權(quán)重控制數(shù)據(jù)文件的搜索和檢索。
響應(yīng)用戶的輸入,控制部件55從數(shù)據(jù)庫(kù)29中檢索適當(dāng)?shù)?D文件,然后將生成的音素和單詞注釋數(shù)據(jù)附加到數(shù)據(jù)文件91上。然后將經(jīng)過擴(kuò)充的數(shù)據(jù)文件返回到數(shù)據(jù)庫(kù)29。在上述注釋處理步驟中,控制部件55能夠在顯示器57上顯示2D圖像,從而用戶確保該注釋數(shù)據(jù)是與正確的數(shù)據(jù)文件91關(guān)聯(lián)的。
正如下面詳細(xì)說明的那樣,使用上述音素和字格注釋數(shù)據(jù)允許快速、有效地搜索數(shù)據(jù)庫(kù)29,以標(biāo)識(shí)并檢索其內(nèi)存儲(chǔ)的所需2D圖像數(shù)據(jù)文件。其實(shí)現(xiàn)方法為,首先使用單詞數(shù)據(jù)搜索數(shù)據(jù)庫(kù)29,如果該搜索不能提供所需的數(shù)據(jù)文件,則使用更魯棒的音素?cái)?shù)據(jù)執(zhí)行進(jìn)一步的搜索。正如語(yǔ)音識(shí)別領(lǐng)域內(nèi)的本領(lǐng)域的技術(shù)人員理解的那樣,通過使用音素?cái)?shù)據(jù)更加魯棒,因?yàn)橐羲厥亲值洫?dú)立的,并且允許系統(tǒng)妥善處理詞匯之外的單詞,如姓名、地點(diǎn)、外來(lái)詞等。同時(shí),使用音素?cái)?shù)據(jù)能夠使該系統(tǒng)適應(yīng)未來(lái),因?yàn)楫?dāng)利用語(yǔ)音輸入原始注釋并且原始自動(dòng)語(yǔ)音識(shí)別系統(tǒng)不能理解輸入注釋的單詞時(shí),也能檢索數(shù)據(jù)庫(kù)29中存儲(chǔ)的數(shù)據(jù)文件。
數(shù)據(jù)文件檢索圖4是一個(gè)框圖,表示本實(shí)施方式中使用的從數(shù)據(jù)庫(kù)29中檢索帶注釋的2D圖像的用戶終端59的組成。例如,用戶終端59可以為個(gè)人計(jì)算機(jī)、手持設(shè)備等。如圖所示,在本實(shí)施方式中,用戶終端59包括帶注釋的2D圖像數(shù)據(jù)庫(kù)29,自動(dòng)語(yǔ)音識(shí)別部件51,語(yǔ)音轉(zhuǎn)錄部件75,鍵盤3,麥克風(fēng)7,搜索引擎53,控制部件55和顯示器57。操作中,用戶或者通過麥克風(fēng)7輸入語(yǔ)音查詢,或者通過鍵盤3輸入打字查詢,然后或者通過自動(dòng)語(yǔ)音識(shí)別部件51或者通過語(yǔ)音轉(zhuǎn)錄部件75處理該查詢,以生成相應(yīng)音素和單詞數(shù)據(jù)。該數(shù)據(jù)可以采取音素和字格的形式,但并非必需。然后將音素和單詞數(shù)據(jù)輸入到可操作的控制部件55中,以便使用搜索引擎53初始化數(shù)據(jù)庫(kù)29的適當(dāng)搜索。然后將搜索引擎53生成的搜索結(jié)果傳回到控制部件55,后者分析該搜索結(jié)果,生成并通過顯示器57向用戶顯示適當(dāng)?shù)娘@示數(shù)據(jù)(如檢索的2D圖像)。
圖5a和5b為流程圖,表示用戶終端59在本實(shí)施方式中的運(yùn)行方式。在步驟S1中,用戶終端59處于空閑狀態(tài)并等待用戶39的輸入查詢。當(dāng)收到輸入查詢時(shí),自動(dòng)語(yǔ)音識(shí)別部件51或語(yǔ)音轉(zhuǎn)錄部件75在步驟S3中生成輸入查詢的音素和單詞數(shù)據(jù)。然后在步驟S5中,控制部件55通知搜索引擎53使用根據(jù)輸入查詢生成的單詞數(shù)據(jù)搜索數(shù)據(jù)庫(kù)29。本實(shí)施方式中采用的單詞搜索與打字單詞搜索技術(shù)中采用的搜索方法相同,因此不再贅述。如果在步驟S7中,控制部件55根據(jù)搜索結(jié)果確定找到用戶的輸入查詢的匹配,則通過顯示器57向用戶輸出搜索結(jié)果。
在本實(shí)施方式中,用戶終端59允許用戶考慮該搜索結(jié)果,并等待用戶確認(rèn)該結(jié)果是否與用戶要求的信息相對(duì)應(yīng)。如果是用戶要求的信息,則處理從步驟S11進(jìn)行到該處理的結(jié)束,然后用戶終端59返回到其空閑狀態(tài)并等待下一個(gè)輸入查詢。然而,如果用戶指示(例如,通過輸入適當(dāng)語(yǔ)音命令)該搜索結(jié)果與所需信息不一致,則該處理從步驟S11進(jìn)行到步驟S13,在步驟S13中,搜索引擎53對(duì)數(shù)據(jù)庫(kù)29進(jìn)行音素搜索。然而,在本實(shí)施方式中,并不是在步驟S13中對(duì)整個(gè)數(shù)據(jù)庫(kù)29執(zhí)行音素搜索,因?yàn)槿Q于數(shù)據(jù)庫(kù)的大小,該搜索可能需要幾個(gè)小時(shí)。
在步驟S13中執(zhí)行的音素搜索使用在步驟S5中執(zhí)行的單詞搜索的結(jié)果,確定可能與用戶的輸入查詢相對(duì)應(yīng)的數(shù)據(jù)庫(kù)的一個(gè)或多個(gè)部分。例如,如果查詢包括三個(gè)單詞并且單詞搜索僅能確定注釋內(nèi)的一個(gè)或兩個(gè)查詢單詞,則對(duì)圍繞所識(shí)別單詞的注釋部分進(jìn)行音素搜索。稍后將詳細(xì)說明本實(shí)施方式中實(shí)現(xiàn)的步驟S13中的音素搜索。
在執(zhí)行音素搜索后,在步驟S15中,控制部件55確定是否找到匹配。如果找到匹配,則該處理進(jìn)行到步驟S17,在步驟S17中,控制部件55在顯示器57上向用戶顯示搜索結(jié)果。此外,該系統(tǒng)等待用戶確認(rèn)搜索結(jié)果是否與所需信息相對(duì)應(yīng)。如果結(jié)果正確,則該處理從步驟S19進(jìn)行到結(jié)束,并且用戶終端59返回到空閑狀態(tài),等待下一個(gè)輸入查詢。然而,如果用戶指示該搜索結(jié)果與所需信息不一致,則該處理從步驟S19進(jìn)行到步驟S21,在步驟S21中,控制部件55能夠通過顯示器57詢問用戶是否對(duì)整個(gè)數(shù)據(jù)庫(kù)29進(jìn)行音素搜索。如果響應(yīng)此查詢,用戶指示應(yīng)執(zhí)行此類搜索,則該處理進(jìn)行到步驟S23,在步驟S23中,搜索引擎對(duì)整個(gè)數(shù)據(jù)庫(kù)29執(zhí)行音素搜索。
當(dāng)完成此搜索時(shí),在步驟S25中,控制部件55確定是否找到用戶的輸入查詢的匹配。如果找到匹配,則該處理進(jìn)行到步驟S27,在步驟S27中,控制部件55在顯示器57上向用戶顯示搜索結(jié)果。如果搜索結(jié)果正確,則該處理從步驟S29進(jìn)行到處理的結(jié)束,用戶終端59返回到其空閑狀態(tài),等待下一個(gè)輸入查詢。另一方面,如果用戶指示搜索結(jié)果仍然與所需信息不一致,則該處理轉(zhuǎn)到步驟S31,在步驟S31中,控制部件55通過顯示器57詢問用戶是否希望重新定義或修正搜索查詢。如果用戶希望重新定義或修正搜索查詢,則該處理返回到步驟S3,在步驟S3中,以相同方式處理用戶的后繼輸入查詢。如果不需要希望重新定義或修正搜索查詢,則放棄該搜索結(jié)果以及用戶的初始輸入查詢,用戶終端59返回到其空閑狀態(tài),等待下一個(gè)輸入查詢。
以上概述了用戶終端59在本實(shí)施方式中執(zhí)行搜索的方式。以下詳細(xì)說明搜索引擎53音素搜索的方式,同時(shí)簡(jiǎn)要說明作為搜索策略之基礎(chǔ)的動(dòng)機(jī)。
作為分類問題的信息檢索在經(jīng)典分類情況中,必需將測(cè)試數(shù)據(jù)分類為K類中的一類。通過使用有關(guān)已知種類的其他數(shù)據(jù)的知識(shí)實(shí)現(xiàn)分類。分類問題假設(shè)有一個(gè)取值范圍為1到K的“種類”隨機(jī)變量。通過確定測(cè)試數(shù)據(jù)最可能屬于的種類,查找最佳分類。假設(shè)訓(xùn)練數(shù)據(jù)是利用導(dǎo)致種類k的nk個(gè)數(shù)據(jù)的N次生成處理生成的,其中∑kk=1nk=N。利用n表示向量(n1,n2,…,nk),利用D表示訓(xùn)練數(shù)據(jù),利用x表示測(cè)試數(shù)據(jù),則經(jīng)典分類問題是確定使以下概率取最大值的k的值P(k|x,D,n)=P(x|k,D,n)P(k|D,n)P(x|D)----(1)]]>分子上的第二項(xiàng)是種類的先驗(yàn)概率,出現(xiàn)頻繁的種類其權(quán)重較高。在信息檢索上下文中,每個(gè)種類具有單一訓(xùn)練數(shù)據(jù)(即,注釋數(shù)據(jù))。因此,對(duì)于信息檢索,可以忽略上式右邊的第二項(xiàng)。同樣,也可以忽略分母,原因在于每個(gè)種類的P(x|D)均相同,因此僅僅歸一化分母。所以,只需對(duì)上式的分子上的第一項(xiàng)進(jìn)行排序,就能夠?qū)ΨN類進(jìn)行排序。換句話說,確定并排列所有種類的P(x|dk)次序,其中dk是種類k的訓(xùn)練數(shù)據(jù)。
在本實(shí)施方式中,測(cè)試數(shù)據(jù)x代表輸入查詢,種類k的訓(xùn)練數(shù)據(jù)(即,dk)代表第k個(gè)注釋,并且假定存在圖6a所示的生成查詢和注釋的基礎(chǔ)統(tǒng)計(jì)模型(M)。在一般情況中,該模型有3個(gè)未知數(shù)模型結(jié)構(gòu)m,通過該模型用于查詢和注釋的狀態(tài)序列sq和sa,以及輸出分布C。此時(shí),我們知道輸出分布,因?yàn)樗w現(xiàn)根據(jù)輸入語(yǔ)音生成音素串的語(yǔ)音識(shí)別系統(tǒng)的特性。正如下面說明的那樣,通過將一個(gè)已知語(yǔ)音的較大數(shù)據(jù)庫(kù)應(yīng)用于語(yǔ)音識(shí)別系統(tǒng),能夠獲得輸出分布,并且以下稱為混淆統(tǒng)計(jì)。因此,通過將狀態(tài)序列和模型引入上述概率(并且變量q用于輸入查詢,變量a用于注釋)得到P(q|a)=ΣmΣsaΣsqP(q|m,sq,sa,C,a)P(m,sq,sa|C,a)----(2)]]>通過使用貝葉斯方法展開,得到P(q|a)=ΣmΣsaΣsqP(q|m,sq,C)P(a|m,sa,C)P(sq|m,C)P(sa|m,C)P(m|C)ΣmΣsaΣsqP(a|m,sa,C)P(sa|m,C)P(m|C)----(3)]]>盡管上式看起來(lái)很復(fù)雜,但是可以使用標(biāo)準(zhǔn)動(dòng)態(tài)規(guī)劃算法來(lái)計(jì)算狀態(tài)序列集合sq和sa的總和。另外,可以忽略分子和分母上的最后一項(xiàng),因?yàn)榭梢约俣總€(gè)模型是相等的,并且可以忽略狀態(tài)序列項(xiàng)P(s|m,c),因?yàn)榭梢约俣總€(gè)狀態(tài)序列是相等的。此外,通過假定基礎(chǔ)模型結(jié)構(gòu)是一個(gè)大致具有查詢長(zhǎng)度的正則音素序列(經(jīng)過插入),可以免除不同模型上的總和計(jì)算,盡管利用所有可能音素上總和代替,因?yàn)樵谝话闱闆r中,模型的正則音素序列是未知的。因此,通過忽略狀態(tài)序列總和,需要在動(dòng)態(tài)規(guī)劃算法內(nèi)計(jì)算的分子上的項(xiàng)變?yōu)?amp;Sigma;r=1NpP(ai|pr,C)P(qj|pr,C)P(pr|C)----(4)]]>分母上的項(xiàng)為Σr=1NpP(ai|pr,C)P(pr|C)----(5)]]>其中Np為系統(tǒng)已知的音素總數(shù),ai、qj和pr分別為與正在計(jì)算的當(dāng)前格點(diǎn)DP相對(duì)應(yīng)的注釋音素、查詢音素和模型音素。通過比較公式(4)和(5)得到,分母上需要計(jì)算的概率項(xiàng)分子上也需要計(jì)算。因此,可以在同一動(dòng)態(tài)規(guī)劃例程內(nèi)計(jì)算這些概率項(xiàng)。通過詳細(xì)考慮所確定的概率,P(qj|pr,C)是在給定混淆統(tǒng)計(jì)的情況下將正則音素pr譯碼為查詢音素qj的概率;P(ai|pr,C)是在給定混淆統(tǒng)計(jì)的情況下將正則音素pr譯碼為注釋音素ai的概率;P(pr|C)是在給定混淆統(tǒng)計(jì)的情況下正則音素pr的無(wú)條件出現(xiàn)概率。
除上述概率項(xiàng)之外,在動(dòng)態(tài)規(guī)劃計(jì)算過程的每個(gè)點(diǎn)上,必需計(jì)算另一項(xiàng),該項(xiàng)處理相對(duì)于模型的查詢或注釋中的插入和刪除。正如本領(lǐng)域的技術(shù)人員理解的那樣,查詢中的插入或刪除操作與注釋中的插入或刪除操作獨(dú)立,反之亦然。因此,單獨(dú)處理這些附加項(xiàng)。對(duì)于公式(5)中的歸一化項(xiàng),必需考慮相對(duì)于模型的注釋內(nèi)的插入和刪除操作。
根據(jù)圖4和圖5的描述,本領(lǐng)域的技術(shù)人員可以理解,在本實(shí)施方式中,可以根據(jù)文本或語(yǔ)音導(dǎo)出注釋音素?cái)?shù)據(jù)和查詢音素?cái)?shù)據(jù)。因此,必需考慮四種情況i)注釋和查詢都是根據(jù)文本生成的;ii)注釋是根據(jù)文本生成的但查詢是根據(jù)語(yǔ)音生成的;iii)注釋是根據(jù)語(yǔ)音生成的但查詢是根據(jù)文本生成的;以及
iv)查詢和注釋都是根據(jù)語(yǔ)音生成的。
第一種情況最簡(jiǎn)單,無(wú)需花費(fèi)時(shí)間壓縮/展開注釋或查詢,并且只需利用各自音素序列的布爾比較實(shí)現(xiàn)注釋和查詢之間的比較。
在第二種情況中,推定注釋是正確的,動(dòng)態(tài)規(guī)劃匹配允許在查詢中插入和刪除音素,以便查找二者之間的最佳匹配。為了說明此種情況,圖6b表示注釋音素序列(標(biāo)記為a0,a1,a2…)和查詢音素序列(標(biāo)記為q0,q1,q2…)之間的可能匹配,其中注釋音素是根據(jù)文本生成的。正如虛箭頭所示,使注釋音素a0與查詢音素q0結(jié)盟,使注釋音素a1與查詢音素q2結(jié)盟,使注釋音素a2與查詢音素q3結(jié)盟,使注釋音素a3與查詢音素q3結(jié)盟,并且使注釋音素a4與查詢音素q4結(jié)盟。對(duì)于上述匹配中的每個(gè)匹配,動(dòng)態(tài)規(guī)劃例程計(jì)算公式(4)和(5)中的概率項(xiàng)。然而,此時(shí)上述公式可以簡(jiǎn)化,因?yàn)槟P鸵羲氐恼齽t序列是已知的(為注釋音素)。具體而言,歸一化項(xiàng)為1,因?yàn)樽⑨尀槟P停⑶曳肿雍?jiǎn)化為P(qi|aj,C)。除上述譯碼項(xiàng)之外,動(dòng)態(tài)規(guī)劃例程還計(jì)算相對(duì)于注釋在查詢中插入的音素(如查詢音素q1)的有關(guān)插入和刪除概率,以及相對(duì)于注釋在查詢中刪除的音素的有關(guān)插入和刪除概率(利用與兩個(gè)注釋音素a2和a3匹配的查詢音素q3表示)。
上面提到的第三種情況與第二種情況類似,只是推定查詢音素序P(K|x,D,n)=P(D|K,x,n)P(K|x,n)P(D|x)----(6)]]>列是正確的,并且動(dòng)態(tài)規(guī)劃匹配允許相對(duì)于查詢?cè)谧⑨屩胁迦牒蛣h除音素。然而,在該情況中,由于查詢是已知的,所以不能使用公式(1)到(5)。因此,在該情況中,將公式(1)修訂為正如公式(1)中的對(duì)應(yīng)項(xiàng)那樣,可以忽略分子和分母上的第二項(xiàng)。按照展開公式(1)的分子上的第一項(xiàng)的相同方式,展開公式(6)的分子上的第一項(xiàng)。然而,在該情況中,由于推定查詢?yōu)槟P?,所以在?dòng)態(tài)規(guī)劃例程中計(jì)算的歸一化項(xiàng)簡(jiǎn)化為1,并且分子簡(jiǎn)化為P(ai|qj,C)。正如上面討論的第二種情況那樣,動(dòng)態(tài)規(guī)劃例程還計(jì)算相對(duì)于查詢?cè)谧⑨屩胁迦氲囊羲氐挠嘘P(guān)插入和刪除概率,以及相對(duì)于查詢?cè)谧⑨屩袆h除的音素的有關(guān)插入和刪除概率。
最后,在第四種情況中,注釋和查詢都是根據(jù)語(yǔ)音生成的,兩個(gè)音素?cái)?shù)據(jù)序列都可以具有相對(duì)于模型音素的未知正則序列的插入和刪除操作,其中模型音素的未知正則序列代表實(shí)際說出的文本。圖6c表示此種情況,該圖表示注釋音素序列(標(biāo)記為ai,ai+1,ai+2…)、查詢音素序列(標(biāo)記為qj,qj+1,qj+2…)和音素序列(標(biāo)記為pn,pn+1,pn+2…)之間的可能匹配,其中音素序列(pn,pn+1,pn+2…)代表查詢和注釋實(shí)際說出的正則音素序列。正如圖6c所示,在該情況中,動(dòng)態(tài)規(guī)劃匹配技術(shù)必須提供相對(duì)于模型音素的正則序列在注釋和查詢中插入音素(用插入的音素ai+3和qj+1表示)以及從注釋和查詢中刪除音素(用音素ai+1和qj+2表示,同時(shí)使這兩個(gè)音素于正則音素序列中的兩個(gè)音素結(jié)盟)。
正如本領(lǐng)域的技術(shù)人員理解的那樣,通過在算法中引入模型音素序列,該算法更適合查詢和注釋中的發(fā)音變化。
上面概要說明了本實(shí)施方式通過匹配查詢音素序列與注釋音素序列而在數(shù)據(jù)庫(kù)中執(zhí)行信息檢索的方式。為了進(jìn)一步理解本實(shí)施方式的操作,以下簡(jiǎn)要說明標(biāo)準(zhǔn)動(dòng)態(tài)規(guī)劃算法,然后詳細(xì)說明本實(shí)施方式中使用的特定算法。
DP搜索概述正如本領(lǐng)域的技術(shù)人員理解的那樣,動(dòng)態(tài)規(guī)劃是查找特征序列(在本實(shí)施方式中為音素)之間的最佳匹配的一種技術(shù)。它通過同時(shí)傳播許多動(dòng)態(tài)規(guī)劃路徑進(jìn)行查找,每條路徑代表注釋音素序列和查詢音素序列之間的一個(gè)可能匹配。所有路徑從一個(gè)起始空節(jié)點(diǎn)開始,然后傳播直至到達(dá)一個(gè)終止空節(jié)點(diǎn),其中起始空節(jié)點(diǎn)位于注釋和查詢的開始,終止空節(jié)點(diǎn)位于注釋和查詢的結(jié)束。圖7和圖8示意表示執(zhí)行的匹配和路徑傳播。具體而言,圖7表示一個(gè)直角坐標(biāo)圖,其水平軸用于注釋,垂直軸用于查詢。在左上角提供起始空節(jié)點(diǎn)φs,在右下角提供終止空節(jié)點(diǎn)φe。如圖8所示,沿水平軸提供注釋音素,沿垂直軸提供查詢音素。同時(shí),圖8表示許多格點(diǎn),每個(gè)格點(diǎn)代表注釋音素和查詢音素之間的一個(gè)可能匹配。例如,格點(diǎn)21代表注釋音素a3和查詢音素q1之間的一個(gè)可能匹配。同時(shí),圖8表示3條動(dòng)態(tài)規(guī)劃路徑m1、m2和m3,這些路徑表示代表注釋和查詢的音素序列之間的3個(gè)可能匹配,這些路徑從起始空節(jié)點(diǎn)φs開始,通過格點(diǎn)傳播到終止空節(jié)點(diǎn)φe?;氐焦?2)和(3),上述動(dòng)態(tài)規(guī)劃路徑表示以上討論的不同狀態(tài)序列sq和sa。
正如圖7中的水平軸和垂直軸的不同長(zhǎng)度表示的那樣,輸入查詢無(wú)需包括注釋的所有單詞。例如,如果注釋為“picture of the TajMahal”,則用戶通過輸入查詢“Taj Mahal”就能夠在數(shù)據(jù)庫(kù)29中搜索該圖片。在該情況中,最佳匹配路徑通過頂部的水平軸,直至該查詢開始匹配注釋。然后開始通過格點(diǎn)到達(dá)較低的水平軸,并且在終點(diǎn)結(jié)束。在圖7中用路徑23表示。然而,正如本領(lǐng)域的技術(shù)人員理解的那樣,查詢中的單詞的出現(xiàn)次序必須與注釋中的單詞的出現(xiàn)次序相同,否則動(dòng)態(tài)規(guī)劃匹配不起作用。
為了確定注釋音素序列和查詢音素序列之間的相似性,動(dòng)態(tài)規(guī)劃處理記錄傳播的每條動(dòng)態(tài)規(guī)劃路徑的得分,得分依賴于沿該路徑排列的音素的總體相似性。為了限制正在匹配的序列中的音素的刪除和插入次數(shù),動(dòng)態(tài)規(guī)劃處理對(duì)動(dòng)態(tài)規(guī)劃路徑傳播的方式施加某些限制。正如本領(lǐng)域的技術(shù)人員理解的那樣,上述四種情況的動(dòng)態(tài)規(guī)劃約束互不相同。
DP約束注釋和查詢都是文本。
在查詢音素?cái)?shù)據(jù)和注釋音素?cái)?shù)據(jù)都是根據(jù)文本生成的情況中,動(dòng)態(tài)規(guī)劃匹配退化為兩個(gè)音素序列之間的布爾匹配,并且不允許音素刪除或插入操作。
注釋是文本而查詢是語(yǔ)音。
在注釋音素?cái)?shù)據(jù)是根據(jù)文本生成的而查詢音素?cái)?shù)據(jù)是根據(jù)語(yǔ)音生成的情況中,注釋中不能有音素刪除或插入,但是相對(duì)于注釋,查詢中可以有音素刪除和插入。圖9a表示本實(shí)施方式中使用的動(dòng)態(tài)規(guī)劃約束,其中注釋是根據(jù)文本生成的而查詢是根據(jù)語(yǔ)音生成的。如圖所示,如果動(dòng)態(tài)規(guī)劃路徑在格點(diǎn)(i,j)結(jié)束,則該動(dòng)態(tài)規(guī)劃路徑能夠傳播到格點(diǎn)(i+1,j)、(i+1,j+1)和(i+1,j+2),其中(i,j)表示注釋音素ai和查詢音素qj之間的匹配。傳播到點(diǎn)(i+1,j)表示與打字注釋相比,從口頭查詢中刪除一個(gè)音素的情況;傳播到點(diǎn)(i+1,j+1)表示注釋中的下一個(gè)音素和查詢中的下一個(gè)音素之間有一個(gè)簡(jiǎn)單譯碼的情況;傳播到點(diǎn)(i+1,j+2)表示與打字注釋相比,在口頭查詢中插入音素qj+1,并且注釋音素ai+1和查詢音素qj+2之間存在譯碼的情況。
注釋是語(yǔ)音而查詢是文本。
在注釋是根據(jù)語(yǔ)音生成的而查詢是根據(jù)文本生成的情況中,查詢中不能有音素插入或刪除,但是相對(duì)于查詢,注釋中可以有插入和刪除。圖9b表示本實(shí)施方式中使用的動(dòng)態(tài)規(guī)劃約束,其中注釋是根據(jù)語(yǔ)音生成的而查詢是根據(jù)文本生成的。如圖所示,如果動(dòng)態(tài)規(guī)劃路徑在格點(diǎn)(i,j)結(jié)束,則該動(dòng)態(tài)規(guī)劃路徑能夠傳播到格點(diǎn)(i,j+1)、(i+1,j+1)和(i+2,j+1),其中(i,j)表示注釋音素ai和查詢音素qj之間的匹配。傳播到點(diǎn)(i,j+1)表示與打字查詢相比,從口頭注釋中刪除一個(gè)音素的情況;傳播到點(diǎn)(i+1,j+1)表示注釋中的下一個(gè)音素和查詢中的下一個(gè)音素之間有一個(gè)簡(jiǎn)單譯碼的情況;傳播到點(diǎn)(i+2,j+1)表示與打字查詢相比,在口頭注釋中插入音素ai+1,并且注釋音素ai+2和查詢音素qj+1之間存在譯碼的情況。
注釋是語(yǔ)音且查詢也是語(yǔ)音。
在注釋和查詢都是根據(jù)語(yǔ)音生成的情況中,相對(duì)于另一方,可以在注釋和查詢中插入和刪除音素。圖11表示本實(shí)施方式中使用的動(dòng)態(tài)規(guī)劃約束,其中注釋音素和查詢音素都是根據(jù)語(yǔ)音生成的。具體而言,如果動(dòng)態(tài)規(guī)劃路徑在格點(diǎn)(i,j)結(jié)束,則該動(dòng)態(tài)規(guī)劃路徑能夠傳播到格點(diǎn)(i+1,j)、(i+2,j)、(i+3,j)、(i,j+1)、(i+1,j+1)、(i+2,j+1)、(i,j+2)、(i+1,j+2)和(i,j+3),其中(i,j)表示注釋音素ai和查詢音素qi之間的匹配。因此,上述傳播允許相對(duì)于與實(shí)際說出的文本相對(duì)應(yīng)的模型音素的未知正則序列,在注釋和查詢中插入和刪除音素。
開始和結(jié)束DP約束在本實(shí)施方式中,動(dòng)態(tài)規(guī)劃匹配操作允許動(dòng)態(tài)規(guī)劃路徑從任意注釋音素開始和結(jié)束。因此,查詢無(wú)需包含注釋的所有單詞,但是查詢單詞的出現(xiàn)次序必須與注釋中的單詞的出現(xiàn)次序相同。
DP得分傳播如上所述,動(dòng)態(tài)規(guī)劃處理記錄每條動(dòng)態(tài)規(guī)劃路徑的得分,得分依賴于沿該路徑排列的音素的相似性。因此,當(dāng)將在點(diǎn)(i,j)結(jié)束的路徑傳播到其他點(diǎn)時(shí),動(dòng)態(tài)規(guī)劃處理將此類處理的相應(yīng)“耗費(fèi)”添加到在點(diǎn)(i,j)結(jié)束的路徑的累加得分中,在與該點(diǎn)關(guān)聯(lián)的存儲(chǔ)器(SCORE(i,j))中存儲(chǔ)。正如本領(lǐng)域的技術(shù)人員理解的那樣,此耗費(fèi)包括上述插入概率、刪除概率和譯碼概率。具體而言,當(dāng)有插入時(shí),將累加得分乘以插入給定音素的概率;當(dāng)有刪除時(shí),將累加得分乘以刪除該音素的概率;以及當(dāng)有譯碼時(shí),將累加得分乘以對(duì)兩個(gè)音素進(jìn)行譯碼的概率。
為了能夠計(jì)算上述概率,該系統(tǒng)存儲(chǔ)所有可能音素組合概率。在本實(shí)施方式中,以類似于譯碼的方式,處理注釋或查詢中的音素刪除。只需把刪除作為另一個(gè)音素來(lái)處理就能實(shí)現(xiàn)。因此,如果該系統(tǒng)了解43個(gè)音素,則該系統(tǒng)將存儲(chǔ)1892(1892=43x44)個(gè)譯碼/刪除概率,每個(gè)可能的音素譯碼和刪除一個(gè)概率。圖10表示此種情況,該圖以概率方式表示為音素/ax/存儲(chǔ)的可能音素譯碼,并且包括刪除音素(φ)。正如本領(lǐng)域的技術(shù)人員理解的那樣,給定音素的所有譯碼概率之和為1,因?yàn)椴淮嬖谄渌怕省3鲜鲎g碼/刪除概率之外,該系統(tǒng)還存儲(chǔ)43個(gè)插入概率,每個(gè)可能音素插入一個(gè)概率。正如后面說明的那樣,預(yù)先根據(jù)訓(xùn)練數(shù)據(jù)確定這些概率。
為了說明得分傳播,現(xiàn)在考慮許多示例。在注釋為文本但查詢?yōu)檎Z(yǔ)音的情況中,對(duì)于從點(diǎn)(i,j)傳播到點(diǎn)(i+1,j+2)的路徑,相對(duì)于注釋插入音素qj+1,并利用注釋音素ai+1對(duì)查詢音素qj+2進(jìn)行譯碼。因此,由下式提供傳播到點(diǎn)(i+1,j+2)的得分S(i+1,j+2)=S(i,j)PI(qj+1|C)P(qj+2|ai+1,C) (7)其中PI(qj+1|C)為在口頭查詢中插入音素qi+1的概率,P(qi+2|ai+1,C)代表將注釋音素ai+1譯碼為查詢音素qj+2的概率。
當(dāng)注釋和查詢都是根據(jù)語(yǔ)音生成的,并且從點(diǎn)(i,j)傳播到點(diǎn)(i+2,j+1)時(shí),相對(duì)于查詢插入注釋音素ai+1,并且注釋音素ai+2和查詢音素qj+1之間有一個(gè)譯碼。因此,由下式提供傳播到點(diǎn)(i+2,j+1)的得分S(i+2,j+1)=s(i,j)PI(ai+1|C)Σr=1NpP(ai+2|pr,C)P(qj+1|pr,C)P(pr|C)----(8)]]>正如本領(lǐng)域的技術(shù)人員理解的那樣,在上述路徑傳播期間,幾條路徑會(huì)在同一格點(diǎn)相遇。在本實(shí)施方式中,僅僅累加與相遇路徑關(guān)聯(lián)的得分。作為選擇,可以比較這些得分,然后具有最高得分的路徑繼續(xù),而放棄其他路徑。然而,在本實(shí)施方式中上述處理并不是必要的,因?yàn)閯?dòng)態(tài)規(guī)劃處理只對(duì)查找得分感興趣,其中得分表示查詢音素?cái)?shù)據(jù)和注釋音素?cái)?shù)據(jù)之間的相似性。它并不對(duì)了解二者之間的最佳匹配感興趣。
如果查詢和注釋都的根據(jù)語(yǔ)音生成的,則當(dāng)所有路徑傳播到終止節(jié)點(diǎn)φe并且在確定查詢和當(dāng)前注釋之間的相似性的總得分后,該系統(tǒng)使用DP處理期間累積的歸一化項(xiàng),對(duì)該得分進(jìn)行歸一化。然后,該系統(tǒng)以類似方式比較該查詢與下一個(gè)注釋。當(dāng)該查詢與所有注釋匹配時(shí),對(duì)注釋的歸一化得分進(jìn)行排序,并且根據(jù)此排序,該系統(tǒng)向用戶輸出與輸入查詢最相似的注釋。
DP搜索的詳細(xì)說明以下詳細(xì)說明匹配查詢音素序列與注釋音素序列時(shí),執(zhí)行動(dòng)態(tài)規(guī)劃搜索的方式。參照?qǐng)D12,在步驟S101中,該系統(tǒng)初始化動(dòng)態(tài)規(guī)劃得分。接著在步驟S103中,該系統(tǒng)將路徑從空的起始節(jié)點(diǎn)(φs)傳播到所有可能的起點(diǎn)。然后在步驟S105中,該系統(tǒng)通過使用上述動(dòng)態(tài)規(guī)劃約束,將動(dòng)態(tài)規(guī)劃路徑從所有起點(diǎn)傳播到所有可能的終點(diǎn)。最后在步驟S107中,該系統(tǒng)將在終點(diǎn)結(jié)束的路徑傳播到空的終止節(jié)點(diǎn)(φe)。
圖13以更詳細(xì)的方式表示步驟S103包含的處理步驟,步驟S103將動(dòng)態(tài)規(guī)劃路徑從空的起始節(jié)點(diǎn)(φs)傳播到所有可能的起點(diǎn),其中由動(dòng)態(tài)規(guī)劃約束定義起點(diǎn)。一個(gè)約束是動(dòng)態(tài)規(guī)劃路徑可以從任意注釋音素開始,而定義查詢音素序列中所允許之跳數(shù)的其他約束依賴于該查詢是文本還是語(yǔ)音。具體而言,如果查詢是根據(jù)文本生成的,則起點(diǎn)包括搜索空間中的第一行格點(diǎn),即點(diǎn)(i,0),i=0到Nann-1;如果查詢是根據(jù)語(yǔ)音生成的,則起點(diǎn)包括搜索空間中的前四行格點(diǎn),即點(diǎn)(i,0)、(i,1)、(i,2)和(i,3),i=0到Nann-1。
以下參照?qǐng)D13所示的步驟說明實(shí)現(xiàn)上述處理的方式。如圖所示,在步驟S111中,系統(tǒng)確定輸入查詢是否是文本查詢。若是,則處理進(jìn)行到步驟S113,在步驟S113中,系統(tǒng)將變量mx的值設(shè)置為1,當(dāng)查詢?yōu)槲谋緯r(shí),該值定義查詢音素序列中允許的最大“跳”數(shù)。然后該處理進(jìn)行到步驟S115、S117和S119,這些步驟是可操作的,以便在搜索空間的第一行中的每個(gè)格點(diǎn)開始動(dòng)態(tài)規(guī)劃路徑,其方法是將從空的起始節(jié)點(diǎn)轉(zhuǎn)到格點(diǎn)(i,0)的躍遷得分,添加到與點(diǎn)(i,0)關(guān)聯(lián)的得分(SCORE(i,0))中,i=0到Nann-1。當(dāng)查詢是文本時(shí),在圖12所示的步驟S103中結(jié)束處理,然后處理進(jìn)行到步驟S105。
如果該系統(tǒng)在步驟S111中確定查詢不是文本而是根據(jù)口頭輸入生成的,則該系統(tǒng)進(jìn)行到步驟S121,在步驟S121中,將mx設(shè)置為mxhops,后者為一個(gè)常數(shù),其值比動(dòng)態(tài)規(guī)劃約束允許的最大“跳”數(shù)大1。正如圖9和圖10所示,當(dāng)查詢是語(yǔ)音時(shí),一條路徑最多可以跳到沿查詢音素序列方向三個(gè)音素之外的查詢音素。因此,在本實(shí)施方式中,mxhops的值為4,并且將變量mx設(shè)置為4,如果查詢中有四個(gè)以上的音素,否則,將mx設(shè)置為查詢中的音素?cái)?shù)。然后該處理進(jìn)行到步驟S123、S1245、S127、S129和S131,這些步驟是可操作的,以便在搜索空間的前四行中的每個(gè)格點(diǎn)開始動(dòng)態(tài)規(guī)劃路徑,其方法是將相應(yīng)的躍遷概率添加到與相應(yīng)格點(diǎn)關(guān)聯(lián)的得分上。如果查詢是根據(jù)口頭輸入生成的,則圖12所示的步驟S103中結(jié)束處理,然后處理進(jìn)行到步驟S105。
在本實(shí)施方式中,該系統(tǒng)在步驟S105中將動(dòng)態(tài)規(guī)劃路徑從起點(diǎn)傳播到終點(diǎn),其方法是以諸如光柵之類的技術(shù),逐列處理搜索空間中的格點(diǎn)。圖14表示用來(lái)控制上述光柵處理操作的控制算法。在步驟S151中,該系統(tǒng)比較注釋音素循環(huán)指針i與該注釋中的音素?cái)?shù)(Nann)。最初將注釋音素循環(huán)指針i設(shè)置為0,該處理最初進(jìn)行到步驟S153,在步驟S153中,類似比較查詢音素循環(huán)指針j與查詢中的音素總數(shù)(Nquery)。最初將循環(huán)指針j也設(shè)置為0,并且該處理進(jìn)行到步驟S155,在步驟S155中,該系統(tǒng)通過使用上述動(dòng)態(tài)規(guī)劃約束傳播在點(diǎn)(i,i)結(jié)束的路徑。稍后會(huì)詳細(xì)說明該系統(tǒng)在步驟S155中傳播路徑的方式。在步驟S155后,在步驟S157中將循環(huán)指針加1,然后該處理返回到步驟S153。在處理完查詢中的所有音素后(從而處理當(dāng)前一列格點(diǎn)后),該處理進(jìn)行到步驟S159,在步驟S159中,將查詢音素循環(huán)指針j復(fù)位到0,并且將注釋音素循環(huán)指針i加1。接著,該處理返回到步驟S151,在步驟S151中,對(duì)下一列格點(diǎn)進(jìn)行類似處理。在處理了最后一列格點(diǎn)后,該處理進(jìn)行到步驟S161,在步驟S16中,將注釋音素循環(huán)指針i復(fù)位到0,并且圖12所示的步驟S105中的處理結(jié)束。
圖15詳細(xì)表示將位于終點(diǎn)的路徑傳播到終止空節(jié)點(diǎn)φe時(shí),圖12所示的步驟S107包含的處理步驟。正如從起始空節(jié)點(diǎn)φs開始傳播一樣,由動(dòng)態(tài)規(guī)劃約束定義作為“終點(diǎn)”的格點(diǎn),動(dòng)態(tài)規(guī)劃約束取決于查詢是文本還是語(yǔ)音。另外,在本實(shí)施方式中,動(dòng)態(tài)規(guī)劃約束允許動(dòng)態(tài)規(guī)劃路徑在沿注釋音素序列的任意點(diǎn)退出該注釋。因此,如果查詢?yōu)槲谋?,則該系統(tǒng)允許在最后一行格點(diǎn)結(jié)束的動(dòng)態(tài)規(guī)劃路徑傳播到終止空節(jié)點(diǎn)φe,其中最后一行格點(diǎn)指點(diǎn)(i,Nquery-1),i=0到Nann-1。然而,如果查詢是根據(jù)語(yǔ)音生成的,則該系統(tǒng)允許在最后四行格點(diǎn)中傳播的路徑傳播到終止空節(jié)點(diǎn)φe,其中最后四行格點(diǎn)指點(diǎn)(i,Nquery-4)、(i,Nquery-3)、(i,Nquery-2)和(i,Nquery-1),i=0到Nann-1。
如圖15所示,該過程從步驟S171開始,在步驟S171中,該系統(tǒng)確定查詢是否是文本。若是,則該處理進(jìn)行到步驟S173,在步驟S173中,將查詢音素循環(huán)指針j設(shè)置為Nquery-1。接著,該處理進(jìn)行到步驟S175,在步驟S175中,比較注釋音素循環(huán)指針i與該注釋中的音素?cái)?shù)(Nann)。最初將注釋音素循環(huán)指針i設(shè)置為0,從而處理進(jìn)行到步驟S177,在步驟S177中,該系統(tǒng)計(jì)算從點(diǎn)(i,Nquery-1)到空的終止節(jié)點(diǎn)φe的躍遷得分。然后,組合該躍遷得分與SCORE(i,Nquery-1)中存儲(chǔ)的在點(diǎn)(i,Nquery-1)結(jié)束的路徑的累積得分。如上所述,在本實(shí)施方式中,躍遷和累積得分是基于概率的,并且通過乘以概率組合它們。然而,在本實(shí)施方式中,為了避免執(zhí)行乘法并且為了避免使用高浮點(diǎn)精度,該系統(tǒng)使用躍遷和累積得分的對(duì)數(shù)概率。因此,在步驟S179中,該系統(tǒng)將在點(diǎn)(i,Nquery-1)結(jié)束的路徑的累積得分添加到在步驟S177中計(jì)算的躍遷得分中,然后將其結(jié)果復(fù)制到臨時(shí)存儲(chǔ)器TEMPENDSCORE中。
如上所述,如果兩個(gè)以上的動(dòng)態(tài)規(guī)劃路徑在同一點(diǎn)相遇,則累加每條路徑的累積得分。因此,由于使用對(duì)數(shù)概率,所以能夠有效地將相遇路徑關(guān)聯(lián)的得分轉(zhuǎn)換回概率值,進(jìn)行累加,然后再轉(zhuǎn)換為對(duì)數(shù)概率。在本實(shí)施方式中,此操作稱為“對(duì)數(shù)加法”操作。這是一種公知技術(shù),并且在以下著作中說明,書名“自動(dòng)語(yǔ)音識(shí)別-(Sphinx)系統(tǒng)開發(fā)”,作者李開復(fù),Kluwer Academic出版,1989,第28-29頁(yè)。
由于從點(diǎn)(i,Nquery-1)傳播到空的終止節(jié)點(diǎn)的路徑會(huì)遇到其他動(dòng)態(tài)規(guī)劃路徑,所以該系統(tǒng)對(duì)TEMPENDSCORE和終止節(jié)點(diǎn)中存儲(chǔ)的得分(ENDSCORE)進(jìn)行對(duì)數(shù)加法,并將結(jié)果存儲(chǔ)到ENDSCORE中。接著該處理進(jìn)行到步驟S183,在步驟S183中,將注釋音素循環(huán)指針i加1。然后,該處理返回到步驟S175,在步驟S175中,對(duì)下一行格點(diǎn)中的下一個(gè)格點(diǎn)進(jìn)行類似處理。在按上述方式處理了最后一行中的所有格點(diǎn)后,在圖12所示的步驟S107中執(zhí)行的處理結(jié)束。
如果該系統(tǒng)在步驟S171中確定該查詢不是文本,則該處理進(jìn)行到步驟S185,在步驟S185中,將查詢音素循環(huán)指針j設(shè)置為查詢中的音素?cái)?shù)減mxhops,即Nquery-4。然后該處理進(jìn)行到步驟S187,在步驟S187中,該系統(tǒng)檢查注釋音素循環(huán)指針i是否小于該注釋中的音素?cái)?shù)(Nann)。最初將注釋音素循環(huán)指針i設(shè)置為0,從而該處理進(jìn)行到步驟S189,在步驟S189中,該系統(tǒng)檢查查詢音素循環(huán)指針j是否小于查詢中的音素?cái)?shù)(Nquery)。最初成立,該處理進(jìn)行到步驟S191,在步驟S191中,該系統(tǒng)計(jì)算從格點(diǎn)(i,j)到空的終止節(jié)點(diǎn)φe的躍遷得分。然后在步驟S193中,將該躍遷得分添加到在點(diǎn)(i,j)結(jié)束的路徑的累積得分中,并將結(jié)果復(fù)制到臨時(shí)存儲(chǔ)器TEMPENDSCORE中。接著,該處理進(jìn)行到步驟S195,在步驟S195中,該系統(tǒng)對(duì)TEMPENDSCORE和ENDSCORE進(jìn)行對(duì)數(shù)加法,并將結(jié)果存儲(chǔ)到ENDSCORE中。然后該處理進(jìn)行到步驟S197,在步驟S197中,將查詢音素循環(huán)指針j加1,然后該處理返回到步驟S189。重復(fù)上述處理步驟,直至增加后的查詢音素循環(huán)指針j等于該查詢中的音素?cái)?shù)(Nquery)。然后該處理進(jìn)行到步驟S199,在步驟S199中,將查詢音素循環(huán)指針j復(fù)位為Nquery-4,并且將注釋音素循環(huán)指針i加1。接著該處理返回到步驟S187。重復(fù)上述處理步驟,直至按上述方式處理了搜索空間的最后四行中的所有格點(diǎn),此后在圖12顯示的步驟S107中執(zhí)行的處理結(jié)束。
傳播在圖14所示步驟S155中,該系統(tǒng)通過使用上述動(dòng)態(tài)規(guī)劃約束傳播在格點(diǎn)(i,j)結(jié)束的路徑。圖16是一個(gè)流程圖,表示執(zhí)行上述傳播步驟時(shí)包含的處理步驟。如圖所示,在步驟S211中,該系統(tǒng)設(shè)置兩個(gè)變量mxi和mxj的值,并且初始化注釋音素循環(huán)指針i2和查詢音素循環(huán)指針j2。提供循環(huán)指針i2和j2的目的是遍歷在點(diǎn)(i,j)結(jié)束的路徑能夠傳播到的所有格點(diǎn),變量mxi和mxj用于確保i2和j2只取動(dòng)態(tài)規(guī)劃約束允許的值。具體而言,將mxi設(shè)置為i+mxhops,如果i+mxhops小于等于注釋中的音素?cái)?shù),否則,將mxi設(shè)置為注釋中的音素?cái)?shù)(Nann)。同樣,將mxj設(shè)置為j+mxhops,如果j+mxhops小于等于查詢中的音素?cái)?shù),否則,將mxj設(shè)置為查詢中的音素?cái)?shù)(Nquery)。最后在步驟S211中,該系統(tǒng)將注釋音素循環(huán)指針i2初始化為等于注釋音素循環(huán)指針i的當(dāng)前值,將查詢音素循環(huán)指針j2初始化為等于查詢音素循環(huán)指針j的當(dāng)前值。
由于該系統(tǒng)采用的動(dòng)態(tài)規(guī)劃約束依賴于注釋和查詢是文本還是語(yǔ)音,所以下一步驟確定注釋和查詢的生成方式。由判定塊S213、S215和S217進(jìn)行判定。如果注釋和查詢都是根據(jù)語(yǔ)音生成的,則在格點(diǎn)(i,j)結(jié)束的動(dòng)態(tài)規(guī)劃路徑能夠傳播到圖11所示的其他格點(diǎn),并且處理步驟S219到S235運(yùn)行,以便將該路徑傳播到其他格點(diǎn)。具體而言,在步驟S219中,該系統(tǒng)比較注釋音素循環(huán)指針i2與變量mxi。由于在步驟S211中將注釋音素循環(huán)指針i2設(shè)置為i,將mxi設(shè)置為i+4,所以該處理進(jìn)行到步驟S221,在步驟S221中,以類似方式比較查詢音素循環(huán)指針j2。接著該處理進(jìn)行到步驟S223,該步驟確保路徑不會(huì)停留在相同格點(diǎn)(i,j),原因在于最初i2等于i,j2等于j。因此,該處理最初進(jìn)行到步驟S225,在步驟S225中將查詢音素循環(huán)指針j2加1。
接著,該處理返回到步驟S221,在步驟S221中,比較已增加其值的j2與mxj。如果j2小于mxj,則該處理返回到步驟S223,然后該處理進(jìn)行到步驟S227,步驟S227是可操作的,目的是避免沿注釋音素和查詢音素序列的跳數(shù)太大。實(shí)現(xiàn)方法為,確保只有在i2+j2小于i+j+mxhops時(shí)才傳播路徑。從而確保只處理圖11所示的三角形點(diǎn)集。假設(shè)滿足上述條件,則該處理進(jìn)行到步驟S229,在步驟S229中,該系統(tǒng)計(jì)算從格點(diǎn)(i,j)到格點(diǎn)(i2,j2)的躍遷得分(TRANSCORE)。然后該處理進(jìn)行到步驟S231,在步驟S231中,該系統(tǒng)將在步驟S229中確定的躍遷得分,添加到為點(diǎn)(i,j)存儲(chǔ)的累積得分中,并復(fù)制到臨時(shí)存儲(chǔ)器TEMPSCORE中。如上所述,在本實(shí)施方式中,如果兩條或多條動(dòng)態(tài)規(guī)劃路徑在同一格點(diǎn)相遇,則累加與各條路徑關(guān)聯(lián)的累積得分。因此,在步驟S233中,該系統(tǒng)對(duì)TEMPSCORE和已經(jīng)為格點(diǎn)(i2,j2)存儲(chǔ)的累積得分進(jìn)行對(duì)數(shù)加法,并且在SCORE(i2,j2)中存儲(chǔ)其結(jié)果。然后該處理返回到步驟S225,在步驟S225中,將查詢音素循環(huán)指針j2加1,然后該處理返回到步驟S221。如果查詢音素循環(huán)指針j2等于mxj的值,則該處理進(jìn)行到步驟S235,在步驟S235中,將查詢音素循環(huán)指針j2復(fù)位為初始值j,并且將注釋音素循環(huán)指針i2加1。然后,該處理進(jìn)行到步驟S219,在步驟S219中,開始處理圖11所示的下一列格點(diǎn)。在將該路徑從點(diǎn)(i,j)傳播到圖11所示的所有其他點(diǎn)之后,處理結(jié)束。
如果判定塊S213和S215確定注釋為文本而查詢?yōu)檎Z(yǔ)音,則該處理進(jìn)行到步驟S241到S251,這些步驟是可操作的,以便將在點(diǎn)(i,j)結(jié)束的路徑傳播到圖9a所示的格點(diǎn)。具體而言,在步驟S241中,該系統(tǒng)確定注釋音素循環(huán)指針i是否指向注釋中的最后一個(gè)音素。若是,則注釋中不再有音素,處理結(jié)束。如果注釋音素循環(huán)指針i小于Nann-1,則該處理進(jìn)行到步驟S243,在步驟S243中,比較查詢音素循環(huán)指針j2與mxj。最初,j2小于mxj,因此該處理進(jìn)行到步驟S245,在步驟S245中,該系統(tǒng)計(jì)算從點(diǎn)(i,j)到點(diǎn)(i+1,j2)的躍遷得分(TRANSCORE)。將該躍遷得分添加到與在點(diǎn)(i,j)結(jié)束的路徑關(guān)聯(lián)的累積得分中,并將結(jié)果復(fù)制到臨時(shí)存儲(chǔ)器TEMPSCORE中。然后在步驟S249中,該系統(tǒng)對(duì)TEMPSCORE和與點(diǎn)(i+1,j2)關(guān)聯(lián)的累積得分進(jìn)行對(duì)數(shù)加法,并且在SCORE(i+1,j2)中存儲(chǔ)其結(jié)果,從而確保組合在格點(diǎn)(i+1,j2)相遇的路徑的路徑得分。接著該處理進(jìn)行到步驟S251,在步驟S251中,將查詢音素循環(huán)指針j2加1,然后該處理返回到步驟S243。將在點(diǎn)(i,j)結(jié)束的路徑傳播到圖9a所示的其他點(diǎn)后,j2將等于mxj,在點(diǎn)(i,j)結(jié)束的路徑的傳播結(jié)束。
如果判定塊S213和S217確定注釋為語(yǔ)音而查詢?yōu)槲谋荆瑒t該處理進(jìn)行到圖16b所示的步驟S255到S265,這些步驟是可操作的,以便將在點(diǎn)(i,j)結(jié)束的路徑傳播到圖9b所示的其他格點(diǎn)。其實(shí)現(xiàn)方法為,首先在步驟S255中,檢查查詢音素循環(huán)指針j是否指向表示查詢的音素序列中的最后一個(gè)音素。若不是,則該處理進(jìn)行到步驟S257,在步驟S257中,比較注釋音素循環(huán)指針i2與mxi。最初,i2等于mxi,并且假定注釋音素i不在表示注釋的音素序列的結(jié)束位置,該處理進(jìn)行到步驟S259,在步驟S259中,計(jì)算從點(diǎn)(i,j)移動(dòng)到點(diǎn)(i2,j+1)的躍遷得分。然后該處理進(jìn)行到步驟S261,在步驟S261中,將該躍遷得分添加到在點(diǎn)(i,j)結(jié)束的路徑的累積得分中,并將結(jié)果復(fù)制到臨時(shí)存儲(chǔ)器TEMPSCORE中。接著該處理進(jìn)行到步驟S263,在步驟S263中,對(duì)TEMPSCORE和已經(jīng)為點(diǎn)(i2,j+1)存儲(chǔ)的累積得分進(jìn)行對(duì)數(shù)加法,并且在SCORE(i2,j+1)中存儲(chǔ)其結(jié)果。然后該處理進(jìn)行到步驟S265,在步驟S265中,將注釋音素循環(huán)指針i2加1,并且該處理返回到步驟S257。重復(fù)上述處理步驟,直至將在點(diǎn)(i,j)結(jié)束的路徑傳播到圖9b所示的每一個(gè)其他格點(diǎn)。此時(shí),結(jié)束在點(diǎn)(i,j)的路徑的傳播,處理結(jié)束。
最后,如果判定塊S213和S215確定注釋和查詢均為文本,則該處理進(jìn)行到圖16b所示的步驟S271到S279,這些步驟是可操作的,以便將在點(diǎn)(i,j)結(jié)束的路徑傳播點(diǎn)(i+1,j+1),其前提是還有其他注釋音素和其他查詢音素。具體而言,在步驟S271中,該系統(tǒng)檢查注釋音素循環(huán)指針i是否指向最后一個(gè)注釋音素。若不是,則該處理進(jìn)行到步驟S273,在步驟S273中,相對(duì)于查詢音素序列,以類似方式檢查查詢音素循環(huán)指針j。如果不再有注釋音素或者如果不再有查詢音素,則處理結(jié)束。然而,如果還有其他注釋音素和其他查詢音素,則該處理進(jìn)行到步驟S275,在步驟S275中,該系統(tǒng)計(jì)算從點(diǎn)(i,j)到點(diǎn)(i+1,j+1)的躍遷得分。然后在步驟S277中,將該躍遷得分添加到為點(diǎn)(i,j)存儲(chǔ)的累積得分中,并將結(jié)果存儲(chǔ)到臨時(shí)存儲(chǔ)器TEMPSCORE中。接著該處理進(jìn)行到步驟S279,在步驟S279中,該系統(tǒng)對(duì)TEMPSCORE和已經(jīng)為點(diǎn)(i+1,j+1)存儲(chǔ)的累積得分進(jìn)行對(duì)數(shù)加法,并且在SCORE(i+1,j+1)中存儲(chǔ)其結(jié)果。正如本領(lǐng)域的技術(shù)人員理解的那樣,在本實(shí)施方式中步驟S277和S279是必需的,因?yàn)閯?dòng)態(tài)規(guī)劃約束允許路徑從表示注釋的音素序列內(nèi)的任意音素開始,因此,點(diǎn)(i+1,j+1)可能已經(jīng)具有與其關(guān)聯(lián)的得分。在步驟S279之后,結(jié)束點(diǎn)(i,j)的傳播,并且處理結(jié)束。
躍遷得分在圖12所示的步驟S103、S105和S107中,傳播動(dòng)態(tài)規(guī)劃路徑,并且在此傳播期間,在步驟S127、S117、S177、S191、S229、S245、S259和S275中計(jì)算躍遷得分。在這些步驟中,該系統(tǒng)計(jì)算適當(dāng)?shù)牟迦敫怕?、刪除概率以及相對(duì)于躍遷之起點(diǎn)和終點(diǎn)的譯碼概率。以下參照?qǐng)D17和18說明本實(shí)施方式中實(shí)現(xiàn)的計(jì)算方式。
具體而言,圖17是一個(gè)流程圖,表示在計(jì)算從格點(diǎn)(i,j)傳播到格點(diǎn)(i2,j2)的路徑的躍遷得分時(shí)包含的一般處理步驟。在步驟S291中,對(duì)于在點(diǎn)(i,j)和點(diǎn)(i2,j2)之間插入的每個(gè)注釋音素,該系統(tǒng)計(jì)算插入所插入音素的得分(即以上討論的概率PI()的對(duì)數(shù)),并將該得分添加到適當(dāng)存儲(chǔ)器INSERTSCORE中。然后該處理進(jìn)行到步驟S293,在步驟S293中,該系統(tǒng)以類似方式計(jì)算在點(diǎn)(i,j)和點(diǎn)(i2,j2)之間插入的每個(gè)查詢音素的得分,并將其添加到INSERTSCORE中。請(qǐng)注意,如果(i,j)是起始空節(jié)點(diǎn)φs或者如果(i2,j2)是終止空節(jié)點(diǎn)φe,則該系統(tǒng)不計(jì)算所有插入的注釋音素的插入概率(由于不懲罰從任意注釋音素開始或結(jié)束路徑),盡管計(jì)算所有插入的查詢音素的插入概率。如上所述,計(jì)算的得分是基于對(duì)數(shù)的概率,因此,在INSERTSCORE中添加得分相當(dāng)于乘以相應(yīng)的插入概率。接著該處理進(jìn)行到步驟S295,在步驟S295中,該系統(tǒng)計(jì)算從點(diǎn)(i,j)傳播到點(diǎn)(i2,j2)時(shí)的刪除和/或譯碼得分,累加這些得分,并存儲(chǔ)在適當(dāng)存儲(chǔ)器DELSCORE中。然后該處理進(jìn)行到步驟S297,在步驟S297中,該系統(tǒng)累加INSERTSCORE和DELSCORE,并將結(jié)果復(fù)制到TRANSCORE。
以下參照?qǐng)D18,詳細(xì)說明步驟S295包含的確定從點(diǎn)(i,j)傳播到點(diǎn)(i2,j2)時(shí)的刪除和/或譯碼得分的處理。由于可能的刪除和譯碼取決于注釋是否是根據(jù)文本生成的以及查詢是否是根據(jù)文本生成的,所以判定塊S301、S303和S305確定注釋是文本還是語(yǔ)音,以及查詢是文本還是語(yǔ)音。如果這些判定塊確定注釋和查詢均是文本,則沒有刪除操作,并且在步驟S307中利用布爾匹配對(duì)兩個(gè)音素進(jìn)行譯碼。如果注釋音素ai2與查詢音素qj2相同,則該處理進(jìn)行到步驟S309,在步驟S309中,將TRANSCORE設(shè)置為log(1)(即,0),并且處理結(jié)束。然而,如果注釋音素ai2與查詢音素qj2不同,則該處理進(jìn)行到步驟S311,在步驟S311中,將TRANSCORE設(shè)置為一個(gè)非常大的負(fù)數(shù),即log(0),并且處理結(jié)束。
如果判定塊S301和S305確定注釋是語(yǔ)音而查詢是文本,則通過使用以上討論的公式(4)的簡(jiǎn)化形式確定躍遷得分。此時(shí),該處理從步驟S303轉(zhuǎn)到步驟S313,在步驟S313中,該系統(tǒng)確定注釋循環(huán)指針i2是否等于注釋循環(huán)指針i。若是,則意味著該路徑已經(jīng)從點(diǎn)(i,j)傳播到點(diǎn)(i,j+1)。因此,已經(jīng)相對(duì)于查詢音素序列從注釋音素序列中刪除了查詢音素qj+1。因此,在步驟S317中,該系統(tǒng)將刪除音素qj+1的對(duì)數(shù)概率(即,logP(φ|qj+1,C)),復(fù)制到DELSCORE中,并且處理結(jié)束。如果在步驟S313中該系統(tǒng)確定i2不等于i,則該系統(tǒng)考慮將在點(diǎn)(i,j)結(jié)束的路徑傳播到點(diǎn)(i+1,j+1)、(i+2,j+1)或(i+3,j+1)之一。無(wú)論在哪種情況中,均不存在刪除,注釋音素ai2和查詢音素qj+1之間只有插入和譯碼。因此,在步驟S315中,該系統(tǒng)將把查詢音素qj+1譯碼為注釋音素ai2的對(duì)數(shù)概率(即,logP(ai2|qj+1,C)),復(fù)制到DELSCORE中,并且處理結(jié)束。
如果判定塊S301和S305確定注釋是文本而查詢是語(yǔ)音,則通過使用以上討論的公式(4)的其他簡(jiǎn)化形式確定躍遷得分。此時(shí),該處理從步驟S305轉(zhuǎn)到步驟S319,在步驟S319中,該系統(tǒng)確定查詢音素循環(huán)指針j2是否等于查詢音素循環(huán)指針j。若是,則該系統(tǒng)計(jì)算從點(diǎn)(i,j)到點(diǎn)(i+1,j)的躍遷得分。此時(shí),已經(jīng)相對(duì)于注釋音素序列從查詢音素序列中刪除了注釋音素ai+1。因此,在步驟S321中,該系統(tǒng)確定并將刪除注釋音素ai+1的對(duì)數(shù)概率(即,logP(φ|ai+1,C)),復(fù)制到DELSCORE中,并且處理結(jié)束。如果在步驟S319中,該系統(tǒng)確定查詢音素循環(huán)指針j2不等于查詢音素循環(huán)指針j,則該系統(tǒng)確定從點(diǎn)(i,j)到點(diǎn)(i+1,j+1)、(i+1,j+2)或(i+1,j+3)之一的躍遷得分。此時(shí),不存在刪除,注釋音素ai+1和查詢音素qj2之間只有插入和譯碼。因此,在步驟S323中,該系統(tǒng)確定并將把注釋音素ai+1譯碼為查詢音素qj2的對(duì)數(shù)概率(即,logP(qi2|ai+1,C)),復(fù)制到DELSCORE中,并且處理結(jié)束。
如果判定塊S301和S303確定注釋和查詢均是根據(jù)語(yǔ)音生成的,則通過使用以上公式(4)確定躍遷得分。此時(shí),該處理從步驟S303轉(zhuǎn)到步驟S325,在步驟S325中,該系統(tǒng)確定注釋循環(huán)指針i2是否等于注釋循環(huán)指針i。若是,則該處理進(jìn)行到步驟S327,在步驟S327中,將音素循環(huán)指針r初始化為1。在計(jì)算公式(4)期間,音素指針r用于遍歷系統(tǒng)已知的每個(gè)可能音素。然后該處理進(jìn)行到步驟S329,在步驟S329中,該系統(tǒng)比較音素指針r與該系統(tǒng)已知的音素?cái)?shù)Nphonemes(在本實(shí)施方式中等于43)。最初,在步驟S327中將r設(shè)置為1,因此該處理進(jìn)行到步驟S331,在步驟S331中,該系統(tǒng)確定音素pr出現(xiàn)的對(duì)數(shù)概率(即,log P(pr|C)),并將其復(fù)制到臨時(shí)存儲(chǔ)器TEMPDELSCORE中。如果注釋音素循環(huán)指針i2等于注釋音素i,則該系統(tǒng)正在將在點(diǎn)(i,j)結(jié)束的路徑傳播到點(diǎn)(i,j+1)、(i,j+2)或(i,j+3)之一。因此,查詢中有一個(gè)注釋中沒有的音素。從而在步驟S333中,該系統(tǒng)將從注釋中刪除音素pr的對(duì)數(shù)概率(即,log P(φ|pr,C)),添加到TEMPDELSCORE中。接著該處理進(jìn)行到步驟S335,在步驟S335中,該系統(tǒng)將把音素pr譯碼為查詢音素qj2的對(duì)數(shù)概率(即,logP(qi2|pr,C)),添加到TEMPDELSCORE中。然后該處理進(jìn)行到步驟S337,在步驟S337中,對(duì)TEMPDELSCORE和DELSCORE執(zhí)行對(duì)數(shù)加法,并將結(jié)果存儲(chǔ)到DELSCORE中。接著該處理進(jìn)行到步驟S339,在步驟S339中,將音素循環(huán)指針r加1,然后該處理返回到步驟S329,在步驟S329中,以類似方式處理該系統(tǒng)已知的下一個(gè)音素。在對(duì)該系統(tǒng)已知的43音素中的每個(gè)音素執(zhí)行上述計(jì)算后,處理結(jié)束。
在步驟S325中,如果該系統(tǒng)確定i2不等于i,則該處理進(jìn)行到步驟S341,在步驟S341中,該系統(tǒng)確定查詢音素循環(huán)指針j2是否等于查詢音素循環(huán)指針j。若是,則該處理進(jìn)行到步驟S343,在步驟S343中,將音素循環(huán)指針r初始化為1。然后該處理進(jìn)行到步驟S345,在步驟S345中,比較音素循環(huán)指針r與該系統(tǒng)已知的音素總數(shù)(Nphonemes)。最初在步驟S343中將r設(shè)置為1,因此該處理進(jìn)行到步驟S347,在步驟S347中,該系統(tǒng)確定音素pr出現(xiàn)的對(duì)數(shù)概率,并將其復(fù)制到臨時(shí)存儲(chǔ)器TEMPDELSCORE中。接著,該處理進(jìn)行到步驟S349,在步驟S349中,該系統(tǒng)確定把音素pr譯碼為注釋音素ai2的對(duì)數(shù)概率,并將其添加到TEMPDELSCORE中。如果查詢音素循環(huán)指針j2等于查詢音素循環(huán)指針j,則該系統(tǒng)正在將在點(diǎn)(i,j)結(jié)束的路徑傳播到點(diǎn)(i+1,j)、(i+2,j)或(i+3,j)之一。因此,注釋中有一個(gè)查詢中沒有的音素。從而在步驟S351中,該系統(tǒng)確定從查詢中刪除音素pr的對(duì)數(shù)概率,并將其添加到TEMPDELSCORE中。接著該處理進(jìn)行到步驟S353,在步驟S353中,該系統(tǒng)對(duì)TEMPDELSCORE和DELSCORE執(zhí)行對(duì)數(shù)加法,并將結(jié)果存儲(chǔ)到DELSCORE中。然后在步驟S355中,將音素循環(huán)指針r加1,并且該處理返回到步驟S345。在對(duì)該系統(tǒng)已知的所有音素執(zhí)行步驟S347到S353的處理后,處理結(jié)束。
在步驟S341中,如果該系統(tǒng)確定查詢音素循環(huán)指針j2不等于查詢音素循環(huán)指針j,則該處理進(jìn)行到步驟S357,在步驟S357中,將音素循環(huán)指針r初始化為1。然后該處理進(jìn)行到步驟S359,在步驟S359中,該系統(tǒng)比較音素計(jì)數(shù)器r與該系統(tǒng)已知的音素?cái)?shù)(Nphonemes)。最初在步驟S357中將r設(shè)置為1,因此該處理進(jìn)行到步驟S361,在步驟S361中,該系統(tǒng)確定音素pr出現(xiàn)的對(duì)數(shù)概率,并將其復(fù)制到臨時(shí)存儲(chǔ)器TEMPDELSCORE中。如果查詢音素循環(huán)指針j2不等于查詢音素循環(huán)指針j,則該系統(tǒng)正在將在點(diǎn)(i,j)結(jié)束的路徑傳播到點(diǎn)(i+1,j+1)、(i+1,j+2)和(i+2,j+1)之一。因此,沒有刪除,只有插入和譯碼。所以該處理進(jìn)行到步驟S363,在步驟S363中,將把音素pr譯碼為注釋音素ai2的對(duì)數(shù)概率,添加到TEMPDELSCORE中。然后該處理進(jìn)行到步驟S365,在步驟S365中,確定把音素pr譯碼為查詢音素qj2的對(duì)數(shù)概率,并添加到TEMPDELSCORE中。接著在步驟S367中,該系統(tǒng)對(duì)TEMPDELSCORE和DELSCORE執(zhí)行對(duì)數(shù)加法,并將結(jié)果存儲(chǔ)到DELSCORE中。然后在步驟S369中,將音素計(jì)數(shù)器r加1,并且該處理返回到步驟S359。在對(duì)該系統(tǒng)已知的所有音素執(zhí)行步驟S361到S367的處理后,處理結(jié)束。
歸一化動(dòng)態(tài)規(guī)劃處理的上述說明僅僅處理了公式(3)的分子部分。因此,在輸入查詢已經(jīng)與數(shù)據(jù)庫(kù)中的注釋音素序列匹配后,必須通過歸一化公式(3)的分母定義的項(xiàng),歸一化該匹配的得分(在ENDSCORE中存儲(chǔ))。如上所述,在計(jì)算分子時(shí),即在上述動(dòng)態(tài)規(guī)劃例程中,計(jì)算分母。其原因在于,通過比較分子和分母可以發(fā)現(xiàn),分母上的各項(xiàng)已經(jīng)在分子上進(jìn)行了計(jì)算。然而,請(qǐng)注意,如果注釋或查詢是根據(jù)文本生成的,則不執(zhí)行歸一化。在本實(shí)施方式中,執(zhí)行歸一化的目的在于使較長(zhǎng)注釋的權(quán)重不大于較短注釋的權(quán)重,并且使包含常見音素的注釋的權(quán)重不大于包含罕見音素的權(quán)重。通過利用一個(gè)依賴于該注釋與基礎(chǔ)模型匹配程度的項(xiàng)來(lái)歸一化該得分,實(shí)現(xiàn)上述處理。
訓(xùn)練在上述實(shí)施方式中,該系統(tǒng)使用1892個(gè)譯碼/刪除概率和43個(gè)插入概率(稱為混淆統(tǒng)計(jì)),上述概率用于計(jì)算音素匹配操作中動(dòng)態(tài)規(guī)劃路徑的得分。在本實(shí)施方式中,預(yù)先在訓(xùn)練期間確定上述概率,并存儲(chǔ)在存儲(chǔ)器(未示出)中。具體而言,在訓(xùn)練期間,以兩種方式使用語(yǔ)音識(shí)別系統(tǒng)提供語(yǔ)音的音素譯碼。在第一種方式中,給語(yǔ)音識(shí)別系統(tǒng)提供語(yǔ)音和實(shí)際說出的單詞。從而語(yǔ)音識(shí)別部件能夠使用該信息生成所說單詞的正則音素序列,以獲得語(yǔ)音的理想譯碼。然后利用語(yǔ)音識(shí)別系統(tǒng)對(duì)相同語(yǔ)音進(jìn)行譯碼,但此時(shí)并不使用實(shí)際說出的單詞的知識(shí)(以下稱為自由譯碼)。自由譯碼生成的音素序列與正則音素序列的區(qū)別在于i)自由譯碼會(huì)出現(xiàn)錯(cuò)誤,并在譯碼中插入正則序列中未出現(xiàn)的音素,或者,在譯碼中遺漏正則序列中出現(xiàn)的音素;ii)可能混淆一個(gè)音素與另一個(gè)音素;以及iii)即使語(yǔ)音識(shí)別系統(tǒng)能夠正確對(duì)該語(yǔ)音進(jìn)行譯碼,自由譯碼仍然與正則譯碼不同,其原因在于交談發(fā)音與正則發(fā)音之間的區(qū)別,例如,在交談?wù)Z言中,通常將單詞“and”(其正則形式為/ae//n//d/和/ax//n//d/)縮減為/ax//n/,甚至縮減為/n/。
因此,如果將大量發(fā)言譯碼為其正則形式或其自由譯碼形式,則可以使用動(dòng)態(tài)規(guī)劃方法匹配二者。當(dāng)音素應(yīng)為p時(shí),以上處理提供譯碼為d的計(jì)數(shù)。根據(jù)上述訓(xùn)練結(jié)果,可以按下述方式逼近以上譯碼、刪除和插入概率。
由下式給出音素d是一個(gè)插入的概率PI(d|C)=Idnod----(9)]]>其中Id是自動(dòng)語(yǔ)音識(shí)別系統(tǒng)插入音素d的次數(shù),nod是相對(duì)于正則序列插入譯碼音素的總次數(shù)。
由下式給出將音素p譯碼為音素d的概率P(d|p,C)=cdpnp----(10)]]>其中cdp是音素為p時(shí)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)譯碼為d的次數(shù),np是音素為p時(shí)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)譯碼為任意音素(包括刪除)的次數(shù)。
由下式給出應(yīng)該對(duì)音素p進(jìn)行譯碼時(shí)未譯碼(即,刪除)的概率P(Φ|p,C)=Opnp----(11)]]>其中Op是應(yīng)該對(duì)p譯碼時(shí)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)未譯碼的次數(shù),np同上。
第二實(shí)施方式在第一實(shí)施方式中,比較一個(gè)輸入查詢與許多存儲(chǔ)的注釋。在本實(shí)施方式中,比較兩個(gè)輸入的語(yǔ)音查詢與存儲(chǔ)的注釋。本實(shí)施方式適合在噪聲環(huán)境中進(jìn)行輸入查詢的應(yīng)用,或要求較高準(zhǔn)確性的應(yīng)用。并不適合查詢?yōu)槲谋镜那闆r,因?yàn)檫@使得其他查詢是多余的。因此,該系統(tǒng)能夠處理以下兩種情況(i)輸入查詢是根據(jù)語(yǔ)音生成的并且注釋也是根據(jù)語(yǔ)音生成的;以及(ii)輸入查詢是根據(jù)語(yǔ)音生成的但注釋是根據(jù)文本生成的。
本實(shí)施方式使用的動(dòng)態(tài)規(guī)劃算法與第一實(shí)施方式中使用的算法類似,但使其適應(yīng)同時(shí)匹配兩個(gè)查詢與注釋。圖19表示一個(gè)三維坐標(biāo)圖,其中給兩個(gè)查詢中的每個(gè)提供一維,給注釋提供另一維。圖19表示本實(shí)施方式的動(dòng)態(tài)規(guī)劃算法處理的三維格點(diǎn)。該算法使用第一實(shí)施方式中使用的相同躍遷得分、動(dòng)態(tài)規(guī)劃約束和混淆統(tǒng)計(jì)(即,音素概率),以便在圖19所示的三維格點(diǎn)網(wǎng)絡(luò)中傳播路徑,并計(jì)算每條路徑的得分。
以下詳細(xì)說明上述三維動(dòng)態(tài)規(guī)劃處理。通過比較圖20至25與圖13至18,本領(lǐng)域的技術(shù)人員可以理解,本質(zhì)上,三維動(dòng)態(tài)規(guī)劃算法與第一實(shí)施方式中采用的二維動(dòng)態(tài)規(guī)劃算法是相同的,只是為了考慮額外查詢,需要添加幾個(gè)控制循環(huán)。
三維動(dòng)態(tài)規(guī)劃算法按照?qǐng)D12所示的所有步驟,比較兩個(gè)查詢與注釋。圖20詳細(xì)表示步驟S103中包含的處理步驟,其中在步驟S103中,將動(dòng)態(tài)規(guī)劃路徑從空的起始節(jié)點(diǎn)φs,傳播到動(dòng)態(tài)規(guī)劃約束定義的所有可能起點(diǎn)。在這點(diǎn)上,約束指動(dòng)態(tài)規(guī)劃路徑可以從任何一個(gè)注釋音素開始,并且一條路徑可以從每個(gè)查詢的任何前四個(gè)音素開始。因此,參照?qǐng)D20,在步驟S401中,該系統(tǒng)將變量mxj和mxk的值設(shè)置為mxhops,后者與第一實(shí)施方式中使用的常數(shù)相同。因此,在本實(shí)施方式中,同時(shí)將mxj和mxk設(shè)置為4,前提是每個(gè)輸入查詢包含四個(gè)以上的音素。否則,將mxj和/或mxk設(shè)置為相應(yīng)查詢中的音素?cái)?shù)。接著該處理進(jìn)行到步驟S403到S417,這些步驟是可操作的,以開始位于點(diǎn)(i,j,k)的動(dòng)態(tài)規(guī)劃路徑,其中i=0到Nann,j=1到3,k=0到3。從而結(jié)束圖12所示的步驟S103中的處理,然后該處理進(jìn)行到步驟S105,在步驟S105中,將上述動(dòng)態(tài)規(guī)劃路徑傳播到終點(diǎn)。
正如在第一實(shí)施方式中那樣,在本實(shí)施方式中,該系統(tǒng)通過以光柵方式處理搜索空間中的格點(diǎn),將動(dòng)態(tài)規(guī)劃路徑從起點(diǎn)傳播到終點(diǎn)。圖21表示控制上述光柵處理操作所使用的控制算法。通過比較圖21和圖14可以看出,本控制算法與第一實(shí)施方式中使用的控制算法具有相同的通式。其唯一區(qū)別在于更復(fù)雜的傳播步驟S419,以及提供查詢塊S421、S423和S425,以便處理第二輸入查詢引起的附加點(diǎn)。為了更好地理解圖21所示控制算法的操作方式,請(qǐng)讀者參考有關(guān)圖14的說明。
圖22以詳細(xì)方式表示將位于終點(diǎn)的路徑傳播到終止空節(jié)點(diǎn)φe時(shí),本實(shí)施方式使用的圖12所示的步驟S107中的處理步驟。通過比較圖22和圖15可以看出,本實(shí)施方式中采用的步驟S107中的處理步驟,與第一實(shí)施方式中采用的相應(yīng)處理步驟類似。其區(qū)別在于,更復(fù)雜的躍遷得分計(jì)算塊443和附加塊(S439、S441和S443),并且需要變量(k)以處理由于第二查詢而引起的附加格點(diǎn)。因此,為了理解步驟S431到S449中包含的處理,請(qǐng)讀者參考有關(guān)圖15的說明。
圖23是一個(gè)流程圖,表示圖21所示的傳播步驟S419中包括的處理步驟。圖16表示用于二維實(shí)施方式的相應(yīng)流程圖。通過比較圖23和圖16可以看出,兩種實(shí)施方式之間的主要區(qū)別在于附加變量(mxk和k2)以及處理由于第二查詢引起的附加格點(diǎn)所需要的處理塊(S451、S453、S455和S457)。圖23稍微復(fù)雜一些,因?yàn)閮蓚€(gè)查詢必須為語(yǔ)音,因此該流程只有兩個(gè)主要分支,一個(gè)用于注釋為文本,另一個(gè)用于注釋為語(yǔ)音。為了更好地理解圖23所示的流程圖包含的處理步驟,請(qǐng)讀者參考有關(guān)圖16的說明。
圖24是一個(gè)流程圖,表示在圖23所示的處理步驟期間,計(jì)算從點(diǎn)(i,j,k)傳播到(i2,j2,k2)的動(dòng)態(tài)規(guī)劃路徑的躍遷得分時(shí)包含的處理步驟。圖17表示用于二維實(shí)施方式的相應(yīng)流程圖。通過比較圖24和圖17可以看出,本實(shí)施方式與第一實(shí)施方式之間的主要區(qū)別在于附加處理步驟S461,該步驟用于第二查詢中插入音素的插入概率。因此,為了更好地理解圖24所示流程圖中包含的處理步驟,請(qǐng)讀者參考有關(guān)圖17的說明。
以下參照?qǐng)D25詳細(xì)說明圖24的步驟S463包含的處理步驟,該步驟用于確定從點(diǎn)(i,j,k)到(i2,j2,k2)的路徑傳播的刪除和/或譯碼得分。由于可能的刪除和譯碼依賴于注釋是根據(jù)文本還是根據(jù)語(yǔ)音生成的,所以判定塊S501確定注釋是文本還是語(yǔ)音。如果注釋是根據(jù)文本生成的,則音素循環(huán)指針i2必須指向注釋音素ai+1。接著該處理進(jìn)行到步驟S503、S505和S507,這些步驟是可操作的,以確定第一和第二查詢中是否有音素刪除(相對(duì)于注釋)。如果有音素刪除,則j2等于j,k2等于k。
-如果j2不等于j并且k2不等于k,則相對(duì)于注釋查詢中沒有刪除,并且該處理進(jìn)行到步驟S509,在步驟S509中,將把注釋音素ai+1譯碼為第一查詢音素qj2的對(duì)數(shù)概率,復(fù)制到DELSCORE中。然后該處理進(jìn)行到步驟S511,在步驟S511中,將把注釋音素ai+1譯碼為第二查詢音素qk2的對(duì)數(shù)概率,添加到DELSCORE中。
-如果該系統(tǒng)確定j2不等于j但k2等于k,則該處理進(jìn)行到步驟S513和S515,在步驟S513中,確定刪除注釋音素ai+1的概率,并復(fù)制到DELSCORE中,并且在步驟S515中,將把注釋音素ai+1譯碼為第一查詢音素qj2的對(duì)數(shù)概率,添加到DELSCORE中。
-如果該系統(tǒng)確定j2等于j并且k2等于k,則該處理進(jìn)行到步驟S517和S519,在這些步驟中,該系統(tǒng)確定從第一和第二查詢中刪除注釋音素ai+1的對(duì)數(shù)概率,并將其結(jié)果存儲(chǔ)到DELSCORE中。
-如果該系統(tǒng)確定j2等于j但k2不等于k,則該處理進(jìn)行到步驟S521和S523,這些步驟是可操作的,以便在步驟S521中,將刪除注釋音素ai+1的對(duì)數(shù)概率,復(fù)制到DELSCORE中,并且在步驟S523中,將把注釋音素ai+1譯碼為第二查詢音素qk2的對(duì)數(shù)概率,添加到DELSCORE中。
在步驟S501中,如果該系統(tǒng)確定注釋是根據(jù)語(yǔ)音生成的,則該系統(tǒng)通過分別比較i2與i、j2與j以及k2與k,確定(在步驟S525到S537中)該注釋或兩個(gè)查詢中是否有音素刪除。正如圖25b到25e所示,如果注釋是根據(jù)語(yǔ)音生成的,則有8個(gè)主要分支,這些分支用于確定8種可能情況的適當(dāng)譯碼和刪除概率。由于在每種情況中執(zhí)行的處理非常相似,所以僅給出一種情況的說明。
具體而言,在步驟S525、S527和S531中,如果該系統(tǒng)確定注釋中有音素刪除(因?yàn)閕2=i)但兩個(gè)查詢中沒有音素刪除(因?yàn)閖2≠j且k2≠k),則處理進(jìn)行到步驟S541,在步驟S541中,將音素循環(huán)指針r初始化為1。在計(jì)算與第一實(shí)施方式中所述公式(4)類似的公式時(shí),音素循環(huán)指針r用于遍歷該系統(tǒng)已知的每個(gè)音素。接著,該處理進(jìn)行到步驟S543,在步驟S543中,該系統(tǒng)比較音素指針r與該系統(tǒng)已知的音素?cái)?shù)N phonemes(在本實(shí)施方式中等于43)。最初在步驟S541中將r設(shè)置為1。因此,該處理進(jìn)行到步驟S545,在步驟S545中,該系統(tǒng)確定音素pr出現(xiàn)的對(duì)數(shù)概率,并將其復(fù)制到臨時(shí)存儲(chǔ)器TEMPDELSCORE中。然后,該處理進(jìn)行到步驟S547,在步驟S547中,該系統(tǒng)確定在注釋中刪除音素pr的對(duì)數(shù)概率,并將其添加到TEMPDELSCORE中。接著該處理進(jìn)行到步驟S549,在步驟S549中,該系統(tǒng)確定把音素pr譯碼為第一查詢音素q1j2的對(duì)數(shù)概率,并將其添加到TEMPDELSCORE中。然后,該處理進(jìn)行到步驟S551,在步驟S551中,該系統(tǒng)確定把音素pr譯碼為第二查詢音素q2k2的對(duì)數(shù)概率,并將其添加到TEMPDELSCORE中。接著,該處理進(jìn)行到步驟S553,在步驟S553中,該系統(tǒng)對(duì)TEMPDELSCORE和DELSCORE進(jìn)行對(duì)數(shù)加法,并將結(jié)果存儲(chǔ)到DELSCORE中。然后該處理進(jìn)行到步驟S555,在步驟S555中,將音素指針r加1。接著該處理返回到步驟S543,在步驟S543中,對(duì)該系統(tǒng)已知的下一音素執(zhí)行類似處理。在計(jì)算了該系統(tǒng)已知的43個(gè)音素后,處理結(jié)束。
如通過比較在圖25中執(zhí)行的處理步驟和在圖18中執(zhí)行的處理步驟可以看出,在用于譯碼和刪除的動(dòng)態(tài)規(guī)劃算法內(nèi)計(jì)算的概率項(xiàng),類似于公式(4),但具有用于第二查詢的附加概率項(xiàng)。具體而言,該算法具有以下形式Σr=0NpP(ai|pr,C)P(qj1|pr,C)P(qk2|pr,C)P(pr|C)----(12)]]>這正是我們期望的,因?yàn)閮蓚€(gè)查詢是彼此條件獨(dú)立的。
在將所有動(dòng)態(tài)規(guī)劃路徑傳播到終止節(jié)點(diǎn)φe后,利用第一實(shí)施方式中計(jì)算的相同歸一化項(xiàng)(由公式(5)給出),歸一化該匹配的總得分。這是因?yàn)闅w一化項(xiàng)僅僅依賴于注釋模型的相似性。在匹配兩個(gè)查詢與所有注釋后,對(duì)注釋的歸一化得分進(jìn)行排序,然后基于此排序,該系統(tǒng)向用戶輸出注釋或與輸入查詢最相似的注釋。
在上述第二實(shí)施方式中,比較兩個(gè)輸入查詢與存儲(chǔ)的注釋。正如本領(lǐng)域的技術(shù)人員理解的那樣,可以使該算法適合任意數(shù)目的輸入查詢。正如在兩個(gè)查詢中說明的那樣,添加其他查詢只需在該算法中添加許多循環(huán),以解決附加查詢。然而,在比較三個(gè)以上的輸入查詢與所存儲(chǔ)注釋的實(shí)施方式中,必須采用使用剪枝的動(dòng)態(tài)規(guī)劃例程,以滿足速度或存儲(chǔ)約束。此時(shí),只傳播相遇路徑的最佳得分,而不是累加所有路徑的所有概率,并且終止較差得分的路徑。
替代實(shí)施方式正如本領(lǐng)域的技術(shù)人員理解的那樣,可以將用于匹配一個(gè)音素序列與另一個(gè)音素序列的技術(shù),應(yīng)用于除數(shù)據(jù)檢索之外的其他應(yīng)用。另外,正如本領(lǐng)域的技術(shù)人員理解的那樣,盡管上述系統(tǒng)以音素和字格為單位使用音素,但是也可以使用其他諸如音素之類的單位,如音節(jié)或片假名(日文字母表)。
正如本領(lǐng)域的技術(shù)人員理解的那樣,僅僅利用示例說明動(dòng)態(tài)規(guī)劃匹配和兩個(gè)音素序列的匹配,并且可以做出各種變更。例如,雖然采用通過格點(diǎn)傳播路徑的光柵掃描技術(shù),但是也可以采用通過格點(diǎn)逐步傳播路徑的其他技術(shù)。另外,正如本領(lǐng)域的技術(shù)人員理解的那樣,可以使用除上述約束之外的其他動(dòng)態(tài)規(guī)劃約束來(lái)控制匹配處理。
在上述實(shí)施方式中,注釋通常比查詢長(zhǎng),并且動(dòng)態(tài)規(guī)劃匹配算法使查詢與整個(gè)注釋一致。在備擇實(shí)施方式中,通過在每個(gè)步驟中使查詢從頭到尾越過注釋,并且通過比較該查詢和與該查詢具有大致相同長(zhǎng)度的注釋部分,匹配算法也可以比較查詢與注釋。在此類實(shí)施方式中,在每個(gè)步驟中,通過使用與上述技術(shù)類似的動(dòng)態(tài)規(guī)劃技術(shù),使該查詢與注釋的相應(yīng)部分一致。圖26a表示此種技術(shù),該圖表示將查詢?cè)竭^圖26b表示的注釋時(shí),該查詢與當(dāng)前注釋之間的匹配的動(dòng)態(tài)規(guī)劃得分的變化方式。圖26b所示的圖中的峰值代表與該查詢最匹配的注釋部分。通過比較在比較查詢與各注釋期間獲得的峰值DP得分,確定與該查詢最相似的注釋。
在上述實(shí)施方式中,通過使用音素和字格注釋數(shù)據(jù)給圖片作注釋。正如本領(lǐng)域的技術(shù)人員理解的那樣,可以使用音素和字格數(shù)據(jù)給許多不同種類的數(shù)據(jù)文件作注釋。例如,可以在醫(yī)療應(yīng)用中使用此類注釋數(shù)據(jù),給病人的x射線、諸如NMR掃描之類的3D視頻、超聲掃描等作注釋。也可以對(duì)諸如音頻數(shù)據(jù)或地震數(shù)據(jù)之類的1D數(shù)據(jù)作注釋。
在上述實(shí)施方式中,使用根據(jù)輸入語(yǔ)音信號(hào)生成音素序列的語(yǔ)音識(shí)別系統(tǒng)。正如本領(lǐng)域的技術(shù)人員理解的那樣,也可以與其他類型的語(yǔ)音識(shí)別系統(tǒng)一起使用上述系統(tǒng),此類語(yǔ)音識(shí)別系統(tǒng)生成輸出單詞或字格序列,可以將該序列分解成具有選擇的對(duì)應(yīng)音素串,以便模擬生成音素串的識(shí)別程序。
在上述實(shí)施方式中,通過使用最大似然概率估計(jì),根據(jù)語(yǔ)音識(shí)別系統(tǒng)的混淆統(tǒng)計(jì),計(jì)算插入、刪除和譯碼概率。正如本領(lǐng)域的技術(shù)人員理解的那樣,也可以使用諸如最大熵之類的其他技術(shù)來(lái)估計(jì)上述概率。可以在Kluwer Academic出版的、作者為John Skilling、書名為“最大熵和貝葉斯方法”的著作的第45頁(yè)到52頁(yè)中,找到最大熵技術(shù)的詳細(xì)說明,這里引用其內(nèi)容作為參考。
在上述實(shí)施方式中,數(shù)據(jù)庫(kù)29和自動(dòng)語(yǔ)音識(shí)別部件51均位于用戶終端59內(nèi)。正如本領(lǐng)域的技術(shù)人員理解的那樣,這并不是必須的。圖27表示數(shù)據(jù)庫(kù)29和搜索引擎53位于遠(yuǎn)程服務(wù)器60的實(shí)施方式,其中用戶終端59通過通過網(wǎng)絡(luò)接口部件67和69以及數(shù)據(jù)網(wǎng)絡(luò)68(如因特網(wǎng)),訪問數(shù)據(jù)庫(kù)29。在本實(shí)施方式中,用戶終端59只能接收來(lái)自麥克風(fēng)7的語(yǔ)音查詢。通過自動(dòng)語(yǔ)音識(shí)別部件51,將這些查詢轉(zhuǎn)換為音素和單詞數(shù)據(jù)。然后將這些數(shù)據(jù)傳送到控制部件55,后者控制通過數(shù)據(jù)網(wǎng)絡(luò)68到位于遠(yuǎn)程服務(wù)器60內(nèi)的搜索引擎53的數(shù)據(jù)傳輸。然后搜索引擎53以在上述實(shí)施方式中執(zhí)行搜索的方式,執(zhí)行搜索。通過數(shù)據(jù)網(wǎng)絡(luò)68,將搜索結(jié)果從搜索引擎53傳回到控制部件55。接著控制部件55考慮從網(wǎng)絡(luò)中接收的搜索結(jié)果,并在顯示器57上顯示適當(dāng)數(shù)據(jù)供用戶39查看。
除把數(shù)據(jù)庫(kù)29和搜索引擎53設(shè)置在遠(yuǎn)程服務(wù)器60內(nèi)之外,還可以把自動(dòng)語(yǔ)音識(shí)別部件51設(shè)置在遠(yuǎn)程服務(wù)器60內(nèi)。圖28表示此類實(shí)施方式。如圖所示,在本實(shí)施方式中,通過輸入線路61,將來(lái)自用戶的輸入語(yǔ)音查詢傳送到語(yǔ)音編碼部件73,后者能夠?qū)φZ(yǔ)音進(jìn)行編碼,以便通過數(shù)據(jù)網(wǎng)絡(luò)68進(jìn)行有效傳輸。將經(jīng)過編碼的數(shù)據(jù)傳送到控制部件55,控制部件55通過網(wǎng)絡(luò)68將該數(shù)據(jù)傳送到遠(yuǎn)程服務(wù)器60,然后由自動(dòng)語(yǔ)音識(shí)別部件51進(jìn)行處理。接著,將語(yǔ)音識(shí)別部件51生成的輸入查詢的音素和單詞數(shù)據(jù),傳送到搜索引擎53,以便在搜索數(shù)據(jù)庫(kù)29時(shí)使用。通過網(wǎng)絡(luò)接口69和網(wǎng)絡(luò)68,將搜索引擎53生成的搜索結(jié)果,傳回到用戶終端59。然后通過網(wǎng)絡(luò)接口部件67,將從遠(yuǎn)程服務(wù)器接收的搜索結(jié)果,傳送到控制部件55,后者對(duì)該結(jié)果進(jìn)行分析,生成并在顯示器57上顯示適當(dāng)數(shù)據(jù)供用戶39查看。
類似地,可以提供用戶終端59,該終端僅允許來(lái)自用戶的打字輸入,并且具有搜索引擎,而數(shù)據(jù)庫(kù)位于遠(yuǎn)程服務(wù)器中。在此類實(shí)施方式中,語(yǔ)音轉(zhuǎn)錄部件75也可以位于遠(yuǎn)程服務(wù)器60中。
在上述實(shí)施方式中,動(dòng)態(tài)規(guī)劃算法用于使查詢音素序列與注釋音素序列匹配。正如本領(lǐng)域的技術(shù)人員理解的那樣,可以使用任何匹配技術(shù)。例如,可以使用自然技術(shù),該技術(shù)以相同方式處理所有可能的匹配。然而,優(yōu)先使用動(dòng)態(tài)規(guī)劃,因?yàn)楹苋菀资褂脴?biāo)準(zhǔn)處理硬件實(shí)現(xiàn)該技術(shù)。
以上說明了使用動(dòng)態(tài)規(guī)劃技術(shù)比較兩個(gè)或多個(gè)正則音素序列的方式。然而,正如圖2和圖3所示,最好以格點(diǎn)的方式存儲(chǔ)注釋。正如本領(lǐng)域的技術(shù)人員理解的那樣,為了使上述比較技術(shù)對(duì)格點(diǎn)起作用,必須將格點(diǎn)定義的音素序列“扁平化”為一個(gè)沒有分支的音素序列。實(shí)現(xiàn)上述處理的自然方法是標(biāo)識(shí)以上格點(diǎn)定義的所有不同的可能音素序列,然后比較每個(gè)音素序列與各查詢序列。然而,這并不是最佳方式,因?yàn)楦顸c(diǎn)的公共部分要與每個(gè)查詢序列比較許多次。因此,最好通過根據(jù)格點(diǎn)內(nèi)每個(gè)音素的可用時(shí)戳信息,順序標(biāo)記格點(diǎn)內(nèi)的每個(gè)音素,對(duì)格點(diǎn)進(jìn)行“扁平化”處理。在動(dòng)態(tài)規(guī)劃匹配期間,在每個(gè)DP格點(diǎn)上使用互不相同的動(dòng)態(tài)規(guī)劃約束,以確保路徑根據(jù)格點(diǎn)結(jié)構(gòu)傳播。
下表說明圖2所示的部分音素格點(diǎn)使用的DP約束。具體而言,第一列表示為格點(diǎn)內(nèi)的每個(gè)音素分配的音素好(p1到p9);第二列對(duì)應(yīng)于格點(diǎn)中的實(shí)際音素;最后一列表示在下一個(gè)動(dòng)態(tài)規(guī)劃時(shí)間點(diǎn)時(shí),在該音素結(jié)束的路徑能夠傳播到的音素。盡管該圖未示出,但是第二列包含該音素鏈接到的節(jié)點(diǎn)的詳細(xì)信息,以及對(duì)應(yīng)的音素鏈表。
例如,如果動(dòng)態(tài)規(guī)劃路徑在按時(shí)間排序的音素p4結(jié)束,則該動(dòng)態(tài)規(guī)劃路徑可以停留在音素p4,或者傳播到任一按時(shí)間排序的音素p5到p11。正如從該表中看到的那樣,在某些點(diǎn),路徑能夠擴(kuò)展到音素并不是按時(shí)間排序的音素序列連續(xù)排列的。例如,對(duì)于在按時(shí)間排序的音素p6結(jié)束的動(dòng)態(tài)規(guī)劃路徑而言,該路徑或者停留在該音素,或者傳播到音素p10、p12、p15、p16。通過按上述方式對(duì)格點(diǎn)中的音素進(jìn)行連續(xù)編號(hào),并且通過依靠格點(diǎn)改變所使用動(dòng)態(tài)規(guī)劃約束,能夠?qū)崿F(xiàn)輸入查詢與注釋格點(diǎn)之間的有效動(dòng)態(tài)規(guī)劃匹配。另外,正如本領(lǐng)域的技術(shù)人員理解的那樣,如果輸入查詢也生成一個(gè)格點(diǎn),則以類似方式對(duì)該格點(diǎn)進(jìn)行 “扁平化”處理,并且相應(yīng)調(diào)整動(dòng)態(tài)規(guī)劃約束。
在上述實(shí)施方式中,注釋和查詢使用相同的音素混淆概率。正如本領(lǐng)域的技術(shù)人員理解的那樣,如果使用不同識(shí)別系統(tǒng)生成上述概率,在可以對(duì)注釋和查詢使用不同的音素混淆概率。原因在于混淆概率依賴于生成音素序列所使用的識(shí)別系統(tǒng)。
在上述實(shí)施方式中,如果注釋或查詢是根據(jù)文本生成的,則假定與鍵入字文本相對(duì)應(yīng)的正則音素序列是正確的。實(shí)際情況并非如此,因?yàn)橐陨霞僭O(shè)鍵入的單詞沒有拼寫錯(cuò)誤或輸入錯(cuò)誤。因此,在備擇實(shí)施方式中,也可以對(duì)鍵入查詢和/或注釋使用混淆概率。換句話說,即使注釋或者查詢抑或二者均為文本,也要使用公式(4)和(12)。所使用的混淆概率試圖將拼寫錯(cuò)誤和輸入錯(cuò)誤編成法典。正如本領(lǐng)域的技術(shù)人員理解的那樣,用于輸入錯(cuò)誤的混淆概率依賴于所用的鍵盤的種類。具體而言,錯(cuò)誤輸入單詞的混淆概率依賴于鍵盤的布局。例如,如果輸入字母“d”,則字母“d”鍵周圍的按鍵具有較高的錯(cuò)誤輸入概率,而遠(yuǎn)離“d”鍵的按鍵具有較低的錯(cuò)誤輸入概率。如上所述,可以與單詞的拼寫錯(cuò)誤的混淆概率一起使用上述輸入錯(cuò)誤概率,或者用前者代替后者。通過分析大量用戶輸入的文檔并監(jiān)視通常出現(xiàn)的拼寫錯(cuò)誤的類型,確定拼寫錯(cuò)誤概率。拼寫錯(cuò)誤概率可以考慮輸入錯(cuò)誤引起的轉(zhuǎn)錄錯(cuò)誤。在此類實(shí)施方式中,使用的動(dòng)態(tài)規(guī)劃約束應(yīng)支持打字輸入中的插入和/或刪除。例如,可以使用圖11所示的約束。
另一種選擇是該文本是否是利用每個(gè)按鍵分配了多個(gè)字母的鍵盤(如移動(dòng)電話的鍵盤)輸入的,此時(shí)用戶必須重復(fù)按某個(gè)按鍵以轉(zhuǎn)到分配給該按鍵的字母。在此類實(shí)施方式中,可以調(diào)整混淆概率,以便作為輸入字母而分配給同一按鍵的字母,比與其他按鍵關(guān)聯(lián)的字母的錯(cuò)誤輸入混淆概率要高。正如使用移動(dòng)電話發(fā)送文本信息的人員能夠理解的那樣,由于在輸入所需字母時(shí)的按鍵次數(shù)不正確,所以經(jīng)常出現(xiàn)輸入錯(cuò)誤。
在上述實(shí)施方式中,控制部件使用公式(4)或(12)來(lái)計(jì)算各躍遷的譯碼得分。除根據(jù)上述公式計(jì)算該系統(tǒng)已知的所有可能音素的總和之外,還可以將控制部件調(diào)整為,確定使以上總和內(nèi)之概率項(xiàng)取最大值的未知音素pr,然后使用最大概率作為注釋和查詢之對(duì)應(yīng)音素的譯碼概率。然而,此方式并不是最佳方式,因?yàn)樗枰郊佑?jì)算來(lái)確定使上述總和內(nèi)的概率項(xiàng)取最大值的音素(pr)。
在第一實(shí)施方式中,在動(dòng)態(tài)規(guī)劃算法中,為每個(gè)調(diào)整音素對(duì)計(jì)算公式(4)。在計(jì)算公式(4)時(shí),與系統(tǒng)已知的每個(gè)音素比較注釋音素和查詢音素。正如本領(lǐng)域的技術(shù)人員理解的那樣,對(duì)于給定的注釋音素和查詢音素對(duì),公式(4)中的許多概率等于或近似等于零。因此,在備擇實(shí)施方式中,只比較所有已知音素的子集,該子集是預(yù)先根據(jù)混淆統(tǒng)計(jì)確定的。為了實(shí)現(xiàn)此類實(shí)施方式,可以使用注釋音素和查詢音素構(gòu)建一個(gè)查找表,后者標(biāo)識(shí)使用公式(4)時(shí)需要與注釋和查詢音素進(jìn)行比較的模型音素。
在上述實(shí)施方式中,被調(diào)整并且匹配注釋和查詢特征代表語(yǔ)音單位。正如本領(lǐng)域的技術(shù)人員理解的那樣,也可以在由于生成特征序列的識(shí)別系統(tǒng)之誤差而造成查詢和注釋特征混淆的其他應(yīng)用中,使用上述技術(shù)。例如,可以在光學(xué)字符或手寫識(shí)別系統(tǒng)中使用以上技術(shù),其中在光學(xué)字符或手寫識(shí)別系統(tǒng)中,識(shí)別系統(tǒng)有可能將一個(gè)輸入字符誤認(rèn)為另一個(gè)字符。
以上說明了許多實(shí)施方式和修改。正如本領(lǐng)域的技術(shù)人員理解的那樣,顯然還有許多其他實(shí)施方式和修改。
權(quán)利要求
1.一種特征比較裝置,包括用于接收第一和第二特征序列的裝置;使第一特征序列的特征和第二特征序列的特征相對(duì)準(zhǔn)以形成多個(gè)對(duì)準(zhǔn)的特征對(duì)的裝置;用于比較各對(duì)準(zhǔn)的特征對(duì)的特征以生成一個(gè)比較得分的裝置,該比較得分表示對(duì)準(zhǔn)的特征對(duì)之間的相似性;以及用于結(jié)合所有對(duì)準(zhǔn)的特征對(duì)的比較得分以提供第一和第二特征序列之間的一個(gè)相似性度量的裝置;其特征在于所述比較裝置包括第一比較裝置,用于對(duì)于每個(gè)對(duì)準(zhǔn)的特征對(duì)對(duì)對(duì)準(zhǔn)的特征對(duì)中第一特征序列的特征與預(yù)定特征集合中取得的多個(gè)特征的每個(gè)特征進(jìn)行比較,以提供相對(duì)應(yīng)的多個(gè)中間比較得分,這些中間比較得分表示所述第一特征序列的特征和來(lái)自所述集合的各特征之間的相似性;第二比較裝置,用于對(duì)于每個(gè)對(duì)準(zhǔn)的特征對(duì)對(duì)對(duì)準(zhǔn)的特征對(duì)中第二特征序列的特征與來(lái)自該集合的所述多個(gè)特征的每個(gè)特征進(jìn)行比較,以提供進(jìn)一步的相對(duì)應(yīng)的多個(gè)中間比較得分,這些中間比較得分表示所述第二特征序列的特征和來(lái)自該集合的各特征之間的相似性;以及通過結(jié)合所述多個(gè)中間比較得分而計(jì)算對(duì)準(zhǔn)的特征對(duì)的所述比較得分的裝置。
2.根據(jù)權(quán)利要求1的裝置,其中所述第一和第二比較裝置用于分別比較第一特征序列的特征和第二特征序列的特征與所述預(yù)定特征集合中的每個(gè)特征。
3.根據(jù)權(quán)利要求1或2的裝置,其中所述比較裝置用于生成對(duì)準(zhǔn)的特征對(duì)的比較得分,該得分表示將對(duì)準(zhǔn)的特征對(duì)的第二特征序列的特征混為對(duì)準(zhǔn)的特征對(duì)的第一特征序列的特征的概率。
4.根據(jù)權(quán)利要求3的裝置,其中所述第一和第二比較裝置用于提供中間比較得分,該得分表示把從預(yù)定特征集合中取得的相應(yīng)特征混為對(duì)準(zhǔn)的特征對(duì)中的特征的概率。
5.根據(jù)權(quán)利要求4的裝置,其中所述計(jì)算裝置用于(i)將比較對(duì)準(zhǔn)的特征對(duì)中的第一和第二特征序列的特征與該集合中的同一特征時(shí)獲得的中間得分,進(jìn)行相乘,以提供多個(gè)經(jīng)過相乘的中間比較得分;以及(ii)累加以上生成的經(jīng)過相乘的中間得分,以計(jì)算對(duì)準(zhǔn)的特征對(duì)的所述比較得分。
6.根據(jù)權(quán)利要求5的裝置,其中所述預(yù)定特征集合中的每個(gè)所述特征具有在特征序列內(nèi)出現(xiàn)的預(yù)定概率,并且所述計(jì)算裝置是可操作的,以便利用該集合中特征的出現(xiàn)概率計(jì)算每個(gè)所述經(jīng)過相乘的中間比較得分的權(quán)重,以上集合用于生成經(jīng)過相乘的中間比較得分。
7.根據(jù)權(quán)利要求6的裝置,其中所述計(jì)算裝置能夠計(jì)算Σr=1nP(qj|pr)P(ai|pr)P(pr)]]>其中qj和ai分別是第一和第二特征序列的特征的對(duì)準(zhǔn)的特征對(duì);P(qj|pr)為把集合特征pr混為第一特征序列的特征qj的概率;P(ai|pr)為把集合特征pr混為第二特征序列的特征ai的概率;以及P(pr)表示集合特征pr在特征序列中的出現(xiàn)概率。
8.根據(jù)權(quán)利要求7的裝置,其中第一和第二特征序列的特征的混淆概率是預(yù)先定義的,并且依賴于分別生成第一和第二序列的識(shí)別系統(tǒng)。
9.根據(jù)權(quán)利要求5到8中的任何一個(gè)的裝置,其中所述中間得分表示對(duì)數(shù)概率,所述計(jì)算裝置能夠通過累加相應(yīng)的中間得分執(zhí)行所述乘法,并且能夠通過執(zhí)行對(duì)數(shù)加法計(jì)算,執(zhí)行所述經(jīng)過相乘的得分的所述加法。
10.根據(jù)權(quán)利要求9的裝置,其中所述結(jié)合裝置能夠累加所有對(duì)準(zhǔn)的特征對(duì)的比較得分,以確定所述相似性度量。
11.根據(jù)任意前述權(quán)利要求的裝置,其中所述調(diào)整裝置能夠標(biāo)識(shí)所述第一和第二特征序列中的特征刪除和插入,所述比較裝置能夠依靠所述調(diào)整裝置標(biāo)識(shí)的特征刪除和插入,生成調(diào)整特征對(duì)的所述比較得分,特征刪除和插入出現(xiàn)在對(duì)準(zhǔn)的特征對(duì)中特征的附近。
12.根據(jù)任意前述權(quán)利要求的裝置,其中所述調(diào)整裝置包括動(dòng)態(tài)規(guī)劃裝置,該裝置使用動(dòng)態(tài)規(guī)劃技術(shù)調(diào)整所述第一和第二特征序列。
13.根據(jù)權(quán)利要求12的裝置,其中所述動(dòng)態(tài)規(guī)劃裝置能夠逐漸確定所述第一和第二特征序列之間的多個(gè)可能調(diào)整,所述比較裝置能夠確定所述動(dòng)態(tài)規(guī)劃裝置確定的每個(gè)可能調(diào)整特征對(duì)的比較得分。
14.根據(jù)權(quán)利要求13的裝置,其中所述比較裝置能夠在逐漸確定所述可能調(diào)整期間,生成所述比較得分。
15.根據(jù)權(quán)利要求12、13或14的裝置,其中所述動(dòng)態(tài)規(guī)劃裝置能夠確定所述第一和第二特征序列之間的最佳調(diào)整,所述結(jié)合裝置能夠通過僅僅結(jié)合最佳調(diào)整特征對(duì)的比較得分,提供所述相似性度量。
16.根據(jù)權(quán)利要求13或14的裝置,其中所述結(jié)合裝置能夠通過結(jié)合所有可能的調(diào)整特征對(duì)的所有比較得分,提供所述相似性度量。
17.根據(jù)任意前述權(quán)利要求的裝置,其中所述第一和第二特征序列中的每個(gè)特征均屬于所述預(yù)定特征集合,所述第一和第二比較裝置能夠使用預(yù)定數(shù)據(jù)提供所述中間得分,預(yù)定數(shù)據(jù)使所述集合中的特征相互關(guān)聯(lián)。
18.根據(jù)權(quán)利要求17的裝置,其中所述第一比較裝置使用的預(yù)定數(shù)據(jù)依賴于生成第一特征序列的系統(tǒng),所述第二比較裝置使用的預(yù)定數(shù)據(jù)與所述第一比較裝置使用的預(yù)定數(shù)據(jù)不同,并且依賴于生成第二特征序列的系統(tǒng)。
19.根據(jù)權(quán)利要求17或18的裝置,其中每個(gè)預(yù)定數(shù)據(jù)包括,對(duì)于特征集合中的每個(gè)特征,把該特征混為特征集合的每個(gè)其他特征的概率。
20.根據(jù)權(quán)利要求19的裝置,其中每個(gè)預(yù)定數(shù)據(jù)還包括,對(duì)于特征集合中的每個(gè)特征,在特征序列中插入特征的概率。
21.根據(jù)權(quán)利要求19或20的裝置,其中每個(gè)預(yù)定數(shù)據(jù)還包括,對(duì)于特征集合中的每個(gè)特征,從特征序列中刪除特征的概率。
22.根據(jù)任意前述權(quán)利要求的裝置,其中所述第一和第二特征序列表示時(shí)間連續(xù)信號(hào)。
23.根據(jù)任意前述權(quán)利要求的裝置,其中所述第一和第二特征序列表示音頻信號(hào)。
24.根據(jù)權(quán)利要求23的裝置,其中所述第一和第二特征序列表示文本和/或語(yǔ)音。
25.根據(jù)權(quán)利要求24的裝置,其中每個(gè)所述特征表示文本或語(yǔ)音的一個(gè)亞單詞部分。
26.根據(jù)權(quán)利要求25的裝置,其中每個(gè)所述特征表示一個(gè)音素。
27.根據(jù)任意前述權(quán)利要求的裝置,其中所述第一特征序列包括,根據(jù)打字輸入生成的多個(gè)亞單詞部分,所述第一比較裝置能夠使用輸入錯(cuò)誤概率和/或拼寫錯(cuò)誤概率來(lái)提供所述中間比較得分。
28.根據(jù)任意前述權(quán)利要求的裝置,其中所述第二特征序列包括,根據(jù)口頭輸入生成的多個(gè)亞單詞部分序列,所述第二比較裝置能夠使用錯(cuò)誤識(shí)別概率來(lái)提供所述中間得分。
29.根據(jù)任意前述權(quán)利要求的裝置,其中所述接收裝置能夠接收三個(gè)或多個(gè)特征序列;其中所述調(diào)整裝置能夠調(diào)整接收的每個(gè)特征序列的特征,以形成多個(gè)調(diào)整特征組;所述比較裝置能夠比較各調(diào)整特征組內(nèi)的特征,以生成一個(gè)比較得分,該得分表示所述調(diào)整特征組之間的相似性;以及所述結(jié)合裝置能夠結(jié)合所有調(diào)整特征組的比較得分,以提供三個(gè)或多個(gè)特征序列之間的相似性度量。
30.根據(jù)權(quán)利要求29的裝置,其中所述調(diào)整裝置能夠同時(shí)相互調(diào)整特征序列。
31.根據(jù)任意前述權(quán)利要求的裝置,其中所述接收裝置能夠接收多個(gè)第二特征序列;所述調(diào)整裝置能夠調(diào)整所述第一特征序列與每個(gè)所述第二特征序列,以形成每個(gè)調(diào)整的多個(gè)調(diào)整特征對(duì);所述結(jié)合裝置能夠結(jié)合各調(diào)整的比較得分,以提供第一特征序列和所述多個(gè)第二特征序列之間的各相似性度量。
32.根據(jù)權(quán)利要求31的裝置還包括,用于比較所述結(jié)合裝置輸出的所述多個(gè)相似性度量的裝置,以及用于輸出表示與所述第一特征序列最相似的第二特征序列的信號(hào)的裝置。
33.根據(jù)權(quán)利要求31或32的裝置,其中所述結(jié)合裝置包括對(duì)每個(gè)所述相似性度量進(jìn)行歸一化的歸一化裝置。
34.根據(jù)權(quán)利要求33的裝置,其中所述歸一化裝置能夠通過利用各自的歸一化得分劃分各相似性度量,歸一化各相似性度量,各自的歸一化得分依據(jù)相應(yīng)的第二特征序列的長(zhǎng)度而變化。
35.根據(jù)權(quán)利要求34的裝置,其中各自的歸一化得分依據(jù)相應(yīng)的第二特征序列中的特征序列而變化。
36.根據(jù)權(quán)利要求34或35的裝置,其中所述各自的歸一化得分隨所述第二比較裝置計(jì)算的相應(yīng)中間得分而變化。
37.根據(jù)權(quán)利要求33到36中的任何一個(gè)的裝置,其中所述調(diào)整裝置包括動(dòng)態(tài)規(guī)劃裝置,該裝置利用動(dòng)態(tài)規(guī)劃技術(shù)調(diào)整所述第一和第二特征序列,在逐漸計(jì)算所述可能調(diào)整時(shí),所述歸一化裝置能夠利用所述動(dòng)態(tài)規(guī)劃裝置計(jì)算各歸一化得分。
38.根據(jù)權(quán)利要求37的裝置,其中所述歸一化裝置能夠計(jì)算每個(gè)Σr=1nP(ai|pr)P(pr)]]>可能調(diào)整特征對(duì)的以下值其中P(ai|pr)表示將特征pr混為第二特征序列ai的概率,P(pr)表示集合特征pr在特征序列中的出現(xiàn)概率。
39.根據(jù)權(quán)利要求37的裝置,其中所述歸一化裝置能夠通過乘以為相應(yīng)的調(diào)整特征對(duì)計(jì)算的歸一化項(xiàng),計(jì)算所述相應(yīng)的歸一化得分。
40.一種用于搜索一個(gè)數(shù)據(jù)庫(kù)以標(biāo)識(shí)需要從中檢索的信息的裝置,其中該數(shù)據(jù)庫(kù)包括多個(gè)信息條目,所述多個(gè)信息條目中的每個(gè)條目都具有一個(gè)關(guān)聯(lián)注釋,該關(guān)聯(lián)注釋包括一個(gè)注釋特征序列,該裝置包括用于接收輸入語(yǔ)音查詢的多個(gè)解釋的裝置;用于將該輸入查詢的每種解釋轉(zhuǎn)換為表示該解釋的一個(gè)查詢特征序列的裝置;用于把每種解釋的查詢序列與每個(gè)注釋的注釋特征相比較以提供一組比較結(jié)果的裝置;用于結(jié)合通過把每個(gè)解釋的查詢特征與同一注釋的注釋特征相比較而獲得的比較結(jié)果從而為每個(gè)注釋提供對(duì)該輸入查詢和該注釋之間的相似性的一種度量的裝置;以及用于利用結(jié)合裝置提供的所有注釋的相似性度量來(lái)標(biāo)識(shí)需要從所述數(shù)據(jù)庫(kù)中檢索的所述信息的裝置。
41.根據(jù)權(quán)利要求40的裝置,其中所述比較裝置能夠同時(shí)比較每個(gè)解釋的查詢特征與當(dāng)前注釋的注釋特征。
42.根據(jù)權(quán)利要求40或41的裝置,其中所述比較裝置包括使每個(gè)解釋的查詢特征與當(dāng)前注釋的注釋特征一致以形成多個(gè)調(diào)整特征組的裝置,每個(gè)調(diào)整特征組包括來(lái)自每個(gè)注釋的一個(gè)查詢特征和一個(gè)注釋特征;一個(gè)特征比較器,比較每個(gè)調(diào)整特征組的特征,以便生成表示調(diào)整組的特征之間的相似性的比較得分;以及其中所述結(jié)合裝置能夠結(jié)合當(dāng)前注釋的所有調(diào)整特征組的比較得分,以提供輸入查詢和當(dāng)前注釋之間的所述相似性度量。
43.根據(jù)權(quán)利要求42的裝置,其中所述特征比較器包括調(diào)整組中每個(gè)特征的相應(yīng)特征比較裝置,用于比較組特征與從預(yù)定特征集合中取得的多個(gè)特征的每個(gè)特征,以提供相應(yīng)的多個(gè)中間比較得分,該得分表示所述組特征與該集合中相應(yīng)特征之間的相似性;以及通過結(jié)合相應(yīng)特征比較裝置生成的多個(gè)中間比較得分,計(jì)算調(diào)整組的所述比較得分的裝置。
44.根據(jù)權(quán)利要求40到43中的任何一個(gè)的裝置,其中所述注釋的某些注釋或所有注釋的語(yǔ)音注釋特征序列,是根據(jù)音頻注釋信號(hào)生成的。
45.根據(jù)權(quán)利要求40到44中的任何一個(gè)的裝置,其中所述注釋的某些注釋或所有注釋的語(yǔ)音注釋特征序列,是根據(jù)文本注釋生成的。
46.根據(jù)權(quán)利要求40到45中的任何一個(gè)的裝置,其中所述轉(zhuǎn)換裝置包括一個(gè)語(yǔ)音識(shí)別系統(tǒng)。
47.根據(jù)權(quán)利要求40到46中的任何一個(gè)的裝置,其中所述信息條目的一個(gè)或多個(gè)條目是關(guān)聯(lián)注釋。
48.一種用于搜索一個(gè)數(shù)據(jù)庫(kù)以標(biāo)識(shí)需要從中檢索的信息的裝置,其中該數(shù)據(jù)庫(kù)包括多個(gè)信息條目,所述多個(gè)信息條目中的每個(gè)條目具有一個(gè)關(guān)聯(lián)注釋,該關(guān)聯(lián)注釋包括一個(gè)特征序列,該裝置包括用于接收包含特征序列的輸入查詢的裝置;根據(jù)權(quán)利要求1到39中的任何一個(gè)的裝置,用于比較查詢特征序列與每個(gè)注釋的特征,以提供一組比較結(jié)果;以及使用所述比較結(jié)果標(biāo)識(shí)要從所述數(shù)據(jù)庫(kù)中檢索的所述信息的裝置。
49.一種用于搜索一個(gè)數(shù)據(jù)庫(kù)以標(biāo)識(shí)需要從中檢索的信息的裝置,其中該數(shù)據(jù)庫(kù)包括多個(gè)信息條目,所述多個(gè)信息條目中的每個(gè)條目具有一個(gè)關(guān)聯(lián)注釋,該關(guān)聯(lián)注釋包括一個(gè)語(yǔ)音特征序列,該裝置包括用于接收包含語(yǔ)音特征序列的輸入查詢的裝置;用于比較所述語(yǔ)音特征查詢序列與每個(gè)注釋的語(yǔ)音特征以提供一組比較結(jié)果的裝置;以及用于利用所述比較結(jié)果來(lái)標(biāo)識(shí)從所述數(shù)據(jù)庫(kù)中檢索的所述信息的裝置;其特征在于,所述比較裝置具有多個(gè)不同的比較操作模式,并且該裝置還包括用于確定(i)語(yǔ)音特征的查詢序列是否是從音頻信號(hào)或文本生成的以及(ii)當(dāng)前注釋的語(yǔ)音特征序列是否是從音頻信號(hào)或文本生成的并用于輸出一個(gè)確定結(jié)果的裝置;以及用于依據(jù)所述確定結(jié)果為當(dāng)前的注釋選擇所述比較裝置的操作模式的裝置。
50.根據(jù)權(quán)利要求49的裝置,其中如果所述確定裝置確定所述輸入查詢和所述當(dāng)前注釋都是從語(yǔ)音生成的,則所述選擇裝置能夠選擇所述操作模式,從而所述比較裝置作為根據(jù)權(quán)利要求1到39的裝置。
51.根據(jù)權(quán)利要求48到50中的任何一個(gè)的裝置,其中所述信息條目的一個(gè)或多個(gè)條目是關(guān)聯(lián)注釋。
52.一種特征比較裝置,包括用于接收第一和第二查詢特征序列的裝置,每個(gè)序列表示輸入查詢的一種解釋;用于接收注釋特征序列的裝置;用于使每個(gè)解釋的查詢特征與注釋的注釋特征一致以形成多個(gè)調(diào)整特征組的裝置,每個(gè)調(diào)整組包括來(lái)自每個(gè)解釋的一個(gè)查詢特征和一個(gè)注釋特征;用于比較各調(diào)整特征組的特征以生成比較得分的裝置,比較得分表示調(diào)整組的特征之間的相似性;以及結(jié)合所有調(diào)整特征組的比較得分以提供輸入查詢的解釋和注釋之間的相似性度量的裝置;其特征在于所述比較裝置包括第一特征比較器,對(duì)于每個(gè)調(diào)整組,比較調(diào)整組中第一查詢序列特征與預(yù)定特征集合中取得的多個(gè)特征的每個(gè)特征,以提供相對(duì)應(yīng)的多個(gè)中間比較得分,比較得分表示所述第一查詢序列特征和來(lái)自該集合的各特征之間的相似性;第二特征比較器,對(duì)于每個(gè)調(diào)整組,比較調(diào)整組中第二查詢序列特征與來(lái)自該集合的所述多個(gè)特征的每個(gè)特征,以提供更多相對(duì)應(yīng)的多個(gè)中間比較得分,比較得分表示所述第二查詢序列特征和來(lái)自該集合的各特征之間的相似性;第三特征比較器,對(duì)于每個(gè)調(diào)整組,比較調(diào)整組中的注釋特征與來(lái)自該集合的所述多個(gè)特征的每個(gè)特征,以提供更多相對(duì)應(yīng)的多個(gè)中間比較得分,比較得分表示所述注釋特征和來(lái)自該集合的各特征之間的相似性;以及通過結(jié)合所述多個(gè)中間比較得分計(jì)算調(diào)整組的所述比較得分的裝置。
53.一種搜索數(shù)據(jù)庫(kù)以標(biāo)識(shí)需要從中檢索的信息的裝置,其中數(shù)據(jù)庫(kù)包括多個(gè)信息條目,所述多個(gè)信息條目中的每個(gè)條目具有一個(gè)關(guān)聯(lián)注釋,注釋包括一個(gè)語(yǔ)音注釋特征序列,該裝置包括用于接收口頭輸入語(yǔ)音查詢的多個(gè)解釋的裝置;用于將輸入查詢的每種解釋轉(zhuǎn)換為語(yǔ)音查詢特征序列的裝置,語(yǔ)音查詢特征序列表示解釋內(nèi)的語(yǔ)音;用于比較每種解釋的語(yǔ)音查詢特征與每個(gè)注釋的語(yǔ)音注釋特征,以提供輸入查詢與每個(gè)注釋之間的相似性度量的裝置;使用所有注釋的結(jié)合裝置提供的相似性度量,標(biāo)識(shí)要從所述數(shù)據(jù)庫(kù)中檢索的所述信息的裝置;其特征在于,所述比較裝置具有多個(gè)不同的比較操作模式,并且該裝置還包括用于確定當(dāng)前注釋的語(yǔ)音特征序列是根據(jù)音頻信號(hào)生成的還是根據(jù)文本生成的,并用于輸出確定結(jié)果的裝置;以及根據(jù)所述確定結(jié)果,為當(dāng)前注釋選擇所述比較裝置的操作模式的裝置。
54.一種特征比較方法,包括以下步驟接收第一和第二特征序列;使第一特征序列的特征和第二特征序列的特征一致以形成多個(gè)對(duì)準(zhǔn)的特征對(duì)的步驟;比較各對(duì)準(zhǔn)的特征對(duì)的特征以生成比較得分的步驟,比較得分表示對(duì)準(zhǔn)的特征對(duì)之間的相似性;以及結(jié)合所有調(diào)整特征對(duì)的比較得分以提供第一和第二特征序列之間的相似性度量的步驟;其特征在于所述比較步驟包括第一比較步驟,對(duì)于每個(gè)對(duì)準(zhǔn)的特征對(duì),比較對(duì)準(zhǔn)的特征對(duì)中第一特征序列的特征與預(yù)定特征集合中取得的多個(gè)特征的每個(gè)特征,以提供相對(duì)應(yīng)的多個(gè)中間比較得分,比較得分表示所述第一特征序列的特征和來(lái)自所述集合的各特征之間的相似性;第二比較步驟,對(duì)于每個(gè)對(duì)準(zhǔn)的特征對(duì),比較對(duì)準(zhǔn)的特征對(duì)中第二特征序列的特征與來(lái)自該集合的所述多個(gè)特征的每個(gè)特征,以提供更多相對(duì)應(yīng)的多個(gè)中間比較得分,比較得分表示所述第二特征序列的特征和來(lái)自該集合的各特征之間的相似性;以及通過結(jié)合所述多個(gè)中間比較得分,計(jì)算對(duì)準(zhǔn)的特征對(duì)的所述比較得分的步驟。
55.根據(jù)權(quán)利要求54的方法,其中所述第一和第二比較步驟能夠分別比較第一特征序列的特征和第二特征序列的特征與所述預(yù)定特征集合中的每個(gè)特征。
56.根據(jù)權(quán)利要求54或55的方法,其中所述比較步驟能夠生成對(duì)準(zhǔn)的特征對(duì)的比較得分,該得分表示將對(duì)準(zhǔn)的特征對(duì)的第二特征序列的特征混為對(duì)準(zhǔn)的特征對(duì)的第一特征序列的特征的概率。
57.根據(jù)權(quán)利要求56的方法,其中所述第一和第二比較步驟能夠提供中間比較得分,該得分表示把從預(yù)定特征集合中取得的相應(yīng)特征混為對(duì)準(zhǔn)的特征對(duì)中的特征的概率。
58.根據(jù)權(quán)利要求57的方法,其中所述計(jì)算步驟能夠,(i)將比較對(duì)準(zhǔn)的特征對(duì)中的第一和第二特征序列的特征與該集合中的同一特征時(shí)獲得的中間得分,進(jìn)行相乘,以提供多個(gè)經(jīng)過相乘的中間比較得分;以及(ii)累加以上生成的經(jīng)過相乘的中間得分,以計(jì)算對(duì)準(zhǔn)的特征對(duì)的所述比較得分。
59.根據(jù)權(quán)利要求58的方法,其中所述預(yù)定特征集合中的每個(gè)所述特征具有在特征序列內(nèi)出現(xiàn)的預(yù)定概率,并且所述計(jì)算步驟能夠利用該集合中特征的出現(xiàn)概率計(jì)算每個(gè)所述經(jīng)過相乘的中間比較得分的權(quán)重,以上集合用于生成經(jīng)過相乘的中間比較得分。
60.根據(jù)權(quán)利要求59的方法,其中所述計(jì)算步驟能夠計(jì)算Σr=1nP(qj|pr)P(ai|pr)P(pr)]]>其中qi和ai分別是第一和第二特征序列的特征的對(duì)準(zhǔn)的特征對(duì);P(qj|pr)為把集合特征pr混為第一特征序列的特征qj的概率;P(ai|pr)為把集合特征pr混為第二特征序列的特征ai的概率;以及P(pr)表示集合特征pr在特征序列中的出現(xiàn)概率。
61.根據(jù)權(quán)利要求60的方法,其中第一和第二特征序列的特征的混淆概率是預(yù)先定義的,并且依賴于分別生成第一和第二序列的識(shí)別系統(tǒng)。
62.根據(jù)權(quán)利要求58到61中的任何一個(gè)的方法,其中所述中間得分表示對(duì)數(shù)概率,所述計(jì)算步驟能夠通過累加相應(yīng)的中間得分執(zhí)行所述乘法,并且能夠通過執(zhí)行對(duì)數(shù)加法計(jì)算,執(zhí)行所述經(jīng)過相乘的得分的所述加法。
63.根據(jù)權(quán)利要求62的方法,其中所述結(jié)合步驟能夠累加所有對(duì)準(zhǔn)的特征對(duì)的比較得分,以確定所述相似性度量。
64.根據(jù)權(quán)利要求54到63中的任何一個(gè)的方法,其中所述調(diào)整步驟能夠標(biāo)識(shí)所述第一和第二特征序列中的特征刪除和插入,所述比較步驟能夠依靠所述調(diào)整步驟標(biāo)識(shí)的特征刪除和插入,生成調(diào)整特征對(duì)的所述比較得分,特征刪除和插入出現(xiàn)在對(duì)準(zhǔn)的特征對(duì)中特征的附近。
65.根據(jù)權(quán)利要求54到64中的任何一個(gè)的方法,其中所述調(diào)整步驟使用動(dòng)態(tài)規(guī)劃技術(shù)調(diào)整所述第一和第二特征序列。
66.根據(jù)權(quán)利要求65的方法,其中所述動(dòng)態(tài)規(guī)劃步驟逐漸確定所述第一和第二特征序列之間的多個(gè)可能調(diào)整,所述比較步驟確定所述調(diào)整步驟確定的每個(gè)可能調(diào)整特征對(duì)的比較得分。
67.根據(jù)權(quán)利要求66的方法,其中所述比較步驟在逐漸確定所述可能調(diào)整期間,生成所述比較得分。
68.根據(jù)權(quán)利要求65、66或67的方法,其中所述調(diào)整步驟確定所述第一和第二特征序列之間的最佳調(diào)整,所述結(jié)合步驟通過僅僅結(jié)合最佳調(diào)整特征對(duì)的比較得分,提供所述相似性度量。
69.根據(jù)權(quán)利要求67或68的方法,其中所述結(jié)合步驟通過結(jié)合所有可能的調(diào)整特征對(duì)的所有比較得分,提供所述相似性度量。
70.根據(jù)權(quán)利要求54到69中的任何一個(gè)的方法,其中所述第一和第二特征序列中的每個(gè)特征均屬于所述預(yù)定特征集合,所述第一和第二比較步驟使用預(yù)定數(shù)據(jù)提供所述中間得分,預(yù)定數(shù)據(jù)使所述集合中的特征相互關(guān)聯(lián)。
71.根據(jù)權(quán)利要求70的方法,其中所述第一比較步驟中使用的預(yù)定數(shù)據(jù)依賴于生成第一特征序列的系統(tǒng),所述第二比較步驟中使用的預(yù)定數(shù)據(jù)與所述第一比較步驟中使用的預(yù)定數(shù)據(jù)不同,并且依賴于生成第二特征序列的系統(tǒng)。
72.根據(jù)權(quán)利要求70或71的方法,其中每個(gè)預(yù)定數(shù)據(jù)包括,對(duì)于特征集合中的每個(gè)特征,把該特征混為特征集合的每個(gè)其他特征的概率。
73.根據(jù)權(quán)利要求72的方法,其中每個(gè)預(yù)定數(shù)據(jù)還包括,對(duì)于特征集合中的每個(gè)特征,在特征序列中插入特征的概率。
74.根據(jù)權(quán)利要求72或73的方法,其中每個(gè)預(yù)定數(shù)據(jù)還包括,對(duì)于特征集合中的每個(gè)特征,從特征序列中刪除特征的概率。
75.根據(jù)權(quán)利要求54到74中的任何一個(gè)的方法,其中所述第一和第二特征序列表示時(shí)間連續(xù)信號(hào)。
76.根據(jù)權(quán)利要求54到75中的任何一個(gè)的方法,其中所述第一和第二特征序列表示音頻信號(hào)。
77.根據(jù)權(quán)利要求76的方法,其中所述第一和第二特征序列表示語(yǔ)音。
78.根據(jù)權(quán)利要求77的方法,其中每個(gè)所述特征表示語(yǔ)音的一個(gè)亞單詞部分。
79.根據(jù)權(quán)利要求78的方法,其中每個(gè)所述特征表示一個(gè)音素。
80.根據(jù)權(quán)利要求54到79中的任何一個(gè)的方法,其中所述第一特征序列包括多個(gè)亞單詞部分,所述第一比較步驟使用輸入錯(cuò)誤概率和/或拼寫錯(cuò)誤概率來(lái)提供所述中間比較得分。
81.根據(jù)權(quán)利要求54到80中的任何一個(gè)的方法,其中所述第二特征序列包括,根據(jù)口頭輸入生成的多個(gè)亞單詞部分序列,所述第二比較步驟使用錯(cuò)誤識(shí)別概率來(lái)提供所述中間得分。
82.根據(jù)權(quán)利要求54到81中的任何一個(gè)的方法,其中所述接收步驟接收三個(gè)或多個(gè)特征序列;其中所述調(diào)整步驟調(diào)整接收的每個(gè)特征序列的特征,以形成多個(gè)調(diào)整特征組;所述比較步驟比較各調(diào)整特征組內(nèi)的特征,以生成一個(gè)比較得分,該得分表示所述調(diào)整特征組之間的相似性;以及所述結(jié)合步驟結(jié)合所有調(diào)整特征組的比較得分,以提供三個(gè)或多個(gè)特征序列之間的相似性度量。
83.根據(jù)權(quán)利要求82的方法,其中所述調(diào)整步驟同時(shí)相互調(diào)整特征序列。
84.根據(jù)權(quán)利要求54到83中的任何一個(gè)的方法,其中所述接收步驟接收多個(gè)第二特征序列;所述調(diào)整步驟調(diào)整所述第一特征序列與每個(gè)所述第二特征序列,以形成每個(gè)調(diào)整的多個(gè)調(diào)整特征對(duì);所述結(jié)合步驟結(jié)合各調(diào)整的比較得分,以提供第一特征序列和所述多個(gè)第二特征序列之間的各相似性度量。
85.根據(jù)權(quán)利要求84的方法還包括以下步驟,用于比較所述結(jié)合步驟輸出的所述多個(gè)相似性度量的步驟,以及用于輸出表示與所述第一特征序列最相似的第二特征序列的信號(hào)的步驟。
86.根據(jù)權(quán)利要求84或85的方法,其中所述結(jié)合步驟包括對(duì)每個(gè)所述相似性度量進(jìn)行歸一化的歸一化步驟。
87.根據(jù)權(quán)利要求86的方法,其中所述歸一化步驟通過利用各自的歸一化得分劃分各相似性度量,歸一化各相似性度量,各自的歸一化得分依據(jù)相應(yīng)的第二特征序列的長(zhǎng)度而變化。
88.根據(jù)權(quán)利要求87的方法,其中各自的歸一化得分依據(jù)相應(yīng)的第二特征序列中的特征序列而變化。
89.根據(jù)權(quán)利要求87或88的方法,其中所述各自的歸一化得分隨所述第二比較步驟計(jì)算的相應(yīng)中間得分而變化。
90.根據(jù)權(quán)利要求86到89中的任何一個(gè)的方法,其中所述調(diào)整步驟逐漸確定所述第一和第二特征序列之間的多個(gè)可能調(diào)整,所述比較步驟確定所述調(diào)整步驟確定的每個(gè)可能調(diào)整特征對(duì)的比較得分,在逐漸計(jì)算所述可能調(diào)整時(shí),所述歸一化步驟利用所述調(diào)整步驟計(jì)算各歸一化得分。
91.根據(jù)權(quán)利要求90的方法,其中所述歸一化步驟對(duì)每個(gè)可能調(diào)整特征計(jì)算以下值Σr=1nP(ai|pr)P(pr)]]>其中P(ai|pr)表示將特征pr混為第二特征序列ai的概率,P(pr)表示集合特征pr在特征序列中的出現(xiàn)概率。
92.根據(jù)權(quán)利要求91的裝置,其中所述歸一化步驟通過乘以為相應(yīng)的調(diào)整特征對(duì)計(jì)算的歸一化項(xiàng),計(jì)算所述相應(yīng)的歸一化得分。
93.一種用于搜索數(shù)據(jù)庫(kù)以標(biāo)識(shí)需要從中檢索的信息的方法,其中數(shù)據(jù)庫(kù)包括多個(gè)信息條目,所述多個(gè)信息條目中的每個(gè)條目具有一個(gè)關(guān)聯(lián)注釋,該關(guān)聯(lián)注釋包括一個(gè)注釋特征序列,該方法包括以下步驟接收輸入語(yǔ)音查詢的多個(gè)解釋;將輸入查詢的每種解釋轉(zhuǎn)換為表示解釋的查詢特征序列;比較每種解釋的查詢序列與每個(gè)注釋的注釋特征以提供一組比較結(jié)果;結(jié)合通過比較每個(gè)解釋的查詢特征與同一注釋的注釋特征而獲得的比較結(jié)果,以便為每個(gè)注釋提供輸入查詢和注釋之間的相似性度量;以及使用所有注釋的結(jié)合裝置提供的相似性度量,標(biāo)識(shí)需要從所述數(shù)據(jù)庫(kù)中檢索的所述信息。
94.根據(jù)權(quán)利要求93的方法,其中所述比較方法同時(shí)比較每個(gè)解釋的查詢特征與當(dāng)前注釋的注釋特征。
95.根據(jù)權(quán)利要求93或94的方法,其中所述比較步驟包括以下步驟使每個(gè)解釋的查詢特征與當(dāng)前注釋的注釋特征一致以形成多個(gè)調(diào)整特征組,每個(gè)調(diào)整特征組包括來(lái)自每個(gè)注釋的一個(gè)查詢特征和一個(gè)注釋特征;使用特征比較器比較每個(gè)調(diào)整特征組的特征,以便生成表示調(diào)整組的特征之間的相似性的比較得分;以及其中所述結(jié)合步驟結(jié)合當(dāng)前注釋的所有調(diào)整特征組的比較得分,以提供輸入查詢和當(dāng)前注釋之間的所述相似性度量。
96.根據(jù)權(quán)利要求93到95中的任何一個(gè)的方法,其中每個(gè)所述查詢特征序列和所述注釋特征序列表示音頻信號(hào)。
97.根據(jù)權(quán)利要求96的方法,其中每個(gè)所述查詢特征序列和所述注釋特征序列表示語(yǔ)音。
98.根據(jù)權(quán)利要求97的方法,其中每個(gè)特征表示語(yǔ)音的一個(gè)亞單詞部分。
99.根據(jù)權(quán)利要求98的方法,其中每個(gè)所述特征表示一個(gè)音素。
100.根據(jù)權(quán)利要求93到99中的任何一個(gè)的方法,其中所述注釋的某些注釋或所有注釋的語(yǔ)音注釋特征序列,是根據(jù)音頻注釋信號(hào)或文本注釋生成的。
101.一種特征比較方法,包括以下步驟接收第一和第二特征序列;使第一特征序列的特征和第二特征序列的特征一致;比較各對(duì)準(zhǔn)的特征對(duì)的特征以生成調(diào)整特征對(duì)的比較得分;以及結(jié)合所有調(diào)整特征對(duì)的比較得分以提供第一和第二特征序列之間的相似性度量的步驟;其特征在于所述比較步驟包括第一比較步驟,比較對(duì)準(zhǔn)的特征對(duì)中第一特征序列的特征與多個(gè)可能特征,以提供相對(duì)應(yīng)的多個(gè)中間比較得分;第二比較步驟,比較對(duì)準(zhǔn)的特征對(duì)中第二特征序列的特征與所述多個(gè)特征的每個(gè)特征,以提供更多相對(duì)應(yīng)的多個(gè)中間比較得分;以及通過結(jié)合所述多個(gè)中間比較得分,提供對(duì)準(zhǔn)的特征對(duì)的所述比較得分的步驟。
102.一種用于搜索數(shù)據(jù)庫(kù)以標(biāo)識(shí)需要從中檢索的信息的方法,其中數(shù)據(jù)庫(kù)包括多個(gè)信息條目,所述多個(gè)信息條目中的每個(gè)條目具有一個(gè)關(guān)聯(lián)注釋,該關(guān)聯(lián)注釋包括一個(gè)特征序列,該方法包括以下步驟接收包含特征序列的輸入查詢;使用根據(jù)權(quán)利要求54到101中的任何一個(gè)所述的方法,比較查詢特征序列與每個(gè)注釋的特征,以提供一組比較結(jié)果;以及根據(jù)所述比較結(jié)果標(biāo)識(shí)要從所述數(shù)據(jù)庫(kù)中檢索的所述信息。
103.一種用于搜索數(shù)據(jù)庫(kù)以標(biāo)識(shí)需要從中檢索的信息的方法,其中數(shù)據(jù)庫(kù)包括多個(gè)信息條目,所述多個(gè)信息條目中的每個(gè)條目具有一個(gè)關(guān)聯(lián)注釋,該關(guān)聯(lián)注釋包括一個(gè)語(yǔ)音特征序列,該方法包括以下步驟接收包含語(yǔ)音特征序列的輸入查詢;比較所述語(yǔ)音特征查詢序列與每個(gè)注釋的語(yǔ)音特征,以提供一組比較結(jié)果;以及使用所述比較結(jié)果標(biāo)識(shí)從所述數(shù)據(jù)庫(kù)中檢索的所述信息;其特征在于,所述比較步驟能夠使用多個(gè)不同的比較技術(shù)來(lái)執(zhí)行所述比較,并且該方法還包括以下步驟確定(i)語(yǔ)音特征的查詢序列是從音頻信號(hào)還是從文本生成的;確定(ii)當(dāng)前注釋的語(yǔ)音特征序列是從音頻信號(hào)還是從文本生成的,并輸出確定結(jié)果;以及對(duì)于當(dāng)前注釋,依據(jù)所述確定結(jié)果選擇在所述比較步驟中執(zhí)行所述比較使用的技術(shù)。
104.根據(jù)權(quán)利要求103的裝置,其中如果所述確定步驟確定所述輸入查詢和所述當(dāng)前注釋的根據(jù)語(yǔ)音生成的,則所述比較步驟執(zhí)行權(quán)利要求54到101中的任何一個(gè)所述的方法。
105.一種用于搜索數(shù)據(jù)庫(kù)以標(biāo)識(shí)需要從中檢索的信息的方法,其中數(shù)據(jù)庫(kù)包括多個(gè)信息條目,所述多個(gè)信息條目中的每個(gè)條目具有一個(gè)關(guān)聯(lián)注釋,該關(guān)聯(lián)注釋包括一個(gè)注釋特征序列,該方法包括以下步驟接收輸入查詢的多個(gè)解釋;將輸入查詢的每種解釋轉(zhuǎn)換為表示解釋的查詢特征序列;比較每種解釋的查詢序列與每個(gè)注釋的注釋特征以提供一組比較結(jié)果;結(jié)合通過比較每個(gè)解釋的查詢特征與同一注釋的注釋特征而獲得的比較結(jié)果,以便為每個(gè)注釋提供輸入查詢和注釋之間的相似性度量;以及使用所有注釋的結(jié)合步驟提供的相似性度量,標(biāo)識(shí)需要從所述數(shù)據(jù)庫(kù)中檢索的所述信息。
106.根據(jù)權(quán)利要求105的方法,其中所述比較步驟同時(shí)比較每個(gè)解釋的查詢特征與當(dāng)前注釋的注釋特征。
107.根據(jù)權(quán)利要求105或106的方法,其中所述比較步驟包括以下步驟使每個(gè)解釋的查詢特征與當(dāng)前注釋的注釋特征一致以形成多個(gè)調(diào)整特征組,每個(gè)調(diào)整特征組包括來(lái)自每個(gè)注釋的一個(gè)查詢特征和一個(gè)注釋特征;使用特征比較器比較每個(gè)調(diào)整特征組的特征,以便生成表示調(diào)整組的特征之間的相似性的比較得分;以及其中所述結(jié)合步驟結(jié)合當(dāng)前注釋的所有調(diào)整特征組的比較得分,以提供輸入查詢和當(dāng)前注釋之間的所述相似性度量。
108.根據(jù)權(quán)利要求107的方法,其中所述特征比較器比較調(diào)整組中每個(gè)特征與從預(yù)定特征集合中取得的多個(gè)特征的每個(gè)特征,以提供相應(yīng)的多個(gè)中間比較得分,該得分表示所述結(jié)合特征與該集合中相應(yīng)特征之間的相似性,以及通過結(jié)合所生成的多個(gè)中間比較得分,計(jì)算調(diào)整組的所述比較得分。
109.根據(jù)權(quán)利要求105到108中的任何一個(gè)的方法,其中每個(gè)所述查詢特征序列和所述注釋特征序列表示時(shí)間連續(xù)信號(hào)。
110.根據(jù)權(quán)利要求105到109中的任何一個(gè)的方法,其中每個(gè)所述查詢特征序列和所述注釋特征序列表示音頻信號(hào)。
111.根據(jù)權(quán)利要求110的方法,其中每個(gè)所述查詢特征序列和所述注釋特征序列表示語(yǔ)音。
112.根據(jù)權(quán)利要求111的方法,其中每個(gè)所述特征表示語(yǔ)音的一個(gè)亞單詞部分。
113.根據(jù)權(quán)利要求112的方法,其中每個(gè)所述特征表示一個(gè)音素。
114.根據(jù)權(quán)利要求105到113中的任何一個(gè)的方法,其中所述注釋的某些注釋或所有注釋的語(yǔ)音注釋特征序列,是根據(jù)音頻注釋信號(hào)生成的。
115.根據(jù)權(quán)利要求105到113中的任何一個(gè)的方法,其中所述注釋的某些注釋或所有注釋的語(yǔ)音注釋特征序列,是根據(jù)文本注釋生成的。
116.根據(jù)權(quán)利要求105到115中的任何一個(gè)的方法,其中所述轉(zhuǎn)換步驟使用一個(gè)語(yǔ)音識(shí)別系統(tǒng)。
117.根據(jù)權(quán)利要求105到116中的任何一個(gè)的方法,其中所述信息條目的一個(gè)或多個(gè)條目是關(guān)聯(lián)注釋。
118.一種特征比較方法,包括以下步驟接收第一和第二查詢特征序列,每個(gè)序列表示輸入查詢的一種解釋;接收注釋特征序列;使每個(gè)解釋的查詢特征與注釋的注釋特征一致以形成多個(gè)調(diào)整特征組,每個(gè)調(diào)整組包括來(lái)自每個(gè)解釋的一個(gè)查詢特征和一個(gè)注釋特征;比較各調(diào)整特征組的特征以生成比較得分,比較得分表示調(diào)整組的特征之間的相似性;以及結(jié)合所有調(diào)整特征組的比較得分,以提供輸入查詢的解釋和注釋之間的相似性度量;其特征在于所述比較步驟包括以下步驟對(duì)于每個(gè)調(diào)整組,比較調(diào)整組中第一查詢序列特征與預(yù)定特征集合中取得的多個(gè)特征的每個(gè)特征,以提供相對(duì)應(yīng)的多個(gè)中間比較得分,比較得分表示所述第一查詢序列特征和來(lái)自該集合的各特征之間的相似性;對(duì)于每個(gè)調(diào)整組,比較調(diào)整組中第二查詢序列特征與來(lái)自該集合的所述多個(gè)特征的每個(gè)特征,以提供更多相對(duì)應(yīng)的多個(gè)中間比較得分,比較得分表示所述第二查詢序列特征和來(lái)自該集合的各特征之間的相似性;對(duì)于每個(gè)調(diào)整組,比較調(diào)整組中的注釋特征與來(lái)自該集合的所述多個(gè)特征的每個(gè)特征,以提供更多相對(duì)應(yīng)的多個(gè)中間比較得分,比較得分表示所述注釋特征和來(lái)自該集合的各特征之間的相似性;以及通過結(jié)合所述多個(gè)中間比較得分計(jì)算調(diào)整組的所述比較得分。
119.一種搜索數(shù)據(jù)庫(kù)以標(biāo)識(shí)需要從中檢索的信息的方法,其中數(shù)據(jù)庫(kù)包括多個(gè)信息條目,所述多個(gè)信息條目中的每個(gè)條目具有一個(gè)關(guān)聯(lián)注釋,該關(guān)聯(lián)注釋包括一個(gè)語(yǔ)音注釋特征序列,該方法包括以下步驟接收口頭輸入查詢的多個(gè)解釋;將輸入查詢的每種解釋轉(zhuǎn)換為語(yǔ)音查詢特征序列,語(yǔ)音查詢特征序列表示解釋內(nèi)的語(yǔ)音;比較每種解釋的語(yǔ)音查詢特征與每個(gè)注釋的語(yǔ)音注釋特征,以提供輸入查詢與每個(gè)注釋之間的相似性度量;使用所有注釋的結(jié)合步驟提供的相似性度量,標(biāo)識(shí)要從所述數(shù)據(jù)庫(kù)中檢索的所述信息;其特征在于,所述比較步驟具有多個(gè)不同的比較操作模式,并且該方法還包括以下步驟確定當(dāng)前注釋的語(yǔ)音特征序列是根據(jù)音頻信號(hào)生成的還是根據(jù)文本生成的,并輸出確定結(jié)果;以及根據(jù)所述確定結(jié)果,為當(dāng)前注釋選擇所述比較步驟的操作模式。
120.根據(jù)權(quán)利要求102到119中的任何一個(gè)的方法,其中所述信息條目的一個(gè)或多個(gè)條目是關(guān)聯(lián)注釋。
121.根據(jù)權(quán)利要求54到120中的任何一個(gè)的方法,其中按照所申明的次序執(zhí)行所有步驟。
122.一種用于存儲(chǔ)處理器可實(shí)現(xiàn)的指令的存儲(chǔ)介質(zhì),該指令控制處理器實(shí)現(xiàn)根據(jù)權(quán)利要求54到121中的任何一個(gè)的方法。
123.處理器可實(shí)現(xiàn)的指令,該指令控制處理器實(shí)現(xiàn)根據(jù)權(quán)利要求54到121的方法。
全文摘要
提供一種用于匹配兩個(gè)或多個(gè)音素序列的系統(tǒng),其中音素序列是根據(jù)文本或語(yǔ)音生成的。最好使用具有約束的動(dòng)態(tài)規(guī)劃匹配技術(shù),約束取決于以上兩個(gè)序列是根據(jù)文本還是根據(jù)語(yǔ)音生成的,并且利用適當(dāng)?shù)囊羲鼗煜梅帧⒁羲夭迦氲梅趾鸵羲貏h除得分,對(duì)動(dòng)態(tài)規(guī)劃路徑的得分進(jìn)行加權(quán)。
文檔編號(hào)G10L15/18GK1409842SQ00816353
公開日2003年4月9日 申請(qǐng)日期2000年10月25日 優(yōu)先權(quán)日1999年10月28日
發(fā)明者菲利普·N·加納, 賈森·P·A·查爾斯沃特, 樋口麻子 申請(qǐng)人:佳能株式會(huì)社