專利名稱:使用兩次語音轉(zhuǎn)換和計算機輔助校正的自動翻譯系統(tǒng)及方法,的制作方法
背景技術(shù):
1.發(fā)明領(lǐng)域本發(fā)明總體上涉及計算機語音識別系統(tǒng),更特別地,涉及一種對不同終端用戶的語音口授進行自動文本翻譯的系統(tǒng)和方法。
2.背景技術(shù)在本領(lǐng)域中語音識別程序是眾所周知的。雖然這些程序當用于自動將語音轉(zhuǎn)換為文本時基本上是有效的,但是因為需要每個用戶花費大量時間來訓(xùn)練該系統(tǒng),許多用戶都被勸阻不要使用這些程序。通常通過每個用戶閱讀大約20分鐘的預(yù)先選擇的材料來開始這種訓(xùn)練。然后,在用戶繼續(xù)使用該系統(tǒng),而單詞被錯誤地翻譯時,這時就要求用戶停下來并訓(xùn)練程序翻譯出所需詞語,從而提高聲音模型最終的精確度。遺憾的是,大多數(shù)專業(yè)人員(醫(yī)生,牙醫(yī),獸醫(yī),律師)和業(yè)務(wù)經(jīng)理不愿意花費時間來開發(fā)必要的聲音模型以真正從自動翻譯中受益。
因此,本發(fā)明的一個目的是提供一種系統(tǒng),它能為終端用戶提供語音識別程序的簡明的訓(xùn)練。
現(xiàn)在有用于從一組終端用戶中路由翻譯的用于計算機中的系統(tǒng)。通常這些系統(tǒng)用在大型多用戶設(shè)置中,如醫(yī)院。在那些系統(tǒng)中,語音用戶在通用計算機或其它記錄裝置處進行口授,所生成的文件被自動傳送給一個翻譯者(人)。翻譯者翻譯該文件,然后將該文件返回給原來的“作者”審閱。這些系統(tǒng)具有雇傭足夠數(shù)量的翻譯者來翻譯所有口授文件的永久開支。
因此,本發(fā)明的另一個目的是提供一種自動將語音翻譯成適合的文本的方法,從而使翻譯輸入到系統(tǒng)中語音文件所必需的翻譯者的數(shù)量最小化。
一個相關(guān)的目的是提供一種簡化的裝置,用于為系統(tǒng)的語音識別部分訓(xùn)練用戶的聲音模型提供逐字文本文件。
本發(fā)明的另一個相關(guān)目的是自動化現(xiàn)有的語音識別程序,進一步最小化操作系統(tǒng)所需操作員的數(shù)量。
參照附圖,說明書和權(quán)利要求,這些目的和其它目的對本領(lǐng)域普通技術(shù)人員而言將是顯而易見的。
發(fā)明概述本發(fā)明所披露的涉及一種用于為一個或多個語音用戶提供充分自動的翻譯服務(wù)的系統(tǒng)和方法。特別地,該系統(tǒng)包括采用兩個語音轉(zhuǎn)換情況以方便用最少的人力翻譯創(chuàng)建逐字翻譯文本。
該系統(tǒng)包括用于從當前用戶接受語音口授文件的裝置。該語音口授文件被輸入到第一裝置和第二裝置,將該語音口授文件自動轉(zhuǎn)化為第一書面文本和第二書面文本。第一和第二裝置分別具有第一和第二組轉(zhuǎn)換變量。這些第一和第二組轉(zhuǎn)換變量之間至少有一個區(qū)別。
例如,第一和第二自動語音轉(zhuǎn)換裝置中的每一個都包括一個現(xiàn)有語音識別程序,這些程序本身可能是彼此不相同的。不同語音識別程序具有固有的不同的語音到文本的轉(zhuǎn)換方法,從而,對于困難的言語,可能產(chǎn)生不同的轉(zhuǎn)換結(jié)果,反過來,可以用于建立逐字文本。在現(xiàn)有的語音轉(zhuǎn)換裝置中,有Dragon Systems公司的NaturallySpeaking,IBM公司的Via Voice和菲利浦公司的Magic Speech。
在另一種方法中,第一和第二組轉(zhuǎn)換變量中的每一個都包括一種語言模型(即,通用的或?qū)I(yè)的語言模型),從而對于困難的言語可能導(dǎo)致不同的轉(zhuǎn)換,使得更容易地建立逐字文本?;蛘撸梢愿乃褂玫呐c現(xiàn)有語音識別系統(tǒng)相關(guān)的一個或多個設(shè)置。
在又一個方法中,在輸入一個或兩個自動轉(zhuǎn)換裝置之前可以對語音口授文件進行預(yù)處理。用這種方法,轉(zhuǎn)換變量(例如數(shù)字字長,抽樣率和去除特定諧波范圍)在語音轉(zhuǎn)換情況之間可能不同。
該系統(tǒng)還包括用來人工編輯所述第一和第二書面文本產(chǎn)生語音口授文件的逐字文本的裝置。在一種方法中,第一書面文本至少暫時與語音口述文件同步。在這種情形下,人工編輯裝置包括用來順序地比較第一和第二書面文本,產(chǎn)生從第一書面文本中挑選出來的不匹配詞的順序列表的裝置。人工編輯裝置還包括在與包括第一書面文本的第一自動轉(zhuǎn)換裝置相關(guān)的第一緩沖區(qū)中和與時序表相關(guān)的第二緩沖區(qū)中同時遞增搜尋當前不匹配詞語的裝置。人工編輯裝置還包括校正第二緩沖區(qū)中當前不匹配詞的裝置。校正裝置包括以一種視覺上明顯區(qū)別于第一書面文本中其它文本的方式來顯示當前不匹配詞語的裝置,和顯示與當前不匹配詞語相關(guān)的第一緩沖區(qū)中的所述同步語音口授記錄部分的裝置。在一個實施例中,編輯裝置還包括在第一書面文本中交替地顯示所述當前不匹配詞所在的上下文的裝置。
該系統(tǒng)還可以包括用來改善語音識別程序精確度的訓(xùn)練裝置。
本申請還披露了一種在一系統(tǒng)中包括至少一個語音識別程序,用于為一個或多個語音用戶提供自動翻譯服務(wù)的方法。該方法包括(1)從當前語音用戶接收語音口授文件;(2)用語音識別程序使用第一組轉(zhuǎn)換變量從該語音口授文件自動創(chuàng)建第一書面文本;(3)用語音識別程序使用第二組轉(zhuǎn)換變量從該語音口授文件自動創(chuàng)建第二書面文本;(4)通過比較第一和第二書面文本人工建立逐字文件;以及(5)將該逐字文件返回給該當前用戶。創(chuàng)建逐字文件包括(6)順序地比較第一書面文本的拷貝和第二書面文本,產(chǎn)生一個從第一書面文本中挑選出的當前不匹配的詞的順序列表,該順序列表包括一個開頭,一個結(jié)尾和一個當前不匹配的詞,從開頭到結(jié)尾順序列出當前不匹配的詞;(7)遞增地搜尋同時存在于與至少一個包括第一書面文本的語音識別程序相關(guān)的第一緩沖區(qū)和與順序列表相關(guān)的第二緩沖區(qū)中的當前不匹配的詞;(8)以一種在視覺上顯著區(qū)別于第一書面文本拷貝中其它文本的方式顯示當前不匹配的詞,從與當前不匹配的詞相關(guān)的第一緩沖區(qū)中顯示同步語音口授記錄部分;以及(9)將當前不匹配的詞校正為同步語音口授記錄部分的逐字表示法。
圖2d為本系統(tǒng)控制裝置自動階段部分的流程圖;圖3為本系統(tǒng)控制裝置所使用的目錄結(jié)構(gòu);圖4為人工編輯裝置一個優(yōu)選實施例中一部分的方框圖;圖5為人工編輯裝置一個優(yōu)選實施例中剩余部分的正視圖;以及圖6為系統(tǒng)配置圖,給出了使用兩次語音轉(zhuǎn)換和計算機輔助校正的自動翻譯系統(tǒng)及方法。
實踐本發(fā)明的最佳方式雖然本發(fā)明可以有多種不同實施方式,但是在附圖中只給出并在此被討論了幾個具體實施例,鑒于理解到考慮本公開只是作為本發(fā)明原則的示例,本發(fā)明并不限于所給出的實施例。
圖1a給出了本系統(tǒng)的一個實施例,為一個或多個語音用戶提供充分自動地翻譯服務(wù)。該系統(tǒng)必須包括某些用來從當前用戶接收語音口授文件的裝置。這種語音口授文件接收裝置可以是數(shù)字音頻錄音機,模擬音頻錄音機或用來接收磁性介質(zhì)上或通過數(shù)據(jù)連接的計算機文件的標準裝置。
如圖所示,在一個實施例中,系統(tǒng)100包括多個數(shù)字記錄站10,11,12和13。每個數(shù)字記錄站具有至少一個數(shù)字音頻錄音機和用于識別當前語音用戶的裝置。
最好是,每一個數(shù)字記錄站都由通用計算機來實現(xiàn)(如計算機20),盡管為了這種特殊目的可以開發(fā)出特殊的計算機。不過通用計算機除了可用于當前系統(tǒng)100中之外,還具有多種不同應(yīng)用的優(yōu)點。通常,在其它元件中,通用計算機應(yīng)該具有一個微處理器(比如英特爾公司的奔騰(PENTIUM),Cyrix K6或摩托羅拉68000系列);非永久和永久存儲器;一個或多個大量存儲設(shè)備(即,HDD(圖中沒有示出),軟盤驅(qū)動器21和其它諸如CD-ROM驅(qū)動器,DITTO,ZIP或JAZ驅(qū)動器(Iomega公司)和類似裝置的可更換媒體裝置);多種用戶輸入設(shè)備,如鼠標23,鍵盤24或麥克風(fēng)25;以及一個視頻顯示系統(tǒng)26。在一個實施例中,通過WINDOWS 9.x操作系統(tǒng)控制通用計算機。不過,使用MACINTOSH計算機或甚至是諸如WINDOWS CE,UNIX或基于JAVA的操作系統(tǒng)(在此僅列出幾種),本系統(tǒng)也將能很好的工作。
無論使用何種特定計算機平臺,在使用模擬聲音輸入(通過麥克風(fēng)25)的實施例中通用計算機必需包括一個聲卡(圖中沒有示出)。當然,在數(shù)字輸入的實施例中不需要聲卡。
在如圖1a所示的實施例中,將數(shù)字音頻記錄站10,11,12和13設(shè)計為在基于奔騰的計算機系統(tǒng)WINDOWS 9.x操作下運行數(shù)字音頻記錄軟件。這種數(shù)字記錄軟件可以用于WINDOWS 9.x操作系統(tǒng)或來自于如美國弗吉尼亞州奧可頓的The Programmers’consortium公司的(VOICEDOC)、亞利桑那州鳳凰城的Syntrillium公司的(COOL EDIT)或Dragon Systems公司的(Dragon NaturallySpeaking Professional Edition)等諸多第三方經(jīng)銷商的操作系統(tǒng)。這些不同的軟件程序產(chǎn)生“WAV”文件形式的語音口授文件。不過,如本領(lǐng)域技術(shù)人員所知,其它音頻文件格式,如MP3或DSS,也可以用于格式化語音口授文件,而不偏離本發(fā)明的精神。在一個實施例中,使用VOICEDOC軟件自動為WAV文件分配一個文件句柄,不過本領(lǐng)域普通技術(shù)人員應(yīng)該知道使用標準操作系統(tǒng)文件管理方法來將音頻文件保存在計算機系統(tǒng)中。
接收語音口授文件的另一種裝置為專用數(shù)字錄音機14,如奧林巴斯(Olympus)公司制造的奧林巴斯數(shù)字語音錄音機D-1000(Olympus Digital Voice Recorder D-1000)。從而,如果當前語音用戶對于傳統(tǒng)類型的口授設(shè)備更加滿意的話,他們可以繼續(xù)使用專用數(shù)字錄音機14。為了獲取豐富的數(shù)字音頻文本文件資源并將它記錄下來,專用數(shù)字錄音機14應(yīng)該與和它相連的一個數(shù)字聲音錄音站如13一起工作,將數(shù)字音頻文件下載到通用計算機。使用這種方法,將不需要聲卡。
可接收語音口授文件的另一種裝置可以包括使用一種或其它包括有預(yù)先記錄音頻文件的可更換磁性媒質(zhì)的裝置。使用這種裝置,操作員將可更換磁性媒質(zhì)插入一個數(shù)字音頻記錄站,將音頻文件加載到系統(tǒng)中。
在某些情形下,必需預(yù)先處理音頻文件,使它們可以被語音識別軟件處理。例如,DSS文件格式必需被轉(zhuǎn)變?yōu)閃AV文件格式,或者可能必需增大或減小數(shù)字音頻文件的抽樣率。例如,以奧林巴斯數(shù)字語音錄音機與Dragon Naturally Speaking搭配使用時,奧林巴斯的8兆赫速率抽樣必需被增加到11兆赫。完成這種預(yù)處理的軟件可以有包括來自于Syntrillium公司和奧林巴斯公司的多種來源。
數(shù)字音頻記錄站的另一個方面是識別當前語音用戶的某些裝置。識別裝置可以包括鍵盤24,通過鍵盤,用戶(或者單獨的操作員)可以輸入當前用戶唯一的標識碼。當然,可以使用多種計算機輸入設(shè)備來輸入用戶標識,如光標位置指示裝置(例如鼠標23),觸摸屏(圖中沒有示出),光筆(圖中沒有示出),條形碼閱讀器(圖中沒有示出)或通過麥克風(fēng)25的音頻信號,此處僅列舉了幾種。
在第一次使用識別裝置時,在從用戶接受可能的識別信息之后,還給該用戶分配一個識別號碼,用戶識別信息包括(1)姓名;(2)地址;(3)職業(yè);(4)方言或口音;等。正如在控制裝置中所討論的那樣,基于這種輸入信息,在控制裝置中建立語音用戶資料檔案和子目錄。從而,無論使用何種特別的識別裝置,必需為每個用戶建立用戶識別標記,繼而為每次使用提供相應(yīng)的數(shù)字音頻文件,從而控制裝置可以進行正確地路由,系統(tǒng)最終翻譯該音頻。
在本發(fā)明的一個實施例中,識別裝置還可以對專業(yè)詞匯進行人工選擇。使專業(yè)詞匯組合對不同用戶來說是通用的,如醫(yī)學(xué)(如放射學(xué),矯形外科學(xué),婦科醫(yī)學(xué))和法律(如公司法,專利法,訴訟法)或非常專業(yè)的領(lǐng)域,使得在每種專業(yè)中,基于特定口授文件的特殊環(huán)境,詞匯數(shù)據(jù)還被進一步地限定。例如,如果當前語音用戶是放射學(xué)家,正在口授的腹部CAT掃描的術(shù)語是非常專業(yè)的,并且不同于腎臟超聲波掃描所使用的術(shù)語。通過將每個選擇的詞匯設(shè)置限定在窄范圍內(nèi),增加自動語音轉(zhuǎn)換的精確度是很可能的。
如圖1a所示,數(shù)字音頻記錄站可以與系統(tǒng)100連接在一起操作,作為計算機網(wǎng)絡(luò)30的一部分,或者可以通過因特網(wǎng)主機15與系統(tǒng)連接進行操作。如圖1b所示,通用計算機既可以與網(wǎng)絡(luò)插孔27連接,也可以與電話插孔連接。通過使用因特網(wǎng)主機,以通過互聯(lián)網(wǎng)電子郵件傳送音頻文件來實現(xiàn)連接。完成這種連接的另一種方法是利用遠程控制軟件通過直接的調(diào)制解調(diào)器連接,遠程控制軟件如PC ANYWHERE,這是加利福尼亞庫泊蒂諾(Cupertino)之Symantec公司的一種軟件。如果數(shù)字音頻記錄站10或因特網(wǎng)主機15的網(wǎng)際協(xié)議(IP)地址可知,還可以使用基本文件傳輸協(xié)議來傳輸音頻文件。從而,從以上的描述可知,本系統(tǒng)允許語音用戶以很靈活的方式來將語音輸入到系統(tǒng)中。
控制裝置200基于當前語音用戶的訓(xùn)練狀態(tài)控制語音口授文件的流量。如圖2a,圖2b,圖2c,圖2d所示,控制裝置200包括運行在通用計算機40上的軟件程序。特別地,該程序在步驟201被初始化,設(shè)置變量,清除緩沖區(qū)并裝載此控制裝置之特殊設(shè)定的特殊配置??刂蒲b置繼續(xù)監(jiān)控目標目錄(諸如“當前”(如圖3所示)),在步驟202確定是否有一個新文件已經(jīng)被移入到該目標目錄中。一旦發(fā)現(xiàn)一個新文件(如“6723.id”(圖3所示)),就在步驟203作出當前用戶5是否為新用戶的判斷(如圖1a所示)。
對于每個新用戶(表現(xiàn)為“當前”子目錄中存在“.pro”文件),步驟204建立新的子目錄(如“usern”子目錄(如圖3所示))。這個子目錄用于存儲該特定用戶的所有音頻文件(“xxxx.wav”),書面文本(“xxxx.wrt”),逐字文本(“xxxx.vb”),翻譯文本(“xxxx.txt”)和用戶資料(“usern.pro”)。每個特定任務(wù)都被分配一個唯一號碼“xxxx”,使與該任務(wù)相關(guān)的所有文件都與該號碼相聯(lián)系。使用這種目錄結(jié)構(gòu),用戶數(shù)量實際上僅僅被通用計算機40的存儲空間所限制。
既然已經(jīng)建立了用戶子目錄,步驟205將用戶資料移動到該子目錄。在不同系統(tǒng)之間,用戶資料的內(nèi)容可能會有不同。圖3給出了一種可能的用戶資料信息,包括用戶姓名,地址,職業(yè)和訓(xùn)練狀態(tài)。除了訓(xùn)練狀態(tài)的不同之外,還必需有用于路由和翻譯音頻文件的其它數(shù)據(jù)。
控制裝置通過句柄選擇一組文件,步驟206通過比較“.id”文件和它的“user.tbl”,確定當前用戶身份。既然已經(jīng)知道了該用戶,可以從該用戶的子目錄中解析出用戶資料,步驟207確定當前的訓(xùn)練狀態(tài)。步驟208-211將當前訓(xùn)練狀態(tài)篩選為其中的一種注冊,訓(xùn)練,自動識別和停止自動操作。
注冊是自動翻譯服務(wù)的第一階段。如圖2b所示,步驟301發(fā)送將要翻譯的音頻文件。特別地,“xxxx.wav”文件被傳送到翻譯者站50和51。在一個優(yōu)選實施例中,這兩個站都為通用計算機,運行音頻播放器和人工輸入裝置。音頻播放器可以是數(shù)字音頻播放器,盡管也可以將模擬音頻文件傳送到這些站點。有多種通常所使用的音頻播放器,包括用于WINDOWS 9.x操作系統(tǒng)的和諸如弗吉尼亞州奧可頓的The Programmers’Consortium公司所出品的(VOICESCRIBE)各種第三方軟件。無論使用何種音頻播放器來播放音頻文件,同時在該計算機上運行人工輸入裝置。這種人工輸入裝置可以包括任何文本編輯器或文字處理器(如MS WORD,WordPerfect,AmiPro或Word Pad)與鍵盤,鼠標或其它用戶接口裝置結(jié)合使用。在本發(fā)明的一個實施例中,這種人工輸入裝置本身也可以是語音識別軟件,諸如馬薩諸塞州的牛頓(Newton)的DragonSystems出品的Naturally Speaking,紐約阿曼克(Armonk)的IBM公司出品的Via Voice,或佐治亞亞特蘭大的菲利浦公司出品的Speech Magic。在步驟302翻譯者6聽見當前用戶5所創(chuàng)建的音頻文件后,如眾所周知,人工輸入該記錄文本的可理解內(nèi)容,從而建立翻譯文件。作為人類,翻譯者6可能會將經(jīng)驗,教育和偏見施加給該文本,從而不逐字翻譯所輸入的該音頻文件。在人工翻譯完成之后,在步驟303,翻譯者6保存文件,表明已經(jīng)準備好向當前用戶子目錄發(fā)送“xxx.txt”文件。
因為當前用戶僅處于注冊階段,人工操作員必需監(jiān)聽音頻文件,人工將該文件與翻譯文件進行比較,創(chuàng)建逐字文件,步驟304。在步驟305該逐字文件“xxxx.vb”也被傳送到當前用戶的子目錄。既然有了該逐字文本,在步驟306控制裝置200啟動自動語音轉(zhuǎn)換裝置。這種自動語音轉(zhuǎn)換裝置可能是現(xiàn)有的程序,如Dragon Systems公司的Naturally Speaking,IBM公司的Via Voice或菲利浦公司的Speech Magic,在此僅列出幾種?;蛘?,它也可以是獨特的程序,被專門設(shè)計為執(zhí)行自動語音識別。
在一個優(yōu)選實施例中,通過執(zhí)行Naturally Speaking的同時同步運行一個可執(zhí)行程序,通過WIN32API提供仿真按鍵和鼠標操作來使用Dragon Systems的Naturally Speaking,使得當實際上被控制裝置200控制時,Naturally Speaking相信它正在和一個人進行交互。這種技術(shù)在計算機軟件測試技術(shù)中是眾所周知的,在此不詳細討論。完全可以說,通過觀看任何語音識別程序的應(yīng)用流程,能夠創(chuàng)建可執(zhí)行的模擬交互式人工階段。
如果當前用戶為一個新用戶,語音識別程序?qū)⑿枰獎?chuàng)建該新用戶,步驟307??刂蒲b置從當前用戶子目錄中的該用戶的資料中提供所需信息。所有語音識別都要求進行有效的訓(xùn)練來建立特定用戶的聲音模型。在Dragon的情況中,程序最初探索大約20分鐘用戶閱讀Dragon Systems所提供的存儲在其中的文本,得到常用的聲音。在Dragon中還具有固有的“移動式訓(xùn)練”功能。使用該特征,逐字文件和音頻文件被輸入到語音識別程序中,開始訓(xùn)練該用戶的聲音模型,步驟308。不管音頻文件的長度是多長,控制裝置200在完成該文件時關(guān)閉語音識別程序,步驟309。
由于注冊階段太短而沒有使用自動創(chuàng)建文本,使用包括在用戶資料中的地址信息將所翻譯文件的一個拷貝傳送給當前用戶,步驟310。該地址可以是街道地址或e-mail地址。在傳送之后,程序回到圖2a中的主循環(huán)。
對于一個特定用戶,在已經(jīng)進行了一定時間的訓(xùn)練之后,該用戶的訓(xùn)練狀態(tài)可以從注冊改變?yōu)橛?xùn)練。這種轉(zhuǎn)變的界限是主觀的,但是一個比較好的經(jīng)驗法則是一旦Dragon以80%或超過80%的精確度創(chuàng)建書面文本,就可以在狀態(tài)之間進行切換了。從而對于一個用戶,下一次翻譯活動將控制裝置200提升為訓(xùn)練狀態(tài)。如圖2c所示,步驟401-403是與注冊階段中步驟301-303相同的人工翻譯階段。一旦建立翻譯文件,控制裝置200啟動自動語音轉(zhuǎn)換裝置(或語音識別程序),并選擇當前用戶,步驟404。音頻文件被輸入到語音識別程序并在程序緩沖區(qū)中建立書面文本,步驟405。在使用Dragon的情況中,在該程序的每個情況中該緩沖區(qū)被給以相同的文件句柄。從而,使用標準操作系統(tǒng)命令可以容易地復(fù)制該緩沖區(qū),并開始人工編輯,步驟406。
在使用弗吉尼亞奧可頓的The Programmers’Consortium公司的VOICEWARE系統(tǒng)的特殊實施例中,用戶將聲音輸入到VOICEWARE系統(tǒng)的VOICEDOC程序中,從而創(chuàng)建“.wav”文件。另外,在將該“.wav”文件發(fā)布到VOICEWARE服務(wù)器之前,用戶選擇一個“翻譯者”。該“翻譯者”可以是一特定人的翻譯者或可能是“計算機化的翻譯者”。如果用戶選擇了一個“計算機化的翻譯者”,他們還可能選擇是否該翻譯被本地處理或遠程處理。VOICEWARE服務(wù)器為該文件分配一個任務(wù)編號,再由路由為此任務(wù)選擇該系統(tǒng)的VOICESCRIBE部分。正常情況下,翻譯者使用VOICESCRIBE來接受并回放該任務(wù)的音頻(“.wav”)文件。另外,該音頻文件被自動語音轉(zhuǎn)換裝置抓取。在這個VOICEWARE系統(tǒng)的實施例中,通過將VOICESCRIBE設(shè)置為“自動模式”,從VOICEWARE服務(wù)器自動下載新任務(wù)(即,由VOICEDOC新創(chuàng)建的音頻文件),VOICESCRIBE窗口具有由當前“.wav”文件的任務(wù)編號所形成的窗口標題。運行在背景的一個可執(zhí)行文件,“看見”VOICESCRIBE窗口打開,使用WIN32API從VOICESCRIBE窗口標題確定任務(wù)編號。然后該可執(zhí)行文件啟動自動語音轉(zhuǎn)換裝置。例如,在Dragon System公司的Naturally Speaking中,具有對現(xiàn)有“.wav”文件執(zhí)行語音識別的內(nèi)置功能。該可執(zhí)行程序?qū)⒎抡姘存I送到Naturally Speaking,從具有當前任務(wù)的任務(wù)編號的“當前”目錄中打開該“.wav”文件(參見圖3)。
在這個實施例中,在Naturally Speaking已經(jīng)完成“.wav”文件上下文的自動翻譯之后,該可執(zhí)行文件繼續(xù)操作,選擇打開的Naturally Speaking窗口中所有的文本,并將其復(fù)制到WINDOWS9.x操作系統(tǒng)的剪貼板上。然后,使用剪貼板功能,使用當前任務(wù)編號和“dmt”擴展名將剪貼板保存為文本文件。然后該可執(zhí)行文件“點擊”VOICESCRIBE中的“完成”按鈕,將“dmt”文件返回到VOICEWARE服務(wù)器。正如本領(lǐng)域普通技術(shù)人員所理解的那樣,可以使用其它數(shù)字記錄軟件和其它自動語音轉(zhuǎn)換裝置來執(zhí)行上述過程。另外,在其它操作系統(tǒng)中存在與WINDOWS剪貼板功能相似的部分。還可能需要人為干預(yù)來激活或提示一個或多個上述步驟。而且,雖然執(zhí)行不同步驟的不同程序可以運行在相互連接的多臺計算機上(通過局域網(wǎng)(LAN),廣域網(wǎng)(WAN),網(wǎng)絡(luò)連通,電子郵件等等類似的方式),但是人們?nèi)匀黄髨D可以將所有的必備軟件能運行在一個單獨的計算機上。
在此還可以企圖使用另一種方法,即,用戶直接口授給自動語音轉(zhuǎn)換裝置,VOICEWARE服務(wù)器從相反方向獲得拷貝。這種方法按如下方式工作實際上沒有記錄任何語音,用戶點擊VOICEDOC中的“完成”按鈕,創(chuàng)建一個空的“.wav”文件。VOICEWARE服務(wù)器仍然為該空文件分配一個唯一的任務(wù)編號。然后該用戶(或運行在背景的可執(zhí)行文件)啟動自動語音轉(zhuǎn)換裝置,用戶直接口授給該程序,和前述使用在自動語音轉(zhuǎn)換裝置中的方式完全相同。當完成口授后,用戶按下標記為“返回”的按鈕(由背景可執(zhí)行文件所產(chǎn)生的),執(zhí)行并開始一個宏指令,從VOICEWARE得到當前任務(wù)編號(以上面所述的方法)。選擇文件中的所有文本并將其復(fù)制到剪貼板。然后剪貼板將其保存為文件“<任務(wù)編號>.dmt”,如上面所述??蓤?zhí)行程序然后“點擊”VOICESCRIBE中的“完成”按鈕(通過WIN32API),將自動翻譯的文本有效地返回給VOICEWARE服務(wù)器,然后,反過來,VOICEWARE服務(wù)器將該完成的翻譯返回給VOICESCRIBE用戶。值得注意的是,雖然執(zhí)行不同步驟的不同程序可以運行在相互連接的多臺計算機上(通過局域網(wǎng),廣域網(wǎng),網(wǎng)絡(luò)連通,電子郵件等類似方式),但是人們還是企圖可以將所有必備軟件運行在一個單獨的計算機上。正如本領(lǐng)域普通技術(shù)人員所理解的,可以使用其它數(shù)字記錄軟件和其它自動語音轉(zhuǎn)換裝置來執(zhí)行上述過程。另外,在其它操作系統(tǒng)中也存在與WINDOWS剪貼板功能相似的部分,還可能需要人為干預(yù)來激活或提示一個或多個上述步驟。
人工編輯并不是一項容易的工作。人類易于犯錯誤。從而,本發(fā)明還包括對該任務(wù)加以改進的裝置。如圖4所示,翻譯文件(“3333.txt”)和書面文本的拷貝(“3333.wrt”)按順序地被逐詞地進行比較,見406a,建立從書面文本的拷貝中選出的不匹配詞的順序列表406b。該列表有一個開頭和一個結(jié)尾,以及一個指向當前不匹配詞的指針406c。在順序列表下面是另一個對象列表,包括初始的不匹配詞和與該不匹配詞緊鄰的前面和后面的詞語,以及不匹配詞列表406b中每個不匹配詞在存儲器中的開始位置和不匹配詞的長度。
如圖5所示,指針406c指向的列表406b中的不匹配詞以一種顯著區(qū)別于書面文本拷貝中其它文本的方式顯示在標準計算機監(jiān)視器500上的活動窗口501中。如圖5所示,通過分別點擊按鈕514,515和516,操作員在不匹配詞所在的句子中,可以逐個詞或用詞組選擇不匹配詞語的上下文。
與活動窗口501相關(guān)的是背景窗口502,包括該書面文本文件的一個拷貝。如背景窗口502所示,逐漸搜索定位到下一個出現(xiàn)的不匹配詞“cash”(見指針503)。與此同時,在窗口505內(nèi)包括語音識別程序的緩沖區(qū),同樣,繼續(xù)搜索下一個出現(xiàn)的當前不匹配的詞(參見指針506)。用戶只能看見活動窗口501,通過點擊“播放”按鈕510從語音識別程序激活聲音重放,播放與指針506處的文本同步的聲音。基于語音的該片段,通過點擊播放按鈕可以一次次的播放,用戶可以通過鍵盤,鼠標動作人工輸入當前不匹配詞的校正,或者甚至可能用聲音指示運行在該窗口中的另一個語音識別程序。
在本實施例中,即使通過按鈕514,515和516提供隔離的上下文選擇,從上下文中確定正確的逐字詞語仍然是很困難的,從而有一個切換窗口按鈕513將背景窗口502轉(zhuǎn)換為前景窗口,使用可視指針503表示書面文本的拷貝中的當前位置。然后用戶能夠返回到活動窗口并輸入正確的詞“trash”。這種改變只影響背景窗口502中所顯示的書面文本的拷貝。
當操作員為下一不匹配詞作好準備時,操作員點擊前進按鈕511,使指針406c沿不匹配詞列表向下前進,在兩個窗口502和505中啟動遞增地的搜索。現(xiàn)在該不匹配詞被分離顯示,操作員可以由語音識別程序來播放同步的語音,并校正該詞語。如果在操作中任何時刻,操作員希望回到前一個不匹配的詞,他可以點擊后退按鈕512,將指針406c移動回列表中一個詞的位置,發(fā)生向后遞增地搜索。這一過程通過使用包括原始不匹配詞的對象之基礎(chǔ)列表來完成。對象以一個接一個的方式沿列表來回移動,不過可以填充每個記錄,使得每一項具有相同的字長,有助于列表的雙向移動。當基礎(chǔ)列表中的字匯被閱讀時,它只可能返回到原始不匹配詞進行比較,這樣,操作員才可以確定是否應(yīng)該對該詞進行不同的校正。
最后,完成對書面文本拷貝的校正,產(chǎn)生逐字拷貝,并被保存在該用戶的子目錄。該逐字文本也被傳送給語音識別程序用來訓(xùn)練,步驟407。在步驟408保存新的(已被改進的)聲音模型,在步驟409關(guān)閉語音識別程序。由于系統(tǒng)仍然處于訓(xùn)練過程中,所翻譯的文件被返回給用戶,如同注冊階段的步驟310。
如圖4所示,該系統(tǒng)還可以包括根據(jù)順序?qū)Ρ妊b置的輸出確定精確度的裝置。特別地,通過對書面文本中詞的數(shù)量和列表406b中詞的數(shù)量的統(tǒng)計,可以確定所述書面文本中的詞與所述順序列表中詞數(shù)量的比率,從而提供精確度百分比。如前所述,存在選擇何時將用戶從一個階段提高到另一階段的問題。一旦目標已經(jīng)達到,用戶的資料被改變?yōu)橄乱浑A段,步驟211。
精確度百分比的確定可提供一個潛在的增強的或派生的功能。在一個實施例中,可以使用這種百分比來評價翻譯者的能力。特別是,通過使用已知的逐字文件或已經(jīng)建立的用戶,為翻譯者播放相關(guān)的“.wav”文件,對照上述過程所創(chuàng)建的逐字文件在所翻譯的文本上完成上述對比。用這種方式,本系統(tǒng)可以提供附加的功能。
目前,正如所了解的,語音識別程序的制造商使用外語、句法等的記錄,人工建立逐字文件來設(shè)計語音模型的程序。顯然,可以將上述建立逐字文本的方法用在這些語音文件的初始設(shè)計中,極大地簡化了該過程。
一旦用戶已經(jīng)到達了自動階段,就可以獲得本系統(tǒng)最大的好處。見步驟600,于是語音識別軟件被啟動,接著在步驟601中當前用戶被選定。如果需要,步驟602選擇一特定的詞匯表。然后步驟603可以開始對當前用戶記錄的數(shù)字音頻文件進行自動轉(zhuǎn)換。當完成之后,在步驟604中在用戶資料中所包括的信息的基礎(chǔ)上,將書面文件傳送給該用戶并將程序返回到主循環(huán)。
遺憾的是,存在語音用戶在一段時間(在生病期間,牙科手術(shù)之后等)內(nèi)不能使用自動翻譯的情形,因為他們的聲音模型已經(jīng)被暫時(或者甚至永久地)改變。在該情形下,系統(tǒng)管理者可能將訓(xùn)練狀態(tài)變量設(shè)置為停止自動狀態(tài),只執(zhí)行步驟301,302,303,305和310(參見圖2b)。
圖6給出了與本發(fā)明相關(guān)的各個元件的另一種可能的配置。在這種配置中,如前所述,用戶逐字口授一個他們需要翻譯的文件,以上述方式之一將該文件保存為語音口授文件700。在這個實施例中——不是使用翻譯者來產(chǎn)生翻譯文件——語音口授文件被至少兩次自動轉(zhuǎn)換為書面文本。
在兩次自動文本轉(zhuǎn)換之后,結(jié)果產(chǎn)生的第一和第二書面文本文件,使用人工拷貝編輯裝置(如上面所述,結(jié)合圖4和圖5)將第一和第二書面文本文件進行比較,如此就便于操作員迅速地人工校正第二書面文本文件。
在這種方法中,相信可以提供具有較少翻譯者勞動的翻譯服務(wù)。獲得傳輸給終端用戶的足夠精確的書面文本的關(guān)鍵是在第一和第二次運行中以某種方法區(qū)別語音到文本的轉(zhuǎn)化。特別是,在第一和第二次轉(zhuǎn)換步驟之間,系統(tǒng)可以改變下述中的一個或多個方面(1)語音識別程序(例如Dragon Systems公司的NaturallySpeaking,IBM公司的Via Voice或菲利浦公司的Magic Speech);(2)特定語音識別程序中的語言模型(例如通用英語對專業(yè)詞匯(例如醫(yī)學(xué),法律));(3)特定語音識別程序中的設(shè)置(例如“最精確”對“速度”);和/或(4)和使用數(shù)字信號處理器一樣的、通過改變數(shù)字字長、抽樣率、去除特定諧波范圍和其它可能的改變的、預(yù)處理過的語音口授文件(例如亞利桑那州鳳凰城的Syntrillium公司出品的CoolEdit,或摩托羅拉公司的DSP56000程序化集成電路)。通過改變一個或多個上述“轉(zhuǎn)換變量”,相信第二次語音到文本的轉(zhuǎn)換將產(chǎn)生與第一次語音到文本轉(zhuǎn)換的稍有區(qū)別的書面文本,通過使用此處披露的新穎的人工編輯裝置比較所產(chǎn)生的這兩個書面文本,操作員可以用一種上述方式查閱到該區(qū)別,并迅速地產(chǎn)生一個傳送給終端用戶的逐字文本。從而,用這種方法,相信可以達到完全的自動翻譯,與其它披露的方法相比,人為干預(yù)更少了。
圖6給出了這種系統(tǒng)和在此基礎(chǔ)上的方法。應(yīng)該注意到,其中描繪了兩個自動語音轉(zhuǎn)換裝置702和703,可能僅有一個語音識別程序情況運行在一臺單獨計算機上,不過對語音口授文件進行反復(fù)轉(zhuǎn)換期間使用不同的轉(zhuǎn)換變量。當然,如本領(lǐng)域普通技術(shù)人員眾所周知的,同樣可能有多個語音識別程序情況運行在一臺計算機上或者運行在通過計算機網(wǎng)絡(luò)(局域網(wǎng),廣域網(wǎng),對等式,或類似結(jié)構(gòu))相互連接在一起的分離的計算機上。
與之相似,人工編輯裝置705與自動語音轉(zhuǎn)換裝置是相分離的,還可以設(shè)置在運行一個或兩個自動語音轉(zhuǎn)換程序情況的相同計算機上。同樣,人工編輯裝置還可以設(shè)置在分離的計算機上,也可以設(shè)置在網(wǎng)絡(luò)中其它計算機上。
最后,數(shù)字信號處理器701示出了一種改變轉(zhuǎn)換變量的方法,即,將語音口授文件輸入到一個或兩個自動語音裝換裝置的情況中。同樣,該數(shù)字信號處理器能夠與任何一個或所有上述功能塊設(shè)置在相同的計算機上,或通過計算機網(wǎng)絡(luò)與其它計算機相連的一個分離的計算機上。
本發(fā)明試圖將上述重復(fù)兩次使用語音到文本的轉(zhuǎn)換的這種方法,進一步推廣到執(zhí)行更多次的轉(zhuǎn)換,每次轉(zhuǎn)換使用不同組的轉(zhuǎn)換變量,在一對輸出書面文本之間執(zhí)行文本對比,從而使自動翻譯的精確度增加,剩下更少的需要人工編輯的詞語。
上述說明和附圖僅解釋和說明了本發(fā)明,本發(fā)明并不限于此。本領(lǐng)域技術(shù)人員在本公開的基礎(chǔ)上將能夠在不偏離本發(fā)明范圍的基礎(chǔ)上作出改變和變形。例如,通過在語音用戶、翻譯者和語音識別程序之間分時利用計算機,可以將本系統(tǒng)的所有元件設(shè)置在單一的通用計算機上。所節(jié)省的成本費用使本系統(tǒng)能為更多的辦公環(huán)境所接受,不僅僅限于是大型醫(yī)療診所、醫(yī)院、法律事務(wù)所或其它大型單位。
權(quán)利要求
1.一種用于為一個或多個語音用戶提供充分自動的翻譯服務(wù)的系統(tǒng),所述系統(tǒng)包括用于從當前用戶接收語音口授文件的裝置,所述當前用戶為所述一個或多個語音用戶中的一個;用于將所述語音口授文件自動轉(zhuǎn)換為第一書面文本的第一裝置,所述第一自動轉(zhuǎn)換裝置具有第一組轉(zhuǎn)換變量;用于將所述語音口授文件自動轉(zhuǎn)換為第二書面文本的第二裝置,所述第二自動轉(zhuǎn)換裝置具有第二組轉(zhuǎn)換變量,所述第一和第二組轉(zhuǎn)換變量之間至少具有一個差別;以及用于人工編輯所述第一和第二書面文本拷貝的裝置,以創(chuàng)建所述語音口授文件的一個逐字文本。
2.根據(jù)權(quán)利要求1所述的發(fā)明,其中,所述第一書面文本至少暫時地與所述語音口授文件同步,所述人工編輯裝置包括用于將所述第一書面文本拷貝與第二書面文本順序進行比較,從所述第一書面文本的拷貝選出不匹配詞順序列表的裝置,所述順序列表具有一個開頭,一個結(jié)尾和一個當前不匹配詞,所述當前不匹配詞從所述開頭到所述結(jié)尾連續(xù)移動;用于在與包括所述第一書面文本的所述第一自動轉(zhuǎn)換裝置相關(guān)的第一緩沖區(qū)和與所述順序列表相關(guān)的第二緩沖區(qū)內(nèi)同時遞增地搜索所述當前不匹配詞的裝置;以及用于在所述第二緩沖區(qū)內(nèi)校正所述當前不匹配詞的裝置,所述校正裝置包括用于以視覺上顯著區(qū)別于所示第一書面文本拷貝內(nèi)其它文本的方式顯示所述當前不匹配詞的裝置,和從與當前不匹配詞相關(guān)的所述第一緩沖區(qū)中顯示所述同步語音口授記錄的裝置。
3.根據(jù)權(quán)利要求2所述的發(fā)明,其中,所述編輯裝置還包括用于在所述第一書面文本的所述拷貝中交替地觀察所述當前不匹配詞顯示在上下文中的裝置。
4.根據(jù)權(quán)利要求1所述的發(fā)明,其中,所述第一和第二自動語音轉(zhuǎn)換裝置中的每一個都包括用于人類交互應(yīng)用的現(xiàn)有語音識別程序,所述第一和第二自動語音轉(zhuǎn)換裝置中的每一個都包括對來自于所述現(xiàn)有語音識別程序的一系列交互式查詢進行自動響應(yīng)的裝置。
5.根據(jù)權(quán)利要求4所述的發(fā)明,其中,所述第一和第二組轉(zhuǎn)換變量之間的差別為包括所述第一和第二自動語音轉(zhuǎn)換裝置的所述現(xiàn)有語音識別程序。
6.根據(jù)權(quán)利要求5所述的發(fā)明,其中,所述自動語音轉(zhuǎn)換裝置從包括Dragon Systems公司的Naturally Speaking,IBM公司的Via Voice和菲利浦公司的Magic Speech的一組中進行選擇。
7.根據(jù)權(quán)利要求4所述的發(fā)明,其中,所述第一和第二組轉(zhuǎn)換變量之間的差別包括與所述現(xiàn)有語音識別程序相結(jié)合使用的一種語言模型。
8. 根據(jù)權(quán)利要求7所述的發(fā)明,其中,在所述第一組轉(zhuǎn)換變量中使用通用語言模型,在所述第二組轉(zhuǎn)換變量中使用一種專業(yè)語言模型。
9. 根據(jù)權(quán)利要求4所述的發(fā)明,其中,所述第一和第二組轉(zhuǎn)換變量之間的差別包括與所述現(xiàn)有語音識別程序有關(guān)的至少一種設(shè)置。
10.根據(jù)權(quán)利要求4所述的發(fā)明,其中,所述第一和第二組轉(zhuǎn)換變量之間的差別包括用于在輸入到所述第一自動轉(zhuǎn)換裝置之前對音頻進行預(yù)處理的裝置。
11.根據(jù)權(quán)利要求10所述的發(fā)明,其中,所述第一和第二組轉(zhuǎn)換變量之間的差別包括用于在輸入到所述第二自動轉(zhuǎn)換裝置之前對音頻進行預(yù)處理的裝置,其中,所述第一和第二預(yù)處理變量是不同的。
12.根據(jù)權(quán)利要求11所述的發(fā)明,其中,從包括數(shù)字字長、抽樣率和去除特定諧波范圍的一組中選擇所述預(yù)處理變量。
13.根據(jù)權(quán)利要求1所述的發(fā)明,其中,所述第一和第二組轉(zhuǎn)換變量之間的差別包括與所述現(xiàn)有語音識別程序相結(jié)合使用的一種語言模型。
14.根據(jù)權(quán)利要求13所述的發(fā)明,其中,在所述第一組轉(zhuǎn)換變量中使用通用語言模型,在所述第二組轉(zhuǎn)換變量中使用一種專業(yè)語言模型。
15.根據(jù)權(quán)利要求1所述的發(fā)明,其中,所述第一和第二組轉(zhuǎn)換變量之間的差別包括用于對輸入到所述第一自動轉(zhuǎn)換裝置的聲音進行預(yù)處理的裝置。
16.根據(jù)權(quán)利要求16所述的發(fā)明,其中,所述第一和第二轉(zhuǎn)換變量組之間的差別包括對輸入到所述第二自動轉(zhuǎn)換裝置的聲音進行預(yù)處理的裝置,其中所述第一和第二預(yù)處理變量是不同的。
17.根據(jù)權(quán)利要求1所述的發(fā)明,還包括用于訓(xùn)練所述自動語音轉(zhuǎn)換裝置,獲得當前用戶的較高精確度的所述語音口授文件的裝置。
18.根據(jù)權(quán)利要求17所述的發(fā)明,其中,所述訓(xùn)練裝置包括現(xiàn)有語音識別程序用于人類交互應(yīng)用的現(xiàn)有語音識別程序的訓(xùn)練部分,所述訓(xùn)練裝置包括用于對來自于所述現(xiàn)有語音識別程序的所述現(xiàn)存訓(xùn)練部分的交互查詢系列進行自動響應(yīng)的裝置。
19.一種在包括至少一個語音識別程序的系統(tǒng)中,用于為一個或多個語音用戶提供自動翻譯服務(wù)的方法,所述方法包括步驟從一個當前語音用戶接收語音口授文件;使用一種語音識別程序,用第一組轉(zhuǎn)換變量從該語音口授文件自動創(chuàng)建第一書面文本;使用一種語音識別程序,用第二組轉(zhuǎn)換變量從該語音口授文件自動創(chuàng)建第二書面文本;通過比較該第一和第二書面文本,人工建立一逐字文件;以及將該逐字文件返回給該當前用戶。
20.根據(jù)權(quán)利要求19所述的發(fā)明,其中,所述人工建立逐字文件的步驟包括的子步驟為順序地對第一書面文本的拷貝和第二書面文本進行比較,從第一書面文本拷貝中選擇出不匹配詞語并產(chǎn)生一個順序列表,該順序列表包括一個開頭、一個結(jié)尾和一個當前不匹配詞,該當前不匹配詞從開頭到結(jié)尾連續(xù)移動;在與至少一個包括第一書面文本的語音識別程序相關(guān)的第一緩沖區(qū)和與順序列表相關(guān)的第二緩沖區(qū)中同時遞增地搜索當前不匹配的詞語;以視覺上顯著區(qū)別于第一書面文本拷貝中其它文本的方式顯示當前不匹配的詞,并播放與該當前不匹配詞相關(guān)的,來自于第一緩沖區(qū)的同步語音口授記錄的一個部分;以及校正該當前不匹配的詞語,使之成為同步語音口授記錄部分的逐字表示法。
21.根據(jù)權(quán)利要求19所述的發(fā)明,還包括從可用的現(xiàn)有的語音識別程序中選擇第一組轉(zhuǎn)換變量;以及從可用的現(xiàn)有的語音識別程序中不同地選擇第二組轉(zhuǎn)換變量。
22.根據(jù)權(quán)利要求19所述的發(fā)明,還包括從可用的語言模型中選擇第一組轉(zhuǎn)換變量;以及從可用的語言模型中不同地選擇第二組轉(zhuǎn)換變量。
23.根據(jù)權(quán)利要求19所述的發(fā)明,還包括在自動創(chuàng)建第一書面文本之前對語音口授文件的預(yù)處理,該預(yù)處理形成了至少一部分第一組轉(zhuǎn)換變量。
24.根據(jù)權(quán)利要求23所述的發(fā)明,還包括在自動創(chuàng)建第二書面文本之前對語音口授文件進行不同于第一組預(yù)處理轉(zhuǎn)換變量的預(yù)處理,該預(yù)處理形成了至少一部分第二組轉(zhuǎn)換變量。
全文摘要
披露了一種用于為一個或多個語音用戶提供充分自動的翻譯服務(wù)的系統(tǒng)。該系統(tǒng)從當前用戶接收語音口授文件,基于第一組轉(zhuǎn)換變量,該語音口授文件被自動轉(zhuǎn)換為第一書面文本?;诘诙M轉(zhuǎn)換變量,該語音口授文件被自動轉(zhuǎn)換為第二書面文本。第一和第二組轉(zhuǎn)換變量將至少存在一個差別,比如不同的語音識別程序,不同詞匯表和類似方面。該系統(tǒng)還包括用于人工編輯第一和第二書面文本拷貝的程序,以創(chuàng)建語音口授文件(40)的逐字文本。該逐字文本可以作為翻譯文本交付給當前用戶。還可以將該逐字文本反饋給每種語音識別情況,相對于文件中人的聲音提高每種情況的轉(zhuǎn)換精確度。
文檔編號G10L15/00GK1341255SQ00803971
公開日2002年3月20日 申請日期2000年2月18日 優(yōu)先權(quán)日1999年2月19日
發(fā)明者喬納森·卡恩, 秦曉, 托馬斯·P·弗萊恩 申請人:美國科斯特語音公司