專利名稱:中止自動(dòng)轉(zhuǎn)換的轉(zhuǎn)換服務(wù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種轉(zhuǎn)換設(shè)備,可將口述的音頻數(shù)據(jù)提供給該設(shè)備,并且,上述設(shè)備被設(shè)計(jì)成能通過該設(shè)備的語音識(shí)別軟件自動(dòng)地輸出與前述音頻數(shù)據(jù)相關(guān)的文本數(shù)據(jù)。
本發(fā)明還涉及一種轉(zhuǎn)換方法,其中可以接收口述的音頻數(shù)據(jù),并且,上述方法設(shè)計(jì)成能在執(zhí)行該轉(zhuǎn)換方法期間自動(dòng)地輸出與前述音頻數(shù)據(jù)相關(guān)的文本數(shù)據(jù)。
本發(fā)明還涉及一種計(jì)算機(jī)軟件產(chǎn)品,其形式為由上述轉(zhuǎn)換設(shè)備運(yùn)行的語音識(shí)別軟件。
文件WO00/46787公開了一種轉(zhuǎn)換服務(wù),它用于基本上自動(dòng)地轉(zhuǎn)換口述材料,在其第一段落中所述的轉(zhuǎn)換設(shè)備執(zhí)行其第二段落的轉(zhuǎn)換方法。該已知系統(tǒng)的用戶可通過數(shù)據(jù)網(wǎng)絡(luò)將他/她的數(shù)字音頻數(shù)據(jù)形式的口述音頻數(shù)據(jù)發(fā)送給具有服務(wù)器形式的轉(zhuǎn)換設(shè)備。
當(dāng)用戶第一次使用轉(zhuǎn)換服務(wù)時(shí),由轉(zhuǎn)換服務(wù)的雇員(錄入員)人工地錄入用戶的口述材料。轉(zhuǎn)換服務(wù)的另一個(gè)雇員(校對員)檢查錄入員錄入的文本并對其中含的有錯(cuò)誤進(jìn)行校訂。然后,把由轉(zhuǎn)換服務(wù)根據(jù)用戶的口述材料人工錄入的文本數(shù)據(jù)連同發(fā)票傳送給用戶。
已知的轉(zhuǎn)換設(shè)備運(yùn)行對于轉(zhuǎn)換設(shè)備的用戶來說是適用的語音識(shí)別軟件,在該設(shè)備中存儲(chǔ)有用戶基準(zhǔn)。由轉(zhuǎn)換設(shè)備自動(dòng)識(shí)別的文本數(shù)據(jù)的質(zhì)量基本上取決于該語音識(shí)別軟件迄今為止被訓(xùn)練成適合于該用戶的適應(yīng)程度。已知的轉(zhuǎn)換設(shè)備用來自用戶口述材料的音頻數(shù)據(jù)以及人工錄入的文本數(shù)據(jù)訓(xùn)練語音識(shí)別軟件并將改進(jìn)后的用戶基準(zhǔn)存儲(chǔ)起來。
當(dāng)用戶經(jīng)常使用轉(zhuǎn)換服務(wù)時(shí),就額外地將其口述音頻數(shù)據(jù)提供給轉(zhuǎn)換設(shè)備,以便進(jìn)行自動(dòng)轉(zhuǎn)換。然后,將轉(zhuǎn)換設(shè)備自動(dòng)錄入的文本數(shù)據(jù)與校對員人工錄入的文本數(shù)據(jù)作比較。如果在自動(dòng)錄入的文本數(shù)據(jù)中包含有較少的識(shí)別誤差,則以后從這一用戶接收的口述材料首先由轉(zhuǎn)換設(shè)備來自動(dòng)地錄入并由校對員人工地進(jìn)行校對。轉(zhuǎn)換服務(wù)中存儲(chǔ)著用戶設(shè)置集,該設(shè)置集決定了以何種方式轉(zhuǎn)換給定用戶的口述材料。
已知的轉(zhuǎn)換服務(wù)還提供了系統(tǒng)管理員選項(xiàng),從而,即使自動(dòng)錄入已達(dá)到了自動(dòng)錄入的文本數(shù)據(jù)中有較少的錯(cuò)誤,也能按完全手工地錄入來自用戶的口述材料的方式在一段有限的時(shí)間內(nèi)改變用戶設(shè)置集。這種對用戶設(shè)置集的改變是由系統(tǒng)管理員在被告知用戶病了或做牙科治療即被告知會(huì)導(dǎo)致因用戶發(fā)音變化而有較差識(shí)別率的自動(dòng)轉(zhuǎn)換這樣的事實(shí)時(shí)來進(jìn)行的。
業(yè)已證明,已知轉(zhuǎn)換服務(wù)的缺點(diǎn)是,就轉(zhuǎn)換設(shè)備的自動(dòng)轉(zhuǎn)換而言,自動(dòng)識(shí)別的文本數(shù)據(jù)包含有非常大量的識(shí)別誤差,從而,校對員要花費(fèi)大量時(shí)間校對識(shí)別錯(cuò)誤。
本發(fā)明的一個(gè)目的是提供第一段落中所述類型的轉(zhuǎn)換設(shè)備、第二段落中所述類型的轉(zhuǎn)換方法以及第三段落中所述類型的計(jì)算機(jī)軟件產(chǎn)品,利用它們可避免上述缺點(diǎn)。
為了達(dá)到上述目的,為這種轉(zhuǎn)換設(shè)備提供了按照本發(fā)明的各種特性,使得所述轉(zhuǎn)換設(shè)備具有如下特征一種轉(zhuǎn)換設(shè)備,它用于自動(dòng)轉(zhuǎn)換口述材料,該轉(zhuǎn)換設(shè)備具有接收裝置,它用于接收口述音頻數(shù)據(jù);并具有語音識(shí)別裝置,它用于將接收到的音頻數(shù)據(jù)轉(zhuǎn)換成自動(dòng)錄入的文本數(shù)據(jù);并具有輸出裝置,它用于輸出自動(dòng)錄入的文本數(shù)據(jù);并具有中止裝置,它用于在語音識(shí)別裝置所進(jìn)行的自動(dòng)轉(zhuǎn)換將要或已經(jīng)產(chǎn)生有較大量識(shí)別錯(cuò)誤的低質(zhì)量自動(dòng)錄入文本數(shù)據(jù)的情況下中止轉(zhuǎn)換設(shè)備對口述材料的處理。
為了達(dá)到上述目的,為這種轉(zhuǎn)換方法提供了本發(fā)明的各種特征,使得所述轉(zhuǎn)換方法具有如下特征一種用于自動(dòng)轉(zhuǎn)換口述材料的轉(zhuǎn)換方法,其中執(zhí)行下列步驟接收口述音頻數(shù)據(jù);將接收到的音頻數(shù)據(jù)轉(zhuǎn)換成自動(dòng)錄入的文本數(shù)據(jù);輸出自動(dòng)錄入的文本數(shù)據(jù);在自動(dòng)轉(zhuǎn)換過程中所產(chǎn)生的自動(dòng)錄入的文本數(shù)據(jù)將要或已經(jīng)產(chǎn)生有較大量識(shí)別錯(cuò)誤的低質(zhì)量的情況下中止對口述材料的處理。
為了達(dá)到上述目的,為這種計(jì)算機(jī)軟件產(chǎn)品提供了本發(fā)明的各種特征,使得所述計(jì)算機(jī)軟件產(chǎn)品具有如下特征
一種計(jì)算機(jī)軟件產(chǎn)品,它直接裝進(jìn)數(shù)字計(jì)算機(jī)的內(nèi)存并且包括軟件代碼的各部分,其中,若上述產(chǎn)品在計(jì)算機(jī)上運(yùn)行,則由計(jì)算機(jī)來執(zhí)行如權(quán)利要求8所述的轉(zhuǎn)換方法的各步驟。
通過這種方式,可以獲得這樣的優(yōu)點(diǎn)即依照上述轉(zhuǎn)換方法,若確定了仍被自動(dòng)錄入的文本數(shù)據(jù)或已自動(dòng)錄入的文本數(shù)據(jù)將要包括或已經(jīng)包括了太多的識(shí)別錯(cuò)誤,以致于校對員不得不花費(fèi)比錄入員從開始人工錄入口述材料所需時(shí)間更多的時(shí)間去修訂這些錯(cuò)誤,則轉(zhuǎn)換設(shè)備中止對用戶口述材料的自動(dòng)處理。通過這種方式,能盡快地中止對有問題的口述材料的最終的不成功的自動(dòng)轉(zhuǎn)換。從而能最佳地更有效地利用錄入員和校對員的工作時(shí)間,并且,還能節(jié)省運(yùn)行該計(jì)算機(jī)軟件的服務(wù)器的計(jì)算能力。
依照包含在按照權(quán)利要求2中的措施,可獲得這樣的優(yōu)點(diǎn)即所述轉(zhuǎn)換設(shè)備檢查接收到的口述音頻數(shù)據(jù)的質(zhì)量,從而在使用語音識(shí)別裝置進(jìn)行實(shí)際的自動(dòng)轉(zhuǎn)換之前決定是否能對所述的音頻數(shù)據(jù)進(jìn)行成功的自動(dòng)轉(zhuǎn)換。
依照包含在權(quán)利要求3、權(quán)利要求4、權(quán)利要求5、權(quán)利要求9和權(quán)利要求10中的措施,可獲得這樣的優(yōu)點(diǎn)即可確定用于后續(xù)語音識(shí)別的口述音頻數(shù)據(jù)的質(zhì)量的有意義的指標(biāo)。根據(jù)這些指標(biāo),可就繼續(xù)或中止用轉(zhuǎn)換設(shè)備對口述材料的處理作出合理的決斷。
依照權(quán)利要求6和權(quán)利要求11的措施,自動(dòng)錄入的文本數(shù)據(jù)中的可能不正確識(shí)別的字的數(shù)量與在轉(zhuǎn)換設(shè)備所確定的“置信度”的基礎(chǔ)上自動(dòng)錄入的文本數(shù)據(jù)中的所有字的數(shù)量相關(guān)。如果這種計(jì)算產(chǎn)生低于錯(cuò)誤閾值的錯(cuò)誤率,則中止用轉(zhuǎn)換設(shè)備進(jìn)行的處理,并且,不將自動(dòng)錄入的文本數(shù)據(jù)提供給校對員。
依照權(quán)利要求7和權(quán)利要求12的措施,可獲得這樣的優(yōu)點(diǎn)即在中止了轉(zhuǎn)換設(shè)備的處理之后立即由轉(zhuǎn)換設(shè)備重新傳輸有問題的口述音頻數(shù)據(jù),以允許進(jìn)行人手轉(zhuǎn)換。
以下參照附圖所示的實(shí)施例實(shí)例來進(jìn)一步說明本發(fā)明,但本發(fā)明并不局限于上述實(shí)例。
圖1示出了一種轉(zhuǎn)換系統(tǒng),用戶可將口述音頻數(shù)據(jù)發(fā)送給該系統(tǒng),由此,用戶可從轉(zhuǎn)換系統(tǒng)接收根據(jù)口述材料錄入的文本數(shù)據(jù)和發(fā)票。
圖1示出了用戶終端1、2和3,它們通過因特網(wǎng)NET與轉(zhuǎn)換系統(tǒng)5的服務(wù)器4相連。用戶終端1呈計(jì)算機(jī)的形式,話筒與該計(jì)算機(jī)相連。計(jì)算機(jī)用戶可將材料口述進(jìn)話筒,然后,通過運(yùn)行在計(jì)算機(jī)上的聲音錄制軟件將這種材作為數(shù)字音頻數(shù)據(jù)存儲(chǔ)在計(jì)算機(jī)的硬盤上。計(jì)算機(jī)將數(shù)字音頻數(shù)據(jù)作為音頻數(shù)據(jù)AI傳給服務(wù)器4。音頻數(shù)據(jù)AI在這種情況下還包含有標(biāo)識(shí)用戶的用戶信息序列。
用戶終端2呈電話和計(jì)算機(jī)的形式。用戶終端2的用戶可用電話通過因特網(wǎng)NET撥叫服務(wù)器4并將材料口述進(jìn)電話,這種材料作為音頻數(shù)據(jù)AI傳給服務(wù)器4。
用戶終端3呈數(shù)字口述機(jī)和計(jì)算機(jī)的形式。用戶終端3的用戶可用口述機(jī)來將口述材料作為數(shù)字音頻數(shù)據(jù)錄制下來并在以后將其拷貝到計(jì)算機(jī)硬盤上。計(jì)算機(jī)將數(shù)字音頻數(shù)據(jù)作為音頻數(shù)據(jù)AI傳給服務(wù)器4。
可用轉(zhuǎn)換系統(tǒng)5來錄入傳給服務(wù)器4的口述音頻數(shù)據(jù)AI即將其轉(zhuǎn)換成錄入的文本數(shù)據(jù)TI。然后,服務(wù)器4將轉(zhuǎn)換系統(tǒng)5錄入的文本數(shù)據(jù)TI傳給與用戶終端1、2或3相關(guān)的計(jì)算機(jī),通過這些計(jì)算機(jī)來接收音頻數(shù)據(jù)AI。最后由與相應(yīng)用戶終端1、2或3相關(guān)的計(jì)算機(jī)將通過用戶終端1、2或3接收的錄入文本數(shù)據(jù)顯示給用戶,用戶終端是以下將予以詳細(xì)說明的裝置。
可按人工和自動(dòng)的兩種方式來錄入提供給服務(wù)器4的音頻數(shù)據(jù)AI。由轉(zhuǎn)換系統(tǒng)5的多個(gè)雇員(稱為錄入員)來進(jìn)行人工轉(zhuǎn)換,錄入員用符號表示為錄入員6。就人工轉(zhuǎn)換而言,正如長期所周知的那樣,錄入員6聽口述的音頻數(shù)據(jù)AI并同時(shí)用計(jì)算機(jī)寫下呈人工錄入的文本數(shù)據(jù)MTTI形式的口語文本。
轉(zhuǎn)換系統(tǒng)5的其它雇員(稱為校對員,用符號表示為校對員7)從錄入員6接收人工錄入的文本數(shù)據(jù)MTTI以及相關(guān)的口述音頻數(shù)據(jù)AI。校對員7再次聽口述的音頻數(shù)據(jù)AI、檢查人工錄入的文本數(shù)據(jù)MTTI的轉(zhuǎn)換錯(cuò)誤并且校正所發(fā)現(xiàn)的任何轉(zhuǎn)換錯(cuò)誤。將校對員7所檢查的人工錄入的文本數(shù)據(jù)MTTI作為錄入的文本數(shù)據(jù)TI提供給服務(wù)器4,從而提供給相應(yīng)的用戶設(shè)備1、2或3。
服務(wù)器4包括具有服務(wù)器4所運(yùn)行的軟件模塊的形式的接口裝置8和調(diào)制解調(diào)器。接口裝置8設(shè)計(jì)成能從用戶設(shè)備1、2和3接收音頻數(shù)據(jù)AI并且能將接收到的音頻數(shù)據(jù)AI再傳給錄入員6。校對員7將錄入的文本數(shù)據(jù)TI提供給接口裝置8,接口裝置8則將該數(shù)據(jù)傳給正確的用戶設(shè)備1、2或3。
服務(wù)器4還包括轉(zhuǎn)換設(shè)備9,它用于根據(jù)轉(zhuǎn)換方法自動(dòng)地轉(zhuǎn)換口述音頻數(shù)據(jù)AI。為此,轉(zhuǎn)換設(shè)備9運(yùn)行構(gòu)成了計(jì)算機(jī)軟件產(chǎn)品的語音識(shí)別軟件。這類語音識(shí)別軟件的一個(gè)實(shí)例是Phillps公司用“SpeechMagic”名稱出售的軟件。
轉(zhuǎn)換設(shè)備9包括用于按收口述音頻數(shù)據(jù)的接收裝置,該接收裝置呈接口裝置8的形式。轉(zhuǎn)換設(shè)備9還包括三個(gè)語音識(shí)別裝置10、11和12,它們設(shè)計(jì)成能將接收的音頻數(shù)據(jù)AI轉(zhuǎn)換成自動(dòng)錄入的文本數(shù)據(jù)ATTI。服務(wù)器4并行地運(yùn)行語音識(shí)別軟件三次,從而形成了三個(gè)語音識(shí)別裝置10、11和12。通過這種方式,可并行地處理來自三批口述材料的音頻數(shù)據(jù)AI,從而能提高轉(zhuǎn)換設(shè)備3的處理能力。
轉(zhuǎn)換設(shè)備9還包括輸出裝置13,語音識(shí)別裝置10、11和12可將自動(dòng)錄入的文本數(shù)據(jù)ATTI提供給該輸出裝置。輸出裝置13設(shè)計(jì)成能將口述音頻材料AI連同通過語音識(shí)別裝置10、11或12之一自動(dòng)錄入的文本數(shù)據(jù)ATTI提供給校對員7。校對員7再次聽口述的音頻數(shù)據(jù)、檢查自動(dòng)錄入的文本數(shù)據(jù)ATTI的轉(zhuǎn)換錯(cuò)誤并校正這些錯(cuò)誤。
從文件WO00/46787中周知有諸如上述之類的轉(zhuǎn)換系統(tǒng)5,上述文件的內(nèi)容通過引用可視為構(gòu)成了本文件內(nèi)容的一部分。接口裝置8將要錄入的音頻數(shù)據(jù)AI提供給錄入員6以便人工轉(zhuǎn)換或者提供給轉(zhuǎn)換設(shè)備9以便自動(dòng)轉(zhuǎn)換。這方面,如文件WO00/46787所述那樣,要考慮用戶過去是否經(jīng)常使用轉(zhuǎn)換系統(tǒng)5。
轉(zhuǎn)換設(shè)備9包括中止裝置,它用于在語音識(shí)別裝置10、11或12所進(jìn)行的自動(dòng)轉(zhuǎn)換會(huì)將要或已經(jīng)產(chǎn)生了有較大量的識(shí)別錯(cuò)誤的質(zhì)量差的自動(dòng)錄入的文本數(shù)據(jù)ATTI的情況下中止轉(zhuǎn)換設(shè)備9對口述音頻的處理。轉(zhuǎn)換設(shè)備9的第一中止裝置14設(shè)計(jì)成能檢查接收到的用于由語音識(shí)別裝置10、11或12所進(jìn)行下游語音識(shí)別的音頻數(shù)據(jù)AI的質(zhì)量并且能在接收到的音頻數(shù)據(jù)AI的質(zhì)量不允許進(jìn)行成功的自動(dòng)轉(zhuǎn)換的情況下中止轉(zhuǎn)換設(shè)備9對口述材料的處理。
第一中止裝置14包含第一檢查裝置15和監(jiān)視裝置16。第一檢查裝置15包括模擬/數(shù)字轉(zhuǎn)換器,用該轉(zhuǎn)換器將按數(shù)字音頻數(shù)據(jù)形式接收的音頻數(shù)據(jù)AI轉(zhuǎn)換成模擬音頻信號。如通常周知的那樣,第一檢查裝置15設(shè)計(jì)成能作為第一次檢查而檢查模擬音頻信號的信噪比。如通常所周知的那樣,第一檢查裝置15設(shè)計(jì)成能作為第二次檢查而檢查模擬音頻信號的電平。
如果在第一次檢查期間第一檢查裝置15發(fā)現(xiàn)模擬音頻信號的信噪比比S/N閾值(例如S/N閾值=20dB)差,則第一檢查裝置15將第一中止信號ABI1提供給監(jiān)視裝置16。如果在第二次檢查期間第一檢查裝置15發(fā)現(xiàn)模擬音頻信號的電平比電平閾值(例如電平閾值=-30dB)差,則第一檢查裝置15將第二中止信號ABI2提供給監(jiān)視裝置16。此外,將第一檢查裝置15所檢查的音頻數(shù)據(jù)AI再傳給監(jiān)視裝置16。
如果由于檢查的結(jié)果第一檢查裝置15既沒將第一中止信號ABI1也沒將第二中止信號ABI2提供給監(jiān)視裝置16,則監(jiān)視裝置16將音頻數(shù)據(jù)AI重傳給語音識(shí)別裝置10、11或12中當(dāng)前可用的一個(gè)。
通過這種方式,可獲得這樣的優(yōu)點(diǎn)即如果接收到音頻數(shù)據(jù)AI對語音識(shí)別裝置10、11或12所進(jìn)行的下游語音識(shí)別來說是足夠好的,則轉(zhuǎn)換設(shè)備9就執(zhí)行對口述音頻數(shù)據(jù)AI的自動(dòng)轉(zhuǎn)換。因此,服務(wù)器4的計(jì)算能力能最佳地投入使用,因?yàn)椋瑑H錄入了其音頻數(shù)據(jù)AI具有高質(zhì)量的口述材料。
另一方面,如果作為檢查的結(jié)果第一檢查裝置15將第一中止信號ABI1和/或第二中止信號ABI2提供給監(jiān)視裝置16,則監(jiān)視裝置16將音頻數(shù)據(jù)AI重傳給錄入員6。這方面,監(jiān)視裝置16構(gòu)成了重傳輸裝置。
通過這種方式,可獲得這樣的優(yōu)點(diǎn)即如果接收到音頻數(shù)據(jù)AI對語音識(shí)別裝置10、11或12所進(jìn)行的下游語音識(shí)別來說不是足夠好的,則轉(zhuǎn)換設(shè)備9就根本不執(zhí)行對口述音頻數(shù)據(jù)AI的自動(dòng)轉(zhuǎn)換并開始人工轉(zhuǎn)換。這方面,特別的優(yōu)點(diǎn)是,監(jiān)視裝置16立即將這種口述音頻數(shù)據(jù)AI自動(dòng)地重傳給錄入員6以便人工轉(zhuǎn)換。
正如本技術(shù)的專家長期所周知的那樣,在將音頻數(shù)據(jù)AI轉(zhuǎn)換成自動(dòng)錄入的文本數(shù)據(jù)ATTI的情況下,語音識(shí)別裝置10、11和12設(shè)計(jì)成去確定為自動(dòng)錄入的文本數(shù)據(jù)ATTI的每個(gè)字的所謂的“置信度”。一個(gè)字的“置信度”是概率值,它表示該字能被語音識(shí)別裝置10、11或12正確識(shí)別的概率。語音識(shí)別裝置10、11和12設(shè)計(jì)成能將可靠性信號ZI提供給輸出裝置13,輸出裝置13給出用于自動(dòng)錄入的文本數(shù)據(jù)ATTI的各字的“置信度”。
轉(zhuǎn)換設(shè)備9的輸出裝置13還構(gòu)成了第二檢查裝置,它能進(jìn)行第三次檢查。在第三次檢查中,第二檢查裝置檢查自動(dòng)錄入的文本數(shù)據(jù)ATTI有多少個(gè)字?jǐn)?shù)K其概率值比閾值概率值(例如閾值概率值=50%)低。
如果自動(dòng)錄入的文本數(shù)據(jù)ATTI的每N個(gè)字的識(shí)別錯(cuò)誤數(shù)K大于錯(cuò)誤閾值(例如錯(cuò)誤閾值=20%),則第二檢查裝置將第二中止信號ABI3提供給監(jiān)視裝置16。這方面,輸出裝置13的第三檢查裝置連同監(jiān)視裝置16構(gòu)成了第二中止裝置。如果監(jiān)視裝置16接收到第三中止信號ABI3,則監(jiān)視裝置16將這一口述音頻數(shù)據(jù)AI提供給錄入員6。
通過這種方式,可獲得這樣的優(yōu)點(diǎn),不將包含有大量識(shí)別錯(cuò)誤的自動(dòng)錄入的文本數(shù)據(jù)ATTI輸出給校對員7,因?yàn)?,校對員7在這種情況下要比錄入員6從開始人工地錄入上述口述材料需要更多的時(shí)間去進(jìn)行必要的校正。
以下參照三個(gè)應(yīng)用實(shí)例詳細(xì)說明本發(fā)明轉(zhuǎn)換設(shè)備9的優(yōu)點(diǎn)。依照第一個(gè)應(yīng)用實(shí)例,假定醫(yī)生經(jīng)常使用轉(zhuǎn)換系統(tǒng)5提供的轉(zhuǎn)換服務(wù)。所以,語音識(shí)別裝置10、11和12包含存儲(chǔ)的用戶標(biāo)識(shí),這些標(biāo)識(shí)是針對根據(jù)業(yè)已錄入的口述音頻數(shù)據(jù)AI所確定的醫(yī)生的。語音識(shí)別裝置10、11和12能根據(jù)醫(yī)生口述的材料產(chǎn)生自動(dòng)流入的文本數(shù)據(jù)ATTI,它具有很少的識(shí)別錯(cuò)誤。
醫(yī)生使用他的用戶終端2,其中,醫(yī)生在通過電話呼叫服務(wù)器4并識(shí)別了自身之后將材料口述進(jìn)電話。但是,在這種情況下,醫(yī)生忘記關(guān)閉其診室窗戶,為此,街道上的噪音會(huì)疊加到口述音頻數(shù)據(jù)AI上。
由于醫(yī)生口述的材料通常已能由轉(zhuǎn)換設(shè)備9成功地進(jìn)行自動(dòng)轉(zhuǎn)換,故接口裝置8將接收到的音頻數(shù)據(jù)AI傳給第一檢查裝置15。第一檢查裝置通過第一次檢查確定包含音頻數(shù)據(jù)AI的音頻信號的信噪比對于要利用語音識(shí)別裝置10、11或12之一來自動(dòng)轉(zhuǎn)換以得到其識(shí)別錯(cuò)誤達(dá)到可接受水平的自動(dòng)錄入的文本數(shù)據(jù)ATTI來說是太差了。并將第一中止信號ABI1提供給監(jiān)視裝置16。通過第二次檢查,第一檢查裝置15確定包含音頻數(shù)據(jù)AI的音頻信號的水平是足夠好的,所以不將第二中止信號ABI2提供給監(jiān)視裝置16。
第一中止裝置14有利地設(shè)計(jì)成在語音識(shí)別裝置10、11或12開始自動(dòng)轉(zhuǎn)換音頻數(shù)據(jù)AI之前中止轉(zhuǎn)換設(shè)備9對口述材料的處理。在這種情況下,監(jiān)視裝置16將接收到的音頻數(shù)據(jù)AI重傳給錄入員6以便在接收到第一中止信號ABI1之后人工地進(jìn)行轉(zhuǎn)換。因此,錄入員6人工地錄入上述疊加有街道上噪音從而難以錄入的口述材料,然后將其傳給校對員7。
因此,證實(shí)了能最佳地使整個(gè)人工和因而是由錄入員6和校對員7就口述材料所進(jìn)行的成本密集的工作達(dá)到最小,因?yàn)?,校對員7將要花費(fèi)非常長的時(shí)間去修訂自動(dòng)錄入的文本數(shù)據(jù)ATTI。
依照第二個(gè)應(yīng)用實(shí)例,假定因病人在醫(yī)生的診室內(nèi)睡著了,醫(yī)生正在非常輕聲地口述另外的項(xiàng)目。通過對醫(yī)生的另外口述項(xiàng)目的音頻數(shù)據(jù)AI的第二次檢查,第一檢查裝置15確定包含音頻數(shù)據(jù)AI的音頻信號的電平低于電平閾值并將第二中止信號ABI2提供給監(jiān)視裝置16。第一中止裝置14據(jù)此在自動(dòng)轉(zhuǎn)換之前中止對上述另外的口述項(xiàng)目的處理,從而,可獲得上述優(yōu)點(diǎn)。
依照第三個(gè)應(yīng)用實(shí)例,假定醫(yī)生正口述另外的項(xiàng)目并將其傳給轉(zhuǎn)換系統(tǒng)5以便轉(zhuǎn)換。還通過接口裝置8將所述另外的口述項(xiàng)目重傳給轉(zhuǎn)換設(shè)備9。由于口述音頻數(shù)據(jù)AI的質(zhì)量是足夠好的,故第一檢查裝置既不將第一中止信號ABI1也不將第二中止信號ABI2提供給監(jiān)視裝置16。
第二語音識(shí)別裝置11據(jù)此錄入上述另外的口述音頻數(shù)據(jù)AI,其中,由第二識(shí)別裝置11自動(dòng)錄入的文本數(shù)據(jù)ATTI展示出自動(dòng)錄入的文本數(shù)據(jù)ATTI的每100字有超過錯(cuò)誤閾值的多個(gè)識(shí)別錯(cuò)誤。這是因?yàn)椋t(yī)生在口述時(shí)聲音是啞的,并且,他/她的發(fā)音與通常是不同的。
輸出裝置13的第三檢查裝置自動(dòng)地觀察到,在執(zhí)行第三次檢查時(shí),識(shí)別錯(cuò)誤的數(shù)量超過錯(cuò)誤閾值并據(jù)此將第三中止信號ABI3提供給監(jiān)視裝置16。監(jiān)視裝置16據(jù)此將上述另外的口述音頻數(shù)據(jù)AI重傳給錄入員6,從而,可獲得上述優(yōu)點(diǎn)。
應(yīng)該認(rèn)識(shí)到,本發(fā)明的轉(zhuǎn)換設(shè)備還可包括檢查裝置,它用于檢查接收到的音頻數(shù)據(jù)并用于檢查中間結(jié)果的質(zhì)量或自動(dòng)轉(zhuǎn)換的最終結(jié)果。根據(jù)這些檢查,所述中止裝置決定轉(zhuǎn)換設(shè)備中止對口述材料的處理是否有利。
應(yīng)該認(rèn)識(shí)到,本發(fā)明的中止裝置還可以設(shè)置在提供聯(lián)機(jī)轉(zhuǎn)換的轉(zhuǎn)換設(shè)備內(nèi)。
應(yīng)該認(rèn)識(shí)到,校對員通常只對人工錄入的文本數(shù)據(jù)MTTI進(jìn)行抽查。
應(yīng)該認(rèn)識(shí)到,所述語音識(shí)別裝置可類似地包括中止裝置,該裝置例如在執(zhí)行轉(zhuǎn)換上述接收到的音頻數(shù)據(jù)20秒之后比較根據(jù)音頻數(shù)據(jù)自動(dòng)錄入的文本數(shù)據(jù)的質(zhì)量與錯(cuò)誤閾值并有選擇地中止處理。這就能獲得這樣的優(yōu)點(diǎn)即還可在自動(dòng)轉(zhuǎn)換過程中中止對接收到的音頻數(shù)據(jù)的處理。
應(yīng)該認(rèn)識(shí)到,所述第一中止裝置還設(shè)計(jì)成能檢查接收到的音頻數(shù)據(jù)的非線性失真。例如當(dāng)音頻信號被過載時(shí)或在對音頻數(shù)據(jù)壓縮或解壓縮期間出現(xiàn)問題時(shí)會(huì)出現(xiàn)這種非線性變形。由于在接收到的音頻數(shù)據(jù)表現(xiàn)出非線失真的情況下語音識(shí)別裝置的識(shí)別率是較差的,故在非線性失真太大的情況下中止對音頻數(shù)據(jù)的處理是有利的。
權(quán)利要求
1.一種用于自動(dòng)轉(zhuǎn)換口述材料的轉(zhuǎn)換設(shè)備(5),該轉(zhuǎn)換設(shè)備具有接收裝置(8),它用于接收口述音頻數(shù)據(jù)(AI);并具有語音識(shí)別裝置(10、11、12),它用于將接收到的音頻數(shù)據(jù)(AT)轉(zhuǎn)換成自動(dòng)錄入的文本數(shù)據(jù)(ATTI);并具有輸出裝置(13),它用于輸出自動(dòng)錄入的文本數(shù)據(jù)(ATTI);并具有中止裝置(13、14、16),它用于在語音識(shí)別裝置(10、11、12)所進(jìn)行的自動(dòng)轉(zhuǎn)換將要或已經(jīng)產(chǎn)生有較大量識(shí)別錯(cuò)誤的低質(zhì)量自動(dòng)錄入文本數(shù)據(jù)(ATTI)的情況下中止轉(zhuǎn)換設(shè)備(5)對口述材料的處理。
2.如權(quán)利要求1的轉(zhuǎn)換設(shè)備,其特征在于,所述中止裝置(14)設(shè)計(jì)成能檢查接收到的用于由語音識(shí)別裝置(10、11、12)所進(jìn)行的下游語音識(shí)別的音頻數(shù)據(jù)(AI)的質(zhì)量,并且能在接收到的音頻數(shù)據(jù)(AI)的質(zhì)量不允許進(jìn)行成功的自動(dòng)轉(zhuǎn)換的情況下中止轉(zhuǎn)換設(shè)備(5)對口述材料的處理。
3.如權(quán)利要求2的轉(zhuǎn)換設(shè)備(5),其特征在于,所述中止裝置(14)設(shè)計(jì)成能檢查含有接收到的音頻數(shù)據(jù)(AI)的音頻信號的信噪比。
4.如權(quán)利要求2的轉(zhuǎn)換設(shè)備(5),其特征在于,所述中止裝置(14)設(shè)計(jì)成能檢查含有接收到的音頻數(shù)據(jù)(AI)的音頻信號的電平。
5.如權(quán)利要求2的轉(zhuǎn)換設(shè)備,其特征在于,所述中止裝置設(shè)計(jì)成能檢查含有音頻數(shù)據(jù)的音頻信號是否具有非線性失真。
6.如權(quán)利要求1的轉(zhuǎn)換設(shè)備(5),其特征在于,所述中止裝置(13)設(shè)計(jì)成能檢查自動(dòng)錄入的文本數(shù)據(jù)(ATTI)的質(zhì)量,并能在自動(dòng)錄入的文本數(shù)據(jù)(ATTI)包含有超過自動(dòng)錄入的文本數(shù)據(jù)(ATTI)的每N個(gè)字的識(shí)別錯(cuò)誤的識(shí)別閾值的數(shù)值的情況下中止轉(zhuǎn)換設(shè)備(5)對口述材料的處理。
7.如權(quán)利要求1的轉(zhuǎn)換設(shè)備(5),其特征在于,設(shè)置有重傳裝置(16),該裝置設(shè)計(jì)成能在中止了轉(zhuǎn)換設(shè)備(5)對口述材料的處理之后重傳接收到的音頻數(shù)據(jù)(AI),以便允許人工地轉(zhuǎn)換口述材料。
8.一種用于自動(dòng)轉(zhuǎn)換口述材料的轉(zhuǎn)換方法,其中執(zhí)行下列步驟接收口述音頻數(shù)據(jù)(AI);將接收到的音頻數(shù)據(jù)(AI)轉(zhuǎn)換成自動(dòng)錄入的文本數(shù)據(jù)(ATTI);輸出自動(dòng)錄入的文本數(shù)據(jù)(ATTI);在自動(dòng)轉(zhuǎn)換過程中所產(chǎn)生的自動(dòng)錄入的文本數(shù)據(jù)(ATTI)將要或已經(jīng)產(chǎn)生有較大量識(shí)別錯(cuò)誤的低質(zhì)量的情況下中止對口述材料的處理。
9.如權(quán)利要求8的轉(zhuǎn)換方法,其特征在于,還執(zhí)行下列步驟檢查接收到的用于下游語音識(shí)別的音頻數(shù)據(jù)(AI)的質(zhì)量,其中,檢查含有接收到的音頻數(shù)據(jù)(AI)的音頻信號的信噪比;在接收到的音頻數(shù)據(jù)(AI)的質(zhì)量不允許進(jìn)行成功的自動(dòng)轉(zhuǎn)換的情況下中止對口述材料的處理。
10.如權(quán)利要求8的轉(zhuǎn)換方法,其特征在于,還執(zhí)行下列步驟檢查接收到的用于下游語音識(shí)別的音頻數(shù)據(jù)(AI)的質(zhì)量,其中,檢查含有接收到的音頻數(shù)據(jù)(AI)的音頻信號的電平;在接收到的音頻數(shù)據(jù)(AI)的質(zhì)量不允許進(jìn)行成功的自動(dòng)轉(zhuǎn)換的情況下中止對口述材料的處理。
11.如權(quán)利要求8的轉(zhuǎn)換方法,其特征在于,還執(zhí)行下列步驟檢查自動(dòng)錄入的文本數(shù)據(jù)(ATTI)的質(zhì)量;在自動(dòng)錄入的文本數(shù)據(jù)(ATTI)包含有超過自動(dòng)錄入的文本數(shù)據(jù)(ATTI)的每N個(gè)字的識(shí)別錯(cuò)誤的識(shí)別閾值的數(shù)值的情況下中止對口述材料的處理。
12.如權(quán)利要求8的轉(zhuǎn)換方法,其特征在于,還執(zhí)行下列步驟重傳接收到的音頻數(shù)據(jù)(AI),以便在中止了對口述材料的處理的情況下允許對口述材料進(jìn)行人工轉(zhuǎn)換。
13.一種計(jì)算機(jī)軟件產(chǎn)品,它直接裝入數(shù)字計(jì)算機(jī)(9)的內(nèi)部存儲(chǔ)器中并且包括軟件代碼部分,其中,若上述產(chǎn)品在計(jì)算機(jī)(9)上運(yùn)行,則由計(jì)算機(jī)來執(zhí)行如權(quán)利要求8所述的轉(zhuǎn)換方法的步驟。
14.如權(quán)利要求13的計(jì)算機(jī)程序產(chǎn)品,其特征在于,該產(chǎn)品存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)內(nèi)。
全文摘要
轉(zhuǎn)換系統(tǒng)(5)包括用于自動(dòng)轉(zhuǎn)換口述材的料轉(zhuǎn)換設(shè)備(9)并且還使用錄入員(6),錄入員(6)人工地錄入某些口述材料。轉(zhuǎn)換設(shè)備(9)包含有中止裝置,它用于在口述音頻數(shù)據(jù)(AI)的質(zhì)量或自動(dòng)錄入的文本數(shù)據(jù)(ATTI)的質(zhì)量是差的從而校正自動(dòng)錄入的文本數(shù)據(jù)(ATTI)中的識(shí)別錯(cuò)誤比從開始就人工錄入口述材料需要更多的努力的情況下中止轉(zhuǎn)換設(shè)備(9)對口述材料的處理并將口述材料重傳給錄入員(6)之一,以便人工錄入。
文檔編號G10L15/28GK1459091SQ02800699
公開日2003年11月26日 申請日期2002年3月13日 優(yōu)先權(quán)日2001年3月16日
發(fā)明者H·F·巴托斯克 申請人:皇家菲利浦電子有限公司