專利名稱:語音文件生成系統(tǒng)以及方法
技術領域:
本發(fā)明是關于一種語音文件生成系統(tǒng)以及方法,特別是關于一種應用在數(shù)據(jù)處理裝置上的語音文件生成系統(tǒng)以及方法。
背景技術:
隨著電子信息產(chǎn)業(yè)發(fā)展的日新月異,各種功能強大且價格低廉的消費性電子信息產(chǎn)品紛紛問世。舉例而言,為了能進一步與使用外國語言的人士溝通,大量具有語言學習功能的數(shù)據(jù)處理裝置如雨后春筍一般出現(xiàn)在消費市場中。通過如計算機或電子辭典等數(shù)據(jù)處理裝置進行的語文學習過程中,如何能夠提供學習者近乎與真人相同的學習環(huán)境,達到無須通過與真人的互動,僅通過與該數(shù)據(jù)處理裝置間的互動即可達到語文學習的功效,已成為研發(fā)者所必須面對的問題。
提供語音學習功能是一種仿真的真人教學方式,由于現(xiàn)今數(shù)據(jù)處理裝置的數(shù)據(jù)處理效率以及資料儲存容量的大幅增加,處理趨近于人聲原音的語音音效已不再造成研發(fā)者的困擾?,F(xiàn)有的語音學習系統(tǒng)與方法是通過播放一段預錄的語音文件,學習者聽到一定的段落或是全部聽完后,自己再跟讀一遍。只是這種學習方式的使用者無法自我判斷學習的效果,因此研發(fā)者提出另一種具有識別功能的語音學習系統(tǒng),它是通過錄制學習者跟讀的語音,再通過識別機制判斷預錄的語音與跟讀的語音間的差別程度,作為學習者學習效果的評定。
上述現(xiàn)有語音學習系統(tǒng)固然可以提供學習者一個仿真的聽說學習環(huán)境。然這些語音資料均是由語音學習系統(tǒng)的制造者預先錄制在該系統(tǒng)中,縱使提供使用者可以從網(wǎng)絡或其它的資料存儲單元中取得更新或擴充的語音資料。另一方面,學習者也無法依據(jù)自身的學習狀況或需求設定相關的語音學習環(huán)境,例如設定學習特定的段落、設定原文字幕及/或譯文字幕等。因此,語音學習的效率難以有效的提高。
綜上所述,如何能夠提供一種具有可供學習者依據(jù)自身的學習狀況或需求設定相關語音學習環(huán)境的語音文件生成系統(tǒng)以及方法,成為亟待解決的課題。
發(fā)明內(nèi)容
為解決上述現(xiàn)有技術的缺點,本發(fā)明的主要目的在于提供一種可供學習者依據(jù)自身的學習狀況或需求設定相關語音學習環(huán)境的語音文件生成系統(tǒng)以及方法。
為達成以上所述及其它目的,本發(fā)明的語音文件生成系統(tǒng)包括資源存取模塊,依據(jù)設定的資源路徑連接至語音資源提供裝置、并依據(jù)存取條件存取語音資源;文件格式轉(zhuǎn)換模塊,將所存取的語音資源格式轉(zhuǎn)換成預設的文件格式;后期制作模塊,提供制作接口與工具,符合預設格式的語音資源的后期制作處理;以及數(shù)據(jù)庫,儲存該經(jīng)過后期制作處理的語音資源。
通過該語音文件生成系統(tǒng),執(zhí)行語音文件生成的方法是提供資源存取模塊以依據(jù)設定的資源路徑連接至語音資源提供裝置、并依據(jù)存取條件存取語音資源;提供文件格式轉(zhuǎn)換模塊將存取的語音資源格式轉(zhuǎn)換成預設的文件格式;提供后期制作模塊提供制作接口與工具,將符合預設格式的語音資源進行后期制作處理;以及提供數(shù)據(jù)庫儲存該經(jīng)過后期制作處理的語音資源。
與現(xiàn)有的語音文件生成技術相比,本發(fā)明的語音文件生成系統(tǒng)以及方法可提供一種語音文件后期制作機制,供學習者依據(jù)自身的學習狀況或需求設定相關語音學習環(huán)境。
圖1,是本發(fā)明的語音文件生成系統(tǒng)的基本結(jié)構(gòu)圖;以及圖2,是本發(fā)明的語音文件生成方法的流程圖。
具體實施例方式
實施例請參閱圖1,它是本發(fā)明的語音文件生成系統(tǒng)1的基本結(jié)構(gòu)圖,如圖所示,本發(fā)明的語音文件生成系統(tǒng)1包括資源存取模塊12、文件格式轉(zhuǎn)換模塊14、后期制作模塊16以及數(shù)據(jù)庫18。
在本實施例中,本發(fā)明的語音文件生成系統(tǒng)1是應用在一個人計算機2中,更具體而言是用于提供該個人計算機2語言發(fā)音學習的功能。需特別說明的是,該個人計算機2實際上還包括其它用于執(zhí)行資料運算的軟、硬及/或韌體,為避免模糊本案的技術特征,僅顯示與實施本發(fā)明的語音識別系統(tǒng)1以及方法相關的部分。此外,該個人計算機2也可替換成如電子辭典、個人數(shù)字助理、移動電話等具有支持語音出輸入功能的數(shù)據(jù)處理裝置。另一方面,較佳的該個人計算機2還具有網(wǎng)絡連接功能,通過網(wǎng)絡系統(tǒng)3連接至其它語音資源提供裝置4,如服務器裝置等,進行語音資源的存取。
該資源存取模塊12是用于依據(jù)設定的資源路徑連接至語音資源提供裝置并依據(jù)存取條件存取語音資源。在本實施例中,該資源存取模塊12依據(jù)的資源路徑,可例如是連接至該個人計算機2中的硬盤裝置、光盤儲存裝置、如USB隨身碟或讀卡裝置等外接存儲單元等;也可例如是符合一致性資源尋址器(URL)協(xié)議的資源地址上,如網(wǎng)絡服務器或文件服務器等資源提供裝置4,其中該一致性資源尋址器協(xié)議可例如是HTTP、Gopher、News、FTP或Telnet等,該資源存取模塊12可通過網(wǎng)絡系統(tǒng)3連接至這些語音資源提供裝置4。
此外,該資源存取模塊12可提供一輸入接口,供使用者通過該個人計算機2將上述這些資源路徑中的一個輸入至該輸入接口時,可依據(jù)該資源路徑連接至該硬盤裝置、光盤儲存裝置、外接存儲單元及/或網(wǎng)絡服務器、文件服務器等資源提供裝置,并存取該資源提供裝置提供的資源,特別是語音資源。該資源存取模塊12還可將存取的語音資源儲存至該個人計算機2中的硬盤裝置、光盤儲存裝置及/或外接存儲單元中。
該文件格式轉(zhuǎn)換模塊14是用于依據(jù)將存取的語音資源格式轉(zhuǎn)換成預設的文件格式。在本實施例中,該預設的語音資源文件格式是個人計算機上常用的數(shù)字聲音文件(digital audio file)格式「.WAV」。因此,當該資源存取模塊12存取到「.WAV」以外的語音文件格式的語音資源,如「.mp3」、「.wma」、「.rm」……等時,該文件格式轉(zhuǎn)換模塊14將這些「.WAV」以外的語音文件格式的語音資源轉(zhuǎn)換成「.WAV」文件格式。
此外,在該文件格式轉(zhuǎn)換模塊14將該原音頻與錄入音頻轉(zhuǎn)換為波形信號的過程中,可依據(jù)該取樣頻率設定模塊12設定的不同的取樣頻率(44kHz、22kHz或11kHz)與位數(shù)(8位或16位)及單音/立體聲等。需特別說明的是,該文件格式轉(zhuǎn)換模塊14也可利用其它的音頻波形信號轉(zhuǎn)換格式,如「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」等格式,由于這些音頻波形信號轉(zhuǎn)換格式是現(xiàn)有技術,故對其內(nèi)容也不予贅述。
該后期制作模塊16是提供制作接口與工具,用于將該文件格式轉(zhuǎn)換模塊14轉(zhuǎn)換成的預設格式的語音資源后,對其進行后期制作處理。在本實施例中,該后期制作模塊16可提供使用者通過該個人計算機2進行至少包括斷點索引、時間間隔、原文字幕以及譯文字幕等的后期制作處理。其中,該時間間隔是用于將一段語音資源切割成至少一區(qū)段;該斷點索引是用于提供設定該切割后的每一區(qū)段的索引標題,供使用者檢索之用;該原文字幕是用于提供使用者進行相應于語音資料的原文字幕輸入與設定,在該語音資源播放過程中同步顯示原文字幕供使用者對照參考;該譯文字幕則是用于提供使用者進行相應的語音資料的譯文字幕輸入與設定,在該語音資源播放過程中同步顯示譯文字幕供使用者對照參考,較佳的選擇是,該原文字幕可與該譯文字幕設定為同步在該語音資源播放的過程中顯示,以增加學習者,特別是初學者的學習效率。
該數(shù)據(jù)庫18是用于儲存該經(jīng)過后期制作處理的語音資源。在本實施例中,當通過該后期制作模塊16將該語音資源進行后期制作處理后,為避免與該資源存取模塊12從該語音資源提供裝置存取的原始語音資源相互混淆,故可在該個人計算機2中的該硬盤裝置、光盤儲存裝置、外接存儲單元設置該數(shù)據(jù)庫18,儲存該后期制作模塊16處理過的語音資源,該語音資源可例如是經(jīng)過斷點索引、時間間隔、原文字幕以及譯文字幕等后制處理的語音資源。
請參閱圖2,它是本發(fā)明的語音文件生成方法的流程。
在步驟S201中,提供該資源存取模塊12以依據(jù)設定的資源路徑連接至語音資源提供裝置并依據(jù)存取條件存取語音資源。在本實施例中,該資源存取模塊12所依據(jù)的資源路徑,可例如是連接至該個人計算機2中的硬盤裝置、光盤儲存裝置、USB隨身碟或讀卡裝置等外接存儲單元等;也可例如是符合一致性資源尋址器協(xié)議的資源地址上如網(wǎng)絡服務器或文件服務器等資源提供裝置。
此外,該資源存取模塊12可提供一輸入接口,供使用者通過該個人計算機2將上述這些資源路徑中的一個輸入至該輸入接口時,可依據(jù)該資源路徑連接至該資源提供裝置,并存取該資源提供裝置提供的資源,特別是語音資源。該資源存取模塊12還可將所存取的語音資源儲存至該個人計算機2中的硬盤裝置、光盤儲存裝置及/或外式存儲單元中。接著進行步驟S202。
在步驟S202中,提供該文件格式轉(zhuǎn)換模塊14將所存取的語音資源格式轉(zhuǎn)換成預設的文件格式。在本實施例中,該預設的語音資源文件格式是個人計算機上常用的數(shù)字聲音文件格式「.WAV」。因此,當該資源存取模塊12存取到「.WAV」以外的語音文件格式的語音資源時,隨即將這些「.WAV」以外的語音文件格式的語音資源轉(zhuǎn)換成「.WAV」文件格式。
此外,在該文件格式轉(zhuǎn)換模塊14將該原音頻與錄入音頻轉(zhuǎn)換為波形信號的過程中,可依據(jù)該取樣頻率設定模塊12設定的不同的取樣頻率(44kHz、22kHz或11kHz)與位數(shù)(8位或16位)及單音/立體聲等。接著進行步驟S203。
在步驟S203中,通過后期制作模塊16提供制作接口與工具,將該文件格式轉(zhuǎn)換模塊14轉(zhuǎn)換成預設格式的語音資源后進行后期制作處理。在本實施例中,該后期制作模塊16可提供使用者通過該個人計算機2進行至少包括斷點索引、時間間隔、原文字幕以及譯文字幕等的后期制作處理。其中,該時間間隔是用于將一段語音資源切割成至少一區(qū)段;該斷點索引是用于提供設定該切割后的每一區(qū)段的索引標題,供使用者檢索之用;該原文字幕是用于提供使用者進行相應的語音資料的原文字幕輸入與設定,在該語音資源播放過程中同步顯示原文字幕供使用者對照參考;該譯文字幕則是用于提供使用者進行相應的語音資料的譯文字幕輸入與設定,在該語音資源播放過程中同步顯示譯文字幕供使用者對照參考,較佳的選擇是,該原文字幕可與該譯文字幕設定為同步在該語音資源播放的過程中顯示,以增加學習者,特別是初學者的學習效率。接著進行步驟S204。
在步驟S204中,提供該數(shù)據(jù)庫18儲存該經(jīng)過后期制作處理的語音資源。在本實施例中,當通過該后期制作模塊16將該語音資源進行后期制作處理后,為避免與該資源存取模塊12從該語音資源提供裝置存取的原始語音資源相互混淆,故可在該個人計算機2中的該硬盤裝置、光盤儲存裝置、外接存儲單元設置該數(shù)據(jù)庫18,儲存該后期制作模塊16處理過后的語音資源,該語音資源可例如是經(jīng)過斷點索引、時間間隔、原文字幕以及譯文字幕等后期制作處理的語音資源。
綜上所述,本發(fā)明的語音文件生成系統(tǒng)以及方法可提供一種語音文件后制機制,供學習者依據(jù)自身的學習狀況或需求設定相關語音學習環(huán)境。使用者可將存取到的語音資源制作成符合特定要求的語音學習資源,達到個性化的語音學習環(huán)境,以增加學習的效率。
權(quán)利要求
1.一種語音文件生成系統(tǒng),應用在數(shù)據(jù)處理裝置中,其特征在于,該語音文件生成系統(tǒng)包括資源存取模塊,依據(jù)設定的資源路徑連接至語音資源提供裝置、并依據(jù)存取條件存取語音資源;文件格式轉(zhuǎn)換模塊,將所存取的語音資源格式轉(zhuǎn)換成預設的文件格式;后期制作模塊,提供制作接口與工具,符合預設格式的語音資源的后期制作處理;以及數(shù)據(jù)庫,儲存該經(jīng)過后期制作處理的語音資源。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,該資源路徑是連接至下述資源提供裝置中的一個硬盤裝置、光盤儲存裝置、外接存儲單元等以及符合一致性資源尋址器協(xié)議的資源地址協(xié)議的數(shù)據(jù)處理裝置。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,該資源存取模塊還提供一輸入接口,通過該數(shù)據(jù)處理裝置輸入該資源路徑至該輸入接口。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,該資源存取模塊還將所存取的語音資源儲存至該數(shù)據(jù)處理裝置中的硬盤裝置、光盤儲存裝置及外接存儲單元中的一個。
5.如權(quán)利要求1所述的系統(tǒng),其特征在于,該預設的文件格式是「.WAV」、「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」以及「.mat」格式中的一種文件格式。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于,該文件格式轉(zhuǎn)換模塊是將預設的文件格式以外的語音文件格式的語音資源轉(zhuǎn)換成預設的文件格式。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,該預設的文件格式以外的語音文件格式是「.mp3」、「.wma」以及「.rm」中的一種。
8.如權(quán)利要求1所述的系統(tǒng),其特征在于,該后期制作模塊是提供使用者通過該數(shù)據(jù)處理裝置進行至少包括斷點索引、時間間隔、原文字幕以及譯文字幕等其中一種的后期制作處理。
9.如權(quán)利要求2所述的系統(tǒng),其特征在于,該存儲單元是設置在該硬盤裝置、光盤儲存裝置以及外接存儲單元的其中一個裝置中。
10.一種語音文件生成方法,應用在數(shù)據(jù)處理裝置中,該語音文件生成方法包括提供資源存取模塊以依據(jù)設定的資源路徑連接至語音資源提供裝置、并依據(jù)存取條件存取語音資源;提供文件格式轉(zhuǎn)換模塊將存取的語音資源格式轉(zhuǎn)換成預設的文件格式;提供后期制作模塊提供制作接口與工具,將符合預設格式的語音資源進行后期制作處理;以及提供數(shù)據(jù)庫儲存該經(jīng)過后期制作處理的語音資源。
11.如權(quán)利要求10所述的方法,其特征在于,該資源路徑是連接至下述資源提供裝置中的一個硬盤裝置、光盤儲存裝置、外接存儲單元等以及符合一致性資源尋址器(URL)協(xié)議的資源地址協(xié)議的資源提供裝置。
12.如權(quán)利要求10所述的方法,其特征在于,該資源存取模塊還提供一輸入接口,通過該數(shù)據(jù)處理裝置輸入該資源路徑至該輸入接口。
13.如權(quán)利要求10所述的方法,其特征在于,該資源存取模塊還將所存取的語音資源儲存至該數(shù)據(jù)處理裝置中的硬盤裝置、光盤儲存裝置及外接存儲單元中的一個。
14.如權(quán)利要求10所述的方法,其特征在于,該預設的文件格式是「.WAV 」、「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」以及「.mat」格式中的一種文件格式。
15.如權(quán)利要求14所述的方法,其特征在于,該文件格式轉(zhuǎn)換模塊是將預設的文件格式以外的語音文件格式的語音資源轉(zhuǎn)換成預設的文件格式文件格式。
16.如權(quán)利要求15所述的方法,其特征在于,該預設的文件格式以外的語音文件格式是「.mp3」、「.wma」以及「.rm」中的一種。
17.如權(quán)利要求10所述的方法,其特征在于,該后期制作模塊是提供使用者通過該數(shù)據(jù)處理裝置進行至少包括斷點索引、時間間隔、原文字幕以及譯文字幕等其中之一的后期制作處理。
18.如權(quán)利要求11所述的方法,其特征在于,該存儲單元是設置在該硬盤裝置、光盤儲存裝置以及外接式存儲單元其中之一中。
全文摘要
一種語音文件生成系統(tǒng)以及方法,是應用在數(shù)據(jù)處理裝置中,主要通過資源存取機制依據(jù)所設定的資源路徑連接至語音資源提供裝置并依據(jù)存取條件存取語音資源,再依據(jù)文件格式轉(zhuǎn)換機制將所存取的語音資源格式轉(zhuǎn)換成預設的文件格式,借由后制機制所提供的制作接口與工具將符合預設格式的語音資源予以后制處理,并儲存該經(jīng)過后制處理的語音資源至數(shù)據(jù)庫中。通過該語音文件生成系統(tǒng)以及方法,使用者可將存取到的語音資源制作成符合特定要求的語音學習資源,達到個性化的語音學習環(huán)境,以增加學習的效率。
文檔編號G06F17/30GK1755665SQ200410081060
公開日2006年4月5日 申請日期2004年9月30日 優(yōu)先權(quán)日2004年9月30日
發(fā)明者徐曉燕, 邱全成 申請人:英業(yè)達股份有限公司