專利名稱:改變發(fā)音速度的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種改變發(fā)音速度的方法,應(yīng)用于數(shù)位化的語音信息的發(fā)音處理,用以在對數(shù)位化的語音信息進(jìn)行發(fā)音速度的改變后,不會使其發(fā)音的音調(diào)失真的方法。
參照圖1,無論是Microsoft開發(fā)的ActiveMovie,MCI,還是其它公司開發(fā)的語音編輯軟件,其在計算機(jī)中對語音的采集、存儲、播放的方式,是將各種音源產(chǎn)生設(shè)備(如麥克風(fēng)、卡式錄音機(jī)等)10,所產(chǎn)生的語音信號,由一語音處理單元(如語音卡)20對語音信號進(jìn)行采樣,并通過邏輯處理單元30轉(zhuǎn)換成相對應(yīng)的數(shù)位化的語音信號、參照圖2,數(shù)位化的語音信號40是由多個音符信號段41、51、61所組成,而且每個音符信號段41還包含有多個信號采樣點411,最后再將此數(shù)位化的語音信號40存入一記錄媒體50的語音文件中;在播放語音時,只要將語音文件中的每個音符信號段41內(nèi)的信號采樣點411傳遞、輸出到語音處理單元30中,再由語音處理單元30將這些信號采樣點411放大輸出到聲音輸出單元60,即可由聲音輸出單元60發(fā)出可聽到的聲音信號。
而其中與發(fā)音有密切關(guān)系的數(shù)據(jù)是信號采樣點411,信號采樣點411是按照預(yù)先設(shè)定的采樣頻率,對原語音信號(指由麥克風(fēng)或卡式錄音機(jī)等設(shè)備產(chǎn)生者)進(jìn)行采樣,再將由這些信號采樣點411所組成的音符信號段41經(jīng)過處理后存入記錄媒體50內(nèi)的語音文件中。然后再以與采樣頻率相同的頻率通過語音處理單元30將這些信號采樣點還原播放。在目前的語音信號的格式中22kHz、8bit的格式為單聲道收音機(jī)音質(zhì),44kHz、16bit的格式為立體聲CD音質(zhì);其中22kHz(44kHz)就是指采樣頻率,8bit(16bit)就是指存放一個信號采樣點411所占用的位數(shù),而語音處理單元30就是以一既定的播放速率,根據(jù)前述的語音格式來播放聲音,且立體聲CD音質(zhì)的播放速度為172kb/s,單聲道收音機(jī)音質(zhì)的播放速度為22kb/s。
傳統(tǒng)改變語音發(fā)音的方法,是以每個信號采樣點411做為基本單位,進(jìn)行信號采樣點411復(fù)制或刪減以實現(xiàn)語音播放速度加快或減慢。因此如果要將原語音的播放速度減慢一倍,就是將每個音符信號段41中的每個信號采樣點411都復(fù)制一次,并插入每個原來的信號采樣點之后;如此,音符信號段41的波形周期就被拉長一倍,于是在播放的過程中,如果保持采樣頻率不變,則播放出來的語音語速就降低一倍,同時聲音就會變低、變粗。參照圖3,為原始的音符信號段411的波形圖,如圖所示為含有一幅度為156的采樣信號,播放時間為2毫秒的音符信號段41,今若要以慢一倍的速度播放音符信號段41,那么根據(jù)前述的傳統(tǒng)變速處理方式,就須對音符信號段41中的每個信號采樣點411進(jìn)行復(fù)制,并將復(fù)制后的信號采樣點411a插入音符信號段41中,置于原信號采樣點411的后面,那么經(jīng)過處理后的音符信號段41a將如圖4所示,包含有多組兩個相鄰且采樣頻率相同的信號采樣點411、411a,所以如果按照預(yù)定的采樣頻率進(jìn)行聲音的還原和播放,則原來需要2毫秒完成一個振動周期的音符信號段41,就變成需要4毫秒才能完成一個振動周期的音符信號段41a;這樣一來,語音的播放速度固然減慢了,但由于改變了原來聲音的振動周期和頻率,所以語音就產(chǎn)生了變調(diào)的現(xiàn)象。這是因為假如原本是以22kHz采樣頻率錄制的音符信號段41,經(jīng)過上述的處理后就轉(zhuǎn)換成了一個以44kHz采樣頻率錄制的音符信號段41a,但是由于仍是按原來的22kb/s速度播放,所以還原后的聲音的頻率比錄制時慢了一倍,再加上發(fā)聲的聲調(diào)與聲波的振動頻率有直接的關(guān)系,所以就會出現(xiàn)變調(diào)的現(xiàn)象。
目前的語音變速的技術(shù),在對原語音文件的采樣信號進(jìn)行處理的過程中,改變了還原后語音聲波的振動頻率,所以會出現(xiàn)變調(diào)的現(xiàn)象;因此目前的語音變速技術(shù)不論是頻率變低或變高,均會在變速后使聲音變得模糊不清,造成使用者在聽覺上的不悅。特別是在進(jìn)行語音教學(xué)過程中,學(xué)習(xí)者一般都對口語和聽力學(xué)習(xí)感覺困難,其中一部分原因是對方說話的語速過快,初學(xué)者來不及反應(yīng)。如果能夠?qū)⒙曇舻乃俣葴p慢將可以大大提高訓(xùn)練的效果。
本發(fā)明的主要目的在于提出一種對語音信號進(jìn)行任意速度的快速播放或者慢速播放時,不會出現(xiàn)變調(diào)現(xiàn)象的方法,使得在調(diào)整語音的播放速度后,語音清淅、語調(diào)保持不變、聲音不失音。
本發(fā)明處理語音變速的原理,并不是以圖1中的每個信號采樣點411作為復(fù)制或刪減的基本單元,而是以原語音信號40中的音符信號段(即一個完整的振動周期)41作為一個基本的單元,來進(jìn)行復(fù)制或刪減。參照圖3和圖5,若要使輸出的音符信號段41具有較標(biāo)準(zhǔn)的播放速度慢一倍的效果時,是對圖3中音符信號段41進(jìn)行復(fù)制,并把復(fù)制后的音符信號段41a置于原音符信號段41的后面,構(gòu)成一新的音符信號段42,如圖5所示,再由語音處理單元30以原來取樣頻率的播放速度進(jìn)行音符信號段42的播放,這樣一來就不會改變每個音符信號段41、41a的原有頻率,而且還可在改變語音播放速度后,仍維持原來語音的語調(diào)(頻率)。
有關(guān)本發(fā)明的詳細(xì)內(nèi)容及技術(shù),現(xiàn)結(jié)合
如下圖1為語音變速播放處理裝置的方塊圖;圖2為語音信號的波形圖;圖3為以原始的音符信號段的波形圖;圖4為以傳統(tǒng)方法經(jīng)慢速播放處理后的波形圖;圖5為圖3的音符信號段經(jīng)慢一倍的速度播放處理后的波形圖;圖6為圖2的語音信號經(jīng)慢一倍的速度播放處理后的波形圖;圖7為圖2的語音信號經(jīng)慢二分之一倍的速度播放處理后的波形圖;圖8為圖2的語音信號經(jīng)快一倍的速度播放處理后的波形圖;圖9為結(jié)構(gòu)鏈表的示意圖;圖10A為本發(fā)明處理語音變速播放的方法的部分流程圖;圖10B為本發(fā)明處理語音變速播放的方法的部分流程圖;圖10C為本發(fā)明處理語音變速播放的方法的部分流程圖。
參照圖2,本發(fā)明所采用的方法是在進(jìn)行語音信號40的變速播放時,不是復(fù)制或刪除語音信號40中的每一個信號采樣點411,而是根據(jù)要將語音信號40以加快或變慢方式播放的要求,對其內(nèi)的音符信號段(聲波的一個完整振動周期)41作復(fù)制或刪除的動作,所以在對語音信號40作變速播放的處理之前,就必須先找出語音信號40中的每個音符信號段41,以下所列為決定語音信號內(nèi)的音符信號段的條件1.這個音符信號段的起始點44和終止點45的必須是中心點或者它和它的下一個信號采樣點組成的連線與中心線46相交,并且起始點44和終止點45的采樣信號與它們下一個信號采樣點組成的變化趨勢同為上升趨勢或同為下降趨勢。
2.起始點45和終止點45之間在時間上的間隔應(yīng)該為440Hz為基波的一個表動周期的范圍內(nèi),即起始點與終止點間的時間相隔為2-3毫秒。
3.一個音符信號段和鄰近的下一個音符信號段,應(yīng)有一定的共同性,即兩個音符信號段的中心線46以上的最大值或中心線46以下的最小值之間的差距小于中心線到最大變化范圍的十分之一。
4.不滿足以上條件的不能作為一個音符信號段,而且對于不滿足條件的數(shù)據(jù)在語音變速處理時保持不變,既不復(fù)制也不刪減。
參照圖10A至圖10C,為本發(fā)明語音變速播放處理的流程圖,其變速的處理步驟依序為步驟A1,于數(shù)位化的語音信號中,以比較每兩個信號采樣點411的方式進(jìn)行掃描,并將所有中心線46上的信號采樣點411,或與其后的信號采樣點的連線與中心線46相交的采樣點,以及所有拐點(即指波峰、波谷的轉(zhuǎn)折點)的信息記錄到一個結(jié)構(gòu)鏈表47內(nèi),其中每個鏈表471的結(jié)構(gòu)如表一所示表一、鏈表的結(jié)構(gòu)
步驟A2,在結(jié)構(gòu)鏈表46中濾除多余的拐點記錄,在兩個相鄰的中心點間最多只保留一個距離中心線45最遠(yuǎn)的拐點;步驟A3,從結(jié)構(gòu)鏈表46的頭向后尋找一個上升趨勢或下降趨勢的中心點;步驟A4,判斷是否存在一個上升趨勢或下降趨勢的中心點,若為是則跳至步驟A6,若為否則執(zhí)行下一步驟;步驟A5,尋找下一個為上升趨勢或下降趨勢的中心點,并跳至步驟A4。
步驟A6,判斷是否有中心點的記錄,若為是則執(zhí)行下一步驟;若為否則執(zhí)行步驟A8;步驟A7,記錄中心點的記錄,并跳至步驟A9;步驟A8,記錄中心點的位置于記錄媒體中;
步驟A9,判斷記錄媒體中是否有兩個具有相同特征的中心點,若為是則跳至步驟A11,若為否,則執(zhí)行下一步驟;步驟A10,判斷是否全部搜尋完畢,若為是則執(zhí)行下一步驟,若為否則跳至步驟A5;步驟A11,計算兩個中心點之間的偏移量;步驟A12,再根據(jù)采樣頻率計算出兩個中心點之間時間上的間隔;步驟A13,判斷間隔是否小于2至3毫秒,若為是則執(zhí)行下一步驟,若為否則跳至步驟A5;步驟A14,將兩個中心點間的信號采樣點作為一個音符信號段,并記錄到一個臨時的記錄媒體中;步驟A15,重復(fù)步驟8~14尋找出次一個音符信號段;步驟A16,比較次一個音符信號段中,中心線與最大點的偏移值,是否遠(yuǎn)遠(yuǎn)小于前一個音符信號段中,中心線與最大值的偏移量,若為是,則可以認(rèn)定此為語音的淡出狀態(tài),在變速處理時將不對此段聲音做特殊處理,并跳至步驟A19,若為否,執(zhí)行下一步驟;步驟A17,比較次一個音符信號段中,中心線與最大點的偏移值,是否與前一個音符信號段中,中心線與最大值的偏移量近似,若為是,跳至步驟19,若為否,執(zhí)行下一步驟;步驟A18,以第一個音符信號段的第二個中心點為基準(zhǔn),跳至步驟A5;步驟A19,判斷結(jié)構(gòu)表中的所有記錄點是否都經(jīng)過了比較辯認(rèn),若為是則執(zhí)行下一步驟,若為否,則跳至步驟A5;步驟A20,確定語音信號中音符信號段;步驟A21,根據(jù)發(fā)音速度的設(shè)定將所有的音符信號段在一記錄媒體中進(jìn)行復(fù)制;步驟A22,以語音處理單元20,將復(fù)制于記錄媒體中的音符信號段轉(zhuǎn)換成可聽的聲音信號;步驟A23,判斷是否已處理完所有復(fù)制后的音符信號段,若為是,執(zhí)行步驟A25,若為否,執(zhí)行下一步驟;步驟A24,取出下一筆復(fù)制后的音符信號段,并跳至步驟A22;以及步驟A25,將語音處理單元20置于等待狀態(tài)。
在上述步驟A21中,若所設(shè)定發(fā)音速度較標(biāo)準(zhǔn)的發(fā)音速度慢一倍,則圖2中的語音信號40經(jīng)處理后將如圖6所示,將每個音符信號段41、51、61在記錄媒體中做兩次的復(fù)制,于是在原來的每個音符信號段41、51、61之后將分別產(chǎn)生音符信號段41a、51a、61a;但是若所設(shè)定發(fā)音速度較標(biāo)準(zhǔn)的發(fā)音速度慢二分之一倍,則會如圖7所示,將語音信號中奇數(shù)的音符信號段41、61,在記錄媒體中做兩次的復(fù)制,產(chǎn)生音符信號段41a、61a,偶數(shù)的音符信號段51,則在記錄媒體中只做一次的復(fù)制;另外,參照圖8,若是設(shè)定發(fā)音速度較標(biāo)準(zhǔn)的發(fā)音速度快一倍,則是每隔一個音符信號段,在記錄媒體中復(fù)制一個音符信號段,也就是只對在該語音信號中為奇數(shù)順位的音符信號段41、61進(jìn)行復(fù)制,便可以實現(xiàn)語音的快速播放。
本發(fā)明的方法對各種格式的語音文件都可以做變速處理,以使得在調(diào)整語音的播放速度后,所產(chǎn)生的語音清淅、語調(diào)保持不變、聲音不失真。
以上所述僅為本發(fā)明的較佳實施例,并不限于以上述硬件的裝置實施,任何本領(lǐng)域的技術(shù)人員在本發(fā)明的領(lǐng)域內(nèi)所做的任何修飾,具有同等的功效的,均應(yīng)含蓋于權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.一種改變發(fā)音速度的方法,應(yīng)用于數(shù)位化的語音信號的播放,以使一語音處理單元能以預(yù)定的發(fā)音速度播放該語音信號,所述方法包括有取得該語音信號中的一音符信號段;設(shè)定該語音信號的一播放速度;由一邏輯運(yùn)算單元根據(jù)該播放速度,復(fù)制該音符信號段于一記錄媒體中;以及通過該語音處理單元,將存儲于該記錄媒體該音符信號段換成可聽的聲音信號。
2.如權(quán)利要求1所述改變發(fā)音速度的方法,其中該音符信號段是由多個信號采樣點所組成。
3.如權(quán)利要求1所述改變發(fā)音速度的方法,其中該邏輯運(yùn)算單元是將該音符信號段復(fù)制兩次于該記錄媒體中。
4.如權(quán)利要求1所述改變發(fā)音速度的方法,其中該邏輯運(yùn)算單元是將在該語音信號中為奇數(shù)順序的該音符信號段復(fù)制兩次于該記錄媒體中,并將偶數(shù)順序的該音符信號段復(fù)制一次于該記錄媒體中。
5.如權(quán)利要求1所述改變發(fā)音速度的方法,其中該邏輯運(yùn)算單元是僅將在該語音信號中為奇數(shù)順序的語音符信號段復(fù)制一次于該記錄媒體中。
全文摘要
一種改變發(fā)音速度的方法,特別是指一種用于處理改變數(shù)位化的語音信號播放速度的方法,可使數(shù)位化的語音信號以非標(biāo)準(zhǔn)速度進(jìn)行發(fā)音時,仍可維持其各音節(jié)原有的音調(diào)。即將語音信號中的每一音符信號段,根據(jù)預(yù)定播放速度,作等倍的復(fù)制或刪除,再以語音處理單元依原來的采樣頻率進(jìn)行播放,可使所播放的聲音符合預(yù)定的播放速度而仍維持原來的語調(diào)。
文檔編號G06F17/20GK1270356SQ99104829
公開日2000年10月18日 申請日期1999年4月8日 優(yōu)先權(quán)日1999年4月8日
發(fā)明者劉曉波, 宋建福, 林光信 申請人:英業(yè)達(dá)股份有限公司