專利名稱:音頻再現(xiàn)裝置、信息再現(xiàn)系統(tǒng)、音頻再現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于CD播放器、DVD播放器、電視機或類似設(shè)備的音頻再現(xiàn)的音 頻再現(xiàn)裝置、信息再現(xiàn)系統(tǒng)、音頻再現(xiàn)方法和程序。
背景技術(shù):
在音頻(語音)再現(xiàn)裝置中,如果再現(xiàn)了不連續(xù)的語音數(shù)據(jù)流,就會在不連續(xù)點處 產(chǎn)生噪聲,令收聽者感覺不適。 為解決該問題,通常,如圖1所示,在不連續(xù)點前后對語音信號進行靜音控制以防 止噪音的產(chǎn)生(例如,見日本未經(jīng)審查的專利申請公報2002-204221號)。
但是,通常由于要對多個樣本數(shù)據(jù)片段進行靜音處理,所以就會影響部分語音數(shù) 據(jù),并會導(dǎo)致不能理解的語音再現(xiàn)。 特別是,如果不連續(xù)點頻繁產(chǎn)生,這種傾向就較明顯。
發(fā)明內(nèi)容
本發(fā)明希望提供一種音頻再現(xiàn)裝置、信息再現(xiàn)系統(tǒng)、音頻再現(xiàn)方法和程序,它們可
以減少由于靜音而在語音再現(xiàn)中出現(xiàn)的停頓,并使再現(xiàn)的語音聽上去更舒服。 根據(jù)本發(fā)明實施例,提供一種音頻再現(xiàn)裝置,其包括解碼處理器,其用于對輸入
的語音數(shù)據(jù)進行解碼;不連續(xù)判斷單元,其用于從輸入的數(shù)據(jù)包信息中判斷數(shù)據(jù)包與前面
的數(shù)據(jù)包之間是否不連續(xù);重置處理單元,如果所述不連續(xù)判斷單元判斷出數(shù)據(jù)包不連續(xù),
該重置處理單元用于對解碼信息進行重置;頻率分析單元,其用于對由所述解碼處理器解
碼后的數(shù)據(jù)進行頻率分析;包絡(luò)計算單元,其用于計算由所述解碼處理器解碼后的數(shù)據(jù)的
包絡(luò);電平差計算單元,其用于計算由所述解碼處理器解碼后的數(shù)據(jù)的電平差;校正處理
單元,其可以執(zhí)行多個校正處理,并且如果所述校正處理是必要時就對所述解碼后的數(shù)據(jù)
進行具體的校正處理;和處理判斷單元,其用于從頻率分析的結(jié)果中判斷是否執(zhí)行所述校
正處理、判斷數(shù)據(jù)包數(shù)據(jù)是否不連續(xù)、如果所述數(shù)據(jù)包數(shù)據(jù)不連續(xù)就根據(jù)所述包絡(luò)和電平
差判斷執(zhí)行哪項校正處理,并根據(jù)所述判斷結(jié)果輸出指令以執(zhí)行校正處理。 根據(jù)本發(fā)明的另一個實施例,提供一種信息再現(xiàn)系統(tǒng),其包括用于從傳送來的信
息中再現(xiàn)語音數(shù)據(jù)的音頻再現(xiàn)裝置,其中,所述音頻再現(xiàn)裝置包括解碼處理器,其用于對
輸入的語音數(shù)據(jù)進行解碼;不連續(xù)判斷單元,其用于從輸入的數(shù)據(jù)包信息中判斷數(shù)據(jù)包與
前面數(shù)據(jù)包之間是否不連續(xù);重置處理單元,如果所述不連續(xù)判斷單元判斷出數(shù)據(jù)包不連
續(xù),該重置處理單元用于對解碼信息進行重置;頻率分析單元,其用于對由所述解碼處理器
解碼后的數(shù)據(jù)進行頻率分析;包絡(luò)計算單元,其用于計算由所述解碼處理器解碼后的數(shù)據(jù)的包絡(luò);電平差計算單元,其用于計算由所述解碼處理器解碼后的數(shù)據(jù)的電平差;校正處 理單元,其可以執(zhí)行多個校正處理,并且如果所述校正處理是必要時就對所述解碼后的數(shù)
據(jù)進行具體的校正處理;和處理判斷單元,其用于從頻率分析的結(jié)果中判斷是否執(zhí)行校正
處理、判斷數(shù)據(jù)包數(shù)據(jù)是否不連續(xù)、如果所述數(shù)據(jù)包數(shù)據(jù)不連續(xù)就根據(jù)所述包絡(luò)和電平差
判斷執(zhí)行哪項校正處理,并根據(jù)所述判斷結(jié)果輸出指令以執(zhí)行校正處理。 根據(jù)本發(fā)明另一個實施例,提供一種音頻再現(xiàn)方法,該方法包括以下步驟對輸入
的語音數(shù)據(jù)進行解碼;從輸入的數(shù)據(jù)包信息中判斷數(shù)據(jù)包與前面的數(shù)據(jù)包之間是否不連
續(xù);如果在所述不連續(xù)判斷步驟中判斷出數(shù)據(jù)包是不連續(xù)的,就對解碼信息進行重置;對
所述解碼后的數(shù)據(jù)進行頻率分析;計算所述解碼后的數(shù)據(jù)的包絡(luò);計算所述解碼后的數(shù)據(jù)
的電平差;根據(jù)所述頻率分析的結(jié)果判斷是否執(zhí)行校正處理,判斷數(shù)據(jù)包數(shù)據(jù)是否不連續(xù),
如果所述數(shù)據(jù)包數(shù)據(jù)不連續(xù)時就根據(jù)所述包絡(luò)和電平差判斷執(zhí)行哪項校正處理,根據(jù)所述
判斷結(jié)果輸出指令以執(zhí)行所述校正處理;以及如果所述校正處理是必要的,就對解碼后的
數(shù)據(jù)進行具體的校正處理。 根據(jù)本發(fā)明另一個實施例,提供了一種用于在計算機上實施音頻再現(xiàn)方法的程 序,所述方法包括以下步驟對輸入的語音數(shù)據(jù)進行解碼;從輸入的數(shù)據(jù)包信息中判斷數(shù) 據(jù)包與前面的數(shù)據(jù)包之間是否不連續(xù);如果在所述不連續(xù)判斷步驟中判斷出數(shù)據(jù)包是不連 續(xù)的,就對解碼信息進行重置;對所述解碼后的數(shù)據(jù)進行頻率分析;計算所述解碼后的數(shù) 據(jù)的包絡(luò);計算所述解碼后的數(shù)據(jù)的電平差;根據(jù)所述頻率分析的結(jié)果判斷是否執(zhí)行校正 處理,判斷數(shù)據(jù)包數(shù)據(jù)是否不連續(xù),如果所述數(shù)據(jù)包數(shù)據(jù)不連續(xù)時就根據(jù)所述包絡(luò)和電平 差判斷執(zhí)行哪項校正處理,根據(jù)所述判斷結(jié)果輸出指令以執(zhí)行所述校正處理;以及如果所 述校正處理是必要的,就對解碼后的數(shù)據(jù)進行具體的校正處理。 根據(jù)本發(fā)明,不連續(xù)判斷單元從輸入的數(shù)據(jù)包信息中判斷數(shù)據(jù)包與前面的數(shù)據(jù)包 之間是否不連續(xù)。如果判斷出數(shù)據(jù)包不連續(xù),就由重置處理單元對解碼信息進行重置。
頻率分析單元對由解碼處理器解碼后的數(shù)據(jù)進行頻率分析,包絡(luò)計算單元計算解 碼后的數(shù)據(jù)的包絡(luò),電平差計算單元計算解碼后的數(shù)據(jù)的電平差。 處理判斷單元根據(jù)頻率分析的結(jié)果判斷是否執(zhí)行校正處理并判斷數(shù)據(jù)包數(shù)據(jù)是 否不連續(xù)。此外,如果數(shù)據(jù)包數(shù)據(jù)不連續(xù),則處理判斷單元根據(jù)包絡(luò)和電平差判斷執(zhí)行哪項 校正處理,并根據(jù)判斷結(jié)果輸出指令以執(zhí)行校正處理。 如果校正處理是必要的,校正處理單元就對解碼后的數(shù)據(jù)進行具體的校正處理。
根據(jù)本發(fā)明,可以減少由于靜音而在語音再現(xiàn)中出現(xiàn)的停頓,并使再現(xiàn)的語音聽 上去更舒服。
圖1是在一般的音頻(語音)再現(xiàn)裝置中對不連續(xù)點進行靜音控制的示意圖; 圖2是根據(jù)本發(fā)明實施例的音頻再現(xiàn)裝置的配置示例的方框圖; 圖3是根據(jù)所給實施例的不連續(xù)標記信息的結(jié)構(gòu)示例的圖; 圖4是說明通過頻率分析進行不連續(xù)檢測的示意圖; 圖5A和圖5B是根據(jù)所給實施例的解碼重置處理的概念示意圖; 圖6是表示等響度曲線的 圖7是根據(jù)所給實施例的處理判斷單元的校正處理切換的判斷處理的示意圖;
圖8A和圖8B是說明根據(jù)包絡(luò)進行處理判斷的圖; 圖9是說明根據(jù)不連續(xù)點處的電平差來判斷是否執(zhí)行靜音處理或幀合成處理的 判斷處理的圖; 圖10是表示設(shè)置靜音時間常數(shù)的示例的圖;
圖11是表示根據(jù)電平差設(shè)置靜音時間常數(shù)的示例的圖;
圖12是根據(jù)所給實施例的幀合成處理的示意圖;
圖13是根據(jù)所給實施例的音頻再現(xiàn)裝置的操作流程圖; 圖14是使用根據(jù)第一實施例的音頻再現(xiàn)裝置的網(wǎng)絡(luò)型監(jiān)控攝像系統(tǒng)的全部配置 的示意圖; 圖15是使用根據(jù)第一實施例的音頻再現(xiàn)裝置的基于廣播的系統(tǒng)的全部配置的示 意圖; 圖16是使用根據(jù)第一實施例的音頻再現(xiàn)裝置的由網(wǎng)絡(luò)實現(xiàn)的再現(xiàn)系統(tǒng)的全部配 置的示意圖;禾口 圖17是使用根據(jù)第一實施例的音頻再現(xiàn)裝置的移動電話系統(tǒng)的全部配置的示意
具體實施例方式下文將參考相應(yīng)附圖描述本發(fā)明的實施例。描述按以下順序進行 1、第一實施例(音頻再現(xiàn)裝置的配置示例) 2、第二實施例(處理系統(tǒng)的第一示例) 3、第三實施例(處理系統(tǒng)的第二示例) 4、第四實施例(處理系統(tǒng)的第三示例) 5、第五實施例(處理系統(tǒng)的第四示例) 1、第一實施例 圖2是根據(jù)本發(fā)明實施例的音頻再現(xiàn)裝置的配置示例的方框圖。 根據(jù)本實施例的音頻再現(xiàn)裝置100基于輸入信號中的不連續(xù)點前后的語音電平、
電平差和頻率分析來判斷應(yīng)用于不連續(xù)點的校正處理的類型,以減少由于靜音而在語音再
現(xiàn)中出現(xiàn)的停頓。 圖2中的音頻再現(xiàn)裝置100包括數(shù)據(jù)包分離單元101、輸入緩沖器單元102、解碼
處理器(或解碼處理單元)103、不連續(xù)判斷單元104和解碼重置處理單元105。 音頻再現(xiàn)裝置100包括頻率分析單元106、包絡(luò)計算單元107、電平差計算單元
108、處理判斷單元109、切換單元110、校正處理單元111和輸出緩沖器112。 校正處理單元111包括靜音參數(shù)設(shè)置單元1111、靜音處理單元1112、幀合成參數(shù)
設(shè)置單元1113和幀合成處理單元1114。 數(shù)據(jù)包分離單元101將輸入的數(shù)據(jù)包分離成語音數(shù)據(jù)和數(shù)據(jù)包信息。 數(shù)據(jù)包分離單元101向輸入緩沖器單元102提供分離后的語音數(shù)據(jù)且向不連續(xù)判
斷單元104輸出數(shù)據(jù)包信息。 輸入緩沖器單元102將語音數(shù)據(jù)保持預(yù)定的時間,然后向解碼處理器103輸出被保持的語音數(shù)據(jù)。 解碼處理器103對輸入的語音數(shù)據(jù)進行解碼。 解碼處理器103向頻率分析單元106、包絡(luò)計算單元107、電平差計算單元108和 切換單元110提供解碼后的語音數(shù)據(jù)。 不連續(xù)判斷單元104從數(shù)據(jù)包信息中判斷該數(shù)據(jù)包與前面的數(shù)據(jù)包之間是否不 連續(xù)。 不連續(xù)判斷單元104向解碼重置處理單元105輸出數(shù)據(jù)包是否不連續(xù)的判斷結(jié) 果。 下面描述不連續(xù)判斷單元104判斷不連續(xù)的過程。 不連續(xù)判斷單元104基于設(shè)置在高一級裝置側(cè)的不連續(xù)標記信息或根據(jù)頻率分 析執(zhí)行不連續(xù)檢測。 下文描述由高一級電平裝置設(shè)置的不連續(xù)標記信息。
用于表示連續(xù)的標記作為附屬信息被提供給輸入語音數(shù)據(jù)。 數(shù)據(jù)包的丟失主要由網(wǎng)絡(luò)傳輸協(xié)議來判斷,在數(shù)據(jù)包丟失時將標記信息設(shè)置為 "不連續(xù)"。 圖3是根據(jù)本實施例的不連續(xù)標記信息的結(jié)構(gòu)示例的圖。 具體地,在提供輸入語音數(shù)據(jù)時,按圖3中所示結(jié)構(gòu)提供信息。 在本示例中,由語音數(shù)據(jù)頭地址201、語音數(shù)據(jù)大小202和不連續(xù)標記203構(gòu)成輸
入信息結(jié)構(gòu)200。 例如,在連續(xù)時段將不連續(xù)標記203設(shè)置為"0",而在不連續(xù)時段將其設(shè)置為"1"。
下文描述根據(jù)頻率分析進行的不連續(xù)檢測。 不連續(xù)判斷單元104根據(jù)頻譜的形狀變化檢測語音幀的不連續(xù)。
圖4是說明根據(jù)頻率分析進行不連續(xù)檢測的示意圖。
例如,參考附圖4描述日語〃 A〃 [a:]的頻譜。 在圖4中,比較連續(xù)幀A和不連續(xù)幀B,可在頻譜的谷值(反共振峰)(圖中(b)點 和(c)點)中看出增益的變化。 具體地,如果可以獲得第一共振峰F1和第一反共振峰UF1之間的差值,連續(xù)幀和
不連續(xù)幀如下
等式1在連續(xù)幀的情況下Diffl = F1-UF1 = 28db
在不連續(xù)幀的情況下Diffl = F1-UF1 = 22db 作為用來調(diào)節(jié)Gth的增益的閥值,如果滿足下列關(guān)系,則判斷(檢測)為不連續(xù) 幀 等式2 Diffl+Gth < 28db 不連續(xù)判斷單元104的檢測單元不限于第一共振峰和第一反共振峰,第二共振峰 和第二反共振峰或更高共振峰和反共振峰的結(jié)合都可以使用。 檢測單元以共振峰和反共振峰之間的電平差為基礎(chǔ),于是不依靠輸入信號電平。
如果通過不連續(xù)判斷單元104判斷出不連續(xù),解碼重置處理單元105就重置解碼處理器103的解碼信息。 如果不連續(xù)判斷單元104判斷出數(shù)據(jù)包不連續(xù),解碼重置處理單元105對解碼處 理器(解碼器)103執(zhí)行重置處理。 這是因為,如果在沒有根據(jù)編解碼器的類型進行修正的情況下對不連續(xù)數(shù)據(jù)進行 解碼,編解碼器的類型例如是AMR或AAC,例如與解碼處理有關(guān)的濾波處理的各項系數(shù)的值 就要變化,因此就很難保證解碼處理的結(jié)果。 依照編解碼器類型,由于重置處理可能不是必要的,因此就需要根據(jù)編解碼器類 型判斷是否執(zhí)行重置處理。 通過在不連續(xù)點處執(zhí)行解碼處理器103的重置處理,就可在確定不連續(xù)點后返回 語音數(shù)據(jù)。 此外,如果是根據(jù)頻率分析單元106的分析結(jié)果判斷為不連續(xù),就將不連續(xù)信息 反饋給不連續(xù)判斷單元104以在下次解碼時執(zhí)行重置處理。 在通過來自高一級裝置的標記進行不連續(xù)判斷時發(fā)生錯誤時,可以有效地運用上 述方法。 圖5A和圖5B是根據(jù)本實施例的解碼重置處理的示意圖。
圖5A圖示了使用系數(shù)表的一般解碼處理。
圖5B圖示了在不連續(xù)時段接收重置指令的解碼處理。
在圖5A和圖5B中,舉例來說,系數(shù)表被初始化為0。 頻率分析單元106對解碼后的語音數(shù)據(jù)執(zhí)行頻率分析,并向處理判斷單元109輸 出分析結(jié)果。 包絡(luò)計算單元107計算解碼后的語音數(shù)據(jù)的包絡(luò)并向處理判斷單元109輸出計算 結(jié)果。 包絡(luò)是任何一段語音信號電平的絕對值的最大值。 電平差計算單元108從解碼后的語音數(shù)據(jù)中計算語音電平差,并向處理判斷單元 109輸出計算結(jié)果。 處理判斷單元109具有根據(jù)頻率分析結(jié)果判斷是否執(zhí)行校正處理以及判斷數(shù)據(jù) 包是否不連續(xù)的功能。 如果數(shù)據(jù)包數(shù)據(jù)不連續(xù),處理判斷單元109就根據(jù)包絡(luò)和電平差判斷執(zhí)行哪項校 正處理。 切換單元110向校正處理單元111和輸出緩沖器112輸出解碼后的數(shù)據(jù),以在根 據(jù)處理判斷單元109的判斷結(jié)果的基礎(chǔ)上切換校正處理。
現(xiàn)在,詳細描述處理判斷單元109的判斷處理過程。
[第一判斷處理] 圖6是表示等響度曲線(equal-loudness curve)的圖。 首先,如果通過頻率分析單元106獲得語音頻譜,且頻譜低于圖6中所示等響度曲 線的最小可聽范圍,處理判斷單元109就判斷人耳不能聽見而且不存在不連續(xù)點造成的噪 聲影響。 在這種情形下,在不執(zhí)行校正處理的情況下,處理判斷單元109指示切換單元110 向輸出緩沖器112輸出數(shù)據(jù)。
本發(fā)明不限于最小可聽范圍,可以使用20方(phon)的曲線作為判斷界線。
此外,等響度曲線還指可聽到的與人耳具有同樣音量的曲線。
如果語音頻譜等于或小于最小可聽范圍,其就不能被人耳聽見。 [O103][第二判斷處理] 如果在第一處理判斷中判斷出頻譜大于最小可聽范圍,則處理判斷單元109就執(zhí) 行下列校正處理判斷。 如果解碼后的數(shù)據(jù)不連續(xù),就根據(jù)不連續(xù)點的語音電平切換處理內(nèi)容。 圖7是根據(jù)本實施例的處理判斷單元進行校正處理切換的判斷處理的示意圖。 圖7中,垂直軸表示包絡(luò),水平軸表示不連續(xù)點的電平差。 如果不連續(xù)點前后的包絡(luò)小于任何第一閥值VT1,則噪聲的影響較小,于是可判斷 出對不連續(xù)點的處理是不必要的。 如果包絡(luò)大于閥值VT1且不連續(xù)點的語音電平差小于任何第二閥值VT2,則執(zhí)行 幀合成處理以使不連續(xù)點變得柔和。如果電平差大于第二閥值VT2,就利用靜音處理可靠地 避免噪聲的生成。 圖8A和圖8B是說明根據(jù)包絡(luò)和電平差進行處理判斷的圖。 圖9是說明根據(jù)不連續(xù)點處的電平差判斷是否執(zhí)行靜音處理或幀合成處理的判 斷處理的圖。 現(xiàn)在,參照圖8A、圖8B和圖9描述根據(jù)包絡(luò)和電平差進行的處理判斷。 如圖8A和8B中所示,計算含有語音信號的每段的包絡(luò)和音量,如果包含信號的不
連續(xù)點的包絡(luò)的電平小于閥值VT,則不執(zhí)行對不連續(xù)點的靜音處理或類似處理。 相反,如果包絡(luò)的電平大于閥值VT,由于可能在不連續(xù)點處產(chǎn)生不適的噪聲,因此
要執(zhí)行校正處理。 校正處理執(zhí)行下文描述的靜音處理或幀(濾波)合成。 例如,如圖8A和8B中所示,由于包絡(luò)電平小于閥值VT,所以處理判斷單元109將
主要包含小電平的語音的A段設(shè)置成校正處理的非目標段。而由于B段的包絡(luò)電平大于閥
值VT,處理判斷單元109將B段設(shè)置成校正處理的目標段。 包絡(luò)指代任何一段語音信號電平的絕對值的最大值。 如果不連續(xù)點處于包絡(luò)計算段的中斷處,則判斷不連續(xù)點前后是包絡(luò)。 如圖9所示,即使在執(zhí)行校正處理時,也根據(jù)不連續(xù)點的電平差對執(zhí)行靜音處理
還是執(zhí)行幀合成處理進行判斷。 圖9中,因為不連續(xù)點A前后的電平差小,所以進行濾波合成。而因為不連續(xù)點B 前后的電平差大,就執(zhí)行靜音處理。 校正處理單元111通過處理判斷單元109判斷是否有必要進行校正處理,且如果
通過切換單元110接受到相關(guān)信息,就執(zhí)行針對解碼后的數(shù)據(jù)的校正處理。 校正處理單元111具有根據(jù)計算出的頻率分析、包絡(luò)和電平差來選擇適當校正處
理的功能。 校正處理單元111包括靜音參數(shù)設(shè)置單元1111、用于執(zhí)行靜音處理的靜音處理單
元1112、幀合成參數(shù)設(shè)置單元1113和用于執(zhí)行幀合成的幀合成處理單元1114。 如上所述,如果電平差大于閥值,校正處理單元111就執(zhí)行靜音處理。如果電平差小于閥值,校正處理單元111就執(zhí)行幀合成處理。 校正處理單元111還可根據(jù)電平差對各項處理的參數(shù)進行調(diào)整,這通過改變由靜
音參數(shù)設(shè)置單元1111和幀合成參數(shù)設(shè)置單元1113所設(shè)置的參數(shù)來實現(xiàn)。 此外,還可以進行語音數(shù)據(jù)的簡單濾波處理,例如進行FIR或IIR,以此來代替幀
合成處理。[靜音處理] 圖10是表示設(shè)置靜音時間常數(shù)的示例的圖。
圖11是根據(jù)電平差設(shè)置靜音時間常數(shù)的示例的圖。 在校正處理單元111中,在靜音處理時通過靜音參數(shù)設(shè)置單元1111根據(jù)語音電平 差將靜音時間常數(shù)設(shè)置為靜音控制參數(shù)。 例如,如果不連續(xù)點的電平差大到一定程度,就將時間常數(shù)設(shè)置為大,而如果電平 差小到一定程度,就將時間常數(shù)設(shè)置為小。 因此,如果電平差小,就會迅速進行控制,而如果電平差大,就可以可靠地避免噪聲。[幀合成處理] 圖12是根據(jù)本發(fā)明的幀合成處理的示意圖。 幀合成處理單元1114利用下列等式計算和合成不連續(xù)點前后的幀A和幀B的樣
本并生成幀C : 等式3 Ci = a Ai+(l-a )Bi 如果不連續(xù)點的電平差大于任何閥值,不連續(xù)的影響就不會在一個幀中被吸收,
于是要對多個幀執(zhí)行幀合成。 可以根據(jù)電平差來改變合成系數(shù)a 。[解碼后校正處理的效果] 可以根據(jù)頻率分析、包絡(luò)或電平差來切換對不連續(xù)點的校正處理,以根據(jù)不連續(xù) 點的類型進行控制。 因此,就可減少由于靜音而在語音再現(xiàn)中出現(xiàn)的停頓,使再現(xiàn)的語音聽著舒服。 此外,如果信號電平或不連續(xù)點的電平差大到一定程度,就可以通過幀合成或靜
音處理避免生成噪聲,從而保持語音品質(zhì)的平衡。
圖13是根據(jù)本實施例的音頻再現(xiàn)裝置的操作流程圖。 下面,將參照圖13描述圖2中的配置所進行的操作。 首先,數(shù)據(jù)包分離單元101將輸入的數(shù)據(jù)包分離成語音數(shù)據(jù)和數(shù)據(jù)包信息(ST1)。 將分離后的語音數(shù)據(jù)提供給輸入緩沖器單元102并向不連續(xù)判斷單元104輸出數(shù)據(jù)包信 息。 輸入緩沖器單元102按照預(yù)設(shè)的時間保持語音數(shù)據(jù),并向解碼處理器103輸出被 保持的語音數(shù)據(jù)。 不連續(xù)判斷單元104從數(shù)據(jù)包信息中判斷該數(shù)據(jù)包與前面的數(shù)據(jù)包之間是否不 連續(xù)(ST2)。 向解碼重置處理單元105提供數(shù)據(jù)包是否不連續(xù)的判斷結(jié)果。
10
解碼重置處理單元105接收來自不連續(xù)判斷單元104的判斷結(jié)果,并判斷重置處 理是否必要(ST3)。 在步驟ST3中,如果判斷出重置處理是必要的,就對解碼處理器103的解碼信息進 行重置(ST4)。 S卩,如果不連續(xù)判斷單元104判斷出數(shù)據(jù)包不連續(xù),就由解碼重置處理單元105執(zhí) 行對解碼處理器103的重置處理。 此外,在步驟ST4的處理后,如果在判斷步驟ST2中判斷出數(shù)據(jù)包是連續(xù)的,或 如果在判斷步驟ST3中判斷出重置處理是不必要的,就由解碼處理器103執(zhí)行解碼處理 (ST5)。 向頻率分析單元106、包絡(luò)計算單元107、電平差計算單元108、處理判斷單元109 和切換單元110提供解碼后的語音數(shù)據(jù)。 包絡(luò)計算單元107計算解碼后的語音數(shù)據(jù)的包絡(luò),并向處理判斷單元109輸出計 算結(jié)果(ST6)。 電平差計算單元108從解碼后的語音數(shù)據(jù)中計算語音電平差,并向處理判斷單元 109輸出計算結(jié)果(ST7)。 頻率分析單元106對解碼后的語音數(shù)據(jù)進行頻率分析,并向處理判斷單元109輸 出分析結(jié)果(ST8)。 處理判斷單元109根據(jù)頻率分析的結(jié)果判斷是否執(zhí)行校正處理,并判斷數(shù)據(jù)包是 否是不連續(xù)的(ST9)。 在步驟ST9中,如果判斷出數(shù)據(jù)包是不連續(xù)的,處理判斷單元109就判斷頻譜是等 于還是大于最小可聽范圍(STIO)。 在步驟ST10中,如果判斷出頻譜等于或大于最小可聽范圍,處理判斷單元109就 判斷包絡(luò)是等于還是大于閥值VT1 (ST11)。 在步驟STll中,如果判斷出包絡(luò)等于或大于閥值VT1,就判斷電平差是等于還是 大于閥值VT2(ST12)。 在步驟ST12中,如果判斷出電平差等于或大于閥值VT2,處理判斷單元109就指令 切換單元110執(zhí)行靜音處理以作為校正處理。 切換單元110向校正處理單元111輸出解碼后的數(shù)據(jù),以基于處理判斷單元109 所作出的判斷結(jié)果將校正處理切換成靜音處理。 在校正處理單元111中,靜音參數(shù)設(shè)置單元1111設(shè)置靜音參數(shù)(ST13),且靜音處 理單元1112根據(jù)所設(shè)置的參數(shù)執(zhí)行靜音處理(ST14)。 在步驟ST12中,如果判斷出電平差小于閥值VT2,處理判斷單元109就指令切換單 元110執(zhí)行幀合成處理以作為校正處理。 切換單元110向校正處理單元111輸出解碼后的數(shù)據(jù),以基于處理判斷單元109 所作出的判斷結(jié)果將校正處理切換成幀合成處理。 在校正處理單元111中,幀合成參數(shù)設(shè)置單元1113設(shè)置幀合成參數(shù)(ST15),且?guī)?合成處理單元1114根據(jù)所設(shè)置的參數(shù)執(zhí)行幀合成處理(ST16)。 如果在步驟ST9中判斷出數(shù)據(jù)包是連續(xù)的,如果在步驟STIO中判斷出頻譜小于最 小可聽范圍,或如果在步驟STll中判斷出包絡(luò)小于閥值VT1,則可以判斷校正處理是不必
11要的。 根據(jù)以上處理,從輸出緩沖器112輸出沒有校正或經(jīng)過校正處理的解碼后的語音 數(shù)據(jù)。 根據(jù)上述提供的實施例,音頻再現(xiàn)裝置100有下述配置。 音頻再現(xiàn)裝置100包括用于將輸入數(shù)據(jù)包分離成語音數(shù)據(jù)和數(shù)據(jù)包信息的數(shù)據(jù) 包分離單元101、用于按預(yù)定時間保持語音數(shù)據(jù)的輸入緩沖器單元102、以及對輸入的語音 數(shù)據(jù)進行解碼的解碼處理器103。 音頻再現(xiàn)裝置IOO包括用于從數(shù)據(jù)包信息中判斷該數(shù)據(jù)包與前面的數(shù)據(jù)包之間 是否不連續(xù)的不連續(xù)判斷單元104、以及如果數(shù)據(jù)包不連續(xù)時用于重置解碼信息的重置處 理單元105。 音頻再現(xiàn)裝置100包括對解碼后的數(shù)據(jù)進行頻率分析的頻率分析單元106,以及 用于計算包絡(luò)和電平差的包絡(luò)計算單元107和電平差計算單元108。 音頻再現(xiàn)裝置100包括處理判斷單元109,該處理判斷單元109用于從頻率分析的 結(jié)果中判斷是否執(zhí)行校正處理、判斷數(shù)據(jù)包是否不連續(xù)、如果數(shù)據(jù)包數(shù)據(jù)不連續(xù)時就根據(jù) 包絡(luò)和電平差判斷執(zhí)行哪項校正處理。 音頻再現(xiàn)裝置IOO包括基于處理判斷單元109的判斷結(jié)果來對校正處理進行切換 的切換單元110以及如果校正處理是必要時就執(zhí)行指定的校正處理的校正處理單元111。
因此,根據(jù)本實施例,可以獲得下述效果。 可減少由于靜音而在語音再現(xiàn)中出現(xiàn)的停頓,使再現(xiàn)的語音聽著舒服。 如果不連續(xù)點的信號電平大,可通過靜音處理避免噪音的生成,且因此維持語音
品質(zhì)的平衡。 可將根據(jù)第一實施例的音頻再現(xiàn)裝置100例如應(yīng)用于諸如監(jiān)控攝像系統(tǒng)的信息 再現(xiàn)系統(tǒng)。 下文以第二至第五實施例來描述使用根據(jù)第一實施例的音頻再現(xiàn)裝置100的信
息再現(xiàn)系統(tǒng)。 2、第二實施例 圖14是使用根據(jù)第一實施例的音頻再現(xiàn)裝置的網(wǎng)絡(luò)型監(jiān)控攝像系統(tǒng)的全部配置 的示意圖。 圖14的網(wǎng)絡(luò)型監(jiān)控攝像系統(tǒng)300是具有再現(xiàn)功能的網(wǎng)絡(luò)型攝像系統(tǒng)的示例,監(jiān)控
攝像機310可通過網(wǎng)絡(luò)320與監(jiān)控服務(wù)器330通信。 監(jiān)控攝像機310具有數(shù)據(jù)包接收單元311和解碼單元312。 在監(jiān)控攝像機310的一側(cè)接受數(shù)據(jù)包后,根據(jù)第一實施例的音頻再現(xiàn)裝置100可 應(yīng)用于解碼單元312的內(nèi)部。 此處描述的解碼單元為圖2所示的全部框圖。
3、第三實施例 圖15是使用根據(jù)第一實施例的音頻再現(xiàn)裝置的基于廣播的系統(tǒng)的全部配置的示 意圖。 圖15的基于廣播的系統(tǒng)400具有電視接收器410和廣播站420。
電視接收器410具有廣播接收單元411和解碼單元412。
在電視接收器410接收廣播后,在解碼單元412的內(nèi)部可應(yīng)用根據(jù)第一實施例的 音頻再現(xiàn)裝置100。 S卩,在接收和再現(xiàn)TV廣播的裝置或類似設(shè)備中,當接收并解碼廣播時,就將根據(jù) 第一實施例的音頻再現(xiàn)裝置100應(yīng)用于語音的不連續(xù)點的校正處理。
4、第四實施例 圖16是使用根據(jù)第一實施例的音頻再現(xiàn)裝置的由網(wǎng)絡(luò)實現(xiàn)的再現(xiàn)系統(tǒng)的全部配 置的示意圖。 在圖16的由網(wǎng)絡(luò)實現(xiàn)的再現(xiàn)系統(tǒng)500中,再現(xiàn)裝置510可通過網(wǎng)絡(luò)520與流媒體 服務(wù)器530通信。 再現(xiàn)裝置510具有數(shù)據(jù)包接收單元511和解碼單元512。 在再現(xiàn)裝置510的一側(cè)接收音樂數(shù)據(jù)包后,將根據(jù)第一實施例的音頻再現(xiàn)裝置 100應(yīng)用于解碼單元512中的音樂的不連續(xù)點的校正處理。
5、第五實施例 圖17是使用根據(jù)第一實施例的音頻再現(xiàn)裝置的移動電話系統(tǒng)的全部配置的示意 圖。 圖17的移動電話系統(tǒng)600是移動電話610和620之間進行無線通信的示例。
在圖17的示例中,移動電話620具有數(shù)據(jù)包接收單元621和解碼單元622。
當移動電話的語音數(shù)據(jù)包被接收以及解碼時,將根據(jù)第一實施例的音頻再現(xiàn)裝置 100應(yīng)用于對語音的不連續(xù)點的校正處理。 上述方法可以用依照上述步驟的程序來實現(xiàn),并可通過例如CPU的計算機來執(zhí) 行。 可通過如半導(dǎo)體存儲器、磁盤、光盤或floppy (注冊商標)盤的記錄媒介或設(shè)置有 此類記錄媒介的計算機存取這樣的程序,以運行所述程序。 本領(lǐng)域技術(shù)人員應(yīng)該明白,在所附權(quán)利要求或其等同方案的范圍內(nèi),可以根據(jù)設(shè) 計要求和其他因素,進行各種修改、組合、子組合和替換。
權(quán)利要求
一種音頻再現(xiàn)裝置,其包括解碼處理器,其用于對輸入的語音數(shù)據(jù)進行解碼;不連續(xù)判斷單元,其用于從輸入的數(shù)據(jù)包信息中判斷數(shù)據(jù)包與前面的數(shù)據(jù)包之間是否不連續(xù);重置處理單元,如果所述不連續(xù)判斷單元判斷出數(shù)據(jù)包不連續(xù),該重置處理單元用于對解碼信息進行重置;頻率分析單元,其用于對由所述解碼處理器解碼后的數(shù)據(jù)進行頻率分析;包絡(luò)計算單元,其用于計算由所述解碼處理器解碼后的數(shù)據(jù)的包絡(luò);電平差計算單元,其用于計算由所述解碼處理器解碼后的數(shù)據(jù)的電平差;校正處理單元,其可以執(zhí)行多個校正處理,并且如果所述校正處理是必要時就對所述解碼后的數(shù)據(jù)進行具體的校正處理;和處理判斷單元,其用于從頻率分析的結(jié)果中判斷是否執(zhí)行所述校正處理、判斷數(shù)據(jù)包數(shù)據(jù)是否不連續(xù)、如果所述數(shù)據(jù)包數(shù)據(jù)不連續(xù)就根據(jù)所述包絡(luò)和電平差判斷執(zhí)行哪項校正處理,并根據(jù)所述判斷結(jié)果輸出指令以執(zhí)行校正處理。
2. 根據(jù)權(quán)利要求1所述的音頻再現(xiàn)裝置,其中,如果所述數(shù)據(jù)包數(shù)據(jù)不連續(xù),所述處理 判斷單元就判斷作為頻率分析結(jié)果的頻譜是否等于或大于預(yù)定的可聽范圍,并且,如果所 述頻譜小于預(yù)定的可聽范圍,就在不執(zhí)行校正處理的情況下指示所述解碼處理器輸出解碼 后的數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1或2所述的音頻再現(xiàn)裝置,其中,如果所述數(shù)據(jù)包數(shù)據(jù)不連續(xù),所述 處理判斷單元就判斷作為頻率分析結(jié)果的頻譜是否等于或大于預(yù)定的可聽范圍,并且,如 果所述頻譜等于或大于所述預(yù)定的可聽范圍,就根據(jù)不連續(xù)點的語音電平指示所述校正處 理單元改變校正處理的內(nèi)容。
4. 根據(jù)權(quán)利要求3所述的音頻再現(xiàn)裝置,其中,如果所述不連續(xù)點前后的包絡(luò)小于第 一閥值,則所述處理判斷單元判斷不連續(xù)點的校正處理是不必要的。
5. 根據(jù)權(quán)利要求4所述的音頻再現(xiàn)裝置,其中所述校正處理單元可根據(jù)指令選擇靜音處理還是幀合成處理作為校正處理;并且 如果所述包絡(luò)大于所述第一閥值且所述不連續(xù)點的語音電平差小于第二閥值,則所述處理判斷單元輸出執(zhí)行所述幀合成處理的指令以平滑所述不連續(xù)點,如果所述電平差大于所述第二閥值,則輸出執(zhí)行所述靜音處理的指令以抑制噪聲。
6. 根據(jù)權(quán)利要求5所述的音頻再現(xiàn)裝置,其中所述校正處理單元可根據(jù)所述電平差調(diào) 整每項處理的參數(shù)。
7. 根據(jù)權(quán)利要求1至6中任何一項所述的音頻再現(xiàn)裝置,其中,所述不連續(xù)判斷單元基 于由高一級裝置所設(shè)定的不連續(xù)標記信息來執(zhí)行不連續(xù)檢測。
8. 根據(jù)權(quán)利要求1至6中任何一項所述的音頻再現(xiàn)裝置,其中,所述不連續(xù)判斷單元通 過頻譜的形狀變化對語音幀的不連續(xù)進行檢測。
9. 根據(jù)權(quán)利要求1至8中任何一項所述的音頻再現(xiàn)裝置,其中,如果通過來自高一級裝 置的標記信息或所述頻率分析單元的分析結(jié)果判斷出所述數(shù)據(jù)包數(shù)據(jù)不連續(xù),則所述處理 判斷單元將標示不連續(xù)的信息反饋給所述不連續(xù)判斷單元,并且,所述不連續(xù)判斷單元向所述重置處理單元輸出指令以在下個解碼時段執(zhí)行重置處理。
10. —種信息再現(xiàn)系統(tǒng),其包括音頻再現(xiàn)裝置,其用于從傳送來的信息中再現(xiàn)語音數(shù)據(jù), 其中,所述音頻再現(xiàn)裝置包括解碼處理器,其用于對輸入的語音數(shù)據(jù)進行解碼;不連續(xù)判斷單元,其用于從輸入的數(shù)據(jù)包信息中判斷數(shù)據(jù)包與前面數(shù)據(jù)包之間是否不 連續(xù);重置處理單元,如果所述不連續(xù)判斷單元判斷出數(shù)據(jù)包不連續(xù),該重置處理單元用于對解碼信息進行重置;頻率分析單元,其用于對由所述解碼處理器解碼后的數(shù)據(jù)進行頻率分析;包絡(luò)計算單元,其用于計算由所述解碼處理器解碼后的數(shù)據(jù)的包絡(luò); 電平差計算單元,其用于計算由所述解碼處理器解碼后的數(shù)據(jù)的電平差; 校正處理單元,其可以執(zhí)行多個校正處理,并且如果所述校正處理是必要時就對所述解碼后的數(shù)據(jù)進行具體的校正處理;禾口處理判斷單元,其用于從頻率分析的結(jié)果中判斷是否執(zhí)行校正處理、判斷數(shù)據(jù)包數(shù)據(jù)是否不連續(xù)、如果所述數(shù)據(jù)包數(shù)據(jù)不連續(xù)就根據(jù)所述包絡(luò)和電平差判斷執(zhí)行哪項校正處理,并根據(jù)所述判斷結(jié)果輸出指令以執(zhí)行校正處理。
11. 一種音頻再現(xiàn)方法,其包括以下步驟 對輸入的語音數(shù)據(jù)進行解碼;從輸入的數(shù)據(jù)包信息中判斷數(shù)據(jù)包與前面的數(shù)據(jù)包之間是否不連續(xù); 如果在所述不連續(xù)判斷步驟中判斷出數(shù)據(jù)包是不連續(xù)的,就對解碼信息進行重置; 對所述解碼后的數(shù)據(jù)進行頻率分析; 計算所述解碼后的數(shù)據(jù)的包絡(luò); 計算所述解碼后的數(shù)據(jù)的電平差;根據(jù)所述頻率分析的結(jié)果判斷是否執(zhí)行校正處理,判斷數(shù)據(jù)包數(shù)據(jù)是否不連續(xù),如果 所述數(shù)據(jù)包數(shù)據(jù)不連續(xù)時就根據(jù)所述包絡(luò)和電平差判斷執(zhí)行哪項校正處理,根據(jù)所述判斷 結(jié)果輸出指令以執(zhí)行所述校正處理;以及如果所述校正處理是必要的,就對解碼后的數(shù)據(jù)進行具體的校正處理。
全文摘要
本發(fā)明提供一種音頻再現(xiàn)裝置、信息再現(xiàn)系統(tǒng)、音頻再現(xiàn)方法,其中,所述音頻再現(xiàn)裝置包括對輸入語音數(shù)據(jù)進行解碼的解碼處理器;判斷數(shù)據(jù)包與前面數(shù)據(jù)包之間是否不連續(xù)的不連續(xù)判斷單元,重置解碼信息的重置處理單元;對解碼后數(shù)據(jù)進行頻率分析的頻率分析單元;計算解碼后數(shù)據(jù)的包絡(luò)的包絡(luò)計算單元;計算解碼后數(shù)據(jù)的電平差的電平差計算單元;如果校正處理是必要時對解碼后數(shù)據(jù)進行具體校正處理的校正處理單元;和判斷是否執(zhí)行校正處理、判斷數(shù)據(jù)包數(shù)據(jù)是否不連續(xù)、判斷執(zhí)行哪項校正處理以及輸出執(zhí)行校正處理指令的處理判斷單元。本發(fā)明可以減少由于靜音而在語音再現(xiàn)中出現(xiàn)的停頓,并使再現(xiàn)的語音聽上去更舒服。
文檔編號G11B20/00GK101789252SQ201010001199
公開日2010年7月28日 申請日期2010年1月15日 優(yōu)先權(quán)日2009年1月16日
發(fā)明者千葉貴宏, 徳永竜二, 福地弘行 申請人:索尼公司