音頻文件的音質(zhì)識別方法及裝置制造方法
【專利摘要】本發(fā)明提供一種音頻文件的音質(zhì)識別方法及裝置。本發(fā)明實施例通過獲取待識別的目標(biāo)音頻文件,進(jìn)而根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項,使得能夠根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì),這樣,才能夠向用戶提供真正的高音質(zhì)的音頻文件,使用戶能夠欣賞真正的高音質(zhì)的音頻文件。
【專利說明】音頻文件的音質(zhì)識別方法及裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及音頻處理技術(shù),尤其涉及一種音頻文件的音質(zhì)識別方法及裝置。
【【背景技術(shù)】】
[0002]音頻文件的音質(zhì),是指經(jīng)過壓縮處理之后的原始音頻數(shù)據(jù)的保真度。高音質(zhì)的音頻文件,能夠完全恢復(fù)原始音頻數(shù)據(jù),而不引起任何失真;而低音質(zhì)的音頻文件,則不能夠完全恢復(fù)原始音頻數(shù)據(jù),而引起部分失真。目前,出現(xiàn)了一些轉(zhuǎn)換技術(shù),能夠?qū)⒌鸵糍|(zhì)的音頻文件轉(zhuǎn)換成偽高音質(zhì)的音頻文件。實際上,這種偽高音質(zhì)的音頻文件,其音質(zhì)與轉(zhuǎn)換之前的音頻文件的音質(zhì)是一樣的,并不屬于真正的高音質(zhì)。用戶通過一些音樂類應(yīng)用獲得這些偽高音質(zhì)的音頻文件之后,根本無法欣賞到真正的高音質(zhì),這會影響這些音樂類應(yīng)用的品牌形象,甚至還會導(dǎo)致法律糾紛。
[0003]因此,為了能夠向用戶提供真正的高音質(zhì)的音頻文件,使用戶能夠欣賞真正的高音質(zhì)的音頻文件,有效識別音頻文件的音質(zhì),是亟待解決的問題。
【
【發(fā)明內(nèi)容】
】
[0004]本發(fā)明的多個方面提供一種音頻文件的音質(zhì)識別方法及裝置,用以實現(xiàn)音頻文件的音質(zhì)識別。
[0005]本發(fā)明的一方 面,提供一種音頻文件的音質(zhì)識別方法,包括:
[0006]獲取待識別的目標(biāo)音頻文件;
[0007]根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項;
[0008]根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì)。
[0009]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項,包括:
[0010]確定所述目標(biāo)音頻文件的聲道數(shù)目;
[0011]對所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得原始音頻數(shù)據(jù);
[0012]根據(jù)所述聲道數(shù)目和所述原始音頻數(shù)據(jù),獲得每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)。
[0013]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),包括:
[0014]若所述聲道數(shù)目大于或等于2,根據(jù)每個聲道所對應(yīng)的聲道音頻數(shù)據(jù),獲得至少兩個聲道所對應(yīng)的第一聲道音頻數(shù)據(jù)和第二聲道音頻數(shù)據(jù);
[0015]將所述第一聲道音頻數(shù)據(jù)和所述第二聲道音頻數(shù)據(jù)進(jìn)行加法處理,以獲得混合聲道音頻數(shù)據(jù);[0016]若所述混合聲道音頻數(shù)據(jù)大于或等于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,識別所述目標(biāo)音頻文件的音質(zhì)為所述第一音質(zhì);
[0017]若所述混合聲道音頻數(shù)據(jù)小于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì);其中,
[0018]N為大于I的數(shù);M為大于I的數(shù)。
[0019]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),包括:
[0020]若連續(xù)指定數(shù)目的目標(biāo)聲道音頻數(shù)據(jù)的值中兩兩之間的差值,小于或等于第一幅度閾值,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù);或者
[0021]若連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的差值,大于或等于第二幅度閾值,且所述連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的符號相反,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù)。
[0022]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述根據(jù)所述聲道數(shù)目和所述原始音頻數(shù)據(jù),獲得每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)之后,還包括:
[0023]對目標(biāo)聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得至少一幀音頻數(shù)據(jù),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù);
[0024]對所述至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)。
[0025]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),包括:
[0026]根據(jù)每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù),獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在每個頻點處的能量分量;
[0027]若每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在至少一個相同頻點處的能量分量中兩兩之間的差值,小于或等于所述能量閾值,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì)。
[0028]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述獲取待識別的目標(biāo)音頻文件之前,還包括:
[0029]獲取候選音頻文件的格式參數(shù);
[0030]根據(jù)所述格式參數(shù),確定所述候選音頻文件為所述目標(biāo)音頻文件;或者識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì)。
[0031]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述格式參數(shù)包括壓縮格式、采樣率、采樣深度和碼率中的至少一項。
[0032]本發(fā)明的另一方面,提供一種音頻文件的音質(zhì)識別裝置,包括:
[0033]獲取單元,用于獲取待識別的目標(biāo)音頻文件;
[0034]特征單元,用于根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項;[0035]識別單元,用于根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì)。
[0036]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述特征單元,具體用于
[0037]確定所述目標(biāo)音頻文件的聲道數(shù)目;
[0038]對所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得原始音頻數(shù)據(jù);以及
[0039]根據(jù)所述聲道數(shù)目和所述原始音頻數(shù)據(jù),獲得每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)。
[0040]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述識別單元,具體用于
[0041]若所述聲道數(shù)目大于或等于2,根據(jù)每個聲道所對應(yīng)的聲道音頻數(shù)據(jù),獲得至少兩個聲道所對應(yīng)的第一聲道音頻數(shù)據(jù)和第二聲道音頻數(shù)據(jù);
[0042]將所述第一聲道音頻數(shù)據(jù)和所述第二聲道音頻數(shù)據(jù)進(jìn)行加法處理,以獲得混合聲道音頻數(shù)據(jù);以及
[0043]若所述混合聲道音頻數(shù)據(jù)大于或等于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,識別所述目標(biāo)音頻文件的音質(zhì)為所述第一音質(zhì);
[0044]若所述混合聲道音頻數(shù)據(jù)小于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì);其中,
[0045]N為大于I的數(shù);M為大于I的數(shù)。
[0046]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述識別單元,具體用于
[0047]若連續(xù)指定數(shù)目的目標(biāo)聲道音頻數(shù)據(jù)的值中兩兩之間的差值,小于或等于第一幅度閾值,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù);或者
[0048]若連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的差值,大于或等于第二幅度閾值,且所述連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的符號相反,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù)。
[0049]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述特征單元,還用于
[0050]對目標(biāo)聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得至少一幀音頻數(shù)據(jù),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù);以及
[0051]對所述至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)。
[0052]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述識別單元,具體用于
[0053]根據(jù)每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù),獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在每個頻點處的能量分量;以及
[0054]若每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在至少一個相同頻點處的能量分量中兩兩之間的差值,小于或等于所述能量閾值,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì)。[0055]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述識別單元,還用于
[0056]獲取候選音頻文件的格式參數(shù);以及
[0057]根據(jù)所述格式參數(shù),確定所述候選音頻文件為所述目標(biāo)音頻文件;或者識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì)。
[0058]如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述格式參數(shù)包括壓縮格式、采樣率、采樣深度和碼率中的至少一項。
[0059]由上述技術(shù)方案可知,本發(fā)明實施例通過獲取待識別的目標(biāo)音頻文件,進(jìn)而根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項,使得能夠根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì),這樣,才能夠向用戶提供真正的高音質(zhì)的音頻文件,使用戶能夠欣賞真正的高音質(zhì)的音頻文件。
[0060]另外,采用本發(fā)明提供的技術(shù)方案,操作簡單,能夠有效提高音頻文件的音質(zhì)識別的效率。
【【專利附圖】
【附圖說明】】
[0061]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0062]圖I為本發(fā)明一實施例提供的音頻文件的音質(zhì)識別方法的流程示意圖;
[0063]圖2為圖I對應(yīng)的實施例中原始音頻數(shù)據(jù)即目標(biāo)聲道音頻數(shù)據(jù)的一時域波形示意圖;
[0064]圖3為圖I對應(yīng)的實施例中原始音頻數(shù)據(jù)即目標(biāo)聲道音頻數(shù)據(jù)的另一時域波形示意圖;
[0065]圖4為圖I對應(yīng)的實施例中始音頻數(shù)據(jù)即目標(biāo)聲道音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)的能量譜示意圖;
[0066]圖5為本發(fā)明另一實施例提供的音頻文件的音質(zhì)識別裝置的結(jié)構(gòu)示意圖。
【【具體實施方式】】
[0067]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的全部其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0068]需要說明的是,本發(fā)明實施例中所涉及的終端可以包括但不限于手機(jī)、個人數(shù)字助理(Personal Digital Assistant,PDA)、無線手持裝置、無線上網(wǎng)本、便攜電腦、個人電腦(Personal Computer, PC) > MP3 播放器、MP4 播放器等。
[0069]另外,本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。
[0070]圖I為本發(fā)明一實施例提供的一種音頻文件的音質(zhì)識別方法的流程示意圖,如圖I所示。
[0071 ] 101、獲取待識別的目標(biāo)音頻文件。
[0072]其中,所述目標(biāo)音頻文件可以包括現(xiàn)有技術(shù)中各種編碼格式的音頻文件,例如,動態(tài)圖像專家組(MovingPicture Experts Group,MPEG)層 3 (MPEGLayer_3,MP3)格式音頻文件、WMA (Windows Media Audio)格式音頻文件、高級音頻編碼(AdvancedAudio Coding, AAC)格式音頻文件、無損音頻壓縮編碼(Free Lossless Audio Codec, FLAC)或APE格式音頻文件等,本實施例對此不進(jìn)行特別限定。
[0073]102、根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項。
[0074]其中,所述目標(biāo)音頻文件的時域波形特征,可以包括但不限于原始音頻數(shù)據(jù)的幅度?目息。
[0075]原始音頻數(shù)據(jù),是由對聲音信號轉(zhuǎn)換而來的數(shù)字信號,例如,對所述聲音信號進(jìn)行抽樣、量化和編碼處理,以獲得脈沖編碼調(diào)制(Pulse Code Modulation,PCM)數(shù)據(jù),具體可以通過對目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解析獲得。
[0076]其中,所述目標(biāo)音頻文件的頻域譜線特征,可以包括但不限于原始音頻數(shù)據(jù)的頻
譜信息。
[0077]103、根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì)。
[0078]需要說明的是,101~103的執(zhí)行主體可以為處理裝置,可以位于本地的應(yīng)用(Application, App)例如,百度音樂中,或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,或者還可以一部分位于本地的應(yīng)用中,另一部分位于網(wǎng)絡(luò)側(cè)的服務(wù)器。
[0079]可以理解的是,所述應(yīng)用可以是安裝在終端上的應(yīng)用程序(nativeAPP),或者還可以是終端上的瀏覽器的一個網(wǎng)頁(webAPP),只要能夠?qū)崿F(xiàn)音頻數(shù)據(jù)的處理的客觀存在形式都可以,本實施例對此不進(jìn)行限定。
[0080]這樣,通過獲取待識別的目標(biāo)音頻文件,進(jìn)而根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項,使得能夠根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì),這樣,才能夠向用戶提供真正的高音質(zhì)的音頻文件,使用戶能夠欣賞真正的高音質(zhì)的音頻文件。
[0081]可選地,在本實施例的一個可能的實現(xiàn)方式中,在101之前,處理裝置還可以進(jìn)一步獲取候選音頻文件的格式參數(shù)。然后,所述處理裝置則可以根據(jù)所述格式參數(shù),確定所述候選音頻文件為所述目標(biāo)音頻文件;或者識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì)。
[0082] 其中,所述格式參數(shù)可以包括但不限于壓縮格式、采樣率、采樣深度和碼率中的至少一項。
[0083]所述壓縮格式,原始音頻數(shù)據(jù)經(jīng)過某個程序執(zhí)行壓縮的壓縮方法,例如MP3格式、WMA格式、AAC格式、FLAC格式或APE格式等。[0084]所述采樣率,也稱為采樣速度或者采樣頻率,定義了每秒從連續(xù)信號中提取并組成離散信號的采樣個數(shù),它用赫茲(Hz)來表示。
[0085]所述采樣深度,指一個采樣點的值由幾比特數(shù)來表示,它決定了每個采樣點的值的位數(shù),例如,8比特(bit)、16位或24位等。
[0086]所述碼率,是指單位時間內(nèi)處理的比特的數(shù)量,單位是每秒比特(bps)。
[0087]具體地,處理裝置具體可以對候選音頻文件的幀頭進(jìn)行解析,以獲得候選音頻文件的格式參數(shù)。
[0088]例如,若采樣深度是8bit,識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì);若采樣深度是16bit,確定所述候選音頻文件為所述目標(biāo)音頻文件。
[0089]或者,再例如,若采樣率小于44100Hz,識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì);若采樣率大于或等于44100Hz,確定所述候選音頻文件為所述目標(biāo)音頻文件。
[0090]或者,再例如,壓縮格式為MP3,且碼率小于320每秒千比特(kbps),識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì);壓縮格式為MP3,且碼率大于或等于320kbps,確定所述候選音頻文件為所述目標(biāo)音頻文件。
[0091]這樣,通過獲取候選音頻文件的格式參數(shù),進(jìn)而可以根據(jù)所述格式參數(shù),預(yù)先識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì),使得該候選音頻文件無需作為目標(biāo)音頻文件,以進(jìn)行進(jìn)一步識別,能夠有效提聞首頻文件的首質(zhì)識別的效率。
[0092]另外,由于無需對候選音頻文件進(jìn)行解碼,只需要對幀頭進(jìn)行解析就可以獲得候選音頻文件的格式參數(shù),因此,能夠進(jìn)一步提高音頻文件的音質(zhì)識別的效率。
[0093]可選地,在本實施例的一個可能的實現(xiàn)方式中,在102中,處理裝置具體可以確定所述目標(biāo)音頻文件的聲道數(shù)目,以及對所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得原始音頻數(shù)據(jù)。然后,所述處理裝置則可以根據(jù)所述聲道數(shù)目和所述原始音頻數(shù)據(jù),獲得每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)。其中,解析方法和解碼方法的詳細(xì)描述可以參見現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述。
[0094]例如,處理裝置具體可以對所述目標(biāo)音頻文件的幀頭進(jìn)行解析,以確定所述目標(biāo)音頻文件的聲道數(shù)目。
[0095]或者再例如,處理裝置具體對所述目標(biāo)音頻文件的文件頭進(jìn)行解析,以確定所述目標(biāo)音頻文件的聲道數(shù)目。
[0096]或者再例如,處理裝置還可以對目標(biāo)音頻文件的其他部分進(jìn)行解析,以確定所述目標(biāo)音頻文件的聲道數(shù)目,本實施例對此不進(jìn)行特別限定。
[0097]或者再例如,處理裝置具體還可以從配置文件中,獲得所述目標(biāo)音頻文件的聲道數(shù)目。
[0098]可以理解的是,“確定所述目標(biāo)音頻文件的聲道數(shù)目”,以及“對所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得原始音頻數(shù)據(jù)”的兩個步驟,沒有固定順序,所述處理裝置可以先執(zhí)行“確定所述目標(biāo)音頻文件的聲道數(shù)目”的步驟,再執(zhí)行“對所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得原始音頻數(shù)據(jù)”的步驟,或者還可以先執(zhí)行“對所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得原始音頻數(shù)據(jù)”的步驟,再執(zhí)行“確定所述目標(biāo)音頻文件的聲道數(shù)目”的步驟,或者還可以同時執(zhí)行這兩個步驟,本實施例對此不進(jìn)行特別限定。
[0099]相應(yīng)地,在本實施例的一個可能的實現(xiàn)方式中,在103中,若所述聲道數(shù)目大于或等于2,處理裝置則可以根據(jù)每個聲道所對應(yīng)的聲道音頻數(shù)據(jù),獲得至少兩個聲道所對應(yīng)的第一聲道音頻數(shù)據(jù)和第二聲道音頻數(shù)據(jù),進(jìn)而將所述第一聲道音頻數(shù)據(jù)和所述第二聲道音頻數(shù)據(jù)進(jìn)行加法處理,以獲得混合聲道音頻數(shù)據(jù)。
[0100]若所述混合聲道音頻數(shù)據(jù)大于或等于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,所述處理裝置則可以識別所述目標(biāo)音頻文件的音質(zhì)為所述第一音質(zhì)。其中,N為大于I的數(shù);M為大于I的數(shù)。
[0101]若所述混合聲道音頻數(shù)據(jù)小于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,所述處理裝置則可以識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì);其中,N為大于I的數(shù);M為大于I的數(shù)。
[0102]相應(yīng)地,在本實施例的一個可能的實現(xiàn)方式中,在103中,若連續(xù)指定數(shù)目(如3個)的目標(biāo)聲道音頻數(shù)據(jù)的值中兩兩之間的差值,小于或等于第一幅度閾值,這種情況所對應(yīng)的波形可以如圖2所示,那么,所述處理裝置則可以識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì)。其中,目標(biāo)聲道音頻數(shù)據(jù)可以為任意一個聲道所對應(yīng)的聲道音頻數(shù)據(jù),本實施例對此不進(jìn)行特別限定。圖2中,橫坐標(biāo)表示時間,縱坐標(biāo)表示幅度。
[0103]相應(yīng)地,在本實施例的一個可能的實現(xiàn)方式中,在103中,若連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的差值,大于或等于第二幅度閾值,且所述連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的符號相反,這種情況所對應(yīng)的波形可以如圖3所示,那么,所述處理裝置則可以識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì)。其中,目標(biāo)聲道音頻數(shù)據(jù)可以為任意一個聲道所對應(yīng)的聲道音頻數(shù)據(jù),本實施例對此不進(jìn)行特別限定。圖3中,橫坐標(biāo)表示時間,縱坐標(biāo)表不幅度,。
[0104]可選地,在本實施例的一個可能的實現(xiàn)方式中,在102中,處理裝置在獲得每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)之后,還可以進(jìn)一步對目標(biāo)聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得至少一幀音頻數(shù)據(jù),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù)。然后,所述處理裝置則可以對所述至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)。其中,目標(biāo)聲道音頻數(shù)據(jù)可以為任意一個聲道所對應(yīng)的聲道音頻數(shù)據(jù),本實施例對此不進(jìn)行特別限定。
[0105]具體地,所述頻域變換處理可以包括但不限于快速傅里葉變換(FastFourierTransform, FFT)。
[0106]例如,處理裝置可以對目標(biāo)聲道音頻數(shù)據(jù)按照20ms的間隔,進(jìn)行分幀處理,且相鄰幀之間有50%的數(shù)據(jù)重疊,以獲得至少一幀音頻數(shù)據(jù)。然后,所述處理裝置則可以對所述至少一幀音頻數(shù)據(jù),進(jìn)行FFT處理,以獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù),記為Aiij ;其中,i表示頻點的編號,j表示幀的編號,Ai,j表示第j個幀在第i個頻點處的頻域數(shù)據(jù)。
[0107]相應(yīng)地,在本實施例的一個可能的實現(xiàn)方式中,在103中,所述處理裝置具體可以根據(jù)每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù),獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在每個頻點處的能量分量。若每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在至少一個相同頻點處的能量分量中兩兩之間的差值,小于或等于所述能量閾值,這種情況所對應(yīng)的能量譜可以如圖4所示,那么,所述處理裝置則可以識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì)。圖4中,橫坐標(biāo)表示時間,縱坐標(biāo)表示頻率,每個點的顏色表示能量。
[0108]例如,處理裝置根據(jù)所獲得的每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)記為獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在每個頻點處的能量分量Eu ;其中,i表示頻點的編號,j表示幀的編號,Eiij表示第j個幀在第i個頻點處的能量分量。
[0109]本實施例中,通過獲取待識別的目標(biāo)音頻文件,進(jìn)而根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項,使得能夠根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì),這樣,才能夠向用戶提供真正的高音質(zhì)的音頻文件,使用戶能夠欣賞真正的高音質(zhì)的音頻文件。
[0110]另外,采用本發(fā)明提供的技術(shù)方案,操作簡單,能夠有效提高音頻文件的音質(zhì)識別的效率。
[0111]需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
[0112]在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
[0113]圖5為本發(fā)明另一實施例提供的音頻文件的音質(zhì)識別裝置的結(jié)構(gòu)示意圖,如圖5所示。本實施例的音頻文件的音質(zhì)識別裝置可以包括獲取單元51、特征單元52和識別單元53。其中,
[0114]獲取單元51,用于獲取待識別的目標(biāo)音頻文件。
[0115]其中,所述目標(biāo)音頻文件可以包括現(xiàn)有技術(shù)中各種編碼格式的音頻文件,例如,動態(tài)圖像專家組(MovingPicture Experts Group,MPEG)層 3 (MPEGLayer_3,MP3)格式音頻文件、WMA (Windows Media Audio)格式音頻文件、高級音頻編碼(AdvancedAudio Coding, AAC)格式音頻文件、無損音頻壓縮編碼(Free Lossless Audio Codec, FLAC)或APE格式音頻文件等,本實施例對此不進(jìn)行特別限定。
[0116]特征單元52,用于根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項。
[0117]其中,所述目標(biāo)音頻文件的時域波形特征,可以包括但不限于原始音頻數(shù)據(jù)的幅度?目息。
[0118]原始音頻數(shù)據(jù),是由對聲音信號轉(zhuǎn)換而來的數(shù)字信號,例如,對所述聲音信號進(jìn)行抽樣、量化和編碼處理,以獲得脈沖編碼調(diào)制(Pulse Code Modulation,PCM)數(shù)據(jù),具體可以通過對目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解析獲得。
[0119]其中,所述目標(biāo)音頻文件的頻域譜線特征,可以包括但不限于原始音頻數(shù)據(jù)的頻
譜信息。
[0120]識別單元53,用于根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì)。
[0121]需要說明的是,本實施例所提供的音頻文件的音質(zhì)識別裝置可以為處理裝置,可以位于本地的應(yīng)用(Application,App)例如,百度音樂中,或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,或者還可以一部分位于本地的應(yīng)用中,另一部分位于網(wǎng)絡(luò)側(cè)的服務(wù)器。[0122]可以理解的是,所述應(yīng)用可以是安裝在終端上的應(yīng)用程序(nativeAPP),或者還可以是終端上的瀏覽器的一個網(wǎng)頁(webAPP),只要能夠?qū)崿F(xiàn)音頻數(shù)據(jù)的處理的客觀存在形式都可以,本實施例對此不進(jìn)行限定。
[0123]這樣,通過獲取單元獲取待識別的目標(biāo)音頻文件,進(jìn)而由特征單元根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項,使得識別單元能夠根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì),這樣,才能夠向用戶提供真正的高音質(zhì)的音頻文件,使用戶能夠欣賞真正的高音質(zhì)的音頻文件。
[0124]可選地,在本實施例的一個可能的實現(xiàn)方式中,所述識別單元,還可以進(jìn)一步用于獲取候選音頻文件的格式參數(shù);以及根據(jù)所述格式參數(shù),確定所述候選音頻文件為所述目標(biāo)音頻文件;或者識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì)。
[0125]其中,所述格式參數(shù)可以包括但不限于壓縮格式、采樣率、采樣深度和碼率中的至少一項。
[0126]所述壓縮格式,原始音頻數(shù)據(jù)經(jīng)過某個程序執(zhí)行壓縮的壓縮方法,例如MP3格式、WMA格式、AAC格式、FLAC格式或APE格式等。
[0127]所述采樣率,也稱為采樣速度或者采樣頻率,定義了每秒從連續(xù)信號中提取并組成離散信號的采樣個數(shù),它用赫茲(Hz)來表示。
[0128]所述采樣深度,指一個采樣點的值由幾比特數(shù)來表示,它決定了每個采樣點的值的位數(shù),例如,8比特(bit)、16位或24位等。
[0129]所述碼率,是指單位時間內(nèi)處理的比特的數(shù)量,單位是每秒比特(bps)。
[0130]具體地,所述識別單元53具體可以對候選音頻文件的幀頭進(jìn)行解析,以獲得候選音頻文件的格式參數(shù)。
[0131]例如,若采樣深度是8bit,識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì);若采樣深度是16bit,確定所述候選音頻文件為所述目標(biāo)音頻文件。
[0132]或者,再例如,若采樣率小于44100Hz,識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì);若采樣率大于或等于44100Hz,確定所述候選音頻文件為所述目標(biāo)音頻文件。
[0133]或者,再例如,壓縮格式為MP3,且碼率小于320每秒千比特(kbps),識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì);壓縮格式為MP3,且碼率大于或等于320kbps,確定所述候選音頻文件為所述目標(biāo)音頻文件。
[0134]這樣,通過識別單元獲取候選音頻文件的格式參數(shù),進(jìn)而可以根據(jù)所述格式參數(shù),預(yù)先識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì),使得該候選音頻文件無需作為目標(biāo)音頻文件,以進(jìn)行進(jìn)一步識別,能夠有效提聞首頻文件的首質(zhì)識別的效率。
[0135]另外,由于無需對候選音頻文件進(jìn)行解碼,只需要對幀頭進(jìn)行解析就可以獲得候選音頻文件的格式參數(shù),因此,能夠進(jìn)一步提高音頻文件的音質(zhì)識別的效率。
[0136]可選地,在本實施例的一個可能的實現(xiàn)方式中,所述特征單元52,具體可以用于確定所述目標(biāo)音頻文件的聲道數(shù)目;對所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得原始音頻數(shù)據(jù);以及根據(jù)所述聲道數(shù)目和所述原始音頻數(shù)據(jù),獲得每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)。其中,解析方法和解碼方法的詳細(xì)描述可以參見現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述。
[0137]例如,所述特征單元52具體可以對所述目標(biāo)音頻文件的幀頭進(jìn)行解析,以確定所述目標(biāo)音頻文件的聲道數(shù)目。
[0138]或者再例如,所述特征單元52具體對所述目標(biāo)音頻文件的文件頭進(jìn)行解析,以確定所述目標(biāo)音頻文件的聲道數(shù)目。
[0139]或者再例如,所述特征單元52還可以對目標(biāo)音頻文件的其他部分進(jìn)行解析,以確定所述目標(biāo)音頻文件的聲道數(shù)目,本實施例對此不進(jìn)行特別限定。
[0140]或者再例如,所述特征單元52具體還可以從配置文件中,獲得所述目標(biāo)音頻文件的聲道數(shù)目。
[0141]相應(yīng)地,在本實施例的一個可能的實現(xiàn)方式中,所述識別單元53,具體可以用于若所述聲道數(shù)目大于或等于2,根據(jù)每個聲道所對應(yīng)的聲道音頻數(shù)據(jù),獲得至少兩個聲道所對應(yīng)的第一聲道音頻數(shù)據(jù)和第二聲道音頻數(shù)據(jù);將所述第一聲道音頻數(shù)據(jù)和所述第二聲道音頻數(shù)據(jù)進(jìn)行加法處理,以獲得混合聲道音頻數(shù)據(jù);以及若所述混合聲道音頻數(shù)據(jù)大于或等于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,識別所述目標(biāo)音頻文件的音質(zhì)為所述第一音質(zhì);若所述混合聲道音頻數(shù)據(jù)小于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì);其中,N為大于I的數(shù)'M為大于I的數(shù)。
[0142]相應(yīng)地,在本實施例的一個可能的實現(xiàn)方式中,所述識別單元53,具體可以用于若連續(xù)指定數(shù)目(如3個)的目標(biāo)聲道音頻數(shù)據(jù)的值中兩兩之間的差值,小于或等于第一幅度閾值,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù)。這種情況所對應(yīng)的波形可以如圖2所示。其中,目標(biāo)聲道音頻數(shù)據(jù)可以為任意一個聲道所對應(yīng)的聲道音頻數(shù)據(jù),本實施例對此不進(jìn)行特別限定。
[0143]相應(yīng)地,在本實施例的一個可能的實現(xiàn)方式中,所述識別單元53,具體可以用于若連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的差值,大于或等于第二幅度閾值,且所述連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的符號相反,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù)。這種情況所對應(yīng)的波形可以如圖3所示。其中,目標(biāo)聲道音頻數(shù)據(jù)可以為任意一個聲道所對應(yīng)的聲道音頻數(shù)據(jù),本實施例對此不進(jìn)行特別限定。
[0144]可選地,在本實施例的一個可能的實現(xiàn)方式中,所述特征單元52,還可以進(jìn)一步用于對目標(biāo)聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得至少一幀音頻數(shù)據(jù),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù);以及對所述至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)。其中,目標(biāo)聲道音頻數(shù)據(jù)可以為任意一個聲道所對應(yīng)的聲道音頻數(shù)據(jù),本實施例對此不進(jìn)行特別限定。
[0145]具體地,所述頻域變換處理可以包括但不限于快速傅里葉變換(FastFourierTransform, FFT)。
[0146]例如,所述特征單元52可以對目標(biāo)聲道音頻數(shù)據(jù)按照20ms的間隔,進(jìn)行分幀處理,且相鄰幀之間有50%的數(shù)據(jù)重疊,以獲得至少一幀音頻數(shù)據(jù)。然后,所述特征單元52則可以對所述至少一幀音頻數(shù)據(jù),進(jìn)行FFT處理,以獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù),記為A。;其中,i表示頻點的編號,j表示幀的編號,A。表示第j個幀在第i個頻點處的頻域數(shù)據(jù)。
[0147]相應(yīng)地,在本實施例的一個可能的實現(xiàn)方式中,所述識別單元53,具體可以用于根據(jù)每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù),獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在每個頻點處的能量分量;若每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在至少一個相同頻點處的能量分量中兩兩之間的差值,小于或等于所述能量閾值,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì)。這種情況所對應(yīng)的能量譜可以如圖4所示。
[0148]例如,所述識別單元53根據(jù)所獲得的每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)記為A。,獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在每個頻點處的能量分量Eu ;其中,i表示頻點的編號,j表示幀的編號,Ei,j表示第j個幀在第i個頻點處的能量分量。
[0149]本實施例中,通過獲取單元獲取待識別的目標(biāo)音頻文件,進(jìn)而由特征單元根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項,使得識別單元能夠根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì),這樣,才能夠向用戶提供真正的高音質(zhì)的音頻文件,使用戶能夠欣賞真正的高音質(zhì)的音頻文件。
[0150]另外,采用本發(fā)明提供的技術(shù)方案,操作簡單,能夠有效提高音頻文件的音質(zhì)識別的效率。
[0151]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
[0152]在本發(fā)明所提供的幾個實施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
[0153]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
[0154]另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。
[0155]上述以軟件功能單元的形式實現(xiàn)的集成的單元,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)裝置(可以是個人計算機(jī),音頻處理引擎,或者網(wǎng)絡(luò)裝置等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory, ROM)、隨機(jī)存取存儲器(Random Access Memory, RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0156]最后應(yīng)說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。
【權(quán)利要求】
1.一種音頻文件的音質(zhì)識別方法,其特征在于,包括: 獲取待識別的目標(biāo)首頻文件; 根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項; 根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項,包括: 確定所述目標(biāo)音頻文件的聲道數(shù)目; 對所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得原始音頻數(shù)據(jù); 根據(jù)所述聲道數(shù)目和所述原始音頻數(shù)據(jù),獲得每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),包括: 若所述聲道數(shù)目大于或等于2,根據(jù)每個聲道所對應(yīng)的聲道音頻數(shù)據(jù),獲得至少兩個聲道所對應(yīng)的第一聲道音頻數(shù)據(jù)和第二聲道音頻數(shù)據(jù); 將所述第一聲道音頻數(shù)據(jù)和所述第二聲道音頻數(shù)據(jù)進(jìn)行加法處理,以獲得混合聲道音頻數(shù)據(jù); 若所述混合聲道音頻數(shù)據(jù)大于或等于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,識別所述目標(biāo)音頻文件的音質(zhì)為所述第一音質(zhì); 若所述混合聲道音頻數(shù)據(jù)小于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì);其中, N為大于I的數(shù);M為大于I的數(shù)。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),包括: 若連續(xù)指定數(shù)目的目標(biāo)聲道音頻數(shù)據(jù)的值中兩兩之間的差值,小于或等于第一幅度閾值,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù);或者 若連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的差值,大于或等于第二幅度閾值,且所述連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的符號相反,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù)。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述聲道數(shù)目和所述原始音頻數(shù)據(jù),獲得每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)之后,還包括: 對目標(biāo)聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得至少一幀音頻數(shù)據(jù),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù); 對所述至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),包括:根據(jù)每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù),獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在每個頻點處的能量分量; 若每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在至少一個相同頻點處的能量分量中兩兩之間的差值,小于或等于所述能量閾值,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì)。
7.根據(jù)權(quán)利要求1~6任一權(quán)利要求所述的方法,其特征在于,所述獲取待識別的目標(biāo)音頻文件之前,還包括: 獲取候選音頻文件的格式參數(shù); 根據(jù)所述格式參數(shù),確定所述候選音頻文件為所述目標(biāo)音頻文件;或者識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì)。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述格式參數(shù)包括壓縮格式、采樣率、采樣深度和碼率中的至少一項。
9.一種音頻文件的音質(zhì)識別裝置,其特征在于,包括: 獲取單元,用于獲取待識別的目標(biāo)音頻文件; 特征單元,用于根據(jù)所述目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的時域波形特征和所述目標(biāo)音頻文件的頻域譜線特征中的至少一項; 識別單元,用于根據(jù)所 述時域波形特征和所述頻域譜線特征中的至少一項,識別所述目標(biāo)音頻文件的音質(zhì)為第一音質(zhì)或第二音質(zhì),所述第一音質(zhì)高于所述第二音質(zhì)。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述特征單元,具體用于 確定所述目標(biāo)音頻文件的聲道數(shù)目; 對所述目標(biāo)音頻文件的數(shù)據(jù)塊進(jìn)行解碼,以獲得原始音頻數(shù)據(jù);以及 根據(jù)所述聲道數(shù)目和所述原始音頻數(shù)據(jù),獲得每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述識別單元,具體用于 若所述聲道數(shù)目大于或等于2,根據(jù)每個聲道所對應(yīng)的聲道音頻數(shù)據(jù),獲得至少兩個聲道所對應(yīng)的第一聲道音頻數(shù)據(jù)和第二聲道音頻數(shù)據(jù); 將所述第一聲道音頻數(shù)據(jù)和所述第二聲道音頻數(shù)據(jù)進(jìn)行加法處理,以獲得混合聲道音頻數(shù)據(jù);以及 若所述混合聲道音頻數(shù)據(jù)大于或等于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,識別所述目標(biāo)音頻文件的音質(zhì)為所述第一音質(zhì); 若所述混合聲道音頻數(shù)據(jù)小于所述第一聲道音頻數(shù)據(jù)/N或所述第二聲道音頻數(shù)據(jù)/M,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì);其中, N為大于I的數(shù);M為大于I的數(shù)。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述識別單元,具體用于 若連續(xù)指定數(shù)目的目標(biāo)聲道音頻數(shù)據(jù)的值中兩兩之間的差值,小于或等于第一幅度閾值,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù);或者 若連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的差值,大于或等于第二幅度閾值,且所述連續(xù)兩個的目標(biāo)聲道音頻數(shù)據(jù)的值的符號相反,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù)。
13.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述特征單元,還用于 對目標(biāo)聲道音頻數(shù)據(jù)進(jìn)行分幀處理,以獲得至少一幀音頻數(shù)據(jù),所述目標(biāo)聲道音頻數(shù)據(jù)包括每個聲道所對應(yīng)的聲道音頻數(shù)據(jù)中的任一聲道所對應(yīng)的聲道音頻數(shù)據(jù);以及 對所述至少一幀音頻數(shù)據(jù),進(jìn)行頻域變換處理,以獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述識別單元,具體用于 根據(jù)每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù),獲得每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在每個頻點處的能量分量;以及 若每幀音頻數(shù)據(jù)所對應(yīng)的頻域數(shù)據(jù)在至少一個相同頻點處的能量分量中兩兩之間的差值,小于或等于所述能量閾值,識別所述目標(biāo)音頻文件的音質(zhì)為所述第二音質(zhì)。
15.根據(jù)權(quán)利要求9~14任一權(quán)利要求所述的裝置,其特征在于,所述識別單元,還用于 獲取候選音頻文件的格式參數(shù);以及 根據(jù)所述格式參數(shù),確定所述候選音頻文件為所述目標(biāo)音頻文件;或者識別所述候選音頻文件的音質(zhì)為所述第二音質(zhì)。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述格式參數(shù)包括壓縮格式、采樣率、采樣深度和碼率中的至少一項。
【文檔編號】G10L25/51GK104036788SQ201410235733
【公開日】2014年9月10日 申請日期:2014年5月29日 優(yōu)先權(quán)日:2014年5月29日
【發(fā)明者】田彪 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司