音頻信號(hào)處理的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明總體上涉及音頻信號(hào)處理,更具體地,涉及用于音頻信號(hào)處理的混合式推薦的方法和裝置。
【背景技術(shù)】
[0002]當(dāng)流式播放在線音頻和/或在本地設(shè)備上回放音頻時(shí),通常需要應(yīng)用某些后處理或者聲效。例如,應(yīng)用于音頻信號(hào)的音頻處理可以包括但不限于:噪聲降低和補(bǔ)償,均衡,音量調(diào)節(jié)、雙聲道虛擬化、環(huán)境提取、同步,等等。
[0003]傳統(tǒng)的音頻處理向音頻信號(hào)應(yīng)用一組預(yù)定義參數(shù)。將會(huì)理解,預(yù)定義的參數(shù)只能夠提供有限的生效,可能無法滿足個(gè)體用戶的需求。而且,某些預(yù)定義參數(shù)被硬編碼到設(shè)備中,因此無法適配于所處理的音頻信號(hào)和/或其他動(dòng)態(tài)因素。為了解決這一問題,某些已知的解決方案支持在回放設(shè)備上的實(shí)時(shí)分析和處理,例如音量調(diào)節(jié)等。然而,本地回放設(shè)備、特別是那些便攜式用戶終端的處理能力和/或資源(諸如存儲(chǔ)器)通常有限,這限制了復(fù)雜處理和算法的使用。而且,為了滿足實(shí)時(shí)在線處理的低延遲要求,對(duì)音頻信號(hào)處理的精度和質(zhì)量不得不做出折中。
[0004]已經(jīng)提出了某些方案支持動(dòng)態(tài)地適配音頻處理算法的配置,例如,根據(jù)所處理的音頻內(nèi)容來適配。作為示例,可以使用分類算法將音頻內(nèi)容劃分為不同的內(nèi)容類別,諸如語音、音樂、電影,等等。繼而,可以根據(jù)所處理音頻的內(nèi)容類別來控制音頻處理,從而選擇最為適當(dāng)?shù)膮?shù)值。然而,在這種已知方案中,僅僅使用了被處理的音頻內(nèi)容來配置音頻處理算法,沒有考慮關(guān)于設(shè)備、環(huán)境或者目標(biāo)用戶的行為等信息,而沒有考慮到其他相關(guān)用戶的特性。因此,所推薦的參數(shù)配置往往不是最優(yōu)的。
[0005]有鑒于此,本領(lǐng)域中需要一種支持對(duì)音頻信號(hào)處理的配置進(jìn)行更加準(zhǔn)確和自適應(yīng)的配置的技術(shù)方案。
【發(fā)明內(nèi)容】
[0006]為了解決上述問題,本發(fā)明提出一種用于音頻信號(hào)處理的方法和裝置。
[0007]在一個(gè)方面,本發(fā)明的實(shí)施例提供一種用于音頻信號(hào)處理的方法。所述方法包括:獲取與目標(biāo)用戶對(duì)音頻信號(hào)的使用相關(guān)聯(lián)的第一組元數(shù)據(jù);獲取與一組參考用戶相關(guān)聯(lián)的第二組元數(shù)據(jù);以及至少部分地基于所述第一組元數(shù)據(jù)和所述第二組元數(shù)據(jù),針對(duì)所述目標(biāo)用戶而生成至少一個(gè)參數(shù)的推薦配置,所述至少一個(gè)參數(shù)將被用于所述音頻信號(hào)的所述使用。這方面的實(shí)施例還包括對(duì)應(yīng)的計(jì)算機(jī)程序產(chǎn)品。
[0008]在另一方面,本發(fā)明的實(shí)施例提供一種用于音頻信號(hào)處理的裝置。所述裝置包括:第一元數(shù)據(jù)獲取單元,被配置為獲取與目標(biāo)用戶對(duì)音頻信號(hào)的使用相關(guān)聯(lián)的第一組元數(shù)據(jù);第二元數(shù)據(jù)獲取單元,被配置為獲取與一組參考用戶相關(guān)聯(lián)的第二組元數(shù)據(jù);以及配置推薦單元,被配置為至少部分地基于所述第一組元數(shù)據(jù)和所述第二組元數(shù)據(jù),針對(duì)所述目標(biāo)用戶而生成至少一個(gè)參數(shù)的推薦配置,所述至少一個(gè)參數(shù)將被用于所述音頻信號(hào)的所述使用。
[0009]通過下文描述將會(huì)理解,根據(jù)本發(fā)明的實(shí)施例,基于內(nèi)容的推薦和基于用戶數(shù)據(jù)的推薦被整合在一起,以生成用于處理音頻信號(hào)的一個(gè)或多個(gè)參數(shù)的推薦配置。通過將其他用戶的行為納入考慮,配置推薦可以更快地收斂至用戶期望。同時(shí),通過使用關(guān)于音頻內(nèi)容、設(shè)備、環(huán)境和/或用戶偏好的信息,即使在缺乏足夠用戶數(shù)據(jù)的情況下也可以做出比較準(zhǔn)確和可靠的推薦。
【附圖說明】
[0010]通過參考附圖閱讀下文的詳細(xì)描述,本發(fā)明實(shí)施例的上述以及其他目的、特征和優(yōu)點(diǎn)將變得易于理解。在附圖中,以示例而非限制性的方式示出了本發(fā)明的若干實(shí)施例,其中:
[0011]圖1示出了本發(fā)明的示例實(shí)施例可實(shí)現(xiàn)于其中的系統(tǒng)的框圖;
[0012]圖2示出了根據(jù)本發(fā)明的示例實(shí)施例的用于音頻信號(hào)處理的方法的流程圖;
[0013]圖3示出了根據(jù)本發(fā)明的示例實(shí)施例的用于獲取與參考用戶相關(guān)聯(lián)的元數(shù)據(jù)的方法的流程圖;
[0014]圖4示出了根據(jù)本發(fā)明的示例實(shí)施例的用于生成推薦參數(shù)配置的方法的流程圖;
[0015]圖5示出了根據(jù)本發(fā)明的示例實(shí)施例的用于音頻信號(hào)處理的裝置的框圖;以及
[0016]圖6示出了適于實(shí)現(xiàn)本發(fā)明的示例實(shí)施例的計(jì)算機(jī)系統(tǒng)的框圖。
[0017]在各個(gè)附圖中,相同或?qū)?yīng)的標(biāo)號(hào)表不相同或?qū)?yīng)的部分。
【具體實(shí)施方式】
[0018]下面將參考附圖中示出的若干示例實(shí)施例來描述本發(fā)明的原理。應(yīng)當(dāng)理解,描述這些實(shí)施例僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本發(fā)明,而并非以任何方式限制本發(fā)明的范圍。
[0019]本發(fā)明的核心創(chuàng)造性思想在于提出一種用于音頻信號(hào)處理的配置的混合式推薦。更具體地,根據(jù)本發(fā)明的示例實(shí)施例,目標(biāo)用戶的特性可以與一個(gè)或多個(gè)其他用戶的特性自適應(yīng)地整合。通過將其他用戶的信息納入考慮,配置推薦可以更加有效地收斂到用戶的期望。同時(shí),通過使用關(guān)于音頻內(nèi)容、設(shè)備、環(huán)境和/或用戶偏好的信息,即使在缺乏用戶數(shù)據(jù)的情況下也能夠做出比較準(zhǔn)確和可靠的推薦。
[0020]現(xiàn)在參考圖1,其示出了本發(fā)明的示例實(shí)施例可以實(shí)現(xiàn)于其中的系統(tǒng)100。如圖所示,系統(tǒng)100包括服務(wù)器101。根據(jù)本發(fā)明的示例實(shí)施例,服務(wù)器101可以由任何適當(dāng)?shù)臋C(jī)器實(shí)現(xiàn),并且可以配備有足夠的資源,例如信號(hào)處理能力和存儲(chǔ)。在系統(tǒng)100基于云架構(gòu)實(shí)現(xiàn)的那些實(shí)施例中,服務(wù)器101可以是云服務(wù)器。
[0021]系統(tǒng)100還可以包括媒體捕獲設(shè)備102和媒體使用設(shè)備103,二者都連接至服務(wù)器101。在某些示例實(shí)施例中,媒體捕獲設(shè)備102和/或媒體使用設(shè)備103可以由便攜式設(shè)備實(shí)現(xiàn),諸如移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、膝上型計(jì)算機(jī)、平板式計(jì)算機(jī),等等。備選地,媒體捕獲設(shè)備102和/或媒體使用設(shè)備103可以由固定式機(jī)器實(shí)現(xiàn),諸如工作站、個(gè)人計(jì)算機(jī)(PC)或者其他任何適當(dāng)?shù)挠?jì)算設(shè)備。
[0022]根據(jù)本發(fā)明的示例實(shí)施例,信息在系統(tǒng)100內(nèi)可以借助于通信網(wǎng)絡(luò)來傳送,例如設(shè)備(RF)通信網(wǎng)絡(luò),局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)或因特網(wǎng)等計(jì)算機(jī)網(wǎng)絡(luò),近場(chǎng)通信網(wǎng)絡(luò),或者其組合。而且,服務(wù)器101與設(shè)備102和103之間的連接可以是有線的,也可以是無線的。本發(fā)明的范圍在此方面不受限制。
[0023]根據(jù)本發(fā)明的示例實(shí)施例,媒體捕獲設(shè)備102可配置為捕獲諸如音頻和視頻之類的媒體內(nèi)容。所捕獲的媒體內(nèi)容可以從媒體捕獲設(shè)備102被上傳到服務(wù)器101。媒體使用設(shè)備103可配置為以本地方式或者通過實(shí)時(shí)流式播放而使用來自服務(wù)器101的媒體內(nèi)容。在此使用的術(shù)語“使用”是指對(duì)音頻信號(hào)的任何使用,諸如回放。
[0024]根據(jù)本發(fā)明的示例實(shí)施例,除了音頻信號(hào)以及可能的其他媒體內(nèi)容之外,媒體捕獲設(shè)備102還可以配置為獲取和向服務(wù)器101上傳與音頻信號(hào)的捕獲相關(guān)聯(lián)的元數(shù)據(jù)(稱為“捕獲元數(shù)據(jù)”)。捕獲元數(shù)據(jù)可以利用各種適當(dāng)?shù)募夹g(shù)來獲取,諸如各種傳感器。捕獲元數(shù)據(jù)可以周期性地獲取,連續(xù)地獲取,或者響應(yīng)于用戶命令而被獲取。備選地或附加地,某些或者全部元數(shù)據(jù)可以由媒體捕獲設(shè)備102的用戶輸入。用戶可以借助于諸如鼠標(biāo)的指點(diǎn)設(shè)備、鍵盤或者小鍵盤、軌跡球、觸筆、手指、語音、手勢(shì)或者任何其他交互工具向媒體捕獲設(shè)備102輸入信息。作為示例,在捕獲一段音頻內(nèi)容之后,用戶可以提供一個(gè)或多個(gè)標(biāo)簽,指示關(guān)于所捕獲音頻內(nèi)容的信息。
[0025]在某些示例實(shí)施例中,捕獲元數(shù)據(jù)可以包括內(nèi)容元數(shù)據(jù),其描述所捕獲的音頻信號(hào)的內(nèi)容。例如,內(nèi)容元數(shù)據(jù)可以包括音頻信號(hào)的長(zhǎng)度、類別、聲學(xué)特征、波形和/或任何其他頻域特征或時(shí)域特征的有關(guān)信息。
[0026]備選地或附加地,捕獲元數(shù)據(jù)可以包括設(shè)備元數(shù)據(jù),其描述媒體捕獲設(shè)備102的一個(gè)或多個(gè)屬性。例如,這種設(shè)備元數(shù)據(jù)可以描述媒體捕獲設(shè)備102的類型、資源、設(shè)置、功能配置和/或可能在媒體捕獲過程中影響用戶體驗(yàn)的任何其他方面。
[0027]備選地或附加地,捕獲元數(shù)據(jù)可以包括環(huán)境元數(shù)據(jù),其描述媒體捕獲設(shè)備102所在的環(huán)境。例如,環(huán)境元數(shù)據(jù)可以包括環(huán)境的噪聲或者視覺簡(jiǎn)檔,媒體內(nèi)容被捕獲的地理位置,和/或時(shí)間信息,諸如媒體內(nèi)容被捕獲的時(shí)間。
[0028]備選地或附加地,捕獲元數(shù)據(jù)可以包括用戶元數(shù)據(jù),其描述媒體捕獲設(shè)備102的用戶的特性。例如,用戶元數(shù)據(jù)可以包括描述用戶在捕獲媒體內(nèi)容時(shí)的行為的信息,諸如用戶的移動(dòng)、姿勢(shì),等等。用戶元數(shù)據(jù)還可以包括關(guān)于用戶的偏好設(shè)置、配置和/或內(nèi)容類別的偏好息。
[0029]類似于媒體捕獲設(shè)備102,根據(jù)本發(fā)明的示例實(shí)施例,媒體使用設(shè)備103也可配置為獲取并向服務(wù)器101上傳與音頻信號(hào)在媒體使用設(shè)備103上的使用相關(guān)聯(lián)的元數(shù)據(jù)(稱為“使用元數(shù)據(jù)”)。如上文所述,使用元數(shù)據(jù)同樣可以包括內(nèi)容元數(shù)據(jù)、設(shè)備元數(shù)據(jù)、環(huán)境元數(shù)據(jù)和/或用戶元數(shù)據(jù)。應(yīng)當(dāng)注意,上文關(guān)于捕獲元數(shù)據(jù)描述的所有特征同樣適用于使用元數(shù)據(jù),在此不再贅述。
[0030]根據(jù)本發(fā)明的示例實(shí)施例,服務(wù)器101可以收集和分析來自媒體捕獲設(shè)備102和媒體使用設(shè)備103中至少一個(gè)的元數(shù)據(jù)。在方面的示例實(shí)施例