一種基于環(huán)境聲音的場(chǎng)景識(shí)別方法及裝置及移動(dòng)終端的制作方法
【專利摘要】本發(fā)明提供了一種基于環(huán)境聲音的場(chǎng)景識(shí)別方法及裝置及移動(dòng)終端,所述裝置包括:聲音采集模塊、預(yù)處理模塊、特征提取模塊、場(chǎng)景識(shí)別模塊、數(shù)據(jù)庫;聲音采集模塊用于采集聲音信號(hào)并傳輸?shù)剿鲱A(yù)處理模塊;預(yù)處理模塊用于將所述聲音信號(hào)處理為頻域信號(hào)并傳輸至所述特征提取模塊;特征提取模塊用于從所述頻域信號(hào)中提取聲音特征信息;數(shù)據(jù)庫用于存儲(chǔ)不同場(chǎng)景的聲音樣本模型權(quán)重值;識(shí)別控制模塊用于在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場(chǎng)景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對(duì)應(yīng)的場(chǎng)景。本發(fā)明依靠背景聲音信息作為場(chǎng)景的特征來實(shí)現(xiàn)定位,使移動(dòng)終端在保持低能耗的狀態(tài)下快速準(zhǔn)確的識(shí)別當(dāng)前所在的場(chǎng)景。
【專利說明】一種基于環(huán)境聲音的場(chǎng)景識(shí)別方法及裝置及移動(dòng)終端
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能終端【技術(shù)領(lǐng)域】,尤其涉及基于環(huán)境聲音的場(chǎng)景識(shí)別方法及裝置及移動(dòng)終端。
【背景技術(shù)】
[0002]聲音識(shí)別技術(shù)廣泛應(yīng)用于通訊系統(tǒng),例如,在移動(dòng)通信系統(tǒng)中應(yīng)用聲音識(shí)別檢測(cè)技術(shù),可以提高系統(tǒng)的流量處理能力。此外,聲音識(shí)別技術(shù)被越來越多的應(yīng)用到語音識(shí)別的領(lǐng)域,并且技術(shù)已經(jīng)相當(dāng)成熟,如IBM語音識(shí)別輸入系統(tǒng)ViaVoice,微軟語音識(shí)別系統(tǒng)SpeechSDK 等等。
[0003]隨著智能手機(jī)在日常生活中越來越常見,語音識(shí)別也很好的被運(yùn)用到智能手機(jī)中,iphone就發(fā)布了一個(gè)語音識(shí)別的應(yīng)用Google Mobile App0該語音搜索的另外一個(gè)改進(jìn)是可以選擇口音了,Google都可以順利識(shí)別不同地域性的發(fā)音。
[0004]由于智能手機(jī)的流行,定位技術(shù)也是智能手機(jī)應(yīng)用的一大熱點(diǎn),目前,場(chǎng)景識(shí)別問題可以利用已經(jīng)被廣泛研究過的基于天線的定位技術(shù)(例如WIFI,GSM和GPS)來解決。對(duì)于室外定位而言,GPS已經(jīng)提供了非常理想的識(shí)別精度。但是,對(duì)于室內(nèi)定位,當(dāng)前尚未出現(xiàn)一個(gè)理想且全面的定位解決方案。受制于建筑物內(nèi)部的拓?fù)浜蛷?qiáng)烈的電磁干擾等因素,天線信號(hào)的強(qiáng)度往往會(huì)不規(guī)則的變化,從而使得感知設(shè)備無法進(jìn)行合理的位置推測(cè)。研究發(fā)現(xiàn)WIFI信號(hào)在一天的不同時(shí)間段內(nèi)波動(dòng)很大,并且其強(qiáng)度的變化并不均勻,況且我們不能保證WIFI信號(hào)在所有環(huán)境中都存在。另一方面,基站的信號(hào)在不同時(shí)間上則顯得更加穩(wěn)定。但是由于其部署的不夠密集,其在定位上也遇到了許多困難。另外,這類定位方法往往對(duì)基礎(chǔ)設(shè)施的完善有極高的要求。但是對(duì)于發(fā)展中區(qū)域而言,這樣的成本無疑太高了?;贕PS,GSM, WIFI信號(hào)的定位,在室內(nèi)環(huán)境中不能工作,或者存在較大的定位誤差,不能區(qū)分地理位置上比較近的室內(nèi)場(chǎng)所。
【發(fā)明內(nèi)容】
[0005]本發(fā)明要解決的技術(shù)問題是提供一種基于環(huán)境聲音的場(chǎng)景識(shí)別方法及裝置及移動(dòng)終端,解決移動(dòng)終端無法識(shí)別當(dāng)前所在的場(chǎng)景的問題。
[0006]為了解決上述技術(shù)問題,本發(fā)明提供了一種基于環(huán)境聲音的場(chǎng)景識(shí)別裝置,所述裝置包括:聲音采集模塊、預(yù)處理模塊、特征提取模塊、場(chǎng)景識(shí)別模塊、數(shù)據(jù)庫;
[0007]所述聲音采集模塊,用于采集聲音信號(hào)并傳輸?shù)剿鲱A(yù)處理模塊;
[0008]所述預(yù)處理模塊,用于將所述聲音信號(hào)處理為頻域信號(hào)并傳輸至所述特征提取模塊;
[0009]所述特征提取模塊,用于從所述頻域信號(hào)中提取聲音特征信息;
[0010]所述數(shù)據(jù)庫,用于存儲(chǔ)不同場(chǎng)景的聲音樣本模型權(quán)重值;
[0011]所述識(shí)別控制模塊,用于在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場(chǎng)景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對(duì)應(yīng)的場(chǎng)景。[0012]進(jìn)一步地,上述裝置還可以具有以下特點(diǎn):
[0013]所述場(chǎng)景是指不同聲音環(huán)境下的空間場(chǎng)景。
[0014]進(jìn)一步地,上述裝置還可以具有以下特點(diǎn):
[0015]所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊、所述場(chǎng)景識(shí)別模塊、所 述數(shù)據(jù)庫均位于移動(dòng)終端。
[0016]進(jìn)一步地,上述裝置還可以具有以下特點(diǎn):
[0017]所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊、所述場(chǎng)景識(shí)別模塊均位 于移動(dòng)終端中,所述數(shù)據(jù)庫位于服務(wù)端設(shè)備。
[0018]進(jìn)一步地,上述裝置還可以具有以下特點(diǎn):
[0019]所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊均位于移動(dòng)終端中,所述 場(chǎng)景識(shí)別模塊和所述數(shù)據(jù)庫位于服務(wù)端設(shè)備;
[0020]所述移動(dòng)終端還包括場(chǎng)景識(shí)別控制模塊,用于接收聲音特征信息并發(fā)送至所述服 務(wù)端設(shè)備,還用于接收所述場(chǎng)景識(shí)別模塊輸出的識(shí)別結(jié)果。
[0021]為了解決上述技術(shù)問題,本發(fā)明還提供了一種移動(dòng)終端,包括聲音采集模塊、預(yù)處 理模塊、特征提取模塊、場(chǎng)景識(shí)別模塊、數(shù)據(jù)庫;
[0022]所述聲音采集模塊,用于采集聲音信號(hào)并傳輸?shù)剿鲱A(yù)處理模塊;
[0023]所述預(yù)處理模塊,用于將所述聲音信號(hào)處理為頻域信號(hào)并傳輸至所述特征提取模 塊;
[0024]所述特征提取模塊,用于從所述頻域信號(hào)中提取聲音特征信息;
[0025]所述數(shù)據(jù)庫,用于存儲(chǔ)不同場(chǎng)景的聲音樣本模型權(quán)重值;
[0026]所述場(chǎng)景識(shí)別模塊,用于接收所述聲音特征信息,在預(yù)設(shè)模型下輸入所述聲音特 征信息將模型輸出結(jié)果與所述場(chǎng)景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信 息對(duì)應(yīng)的場(chǎng)景。
[0027]為了解決上述技術(shù)問題,本發(fā)明還提供了一種移動(dòng)終端,包括聲音采集模塊、預(yù)處 理模塊、特征提取模塊、場(chǎng)景識(shí)別模塊;
[0028]所述聲音采集模塊,用于采集聲音信號(hào)并傳輸?shù)剿鲱A(yù)處理模塊;
[0029]所述預(yù)處理模塊,用于將所述聲音信號(hào)處理為頻域信號(hào)并傳輸至所述特征提取模 塊;
[0030]所述特征提取模塊,用于從所述頻域信號(hào)中提取聲音特征信息;
[0031]所述場(chǎng)景識(shí)別模塊,用于接收所述聲音特征信息,還用于從服務(wù)端設(shè)備接收?qǐng)鼍?的聲音樣本模型權(quán)重值,在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場(chǎng)景 聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對(duì)應(yīng)的場(chǎng)景。
[0032]為了解決上述技術(shù)問題,本發(fā)明還提供了一種移動(dòng)終端,包括聲音采集模塊、預(yù)處 理模塊、特征提取模塊、識(shí)別控制模塊;
[0033]所述聲音采集模塊,用于采集聲音信號(hào)并傳輸?shù)剿鲱A(yù)處理模塊;
[0034]所述預(yù)處理模塊,用于將所述聲音信號(hào)處理為頻域信號(hào)并傳輸至所述特征提取模 塊;
[0035]所述特征提取模塊,用于從所述頻域信號(hào)中提取聲音特征信息;
[0036]所述識(shí)別控制模塊,用于接收所述聲音特征信息,將所述聲音特征信息發(fā)送至服務(wù)端設(shè)備,并接收服務(wù)端設(shè)備返回的場(chǎng)景識(shí)別結(jié)果。
[0037]為了解決上述技術(shù)問題,本發(fā)明還提供了一種基于環(huán)境聲音的場(chǎng)景識(shí)別方法,包括:米集聲音信號(hào);
[0038]將所述聲音信號(hào)處理為頻域信號(hào);
[0039]從所述頻域信號(hào)中提取聲音特征信息;
[0040]在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與場(chǎng)景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對(duì)應(yīng)的場(chǎng)景。
[0041]進(jìn)一步地,上述方法還可以具有以下特點(diǎn):
[0042]所述場(chǎng)景是指不同聲音環(huán)境下的空間場(chǎng)景。
[0043]本發(fā)明依靠背景聲音信息作為場(chǎng)景的特征來實(shí)現(xiàn)定位,使移動(dòng)終端在保持低能耗的狀態(tài)下快速準(zhǔn)確的識(shí)別當(dāng)前所在的場(chǎng)景。本發(fā)明的場(chǎng)景定位可以與天線位置定位互補(bǔ)并且共同提聞精度的,提聞移動(dòng)終端性能。
【專利附圖】
【附圖說明】
[0044]圖1是現(xiàn)有技術(shù)中聲音識(shí)別的處理流程示意圖;
[0045]圖2是實(shí)施例中基于環(huán)境聲音的場(chǎng)景識(shí)別裝置的結(jié)構(gòu)示意圖;
[0046]圖3是實(shí)施例一中場(chǎng)景識(shí)別裝置的結(jié)構(gòu)示意圖;
[0047]圖4是實(shí)施例二中場(chǎng)景識(shí)別裝置的結(jié)構(gòu)示意圖;
[0048]圖5是實(shí)施例三中場(chǎng)景識(shí)別裝置的結(jié)構(gòu)示意圖;
[0049]圖6是具體實(shí)施例中特征向量提取過程示意圖;
[0050]圖7是具體實(shí)施例中場(chǎng)景分類識(shí)別模型結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0051]圖1是現(xiàn)有技術(shù)中聲音識(shí)別的處理流程示意圖,對(duì)聲音進(jìn)行分割以及特征提取后通過分類器對(duì)聲音進(jìn)行識(shí)別。
[0052]基于環(huán)境聲音的場(chǎng)景識(shí)別方法包括:米集聲音信號(hào);將所述聲音信號(hào)處理為頻域信號(hào);從所述頻域信號(hào)中提取聲音特征信息;在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與場(chǎng)景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對(duì)應(yīng)的場(chǎng)景。
[0053]所述場(chǎng)景是指不同聲音環(huán)境下的空間場(chǎng)景,例如場(chǎng)景是指以下中的一種:食堂、教室、實(shí)驗(yàn)室、宿舍、樓道、羽毛球場(chǎng)、乒乓球場(chǎng)、電梯、會(huì)議室、操場(chǎng)和街道。
[0054]如圖2所示,本方案中基于環(huán)境聲音的場(chǎng)景識(shí)別裝置包括:聲音采集模塊(201)、預(yù)處理模塊(202)、特征提取模塊(203)、場(chǎng)景識(shí)別模塊(204)、數(shù)據(jù)庫(205)。
[0055]聲音米集模塊(201),用于米集聲音信號(hào)并傳輸?shù)剿鲱A(yù)處理模塊(202);
[0056]預(yù)處理模塊(202),用于將所述聲音信號(hào)處理為頻域信號(hào)并傳輸至所述特征提取模塊(203);
[0057]特征提取模塊(203),用于從所述頻域信號(hào)中提取聲音特征信息;
[0058]數(shù)據(jù)庫(205),用于存儲(chǔ)不同場(chǎng)景的聲音樣本模型權(quán)重值;
[0059]識(shí)別控制模塊(204),用于在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場(chǎng)景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對(duì)應(yīng)的場(chǎng)景。[0060]預(yù)處理模塊(202)對(duì)采集到的聲音信號(hào)進(jìn)行采樣,設(shè)定采樣頻率為8000Hz,采集 樣本長(zhǎng)度為15s,再對(duì)段聲音樣本進(jìn)行分幀操作,每個(gè)幀包含256個(gè)采樣點(diǎn),即每段幀長(zhǎng)為 32ms。這樣,原始音頻就會(huì)變成468個(gè)長(zhǎng)度為32ms的幀。分幀操作的目的在于任何一段聲 音樣本都會(huì)隨機(jī)出現(xiàn)一些或大或小的突發(fā)聲音,突發(fā)聲音沒有規(guī)律可言,并不是能夠代表 場(chǎng)景特征的聲音,會(huì)導(dǎo)致聲音波形出現(xiàn)較大的毛刺,從而影響聲音識(shí)別的準(zhǔn)確率,時(shí)長(zhǎng)越短 的音頻波形表現(xiàn)的越發(fā)平穩(wěn)。但是,幀長(zhǎng)過短也會(huì)導(dǎo)致運(yùn)算成本的增加,即計(jì)算能耗和耗時(shí) 的增加。本方案采用了 32ms做為每一幀的長(zhǎng)度,達(dá)到了精確度和計(jì)算成本的平衡。
[0061]特征提取模塊(203)中提取的聲音特征可以是梅爾倒譜系數(shù)(MFCC),例如13維的 MFCC系數(shù)。例如,從每段15s聲音樣本都可以提取出468組13維的特征向量。在計(jì)算出每 一幀的特征向量后,必須要對(duì)這468組特征向量進(jìn)行算術(shù)平均。上述將每段聲音樣本分成 長(zhǎng)度為32ms的幀是為了消除聲音樣本中的毛刺,但是只對(duì)每段音頻分幀還是不能起到消 除毛刺的作用。所以,本方案在對(duì)每幀音頻提取特征向量后,必須把這468組特征向量進(jìn)行 算術(shù)平均,從而得到唯一一組13維特征向量。這樣的一組特征向量降低了樣本中的毛刺帶 來的影響,正確的表示了該段場(chǎng)景的特征。
[0062]本方案中的預(yù)設(shè)模型可以是神經(jīng)網(wǎng)絡(luò)等分類模型。
[0063]本方案使用了一個(gè)模式分類領(lǐng)域的算法。該算法分為兩個(gè)部分,訓(xùn)練部分和識(shí)別 部分。在訓(xùn)練部分,該算法使用一定規(guī)模的訓(xùn)練集,生成若干個(gè)我們稱之為中間矩陣數(shù)據(jù)集 合。在識(shí)別部分,使用這些矩陣與從聲音樣本中提取的特征向量進(jìn)行運(yùn)算,從而獲得最終結(jié) 果,即識(shí)別結(jié)果。在開發(fā)的過程中,所述算法的訓(xùn)練部分不需要寫入手機(jī)系統(tǒng),不需要每次 識(shí)別都進(jìn)行運(yùn)算,這樣可以很大程度地減少運(yùn)算時(shí)間。所述識(shí)別算法使用的訓(xùn)練集采集于 每個(gè)需要識(shí)別的場(chǎng)景,每個(gè)場(chǎng)景需要收集160到200段聲音樣本,并對(duì)每段聲音樣本提取特 征向量,把這些聲音樣本的特征向量統(tǒng)一作為參數(shù)傳給算法的訓(xùn)練部分,最終得到中間矩 陣。這些中間矩陣存儲(chǔ)于數(shù)據(jù)庫中,供所述算法的識(shí)別部分調(diào)用。由于場(chǎng)景識(shí)別的準(zhǔn)確率 需要不斷提高,同時(shí)需要識(shí)別的場(chǎng)景要不斷進(jìn)行更新,所以,本方案中的分類識(shí)別算法所需 要的中間矩陣就需要不斷的更新。隨著場(chǎng)景的更新,該技術(shù)就會(huì)擁有更強(qiáng)大的時(shí)效性和可 用性。
[0064]如圖3所示,實(shí)施例一中聲音采集模塊(201)、預(yù)處理模塊(202)、特征提取模塊 (203),場(chǎng)景識(shí)別模塊(204)、數(shù)據(jù)庫(205)均位于移動(dòng)終端內(nèi)。
[0065]如圖4所示,實(shí)施例二中聲音采集模塊(201)、預(yù)處理模塊(202)、特征提取模塊 (203)、場(chǎng)景識(shí)別模塊(204)均位于移動(dòng)終端內(nèi),數(shù)據(jù)庫(205)位于服務(wù)端設(shè)備。
[0066]如圖5所示,實(shí)施例三中聲音采集模塊(201)、預(yù)處理模塊(202)、特征提取模塊 (203)均位于移動(dòng)終端,場(chǎng)景識(shí)別模塊(204)、數(shù)據(jù)庫(205)位于服務(wù)端設(shè)備。移動(dòng)終端還包 括場(chǎng)景識(shí)別控制模塊(206),用于接收聲音特征信息并發(fā)送至服務(wù)端設(shè)備,還用于接收所述 場(chǎng)景識(shí)別模塊(204)輸出的識(shí)別結(jié)果。
[0067]下面通過具體實(shí)施例進(jìn)行詳細(xì)說明。
[0068]本發(fā)明是基于Android系統(tǒng)開發(fā),選用了一臺(tái)智能手機(jī)作為試驗(yàn)機(jī),識(shí)別過程包 括以下步驟:
[0069]步驟I,聲音采集過程
[0070]由智能手機(jī)中的麥克風(fēng)進(jìn)行聲音采集集工作,采樣率為8000Hz,采樣編碼為16bit,每段聲音樣本的時(shí)長(zhǎng)都是15s。
[0071]步驟2,場(chǎng)景識(shí)別過程
[0072]在預(yù)處理過程中,對(duì)音頻進(jìn)行分幀處理并將信號(hào)從時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào)。實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)幀長(zhǎng)為256,即時(shí)長(zhǎng)為32ms時(shí),可以得到最高的識(shí)別正確率。同時(shí),在每段音頻的開始,都會(huì)出現(xiàn)若干個(gè)壞點(diǎn),所以刪去每段音頻最開始的一些采樣點(diǎn),保證留下的音頻采樣點(diǎn)都能顯示出該段音頻的特征。為了節(jié)省更多的硬件空間,可以每分出一個(gè)幀,就把它作為參數(shù)傳給特征提取函數(shù)進(jìn)行計(jì)算。這樣,只需要存儲(chǔ)從每個(gè)幀提取的特征向量,而不需要浪費(fèi)控件用于存儲(chǔ)每個(gè)幀的音頻。
[0073]提取特征的步驟包括:
[0074]步驟2.1,執(zhí)行快速傅里葉變換,將時(shí)域信號(hào)變換成頻域信號(hào)。
【權(quán)利要求】
1.一種基于環(huán)境聲音的場(chǎng)景識(shí)別裝置,其特征在于, 所述裝置包括:聲音采集模塊、預(yù)處理模塊、特征提取模塊、場(chǎng)景識(shí)別模塊、數(shù)據(jù)庫; 所述聲音采集模塊,用于采集聲音信號(hào)并傳輸?shù)剿鲱A(yù)處理模塊; 所述預(yù)處理模塊,用于將所述聲音信號(hào)處理為頻域信號(hào)并傳輸至所述特征提取模塊; 所述特征提取模塊,用于從所述頻域信號(hào)中提取聲音特征信息; 所述數(shù)據(jù)庫,用于存儲(chǔ)不同場(chǎng)景的聲音樣本模型權(quán)重值; 所述識(shí)別控制模塊,用于在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場(chǎng)景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對(duì)應(yīng)的場(chǎng)景。
2.如權(quán)利要求1所述的裝置,其特征在于, 所述場(chǎng)景是指不同聲音環(huán)境下的空間場(chǎng)景。
3.如權(quán)利要求1所述的裝置,其特征在于, 所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊、所述場(chǎng)景識(shí)別模塊、所述數(shù)據(jù)庫均位于移動(dòng)終端。
4.如權(quán)利要求1所述的裝置,其特征在于, 所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊、所述場(chǎng)景識(shí)別模塊均位于移動(dòng)終端中,所述數(shù)據(jù)庫位于服務(wù)端設(shè)備。
5.如權(quán)利要求1所述的裝置,其特征在于, 所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊均位于移動(dòng)終端中,所述場(chǎng)景識(shí)別模塊和所述數(shù)據(jù)庫位于 服務(wù)端設(shè)備; 所述移動(dòng)終端還包括場(chǎng)景識(shí)別控制模塊,用于接收聲音特征信息并發(fā)送至所述服務(wù)端設(shè)備,還用于接收所述場(chǎng)景識(shí)別模塊輸出的識(shí)別結(jié)果。
6.一種移動(dòng)終端,其特征在于, 包括聲音采集模塊、預(yù)處理模塊、特征提取模塊、場(chǎng)景識(shí)別模塊、數(shù)據(jù)庫; 所述聲音采集模塊,用于采集聲音信號(hào)并傳輸?shù)剿鲱A(yù)處理模塊; 所述預(yù)處理模塊,用于將所述聲音信號(hào)處理為頻域信號(hào)并傳輸至所述特征提取模塊; 所述特征提取模塊,用于從所述頻域信號(hào)中提取聲音特征信息; 所述數(shù)據(jù)庫,用于存儲(chǔ)不同場(chǎng)景的聲音樣本模型權(quán)重值; 所述場(chǎng)景識(shí)別模塊,用于接收所述聲音特征信息,在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場(chǎng)景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對(duì)應(yīng)的場(chǎng)景。
7.一種移動(dòng)終端,其特征在于, 包括聲音采集模塊、預(yù)處理模塊、特征提取模塊、場(chǎng)景識(shí)別模塊; 所述聲音采集模塊,用于采集聲音信號(hào)并傳輸?shù)剿鲱A(yù)處理模塊; 所述預(yù)處理模塊,用于將所述聲音信號(hào)處理為頻域信號(hào)并傳輸至所述特征提取模塊; 所述特征提取模塊,用于從所述頻域信號(hào)中提取聲音特征信息; 所述場(chǎng)景識(shí)別模塊,用于接收所述聲音特征信息,還用于從服務(wù)端設(shè)備接收?qǐng)鼍暗穆曇魳颖灸P蜋?quán)重值,在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場(chǎng)景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對(duì)應(yīng)的場(chǎng)景。
8.一種移動(dòng)終端,其特征在于,包括聲音采集模塊、預(yù)處理模塊、特征提取模塊、識(shí)別控制模塊;所述聲音采集模塊,用于采集聲音信號(hào)并傳輸?shù)剿鲱A(yù)處理模塊;所述預(yù)處理模塊,用于將所述聲音信號(hào)處理為頻域信號(hào)并傳輸至所述特征提取模塊; 所述特征提取模塊,用于從所述頻域信號(hào)中提取聲音特征信息;所述識(shí)別控制模塊,用于接收所述聲音特征信息,將所述聲音特征信息發(fā)送至服務(wù)端設(shè)備,并接收服務(wù)端設(shè)備返回的場(chǎng)景識(shí)別結(jié)果。
9.一種基于環(huán)境聲音的場(chǎng)景識(shí)別方法,其特征在于,米集聲音信號(hào);將所述聲音信號(hào)處理為頻域信號(hào);從所述頻域信號(hào)中提取聲音特征信息;在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與場(chǎng)景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對(duì)應(yīng)的場(chǎng)景。
10.如權(quán)利要求9所述的方法,其特征在于,所述場(chǎng)景是指不同聲音環(huán)境下的空間場(chǎng)景。
【文檔編號(hào)】G10L25/84GK103456301SQ201210167980
【公開日】2013年12月18日 申請(qǐng)日期:2012年5月28日 優(yōu)先權(quán)日:2012年5月28日
【發(fā)明者】薛濤, 杜軍朝, 劉惠, 劉悅韡, 陳文靖 申請(qǐng)人:中興通訊股份有限公司