国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種多媒體采集裝置和方法

      文檔序號(hào):7981854閱讀:243來源:國(guó)知局
      一種多媒體采集裝置和方法
      【專利摘要】本發(fā)明公開了一種多媒體采集裝置和方法,屬于多媒體領(lǐng)域。裝置包括:音頻采集單元,包括至少四個(gè)采集通道,用于采集發(fā)言者的發(fā)出的音頻信號(hào);音頻分析單元,用于將采集到的發(fā)言者的音頻信號(hào)中的特征量在預(yù)置的語(yǔ)音模型中進(jìn)行匹配分析,實(shí)時(shí)定位發(fā)言者的位置信息;視頻同步單元,用于根據(jù)發(fā)言者的位置信息實(shí)時(shí)調(diào)整攝像頭,從而使攝像頭采集含有發(fā)言者的視頻信號(hào)。本發(fā)明通過至少四通道對(duì)外部音場(chǎng)進(jìn)行檢測(cè)采集,并基于語(yǔ)音模型對(duì)所得的音場(chǎng)環(huán)境中的當(dāng)前發(fā)言者進(jìn)行跟蹤,則得出發(fā)言者的相對(duì)位置并實(shí)時(shí)調(diào)整攝像頭進(jìn)行音頻和視頻同步采集;且四個(gè)采集通道均衡設(shè)置,攝像頭轉(zhuǎn)動(dòng)靈活,也通過多個(gè)通道擴(kuò)大了音頻采集的范圍,從而采集立體效果的音頻質(zhì)量。
      【專利說明】一種多媒體采集裝置和方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及多媒體領(lǐng)域,尤其涉及一種多媒體采集裝置和方法。
      【背景技術(shù)】
      [0002]隨著傳感器技術(shù)、電子技術(shù)和信號(hào)處理技術(shù)的飛速發(fā)展,視頻會(huì)議已經(jīng)成為公司之間交流通訊的最佳方式。采用視頻會(huì)議,可以實(shí)現(xiàn)與多人同時(shí)進(jìn)行通訊,人們還可以面對(duì)面講話。在全球各地的辦公室和教育機(jī)構(gòu),視頻會(huì)議還能夠用于學(xué)習(xí)、培訓(xùn)和與聯(lián)系人會(huì)面,不需要進(jìn)行旅行。視頻會(huì)議不僅能夠節(jié)省電話費(fèi),而且通過取消旅行還有助于改善環(huán)境和減少業(yè)務(wù)開支中安排員工外出開會(huì)的旅差費(fèi)。
      [0003]目前的視頻會(huì)議系統(tǒng)往往將往往使用PTZ攝像機(jī)和音頻采集系統(tǒng)綜合使用,由PTZ攝像機(jī)的操控人控制攝像機(jī)擺動(dòng)和變焦,從而捕捉發(fā)言者的特寫鏡頭,這樣遠(yuǎn)程的與會(huì)者就能清楚地看到發(fā)言者。但畢竟需要人為操控PTZ攝像機(jī),難免造成不便。
      [0004]VCON公司的VoiceFinder是一種基于音頻定位技術(shù)的個(gè)人會(huì)議系統(tǒng),將音頻采集裝置和攝像頭整合在一起,插在筆記本電腦或者PC機(jī)上即可使用,該設(shè)備采集發(fā)言者的音頻信息后,通過定位發(fā)言者位置調(diào)整攝像頭的朝向從而進(jìn)行視頻采集。但由于該裝置為便攜式裝置,攝像頭的轉(zhuǎn)動(dòng)角度只能在既定范圍內(nèi)轉(zhuǎn)動(dòng),且音頻采集范圍也有限,造成音頻采集效果很差,往往帶有噪聲和回音。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明的實(shí)施例提供了一種多媒體采集裝置和方法,通過至少四通道對(duì)外部音場(chǎng)進(jìn)行檢測(cè)采集,根據(jù)所得的音場(chǎng)環(huán)境對(duì)當(dāng)前發(fā)言者進(jìn)行跟蹤,則得出發(fā)言者的相對(duì)位置并實(shí)時(shí)調(diào)整攝像頭進(jìn)行視頻采集,從而使音頻和視頻同步進(jìn)行采集。
      [0006]本發(fā)明公開了一種多媒體采集裝置,包括:
      [0007]音頻采集單元,包括至少四個(gè)采集通道,用于采集發(fā)言者的發(fā)出的音頻信號(hào);所述各采集通道在幾何平面內(nèi)均衡設(shè)置;
      [0008]音頻分析單元,用于將采集到的發(fā)言者的音頻信號(hào)中的特征量在預(yù)置的語(yǔ)音模型中進(jìn)行匹配分析,實(shí)時(shí)定位發(fā)言者的位置信息;
      [0009]視頻同步單元,用于根據(jù)發(fā)言者的位置信息實(shí)時(shí)調(diào)整攝像頭,從而使攝像頭采集含有發(fā)言者的視頻信號(hào)。
      [0010]優(yōu)選的,所述預(yù)置的語(yǔ)音模型由以下單元構(gòu)建:
      [0011]音頻預(yù)處理單元,用于對(duì)各采集通道采集到的全體音頻信號(hào)進(jìn)行降噪,并對(duì)降噪后音頻信號(hào)中的特征量進(jìn)行量化;
      [0012]音頻建模單元,用于對(duì)量化后的特征量進(jìn)行建模,得到語(yǔ)音模型。
      [0013]優(yōu)選的,所述音頻預(yù)處理單元接收音頻采集單元采集的音頻信號(hào),并將量化后的特征量發(fā)送至音頻建模單元。
      [0014]優(yōu)選的,所述語(yǔ)音模型存儲(chǔ)發(fā)言者的位移和各通道對(duì)應(yīng)的音量值。[0015]優(yōu)選的,所述音頻分析單元結(jié)合各采集通道對(duì)應(yīng)的音量值進(jìn)行分析,基于音場(chǎng)均衡策略在語(yǔ)音模型中實(shí)時(shí)確定發(fā)言者的位置信息。
      [0016]優(yōu)選的,所述音頻采集單元中的各采集通道以攝像頭為中心對(duì)稱地進(jìn)行設(shè)置。
      [0017]本發(fā)明還公開了一種多媒體采集方法,包括至少四個(gè)采集通道,在幾何平面內(nèi)均衡設(shè)置,還包括如下步驟:
      [0018]各采集通道分別采集發(fā)言者的發(fā)出的音頻信號(hào);
      [0019]將采集到的發(fā)言者的音頻信號(hào)中的特征量在預(yù)置的語(yǔ)音模型中進(jìn)行匹配分析,實(shí)時(shí)定位發(fā)言者的位置信息;
      [0020]根據(jù)發(fā)言者的位置信息實(shí)時(shí)調(diào)整攝像頭,從而使攝像頭采集含有發(fā)言者的視頻信號(hào)。
      [0021]優(yōu)選的,所述預(yù)置的語(yǔ)音模型構(gòu)建時(shí),對(duì)各采集通道采集到的全體音頻信號(hào)進(jìn)行降噪,并對(duì)降噪后音頻信號(hào)中的特征量進(jìn)行量化;
      [0022]對(duì)量化后的特征量進(jìn)行建模,得到語(yǔ)音模型。
      [0023]優(yōu)選的,所述語(yǔ)音模型存儲(chǔ)發(fā)言者的位移和各通道對(duì)應(yīng)的音量值。
      [0024]優(yōu)選的,所述方法還包括:結(jié)合各采集通道對(duì)應(yīng)的音量值進(jìn)行分析,基于音場(chǎng)均衡策略在語(yǔ)音模型中實(shí)時(shí)確定發(fā)言者的位置信息。
      [0025]優(yōu)選的,所述各采集通道以攝像頭為圓心,均勻在圓周上進(jìn)行設(shè)置。
      [0026]本發(fā)明實(shí)施例提供的一種多媒體采集裝置和方法,通過至少四通道對(duì)外部音場(chǎng)進(jìn)行檢測(cè)采集,并基于語(yǔ)音模型對(duì)所得的音場(chǎng)環(huán)境中的當(dāng)前發(fā)言者進(jìn)行跟蹤,則得出發(fā)言者的相對(duì)位置并實(shí)時(shí)調(diào)整攝像頭進(jìn)行視頻采集,從而使音頻和視頻同步進(jìn)行采集;且四個(gè)采集通道在幾何平面內(nèi)均衡設(shè)置,攝像頭轉(zhuǎn)動(dòng)靈活,進(jìn)行音頻采集的多個(gè)通道擴(kuò)大了音頻采集的范圍,從而采集到立體效果的音頻質(zhì)量。
      【專利附圖】

      【附圖說明】
      [0027]圖1為本發(fā)明實(shí)施例一提供的一種多媒體采集裝置的模塊結(jié)構(gòu)圖;
      [0028]圖2為本發(fā)明實(shí)施例二提供的一種多媒體采集裝置的場(chǎng)景示意圖;
      [0029]圖3為本發(fā)明實(shí)施例一提供的一種多媒體采集方法的流程圖。
      【具體實(shí)施方式】
      [0030]下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例一種多媒體采集裝置和方法進(jìn)行詳細(xì)描述。
      [0031]本發(fā)明公開了一種多媒體采集裝置,如圖1所示,包括:音頻采集單元101、音頻分析單元102、視頻同步單元103、預(yù)置的語(yǔ)音模型104和攝像頭105。音頻采集單元101采集音頻信息,并將采集到的音頻信息發(fā)送至音頻分析單元102,音頻分析單元102結(jié)合預(yù)置的語(yǔ)音模型104進(jìn)行分析,得到發(fā)言者對(duì)應(yīng)的坐標(biāo);視頻同步單元103根據(jù)發(fā)言者的坐標(biāo)同步調(diào)整攝像頭105,進(jìn)而實(shí)現(xiàn)音頻信息和攝像頭攝取的視頻信心進(jìn)行同步。
      [0032]本發(fā)明公開了一種多媒體采集裝置,包括如下模塊:
      [0033]音頻采集單元101,本實(shí)施例中,音頻采集單元101包括四個(gè)采集通道,這四個(gè)采集通道以攝像頭105為中心對(duì)稱地均衡設(shè)置。音頻采集單元101用于采集發(fā)言者的發(fā)出的音頻信號(hào);如圖2所示,各采集通道分別在所固定的位置采集當(dāng)前位置下發(fā)言者的音頻數(shù)據(jù)。本實(shí)施例中,所述各采集通道以攝像頭為圓心,均勻在圓周上進(jìn)行設(shè)置,由于各采集通道位置不同,采集到音頻數(shù)據(jù)對(duì)應(yīng)的頻率和振幅各有不同,正是這些差異的音頻數(shù)據(jù)為被動(dòng)聲定位技術(shù)提供了計(jì)算依據(jù),分別在時(shí)序上對(duì)各采集通道對(duì)應(yīng)的音頻數(shù)據(jù)進(jìn)行跟蹤、統(tǒng)計(jì),通過時(shí)延估計(jì)法,從而得到不同時(shí)刻聲源坐標(biāo),即發(fā)言者所在的位置信息。
      [0034]所述預(yù)置的語(yǔ)音模型104由音頻預(yù)處理單元和音頻建模單元構(gòu)建。
      [0035]音頻預(yù)處理單元,用于對(duì)各采集通道采集到的全體音頻信號(hào)進(jìn)行降噪,并對(duì)降噪后音頻信號(hào)中的特征量進(jìn)行量化。由于各采集通道的位置不同,降噪、量化后的音頻數(shù)據(jù)必存在一定時(shí)間的順時(shí)時(shí)延,對(duì)所述時(shí)延進(jìn)行精確測(cè)量,結(jié)合各采集通道的位置坐標(biāo)對(duì)應(yīng)的幾何關(guān)系即可根據(jù)被動(dòng)聲定位的原理對(duì)發(fā)言者的發(fā)聲坐標(biāo)進(jìn)行計(jì)算,從而對(duì)發(fā)言者的相對(duì)位置進(jìn)行量化。
      [0036]音頻建模單元,用于對(duì)量化后的特征量進(jìn)行建模,得到語(yǔ)音模型。本實(shí)施例中,將同一時(shí)刻采集到的各音頻信號(hào)中的特征值和發(fā)言者的相對(duì)位置進(jìn)行結(jié)構(gòu)化存儲(chǔ),所述語(yǔ)音模型可離線存儲(chǔ)于設(shè)備本地,也可以通過網(wǎng)絡(luò)端口將語(yǔ)音模型存儲(chǔ)于云端。
      [0037]音頻分析單元102,用于將采集到的發(fā)言者的音頻信號(hào)中的特征量在預(yù)置的語(yǔ)音模型104中進(jìn)行匹配分析,實(shí)時(shí)定位發(fā)言者的位置信息。
      [0038]語(yǔ)音模型離線存儲(chǔ)于設(shè)備本地時(shí),音頻分析單元將采集到的音頻信號(hào)中的特征值直接在本地的語(yǔ)音模型中基于音場(chǎng)均衡策略進(jìn)行匹配,得到發(fā)言者的發(fā)聲坐標(biāo),進(jìn)而實(shí)時(shí)對(duì)發(fā)言者的坐標(biāo)進(jìn)行記錄,實(shí)現(xiàn)發(fā)言者的跟蹤,從而實(shí)時(shí)定位發(fā)言者的位置信息。語(yǔ)音模型通過網(wǎng)絡(luò)端口將語(yǔ)音模型存儲(chǔ)于云端時(shí),音頻分析單元將采集到的音頻信號(hào)中的特征值通過網(wǎng)絡(luò)端口在云端服務(wù)器端基于音場(chǎng)均衡策略進(jìn)行分析匹配,同樣得到發(fā)言者的發(fā)聲坐標(biāo),而實(shí)時(shí)對(duì)發(fā)言者的坐標(biāo)進(jìn)行記錄,實(shí)現(xiàn)發(fā)言者的跟蹤,從而實(shí)時(shí)定位發(fā)言者的位置信肩、O
      [0039]視頻同步單元103,用于根據(jù)發(fā)言者的位置信息實(shí)時(shí)調(diào)整攝像頭,從而使攝像頭采集含有發(fā)言者的視頻信號(hào)。
      [0040]提取發(fā)言者的位置信息對(duì)應(yīng)的極坐標(biāo)系中的偏轉(zhuǎn)角和極軸長(zhǎng),根據(jù)所述偏轉(zhuǎn)角和極軸長(zhǎng)將在PTZ平臺(tái)上的攝像頭實(shí)時(shí)進(jìn)行調(diào)整,調(diào)整攝像頭的偏轉(zhuǎn)角度和焦距,從而使攝像頭清晰地?cái)z取發(fā)言者對(duì)應(yīng)的視頻信號(hào)。當(dāng)然,發(fā)言者對(duì)應(yīng)的位置信息變化達(dá)到一定閾值時(shí)才進(jìn)行攝像頭的調(diào)整。本實(shí)施例中,發(fā)言者的偏轉(zhuǎn)角度的對(duì)應(yīng)變化大于5度時(shí),則攝像頭相對(duì)偏轉(zhuǎn)角進(jìn)行對(duì)應(yīng)的調(diào)整。
      [0041]本發(fā)明還公開了一種多媒體采集方法對(duì)應(yīng)的實(shí)施例,包括至少四個(gè)采集通道,在幾何平面內(nèi)均衡設(shè)置,如圖3所示,還包括如下步驟:
      [0042]步驟301、各采集通道分別采集發(fā)言者的發(fā)出的音頻信號(hào);
      [0043]將本實(shí)施例中的四個(gè)采集通道以攝像頭為中心對(duì)稱地均衡設(shè)置。各采集通道采集發(fā)言者的發(fā)出的音頻信號(hào);各采集通道分別在所固定的位置采集當(dāng)前位置下發(fā)言者的音頻數(shù)據(jù)。本實(shí)施例中,所述各采集通道以攝像頭為圓心,均勻在圓周上進(jìn)行設(shè)置,由于各采集通道位置不同,采集到音頻數(shù)據(jù)對(duì)應(yīng)的頻率和振幅各有不同,正是這些差異的音頻數(shù)據(jù)為被動(dòng)聲定位技術(shù)提供了計(jì)算依據(jù),分別在時(shí)序上對(duì)各采集通道對(duì)應(yīng)的音頻數(shù)據(jù)進(jìn)行跟蹤、統(tǒng)計(jì),通過時(shí)延估計(jì)法,從而得到不同時(shí)刻聲源坐標(biāo),即發(fā)言者所在的位置信息。
      [0044]步驟302、將采集到的發(fā)言者的音頻信號(hào)中的特征量在預(yù)置的語(yǔ)音模型中進(jìn)行匹配分析,實(shí)時(shí)定位發(fā)言者的位置信息;
      [0045]優(yōu)選的,所述預(yù)置的語(yǔ)音模型構(gòu)建時(shí),還包括:
      [0046]步驟a、對(duì)各采集通道采集到的全體音頻信號(hào)進(jìn)行降噪,并對(duì)降噪后音頻信號(hào)中的特征量進(jìn)行量化;
      [0047]由于各采集通道的位置不同,降噪、量化后的音頻數(shù)據(jù)必存在一定時(shí)間的順時(shí)時(shí)延,對(duì)所述時(shí)延進(jìn)行精確測(cè)量,結(jié)合各采集通道的位置坐標(biāo)對(duì)應(yīng)的幾何關(guān)系即可根據(jù)被動(dòng)聲定位的原理對(duì)發(fā)言者的發(fā)聲坐標(biāo)進(jìn)行計(jì)算,從而對(duì)發(fā)言者的相對(duì)位置進(jìn)行量化。
      [0048]步驟b、對(duì)量化后的特征量進(jìn)行建模,得到語(yǔ)音模型。本實(shí)施例中,將同一時(shí)刻采集到的各音頻信號(hào)中的特征值和發(fā)言者的相對(duì)位置進(jìn)行結(jié)構(gòu)化存儲(chǔ)。所述語(yǔ)音模型可離線存儲(chǔ)于設(shè)備本地,也可以通過網(wǎng)絡(luò)端口將語(yǔ)音模型存儲(chǔ)于云端。
      [0049]語(yǔ)音模型離線存儲(chǔ)于設(shè)備本地時(shí),將采集到的音頻信號(hào)中的特征值直接在本地的語(yǔ)音模型中基于音場(chǎng)均衡策略進(jìn)行匹配,得到發(fā)言者的發(fā)聲坐標(biāo),進(jìn)而實(shí)時(shí)對(duì)發(fā)言者的坐標(biāo)進(jìn)行記錄,實(shí)現(xiàn)發(fā)言者的跟蹤,從而實(shí)時(shí)定位發(fā)言者的位置信息。
      [0050]語(yǔ)音模型通過網(wǎng)絡(luò)端口將語(yǔ)音模型存儲(chǔ)于云端時(shí),將采集到的音頻信號(hào)中的特征值通過網(wǎng)絡(luò)端口在云端服務(wù)器端基于音場(chǎng)均衡策略進(jìn)行分析匹配,同樣得到發(fā)言者的發(fā)聲坐標(biāo),而實(shí)時(shí)對(duì)發(fā)言者的坐標(biāo)進(jìn)行記錄,實(shí)現(xiàn)發(fā)言者的跟蹤,從而實(shí)時(shí)定位發(fā)言者的位置信肩、O
      [0051]步驟303、根據(jù)發(fā)言者的位置信息實(shí)時(shí)調(diào)整攝像頭,從而使攝像頭采集含有發(fā)言者的視頻信號(hào)。
      [0052]提取發(fā)言者的位置信息對(duì)應(yīng)的極坐標(biāo)系中的偏轉(zhuǎn)角和極軸長(zhǎng),根據(jù)所述偏轉(zhuǎn)角和極軸長(zhǎng)將在PTZ平臺(tái)上的攝像頭實(shí)時(shí)進(jìn)行調(diào)整,調(diào)整攝像頭的偏轉(zhuǎn)角度和焦距,從而使攝像頭清晰地?cái)z取發(fā)言者對(duì)應(yīng)的視頻信號(hào)。當(dāng)然,發(fā)言者對(duì)應(yīng)的位置信息變化達(dá)到一定閾值時(shí)才進(jìn)行攝像頭的調(diào)整。本實(shí)施例中,發(fā)言者的偏轉(zhuǎn)角度的對(duì)應(yīng)變化大于5度時(shí),則攝像頭相對(duì)偏轉(zhuǎn)角進(jìn)行對(duì)應(yīng)的調(diào)整。
      [0053]本發(fā)明實(shí)施例提供的一種多媒體采集裝置和方法,通過至少四通道對(duì)外部音場(chǎng)進(jìn)行檢測(cè)采集,并基于語(yǔ)音模型對(duì)所得的音場(chǎng)環(huán)境中的當(dāng)前發(fā)言者進(jìn)行跟蹤,則得出發(fā)言者的相對(duì)位置并實(shí)時(shí)調(diào)整攝像頭進(jìn)行視頻采集,從而使音頻和視頻同步進(jìn)行采集;且四個(gè)采集通道在幾何平面內(nèi)均衡設(shè)置,攝像頭轉(zhuǎn)動(dòng)靈活,進(jìn)行音頻采集的多個(gè)通道擴(kuò)大了音頻采集的范圍,從而采集到立體的音頻質(zhì)量。
      [0054]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
      【權(quán)利要求】
      1.一種多媒體采集裝置,其特征在于,包括: 音頻采集單元,包括至少四個(gè)采集通道,用于采集發(fā)言者的發(fā)出的音頻信號(hào);所述各采集通道在幾何平面內(nèi)均衡設(shè)置; 音頻分析單元,用于將采集到的發(fā)言者的音頻信號(hào)中的特征量在預(yù)置的語(yǔ)音模型中進(jìn)行匹配分析,實(shí)時(shí)定位發(fā)言者的位置信息; 視頻同步單元,用于根據(jù)發(fā)言者的位置信息實(shí)時(shí)調(diào)整攝像頭,從而使攝像頭采集含有發(fā)言者的視頻信號(hào)。
      2.根據(jù)權(quán)利要求1所述的裝置,其特征在于:所述預(yù)置的語(yǔ)音模型由以下單元構(gòu)建: 音頻預(yù)處理單元,用于對(duì)各采集通道采集到的全體音頻信號(hào)進(jìn)行降噪,并對(duì)降噪后音頻信號(hào)中的特征量進(jìn)行量化; 音頻建模單元,用于對(duì)量化后的特征量進(jìn)行建模,得到語(yǔ)音模型。
      3.根據(jù)權(quán)利要求2所述的裝置,其特征在于:所述音頻預(yù)處理單元接收音頻采集單元采集的音頻信號(hào),并將量化后的特征量發(fā)送至音頻建模單元。
      4.根據(jù)權(quán)利要求1或2所述的裝置,其特征在于:所述語(yǔ)音模型存儲(chǔ)發(fā)言者的位移和各通道對(duì)應(yīng)的音量值。
      5.根據(jù)權(quán)利要求4所述的裝置,其特征在于:所述音頻分析單元結(jié)合各采集通道對(duì)應(yīng)的音量值進(jìn)行分析,基于音場(chǎng)均衡策略在語(yǔ)音模型中實(shí)時(shí)確定發(fā)言者的位置信息。
      6.根據(jù)權(quán)利要求1所述的裝置,其特征在于:所述音頻采集單元中的各采集通道以攝像頭為圓心,均勻在圓周上進(jìn)行設(shè)置。
      7.一種多媒體采集方法,其特征在于,包括至少四個(gè)采集通道,在幾何平面內(nèi)均衡設(shè)置,還包括如下步驟: 各采集通道分別采集發(fā)言者的發(fā)出的音頻信號(hào); 將采集到的發(fā)言者的音頻信號(hào)中的特征量在預(yù)置的語(yǔ)音模型中進(jìn)行匹配分析,實(shí)時(shí)定位發(fā)言者的位置信息; 根據(jù)發(fā)言者的位置信息實(shí)時(shí)調(diào)整攝像頭,從而使攝像頭采集含有發(fā)言者的視頻信號(hào)。
      8.根據(jù)權(quán)利要求7所述的方法,其特征在于:所述預(yù)置的語(yǔ)音模型構(gòu)建時(shí), 對(duì)各采集通道采集到的全體音頻信號(hào)進(jìn)行降噪,并對(duì)降噪后音頻信號(hào)中的特征量進(jìn)行量化; 對(duì)量化后的特征量進(jìn)行建模,得到語(yǔ)音模型。
      9.根據(jù)權(quán)利要求7或8所述的方法,其特征在于:所述語(yǔ)音模型存儲(chǔ)發(fā)言者的位移和各通道對(duì)應(yīng)的音量值。
      10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述方法還包括: 結(jié)合各采集通道對(duì)應(yīng)的音量值進(jìn)行分析,基于音場(chǎng)均衡策略在語(yǔ)音模型中實(shí)時(shí)確定發(fā)言者的位置信息。
      11.根據(jù)權(quán)利要求7所述的方法,其特征在于:所述各采集通道以攝像頭為圓心,均勻在圓周上進(jìn)行設(shè)置。
      【文檔編號(hào)】H04N7/15GK103581606SQ201210283273
      【公開日】2014年2月12日 申請(qǐng)日期:2012年8月9日 優(yōu)先權(quán)日:2012年8月9日
      【發(fā)明者】孫敏剛, 趙照 申請(qǐng)人:北京博威康技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1