本申請(qǐng)涉及人工智能,尤其涉及一種人形機(jī)器人的智能語音降噪交互方法和系統(tǒng)。
背景技術(shù):
1、在人形機(jī)器人的應(yīng)用場(chǎng)景中,語音交互是其與人類溝通的重要方式。然而,不同應(yīng)用場(chǎng)景的環(huán)境噪聲是難以一致,并伴隨多聲源干擾等問題往往影響語音識(shí)別的準(zhǔn)確性和交互體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例的主要目的在于提供一種人形機(jī)器人的智能語音降噪交互方法和系統(tǒng)。
2、本發(fā)明所采取的技術(shù)方案是:
3、一方面,本發(fā)明實(shí)施例提供了一種人形機(jī)器人的智能語音降噪交互方法,所述方法包括以下步驟:
4、采集聲源信息;
5、根據(jù)所述聲源信息,得到目標(biāo)聲源位置信息;
6、采集音頻數(shù)據(jù);
7、根據(jù)所述目標(biāo)聲源位置信息和所述音頻數(shù)據(jù),得到目標(biāo)音頻數(shù)據(jù);
8、根據(jù)所述目標(biāo)音頻數(shù)據(jù),完成降噪處理。
9、進(jìn)一步地,所述采集聲源信息,包括以下步驟:
10、獲取視覺信息和聲覺信息;
11、根據(jù)所述視覺信息和所述聲覺信息,得到空間位置信息;
12、根據(jù)所述空間位置信息,得到聲源信息。
13、進(jìn)一步地,所述根據(jù)所述聲源信息,得到目標(biāo)聲源位置信息,包括以下步驟:
14、預(yù)設(shè)若干個(gè)目標(biāo)采集區(qū)域;
15、根據(jù)所述目標(biāo)采集區(qū)域和所述聲源信息,得到目標(biāo)聲源位置信息。
16、進(jìn)一步地,所述根據(jù)所述目標(biāo)聲源位置信息和所述音頻數(shù)據(jù),得到目標(biāo)音頻數(shù)據(jù),包括以下步驟:
17、根據(jù)所述目標(biāo)聲源位置信息,從所述音頻數(shù)據(jù)中提取與目標(biāo)聲源位置對(duì)應(yīng)的語音信息;
18、根據(jù)所述語音信息,得到目標(biāo)音頻數(shù)據(jù)。
19、進(jìn)一步地,所述根據(jù)所述目標(biāo)音頻數(shù)據(jù),完成降噪處理,包括以下步驟:
20、預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型;
21、根據(jù)所述神經(jīng)網(wǎng)絡(luò)模型,確定掩蔽值;
22、根據(jù)所述掩蔽值和所述目標(biāo)音頻數(shù)據(jù),完成降噪處理。
23、另一方面,本發(fā)明實(shí)施例還提供一種人形機(jī)器人的智能語音降噪交互系統(tǒng),所述系統(tǒng)包括:
24、第一模塊,用于采集聲源信息;
25、第二模塊,用于根據(jù)所述聲源信息,得到目標(biāo)聲源位置信息;
26、第三模塊,用于采集音頻數(shù)據(jù);
27、第四模塊,用于根據(jù)所述目標(biāo)聲源位置信息和所述音頻數(shù)據(jù),得到目標(biāo)音頻數(shù)據(jù);
28、第五模塊,用于根據(jù)所述目標(biāo)音頻數(shù)據(jù),完成降噪處理。
29、進(jìn)一步地,所述系統(tǒng)還包括:
30、聲源定位模塊,用于確定說話人的空間位置信息;
31、目標(biāo)聲源識(shí)別模塊,用于根據(jù)目標(biāo)采集區(qū)域匹配目標(biāo)聲源位置;
32、音頻數(shù)據(jù)采集模塊,用于采用自動(dòng)增益控制算法技術(shù)優(yōu)化音頻采集;
33、目標(biāo)音頻數(shù)據(jù)提取模塊,用于提取目標(biāo)音頻數(shù)據(jù);
34、降噪處理模塊和多模態(tài)信息融合模塊,用于執(zhí)行降噪處理。
35、進(jìn)一步地,所述系統(tǒng)還包括視覺模塊和聲覺模塊;
36、所述視覺模塊包括視覺傳感器;所述聲覺模塊包括麥克風(fēng)陣列。
37、另一方面,本發(fā)明實(shí)施例還提供一種人形機(jī)器人的智能語音降噪交互裝置,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如前面所述的人形機(jī)器人的智能語音降噪交互方法。
38、另一方面,本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令用于使計(jì)算機(jī)執(zhí)行如前面所述的方法。
39、本申請(qǐng)實(shí)施例至少包括以下有益效果:本申請(qǐng)?zhí)峁┮环N人形機(jī)器人的智能語音降噪交互方法和系統(tǒng)。本發(fā)明采集聲源信息;根據(jù)所述聲源信息,得到目標(biāo)聲源位置信息;采集音頻數(shù)據(jù);根據(jù)所述目標(biāo)聲源位置信息和所述音頻數(shù)據(jù),得到目標(biāo)音頻數(shù)據(jù);根據(jù)所述目標(biāo)音頻數(shù)據(jù),完成降噪處理。本發(fā)明能夠提高人形機(jī)器人在復(fù)雜聲學(xué)環(huán)境中的語音識(shí)別準(zhǔn)確度。
1.一種人形機(jī)器人的智能語音降噪交互方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采集聲源信息,包括以下步驟:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聲源信息,得到目標(biāo)聲源位置信息,包括以下步驟:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)聲源位置信息和所述音頻數(shù)據(jù),得到目標(biāo)音頻數(shù)據(jù),包括以下步驟:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)音頻數(shù)據(jù),完成降噪處理,包括以下步驟:
6.一種人形機(jī)器人的智能語音降噪交互系統(tǒng),其特征在于,所述系統(tǒng)包括:
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括:
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括視覺模塊和聲覺模塊;
9.一種人形機(jī)器人的智能語音降噪交互裝置,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任意一項(xiàng)所述的人形機(jī)器人的智能語音降噪交互方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令用于使計(jì)算機(jī)執(zhí)行如權(quán)利要求1至5任意一項(xiàng)所述的方法。