語音交互方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音處理技術(shù)領(lǐng)域,尤其涉及一種語音交互方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著汽車工業(yè)的發(fā)展,車載逐漸成為人們生活中的一個重要場景。由于安全性的要求和移動互聯(lián)的發(fā)展,人們已經(jīng)逐漸習(xí)慣了通過語音輸入對車載設(shè)備進(jìn)行操控。
[0003]通過語音輸入對車載設(shè)備進(jìn)行操控時,如果同時有多人說話,語音交互系統(tǒng)就難以區(qū)分出目標(biāo)指令,為此,通常會要求除了指令的發(fā)出者之外的其他人盡量不要說話,但是,這種方式由于增加了對用戶的限制,會使得語音交互系統(tǒng)的適應(yīng)范圍受限,并且也會影響用戶體驗。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005]為此,本發(fā)明的一個目的在于提出一種語音交互方法,該方法可以在多人說話的場景下依然可以識別出目標(biāo)聲源,從而擴(kuò)大語音交互系統(tǒng)的適用范圍,提升用戶體驗。
[0006]本發(fā)明的另一個目的在于提出一種語音交互系統(tǒng)。
[0007]為達(dá)到上述目的,本發(fā)明第一方面實施例提出的語音交互方法,包括:確定目標(biāo)用戶,并獲取目標(biāo)用戶的用戶信息;在需要語音交互時,獲取多人同時說話時的混合聲源,以及,根據(jù)目標(biāo)用戶的用戶信息,在所述混合聲源中識別出目標(biāo)聲源;對目標(biāo)聲源中的語音信息進(jìn)行語音識別,得到語音識別結(jié)果,并將所述語音識別結(jié)果作為目標(biāo)指令對交互設(shè)備進(jìn)行操控。
[0008]本發(fā)明第一方面實施例提出的語音交互方法,通過根據(jù)目標(biāo)用戶的用戶信息在混合聲源中識別出目標(biāo)聲源,進(jìn)而根據(jù)目標(biāo)聲源進(jìn)行操作,可以在多人說話的場景下依然可以識別出目標(biāo)聲源,從而擴(kuò)大語音系統(tǒng)的適用范圍,提升用戶體驗。
[0009]為達(dá)到上述目的,本發(fā)明第二方面實施例提出的語音交互系統(tǒng),包括:獲取模塊,用于確定目標(biāo)用戶,并獲取目標(biāo)用戶的用戶信息;識別模塊,用于在需要語音交互時,獲取多人同時說話時的混合聲源,以及,根據(jù)目標(biāo)用戶的用戶信息,在所述混合聲源中識別出目標(biāo)聲源;操控模塊,用于對目標(biāo)聲源中的語音信息進(jìn)行語音識別,得到語音識別結(jié)果,并將所述語音識別結(jié)果作為目標(biāo)指令對交互設(shè)備進(jìn)行操控。
[0010]本發(fā)明第二方面實施例提出的語音交互系統(tǒng),通過根據(jù)目標(biāo)用戶的用戶信息在混合聲源中識別出目標(biāo)聲源,進(jìn)而根據(jù)目標(biāo)聲源進(jìn)行操作,可以在多人說話的場景下依然可以識別出目標(biāo)聲源,從而擴(kuò)大語音系統(tǒng)的適用范圍,提升用戶體驗。
[0011]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0013]圖1是本發(fā)明一實施例提出的語音交互方法的流程示意圖;
[0014]圖2是本發(fā)明另一實施例提出的語音交互方法的流程示意圖;
[0015]圖3是本發(fā)明實施例中聲紋注冊的示意圖;
[0016]圖4是本發(fā)明實施例中聲紋登錄的示意圖;
[0017]圖5是本發(fā)明實施例中在混合聲源中識別目標(biāo)聲源的示意圖;
[0018]圖6是本發(fā)明另一實施例提出的語音交互系統(tǒng)的結(jié)構(gòu)示意圖;
[0019]圖7是本發(fā)明另一實施例提出的語音交互系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0020]下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0021]圖1是本發(fā)明一實施例提出的語音交互方法的流程示意圖,該方法包括:
[0022]S11:確定目標(biāo)用戶,并獲取目標(biāo)用戶的用戶信息。
[0023]目標(biāo)用戶是指在需要語音交互時,發(fā)出目標(biāo)指令的用戶。例如,可以將當(dāng)前登錄語音交互系統(tǒng)的用戶確定為目標(biāo)用戶,此時,如果需要更改目標(biāo)用戶,需要更換當(dāng)前登錄的用戶。
[0024]用戶信息例如包括:聲紋信息,和/或,方位信息。
[0025]其中,在用戶注冊時,語音交互系統(tǒng)可以采集并保存用戶的聲紋信息。相應(yīng)的,在用戶登錄時可以采集當(dāng)前登錄用戶的聲紋信息,如果當(dāng)前的聲紋信息屬于已保存的聲紋信息,則允許用戶登錄,并將當(dāng)前登錄的用戶確定為目標(biāo)用戶,由于用戶登錄時采集了聲紋信息,因此可以獲取到目標(biāo)用戶的聲紋信息。
[0026]另外,語音交互系統(tǒng)根據(jù)聲源定位技術(shù)可以確定當(dāng)前登錄用戶發(fā)出的語音信息的方位,從而獲取目標(biāo)用戶的方位信息。
[0027]S12:在需要語音交互時,獲取多人同時說話時的混合聲源,以及,根據(jù)目標(biāo)用戶的用戶信息,在所述混合聲源中識別出目標(biāo)聲源。
[0028]例如,目標(biāo)用戶需要對車載設(shè)備進(jìn)行操控時,可以發(fā)出目標(biāo)指令,而同時還可能存在其他人在說話,從而語音交互系統(tǒng)獲取的聲源不僅包括目標(biāo)用戶發(fā)出的聲源,還包括其他人發(fā)出的聲源。
[0029]為了準(zhǔn)確獲取目標(biāo)指令,需要先從混合聲源中識別出目標(biāo)聲源。本實施例中,根據(jù)目標(biāo)用戶的用戶信息進(jìn)行識別。
[0030]其中,當(dāng)根據(jù)目標(biāo)用戶的聲紋信息進(jìn)行識別時,例如,可以分別提取混合聲源中的每個聲源的聲音信息,再與預(yù)先獲取的目標(biāo)用戶的聲紋信息進(jìn)行比對,獲取與目標(biāo)用戶的聲紋信息匹配一致的聲源,將該匹配一致的聲源確定為目標(biāo)聲源。
[0031]當(dāng)根據(jù)目標(biāo)用戶的方位信息進(jìn)行識別時,例如,可以采用聲源定位技術(shù)分別確定混合聲源中的每個聲源的方位信息,再與預(yù)先獲取的目標(biāo)用戶的方位信息進(jìn)行比對,獲取與目標(biāo)用戶的方位信息匹配一致的聲源,將該匹配一致的聲源確定為目標(biāo)聲源。
[0032]當(dāng)根據(jù)目標(biāo)用戶的方位信息和聲紋信息進(jìn)行識別時,例如,先根據(jù)方位信息排除到部分的聲源,在剩下的聲源中再逐一比對聲紋信息,從而確定出目標(biāo)聲源。
[0033]其中,在將混合聲源區(qū)分為單個聲源時,可以采用聽覺場景分析技術(shù)。聽覺場景分析技術(shù)是借鑒視覺場景分析技術(shù)產(chǎn)生的,可以對多個同時的語音信號進(jìn)行區(qū)分。
[0034]S13:對目標(biāo)聲源中的語音信息進(jìn)行語音識別,得到語音識別結(jié)果,并將所述語音識別結(jié)果作為目標(biāo)指令對交互設(shè)備進(jìn)行操控。
[0035]在識別出目標(biāo)聲源后,可以對其采用語言識別技術(shù),將目標(biāo)聲源中的聲音數(shù)據(jù)轉(zhuǎn)換為文字?jǐn)?shù)據(jù),將文字?jǐn)?shù)據(jù)作為目標(biāo)指令,之后可以根據(jù)目標(biāo)指令進(jìn)行操控,例如,目標(biāo)指令是搜索某個目的地的路線,則可以給出到該目的地的路線圖。
[0036]本實施例以車載控制為例,相應(yīng)的,交互設(shè)備是車載設(shè)備??梢岳斫獾氖?,本實施例也可以應(yīng)用在其他場景,例如,應(yīng)用在對智能家電的控制等場景。
[0037]本實施例中,通過根據(jù)目標(biāo)用戶的用戶信息在混合聲源中識別出目標(biāo)聲源,進(jìn)而根據(jù)目標(biāo)聲源進(jìn)行操作,可以在多人說話的場景下依然可以識別出目標(biāo)聲源,從而擴(kuò)大語音系統(tǒng)的適用范圍,提升用戶體驗。
[0038]圖2是本發(fā)明另一實施例提出的語音交互方法的流程示意圖,本實施例以對車載設(shè)備進(jìn)行操控為例。該方法包括:
[0039]S21:用戶進(jìn)行聲紋注冊。
[0040]例如,參見圖3,在用戶注冊時,獲取用戶輸入的語音信息(S31),并根據(jù)語音信息獲取并保存用戶的聲紋信息(S32)。
[0041]例如,用戶在語音交互系統(tǒng)中注冊時,語音交互系統(tǒng)可以向用戶展示預(yù)設(shè)個數(shù)的提示文本,用戶對提示文本進(jìn)行朗讀,從而獲取用戶輸入的語音信息。預(yù)設(shè)個數(shù)例如為3個,提示文本例如為字符串。
[0042]語音交互系統(tǒng)獲取到用戶的語音信息后,可以采用已有的聲紋識別技術(shù)對語音信息進(jìn)行聲紋識別,獲取對應(yīng)的聲紋信息。
[0043]本實施例中的語音交互系統(tǒng)可以是本地語音交互系統(tǒng)(如設(shè)置在車載設(shè)備內(nèi)),或者,也可以是在線語音交互系統(tǒng)。
[0044]可以理解的,S21可以在用戶開車之前完成。
[0045]S22:在用戶登錄時,將當(dāng)前登錄的用戶作為目標(biāo)用戶,采集目標(biāo)用戶在登錄時產(chǎn)生的語音信息,以及,根據(jù)聲源定位技術(shù),確定目標(biāo)用戶的方位信息。
[0046]例如,參見圖4,用戶登錄流程可以包括:
[0047]S41