語音交互方法和系統(tǒng)的制作方法

文檔序號：9525209閱讀：357來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音交互方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音處理技術(shù)領(lǐng)域，尤其涉及一種語音交互方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著汽車工業(yè)的發(fā)展，車載逐漸成為人們生活中的一個重要場景。由于安全性的要求和移動互聯(lián)的發(fā)展，人們已經(jīng)逐漸習(xí)慣了通過語音輸入對車載設(shè)備進(jìn)行操控。
[0003]通過語音輸入對車載設(shè)備進(jìn)行操控時，如果同時有多人說話，語音交互系統(tǒng)就難以區(qū)分出目標(biāo)指令，為此，通常會要求除了指令的發(fā)出者之外的其他人盡量不要說話，但是，這種方式由于增加了對用戶的限制，會使得語音交互系統(tǒng)的適應(yīng)范圍受限，并且也會影響用戶體驗。

【發(fā)明內(nèi)容】

[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005]為此，本發(fā)明的一個目的在于提出一種語音交互方法，該方法可以在多人說話的場景下依然可以識別出目標(biāo)聲源，從而擴(kuò)大語音交互系統(tǒng)的適用范圍，提升用戶體驗。
[0006]本發(fā)明的另一個目的在于提出一種語音交互系統(tǒng)。
[0007]為達(dá)到上述目的，本發(fā)明第一方面實施例提出的語音交互方法，包括:確定目標(biāo)用戶，并獲取目標(biāo)用戶的用戶信息；在需要語音交互時，獲取多人同時說話時的混合聲源，以及，根據(jù)目標(biāo)用戶的用戶信息，在所述混合聲源中識別出目標(biāo)聲源；對目標(biāo)聲源中的語音信息進(jìn)行語音識別，得到語音識別結(jié)果，并將所述語音識別結(jié)果作為目標(biāo)指令對交互設(shè)備進(jìn)行操控。
[0008]本發(fā)明第一方面實施例提出的語音交互方法，通過根據(jù)目標(biāo)用戶的用戶信息在混合聲源中識別出目標(biāo)聲源，進(jìn)而根據(jù)目標(biāo)聲源進(jìn)行操作，可以在多人說話的場景下依然可以識別出目標(biāo)聲源，從而擴(kuò)大語音系統(tǒng)的適用范圍，提升用戶體驗。
[0009]為達(dá)到上述目的，本發(fā)明第二方面實施例提出的語音交互系統(tǒng)，包括:獲取模塊，用于確定目標(biāo)用戶，并獲取目標(biāo)用戶的用戶信息；識別模塊，用于在需要語音交互時，獲取多人同時說話時的混合聲源，以及，根據(jù)目標(biāo)用戶的用戶信息，在所述混合聲源中識別出目標(biāo)聲源；操控模塊，用于對目標(biāo)聲源中的語音信息進(jìn)行語音識別，得到語音識別結(jié)果，并將所述語音識別結(jié)果作為目標(biāo)指令對交互設(shè)備進(jìn)行操控。
[0010]本發(fā)明第二方面實施例提出的語音交互系統(tǒng)，通過根據(jù)目標(biāo)用戶的用戶信息在混合聲源中識別出目標(biāo)聲源，進(jìn)而根據(jù)目標(biāo)聲源進(jìn)行操作，可以在多人說話的場景下依然可以識別出目標(biāo)聲源，從而擴(kuò)大語音系統(tǒng)的適用范圍，提升用戶體驗。
[0011]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實踐了解到。
【附圖說明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解，其中:
[0013]圖1是本發(fā)明一實施例提出的語音交互方法的流程示意圖；
[0014]圖2是本發(fā)明另一實施例提出的語音交互方法的流程示意圖；
[0015]圖3是本發(fā)明實施例中聲紋注冊的示意圖；
[0016]圖4是本發(fā)明實施例中聲紋登錄的示意圖；
[0017]圖5是本發(fā)明實施例中在混合聲源中識別目標(biāo)聲源的示意圖；
[0018]圖6是本發(fā)明另一實施例提出的語音交互系統(tǒng)的結(jié)構(gòu)示意圖；
[0019]圖7是本發(fā)明另一實施例提出的語音交互系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0020]下面詳細(xì)描述本發(fā)明的實施例，所述實施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的，僅用于解釋本發(fā)明，而不能理解為對本發(fā)明的限制。相反，本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0021]圖1是本發(fā)明一實施例提出的語音交互方法的流程示意圖，該方法包括:
[0022]S11:確定目標(biāo)用戶，并獲取目標(biāo)用戶的用戶信息。
[0023]目標(biāo)用戶是指在需要語音交互時，發(fā)出目標(biāo)指令的用戶。例如，可以將當(dāng)前登錄語音交互系統(tǒng)的用戶確定為目標(biāo)用戶，此時，如果需要更改目標(biāo)用戶，需要更換當(dāng)前登錄的用戶。
[0024]用戶信息例如包括:聲紋信息，和/或，方位信息。
[0025]其中，在用戶注冊時，語音交互系統(tǒng)可以采集并保存用戶的聲紋信息。相應(yīng)的，在用戶登錄時可以采集當(dāng)前登錄用戶的聲紋信息，如果當(dāng)前的聲紋信息屬于已保存的聲紋信息，則允許用戶登錄，并將當(dāng)前登錄的用戶確定為目標(biāo)用戶，由于用戶登錄時采集了聲紋信息，因此可以獲取到目標(biāo)用戶的聲紋信息。
[0026]另外，語音交互系統(tǒng)根據(jù)聲源定位技術(shù)可以確定當(dāng)前登錄用戶發(fā)出的語音信息的方位，從而獲取目標(biāo)用戶的方位信息。
[0027]S12:在需要語音交互時，獲取多人同時說話時的混合聲源，以及，根據(jù)目標(biāo)用戶的用戶信息，在所述混合聲源中識別出目標(biāo)聲源。
[0028]例如，目標(biāo)用戶需要對車載設(shè)備進(jìn)行操控時，可以發(fā)出目標(biāo)指令，而同時還可能存在其他人在說話，從而語音交互系統(tǒng)獲取的聲源不僅包括目標(biāo)用戶發(fā)出的聲源，還包括其他人發(fā)出的聲源。
[0029]為了準(zhǔn)確獲取目標(biāo)指令，需要先從混合聲源中識別出目標(biāo)聲源。本實施例中，根據(jù)目標(biāo)用戶的用戶信息進(jìn)行識別。
[0030]其中，當(dāng)根據(jù)目標(biāo)用戶的聲紋信息進(jìn)行識別時，例如，可以分別提取混合聲源中的每個聲源的聲音信息，再與預(yù)先獲取的目標(biāo)用戶的聲紋信息進(jìn)行比對，獲取與目標(biāo)用戶的聲紋信息匹配一致的聲源，將該匹配一致的聲源確定為目標(biāo)聲源。
[0031]當(dāng)根據(jù)目標(biāo)用戶的方位信息進(jìn)行識別時，例如，可以采用聲源定位技術(shù)分別確定混合聲源中的每個聲源的方位信息，再與預(yù)先獲取的目標(biāo)用戶的方位信息進(jìn)行比對，獲取與目標(biāo)用戶的方位信息匹配一致的聲源，將該匹配一致的聲源確定為目標(biāo)聲源。
[0032]當(dāng)根據(jù)目標(biāo)用戶的方位信息和聲紋信息進(jìn)行識別時，例如，先根據(jù)方位信息排除到部分的聲源，在剩下的聲源中再逐一比對聲紋信息，從而確定出目標(biāo)聲源。
[0033]其中，在將混合聲源區(qū)分為單個聲源時，可以采用聽覺場景分析技術(shù)。聽覺場景分析技術(shù)是借鑒視覺場景分析技術(shù)產(chǎn)生的，可以對多個同時的語音信號進(jìn)行區(qū)分。
[0034]S13:對目標(biāo)聲源中的語音信息進(jìn)行語音識別，得到語音識別結(jié)果，并將所述語音識別結(jié)果作為目標(biāo)指令對交互設(shè)備進(jìn)行操控。
[0035]在識別出目標(biāo)聲源后，可以對其采用語言識別技術(shù)，將目標(biāo)聲源中的聲音數(shù)據(jù)轉(zhuǎn)換為文字?jǐn)?shù)據(jù)，將文字?jǐn)?shù)據(jù)作為目標(biāo)指令，之后可以根據(jù)目標(biāo)指令進(jìn)行操控，例如，目標(biāo)指令是搜索某個目的地的路線，則可以給出到該目的地的路線圖。
[0036]本實施例以車載控制為例，相應(yīng)的，交互設(shè)備是車載設(shè)備?？梢岳斫獾氖?，本實施例也可以應(yīng)用在其他場景，例如，應(yīng)用在對智能家電的控制等場景。
[0037]本實施例中，通過根據(jù)目標(biāo)用戶的用戶信息在混合聲源中識別出目標(biāo)聲源，進(jìn)而根據(jù)目標(biāo)聲源進(jìn)行操作，可以在多人說話的場景下依然可以識別出目標(biāo)聲源，從而擴(kuò)大語音系統(tǒng)的適用范圍，提升用戶體驗。
[0038]圖2是本發(fā)明另一實施例提出的語音交互方法的流程示意圖，本實施例以對車載設(shè)備進(jìn)行操控為例。該方法包括:
[0039]S21:用戶進(jìn)行聲紋注冊。
[0040]例如，參見圖3，在用戶注冊時，獲取用戶輸入的語音信息(S31)，并根據(jù)語音信息獲取并保存用戶的聲紋信息(S32)。
[0041]例如，用戶在語音交互系統(tǒng)中注冊時，語音交互系統(tǒng)可以向用戶展示預(yù)設(shè)個數(shù)的提示文本，用戶對提示文本進(jìn)行朗讀，從而獲取用戶輸入的語音信息。預(yù)設(shè)個數(shù)例如為3個，提示文本例如為字符串。
[0042]語音交互系統(tǒng)獲取到用戶的語音信息后，可以采用已有的聲紋識別技術(shù)對語音信息進(jìn)行聲紋識別，獲取對應(yīng)的聲紋信息。
[0043]本實施例中的語音交互系統(tǒng)可以是本地語音交互系統(tǒng)(如設(shè)置在車載設(shè)備內(nèi))，或者，也可以是在線語音交互系統(tǒng)。
[0044]可以理解的，S21可以在用戶開車之前完成。
[0045]S22:在用戶登錄時，將當(dāng)前登錄的用戶作為目標(biāo)用戶，采集目標(biāo)用戶在登錄時產(chǎn)生的語音信息，以及，根據(jù)聲源定位技術(shù)，確定目標(biāo)用戶的方位信息。
[0046]例如，參見圖4，用戶登錄流程可以包括:
[0047]S41

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3