自動語音輸入系統(tǒng)及其方法
【專利摘要】一種自動語音輸入系統(tǒng)及其方法在此揭露。自動語音輸入系統(tǒng)包含收音元件及語音辨識裝置。收音元件用以取得語音;語音辨識裝置包含錄音元件及語音偵測元件;錄音元件用以基于語音去儲存數(shù)字信號數(shù)據(jù);語音偵測元件用以根據(jù)數(shù)字信號數(shù)據(jù),偵測語音于每一單位時段中的振幅及頻譜,以判斷語音的至少一中斷處及中斷處的標(biāo)點符號。
【專利說明】自動語音輸入系統(tǒng)及其方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明是有關(guān)于一種語音輸入技術(shù),且特別是有關(guān)于一種標(biāo)點符號自動輸入的自動語音輸入系統(tǒng)及其方法。
【背景技術(shù)】
[0002]在講求人機互動且運算芯片技術(shù)成熟的現(xiàn)今,自動語音輸入技術(shù)已是目前系統(tǒng)產(chǎn)品所提供服務(wù)的發(fā)展重點之一,語音輸入或語音辨識技術(shù)多半主要由隱馬可夫模型為主流,利用語音數(shù)據(jù)所計算出的聲紋特征線性以預(yù)估編碼倒頻譜矩陣,通過結(jié)果反推原因的機率,進而推論其語音的內(nèi)容,進入到二十一世紀(jì)后,語音辨識技術(shù)陸續(xù)發(fā)展到加入前后文關(guān)系的判斷方式,這也使得語音辨識的準(zhǔn)確率大幅提升。然而,目前雖然語音輸入的辨識能力已有不錯的準(zhǔn)確品質(zhì),但自動輸入標(biāo)點符號的功能仍有相當(dāng)大的改良空間。
[0003]以微軟推出的Wind0ws7操作系統(tǒng)為例,其內(nèi)建的語音輸入服務(wù)在撰寫文章或是在欲加入標(biāo)點符號的場合時必須自行念出「逗號」、「句號」、「問號」或「點」等標(biāo)點符號名稱,使用起來相當(dāng)不方便。除此之外,由前述可知,目前的語音辨識技術(shù)為了增加語音輸入辨識結(jié)果的準(zhǔn)確率,多半在計算模型中加入前后文判斷的方式,但如此一來,若須自行念出標(biāo)點符號名稱以輸入標(biāo)點符號,則標(biāo)點符號名稱將容易與標(biāo)點符號之外的語音文字混合,造成誤判。例如:以語音輸入方式念一段IP地址「192.168.40.3」時,其中的「.40.3」很容易被判斷為「電視里電扇」;又例如欲輸入「您好嗎?不好意思」時,亦有可能得到「忙著問好不好」的結(jié)果,造成使用者在使用上的不便與困擾。
[0004]現(xiàn)行的自動語音輸入技術(shù)須靠使用者自行念出標(biāo)點符號名稱以輸入標(biāo)點符號,且標(biāo)點符號名稱也容易與標(biāo)點符號之外的語音文字混合,造成誤判。因此,如何能利用語音偵測作為語音結(jié)尾、語音分段及頓挫的依據(jù),利用頻帶能量分布狀況作為語音揚升與否的依據(jù),針對語音做結(jié)尾分析、頓挫分析及抑揚分析來自動判斷標(biāo)點符號,實屬當(dāng)前重要研發(fā)課題之一,亦成為當(dāng)前相關(guān)領(lǐng)域極需改進的目標(biāo)。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的一目的是在提供一種自動語音輸入系統(tǒng)及自動語音輸入方法,以解決先前技術(shù)的問題。
[0006]于一實施例中,本發(fā)明所提供的自動語音輸入系統(tǒng)包含收音元件及語音辨識裝置。收音元件用以取得語音;語音辨識裝置包含錄音元件及語音偵測元件;錄音元件用以基于語音去儲存數(shù)字信號數(shù)據(jù);語音偵測元件用以根據(jù)數(shù)字信號數(shù)據(jù),偵測語音于每一單位時段中的振幅及頻譜,以判斷語音的至少一中斷處及中斷處的一標(biāo)點符號。
[0007]于一實施例中,當(dāng)語音的振幅于單位時段中為背景噪音的平均振幅的1.5倍時,則語音偵測元件判斷語音是于單位時段為連續(xù),當(dāng)語音的振幅于單位時段中低于背景噪音的平均振幅的1.5倍時,則語音偵測元件判斷語音是于該單位時段為中斷并從而具有中斷處。[0008]于一實施例中,當(dāng)語音是于連續(xù)多個單位時段為中斷且這些單位時段的連續(xù)數(shù)量達到第一預(yù)設(shè)數(shù)量時,則語音偵測元件判斷中斷處的標(biāo)點符號是逗號。
[0009]于上述實施例中,當(dāng)中斷處的標(biāo)點符號是逗號時,語音偵測元件將中斷處前后一預(yù)設(shè)時間所對應(yīng)的數(shù)字信號數(shù)據(jù)中的數(shù)據(jù)轉(zhuǎn)換成頻譜,并計算頻譜中超過一頻率值的頻帶能量的標(biāo)準(zhǔn)差,當(dāng)頻譜中超過此頻率值的頻帶能量的標(biāo)準(zhǔn)差是該背景噪音的噪音頻譜中超過此頻率值的頻帶能量的標(biāo)準(zhǔn)差的1.5倍時,則語音偵測元件將中斷處的標(biāo)點符號從逗號改成問號。
[0010]于一實施例中,當(dāng)語音是于連續(xù)多個單位時段為中斷且這些單位時段的連續(xù)數(shù)量達到第二預(yù)設(shè)數(shù)量時,則語音偵測元件判斷中斷處的標(biāo)點符號是句號。
[0011]于一實施例中,本發(fā)明所提供的自動語音輸入方法包含:取得語音;基于語音去儲存數(shù)字信號數(shù)據(jù);根據(jù)數(shù)字信號數(shù)據(jù),偵測語音于每一單位時段中的振幅及頻譜,以判斷語音的至少一中斷處及中斷處的標(biāo)點符號。
[0012]于一實施例中,當(dāng)語音的振幅于單位時段中為背景噪音的平均振幅的1.5倍時,則判斷語音是于單位時段為連續(xù),當(dāng)語音的振幅于單位時段中低于背景噪音的平均振幅的1.5倍時,則判斷語音是于單位時段為中斷并從而具有中斷處。
[0013]于一實施例中,當(dāng)語音是于連續(xù)多個所述單位時段為中斷且這些單位時段的連續(xù)數(shù)量達到第一預(yù)設(shè)數(shù)量時,則判斷中斷處的標(biāo)點符號是逗號。
[0014]于上述實施例中,當(dāng)中斷處的標(biāo)點符號是逗號時,將中斷處前后一預(yù)設(shè)時間所對應(yīng)的數(shù)字信號數(shù)據(jù)中的數(shù)據(jù)轉(zhuǎn)換成頻譜,并計算頻譜中超過一頻率值的頻帶能量的標(biāo)準(zhǔn)差,當(dāng)頻譜中超過此頻率值的頻帶能量的標(biāo)準(zhǔn)差是背景噪音的噪音頻譜中超過此頻率值的頻帶能量的標(biāo)準(zhǔn)差的1.5倍時,則將中斷處的標(biāo)點符號從逗號改成問號。
[0015]于一實施例中,當(dāng)語音是于連續(xù)多個單位時段為中斷且這些單位時段的連續(xù)數(shù)量達到第二預(yù)設(shè)數(shù)量時,則判斷中斷處的標(biāo)點符號是句號。
[0016]綜上所述,本發(fā)明的技術(shù)方案與現(xiàn)有技術(shù)相比具有明顯的優(yōu)點和有益效果。通過上述技術(shù)方案,可達到相當(dāng)?shù)募夹g(shù)進步,并具有產(chǎn)業(yè)上的廣泛利用價值,其優(yōu)點是利用語音偵測作為語音結(jié)尾、語音分段及頓挫的依據(jù),利用頻帶能量分布狀況作為語音揚升與否的依據(jù),針對語音做結(jié)尾分析、頓挫分析及抑揚分析來自動判斷標(biāo)點符號。
【專利附圖】
【附圖說明】
[0017]為讓本發(fā)明的上述和其他目的、特征、優(yōu)點與實施例能更明顯易懂,所附附圖的說明如下:
[0018]圖1是依照本發(fā)明一實施例的一種自動語音輸入系統(tǒng)的方塊圖;
[0019]圖2是依照本發(fā)明一實施例的一種自動語音輸入系統(tǒng)的不意圖;
[0020]圖3是依照本發(fā)明另一實施例的一種自動語音輸入系統(tǒng)的不意圖;
[0021]圖4是依照本發(fā)明一實施例的一種自動語音輸入方法的流程圖;
[0022]圖5是依照本發(fā)明一實施例的一種自動語音輸入方法的又一流程圖;以及
[0023]圖6是依照本發(fā)明一實施例的一種自動語音輸入方法的另一流程圖。
【具體實施方式】[0024]為了使本發(fā)明的敘述更加詳盡與完備,以下將以附圖及詳細(xì)說明清楚說明本發(fā)明的精神,任何所屬【技術(shù)領(lǐng)域】中具有通常知識者在了解本發(fā)明的較佳實施例后,當(dāng)可由本發(fā)明所教示的技術(shù),加以改變及修飾,其并不脫離本發(fā)明的精神與范圍。另一方面,眾所周知的元件與步驟并未描述于實施例中,以避免對本發(fā)明造成不必要的限制。
[0025]圖1是依照本發(fā)明一實施例的一種自動語音輸入系統(tǒng)的方塊圖。如圖1所示,于一實施例中,本發(fā)明所提供的自動語音輸入系統(tǒng)包含收音元件110及語音辨識裝置120。語音辨識裝置120包含錄音元件121及語音偵測元件122。在架構(gòu)上,收音元件110耦接語音辨識裝置120的錄音元件121及語音偵測元件122,錄音元件121耦接語音偵測元件122。實作上,收音元件110可為麥克風(fēng);錄音元件121可為音效卡。語音偵測元件122的【具體實施方式】可為軟件程序或硬件電路,熟悉此項技藝者應(yīng)當(dāng)視當(dāng)時需要彈性選擇其實施方式,而不需全為軟件程序或全為硬件電路,可部分為軟件程序或部分為硬件電路。
[0026]收音元件110用以取得語音。語音在空氣中是以波的形式來傳遞,為類比信號。錄音元件121用以基于語音去儲存為數(shù)字信號數(shù)據(jù);語音偵測元件122用以根據(jù)數(shù)字信號數(shù)據(jù),偵測語音于每一單位時段(如:20毫秒)中的振幅及頻譜,進行分析處理,以判斷語音的中斷處及中斷處的標(biāo)點符號。
[0027]圖2是依照本發(fā)明一實施例的一種自動語音輸入系統(tǒng)的不意圖。如圖1、圖2所示,當(dāng)收音元件110取得語音之后,會由語音偵測元件122偵測語音,進行語音的結(jié)尾分析、頓挫分析及抑揚分析。首先,語音偵測元件122會先比較語音的振幅和背景噪音的振幅來做結(jié)尾分析。錄音元件121取得語音的環(huán)境會有所謂的環(huán)境音(Atmosphere Sound),當(dāng)無語音狀態(tài)時,錄音元件121只會單純收到環(huán)境音,當(dāng)有語音狀態(tài)時,錄音元件121便會收到混有環(huán)境音的語音。是故把環(huán)境音視為背景噪音,將每個單位時段(如:20毫秒)中語音的振幅與背景噪音的振幅做比較,便可據(jù)以判斷一段語音中的各個中斷處。于一實施例中,當(dāng)語音的振幅于單位時段中為背景噪音的平均振幅的1.5倍時,則語音偵測元件122判斷語音是于單位時段為連續(xù);當(dāng)語音的振幅于單位時段中低于背景噪音的平均振幅的1.5倍時,則語音偵測元件122判斷語音是于該單位時段為中斷并從而具有中斷處。
[0028]于一實施例中,當(dāng)語音是于連續(xù)多個單位時段為中斷,且這些單位時段的連續(xù)數(shù)量達到第一預(yù)設(shè)數(shù)量(如:5)時,則語音偵測元件122判斷中斷處的標(biāo)點符號是逗號。舉例而言,若前80毫秒有語音,接下來的100毫秒無語音,則判斷將無語音的起始點為語音的中斷處,至于下一段落的前100毫秒無語音,但接下來的80毫秒有語音,則開始有語音的時間點即為語音中斷的結(jié)束。當(dāng)語音中斷維持的時間超過5個單位時段(S卩100毫秒),中斷處可視為是語音的段落與段落間的轉(zhuǎn)折承接處,則語音偵測元件122判斷中斷處的標(biāo)點符號是逗號,并進入抑揚分析;若語音中斷維持的時間并未超過5個單位時段時,中斷處可能只是語音中非段落結(jié)尾的停頓,例如提供語音的使用者在說話時的遲疑語氣,則語音偵測元件122不針對此中斷處判斷標(biāo)點符號。
[0029]問句與一般句的差別在于高頻區(qū)的能量分布,此處的高頻區(qū)定義為超過4000Hz的頻帶,可將各段落分別進行頻譜分析,比較各段落的尾音及背景噪音在高頻區(qū)的頻帶能量,以分辨各段落為一般句或是問句。當(dāng)段落為一般句時,中斷處的標(biāo)點符號即維持逗號;當(dāng)段落為問句時,中斷處的標(biāo)點符號便由逗號改為問號。于上述實施例中,當(dāng)中斷處的標(biāo)點符號是逗號時,語音偵測元件122將中斷處前后一預(yù)設(shè)時間(如:100毫秒)所對應(yīng)的數(shù)字信號數(shù)據(jù)221中的數(shù)據(jù)轉(zhuǎn)換成頻譜,并計算頻譜中超過一頻率值(如:4000Hz)的頻帶能量的標(biāo)準(zhǔn)差。當(dāng)頻譜中超過此頻率值的頻帶能量的標(biāo)準(zhǔn)差是該背景噪音的噪音頻譜中超過此頻率值的頻帶能量的標(biāo)準(zhǔn)差的1.5倍時,則語音偵測元件122判斷中斷處前的段落尾音為揚升狀態(tài),會自動將中斷處的逗號改成加入問號;當(dāng)頻譜中超過此頻率值的頻帶能量的標(biāo)準(zhǔn)差是該背景噪音的噪音頻譜中未超過此頻率值的頻帶能量的標(biāo)準(zhǔn)差的1.5倍時,則語音偵測元件122判斷中斷處前的段落尾音為平抑狀態(tài),會維持中斷處的逗號。
[0030]于一實施例中,當(dāng)語音偵測元件122透過頻譜分析偵測到中斷處前后的語音段落的揚聲平仄狀態(tài)為相同時,中斷處前后的語音段落可能為對稱句,則語音偵測元件122判斷中斷處的標(biāo)點符號為分號。
[0031]于一實施例中,語音偵測元件122偵測語音的振幅及頻譜,當(dāng)語音的振幅于某個單位時段中高于其他有語音狀態(tài)時的語音振幅,即代表語音于某個單位時段中的音量是特別大的,則語音偵測元件122判斷中斷處的標(biāo)點符號為驚嘆號。
[0032]倘若語音為單純輸入IP地址(如:140.116.6.12)的狀況,則語音偵測元件122不需判斷逗號與句號的分別,僅需進行結(jié)尾分析及頓挫分析,并在取得各段落的中斷處后,于中斷處加入「.」。圖3是依照本發(fā)明另一實施例的一種自動語音輸入系統(tǒng)的示意圖。如圖1、圖3所示,當(dāng)收音元件110取得語音之后,會由語音偵測元件122偵測語音,當(dāng)語音偵測元件122偵測到語音中均為數(shù)字時,會判斷語音內(nèi)容為IP地址,由于只需判斷語音的結(jié)尾及中斷處,故僅進行語音的結(jié)尾分析及頓挫分析。首先,語音偵測元件122會先比較語音的振幅和背景噪音的振幅來做結(jié)尾分析,若超過600毫秒未有語音狀態(tài)產(chǎn)生,則錄音元件121會中斷錄音,不需要于結(jié)尾加上任何標(biāo)點符號,進入頓挫分析。語音偵測元件122會再判斷語音是否有中斷100毫秒以上的情況,若有,則判定為分段點,加入「.」。
[0033]圖4是依照本發(fā)明一實施例的一種自動語音輸入方法的流程圖。如圖4所示,本發(fā)明所提供的自動語音輸入方法包含步驟410?470 (應(yīng)了解到,在本實施例中所提及的步驟,除特別敘明其順序者外,均可依實際需要調(diào)整其前后順序,甚至可同時或部分同時執(zhí)行)。于步驟410中,先取得語音,基于語音去儲存數(shù)字信號數(shù)據(jù);于步驟420?470中,根據(jù)數(shù)字信號數(shù)據(jù),偵測語音于每一單位時段中的振幅及頻譜,以判斷語音的至少一中斷處及中斷處的標(biāo)點符號。
[0034]于步驟420中,先比較語音的振幅和背景噪音的振幅來做結(jié)尾分析。于步驟430中,若超過600毫秒未有語音狀態(tài)產(chǎn)生,則中斷錄音,且自動于結(jié)尾加上句號。于步驟440中,進入頓挫分析。于每一單位時段做分析,若前80毫秒有語音,接下來的100毫秒無語音,則判斷將無語音的起始點為語音的中斷處,至于下一段落的前100毫秒無語音,但接下來的80毫秒有語音,則開始有語音的時間點即為語音中斷的結(jié)束,于步驟450中,自動于中斷處加上逗號。于步驟460中,進入抑揚分析;對中斷處前后100毫秒于超過4000HZ的高頻區(qū)的頻譜能量進行頻譜分析,比較中斷處前100毫秒的段落尾音于超過4000HZ高頻區(qū)的頻譜能量的標(biāo)準(zhǔn)差,以及中斷處后100毫秒的背景噪音于超過4000HZ高頻區(qū)的頻譜能量的標(biāo)準(zhǔn)差,用以針對每一段落做語音辨識;當(dāng)段落尾音的標(biāo)準(zhǔn)差超過背景噪音的標(biāo)準(zhǔn)差的
1.5倍時,則判斷中斷處前的段落尾音為揚升狀態(tài),會自動于中斷處加入問號,若無此狀況,則判斷中斷處前的段落尾音為平抑狀態(tài),會維持中斷處的逗號。
[0035]圖5是依照本發(fā)明一實施例的一種自動語音輸入方法的又一流程圖。如圖5所示,于步驟510中,先取得語音。于步驟520中,將語音錄音并儲存為數(shù)字信號數(shù)據(jù)。接下來進入結(jié)尾分析的步驟(如圖4中步驟420所示),判斷語音的結(jié)尾處。于步驟530中,判斷語音的振幅于單位時段中為背景噪音的平均振幅的1.5倍。當(dāng)語音的振幅于單位時段中并未達到背景噪音的平均振幅的1.5倍時,則判斷語音是于單位時段為中斷,并具有中斷處。當(dāng)語音的振幅于單位時段中達到背景噪音的平均振幅的1.5倍時,代表語音并未中斷,但仍需從單位時段中的各語音取樣點是否均超過背景噪音的平均振幅的1.5倍,還判斷語音是否為連續(xù)的。于步驟540中,判斷語音的振幅于單位時段中的各語音取樣點是否均超過背景噪音的平均振幅的1.5倍,倘若有,則可判定語音為連續(xù)的,繼續(xù)回到步驟530 ;倘若沒有,則可判斷語音是于單位時段為中斷,并具有中斷處。
[0036]中斷處可能為語音的段落或是結(jié)尾處,所以可通過中斷的時間長短來判斷。于步驟550中,判斷中斷的單位時段(如:20毫秒)的連續(xù)數(shù)量是否有達到第一預(yù)設(shè)數(shù)量(如:5)。當(dāng)中斷的單位時段的連續(xù)數(shù)量有達到第一預(yù)設(shè)數(shù)量時,即語音中斷的時間達100毫秒,則于步驟560中繼續(xù)判斷中斷的單位時段的連續(xù)數(shù)量是否有達到第二預(yù)設(shè)數(shù)量(如:30)。當(dāng)中斷的單位時段的連續(xù)數(shù)量有達到第二預(yù)設(shè)數(shù)量時,即語音中斷的時間達600毫秒,則停止錄音,于步驟570中,判斷此語音的中斷處的標(biāo)點符號為句號(如圖4中步驟430所示)。于步驟550中,當(dāng)中斷的單位時段的連續(xù)數(shù)量經(jīng)判斷未達到第一預(yù)設(shè)數(shù)量時,即語音中斷的時間未達100毫秒,于步驟580中,判斷此語音的中斷處的標(biāo)點符號為逗號(如圖4中步驟450所示)。于步驟590中,進入語音的抑揚分析(如圖4中步驟460所示)。
[0037]圖6是依照本發(fā)明一實施例的一種自動語音輸入方法的另一流程圖。如圖6所示,于步驟610中,將中斷處所對應(yīng)的數(shù)字信號數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換成頻譜。于步驟620中,對中斷處前后一短段時間(如:100毫秒)于超過4000HZ的高頻區(qū)的頻譜能量進行頻譜分析。于步驟630中,比較中斷處前100毫秒的段落尾音于超過4000HZ高頻區(qū)的頻譜能量的標(biāo)準(zhǔn)差,以及中斷處后100毫秒的背景噪音于超過4000HZ高頻區(qū)的頻譜能量的標(biāo)準(zhǔn)差,用以針對每一段落做語音辨識。當(dāng)段落尾音的標(biāo)準(zhǔn)差未超過背景噪音的標(biāo)準(zhǔn)差的1.5倍時,則判斷中斷處前的段落尾音為平抑狀態(tài),于步驟640中,維持中斷處的逗號。當(dāng)段落尾音的標(biāo)準(zhǔn)差超過背景噪音的標(biāo)準(zhǔn)差的1.5倍時,則判斷中斷處前的段落尾音為揚升狀態(tài),于步驟650中,自動將中斷處的逗號改成加入問號。
[0038]雖然本發(fā)明已以實施方式揭露如上,然其并非用以限定本發(fā)明,任何熟悉此技藝者,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作各種的更動與潤飾,因此本發(fā)明的保護范圍當(dāng)視所附的權(quán)利要求書所界定的范圍為準(zhǔn)。
【權(quán)利要求】
1.一種自動語音輸入系統(tǒng),其特征在于,包含: 一收音元件,用以取得一語音;以及 一語音辨識裝置,包含:一錄音元件,用以基于該語音去儲存一數(shù)字信號數(shù)據(jù);以及一語音偵測元件,用以根據(jù)該數(shù)字信號數(shù)據(jù),偵測該語音于每一單位時段中的振幅及頻譜,以判斷該語音的至少一中斷處及該中斷處的一標(biāo)點符號。
2.根據(jù)權(quán)利要求1所述的自動語音輸入系統(tǒng),其特征在于,當(dāng)該語音的振幅于該單位時段中為一背景噪音的平均振幅的1.5倍時,則該語音偵測元件判斷該語音是于該單位時段為連續(xù),當(dāng)該語音的振幅于該單位時段中低于該背景噪音的平均振幅的1.5倍時,則該語音偵測元件判斷該語音是于該單位時段為中斷并從而具有該中斷處。
3.根據(jù)權(quán)利要求2所述的自動語音輸入系統(tǒng),其特征在于,當(dāng)該語音是于連續(xù)多個該單位時段為中斷且所述單位時段的連續(xù)數(shù)量達到一第一預(yù)設(shè)數(shù)量時,則該語音偵測元件判斷該中斷處的該標(biāo)點符號是一逗號。
4.根據(jù)權(quán)利要求3所述的自動語音輸入系統(tǒng),其特征在于,當(dāng)該中斷處的該標(biāo)點符號是該逗號時,該語音偵測元件將該中斷處前后一預(yù)設(shè)時間所對應(yīng)的該數(shù)字信號數(shù)據(jù)中的數(shù)據(jù)轉(zhuǎn)換成頻譜,并計算該頻譜中超過一頻率值的頻帶能量的標(biāo)準(zhǔn)差,當(dāng)該頻譜中超過該頻率值的頻帶能量的標(biāo)準(zhǔn)差是該背景噪音的噪音頻譜中超過該頻率值的頻帶能量的標(biāo)準(zhǔn)差的1.5倍時,則該語音偵測元件將該中斷處的該標(biāo)點符號從該逗號改成一問號。
5.根據(jù)權(quán)利要求2所述的自動語音輸入系統(tǒng),其特征在于,當(dāng)該語音是于連續(xù)所述單位時段為中斷且所述單位時段的連續(xù)數(shù)量達到一第二預(yù)設(shè)數(shù)量時,則該語音偵測元件判斷該中斷處的該標(biāo)點符號是一句號。
6.一種自動語音輸入方法,其特征在于,包含: 取得一語音; 基于該語音去儲存一數(shù)字信號數(shù)據(jù); 根據(jù)該數(shù)字信號數(shù)據(jù),偵測該語音于每一單位時段中的振幅及頻譜,以判斷該語音的至少一中斷處及該中斷處的一標(biāo)點符號。
7.根據(jù)權(quán)利要求6所述的自動語音輸入方法,其特征在于,當(dāng)該語音的振幅于該單位時段中為一背景噪音的平均振幅的1.5倍時,則判斷該語音是于該單位時段為連續(xù),當(dāng)該語音的振幅于該單位時段中低于該背景噪音的平均振幅的1.5倍時,則判斷該語音是于該單位時段為中斷并從而具有該中斷處。
8.根據(jù)權(quán)利要求7所述的自動語音輸入方法,其特征在于,當(dāng)該語音是于連續(xù)多個所述單位時段為中斷且所述單位時段的連續(xù)數(shù)量達到一第一預(yù)設(shè)數(shù)量時,則判斷該中斷處的該標(biāo)點符號是一逗號。
9.根據(jù)權(quán)利要求8所述的自動語音輸入方法,其特征在于,當(dāng)該中斷處的該標(biāo)點符號是該逗號時,將該中斷處前后一預(yù)設(shè)時間所對應(yīng)的該數(shù)字信號數(shù)據(jù)中的數(shù)據(jù)轉(zhuǎn)換成頻譜,并計算該頻譜中超過一頻率值的頻帶能量的標(biāo)準(zhǔn)差,當(dāng)該頻譜中超過該頻率值的頻帶能量的標(biāo)準(zhǔn)差是該背景噪音的噪音頻譜中超過該頻率值的頻帶能量的標(biāo)準(zhǔn)差的1.5倍時,則將該中斷處的該標(biāo)點符號從該逗號改成一問號。
10.根據(jù)權(quán)利要求7所述 的自動語音輸入方法,其特征在于,當(dāng)該語音是于連續(xù)所述單位時段為中斷且所述單位時段的連續(xù)數(shù)量達到一第二預(yù)設(shè)數(shù)量時,則判斷該中斷處的該標(biāo)點符號是 一句號。
【文檔編號】G06F3/16GK103761064SQ201310739222
【公開日】2014年4月30日 申請日期:2013年12月27日 優(yōu)先權(quán)日:2013年12月27日
【發(fā)明者】郭彥閔, 林立研 申請人:圓展科技股份有限公司