本發(fā)明涉及用于聲音檢測的醫(yī)療設(shè)備領(lǐng)域,并且更具體地,涉及一種音頻的音階分析方法和系統(tǒng)。
背景技術(shù):
中醫(yī)包括望診、聞診、問診和切診。聞診是從病人發(fā)生的各種聲音,從其高低、緩急、強(qiáng)弱、清濁測知病性的方法。在現(xiàn)有技術(shù)中,聞診分析是建立在音頻所屬音階分析的基礎(chǔ)上,以聲音的諧波和共振峰屬性的特點提取人聲音中的特征值,通過人聲音的特征值來判斷此人屬于二十五音的具體音階。現(xiàn)有的方法和技術(shù)是通過對人聲音的生理學(xué)原理分析、經(jīng)過大量的數(shù)據(jù)統(tǒng)計、參照《皇帝內(nèi)經(jīng)》以及二十五音的定義等綜合分析得出的一個比較精準(zhǔn)的分析結(jié)果。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺陷:現(xiàn)有技術(shù)中聞診聲音特征值選取是通過人的主觀判斷來選擇,同一段音頻文件可能因為不同的人而選取不同的聲音特征值,得出不同的結(jié)果;聞診的測試聲音是選取固定的詞,測試具有局限性;收集聞診測試音頻時,所朗讀每個字都需要停頓,和人正常說話不符,造成使用不方便。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種音頻的音階分析方法和系統(tǒng),通過提取音頻中單字的音頻,對多個單字的音頻進(jìn)行特征值提取,判斷單字的音頻所屬音階,從而綜合判斷所述音頻的音階,便于聞診分析。
根據(jù)本發(fā)明的一個方面,一種音頻的音階分析方法,包括:
提取音頻中單字的音頻;
將每個所述單字的音頻由時域轉(zhuǎn)換為頻域;
獲取所述頻域中特征頻率;
根據(jù)所述特征頻率所處頻率區(qū)間:第一頻率區(qū)間、第二頻率區(qū)間、第三頻率區(qū)間、第四頻率區(qū)間、第五頻率區(qū)間,判斷每個所述單字的音頻所屬音階:上宮、上商、上角、上徵、上羽。
可選的,在所述提取音頻中單字的音頻之前包括:采集測試的音頻;對所述測試音頻預(yù)處理。
可選的,對所述測試音頻預(yù)處理包括:對所述音頻進(jìn)行端點檢測去除空錄音和去噪。
可選的,在所述獲取所述頻域中特征頻率包括:
設(shè)置頻率的最小步長,獲取頻率為最小步長到兩倍最小步長之間的第一共振峰頻率f0;
當(dāng)?shù)谝还舱穹孱l率f0位于最小步長到二分之三倍最小步長之間時,在頻率為兩倍最小步長到三倍最小步長之間獲得第二共振峰頻率f1;
當(dāng)?shù)谝还舱穹孱l率f0不位于最小步長到二分之三倍最小步長之間時,在頻率為三倍最小步長到四倍最小步長之間獲得第二共振峰頻率f1。
可選的,在所述在頻率為兩倍最小步長到三倍最小步長之間獲得第二共振峰頻率f1之后包括:
當(dāng)?shù)诙舱穹孱l率f1位于兩倍最小步長到二分之五倍最小步長之間時,在頻率為四倍最小步長到五倍最小步長之間獲得第三共振峰頻率f2;
當(dāng)?shù)诙舱穹孱l率f1位于二分之五倍最小步長到三倍最小步長之間時,在頻率為五倍最小步長到六倍最小步長之間獲得第三共振峰頻率f2。
可選的,在在頻率為三倍最小步長到四倍最小步長之間獲得第二共振峰頻率f1之后包括:
當(dāng)?shù)诙舱穹孱l率f1位于三倍最小步長到二分之七倍最小步長之間時,在頻率為六倍最小步長到七倍最小步長之間獲得第三共振峰頻率f2;
當(dāng)?shù)诙舱穹孱l率f1位于二分之七倍最小步長到四倍最小步長之間時,在頻率為七倍最小步長到八倍最小步長之間獲得第三共振峰頻率f2。
可選的,所述第一頻率區(qū)間:261.6~293.7,第二頻率區(qū)間:293.7~329.6,第三頻率區(qū)間:329.6~392.0,第四頻率區(qū)間:392.0~440.0,第五頻率區(qū)間:440.0~523.2;其中,
當(dāng)所述第三共振峰頻率f2位于所述第一頻率區(qū)間:261.6~293.7,所述單字的音頻屬于上宮;
當(dāng)所述第三共振峰頻率f2位于所述第二頻率區(qū)間:293.7~329.6,所述單字的音頻屬于上商;
當(dāng)所述第三共振峰頻率f2位于所述第三頻率區(qū)間:329.6~392.0,所述單字的音頻屬于上角;
當(dāng)所述第三共振峰頻率f2位于所述第四頻率區(qū)間:392.0~440.0,所述單字的音頻屬于上徵;
當(dāng)所述第三共振峰頻率f2位于所述第五頻率區(qū)間:440.0~523.2,所述單字的音頻屬于上羽。
可選的,在判斷每個所述單字的音頻屬于上宮、上商、上角、上徵或上羽之后包括:
計算所述音頻中所述上宮、上商、上角、上徵或上羽出現(xiàn)的權(quán)重,選取權(quán)重最大的音階作為所述音頻的音階。
根據(jù)本發(fā)明的另一個方面,一種音頻的音階分析系統(tǒng),包括:
單字的音頻提取單元,提取音頻中單字的音頻;
時頻轉(zhuǎn)換單元,將每個所述單字的音頻由時域轉(zhuǎn)換為頻域;
特征頻率提取單元,獲取所述頻域中特征頻率;
音階劃分單元,根據(jù)所述特征頻率所處頻率區(qū)間:第一頻率區(qū)間、第二頻率區(qū)間、第三頻率區(qū)間、第四頻率區(qū)間、第五頻率區(qū)間,判斷每個所述單字的音頻所屬音階:上宮、上商、上角、上徵、上羽。
可選的,一種音頻的音階分析系統(tǒng)系統(tǒng)還包括:音頻采集單元,采集測試的音頻。
可選的,一種音頻的音階分析系統(tǒng)系統(tǒng)還包括:預(yù)處理單元,對所述音頻進(jìn)行端點檢測去空錄音和去噪。
可選的,所述特征頻率提取單元包括:
第一共振峰頻率f0提取單元,設(shè)置頻率的最小步長,獲取頻率為最小步長到兩倍最小步長之間的第一共振峰頻率f0;
第二共振峰頻率f1提取單元,當(dāng)?shù)谝还舱穹孱l率f0位于最小步長到二分之三倍最小步長之間時,在頻率為兩倍最小步長到三倍最小步長之間獲得第二共振峰頻率f1;當(dāng)?shù)谝还舱穹孱l率f0不位于最小步長到二分之三倍最小步長之間時,在頻率為三倍最小步長到四倍最小步長之間獲得第二共振峰頻率f1;
第三共振峰頻率f2提取單元,當(dāng)?shù)诙舱穹孱l率f1位于兩倍最小步長到二分之五倍最小步長之間時,在頻率為四倍最小步長到五倍最小步長之間獲得第三共振峰頻率f2;當(dāng)?shù)诙舱穹孱l率f1位于二分之五倍最小步長到三倍最小步長之間時,在頻率為五倍最小步長到六倍最小步長之間獲得第三共振峰頻率f2;當(dāng)?shù)诙舱穹孱l率f1位于三倍最小步長到二分之七倍最小步長之間時,在頻率為六倍最小步長到七倍最小步長之間獲得第三共振峰頻率f2;當(dāng)?shù)诙舱穹孱l率f1位于二分之七倍最小步長到四倍最小步長之間時,在頻率為七倍最小步長到八倍最小步長之間獲得第三共振峰頻率f2。
可選的,所述第一頻率區(qū)間:261.6~293.7,第二頻率區(qū)間:293.7~329.6,第三頻率區(qū)間:329.6~392.0,第四頻率區(qū)間:392.0~440.0,第五頻率區(qū)間:440.0~523.2;其中,
當(dāng)所述第三共振峰頻率f2位于所述第一頻率區(qū)間:261.6~293.7,所述單字的音頻屬于上宮;
當(dāng)所述第三共振峰頻率f2位于所述第二頻率區(qū)間:293.7~329.6,所述單字的音頻屬于上商;
當(dāng)所述第三共振峰頻率f2位于所述第三頻率區(qū)間:329.6~392.0,所述單字的音頻屬于上角;
當(dāng)所述第三共振峰頻率f2位于所述第四頻率區(qū)間:392.0~440.0,所述單字的音頻屬于上徵;
當(dāng)所述第三共振峰頻率f2位于所述第五頻率區(qū)間:440.0~523.2,所述單字的音頻屬于上羽。
可選的,一種音頻的音階分析系統(tǒng)還包括:輸出單元,計算所述音頻中所述上宮、上商、上角、上徵或上羽出現(xiàn)的權(quán)重,選取權(quán)重最大的音階作為所述音頻的音階輸出。
通過采用上述技術(shù)方案,本發(fā)明具有以下有益效果:
本發(fā)明通過固定的頻率提取方法,排除了人的主觀性,使得分析結(jié)果更加準(zhǔn)確;本發(fā)明采集的音頻可以是連續(xù)的句子、短語,通過本發(fā)明技術(shù)方案均能分割成單字的音頻,因此,降低了對測試者采集音頻時要求,更便于使用;本發(fā)明通過對多個單字的音頻綜合分析判斷,相當(dāng)于多次測試判斷,提高了分析結(jié)果的準(zhǔn)確性。
附圖說明
通過參考下面的附圖,可以更為完整地理解本發(fā)明的示例性實施方式:
圖1為本發(fā)明一實施例方法流程圖;
圖2為本發(fā)明另一實施例特征頻率獲取方法流程圖;
圖3為本發(fā)明另一實施例系統(tǒng)結(jié)構(gòu)圖;
圖4為本發(fā)明另一實施例特征頻率提取單元結(jié)構(gòu)圖。
具體實施方式
現(xiàn)在參考附圖介紹本發(fā)明的示例性實施方式,然而,本發(fā)明可以用許多不同的形式來實施,并且不局限于此處描述的實施例,提供這些實施例是為了詳盡地且完全地公開本發(fā)明,并且向所屬技術(shù)領(lǐng)域的技術(shù)人員充分傳達(dá)本發(fā)明的范圍。對于表示在附圖中的示例性實施方式中的術(shù)語并不是對本發(fā)明的限定。在附圖中,相同的單元/元件使用相同的附圖標(biāo)記。
除非另有說明,此處使用的術(shù)語(包括科技術(shù)語)對所屬技術(shù)領(lǐng)域的技術(shù)人員具有通常的理解含義。另外,可以理解的是,以通常使用的詞典限定的術(shù)語,應(yīng)當(dāng)被理解為與其相關(guān)領(lǐng)域的語境具有一致的含義,而不應(yīng)該被理解為理想化的或過于正式的意義。
實施例一
如圖1所示,本發(fā)明實施例一種音頻的音階分析方法,包括步驟:
S1,提取音頻中單字的音頻;
S2,將每個所述單字的音頻由時域轉(zhuǎn)換為頻域;
S3,獲取所述頻域中特征頻率;
S4,根據(jù)所述特征頻率所處頻率區(qū)間:第一頻率區(qū)間、第二頻率區(qū)間、第三頻率區(qū)間、第四頻率區(qū)間、第五頻率區(qū)間,判斷每個所述單字的音頻所屬音階:上宮、上商、上角、上徵、上羽。
本實施例中,在所述提取音頻中單字的音頻之前包括:采集測試的音頻。音頻由測試者錄制,測試者通過音頻采集器,可以錄制字、詞或連續(xù)的句子。在所述采集測試的音頻之后包括:對所述測試音頻預(yù)處理。其中,對所述測試音頻預(yù)處理包括:端點檢測去除空錄音和去噪。。在步驟S1中,將由多個單字組成的連續(xù)的音頻進(jìn)行分割,分割成單字的音頻。
在步驟S2中,優(yōu)選的可以采用傅立葉變換,將單字的音頻由時域轉(zhuǎn)換成頻域。在本實施例中,從測試者采集的音頻在坐標(biāo)軸表示為時間和幅度的變化,所提取的單字的音頻在坐標(biāo)軸也表示為時間和幅度的變化,由時域轉(zhuǎn)換成頻域后,單字的音頻在坐標(biāo)軸表示為頻率和幅度的變化。
在步驟S3中,特征頻率包括:第一共振峰頻率f0,第二共振峰頻率f1,第三共振峰頻率f2。其中,當(dāng)全部信號的頻率成分為某一頻率的整數(shù)倍時,該某一頻率稱為第一共振峰頻率f0。共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域,共振峰不但是音質(zhì)的決定因素,而且反映了聲道(共振腔)的物理特征。其中,第一共振峰頻率f0、第二共振峰頻率f1或第三共振峰頻率f2是在某一頻率區(qū)間幅度為峰值時取得。
在步驟S4中,頻率劃分的五個區(qū)間對應(yīng)了音頻的五個音階。第一頻率區(qū)間對應(yīng)于上宮、第二頻率區(qū)間對應(yīng)于上商、第三頻率區(qū)間對應(yīng)于上角、第四頻率區(qū)間對應(yīng)于上徵、第五頻率區(qū)間對應(yīng)于上羽。
本發(fā)明通過固定的頻率提取方法,排除了人的主觀性,使得分析結(jié)果更加準(zhǔn)確;本發(fā)明采集的音頻可以是連續(xù)的句子、短語,通過本發(fā)明技術(shù)方案均能分割成單字的音頻,因此,降低了對測試者采集音頻時要求,更便于使用;本發(fā)明通過對多個單字的音頻綜合分析判斷,相當(dāng)于多次測試判斷,提高了分析結(jié)果的準(zhǔn)確性。
實施例二
如圖2所示,在實施例一的基礎(chǔ)上,本發(fā)明實施例中獲取所述頻域中特征頻率包括:
設(shè)置頻率的最小步長,獲取頻率為最小步長到兩倍最小步長之間的第一共振峰頻率f0;
當(dāng)?shù)谝还舱穹孱l率f0位于最小步長到二分之三倍最小步長(包括端點)之間時,在頻率為兩倍最小步長到三倍最小步長(包括端點)之間獲得第二共振峰頻率f1;
當(dāng)?shù)谝还舱穹孱l率f0不位于最小步長到二分之三倍最小步長(包括端點)之間時,在頻率為三倍最小步長到四倍最小步長(包括端點)之間獲得第二共振峰頻率f1。
其中,在所述在頻率為兩倍最小步長到三倍最小步長之間(包括端點)獲得第二共振峰頻率f1之后包括:
當(dāng)?shù)诙舱穹孱l率f1位于兩倍最小步長到二分之五倍最小步長(包括端點)之間時,在頻率為四倍最小步長到五倍最小步長(包括端點)之間獲得第三共振峰頻率f2;
當(dāng)?shù)诙舱穹孱l率f1位于二分之五倍最小步長到三倍最小步長(包括端點)之間時,在頻率為五倍最小步長到六倍最小步長(包括端點)之間獲得第三共振峰頻率f2。
其中,在頻率為三倍最小步長到四倍最小步長(包括端點)之間獲得第二共振峰頻率f1之后包括:
當(dāng)?shù)诙舱穹孱l率f1位于三倍最小步長到二分之七倍最小步長(包括端點)之間時,在頻率為六倍最小步長到七倍最小步長(包括端點)之間獲得第三共振峰頻率f2;
當(dāng)?shù)诙舱穹孱l率f1位于二分之七倍最小步長到四倍最小步長(包括端點)之間時,在頻率為七倍最小步長到八倍最小步長(包括端點)之間獲得第三共振峰頻率f2。
其中,第一共振峰頻率f0、第二共振峰頻率f1或第三共振峰頻率f2是在某一頻率區(qū)間幅度為峰值時取得。
本實施例中,人耳能聽到的聲音頻率范圍在20HZ~20KHZ,男聲的基礎(chǔ)頻率范圍為55HZ~333HZ,女聲的基礎(chǔ)頻率范圍在80HZ~485HZ,人聲最具表現(xiàn)力的頻率范圍是65.4HZ~1000HZ,所以聞診分析的3個倍頻程為:65.4HZ~130.8HZ,130.8HZ~261.6HZ,261.6HZ~523.2HZ,假設(shè)第一共振峰頻率f0和人聲的基礎(chǔ)頻率一致,第一共振峰頻率f0落在65.4~130.8HZ,第二共振峰頻率f1落在130.8~261.6HZ,第三共振峰頻率f2落在261.6~523.2HZ,為簡化說明,設(shè)定最小步長F=65.4HZ,即三個倍頻程為:F~2F,2F~4F,4F~8F。其中,HZ為單位赫茲的縮寫。上述實施例中,所述第一共振峰頻率f0、第二共振峰頻率f1和第三共振峰頻率f2,依照本段中聲音本身的特質(zhì)在相應(yīng)倍頻中取得。
本實施例中,第一頻率區(qū)間:261.6~293.7,第二頻率區(qū)間:293.7~329.6,第三頻率區(qū)間:329.6~392.0,第四頻率區(qū)間:392.0~440.0,第五頻率區(qū)間:440.0~523.2;其中,當(dāng)所述第三共振峰頻率f2位于所述第一頻率區(qū)間:261.6~293.7,所述單字的音頻屬于上宮;當(dāng)所述第三共振峰頻率f2位于所述第二頻率區(qū)間:293.7~329.6,所述單字的音頻屬于上商;當(dāng)所述第三共振峰頻率f2位于所述第三頻率區(qū)間:329.6~392.0,所述單字的音頻屬于上角;當(dāng)所述第三共振峰頻率f2位于所述第四頻率區(qū)間:392.0~440.0,所述單字的音頻屬于上徵;當(dāng)所述第三共振峰頻率f2位于所述第五頻率區(qū)間:440.0~523.2,所述單字的音頻屬于上羽。本發(fā)明頻率區(qū)間的單位均為赫茲。
作為本發(fā)明優(yōu)選的實施方式,在判斷每個所述單字的音頻屬于上宮、上商、上角、上徵或上羽之后包括:計算所述音頻中所述上宮、上商、上角、上徵或上羽出現(xiàn)的權(quán)重,選取權(quán)重最大的音階作為所述音頻的音階。其中,一段音頻能夠提取多個單字的音頻,對每個單字的音頻所屬音階進(jìn)行判斷,能夠得到每個單字的音頻的音階,由于采集或判斷過程中會產(chǎn)生誤差,可能會出現(xiàn)某些單字的音頻不同于其它單字的音頻的音階,因此,對所有出現(xiàn)的音階進(jìn)行統(tǒng)計分析,選取權(quán)重最大的(所占比例最大的)音階作為所述音頻的音階,通過該方法能夠?qū)档驼`差,使得判斷結(jié)果更加準(zhǔn)確。
實施例三
如圖3所示,基于上述方法同一發(fā)明構(gòu)思,本發(fā)明實施例一種音頻的音階分析系統(tǒng)1,包括:
單字的音頻提取單元100,提取音頻中單字的音頻;
時頻轉(zhuǎn)換單元200,將每個所述單字的音頻由時域轉(zhuǎn)換為頻域;
特征頻率提取單元300,獲取所述頻域中特征頻率;
音階劃分單元400,根據(jù)所述特征頻率所處頻率區(qū)間:第一頻率區(qū)間、第二頻率區(qū)間、第三頻率區(qū)間、第四頻率區(qū)間、第五頻率區(qū)間,判斷每個所述單字的音頻所屬音階:上宮、上商、上角、上徵、上羽。
作為本發(fā)明優(yōu)選的實施方式,一種音頻的音階分析系統(tǒng)系統(tǒng)1還包括:音頻采集單元500,采集測試的音頻。較佳的,一種音頻的音階分析系統(tǒng)系統(tǒng)1還包括:預(yù)處理單元600,對所述音頻進(jìn)行端點檢測去除空錄音和去噪。
本實施例中,如圖4所示,特征頻率提取單元300包括:
第一共振峰頻率f0提取單元301,設(shè)置頻率的最小步長,獲取頻率為最小步長到兩倍最小步長之間的第一共振峰頻率f0;
第二共振峰頻率f1提取單元302,當(dāng)?shù)谝还舱穹孱l率f0位于最小步長到二分之三倍最小步長(包括端點)之間時,在頻率為兩倍最小步長到三倍最小步長(包括端點)之間獲得第二共振峰頻率f1;當(dāng)?shù)谝还舱穹孱l率f0不位于最小步長到二分之三倍最小步長(包括端點)之間時,在頻率為三倍最小步長到四倍最小步長(包括端點)之間獲得第二共振峰頻率f1;
第三共振峰頻率f2提取單元303,當(dāng)?shù)诙舱穹孱l率f1位于兩倍最小步長到二分之五倍最小步長(包括端點)之間時,在頻率為四倍最小步長到五倍最小步長(包括端點)之間獲得第三共振峰頻率f2;當(dāng)?shù)诙舱穹孱l率f1位于二分之五倍最小步長到三倍最小步長(包括端點)之間時,在頻率為五倍最小步長到六倍最小步長(包括端點)之間獲得第三共振峰頻率f2;當(dāng)?shù)诙舱穹孱l率f1位于三倍最小步長到二分之七倍最小步長(包括端點)之間時,在頻率為六倍最小步長到七倍最小步長(包括端點)之間獲得第三共振峰頻率f2;當(dāng)?shù)诙舱穹孱l率f1位于二分之七倍最小步長到四倍最小步長(包括端點)之間時,在頻率為七倍最小步長到八倍最小步長(包括端點)之間獲得第三共振峰頻率f2。
本實施例中,第一頻率區(qū)間:261.6~293.7,第二頻率區(qū)間:293.7~329.6,第三頻率區(qū)間:329.6~392.0,第四頻率區(qū)間:392.0~440.0,第五頻率區(qū)間:440.0~523.2;其中,當(dāng)所述第三共振峰頻率f2位于所述第一頻率區(qū)間:261.6~293.7,所述單字的音頻屬于上宮;當(dāng)所述第三共振峰頻率f2位于所述第二頻率區(qū)間:293.7~329.6,所述單字的音頻屬于上商;當(dāng)所述第三共振峰頻率f2位于所述第三頻率區(qū)間:329.6~392.0,所述單字的音頻屬于上角;當(dāng)所述第三共振峰頻率f2位于所述第四頻率區(qū)間:392.0~440.0,所述單字的音頻屬于上徵;當(dāng)所述第三共振峰頻率f2位于所述第五頻率區(qū)間:440.0~523.2,所述單字的音頻屬于上羽。本發(fā)明頻率區(qū)間的單位均為赫茲。
作為本發(fā)明優(yōu)選的實施方式,一種音頻的音階分析系統(tǒng)還包括:輸出單元700,計算所述音頻中所述上宮、上商、上角、上徵或上羽出現(xiàn)的權(quán)重,選取權(quán)重最大的音階作為所述音頻的音階輸出。其中,一段音頻能夠提取多個單字的音頻,對每個單字的音頻所屬音階進(jìn)行判斷,能夠得到每個單字的音頻的音階,由于采集或判斷過程中會產(chǎn)生誤差,可能會出現(xiàn)某些單字的音頻不同于其它單字的音頻的音階,因此,對所有出現(xiàn)的音階進(jìn)行統(tǒng)計分析,選取權(quán)重最大的(所占比例最大的)音階作為所述音頻的音階,通過該方法能夠?qū)档驼`差,使得判斷結(jié)果更加準(zhǔn)確。
已經(jīng)通過參考少量實施方式描述了本發(fā)明。然而,本領(lǐng)域技術(shù)人員所公知的,正如附帶的專利權(quán)利要求所限定的,除了本發(fā)明以上公開的其他的實施例等同地落在本發(fā)明的范圍內(nèi)。
通常地,在權(quán)利要求中使用的所有術(shù)語都根據(jù)他們在技術(shù)領(lǐng)域的通常含義被解釋,除非在其中被另外明確地定義。所有的參考“一個/所述/該[裝置、組件等]”都被開放地解釋為所述裝置、組件等中的至少一個實例,除非另外明確地說明。這里公開的任何方法的步驟都沒必要以公開的準(zhǔn)確的順序運行,除非明確地說明。