本技術涉及語音處理,具體涉及一種語音輔助閱卷的聲音智能識別方法及系統(tǒng)。
背景技術:
1、教師在對學生的作業(yè)進行網(wǎng)上閱卷時,可以通過語音識別系統(tǒng),直接使用語音給出評語和建議,系統(tǒng)會將這些語音轉換成文字,供學生查看,但是教師在給出評語時可能會有停頓或包含非語言聲音,而端點檢測算法可以幫助系統(tǒng)更準確地識別教師說話的開始和結束,避免將教師的思考時間或無關的背景聲音作為有效語音輸入而影響語音識別的結果。
2、雙門限端點檢測算法是現(xiàn)在常用的一種端點檢測算法,該算法相對簡單,易于實現(xiàn),計算量不大,適合實時系統(tǒng),但是該算法的性能在很大程度上依賴于門限參數(shù)的選擇,而不同教師的說話習慣,如語速、停頓頻率的不同,使得難以確定和調整該算法中門限參數(shù)的取值,而門限參數(shù)的取值不當可能會導致語音信號中的有聲段語音信號被誤判為無聲段而造成有用信息的丟失,進而影響最終語音識別的結果。
技術實現(xiàn)思路
1、為了解決上述技術問題,提供一種語音輔助閱卷的聲音智能識別方法及系統(tǒng),以解決現(xiàn)有的問題。
2、本技術解決技術問題的方案是提供一種語音輔助閱卷的聲音智能識別方法及系統(tǒng),包括以下步驟:
3、第一方面,本技術實施例提供了一種語音輔助閱卷的聲音智能識別方法,該方法包括以下步驟:
4、采集語音輔助閱卷中的語音信號;
5、基于所述語音信號,獲取語音信號的基音周期譜圖的所有連通域;
6、每個連通域對應基音周期譜圖的一條基音周期軌跡,根據(jù)所述基音周期譜圖的每個連通域內像素點的灰度值及其每個連通域內像素點橫坐標的距離,確定基音周期譜圖中每個連通域對應的基音周期軌跡的虛假程度,以獲取語音信號的濁音段語音信號集合和非濁音段語音信號集合;
7、根據(jù)所述非濁音段語音信號集合內每幀語音信號的能量變化情況以及離散程度,確定非濁音段語音信號集合內每幀語音信號的清音疑似度,以獲取語音信號的清音段語音信號集合;
8、基于所述濁音段語音信號集合和所述清音段語音信號集合,確定雙門限端點檢測算法的短時能量高門限值、短時能量低門限值和短時平均過零率門限值,確定語音識別結果。
9、優(yōu)選的,所述獲取語音信號的基音周期譜圖的所有連通域,包括:
10、對語音信號進行分幀加窗,獲得每幀語音信號及其對應的采樣時間區(qū)間;
11、對分幀加窗后的語音信號的基音周期譜圖進行灰度化處理,對灰度處理后的基音周期譜圖采用閾值分割算法,并進行連通域提取,獲得基音周期譜圖的所有連通域。
12、優(yōu)選的,所述確定基音周期譜圖中每個連通域對應的基音周期軌跡的虛假程度,包括:
13、將基音周期譜圖的每個連通域中所有任意兩個像素點的橫坐標的差值的最大值,作為基音周期譜圖的每個連通域對應的基音周期軌跡的軌跡長度;
14、將基音周期譜圖的每個連通域中所有像素點的灰度值的均值,作為基音周期譜圖的每個連通域對應的基音周期軌跡的顏色暗淡程度;
15、將所述軌跡長度與所述顏色暗淡程度的比值,作為基音周期譜圖中每個連通域對應的基音周期軌跡的虛假程度。
16、優(yōu)選的,所述獲取語音信號的濁音段語音信號集合和非濁音段語音信號集合,包括:
17、基于所述虛假程度,獲取連通域集合;
18、獲取連通域集合中每個連通域內所有像素點的橫坐標的最小值和最大值,組成每個連通域的區(qū)間范圍;
19、將所述連通域集合中所有連通域的所述區(qū)間范圍的并集,記為連通域集合的并集區(qū)間;
20、選取所述并集區(qū)間與所述采樣時間區(qū)間之間交集所對應的所有幀語音信號,組成濁音段語音信號集合;將其余所有幀語音信號,組成非濁音段語音信號集合。
21、優(yōu)選的,所述獲取連通域集合,包括:
22、采用閾值分割算法,獲取語音信號的基音周期譜圖中所有連通域對應的基音周期軌跡的虛假程度的分割閾值;將所述虛假程度大于分割閾值的所有連通域,組成連通域集合。
23、優(yōu)選的,所述確定非濁音段語音信號集合內每幀語音信號的清音疑似度,包括:
24、獲取非濁音段語音信號集合中每幀語音信號的頻譜圖;
25、將每幀語音信號的頻譜圖中所有能量的均值和離散程度之間的乘積,作為非濁音段語音信號集合內每幀語音信號的清音疑似度。
26、優(yōu)選的,所述獲取語音信號的清音段語音信號集合,包括:
27、采用閾值分割算法,獲取非濁音段語音信號集合內所有幀語音信號的所述清音疑似度的分割閾值;將所述清音疑似度大于分割閾值的所有幀語音信號,組成清音段語音信號集合。
28、優(yōu)選的,所述確定雙門限端點檢測算法的短時能量高門限值、短時能量低門限值和短時平均過零率門限值,包括:
29、計算濁音段語音信號集合中所有幀語音信號的短時平均能量的均值,作為雙門限端點檢測算法中的短時能量高門限值;
30、分別計算清音段語音信號集合中每幀語音信號的短時平均能量和短時平均過零率;
31、分別將所述短時平均能量和所述短時平均過零率的最小值,作為雙門限端點檢測算法中的短時能量低門限值和短時平均過零率門限值。
32、優(yōu)選的,所述確定語音識別結果,包括:
33、對語音信號采用雙門限端點檢測算法,獲得每個語音信號片段;
34、將所有語音信號片段按照時間順序排列,將排序后的所有語音信號片段依次轉換為文字進行輸出,得到語音識別結果。
35、第二方面,本技術實施例還提供了一種語音輔助閱卷的聲音智能識別系統(tǒng),包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述任意一項所述一種語音輔助閱卷的聲音智能識別方法的步驟。
36、本技術至少具有如下有益效果:
37、本技術分析所述語音信號,獲取語音信號的基音周期譜圖,并對其進行灰度化處理,獲得基音周期譜圖的所有連通域,其有益效果在于將基音周期譜圖中形成的多條基音周期軌跡進行提取分析,有利于后續(xù)對每個連通域對應的基音周期軌跡的變化特征進行分析;確定基音周期譜圖中每個連通域對應的基音周期軌跡的虛假程度,以獲取語音信號的濁音段語音信號集合和非濁音段語音信號集合,其有益效果在于考慮了使用者在發(fā)音時語音信號中因漢字韻母產生的濁音段語音信號的基音周期軌跡特征,降低了基音周期譜圖中虛假的基音軌跡所對應的語音信號被識別為濁音段語音信號的可能性,提高了語音信號中攜帶重要語言信息的濁音段語音信號與其余語音信號之間的區(qū)分度;確定非濁音段語音信號集合內每幀語音信號的清音疑似度,以獲取語音信號的清音段語音信號集合,其有益效果在于提高了語音信號中攜帶較少語言信息的清音段語音信號與不攜帶語言信息的無聲段語音信號之間的區(qū)分度;確定雙門限端點檢測算法的短時能量高門限值、短時能量低門限值和短時平均過零率門限值,得到語音識別結果,其有益效果在于提高了語音信號中攜帶語言信息的濁音段語音信號和清音語音信號的保留程度,降低了語音信號中有聲段語音信號被誤判為無聲段而造成有用信息丟失的可能性,進而提高對語音輔助閱卷中語音識別的準確性。