互聯(lián)網(wǎng)語音速記方法

文檔序號(hào)：2821298閱讀：310來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：互聯(lián)網(wǎng)語音速記方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音速記領(lǐng)域，尤指一種避免“手指追趕語音”的互聯(lián)網(wǎng)語音速記方法。

背景技術(shù)：
速記指將人的語音信息轉(zhuǎn)化為文字信息的過程。
人說話的速度一般在200-300字/分鐘，有時(shí)可達(dá)到400字以上。速記的目的就是通過手指記錄的方法，準(zhǔn)確、完整地記錄下人說話時(shí)的語音信息。
目前在實(shí)際使用中有兩種速記方法。一是“手寫速記”；二是“電腦速錄”。
“手寫速記”是一種采用特殊的書寫符號(hào)記錄語言的方法，在經(jīng)過專門的訓(xùn)練后，速度可以達(dá)到100字左右，最快的速度也只能達(dá)到180字?！笆謱懰儆洝睙o論是它的速度，還是面臨當(dāng)前文字電腦化的需求下，已經(jīng)不能勝任速記的需要了。因此它已完全處于被淘汰的邊緣了。
“電腦速錄”是隨著電子技術(shù)和計(jì)算機(jī)技術(shù)的發(fā)展而出現(xiàn)的，是采用計(jì)算機(jī)鍵盤或?qū)Ｓ玫摹八儆涙I盤”記錄下聽到的文字，使“手寫速記”提升到了“電腦速錄”的境界。應(yīng)該說，現(xiàn)在已經(jīng)進(jìn)入到“電腦速錄”的時(shí)代。目前僅就中文速錄而言，最好的電腦速錄的方法應(yīng)該是“亞偉速錄”。它是使用一種叫做“亞偉速錄機(jī)”的特制鍵盤，在進(jìn)行了專門培訓(xùn)后，速錄員的速度可以達(dá)到150字以上/分鐘。達(dá)到200字以上/分鐘的有，但仍屬少數(shù)。個(gè)別的最高速度雖然能達(dá)到400字以上/分鐘，但那只是對(duì)所謂的熟文章的表演行為，而沒有真正的實(shí)際意義。實(shí)用的速記速度應(yīng)該是對(duì)生文章而言的。
由于錄入員受到人體生理?xiàng)l件限制的緣故，能達(dá)到實(shí)用速度(生文章200字以上/分鐘)的速錄員仍然是少數(shù)，而且極難培養(yǎng)。從現(xiàn)在亞偉速錄員培訓(xùn)的情況來看。大部分人的錄入速度從不會(huì)到150字/分鐘是比較容易的。一般周期為3-6個(gè)月。但從150字/分鐘提速到200字以上/分鐘，絕大部分人需要6個(gè)月或更長的時(shí)間。而要真正達(dá)到能獨(dú)立完成速錄的，有時(shí)往往需要一年以上，甚至幾年時(shí)間的實(shí)踐才能達(dá)到。這也是目前國內(nèi)真正高水平的速錄員仍很稀缺的主要原因，更是影響速記準(zhǔn)確性的主要原因之一。
即使是能夠達(dá)到實(shí)用速度的速錄員，在實(shí)際的速記過程中。因?yàn)橐L時(shí)間地錄入，必然會(huì)出現(xiàn)身心的疲憊，或是遇到生疏的字詞和打錯(cuò)字的時(shí)候，這時(shí)就肯定會(huì)出現(xiàn)跟不上講話人的速度情況。此時(shí)，一般的速錄員就不可避免地漏掉一些語音內(nèi)容，無法完整地完成速記內(nèi)容。即便是優(yōu)秀的亞偉速錄員也只能根據(jù)記憶的語音內(nèi)容進(jìn)行總結(jié)性地文字錄入。無論是漏掉還是總結(jié)性的記錄，這樣的速記都不能稱之為一個(gè)完整的速記。
無論是“手寫速記”還是“電腦速錄”，都沒有擺脫依靠“手指追趕語音”的聽音記錄過程，受到人體生理?xiàng)l件和個(gè)人能力的限制的速記方法就必然難以達(dá)到真正意義上的和具有普遍的實(shí)際意義的速記。

發(fā)明內(nèi)容
本發(fā)明要解決的問題是提供一種避免“手指追趕語音”的互聯(lián)網(wǎng)語音分片速記方法。
為了解決上述問題，本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的技術(shù)方案包括步驟10)獲取語音；步驟20)對(duì)語音進(jìn)行分片；步驟30)發(fā)送分片給有請(qǐng)求的錄入端；步驟40)由錄入端將分片錄入為文字分片；步驟50)整合所述語音所對(duì)應(yīng)的所有文字分片為一文字整體。
所述步驟20)又進(jìn)一步分為步驟200)隔固定時(shí)間間隔對(duì)語音進(jìn)行分片。
所述步驟200)之后還包括步驟201)在分片的音頻波形數(shù)據(jù)中的峰值點(diǎn)預(yù)分割所述分片為更小分片；步驟202)逐個(gè)比較所述分片預(yù)分割成的更小分片；步驟203)判斷是否找到所述分片的分割點(diǎn)，所述分片的分割點(diǎn)指去噪平均值小于零且占空比最大的更小分片的中間點(diǎn)；所述去噪平均值指所述更小分片的平均值減去所述分片平均值后的值；所述更小分片平均值是波形在這個(gè)更小分片時(shí)間內(nèi)的值；所述分片平均值是整個(gè)待分割分片波形的平均值；所述占空比指所述更小分片在所述分片中所占的時(shí)間比值；若未找到所述分片的分割點(diǎn)，步驟204)將所述分片與下一個(gè)分片合并為一個(gè)分片，重復(fù)執(zhí)行步驟201)；若找到所述分片的分割點(diǎn)，步驟205)在所述分片的分割點(diǎn)分割所述分片；步驟206)將分片中分割點(diǎn)前的部分存入分片音頻緩沖區(qū)，所述分片音頻緩沖區(qū)用于存放已分割好的分片；步驟207)將分片中分割點(diǎn)后的部分與下一個(gè)分片合并為一個(gè)分片，重復(fù)執(zhí)行步驟201)。
所述步驟206)后還包括步驟206a)為存入分片音頻緩沖區(qū)中的每一個(gè)分片設(shè)置用于標(biāo)識(shí)該分片的分片控制信息。
所述步驟206a)中的所述分片控制信息包括下列字段客戶號(hào)，用于表示語音信息被速記的一方；速記號(hào)，用于語音信息被速記的一方的語音信息的編號(hào)；序號(hào)，用于表示所述分片的編號(hào)；時(shí)碼，用于表示所述分片在整個(gè)語音信息中的時(shí)間位置；時(shí)長，用于表示所述分片的時(shí)間；狀態(tài)，用于表示所述分片錄為文字分片的情況。
所述步驟40)后還包括步驟41)若錄入端無法錄入該分片，將所述分片的分片控制信息的狀態(tài)字段置為未被識(shí)別，并將該分片回傳至問題分片數(shù)據(jù)庫表中，所述問題分片數(shù)據(jù)庫表用于存放分片控制信息的狀態(tài)字段為未被識(shí)別的分片。
所述步驟200)中的所述固定時(shí)間間隔為5秒。
與現(xiàn)有技術(shù)相比，本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的有益效果為首先，由于本發(fā)明互聯(lián)網(wǎng)語音分片速記方法采用對(duì)語音進(jìn)行分片，將分片發(fā)給有請(qǐng)求的錄入端，也就是說，當(dāng)錄入端把當(dāng)前分片錄入完后，其請(qǐng)求下一個(gè)分片，才被分配下一個(gè)分片，從而避免了“手指追趕語音”的聽音記錄過程，并且一段語音可分配給多個(gè)錄入端錄入，從而可使得速記過程不受人體生理?xiàng)l件(如疲勞等)的限制。
其次，由于采用在分片的分割點(diǎn)對(duì)分片進(jìn)一步分割，且分片分割點(diǎn)的確定采用的是動(dòng)態(tài)離散聚類平均值的方法，使得經(jīng)過分割后得到的分片正好是通常人們講話的間歇點(diǎn)范圍，即通常的有逗號(hào)或句號(hào)的地方，從而避免錄入端聽到半截話，因此有利于提高錄入的準(zhǔn)確度。
再者，在需錄入的語音中，可能會(huì)出現(xiàn)如方言、外語或者錄入端不懂的技術(shù)術(shù)語等，使得錄入端無法完成該分片的錄入，本發(fā)明互聯(lián)網(wǎng)語音分片速記方法采用將錄入端無法完成的分片標(biāo)記為“未被識(shí)別”狀態(tài)并回傳入問題分片數(shù)據(jù)庫中，將存放在問題分片數(shù)據(jù)庫中的問題分片分配給其它錄入端錄入，從而大大提高了錄入的準(zhǔn)確度，避免錄入端胡亂猜測(cè)。
然后，由于連續(xù)語音被分解成小的“語音分片”，它的長度一般被控制在1.5-10秒之間。經(jīng)過壓縮處理后，它的數(shù)據(jù)大小一般只有幾K到十幾K字節(jié)。這樣大小的數(shù)據(jù)符合互聯(lián)網(wǎng)傳輸?shù)奶攸c(diǎn)。因?yàn)槿绻麛?shù)據(jù)太大的話，容易受到互聯(lián)網(wǎng)傳輸阻塞的影響。這些小數(shù)據(jù)量的“語音分片”可以在互聯(lián)網(wǎng)上被有效地實(shí)時(shí)傳輸。因此可以做到，分割一片，傳送一片，控制分發(fā)一片。在錄入端可以及時(shí)地錄入一片“語音分片”，在客戶端又可以及時(shí)地回收到一片“文字分片”。這種連續(xù)的語音流不斷被分割和錄入一片一片的推進(jìn)過程，“文字分片”和“語音分片”可以保持在一個(gè)準(zhǔn)同步的狀態(tài)。即文字內(nèi)容對(duì)應(yīng)語音內(nèi)容只有一個(gè)幾秒到十幾秒的滯后。因此將整段語音內(nèi)容錄入完成為文字交給客戶的時(shí)間就是最后一個(gè)“文字分片”返回的時(shí)間。那么最后一個(gè)語音分片從分發(fā)、傳送，到最后一個(gè)文字分片錄入、回傳的過程一般可以控制在1分鐘之內(nèi)。其實(shí)在這個(gè)過程中文字錄入的時(shí)間是最長的，一般是語音分片長度的2-3倍(一般的錄入員水平)。即按語音長度為5秒計(jì)算，錄入用的時(shí)間最長為15秒。在這里，因?yàn)槲淖址制臄?shù)據(jù)長度很小，即便是加上各種控制參數(shù)也不過200-300個(gè)字節(jié)。所以其傳輸?shù)臅r(shí)間，也就是“文字分片”回傳的時(shí)間是很短的。另外，就是加上服務(wù)器控制的時(shí)間和網(wǎng)絡(luò)傳輸?shù)雀鞣N因素的影響，在最后一個(gè)“語音分片”結(jié)束時(shí)，1-3分鐘內(nèi)完成文字最后出稿是完全可以做到的。這就是說，幾乎達(dá)到了“語音落、文字出”的實(shí)時(shí)速記的效果。
最后，由于可以采用互聯(lián)網(wǎng)來傳輸分片，也就是說錄入端可以在世界各地，只要在互聯(lián)網(wǎng)遍及的地方即可，將分好的語音分片通過互聯(lián)網(wǎng)傳給世界各地的錄入端，最后再將世界各地的錄入端錄入的文字進(jìn)行整合為一個(gè)整體。這樣能有效地利用世界各地的錄入員資源，從而避免了某個(gè)地方錄入員資源匱乏的局面，而且錄入員可以在家里(能上互聯(lián)網(wǎng))就進(jìn)行錄入，不必到現(xiàn)場(chǎng)，從而節(jié)省了很多費(fèi)用。

圖1是本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的流程圖；圖2是本發(fā)明互聯(lián)網(wǎng)語音分片速記方法中分片分割的流程圖；圖3是一個(gè)5秒分片的音頻波形圖；圖4是本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的實(shí)施例的音頻波形圖；圖5是圖4中第一個(gè)分片的音頻波形圖；圖6是本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的實(shí)施例經(jīng)過壓縮及加密后的語音分片文件示意圖。

具體實(shí)施例方式 如圖1所示，本發(fā)明互聯(lián)網(wǎng)語音分片速記方法包括步驟10)獲取語音；步驟20)對(duì)語音進(jìn)行分片；步驟30)發(fā)送分片給有請(qǐng)求的錄入端；步驟40)由錄入端將分片錄入為文字分片；步驟50)整合所述語音所對(duì)應(yīng)的所有文字分片為一文字整體。
本發(fā)明互聯(lián)網(wǎng)語音分片速記方法，在獲取需錄入為文字的語音后，對(duì)其進(jìn)行分片，若錄入端請(qǐng)求分片，即錄入端空閑，則將一個(gè)語音分片分配給該錄入端，最后，再將已錄成的文字分片整合為一個(gè)文字整體，這樣就避免了當(dāng)錄入端還沒有錄完當(dāng)前所聽到的語音內(nèi)容時(shí)，后續(xù)的語音內(nèi)容已進(jìn)入錄入端的耳朵，避免了“手指追趕語音”的局面。而且，一段語音內(nèi)容所分割成的多個(gè)分片可由不同的錄入端錄入，這樣整個(gè)語音的速記時(shí)間就相當(dāng)于是最后一個(gè)分片的錄入時(shí)間。
對(duì)于對(duì)語音進(jìn)行分片，可按固定時(shí)間間隔分片也可以隨意間隔進(jìn)行分片，只要保證錄入端不必費(fèi)力地記住這片語音信息，避免“手指追趕語音”的局面即可。
如圖2所示，本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的所述步驟20)又進(jìn)一步分為步驟200)隔固定時(shí)間間隔對(duì)語音進(jìn)行分片。
所述步驟200)之后還包括步驟201)在分片的音頻波形數(shù)據(jù)中的峰值點(diǎn)預(yù)分割所述分片為更小分片；步驟202)逐個(gè)比較所述分片預(yù)分割成的更小分片；步驟203)判斷是否找到所述分片的分割點(diǎn)，所述分片的分割點(diǎn)指去噪平均值小于零且占空比最大的更小分片的中間值。
所述去噪平均值指所述更小分片的平均值減去所述分片平均值后的值。
所述更小分片平均值是波形在這個(gè)更小分片時(shí)間內(nèi)的值；所述分片平均值是整個(gè)待分割分片波形的平均值；所述占空比指所述更小分片在所述分片中所占的時(shí)間比值；若未找到所述分片的分割點(diǎn)，步驟204)將所述分片與下一個(gè)分片合并為一個(gè)分片，重復(fù)執(zhí)行步驟201)；若找到所述分片的分割點(diǎn)，步驟205)在所述分片的分割點(diǎn)分割所述分片；步驟206)將分片中分割點(diǎn)前的部分存入分片音頻緩沖區(qū)，所述分片音頻緩沖區(qū)用于存放已分割完成的分片；步驟207)將分片中分割點(diǎn)后的部分與下一個(gè)分片合并為一個(gè)分片，重復(fù)執(zhí)行步驟201)。
所述步驟206)后還包括步驟206a)為存入分片音頻緩沖區(qū)中的每一個(gè)分片設(shè)置用于標(biāo)識(shí)該分片的分片控制信息。
所述步驟206a)中的所述分片控制信息包括下列字段客戶號(hào)，用于表示語音信息被速記的一方；速記號(hào)，用于表示語音信息被速記的一方的語音信息的編號(hào)；序號(hào)，用于表示所述分片的編號(hào)；時(shí)碼，用于表示所述分片在整個(gè)語音信息中的時(shí)間位置；時(shí)長，用于表示所述分片的時(shí)間；狀態(tài)，用于表示所述分片錄為文字分片的情況。
上述對(duì)分片進(jìn)一步分割的方法，又可稱為“動(dòng)態(tài)離散聚類平均值”的方法對(duì)分片進(jìn)行分割。也就是按分片的音頻波形數(shù)據(jù)中波峰值出現(xiàn)的間隔和大小，在其峰值點(diǎn)將分片分割為更小的語音片斷(分片)，然后對(duì)這些更小的語音片斷進(jìn)行聚類計(jì)算平均值。每個(gè)更小語音片斷都有兩個(gè)重要的數(shù)據(jù)占空比和“去噪平均值”。占空比是這個(gè)更小分片在整個(gè)分片(如5秒)中所占的時(shí)間值，例如0.2秒，其占空比就為0.04。而去噪平均值是指更小分片的平均值減去整個(gè)片斷(5秒的)平均值后的值。這個(gè)去噪平均值可以大于零，也可以小于零。
在得到這些更小分片之后，逐個(gè)比較這些更小分片，找到“去噪平均值”小于零的，且占空比最大的更小分片，就可以得到這個(gè)5秒語音分片的分割點(diǎn)。
如圖3所示，圖中B點(diǎn)就是去噪平均值最小、占空比最大(0.104)的更小分片，B點(diǎn)所在的更小分片的平均值為200，整個(gè)分片的平均值為460(音頻采樣的最大值為32767)。那么去噪平均值為200-460＝-260，它就小于零；A點(diǎn)的更小分片的平均值是3160，占空比是0.046。那么去噪平均值為3163-460＝2703。因此B點(diǎn)所在的最小分片的中間點(diǎn)就是整個(gè)分片的分割點(diǎn)。
由于通常小于1.5秒的都是一些短語或詞組的語音片斷，對(duì)速記來講沒有實(shí)際的意義，因此小于1.5秒的更小分片不被比較，即不作為分割點(diǎn)。但所有更小分片的數(shù)據(jù)都要保留，用來進(jìn)行5秒的整個(gè)分片噪音平均值的計(jì)算。因此，一般來說分片的分割點(diǎn)應(yīng)在1.5秒到5秒之間。比如4.1秒。此時(shí)，分割處理就將這個(gè)4.1秒的音頻波形數(shù)據(jù)送到“分片音頻緩沖區(qū)”中。而剩下的0.9秒的音頻波形數(shù)據(jù)被暫時(shí)保留在“分片分割緩沖區(qū)”中，所述分片分割緩沖區(qū)用于存放待分割的分片。加到下一個(gè)5秒的分片的前面統(tǒng)一進(jìn)行處理，即下一個(gè)被處理的是5.9秒的音頻波形數(shù)據(jù)。在得到4.1秒的音頻波形數(shù)據(jù)的同時(shí)，在“分片控制信息”中記錄這個(gè)“語音分片”的序號(hào)、時(shí)碼、時(shí)長和速記號(hào)、客戶號(hào)等信息來表示分片的有關(guān)信息。
在這個(gè)分片分割的過程中，會(huì)有例外的情況，就是由于背景噪音(如音樂，嘈雜聲等)過大，在這個(gè)5秒的音頻波形數(shù)據(jù)中不能找到一個(gè)符合要求的分割點(diǎn)。那么，例外的處理就將未找到分割點(diǎn)的5秒的音頻波形數(shù)據(jù)暫時(shí)保留在“分片分割緩沖區(qū)”中。然后加到下一個(gè)5秒的數(shù)據(jù)的前面統(tǒng)一進(jìn)行處理。但此時(shí)的整個(gè)分片的平均值將被自動(dòng)地提高一倍，從而保證了在這個(gè)10秒的語音片斷中找到一個(gè)分割點(diǎn)。這就是所謂“動(dòng)態(tài)地”調(diào)整了去噪平均值的計(jì)算方法。
這種語音分片的分割方法，可以確保所有的語音分片介于1.5-10秒之間。通過實(shí)驗(yàn)，這個(gè)范圍也正好是通常人們講話的間歇點(diǎn)范圍。即通常的有逗號(hào)、句號(hào)的地方。
本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的步驟40)后還包括步驟41)若錄入端無法錄入該分片，將所述分片的分片控制信息的狀態(tài)字段置為未被識(shí)別，并將該分片回傳至問題分片數(shù)據(jù)表中，所述問題分片數(shù)據(jù)庫表用于存放分片控制信息的狀態(tài)字段為未被識(shí)別的分片。
在錄入端進(jìn)行錄入的過程中，很可能錄入端聽不懂分片的語音內(nèi)容，如方言，外語或不懂的名詞術(shù)語等，進(jìn)而使得錄入端無法錄入該分片，本發(fā)明將錄入端聽不懂的分片稱為問題分片。對(duì)于問題分片，錄入端將該分片的狀態(tài)字段置為未被識(shí)別，并回傳至問題分片數(shù)據(jù)表中。當(dāng)有其他的錄入端申請(qǐng)分片時(shí)，首先判斷錄入員的能力屬性是否匹配“問題分片”，如具有相同的方言、外語或有相應(yīng)專業(yè)背景知識(shí)的，即如果匹配，則把這個(gè)問題分片傳送給此錄入端。這樣，問題分片在整個(gè)處理過程中就會(huì)被優(yōu)先處理。
下面描述將一段具體的語音內(nèi)容速記為文字的過程來詳述本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的技術(shù)方案。
本例涉及到客戶端、錄入端和速記服務(wù)器端?？蛻舳恕浫攵艘约八儆浄?wù)器端通過互聯(lián)網(wǎng)連接。在客戶端執(zhí)行語音的采集、分片并對(duì)分片作進(jìn)一步地分割、對(duì)分片加解密以及將已錄入成的文字分片整合為一個(gè)文字整體；錄入端完成將語音分片聽打錄入成文字分片；速記服務(wù)器端用于存儲(chǔ)已分割的分片并執(zhí)行將分片分發(fā)給錄入端。
首先，通過電腦的語音卡接收語音的音頻波形數(shù)據(jù)(WAV格式)。由客戶端進(jìn)行錄音采集，將得到的音頻波形數(shù)據(jù)暫存到音頻數(shù)據(jù)緩沖區(qū)中。本例采用的分片分解值為5秒，即將音頻波形數(shù)據(jù)每5秒作為一個(gè)分片，也就是說，每隔5秒從音頻數(shù)據(jù)緩沖區(qū)中取出一個(gè)分片的音頻波形數(shù)據(jù)，然后對(duì)其進(jìn)行分割。通過對(duì)5秒的分片進(jìn)一步分割，可以得到的分片的時(shí)間值在1.5秒到10秒之間。通過大量的實(shí)驗(yàn)分析得出，人說話時(shí)語音的間歇時(shí)間點(diǎn)絕大部分是在這個(gè)范圍內(nèi)。而且，在這個(gè)時(shí)間范圍內(nèi)，按照基本的語速(300字/分鐘)，它的文字范圍在7.5-50字之間。這也是普通速錄員在聽音的瞬間能夠記住語音內(nèi)容的范圍。文字太少，效率就低。太多就容易漏字或完全記不住。而且，實(shí)驗(yàn)的結(jié)果，根據(jù)現(xiàn)有的統(tǒng)計(jì)，采用5秒的分片分解值，其分割點(diǎn)比較好的分布在5秒左右，即大部分的分割點(diǎn)在3-7秒之間。
如圖4所示，為一個(gè)109.8秒的語音波形，取自BBC中文廣播的一段新聞，本例對(duì)其進(jìn)行速記。
圖中的序號(hào)是這個(gè)語音的語音分片分割點(diǎn)，對(duì)應(yīng)的時(shí)間和文字如下表
213.1就像他們?cè)谲嚦歼x舉前所做的那樣。15224.0這次莫斯科爆炸事件之所以發(fā)生在選舉之后。19236.4可能是因?yàn)楫?dāng)時(shí)保安措施太嚴(yán)，而在之后確放松了的緣故。24現(xiàn)在取第一個(gè)分片作為分片分割的實(shí)例，波形如圖5所示，本例中，因?yàn)槭堑谝粋€(gè)分片，起始位置中有差不多1.6秒左右的靜音，因此實(shí)際判斷分片的位置從第一個(gè)有波形的位置開始計(jì)算，那么當(dāng)?shù)谝粋€(gè)5秒到時(shí)(A點(diǎn))，實(shí)際的語音長度不到5秒，約3.4秒。因此合并到第二個(gè)5秒到時(shí)(B點(diǎn))，即第一個(gè)被待分割語音片斷是10秒的長度。為了忠實(shí)原音，因此1.6秒的靜音仍然保留在語音分片中。(注通常在語音的起始處，或中途有較長時(shí)間的停頓時(shí)，都會(huì)有這種情形出現(xiàn)) 本例中使用下列偽代碼來實(shí)現(xiàn)分片的分割處理。
AddLeaveWaveDataToWaveFormBuffer； //添加分片分割緩沖區(qū)中的波//形數(shù)據(jù)到波形緩沖區(qū)數(shù)據(jù)的前邊N＝FindWavePeakPoint； //找到波形數(shù)據(jù)的峰值點(diǎn)，有N個(gè)AvgValue0＝0； //置整個(gè)分片的平均值0FOR I＝1 TO N DO BEGINTimeRate[I]＝PeakPointTimeRate；//計(jì)算峰值點(diǎn)的時(shí)間占空比AvgValue[I]＝SumPeakPointAvgValue； //計(jì)算峰值點(diǎn)的波形平均值A(chǔ)vgValue0＝AvgValue0+AvgValue[I]； //累計(jì)整個(gè)波形數(shù)據(jù)的平均值ENDAvgValue0＝AvgValue0/N； //得到整個(gè)波形數(shù)據(jù)的平均值MaxTimeRate＝0； //初始化最大占空比MaxTimeRateI＝0；FOR I＝1 TO N DO BEGINAvgValue[I]＝AvgValue[I]-AvgValue0； //峰值片斷平均值減去波形數(shù)據(jù)平均值IF(AvgValue[I]＜0)AND(MaxTimeRate＜TimeRate[I])THEN BEGIN //如果峰值平均//值小于0并且最大占空比的//值小于這個(gè)峰值占空比MaxTimeRate＝TimeRate[I]； //則置最大占空比為這個(gè)占空比MaxTimeRateI＝I； //記住這個(gè)占空比的位置。ENDENDIF I＞0 THEN BEGIN //如果有最大占空比時(shí)PutWaveFormDataToSplitWaveFormBuffer； //保存波形數(shù)據(jù)到語音分片文件SetControlDataToSplitControlData； //記錄這個(gè)分片的控制信息END ELSE BEGINPutWaveFormToLeaveWaveData；//否則，將波形數(shù)據(jù)存放到分片分割緩//沖區(qū)中，留做后面的處理使用<dp n="d8"/>END 上面那個(gè)10秒待分割語音片斷經(jīng)過處理后，得到一個(gè)6.9秒的語音分片(圖5中的S點(diǎn)分割點(diǎn))。
在得到已分割好的語音分片后，首先對(duì)其進(jìn)行壓縮。本例采用的是MP3壓縮方法。在壓縮的同時(shí)，為保證在互聯(lián)網(wǎng)上傳輸?shù)陌踩?，?duì)其進(jìn)行了加密處理。經(jīng)過壓縮和加密處理的分片被存為一個(gè)“語音分片文件”，然后將其通過互聯(lián)網(wǎng)發(fā)送到速記服務(wù)器端，與此同時(shí)還要將每個(gè)分片的分片控制信息發(fā)送給速記服務(wù)器端。
如圖6所示，經(jīng)過壓縮加密處理后得到一個(gè)語音分片文件00001.mp3和對(duì)應(yīng)的控制信息為速記號(hào)20201；分片序號(hào)00001；分片時(shí)碼00:00:00；分片時(shí)長6.9秒。
(注在客戶端的客戶號(hào)是唯一的，因此在客戶端的分片控制信息則不需要記錄客戶號(hào)。也就是說，客戶端所有的分片都是屬于這個(gè)客戶號(hào)的) 按照客戶端首先傳送語音分片文件，然后傳送控制信息的順序，在速記服務(wù)器端首先接收語音分片文件00001.mp3，將其存到指定目錄audio\20201下得到速記服務(wù)器端的語音分片文件為audio\20201\00001.mp3。然后返回給客戶端信息，語音分片文件已經(jīng)收到。這時(shí)，客戶端將分片控制信息(速記號(hào)20201；分片序號(hào)00001；時(shí)長6.9秒。因時(shí)碼只在文字整合時(shí)有用，因此不被傳送到速記服務(wù)器端和錄入端)送到速記服務(wù)器端。此時(shí)速記服務(wù)器端的“語音分片分發(fā)”控制程序啟動(dòng)“分片控制信息接收”這個(gè)分片控制信息，將其存放到“分片數(shù)據(jù)表”中。“分片數(shù)據(jù)表”的基本字段和本例的數(shù)據(jù)值如下表
分片的分片控制信息的狀態(tài)字段在一接收到這個(gè)分片時(shí)就被設(shè)置為“等待錄入”。當(dāng)錄入端有申請(qǐng)錄入請(qǐng)求到來時(shí)，則從“分片數(shù)據(jù)表中”檢索到一個(gè)分片狀態(tài)為“等待錄入”標(biāo)志的分片發(fā)送到錄入端，同時(shí)將狀態(tài)置為“正在錄入”的標(biāo)志。
錄入端就是將語音分片錄入為文字分片的過程。當(dāng)錄入端空閑時(shí)，向速記服務(wù)器端發(fā)出“申請(qǐng)分片”的請(qǐng)求時(shí)，速記服務(wù)器端將發(fā)送一個(gè)分片控制信息為(速記號(hào)20201；序號(hào)0001；時(shí)長6.9秒)給錄入端，錄入端將其記錄到“錄入端分片數(shù)據(jù)表”中后，所述錄入端分片數(shù)據(jù)表是一個(gè)數(shù)據(jù)庫表，再向速記服務(wù)器端發(fā)出“申請(qǐng)分片文件”的請(qǐng)求，速記服務(wù)器將該分片發(fā)送給錄入端，錄入端將接收到的文件(MP3格式)暫存到語音分片文件目錄中。接著對(duì)其進(jìn)行解密和解壓轉(zhuǎn)換為一個(gè)可進(jìn)行聽打錄入的語音文件(WAV格式)。
錄入端得到了分片的分片控制信息和相應(yīng)的WAV格式語音文件后，錄入端就可以對(duì)其進(jìn)行聽打錄入了。在錄入端完成文字錄入之后，將錄入好的文字存放到“文字分片數(shù)據(jù)表”中，并在“錄入端分片數(shù)據(jù)數(shù)據(jù)表”中加注標(biāo)志說明這個(gè)分片已被錄入。然后在對(duì)文字分片加密后發(fā)送到速記服務(wù)器端。
“錄入端分片數(shù)據(jù)表”和“文字分片數(shù)據(jù)表”的字段和本例的值分別如下表所示

在發(fā)送到速記服務(wù)器的時(shí)候，同時(shí)給這個(gè)文字分片加上相關(guān)的控制信息，在本例中，在發(fā)送文字分片到服務(wù)器時(shí)不需要將“語音分片文件”和“分片時(shí)長”再回送到服務(wù)器，它們只在錄入員錄入時(shí)是有用的，當(dāng)錄入完文字后，這兩個(gè)參數(shù)也就完成了使命。回送到服務(wù)器端的只是“分片文字”和“分片字長”，加上分片的速記號(hào)、和分片序號(hào)回送到速記服務(wù)器端)，本例發(fā)送到服務(wù)器端的信息如下速記號(hào)20201；分片序號(hào)00001；分片文字“國家大酒店的玻璃被炸得粉碎，附近的車輛被炸得一片狼籍?！? 分片字長25；注速記號(hào)和分片序號(hào)的作用是讓服務(wù)器端能夠識(shí)別出這個(gè)分片文字是屬于那個(gè)語音分片的。在服務(wù)器端收到文字分片的時(shí)候，同時(shí)改寫服務(wù)器端“分片數(shù)據(jù)表”中的分片狀態(tài)字段為“已被錄入”。
另外，如果錄入端發(fā)現(xiàn)這個(gè)語音分片有自己不熟悉的方言、外語或?qū)I(yè)術(shù)語等時(shí)，可將該分片的分片控制信息的狀態(tài)字段置為未被識(shí)別，并回傳給速記服務(wù)器端存入問題分片數(shù)據(jù)表中。當(dāng)錄入端再有申請(qǐng)分片的請(qǐng)求時(shí)，先判斷錄入端的能力是否能處理問題分片，若可以則將問題分片發(fā)送給該錄入端，若不可以則將狀態(tài)字段為未錄入的分片發(fā)送給該錄入端，就開始了新一輪的聽打錄入過程了。然后這樣不斷循環(huán)往復(fù)，直到速記服務(wù)器端沒有新的分片為止。
當(dāng)文字分片被傳送到速記服務(wù)器端后，首先將文字分片存放到文字分片數(shù)據(jù)表中，然后在分片數(shù)據(jù)表中將這個(gè)分片的狀態(tài)標(biāo)志置為“已被錄入”的狀態(tài)。
當(dāng)客戶端有獲取文字分片請(qǐng)求的時(shí)候，根據(jù)客戶號(hào)，從分片數(shù)據(jù)表中判斷是否有對(duì)應(yīng)這個(gè)客戶的、已經(jīng)完成的文字分片(就是狀態(tài)標(biāo)志為“已被錄入”的)。如果有，則從“文字分片數(shù)據(jù)表”中提取文字分片發(fā)送到客戶端。同時(shí)置分片的狀態(tài)為“已被獲取”。這主要是為了防止被客戶端再次申請(qǐng)獲取。
在客戶端，首先判斷“分片控制信息”中是否還有未被獲取文字的分片。如果有，則向速記服務(wù)器端發(fā)出獲取文字分片的申請(qǐng)。如果得到了一個(gè)新的文字分片，則先將其存到文字分片緩沖區(qū)中，再對(duì)文字分片緩沖區(qū)中的文字分片解密，將解密后的文本存到文字分片數(shù)據(jù)表中。同時(shí)在分片控制信息表中置該分片為“已被獲取”狀態(tài)。
當(dāng)所有的文字分片都被獲取后，即所有的分片都被置為“已被獲取”的狀態(tài)后，則啟動(dòng)“文字分片整合”處理進(jìn)行文字的整合輸出。由于每個(gè)“文字分片”都對(duì)應(yīng)“語音分片”的序號(hào)，因此，整合就非常簡(jiǎn)單，即按文字分片的序號(hào)順序地把它們連接到一起，就得到了一個(gè)完整的文字內(nèi)容。而且是與語音完全一一對(duì)應(yīng)的文字內(nèi)容。
在整合時(shí)，根據(jù)客戶的需要，可以按文稿格式或字幕格式(字幕格式需要分片時(shí)碼)輸出文本。在這里給出本例的兩種輸出格式如下文稿格式國家大酒店的玻璃被炸得粉碎，附近的車輛被炸得一片狼籍。電視畫面顯示，一具尸體就躺在飯店外一輛被炸毀的汽車旁。一名目擊者描述了他所看到的景象。我們聽到爆炸聲是在10點(diǎn)到11點(diǎn)之間。我是附近一家商店的保安。我看到一輛奔馳汽車，附近都是破碎的玻璃。一具尸體躺在旁邊，另一具尸體躺在路上。國家大酒店的玻璃全都被炸碎了。開始時(shí)我以為爆炸是從那輛奔馳車上引發(fā)的。但是后來我注意到那輛車只是玻璃被震碎了。我想爆炸一定發(fā)生在附近的一家餐館。目前還沒有情報(bào)表明肇事者是些什么人。但莫斯科市長盧日科夫說，可能是一名或兩名女性自殺式炸彈攻擊者制造了這次事件。近些年來，莫斯科遭受了一系列的炸彈攻擊。幾天前，俄國南部的一輛火車剛剛受到自殺式炸彈的襲擊。導(dǎo)致至少36人喪生。官方把那次行動(dòng)歸咎于車臣反叛份子。而這次爆炸則發(fā)生在下院杜馬選舉的兩天之后。當(dāng)時(shí)為了確保投票能夠安全順利地進(jìn)行，俄國警方出動(dòng)了大批的警員。莫斯科卡內(nèi)基基金會(huì)的軍事防務(wù)分析人士皮卡耶夫認(rèn)為這次最新的爆炸事件也與車臣反叛份子有關(guān)。我認(rèn)為車臣反叛份子，肯定希望能在這次議會(huì)選舉前制造炸彈事件。就像他們?cè)谲嚦歼x舉前所做的那樣。這次莫斯科爆炸事件之所以發(fā)生在選舉之后。可能是因?yàn)楫?dāng)時(shí)保安措施太嚴(yán)，而在之后確放松了的緣故。
字幕格式
國家大酒店的玻璃被炸得粉碎，附近的車輛被炸得一片狼籍。
電視畫面顯示，一具尸體就躺在飯店外一輛被炸毀的汽車旁。
一名目擊者描述了他所看到的景象。
我看到一輛奔馳汽車，附近都是破碎的玻璃。
一具尸體躺在旁邊，另一具尸體躺在路上。國家大酒店的玻璃全都被炸碎了。
開始時(shí)我以為爆炸是從那輛奔馳車上引發(fā)的。
但是后來我注意到那輛車只是玻璃被震碎了。
我想爆炸一定發(fā)生在附近的一家餐館。
目前還沒有情報(bào)表明肇事者是些什么人。
但莫斯科市長盧日科夫說，可能是一名或兩名女性自殺式炸彈攻擊者制造了這次事件。
近些年來，莫斯科遭受了一系列的炸彈攻擊。
幾天前，俄國南部的一輛火車剛剛受到自殺式炸彈的襲擊。
導(dǎo)致至少36人喪生。官方把那次行動(dòng)歸咎于車臣反叛份子。
而這次爆炸則發(fā)生在下院杜馬選舉的兩天之后。
當(dāng)時(shí)為了確保投票能夠安全順利地進(jìn)行，俄國警方出動(dòng)了大批的警員。
莫斯科卡內(nèi)基基金會(huì)的軍事防務(wù)分析人士皮卡耶夫認(rèn)為
這次最新的爆炸事件也與車臣反叛份子有關(guān)。
我認(rèn)為車臣反叛份子，
肯定希望能在這次議會(huì)選舉前制造炸彈事件，
就像他們?cè)谲嚦歼x舉前所做的那樣。
這次莫斯科爆炸事件之所以發(fā)生在選舉之后。
可能是因?yàn)楫?dāng)時(shí)保安措施太嚴(yán)，而在之后確放松了的緣故。
本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的處理步驟都是異步并發(fā)的，即每個(gè)處理都是工作在單獨(dú)的進(jìn)程中。每個(gè)處理的工作都是通過處理之間的觸發(fā)信號(hào)進(jìn)行的。那么，當(dāng)獲取語音后，就對(duì)其進(jìn)行分片，當(dāng)?shù)玫降谝粋€(gè)“語音分片”的時(shí)候，就觸發(fā)了其后的其他處理一環(huán)扣一環(huán)地對(duì)這個(gè)“語音分片”進(jìn)行處理。而此時(shí)的語音已經(jīng)開始了第二個(gè)、第三個(gè)“語音分片”的獲得分割。那么當(dāng)語音獲得分割的處理正在做第N個(gè)“語音分片”的時(shí)候，錄入端已經(jīng)在做第N-n個(gè)分片的“聽打錄入”；此時(shí)，“文字分片”的接收處理已經(jīng)是在做第N-m個(gè)分片的處理了。舉例來說，如語音采集分割正在做第5個(gè)分片的時(shí)候，那么第4個(gè)分片在速記服務(wù)器端正在等待錄入，第3個(gè)分片已經(jīng)在錄入端正在錄入，第2個(gè)分片已經(jīng)在服務(wù)器端等待獲取，第一個(gè)分片已經(jīng)回傳到了客戶端等待整合輸出。
本例中，最后一個(gè)語音分片被分割完畢后，從它被傳送到速記服務(wù)器端，再被錄入端獲取錄入，再傳回到速記服務(wù)器端，再被客戶端獲取，這時(shí)才進(jìn)行整個(gè)文本的整合輸出。這最后一個(gè)分片經(jīng)過這些環(huán)節(jié)后滯后時(shí)間是整個(gè)文字輸出的滯后時(shí)間。根據(jù)實(shí)驗(yàn)得到，一般情況下可以被控制在1分鐘時(shí)間內(nèi)，最長也不會(huì)超過3分鐘的時(shí)間。
以上所述僅是本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的原理的前提下，還可以作出若干改進(jìn)和潤飾，這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的保護(hù)范圍。
權(quán)利要求
1、一種互聯(lián)網(wǎng)語音分片速記方法，其特征在于，包括
步驟10)獲取語音；
步驟20)對(duì)語音進(jìn)行分片；
步驟30)發(fā)送分片給有請(qǐng)求的錄入端；
步驟40)由錄入端將分片錄入為文字分片；
步驟50)整合所述語音所對(duì)應(yīng)的所有文字分片為一文字整體。
2、如權(quán)利要求1所述的互聯(lián)網(wǎng)語音分片速記方法，其特征在于，所述步驟20)又進(jìn)一步分為步驟200)隔固定時(shí)間間隔對(duì)語音進(jìn)行分片。
3、如權(quán)利要求2所述的互聯(lián)網(wǎng)語音分片速記方法，其特征在于，所述步驟200)之后還包括
步驟201)在分片的音頻波形數(shù)據(jù)中的峰值點(diǎn)預(yù)分割所述分片為更小分片；
步驟202)逐個(gè)比較所述分片預(yù)分割成的更小分片；
步驟203)判斷是否找到所述分片的分割點(diǎn)，所述分片的分割點(diǎn)指去噪平均值小于零且占空比最大的更小分片的中間點(diǎn)；
所述去噪平均值指所述更小分片的平均值減去所述分片平均值后的值；
所述更小分片平均值是波形在這個(gè)更小分片時(shí)間內(nèi)的值；
所述分片平均值是整個(gè)待分割分片波形的平均值；
所述占空比指所述更小分片在所述分片中所占的時(shí)間比值；
若未找到所述分片的分割點(diǎn)，步驟204)將所述分片與下一個(gè)分片合并為一個(gè)分片，重復(fù)執(zhí)行步驟201)；
若找到所述分片的分割點(diǎn)，步驟205)在所述分片的分割點(diǎn)分割所述分片；
步驟206)將分片中分割點(diǎn)前的部分存入分片音頻緩沖區(qū)，所述分片音頻緩沖區(qū)用于存放已分割好的分片；
步驟207)將分片中分割點(diǎn)后的部分與下一個(gè)分片合并為一個(gè)分片，重復(fù)執(zhí)行步驟201)。
4、如權(quán)利要求3所述的互聯(lián)網(wǎng)語音分片速記方法，其特征在于，所述步驟206)后還包括步驟206a)為存入分片音頻緩沖區(qū)中的每一個(gè)分片設(shè)置用于標(biāo)識(shí)該分片的分片控制信息。
5、如權(quán)利要求4所述的互聯(lián)網(wǎng)語音分片速記方法，其特征在于，所述步驟206a)中的所述分片控制信息包括下列字段
客戶號(hào)，用于表示語音信息被速記的一方；
速記號(hào)，用于語音信息被速記的一方的語音信息的編號(hào)；
序號(hào)，用于表示所述分片的編號(hào)；
時(shí)碼，用于表示所述分片在整個(gè)語音信息中的時(shí)間位置；
時(shí)長，用于表示所述分片的時(shí)間；
狀態(tài)，用于表示所述分片錄為文字分片的情況。
6、如權(quán)利要求5所述的互聯(lián)網(wǎng)語音分片速記方法，其特征在于，所述步驟40)后還包括步驟41)若錄入端無法錄入該分片，將所述分片的分片控制信息的狀態(tài)字段置為未被識(shí)別，并將該分片回傳至問題分片數(shù)據(jù)庫表中，所述問題分片數(shù)據(jù)庫表用于存放分片控制信息的狀態(tài)字段為未被識(shí)別的分片。
7、如權(quán)利要求2至6所述的任意一種互聯(lián)網(wǎng)語音分片速記方法，其特征在于，所述步驟200)中的所述固定時(shí)間間隔為5秒。
全文摘要
本發(fā)明公開了一種互聯(lián)網(wǎng)語音分片速記方法，包括步驟獲取語音；對(duì)語音進(jìn)行分片；發(fā)送分片給有請(qǐng)求的錄入端；由錄入端將分片錄入為文字分片；整合所述語音所對(duì)應(yīng)的所有文字分片為一文字整體。采用本發(fā)明互聯(lián)網(wǎng)語音分片速記方法的技術(shù)方案可以避免“手指追趕語音”，從而提高速記準(zhǔn)確度。
文檔編號(hào)G10L15/00GK1664923SQ20051005687
公開日2005年9月7日申請(qǐng)日期2005年3月28日優(yōu)先權(quán)日2005年3月28日
發(fā)明者何宏山申請(qǐng)人:何宏山

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何宏山
技術(shù)所有人：何宏山
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音速記相關(guān)技術(shù)

聲訊語音速記本相關(guān)技術(shù)

語音速記本相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

互聯(lián)網(wǎng)語音速記方法