專利名稱:可語音控制的掃描儀的制作方法
技術(shù)領(lǐng)域:
本實用新型涉及掃描儀領(lǐng)域,且特別是關(guān)于一種可語音控制的掃描儀。
背景技術(shù):
掃描儀是一種影像捕獲裝置,可將紙質(zhì)文本的影像轉(zhuǎn)換為計算機(jī)可以顯示、編輯、儲存和輸出的數(shù)字格式,如JPEG、JPG、TIFF、MTIFF、或PDF等格式。掃描儀的應(yīng)用范圍很廣泛,例如將美術(shù)圖形和照片掃描結(jié)合到文件中;將印刷文字掃描輸入到文字處理軟件中,避免再重新打字;將傳真文件掃描輸入到數(shù)據(jù)庫軟件或文字處理軟件中儲存;以及在多媒體中加入影像等等。隨著辦公環(huán)境中互聯(lián)網(wǎng)絡(luò)的流行和普及,掃描儀成為了一種在網(wǎng)絡(luò)中共享的影像處理裝置,即成為了網(wǎng)絡(luò)掃描儀。早期的掃描儀由掃描頭、控制電路和機(jī)械部件組成,采取 逐行掃描的工作方式,得到的數(shù)字信號以點陣的形式保存,再使用文件編輯軟件將影像信號編輯成標(biāo)準(zhǔn)格式的文本進(jìn)行儲存。目前的掃描儀仍是一種計算機(jī)外圍設(shè)備,僅作為圖像的捕獲和輸入裝置,其產(chǎn)生的影像必須通過計算機(jī)進(jìn)行顯示、編輯、存儲和輸出。掃描儀對照片、文本頁面、圖紙、美術(shù)圖畫、照相底片、菲林軟片都可以進(jìn)行掃描處理,甚至紡織品、標(biāo)牌面板、印制板樣品等三維對象也可作為掃描對象,掃描儀獲取它們的原始線條、圖形、文字、照片、平面實物等信息并轉(zhuǎn)換成數(shù)字格式,再通過計算機(jī)轉(zhuǎn)換成可以編輯的格式和形式。就目前而言,掃描儀大致經(jīng)歷了四個階段的發(fā)展在1984年前后,第一代平板式掃描儀的面世,第一代掃描儀的功能局限于僅掃描黑白文字和簡單黑白線條圖形,且對簡單圖形和文字的輸入速度和輸出速度都比較慢,分辨率也較低,裝置體積較大,使用不方便;但掃描儀在問世后便擁有廣泛的市場應(yīng)用價值和市場前景;1986年推出的第二代掃描儀在第一代掃描儀的基礎(chǔ)上增加了黑白灰階的功能,可以掃描具有灰階變化的黑白圖像,使得掃描的黑白圖像在圖像文件輸出時富有層次感,圖像更加真實;1989年推出的第三代掃描儀使掃描設(shè)備進(jìn)入了彩色時代,彩色掃描儀能夠掃描彩色印刷品和彩色照片,并輸出彩色圖片格式給計算機(jī)進(jìn)行編輯處理;隨著其他辦公設(shè)備的發(fā)展和普及,1996年出現(xiàn)的第四代掃描儀,將掃描儀與打印機(jī)、傳真機(jī)整合,使掃描儀兼具有了一些復(fù)印、傳真、打印的功能,但仍作為計算機(jī)的外圍設(shè)備,其各項功能必須借助計算機(jī)才能完成。在現(xiàn)有技術(shù)中,網(wǎng)絡(luò)掃描儀僅僅是圖像捕獲和圖像輸出工具,功能單一,遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)代辦公過程的對網(wǎng)絡(luò)掃描儀的方便快捷、智能化控制的要求。在通訊領(lǐng)域,語音識別設(shè)備從輸入的語音信號提取諸如頻率特征等特征信息,用以識別輸入的語音命令,在例如AT&T公司公開的一種話音命令控制和校驗的系統(tǒng)中,其直接對話音信號進(jìn)行處理和識別,這樣的語音識別和控制系統(tǒng)在例如蜂窩式電話中的應(yīng)用是成熟的,但尚未發(fā)現(xiàn)有一種語音控制技術(shù)用于掃描儀上,使掃描儀的智能控制成為一種可能。
實用新型內(nèi)容針對現(xiàn)有技術(shù)存在的缺陷,本實用新型提供的掃描儀能夠通過一組件實現(xiàn)語音的采集、處理和識別,并基于識別的結(jié)果執(zhí)行對應(yīng)的控制指令,使用戶可通過語音命令控制掃描儀的執(zhí)行各種操作。為實現(xiàn)上述目的,本實用新型的技術(shù)方案是一種可語音控制的掃描儀,包括掃描模塊單元和處理器,其特征在于,還包括語音采集單元,用于將一外部的語音指令轉(zhuǎn)換為模擬電信號;語音處理單元,用于處理所接收到的模擬電信號;語音指令存儲器,用于預(yù)先存儲多個語音指令,并預(yù)先存儲該多個語音指令所轉(zhuǎn)換的數(shù)字信號與該掃描儀的控制指令之間的映射關(guān)系;·[0013]語音識別單元,分別與所述語音處理單元和語音指令存儲器連接,用于識別語音指令并將識別結(jié)果發(fā)送至所述處理器,所述處理器根據(jù)該識別結(jié)果對應(yīng)的數(shù)字信號控制該掃描儀的具體運(yùn)行。進(jìn)一步地,前述的語音采集單元為一麥克風(fēng)。進(jìn)一步地,前述語音處理單元包括一 AD轉(zhuǎn)換單元和降噪單元。進(jìn)一步地,前述語音指令存儲器為一非易失性隨機(jī)訪問存儲器。進(jìn)一步地,前述掃描儀還包括網(wǎng)絡(luò)連接單元,將該掃描儀接入網(wǎng)絡(luò)。進(jìn)一步地,前述掃描儀還包括文檔轉(zhuǎn)換單元,該文檔轉(zhuǎn)化單元將掃描模塊單元掃描生成的掃描文件轉(zhuǎn)換成打印機(jī)可識別的文件格式。由以上本實用新型提供的技術(shù)方案可見,本實用新型提供的可語音控制的掃描儀,其上設(shè)置了語音采集、處理和識別單元,使得掃描儀具備了語音控制功能,用戶可以通過語言直接控制掃描儀執(zhí)行多種操作,提供良好的人機(jī)互動,給用戶的日常掃描發(fā)送工作帶來便利,滿足用戶全方位的使用掃描儀的需求。
圖I為本實用新型實施例的掃描儀的示意圖。
具體實施方式
為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉具體實施例并配合所附圖式說明如下。如圖I所示,根據(jù)本實用新型的第一實施例,可語音控制的掃描儀的包括語音采集單元101、語音處理單元102、語音識別單元103、語音指令存儲器104、和處理器105、掃描模塊單元110和網(wǎng)絡(luò)連接單元120。語音采集單元101,用于將一外部的語音指令轉(zhuǎn)換為模擬電信號,本實施例中,該語音采集單元101為一麥克風(fēng),可以讓用戶在一定距離范圍內(nèi)發(fā)出聲音指令,通過麥克風(fēng)采集用戶的聲音指令,并轉(zhuǎn)換成模擬電信號,該模擬電信號傳輸至語音處理單元102。語音處理單元102,用于處理所接收到的模擬電信號。該語音處理單元102包括一AD轉(zhuǎn)換單元和降噪單元,用于對所接收到的模擬電信號進(jìn)行模數(shù)轉(zhuǎn)換,然后進(jìn)行降噪處理,例如利用基于譜相減算法的降噪單元進(jìn)行降噪處理,該處理后的數(shù)字信號發(fā)送至語音識別單元104。[0025]語音指令存儲器103,用于預(yù)先存儲多個語音指令,并預(yù)先存儲該多個語音指令所轉(zhuǎn)換的數(shù)字信號與該掃描儀的控制指令之間的映射關(guān)系。本實施例中,該語音指令存儲器103優(yōu)選為一個非易失性隨機(jī)訪問存儲器(NVRAM),例如SD卡以及CF卡、SONY記憶棒等其他類型的閃存擴(kuò)展存儲卡。語音識別可基于講話者相關(guān)識別模式或講話者無關(guān)系識別模式。講話者相關(guān)識別模式是指在執(zhí)行識別之前預(yù)先存儲和登記一個或多個用戶的語音,并且將外界輸入語音的模型與所存儲的語音的模型進(jìn)行比較,以執(zhí)行語音識別。講話者無關(guān)系識別模式是指在識別操作之前無需預(yù)先登記和存儲用戶的語音,而是收集未指定講話者的語音以便研究統(tǒng)計模型,并且利用所研究的統(tǒng)計模型來執(zhí)行識別,這樣,消除了每一個講話者的個人特征,采用每個講話者之間的共同特征進(jìn)行有利地識別。本實施例中,基于講話者相關(guān)識別模式,語音指令存儲器103內(nèi)預(yù)先錄制存儲了 至少一個用戶的多個語音控制指令,并存儲該多個語音指令所轉(zhuǎn)換的數(shù)字信號與該掃描儀的控制指令之間的映射關(guān)系(一一對應(yīng)映射關(guān)系)。語音識別單元104分別與語音處理單元102和語音指令存儲器103連接,用于識別語音指令,并將識別結(jié)果發(fā)送至處理器105,處理器105根據(jù)該識別結(jié)果對應(yīng)的數(shù)字信號控制該掃描儀的具體運(yùn)行。用戶可通過掃描儀上的按鍵來啟動掃描儀的語音控制模式,該按鍵可以是掃描儀上的一個已有功能按鍵,例如雙面打印時的繼續(xù)鍵位,短按后將完成雙面打印時的繼續(xù)打印操作,長按后將觸發(fā)其第二功能鍵位,啟動語音控制模式。在另外的實施例中,基于講話者無關(guān)系識別模式,語音指令存儲器103內(nèi)預(yù)先存儲了經(jīng)過研究的多個語音控制指令的統(tǒng)計模型特征,該統(tǒng)計模型特征對應(yīng)于多個語音指令所轉(zhuǎn)換的數(shù)字信號與該掃描儀的控制指令之間的映射關(guān)系。因此,在用戶發(fā)出語音指令后,經(jīng)過語音處理單元102的數(shù)據(jù)處理,語音識別單元104提取語音數(shù)據(jù)中的模型特征,并與語音指令存儲器103中的多個語音控制指令的統(tǒng)計模型特征進(jìn)行比較,執(zhí)行語音識別,并基于識別結(jié)果掃描儀執(zhí)行對應(yīng)的操作。本實施例中,用戶可在一定的距離范圍內(nèi)對掃描儀發(fā)出語音指令,例如“份數(shù)設(shè)定”、“時間顯示”、“黑白掃描”等語音指令,語音采集單元101接收到用戶發(fā)出的語音指令后,經(jīng)過語音處理單元102的模數(shù)轉(zhuǎn)換、降噪處理后,發(fā)送至語音識別單元104進(jìn)行識別處理,并識別結(jié)果發(fā)送至處理器105,處理器105基于識別結(jié)果對應(yīng)的數(shù)字信號控制該掃描儀執(zhí)行所對應(yīng)的控制指令。前述的語音采集單元101、語音處理單元102、語音識別單元103、語音指令存儲器104、和處理器105可以是分立的元件,或者是集成在一起的。掃描模塊單元110內(nèi)具有光學(xué)成像模塊等掃描儀通用部件,用于對待掃描文件(如文檔、圖片、照片、膠片、幻燈片等載有一定數(shù)據(jù)信息的載體)進(jìn)行掃描而捕獲影像信息,生成一掃描文件,掃描儀還包括轉(zhuǎn)換單元(未示出),在處理器105的控制下,轉(zhuǎn)換單元對所生成的掃描文件進(jìn)行數(shù)據(jù)處理,使其轉(zhuǎn)換為打印機(jī)可識別和直接打印的文件格式。處理器105,控制掃描儀的整體操作。特別地,處理器控制掃描儀的操作以便根據(jù)本實用新型,通過語音采集單元、語音處理單元、語音識別單元和語音指令存儲器,執(zhí)行語音識別,并基于識別的結(jié)果,控制該掃描儀執(zhí)行所對應(yīng)的控制指令。[0035]網(wǎng)絡(luò)連接單元120,用于將掃描儀連接至網(wǎng)絡(luò)中,例如通過一無線網(wǎng)絡(luò)收發(fā)裝置,將掃描儀接入網(wǎng)絡(luò)中。有利地,這里的網(wǎng)絡(luò)是指因特網(wǎng),也可以是局域網(wǎng)(LAN)、電話線路網(wǎng)絡(luò)之類的內(nèi)部網(wǎng)。綜上所述,本實施例的可語音控制的掃描儀,其設(shè)置了語音采集、處理和識別單元,使得掃描儀具備了語音控制功能,用戶可以通過語言直接控制掃描儀執(zhí)行多種操作,提供良好的人機(jī)互動,給用戶的日常掃描發(fā)送工作帶來便利,滿足用戶全方位的使用掃描儀的需求。以上說明書與附圖僅為對本實用新型的解釋和說明,不以任何形式對本實用新型構(gòu)成限制和限定,本實用新型的范圍以權(quán)利要求書為準(zhǔn),一切不超出本 實用新型宗旨的顯而易見的修改、變換和替代方案均在本實用新型范圍內(nèi)。
權(quán)利要求1.一種可語音控制的掃描儀,包括掃描模塊單元和處理器,其特征在于,還包括 語音采集單元,用于將一外部的語音指令轉(zhuǎn)換為模擬電信號; 語音處理單元,用于處理所接收到的 模擬電信號; 語音指令存儲器,用于預(yù)先存儲多個語音指令,并預(yù)先存儲該多個語音指令所轉(zhuǎn)換的數(shù)字信號與該掃描儀的控制指令之間的映射關(guān)系; 語音識別單元,分別與所述語音處理單元和語音指令存儲器連接,用于識別語音指令并將識別結(jié)果發(fā)送至所述處理器,所述處理器根據(jù)該識別結(jié)果對應(yīng)的數(shù)字信號控制該掃描儀的具體運(yùn)行。
2.如權(quán)利要求I所述的可語音控制的掃描儀,其特征在于,所述語音采集單元為一麥克風(fēng)。
3.如權(quán)利要求I所述的可語音控制的掃描儀,其特征在于,所述語音處理單元包括一AD轉(zhuǎn)換單元和降噪單元。
4.如權(quán)利要求I所述的可語音控制的掃描儀,其特征在于,所述語音指令存儲器為一非易失性隨機(jī)訪問存儲器。
5.如權(quán)利要求I所述的可語音控制的掃描儀,其特征在于,所述掃描儀還包括網(wǎng)絡(luò)連接單元,將該掃描儀接入網(wǎng)絡(luò)。
6.如權(quán)利要求I所述的可語音控制的掃描儀,其特征在于,所述掃描儀還包括文檔轉(zhuǎn)換單元,該文檔轉(zhuǎn)化單元將所述掃描模塊單元掃描生成的掃描文件轉(zhuǎn)換成打印機(jī)可識別的文件格式。
專利摘要本實用新型提供一種可語音控制的掃描儀,包括掃描模塊單元和處理器,還包括語音采集單元,用于將一外部的語音指令轉(zhuǎn)換為模擬電信號;語音處理單元,用于處理所接收到的模擬電信號;語音指令存儲器,用于預(yù)先存儲多個語音指令,并預(yù)先存儲該多個語音指令所轉(zhuǎn)換的數(shù)字信號與該掃描儀的控制指令之間的映射關(guān)系;語音識別單元,分別與語音處理單元和語音指令存儲器連接,用于識別語音指令并將識別結(jié)果發(fā)送至處理器,處理器根據(jù)該識別結(jié)果對應(yīng)的數(shù)字信號控制該掃描儀的具體運(yùn)行。掃描儀具備了語音控制功能,用戶可通過語言直接控制掃描儀執(zhí)行多種操作,提供良好的人機(jī)互動,給用戶的日常掃描發(fā)送工作帶來便利,滿足用戶全方位的使用需求。
文檔編號H04N1/04GK202798910SQ20122048215
公開日2013年3月13日 申請日期2012年9月20日 優(yōu)先權(quán)日2012年9月20日
發(fā)明者王渤渤, 吳海娟, 孔佳琛, 許熱 申請人:艾塔斯科技(鎮(zhèn)江)有限公司