国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種獲得識別模型的方法及裝置的制造方法

      文檔序號:9727806閱讀:468來源:國知局
      一種獲得識別模型的方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本申請涉及手寫識別技術(shù)領(lǐng)域,尤其涉及一種獲得識別模型的方法及裝置。
      【背景技術(shù)】
      [0002] 隨著信息技術(shù)的迅猛發(fā)展以及智能觸屏類的移動終端設(shè)備日益普及,新的智能人 機交互應(yīng)用日新月異。手寫輸入作為最常見、最主流的人機交互方式之一,其特點在于操作 方便、識別正確率高,適用于各類人群,特別是文化程度不高、不能較好掌握拼音的人群。因 此,手寫輸入方式得到了越來越多用戶的青睞。
      [0003] 目前手寫識別系統(tǒng)主要采用基于數(shù)據(jù)驅(qū)動的方法,通過大量采集真實的樣本數(shù) 據(jù),利用樣本數(shù)據(jù)進行模型訓(xùn)練獲得手寫識別模型,以實現(xiàn)字符的區(qū)分。顯然,手寫識別系 統(tǒng)性能和樣本數(shù)據(jù)密切相關(guān),樣本數(shù)據(jù)覆蓋面越廣、內(nèi)容越豐富則系統(tǒng)性能越好。然而,樣 本數(shù)據(jù)的收集、標(biāo)注往往需耗費較大的人力、財力。特別是少數(shù)民族語言的數(shù)據(jù)采集工作更 是困難重重,如藏語、維吾爾語等少數(shù)民族的手寫樣本數(shù)據(jù)。顯然,若訓(xùn)練樣本數(shù)據(jù)較為匱 乏,則手寫識別系統(tǒng)容易產(chǎn)生過擬合問題,從而導(dǎo)致識別準(zhǔn)確率較低。

      【發(fā)明內(nèi)容】

      [0004] 為解決上述技術(shù)問題,本申請實施例提供一種獲得識別模型的方法及裝置,能夠 有效增加樣本數(shù)據(jù),提高識別準(zhǔn)確率。技術(shù)方案如下:
      [0005] -方面,提供一種獲得識別模型的方法,包括:
      [0006] 獲得樣本數(shù)據(jù);
      [0007] 對所述樣本數(shù)據(jù)進行彈性形變和/或隨機形變獲得形變樣本數(shù)據(jù);
      [0008] 利用所述樣本數(shù)據(jù)及所述形變樣本數(shù)據(jù)進行模型訓(xùn)練,獲得識別模型。
      [0009] 進一步,所述對所述樣本數(shù)據(jù)進行彈性形變獲得形變樣本數(shù)據(jù)包括:
      [0010] 在所述樣本數(shù)據(jù)的作用區(qū)域內(nèi)確定至少一個隨機點;所述作用區(qū)域為所述樣本數(shù) 據(jù)所占據(jù)的區(qū)域;
      [0011] 計算所述隨機點對所述作用區(qū)域內(nèi)所述樣本數(shù)據(jù)上的樣本點的牽引力;
      [0012] 根據(jù)所述牽引力對所述作用區(qū)域內(nèi)的所述樣本點進行位置修正,獲得形變樣本 占.
      [0013] 根據(jù)所述形變樣本點確定形變樣本數(shù)據(jù)。
      [0014] 進一步,所述在所述樣本數(shù)據(jù)的作用區(qū)域內(nèi)確定至少一個隨機點,包括:
      [0015] 計算所述樣本數(shù)據(jù)的長寬比;
      [0016] 根據(jù)所述長寬比將所述樣本數(shù)據(jù)的作用區(qū)域劃分為至少兩個子區(qū)域;
      [0017] 在各所述子區(qū)域內(nèi)分別確定一個隨機點;
      [0018] 所述計算所述隨機點對所述作用區(qū)域內(nèi)所述樣本數(shù)據(jù)上的樣本點的牽引力,包 括:
      [0019] 計算所述隨機點對其所在的所述子區(qū)域內(nèi)所述樣本數(shù)據(jù)上的樣本點的牽引力。
      [0020] 進一步,所述對所述樣本數(shù)據(jù)進行隨機形變獲得形變樣本數(shù)據(jù)包括:
      [0021] 對所述樣本數(shù)據(jù)上的每個樣本點依次生成單位隨機向量;
      [0022] 對所述單位隨機向量進行平滑處理和歸一化處理;
      [0023] 根據(jù)處理后的所述單位隨機向量分別對其對應(yīng)的樣本點進行修正,獲得形變樣本 占.
      [0024] 根據(jù)所述形變樣本點確定形變樣本數(shù)據(jù)。
      [0025] 進一步,在對所述樣本數(shù)據(jù)進行彈性形變和/或隨機形變獲得形變樣本數(shù)據(jù)之 后,還包括:
      [0026] 對所述形變樣本數(shù)據(jù)進行篩選;
      [0027] 所述利用所述樣本數(shù)據(jù)及所述形變樣本數(shù)據(jù)進行模型訓(xùn)練,獲得識別模型,包 括:
      [0028] 利用所述樣本數(shù)據(jù)及篩選后的所述形變樣本數(shù)據(jù)進行模型訓(xùn)練,獲得識別模型。
      [0029] 進一步,所述對所述形變樣本數(shù)據(jù)進行篩選,包括:
      [0030] 利用預(yù)建識別模型對所述形變樣本數(shù)據(jù)進行識別;所述預(yù)建識別模型為預(yù)先根據(jù) 所述樣本數(shù)據(jù)進行模型訓(xùn)練獲得的;
      [0031] 將識別錯誤且位于前N個候選的形變樣本數(shù)據(jù)作為篩選后的形變樣本數(shù)據(jù),N為 預(yù)設(shè)候選數(shù)量閾值。
      [0032] 進一步,所述對所述形變樣本數(shù)據(jù)進行篩選,包括:
      [0033] 分別提取所述形變樣本數(shù)據(jù)的第一特征向量及所述樣本數(shù)據(jù)對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)的 第二特征向量;
      [0034] 計算所述第一特征向量與所述第二特征向量的距離;
      [0035] 將所述距離小于預(yù)設(shè)距離閾值的形變樣本數(shù)據(jù)作為篩選后的形變樣本數(shù)據(jù)。
      [0036] 進一步,所述利用所述樣本數(shù)據(jù)及所述形變樣本數(shù)據(jù)進行模型訓(xùn)練,獲得識別模 型,包括:
      [0037] 設(shè)置所述形變樣本數(shù)據(jù)的權(quán)重;
      [0038] 利用所述樣本數(shù)據(jù)及占有不同權(quán)重的所述形變樣本數(shù)據(jù)進行模型訓(xùn)練,獲得識別 模型。
      [0039] 進一步,所述設(shè)置所述形變樣本數(shù)據(jù)的權(quán)重,包括:
      [0040] 分別提取所述形變樣本數(shù)據(jù)的第一特征向量及所述樣本數(shù)據(jù)對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)的 第二特征向量;
      [0041] 計算所述第一特征向量與所述第二特征向量的距離;
      [0042] 根據(jù)所述距離設(shè)置所述形變樣本數(shù)據(jù)的權(quán)重,其中,所述距離越大的形變樣本數(shù) 據(jù)權(quán)重越小。
      [0043] 另一方面,提供一種獲得識別模型的裝置,包括:
      [0044] 數(shù)據(jù)獲取單元,用于獲得樣本數(shù)據(jù);
      [0045] 數(shù)據(jù)形變單元,用于對所述樣本數(shù)據(jù)進行彈性形變和/或隨機形變獲得形變樣本 數(shù)據(jù);
      [0046] 模型訓(xùn)練單元,用于利用所述樣本數(shù)據(jù)及所述形變樣本數(shù)據(jù)進行模型訓(xùn)練,獲得 識別模型。
      [0047] 進一步,所述數(shù)據(jù)形變單元包括:
      [0048] 選取子單元,用于在所述樣本數(shù)據(jù)的作用區(qū)域內(nèi)確定至少一個隨機點;所述作用 區(qū)域為所述樣本數(shù)據(jù)所占據(jù)的區(qū)域;
      [0049] 計算子單元,用于計算所述隨機點對所述作用區(qū)域內(nèi)所述樣本數(shù)據(jù)上的樣本點的 牽引力;
      [0050] 第一修正子單元,用于根據(jù)所述牽引力對所述作用區(qū)域內(nèi)的所述樣本點進行位置 修正,獲得形變樣本點;
      [0051] 第一數(shù)據(jù)確定子單元,用于根據(jù)所述形變樣本點確定形變樣本數(shù)據(jù)。
      [0052] 進一步,所述選取子單元包括:
      [0053] 第一計算子單元,用于計算所述樣本數(shù)據(jù)的長寬比;
      [0054] 劃分子單元,用于根據(jù)所述長寬比將所述樣本數(shù)據(jù)的作用區(qū)域劃分為至少兩個子 區(qū)域;
      [0055] 確定子單元,用于在各所述子區(qū)域內(nèi)分別確定一個隨機點;
      [0056] 所述計算子單元,具體用于計算所述隨機點對其所在的所述子區(qū)域內(nèi)所述樣本數(shù) 據(jù)上的樣本點的牽引力。
      [0057] 進一步,所述數(shù)據(jù)形變單元包括:
      [0058] 生成子單元,用于對所述樣本數(shù)據(jù)上的每個樣本點依次生成單位隨機向量;
      [0059] 處理子單元,用于對所述單位隨機向量進行平滑處理和歸一化處理;
      [0060] 第二修正子單元,用于根據(jù)處理后的所述單位隨機向量分別對其對應(yīng)的樣本點進 行修正,獲得形變樣本點;
      [0061] 第二數(shù)據(jù)確定子單元,用于根據(jù)所述形變樣本點確定形變樣本數(shù)據(jù)。
      [0062] 進一步,所述裝置還包括:
      [0063] 篩選單元,用于在所述數(shù)據(jù)形變單元獲得形變樣本數(shù)據(jù)之后,對所述形變樣本數(shù) 據(jù)進行篩選;
      [0064] 所述模型訓(xùn)練單元,具體用于利用所述樣本數(shù)據(jù)及篩選后的所述形變樣本數(shù)據(jù)進 行模型訓(xùn)練,獲得識別模型。
      [0065] 進一步,所述篩選單元包括:
      [0066] 識別子單元,用于利用預(yù)建識別模型對所述形變樣本數(shù)據(jù)進行識別;所述預(yù)建識 別模型為預(yù)先根據(jù)所述樣本數(shù)據(jù)進行模型訓(xùn)練獲得的;
      [0067] 第一選擇子單元,用于將識別錯誤且位于前N個候選的形變樣本數(shù)據(jù)作為篩選后 的形變樣本數(shù)據(jù),N為預(yù)設(shè)候選數(shù)量閾值。
      [0068] 進一步,所述篩選單元包括:
      [0069] 第一提取子單元,用于分別提取所述形變樣本數(shù)據(jù)的第一特征向量及所述樣本數(shù) 據(jù)對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)的第二特征向量;
      [0070] 第一距離計算子單元,用于計算所述第一特征向量與所述第二特征向量的距離;
      [0071] 第二選擇子單元,用于將所述距離小于預(yù)設(shè)距離閾值的形變樣本數(shù)據(jù)作為篩選后 的形變樣本數(shù)據(jù)。
      [0072] 進一步,所述模型訓(xùn)練單元包括:
      [0073] 權(quán)重設(shè)置子單元,用于設(shè)置所述形變樣本數(shù)據(jù)的權(quán)重;
      [0074] 訓(xùn)練子單元,用于利用所述樣本數(shù)據(jù)及占有不同權(quán)重的所述形變樣本數(shù)據(jù)進行模 型訓(xùn)練,獲得識別模型。
      [0075] 進一步,所述權(quán)重設(shè)置子單元包括:
      [0076] 第二提取子單元,用于分別提取所述形變樣本數(shù)據(jù)的第一特征向量及所述樣本數(shù) 據(jù)對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)的第二特征向量;
      [0077] 第二距離計算子單元,用于計算所述第一特征向量與所述第二特征向量的距離;
      [0078] 設(shè)置子單元,用于根據(jù)所述距離設(shè)置所述形變樣本數(shù)據(jù)的權(quán)重,其中,所述距離越 大的形變樣本數(shù)據(jù)權(quán)重越小。
      [0079] 本發(fā)明實施例至少具有以下有益效果:
      [0080] 本發(fā)明實施例通過對少量樣本數(shù)據(jù)進行形變獲得形變樣本數(shù)據(jù)來擴充數(shù)據(jù)量,從 而可以以大量樣本數(shù)據(jù)為基礎(chǔ)構(gòu)建得到對應(yīng)的手寫識別模型,該方法有效增加了樣本數(shù)據(jù) 量,較好地解決了因樣本數(shù)據(jù)量匱乏而導(dǎo)致的識別模型不穩(wěn)定,識別準(zhǔn)確率低的問題,尤其 對于少數(shù)民族語言,如藏語維吾爾語等,手寫識別樣本難以采集造成的手寫識別模型構(gòu)建 問題。本方法通過自動生成形變樣本數(shù)據(jù),極大地減少了收集手寫樣本的人力成本,提高了 手寫識別系統(tǒng)的性能,進而提高了識別準(zhǔn)確率。
      【附圖說明】
      [0081] 為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 申請中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下, 還可以根據(jù)這些附圖獲得其他的附圖。
      [0082]
      當(dāng)前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1