国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種用于識別失序文本的方法與設(shè)備的制作方法

      文檔序號:6432637閱讀:271來源:國知局
      專利名稱:一種用于識別失序文本的方法與設(shè)備的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種用于識別失序文本的技術(shù)。
      背景技術(shù)
      互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用,向人們提供了更多相互溝通的平臺和交流信息的方 式,例如人們可以通過論壇、貼吧等溝通平臺與他人分享趣聞、對所共同關(guān)注的事件發(fā)表意 見,進(jìn)而,在開放的交流平臺上有效地管理文本內(nèi)容的需求也日益增加?,F(xiàn)有技術(shù)可以通過 對正常排序的文字進(jìn)行分析管理,但是對失序文本無法有效識別,從而當(dāng)有惡意或違法信 息以失序文本的形式通過網(wǎng)絡(luò)溝通平臺進(jìn)行發(fā)布時,網(wǎng)絡(luò)服務(wù)器等設(shè)備無法對其進(jìn)行有效 識別。
      因此,如何有效地識別失序文本,成為本領(lǐng)域技術(shù)人員亟須解決的問題之一。發(fā)明內(nèi)容
      本發(fā)明的目的是提供一種用于識別失序文本的方法與設(shè)備。
      根據(jù)本發(fā)明的一個方面,提供了一種用于識別失序文本的方法,該方法包括以下 步驟
      a獲取待識別的目標(biāo)文本;
      b根據(jù)所述目標(biāo)文本,獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息;
      c根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本。
      根據(jù)本發(fā)明的另一方面,還提供了一種用于識別失序文本的設(shè)備,該設(shè)備包括
      文本獲取裝置,用于獲取待識別的目標(biāo)文本;
      統(tǒng)計信息獲取裝置,用于根據(jù)所述目標(biāo)文本,獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息;
      識別裝置,用于根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本。
      與現(xiàn)有技術(shù)相比,本發(fā)明根據(jù)獲得的與目標(biāo)文本相對應(yīng)的統(tǒng)計信息,識別該目標(biāo) 文本是否為失序文本,進(jìn)而實現(xiàn)有效的文本內(nèi)容管理。


      通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本發(fā)明的其它 特征、目的和優(yōu)點(diǎn)將會變得更明顯
      圖I示出根據(jù)本發(fā)明一個方面用于識別失序文本的設(shè)備示意圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于識別失序文本的設(shè)備示意圖3示出根據(jù)本發(fā)明另一個方面用于識別失序文本的方法流程圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于識別失序文本的方法流程圖。
      附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
      具體實施方式
      下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。
      圖I示出根據(jù)本發(fā)明一個方面用于識別失序文本的設(shè)備示意圖。識別設(shè)備I包括 文本獲取裝置11、統(tǒng)計信息獲取裝置12和識別裝置13。在此,識別設(shè)備I包括但不限于計 算機(jī)、網(wǎng)絡(luò)主機(jī)、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云。在此,云由基 于云計算(Cloud Computing)的大量計算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計算是分布式計算 的一種,由一群松散耦合的計算機(jī)集組成的一個超級虛擬計算機(jī)。
      具體地,文本獲取裝置11獲取待識別的目標(biāo)文本。更具體地,文本獲取裝置11按 預(yù)定周期或應(yīng)事件觸發(fā)實時地獲取待處理的目標(biāo)文本,例如通過實時監(jiān)聽用戶通過用戶設(shè) 備提交的目標(biāo)文本提交請求,以獲取用戶輸入的目標(biāo)文本,或者定期地通過約定的通信方 式直接從第三方設(shè)備讀取目標(biāo)文本。例如,假設(shè)識別設(shè)備I為網(wǎng)絡(luò)論壇服務(wù)器,用戶通過用 戶設(shè)備在網(wǎng)絡(luò)論壇網(wǎng)頁的輸入界面輸入一段文本信息,然后,用戶設(shè)備將該信息作為論壇 發(fā)帖包裝成http請求并通過http通信協(xié)議提交到識別設(shè)備I的文本獲取裝置11,接著, 文本獲取裝置11通過實時監(jiān)聽用戶消息,接收并解析該http請求,獲取其中的文本信息并 作為目標(biāo)文本。再如,文本獲取裝置11按一定周期,定期地通過調(diào)用預(yù)定的應(yīng)用編程接口 (API)向第三方設(shè)備發(fā)送獲取目標(biāo)文本的請求,并接收該第三方設(shè)備基于該請求返回的目 標(biāo)文本的文檔。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本的方式僅為舉例,其他現(xiàn)有的 或今后可能出現(xiàn)的獲取目標(biāo)文本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以 內(nèi),并在此以引用方式包含于此。
      隨后,統(tǒng)計信息獲取裝置12根據(jù)所述目標(biāo)文本,獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng) 計信息。具體地,統(tǒng)計信息獲取裝置12根據(jù)文本獲取裝置11提供的目標(biāo)文本,例如通過對 該目標(biāo)文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計,并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù),以獲取與該目標(biāo) 文本相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息;或者通過對該目標(biāo)文本進(jìn)行分詞處理,并統(tǒng)計獲得分詞處理 后的分詞處理結(jié)果中單字分詞與多字分詞的分布信息,如單字分詞與多字分詞的比例值, 以獲取與該目標(biāo)文本相對應(yīng)的統(tǒng)計信息。例如,統(tǒng)計信息獲取裝置12根據(jù)文本獲取裝置11 提供的目標(biāo)文本
      證速
      件打
      辦電辦
      理話證
      將該目標(biāo)文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng)計,即該目標(biāo)文本從上到下各行字?jǐn)?shù)分別為2、 2、3、3,并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為2. 5。
      再如,統(tǒng)計信息獲取裝置12根據(jù)文本獲取裝置11提供的目標(biāo)文本
      進(jìn)豎失
      行行序
      分文文
      詞文本
      處字舉
      理& 例
      對該目標(biāo)文本的每行文字按照最大反向匹配法進(jìn)行分詞處理,以獲得分詞處理結(jié) 果如下
      進(jìn)/豎/失
      行/行/序
      分/文/文
      詞/文本
      處/字/舉
      理/&/ 例
      并計算該目標(biāo)文本的分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例值為 16 I。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲得統(tǒng)計信息的方式僅為舉例,其他現(xiàn)有的或今后 可能出現(xiàn)的獲得統(tǒng)計信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并 在此以引用方式包含于此。
      接著,識別裝置13根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本。具體 地,識別裝置13根據(jù)統(tǒng)計信息獲取裝置12獲取的統(tǒng)計信息,例如若統(tǒng)計信息中包括該目 標(biāo)文本各行的平均字?jǐn)?shù),則將該各行的平均字?jǐn)?shù)與預(yù)定的各行平均字?jǐn)?shù)閾值進(jìn)行比較,當(dāng) 該各行的平均字?jǐn)?shù)小于預(yù)定的各行平均字?jǐn)?shù)閾值時,識別該目標(biāo)文本為失序文本;若統(tǒng)計 信息中包括對該目標(biāo)文本進(jìn)行分詞處理所獲得的分詞處理結(jié)果中單字分詞與多字分詞的 分布信息,將該分詞統(tǒng)計信息與預(yù)設(shè)的參考統(tǒng)計信息進(jìn)行比較,識別該目標(biāo)文本是否為失 序文本。例如,假設(shè)統(tǒng)計信息獲取裝置12獲取的統(tǒng)計信息為該目標(biāo)文本各行的平均字?jǐn)?shù)為 2. 5;識別裝置13根據(jù)該目標(biāo)文本各行的平均字?jǐn)?shù),將該各行的平均字?jǐn)?shù)與預(yù)定的各行平 均字?jǐn)?shù)閾值6進(jìn)行比較,即2.5 < 6,則據(jù)該比較結(jié)果識別該目標(biāo)文本為失序文本。又如, 假設(shè)統(tǒng)計信息獲取裝置12獲取的統(tǒng)計信息為將目標(biāo)文本進(jìn)行分詞處理后獲得的分詞處理 結(jié)果中單字分詞與多字分詞的分布信息,該分布信息示出該分詞處理結(jié)果中單字分詞數(shù)量 與多字分詞數(shù)量的比例值為16 I ;識別裝置13根據(jù)該單字分詞與多字分詞的分布信息, 將該比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的比例閾值3 5進(jìn)行比較,SP 16 : I > 3 : 5,據(jù)此判斷該目標(biāo)文本為失序文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述識別失 序文本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的識別失序文本的方式如可適用于本 發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,文本獲取裝置11、統(tǒng)計信息獲取裝置12和識別裝置13之間是持續(xù)不斷地 工作。具體地,文本獲取裝置11獲取待識別的目標(biāo)文本;隨后,統(tǒng)計信息獲取裝置12根據(jù) 所述目標(biāo)文本,獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息;接著,識別裝置13根據(jù)所述統(tǒng)計 信息,識別所述目標(biāo)文本是否為失序文本。在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指各裝 置分別按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求進(jìn)行目標(biāo)文本的獲取、統(tǒng)計信息的獲取、及 失序文本的識別,直至文本獲取裝置11在較長時間內(nèi)停止對待識別的目標(biāo)文本的獲取。
      圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于識別失序文本的設(shè)備示意圖,統(tǒng)計信 息獲取裝置12’還包括分詞處理單元121’和分布信息獲取單元122’。具體地,分詞處理單 元121’對所述目標(biāo)文本進(jìn)行分詞處理,以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果;分 布信息獲取單元122’對所述分詞處理結(jié)果進(jìn)行統(tǒng)計分析,以獲得與所述目標(biāo)文本相對應(yīng)的 單字分詞或多字分詞的統(tǒng)計分布信息;識別裝置13’還將所述統(tǒng)計分布信息與預(yù)設(shè)的參考分布信息進(jìn)行比較,以識別所述目標(biāo)文本是否為失序文本。在此,圖2中所示裝置11’與前 面參照圖I所描述的裝置11的內(nèi)容相同,為簡明起見,以引用方式包含于此,而不做贅述。
      更具體地,分詞處理單元121’例如對文本獲取裝置11獲取的目標(biāo)文本的每行進(jìn) 行分詞處理,或?qū)υ撃繕?biāo)文本的各行中具有相同列數(shù)的文字組成的列文本進(jìn)行分詞處理, 以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果;其中,分詞處理的方法包括但不限于最 大正向匹配法、最大反向匹配法、詞典串匹配法;接著,分布信息獲取單元122’對分詞處理 單元121’獲取的分詞處理結(jié)果進(jìn)行統(tǒng)計分析,以獲得該分詞處理結(jié)果中單字分詞或多字分 詞的統(tǒng)計分布信息,其中,該單字分詞或多字分詞的統(tǒng)計分布信息包括但不限于單字分詞 數(shù)量與多字分詞數(shù)量的比例值、單字分詞數(shù)量與所有分詞數(shù)量的比例值、多字分詞數(shù)量與 所有分詞數(shù)量的比例值;隨后,識別裝置13’例如將分布信息獲取單元122’獲取的統(tǒng)計分 布信息中單字分詞數(shù)量與多字分詞數(shù)量的比例值與預(yù)設(shè)的參考分布信息中單字分詞數(shù)量 與多字分詞數(shù)量的參考比例閾值進(jìn)行比較,判斷該比例值與參考比例閾值的大小關(guān)系,以 識別目標(biāo)文本是否為失序文本。
      例如,分詞處理單元121’根據(jù)文本獲取裝置11’提供的目標(biāo)文本
      行豎失
      分行序
      詞文文
      處文本
      理字例
      對該目標(biāo)文本的每行文字按照最大正向匹配法進(jìn)行分詞處理,以獲得第一行的分 詞處理結(jié)果為“行/豎/失”,第二行的分詞處理結(jié)果為“分行/序”,第三行的分詞處理結(jié)果 為“詞/文/文”,第四行的分詞結(jié)果為“處/文本”,第五行的分詞結(jié)果為“理/字/例”;接 著,分布信息獲取單元122’對分詞處理單元121’提供的該目標(biāo)文本的各行分詞處理結(jié)果 進(jìn)行統(tǒng)計分析,以獲得該目標(biāo)文本所對應(yīng)的統(tǒng)計分布信息,其示出該分詞處理結(jié)果中單字 分詞數(shù)量與多字分詞數(shù)量的比例為11 2;隨后,識別裝置13’將該單字分詞數(shù)量與多字 分詞數(shù)量的比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的參考比例閾值進(jìn)行比較, 即11 : 2>2 : 5,以識別目標(biāo)文本為失序文本。
      又例如,分詞處理單元121’根據(jù)文本獲取裝置11’提供的目標(biāo)文本
      行豎失
      分行序
      詞文文
      處文本
      理字例
      提取該目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本,即第一列文本為 “行分詞處理”,第二列文本為“豎行文文字”,第三列文本為“失序文本例”,對該三個列文本 按照最大正向匹配法進(jìn)行分詞處理,以獲得第一列文本的分詞處理結(jié)果為“行/分詞/處 理”,第二列文本的分詞處理結(jié)果為“豎行文/文字”,第三列文本的分詞處理結(jié)果為“失序/ 文本/例”;接著,分布信息獲取單元122’對分詞處理單元121’提供的該目標(biāo)文本的各行 分詞處理結(jié)果進(jìn)行統(tǒng)計分析,以獲得該目標(biāo)文本所對應(yīng)的統(tǒng)計分布信息,其示出該分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例為I : 3;隨后,識別裝置13’將該單字分詞 數(shù)量與多字分詞數(shù)量的比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的參考比例閾 值進(jìn)行比較,即I : 3<2 : 5,以識別目標(biāo)文本為失序文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上 述獲取分詞統(tǒng)計信息或獲取分布信息或識別失序文本的方式僅為舉例,其他現(xiàn)有的或今后 可能出現(xiàn)的獲取分詞統(tǒng)計信息、獲取分布信息和識別失序文本的方式如可適用于本發(fā)明, 也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,參考分布信息包括以下至少任一項
      -基于自然語言的標(biāo)準(zhǔn)分布信息;
      -與所述目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息。
      具體地,參考分布信息包括但不限于基于自然語言的標(biāo)準(zhǔn)分布信息、與目標(biāo)文本 所對應(yīng)的應(yīng)用相關(guān)的分布信息。獲得基于自然語言的標(biāo)準(zhǔn)分布信息的方式可為根據(jù)對自 然語言中的海量文本進(jìn)行分詞處理,并對該海量分詞處理的所有分詞處理結(jié)果進(jìn)行統(tǒng)計分 析,以獲得這些海量文本的分詞處理結(jié)果中標(biāo)準(zhǔn)的單字分詞或多字分詞的分布信息;獲得 與目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息的方式可為根據(jù)目標(biāo)文本所在的應(yīng)用,如網(wǎng)絡(luò)論 壇、百度貼吧等,提取該應(yīng)用中的大量正常文本,并對這些文本進(jìn)行分詞處理且對所有分詞 處理結(jié)果進(jìn)行統(tǒng)計分析,以獲得與目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的中單字分詞或多字分詞的 分布信息。本領(lǐng)域技術(shù)人員應(yīng)能理解上述參考分布信息僅為舉例,其他現(xiàn)有的或今后可能 出現(xiàn)的參考分布信息如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用 方式包含于此。
      在另一個優(yōu)選實施例中(參照圖I),識別設(shè)備I還包括選取裝置(未示出),具體 地,選取裝置按照預(yù)置的文本抽樣規(guī)則,從所述目標(biāo)文本中選取優(yōu)選文本;統(tǒng)計信息獲取裝 置12還根據(jù)所述優(yōu)選文本,獲得與所述優(yōu)選文本相對應(yīng)的統(tǒng)計信息。以下參照圖I對該優(yōu) 選實施例進(jìn)行詳細(xì)描述,其中,文本獲取裝置11獲取待識別的目標(biāo)文本;識別裝置13根據(jù) 所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本;其具體過程與前述參照圖I所描述的 實施例中文本獲取裝置11和識別裝置13所執(zhí)行的過程相同,為簡明起見,以引用方式包含 于此,而不做贅述。
      更具體地,選取裝置按照預(yù)置的文本抽樣規(guī)則,從所述目標(biāo)文本中選取優(yōu)選文本, 例如選取裝置從目標(biāo)文本中選取若干行作為優(yōu)選文本;接著,統(tǒng)計信息獲取裝置12還根據(jù) 選取裝置選取的優(yōu)選文本,例如通過對該優(yōu)選文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計,并計算獲得該優(yōu) 選文本的行平均字?jǐn)?shù),以獲得與該優(yōu)選文本相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息。例如,選取裝置根據(jù)文 本獲取裝置11獲取的目標(biāo)文本
      各速
      種打
      證電辦
      件話證
      辦聯(lián)*
      理系&
      按照預(yù)置的文本抽樣規(guī)則,選取目標(biāo)文本中的前三行,
      各速
      種打
      證電辦
      作為優(yōu)選文本;接著,統(tǒng)計信息獲取裝置12將該優(yōu)選文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng) 計,即該優(yōu)選文本從上到下各行字?jǐn)?shù)分別為2、2、3,并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為 2. 3。本領(lǐng)域技術(shù)人員應(yīng)能理解上述選取優(yōu)選文本與獲取統(tǒng)計信息的方式僅為舉例,其他現(xiàn) 有的或今后可能出現(xiàn)的選取優(yōu)選文本或獲取統(tǒng)計信息的方式如可適用于本發(fā)明,也應(yīng)包含 在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,所述文本抽樣規(guī)則基于以下至少任一項來從所述目標(biāo)文本中選取所述優(yōu) 選文本
      -選取所述目標(biāo)文本中的若干行文本;
      -選取所述目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本。
      具體地,文本抽樣規(guī)則基于選取目標(biāo)文本中的若干行文本來從該目標(biāo)文本中選取 優(yōu)選文本。例如,選取裝置從目標(biāo)文本中隨機(jī)地選取若干行文本作為優(yōu)選文本,或選取裝置 從目標(biāo)文本中選取固定地若干行作為優(yōu)選文本。文本抽樣規(guī)則基于選取目標(biāo)文本的各行中 具有相同列數(shù)的文字組成的列文本來從該目標(biāo)文本中選取優(yōu)選文本,例如,假設(shè)目標(biāo)文本 為5行8列的文本,各行中具有相同列數(shù)的字符組成的字符序列構(gòu)成一個列文本,如此獲得 與該目標(biāo)文本相對應(yīng)的8個列文本;選取裝置可從該些列文本中選取固定若干列文本作為 優(yōu)選文本。優(yōu)選地,選取裝置還可以根據(jù)上述文本抽樣規(guī)則的任意組合,從所述目標(biāo)文本中 選取優(yōu)選文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述文本抽樣規(guī)則僅為舉例,其他現(xiàn)有的或今后 可能出現(xiàn)的文本抽樣規(guī)則如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以 引用方式包含于此。
      在又一個優(yōu)選實施例中(參照圖I),識別設(shè)備I還包括預(yù)處理裝置(未示出)。以 下參照圖I對該優(yōu)選實施例進(jìn)行詳細(xì)描述,其中,文本獲取裝置11獲取待識別的目標(biāo)文本; 識別裝置13根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本;其具體過程與前述參 照圖I所描述的實施例中文本獲取裝置11和識別裝置13所執(zhí)行的過程相同,為簡明起見, 以引用方式包含于此,而不做贅述。
      具體地,預(yù)處理裝置對所述目標(biāo)文本進(jìn)行預(yù)處理,獲得預(yù)處理文本;統(tǒng)計信息獲取 裝置12還根據(jù)所述預(yù)處理文本,獲得與所述預(yù)處理文本相對應(yīng)的統(tǒng)計信息。更具體地,預(yù) 處理裝置對目標(biāo)文本進(jìn)行諸如濾除特定字符、將異型文字轉(zhuǎn)化為正常文字等預(yù)處理,獲得 預(yù)處理文本;統(tǒng)計信息獲取裝置12根據(jù)預(yù)處理裝置獲得的預(yù)處理文本,例如通過對該預(yù)處 理文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計,并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù),以獲取與該目標(biāo)文本 相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息。例如,假設(shè)目標(biāo)文本為
      矢預(yù)#
      塘処#
      吱理&
      卒 #&
      預(yù)處理裝置首先將該目標(biāo)文本的每個字符在特定字符庫中進(jìn)行匹配查詢,獲得字 符為特定字符,然后預(yù)處理裝置將字符從該失序文本中濾除,獲得第一預(yù)處理結(jié) 果
      矢預(yù)
      塘処
      吱理

      接著,預(yù)處理裝置將該第一預(yù)處理文本的每個字符在異型文字庫中進(jìn)行匹配查詢,并據(jù)此將火星文字‘矢’轉(zhuǎn)化為‘失’,‘塘’轉(zhuǎn)化為‘序’,‘吱’轉(zhuǎn)化為‘文’,‘卒’轉(zhuǎn)化為 ‘本’,‘預(yù)’轉(zhuǎn)化為‘預(yù)’,‘処’轉(zhuǎn)化為‘處’從而獲得第二預(yù)處理結(jié)果
      失預(yù)
      序處
      文理

      并將該第二預(yù)處理結(jié)果作為預(yù)處理文本;然 后,統(tǒng)計信息獲取裝置12根據(jù)預(yù)處理裝置獲得的預(yù)處理文本,將該預(yù)處理文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng)計,即該預(yù)處理文本從上到下各行字?jǐn)?shù)分別為2、2、2、1,并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為I. 75。在此,所舉實施例中的特定字符庫用于存儲預(yù)定義的特定字符,包括但不限于關(guān)系數(shù)據(jù)庫,內(nèi)存存儲器,硬盤存儲器等,所舉實施例中的異型文字庫用于存儲諸如菊花體、火星文等異型文字及與其對應(yīng)的正常文字的映射。在此,本領(lǐng)域技術(shù)人員應(yīng)能理解,所述特定字符庫既可以與所述異型文字庫相互獨(dú)立,也可以集成于所述異型文字庫中。本領(lǐng)域技術(shù)人員應(yīng)能理解上述目標(biāo)文本預(yù)處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的目標(biāo)文本預(yù)處理的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,所述預(yù)處理操作包括以下至少任一項
      -濾除所述目標(biāo)文本中的特定字符;
      -將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
      具體地,預(yù)處理操作包括濾除目標(biāo)文本中的特定字符,該特定字符包括但不限于 ~、*、I、◎、口、(^、Θ、★等,其可存儲在特定字符庫中;預(yù)處理操作包括將目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字,該異型文字包括但不限于菊花文、火星文等,其可存儲在異型文字庫中。本領(lǐng)域技術(shù)人員應(yīng)能理解,上述兩項預(yù)處理規(guī)則不僅可以單獨(dú)用于對目標(biāo)文本進(jìn)行預(yù)處理,還可以將兩項結(jié)合用于對目標(biāo)文本進(jìn)行預(yù)處理。本領(lǐng)域技術(shù)人員應(yīng)能理解上述預(yù)處理規(guī)則僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的預(yù)處理規(guī)則如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,所述預(yù)處理操作包括將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字;其中,所述預(yù)處理裝置將所述目標(biāo)文本在異型文字庫進(jìn)行匹配映射,以使所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。具體地,預(yù)處理裝置將文本獲取裝置11獲取的目標(biāo)文本在異型文字庫中進(jìn)行匹配映射,若匹配成功,則將該字符串轉(zhuǎn)化為其在異型文字庫中匹配映射得到的正常文字,其中,匹配方式包括但不限于最大字符串匹配、正則表達(dá)式匹配。例如,假設(shè)目標(biāo)文本中包括字符串“偷愫誰”,預(yù)處理裝置將該字符串的第一個字符“偷”在異型文字庫中進(jìn)行匹配映射,匹配獲得火星文“偷”與正常文字“你”相對應(yīng),接著,將該字符串的前兩個字符“偷愫”在異型文字庫中進(jìn)行匹配映射,匹配獲得火星文“偷愫”與正常文字“你是”相對應(yīng),隨后,將該字符串“偷愫誰”在異型文字庫中再次進(jìn)行匹配映射,沒有匹配到與其相對應(yīng)的正常文字,則將“偷愫誰”的前兩個字符轉(zhuǎn)換為正常文字且保留第三個字符,獲得轉(zhuǎn)化 后的文字為“你是誰”。又如,假設(shè)目標(biāo)文本中包括數(shù)字字符串“13955667788”,預(yù)處理裝置 根據(jù)將該數(shù)字字符串進(jìn)行正則表達(dá)式匹配,獲得“ 139”與“ 139”相對應(yīng)的正則表達(dá)式相匹 配,將“13955667788”轉(zhuǎn)化為“13955667788”。本領(lǐng)域技術(shù)人員應(yīng)能理解上述將異型文字轉(zhuǎn) 化為正常文字的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的將異型文字轉(zhuǎn)化為正常文字 的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,所述異型文字包括以下至少任一項
      -火星文;
      -菊花文。
      具體地,異形文字包括但不限于火星文、菊花文?;鹦俏挠煞?、繁體字、日文、韓 文、冷僻字或漢字拆分后的部分等非正規(guī)化文字符號組合而成,如正常文字“國家大劇院” 對應(yīng)的火星文為“啯傢t劇院”;菊花文指在標(biāo)準(zhǔn)字符的前后加入一些特殊字符,如“失□序 □文□字□”,其中,菊花文的符號“□”的ASCII碼為1161。本領(lǐng)域技術(shù)人員應(yīng)能理解上述 異型文字僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的異型文字如可適用于本發(fā)明,也應(yīng)包含 在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      在再一個優(yōu)選實施例中(參照圖I),識別設(shè)備I還包括提供裝置(未示出)。具 體地,文本獲取裝置11獲取用戶通過用戶設(shè)備提交的待識別的目標(biāo)文本;提供裝置將所述 目標(biāo)文本的識別結(jié)果提供給所述用戶設(shè)備。以下參照圖I對該優(yōu)選實施例進(jìn)行詳細(xì)描述, 其中,統(tǒng)計信息獲取裝置12根據(jù)所述目標(biāo)文本,獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息; 識別裝置13根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本;其具體過程與前述參 照圖I所描述的實施例中統(tǒng)計信息獲取裝置12和識別裝置13所執(zhí)行的過程相同,為簡明 起見,以引用方式包含于此,而不做贅述。
      更具體地,用戶通過與用戶設(shè)備的交互方式,包括但不限于鍵盤、鼠標(biāo)、遙控器、觸 摸板、或手寫設(shè)備,在瀏覽器軟件、應(yīng)用程序或客戶端軟件中輸入目標(biāo)文本;以鍵盤為例,用 戶在應(yīng)用程序的輸入文本框完成目標(biāo)文本的輸入,并通過點(diǎn)擊“提交”按鈕或其他方式觸發(fā) 用戶設(shè)備將該目標(biāo)文本按照約定的通信協(xié)議經(jīng)由網(wǎng)絡(luò)發(fā)送到識別設(shè)備1,文本獲取裝置11 通過監(jiān)聽用戶消息,實時地接收該失序文本。在此,該用戶設(shè)備可以是任何一種可與用戶 通過鍵盤、鼠標(biāo)、遙控器、觸摸板、或聲控設(shè)備進(jìn)行人機(jī)交互的電子產(chǎn)品,包括但不限于計算 機(jī)、智能手機(jī)、PDA、或IPTV等。識別設(shè)備I與用戶設(shè)備之間可通過任何通信方式實現(xiàn)通信, 包括但不限于,基于3GPP、LTE、WIMAX的移動通信、基于TCP/IP、UDP協(xié)議的計算機(jī)網(wǎng)絡(luò)通 信以及基于藍(lán)牙、紅外傳輸標(biāo)準(zhǔn)的近距無線傳輸方式。識別設(shè)備I與用戶設(shè)備連接的網(wǎng)絡(luò) 包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc網(wǎng)絡(luò)) 等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本的方式僅為舉例,其他現(xiàn)有的或今后可能 出現(xiàn)的獲取目標(biāo)文本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此 以引用方式包含于此。
      隨后,提供裝置根據(jù)識別裝置13獲取的目標(biāo)文本的識別結(jié)果,例如識別結(jié)果是目 標(biāo)文本是否為失序文本,采用任何已知的計算機(jī)提供人可讀信息的技術(shù)手段,例如屏幕顯 示、揚(yáng)聲器播放等,將該識別結(jié)果提供給用戶設(shè)備。以屏幕顯示為例,提供裝置將目標(biāo)文本 的識別結(jié)果,利用頁面技術(shù),如JSP、ASP或PHP,按一定格式提供給用戶設(shè)備,例如以鏈接、頁面文本等形式提供給用戶設(shè)備,供用戶進(jìn)行瀏覽。本領(lǐng)域技術(shù)人員應(yīng)能理解上述對提供 識別結(jié)果的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的提供識別結(jié)果的方式如可適用于 本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      圖3示出根據(jù)本發(fā)明一個方面用于識別失序文本的方法流程圖。在此,識別設(shè)備I 包括但不限于計算機(jī)、網(wǎng)絡(luò)主機(jī)、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的 云。在此,云由基于云計算(Cloud Computing)的大量計算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云 計算是分布式計算的一種,由一群松散耦合的計算機(jī)集組成的一個超級虛擬計算機(jī)。
      具體地,在步驟SI中,識別設(shè)備I獲取待識別的目標(biāo)文本。更具體地,在步驟SI 中,識別設(shè)備I按預(yù)定周期或應(yīng)事件觸發(fā)實時地獲取待處理的目標(biāo)文本,例如通過實時監(jiān) 聽用戶通過用戶設(shè)備提交的目標(biāo)文本提交請求,以獲取用戶輸入的目標(biāo)文本,或者定期地 通過約定的通信方式直接從第三方設(shè)備讀取目標(biāo)文本。例如,假設(shè)識別設(shè)備I為網(wǎng)絡(luò)論壇 服務(wù)器,用戶通過用戶設(shè)備在網(wǎng)絡(luò)論壇網(wǎng)頁的輸入界面輸入一段文本信息,然后,用戶設(shè)備 將該信息作為論壇發(fā)帖包裝成http請求并通過http通信協(xié)議提交到識別設(shè)備1,接著,識 別設(shè)備I通過實時監(jiān)聽用戶消息,接收并解析該http請求,獲取其中的文本信息并作為目 標(biāo)文本。再如,在步驟SI中,識別設(shè)備I按一定周期,定期地通過調(diào)用預(yù)定的應(yīng)用編程接口 (API)向第三方設(shè)備發(fā)送獲取目標(biāo)文本的請求,并接收該第三方設(shè)備基于該請求返回的目 標(biāo)文本的文檔。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本的方式僅為舉例,其他現(xiàn)有的 或今后可能出現(xiàn)的獲取目標(biāo)文本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以 內(nèi),并在此以引用方式包含于此。
      隨后,在步驟S2中,識別設(shè)備I根據(jù)所述目標(biāo)文本,獲得與所述目標(biāo)文本相對應(yīng)的 統(tǒng)計信息。具體地,在步驟S2中,識別設(shè)備I根據(jù)其在步驟SI中提供的目標(biāo)文本,例如通 過對該目標(biāo)文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計,并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù),以獲取與該 目標(biāo)文本相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息;或者通過對該目標(biāo)文本進(jìn)行分詞處理,并統(tǒng)計獲得分詞 處理后的分詞處理結(jié)果中單字分詞與多字分詞的分布信息,如單字分詞與多字分詞的比例 值,以獲取與該目標(biāo)文本相對應(yīng)的統(tǒng)計信息。例如,在步驟S2中,識別設(shè)備I根據(jù)其在步驟 SI中提供的目標(biāo)文本
      證速
      件打
      辦電辦
      理話證
      將該目標(biāo)文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng)計,即該目標(biāo)文本從上到下各行字?jǐn)?shù)分別為2、 2、3、3,并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為2. 5。再如,在步驟S2中,識別設(shè)備I根據(jù)其 在步驟SI中提供的目標(biāo)文本
      進(jìn)豎失
      行行序
      分文文
      詞文本
      處字舉
      理& 例
      對該目標(biāo)文本的每行文字按照最大反向匹配法進(jìn)行分詞處理,以獲得分詞處理結(jié)果如下
      選/豎/失
      行/行/序
      分/文/文
      詞/文本
      處/字/舉
      理/&/例
      并計算該目標(biāo)文本的分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例值為 16 I。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲得統(tǒng)計信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲得統(tǒng)計信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      接著,在步驟S3中,識別設(shè)備I根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本。具體地,在步驟S3中,識別設(shè)備I根據(jù)其在步驟S2中獲取的統(tǒng)計信息,例如若統(tǒng)計信息中包括該目標(biāo)文本各行的平均字?jǐn)?shù),則將該各行的平均字?jǐn)?shù)與預(yù)定的各行平均字?jǐn)?shù)閾值進(jìn)行比較,當(dāng)該各行的平均字?jǐn)?shù)小于預(yù)定的各行平均字?jǐn)?shù)閾值時,識別該目標(biāo)文本為失序文本;若統(tǒng)計信息中包括對該目標(biāo)文本進(jìn)行分詞處理所獲得的分詞處理結(jié)果中單字分詞與多字分詞的分布信息,將該分詞統(tǒng)計信息與預(yù)設(shè)的參考統(tǒng)計信息進(jìn)行比較,識別該目標(biāo)文本是否為失序文本。例如,假設(shè)在步驟S2中,識別設(shè)備I獲取的統(tǒng)計信息為該目標(biāo)文本各行的平均字?jǐn)?shù)為2. 5 ;在步驟S3中,識別設(shè)備I根據(jù)該目標(biāo)文本各行的平均字?jǐn)?shù),將該各行的平均字?jǐn)?shù)與預(yù)定的各行平均字?jǐn)?shù)閾值6進(jìn)行比較,即2. 5 < 6,則據(jù)該比較結(jié)果識別該目標(biāo)文本為失序文本。又如,假設(shè)在步驟S2中,識別設(shè)備I獲取的統(tǒng)計信息為將目標(biāo)文本進(jìn)行分詞處理后獲得的分詞處理結(jié)果中單字分詞與多字分詞的分布信息,該分布信息示出該分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例值為16 I;在步驟S3中,識別設(shè)備I根據(jù)該單字分詞與多字分詞的分布信息,將該比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的比例閾值3 5進(jìn)行比較,S卩16 1>3 5,據(jù)此判斷該目標(biāo)文本為失序文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述識別失序文本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的識別失序文本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,上述各步驟之間是持續(xù)不斷地工作。具體地,在步驟SI中,識別設(shè)備I獲取待識別的目標(biāo)文本;隨后,在步驟S2中,識別設(shè)備I根據(jù)所述目標(biāo)文本,獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息;接著,在步驟S3中,識別設(shè)備I根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本。在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指各步驟分別按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求進(jìn)行目標(biāo)文本的獲取、統(tǒng)計信息的獲取、及失序文本的識別,直至識別設(shè)備I在較長時間內(nèi)停止對待識別的目標(biāo)文本的獲取。
      圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于識別失序文本的方法流程圖,步驟 S2’還包括步驟S21’和步驟S22’。具體地,在步驟S21’中,識別設(shè)備I對所述目標(biāo)文本進(jìn)行分詞處理,以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果;在步驟S22’中,識別設(shè)備I對所述分詞處理結(jié)果進(jìn)行統(tǒng)計分析,以獲得與所述目標(biāo)文本相對應(yīng)的單字分詞或多字分詞的統(tǒng)計分布信息;在步驟S3’中,識別設(shè)備I還將所述統(tǒng)計分布信息與預(yù)設(shè)的參考分布信息進(jìn) 行比較,以識別所述目標(biāo)文本是否為失序文本。在此,圖4中所示步驟SI,與前面參照圖3 所描述的步驟SI的內(nèi)容相同,為簡明起見,以引用方式包含于此,而不做贅述。
      更具體地,在步驟S21’中,識別設(shè)備I例如對其在步驟SI’中獲取的目標(biāo)文本的每 行進(jìn)行分詞處理,或?qū)υ撃繕?biāo)文本的各行中具有相同列數(shù)的文字組成的列文本進(jìn)行分詞處 理,以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果;其中,分詞處理的方法包括但不限于 最大正向匹配法、最大反向匹配法、詞典串匹配法;接著,在步驟S22’中,識別設(shè)備I對其在 步驟S21’中獲取的分詞處理結(jié)果進(jìn)行統(tǒng)計分析,以獲得該分詞處理結(jié)果中單字分詞或多字 分詞的統(tǒng)計分布信息,其中,該單字分詞或多字分詞的統(tǒng)計分布信息包括但不限于單字分 詞數(shù)量與多字分詞數(shù)量的比例值、單字分詞數(shù)量與所有分詞數(shù)量的比例值、多字分詞數(shù)量 與所有分詞數(shù)量的比例值;隨后,在步驟S3’中,識別設(shè)備I例如將其在步驟S22’中獲取的 統(tǒng)計分布信息中單字分詞數(shù)量與多字分詞數(shù)量的比例值與預(yù)設(shè)的參考分布信息中單字分 詞數(shù)量與多字分詞數(shù)量的參考比例閾值進(jìn)行比較,判斷該比例值與參考比例閾值的大小關(guān) 系,以識別目標(biāo)文本是否為失序文本。
      例如,在步驟S21’中,識別設(shè)備I根據(jù)其在步驟SI’中提供的目標(biāo)文本
      行豎失
      分行序
      詞文文
      處文本
      理字例
      對該目標(biāo)文本的每行文字按照最大正向匹配法進(jìn)行分詞處理,以獲得第一行的分 詞處理結(jié)果為“行/豎/失”,第二行的分詞處理結(jié)果為“分行/序”,第三行的分詞處理結(jié) 果為“詞/文/文”,第四行的分詞結(jié)果為“處/文本”,第五行的分詞結(jié)果為“理/字/例”; 接著,在步驟S22’中,識別設(shè)備I對其在步驟S21’中提供的該目標(biāo)文本的各行分詞處理結(jié) 果進(jìn)行統(tǒng)計分析,以獲得該目標(biāo)文本所對應(yīng)的統(tǒng)計分布信息,其示出該分詞處理結(jié)果中單 字分詞數(shù)量與多字分詞數(shù)量的比例為11 2;隨后,在步驟S3’中,識別設(shè)備I將該單字分 詞數(shù)量與多字分詞數(shù)量的比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的參考比例 閾值進(jìn)行比較,即11 2>2 5,以識別目標(biāo)文本為失序文本。
      又例如,在步驟S21’中,識別設(shè)備I根據(jù)其在步驟SI’中提供的目標(biāo)文本
      行豎失
      分行序
      詞文文
      處文本
      理字例
      提取該目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本,即第一列文本為 “行分詞處理”,第二列文本為“豎行文文字”,第三列文本為“失序文本例”,對該三個列文本 按照最大正向匹配法進(jìn)行分詞處理,以獲得第一列文本的分詞處理結(jié)果為“行/分詞/處 理”,第二列文本的分詞處理結(jié)果為“豎行文/文字”,第三列文本的分詞處理結(jié)果為“失序 /文本/例”;接著,在步驟S22’中,識別設(shè)備I對其在步驟S21’中提供的該目標(biāo)文本的各行分詞處理結(jié)果進(jìn)行統(tǒng)計分析,以獲得該目標(biāo)文本所對應(yīng)的統(tǒng)計分布信息,其示出該分詞 處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例為I : 3;隨后,在步驟S3’中,識別設(shè)備 I將該單字分詞數(shù)量與多字分詞數(shù)量的比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量 的參考比例閾值進(jìn)行比較,即I : 3<2 : 5,以識別目標(biāo)文本為失序文本。本領(lǐng)域技術(shù)人 員應(yīng)能理解上述獲取分詞統(tǒng)計信息或獲取分布信息或識別失序文本的方式僅為舉例,其他 現(xiàn)有的或今后可能出現(xiàn)的獲取分詞統(tǒng)計信息、獲取分布信息和識別失序文本的方式如可適 用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,參考分布信息包括以下至少任一項
      -基于自然語言的標(biāo)準(zhǔn)分布信息;
      -與所述目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息。
      具體地,參考分布信息包括但不限于基于自然語言的標(biāo)準(zhǔn)分布信息、與目標(biāo)文本 所對應(yīng)的應(yīng)用相關(guān)的分布信息。獲得基于自然語言的標(biāo)準(zhǔn)分布信息的方式可為根據(jù)對自 然語言中的海量文本進(jìn)行分詞處理,并對該海量分詞處理的所有分詞處理結(jié)果進(jìn)行統(tǒng)計分 析,以獲得這些海量文本的分詞處理結(jié)果中標(biāo)準(zhǔn)的單字分詞或多字分詞的分布信息;獲得 與目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息的方式可為根據(jù)目標(biāo)文本所在的應(yīng)用,如網(wǎng)絡(luò)論 壇、百度貼吧等,提取該應(yīng)用中的大量正常文本,并對這些文本進(jìn)行分詞處理且對所有分詞 處理結(jié)果進(jìn)行統(tǒng)計分析,以獲得與目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的中單字分詞或多字分詞的 分布信息。本領(lǐng)域技術(shù)人員應(yīng)能理解上述參考分布信息僅為舉例,其他現(xiàn)有的或今后可能 出現(xiàn)的參考分布信息如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用 方式包含于此。
      在另一個優(yōu)選實施例中(參照圖3),該過程還包括步驟S4(未示出),具體地,在 步驟S4中,識別設(shè)備I按照預(yù)置的文本抽樣規(guī)則,從所述目標(biāo)文本中選取優(yōu)選文本;在步驟 S2中,識別設(shè)備I還根據(jù)所述優(yōu)選文本,獲得與所述優(yōu)選文本相對應(yīng)的統(tǒng)計信息。以下參 照圖3對該優(yōu)選實施例進(jìn)行詳細(xì)描述,其中,在步驟SI中,識別設(shè)備I獲取待識別的目標(biāo)文 本;在步驟S3中,識別設(shè)備I根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本;其具 體過程與前述參照圖3所描述的實施例中在步驟SI和步驟S3所執(zhí)行的過程相同,為簡明 起見,以引用方式包含于此,而不做贅述。
      更具體地,在步驟S4中,識別設(shè)備I按照預(yù)置的文本抽樣規(guī)則,從所述目標(biāo)文本中 選取優(yōu)選文本,例如在步驟S4中,識別設(shè)備I從目標(biāo)文本中選取若干行作為優(yōu)選文本;接 著,在步驟S2中,識別設(shè)備I還根據(jù)其在步驟S4中選取的優(yōu)選文本,例如通過對該優(yōu)選文 本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計,并計算獲得該優(yōu)選文本的行平均字?jǐn)?shù),以獲得與該優(yōu)選文本相對 應(yīng)的字?jǐn)?shù)統(tǒng)計信息。例如,在步驟S4中,識別設(shè)備I根據(jù)其在步驟SI中獲取的目標(biāo)文本
      各速
      種打
      證電辦
      件話證
      辦聯(lián)*
      理系&
      按照預(yù)置的文本抽樣規(guī)則,選取目標(biāo)文本中的前三行,
      各速
      種打
      證電辦
      作為優(yōu)選文本;接著,在步驟S2中,識別設(shè)備I將該優(yōu)選文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng) 計,即該優(yōu)選文本從上到下各行字?jǐn)?shù)分別為2、2、3,并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為2.3。本領(lǐng)域技術(shù)人員應(yīng)能理解上述選取優(yōu)選文本與獲取統(tǒng)計信息的方式僅為舉例,其他現(xiàn) 有的或今后可能出現(xiàn)的選取優(yōu)選文本或獲取統(tǒng)計信息的方式如可適用于本發(fā)明,也應(yīng)包含 在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,所述文本抽樣規(guī)則基于以下至少任一項來從所述目標(biāo)文本中選取所述優(yōu) 選文本
      -選取所述目標(biāo)文本中的若干行文本;
      -選取所述目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本。
      具體地,文本抽樣規(guī)則基于選取目標(biāo)文本中的若干行文本來從該目標(biāo)文本中選取 優(yōu)選文本。例如,在步驟S4中,識別設(shè)備I從目標(biāo)文本中隨機(jī)地選取若干行文本作為優(yōu)選 文本,或從目標(biāo)文本中選取固定地若干行作為優(yōu)選文本。文本抽樣規(guī)則基于選取目標(biāo)文本 的各行中具有相同列數(shù)的文字組成的列文本來從該目標(biāo)文本中選取優(yōu)選文本,例如,假設(shè) 目標(biāo)文本為5行8列的文本,各行中具有相同列數(shù)的字符組成的字符序列構(gòu)成一個列文本, 如此獲得與該目標(biāo)文本相對應(yīng)的8個列文本;在步驟S4中,識別設(shè)備I可從該些列文本中 選取固定若干列文本作為優(yōu)選文本。優(yōu)選地,在步驟S4中,識別設(shè)備I還可以根據(jù)上述文 本抽樣規(guī)則的任意組合,從所述目標(biāo)文本中選取優(yōu)選文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述 文本抽樣規(guī)則僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的文本抽樣規(guī)則如可適用于本發(fā)明, 也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      在又一個優(yōu)選實施例中(參照圖3),該過程還包括步驟S5(未示出)。以下參照 圖3對該優(yōu)選實施例進(jìn)行詳細(xì)描述,其中,在步驟SI中,識別設(shè)備I獲取待識別的目標(biāo)文 本;在步驟S3中,識別設(shè)備I根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本;其具 體過程與前述參照圖3所描述的實施例中步驟SI和S3所執(zhí)行的過程相同,為簡明起見,以 引用方式包含于此,而不做贅述。
      具體地,在步驟S5中,識別設(shè)備I對所述目標(biāo)文本進(jìn)行預(yù)處理,獲得預(yù)處理文本; 在步驟S2中,識別設(shè)備I還根據(jù)所述預(yù)處理文本,獲得與所述預(yù)處理文本相對應(yīng)的統(tǒng)計信 息。更具體地,在步驟S5中,識別設(shè)備I對目標(biāo)文本進(jìn)行諸如濾除特定字符、將異型文字轉(zhuǎn) 化為正常文字等預(yù)處理,獲得預(yù)處理文本;在步驟S2中,識別設(shè)備I根據(jù)其在步驟S5中獲 得的預(yù)處理文本,例如通過對該預(yù)處理文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計,并計算獲得該目標(biāo)文本 的行平均字?jǐn)?shù),以獲取與該目標(biāo)文本相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息。例如,假設(shè)目標(biāo)文本為
      矢預(yù)#
      糖処#
      吱理&
      卒#&
      在步驟S5中,識別設(shè)備I首先將該目標(biāo)文本的每個字符在特定字符庫中進(jìn)行匹配 查詢,獲得字符‘#,、‘&’為特定字符,然后識別設(shè)備I將字符從該失序文本中濾除,獲得第一預(yù)處理結(jié)果
      矢預(yù)
      塘処
      吱理

      接著,在步驟S5中,識別設(shè)備I將該第一預(yù)處理文本的每個字符在異型文字庫中進(jìn)行匹配查詢,并據(jù)此將火星文字‘矢’轉(zhuǎn)化為‘失’,‘塘’轉(zhuǎn)化為‘序’,‘吱’轉(zhuǎn)化為‘文’, ‘卒’轉(zhuǎn)化為‘本’,‘預(yù)’轉(zhuǎn)化為‘預(yù)’,‘処’轉(zhuǎn)化為‘處’從而獲得第二預(yù)處理結(jié)果
      失預(yù)
      序處
      文理

      并將該第二預(yù)處理結(jié)果作為預(yù)處理文本;然后,在步驟S2中,識別設(shè)備I根據(jù)其在步驟S5中獲得的預(yù)處理文本,將該預(yù)處理文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng)計,即該預(yù)處理文本從上到下各行字?jǐn)?shù)分別為2、2、2、1,并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為I. 75。在此,所舉實施例中的特定字符庫用于存儲預(yù)定義的特定字符,包括但不限于關(guān)系數(shù)據(jù)庫,內(nèi)存存儲器,硬盤存儲器等,所舉實施例中的異型文字庫用于存儲諸如菊花體、火星文等異型文字及與其對應(yīng)的正常文字的映射。在此,本領(lǐng)域技術(shù)人員應(yīng)能理解,所述特定字符庫既可以與所述異型文字庫相互獨(dú)立,也可以集成于所述異型文字庫中。本領(lǐng)域技術(shù)人員應(yīng)能理解上述目標(biāo)文本預(yù)處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的目標(biāo)文本預(yù)處理的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,所述預(yù)處理操作包括以下至少任一項
      -濾除所述目標(biāo)文本中的特定字符;
      -將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
      具體地,預(yù)處理操作包括濾除目標(biāo)文本中的特定字符,該特定字符包括但不限于 ~、*、I、◎、口、6\θ、★等,其可存儲在特定字符庫中;預(yù)處理操作包括將目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字,該異型文字包括但不限于菊花文、火星文等,其可存儲在異型文字庫中。本領(lǐng)域技術(shù)人員應(yīng)能理解,上述兩項預(yù)處理規(guī)則不僅可以單獨(dú)用于對目標(biāo)文本進(jìn)行預(yù)處理,還可以將兩項結(jié)合用于對目標(biāo)文本進(jìn)行預(yù)處理。本領(lǐng)域技術(shù)人員應(yīng)能理解上述預(yù)處理規(guī)則僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的預(yù)處理規(guī)則如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,所述預(yù)處理操作包括將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字;其中,步驟S5中,識別設(shè)備I將所述目標(biāo)文本在異型文字庫進(jìn)行匹配映射,以使所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。具體地,在步驟S5中,識別設(shè)備I將其在步驟SI中獲取的目標(biāo)文本在異型文字庫中進(jìn)行匹配映射,若匹配成功,則將該字符串轉(zhuǎn)化為其在異型文字庫中匹配映射得到的正常文字,其中,匹配方式包括但不限于最大字符串匹配、正則表達(dá)式匹配。例如,假設(shè)目標(biāo)文本中包括字符串“偷愫誰”,在步驟S5中,識別設(shè)備I將該字符串的第一個字符“偷”在異型文字庫中進(jìn)行匹配映射,匹配獲得火星文“偷”與正常文字“你”相對應(yīng),接著,將該字符串的前兩個字符“偷愫”在異型文字庫中進(jìn)行匹配映射,匹配獲得火星、文“偷愫”與正常文字“你是”相對應(yīng),隨后,將該字符串“偷愫誰”在異型文字庫中再次進(jìn)行 匹配映射,沒有匹配到與其相對應(yīng)的正常文字,則將“偷愫誰”的前兩個字符轉(zhuǎn)換為正常文 字且保留第三個字符,獲得轉(zhuǎn)化后的文字為“你是誰”。又如,假設(shè)目標(biāo)文本中包括數(shù)字字符 串“13955667788”,在步驟S5中,識別設(shè)備I根據(jù)將該數(shù)字字符串進(jìn)行正則表達(dá)式匹配,獲 得“ 139”與“ 139”相對應(yīng)的正則表達(dá)式相匹配,將“ 13955667788”轉(zhuǎn)化為“ 13955667788”。 本領(lǐng)域技術(shù)人員應(yīng)能理解上述將異型文字轉(zhuǎn)化為正常文字的方式僅為舉例,其他現(xiàn)有的或 今后可能出現(xiàn)的將異型文字轉(zhuǎn)化為正常文字的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明 保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      優(yōu)選地,所述異型文字包括以下至少任一項
      -火星文;
      -菊花文。
      具體地,異形文字包括但不限于火星文、菊花文?;鹦俏挠煞?、繁體字、日文、韓 文、冷僻字或漢字拆分后的部分等非正規(guī)化文字符號組合而成,如正常文字“國家大劇院” 對應(yīng)的火星文為“啯傢t劇院”;菊花文指在標(biāo)準(zhǔn)字符的前后加入一些特殊字符,如“失□序 □文□字□”,其中,菊花文的符號“□”的ASCII碼為1161。本領(lǐng)域技術(shù)人員應(yīng)能理解上述 異型文字僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的異型文字如可適用于本發(fā)明,也應(yīng)包含 在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      在再一個優(yōu)選實施例中(參照圖3),該過程還包括步驟S6(未示出)。具體地,在 步驟S I中,識別設(shè)備I獲取用戶通過用戶設(shè)備提交的待識別的目標(biāo)文本;在步驟S6中,識 別設(shè)備I將所述目標(biāo)文本的識別結(jié)果提供給所述用戶設(shè)備。以下參照圖3對該優(yōu)選實施例 進(jìn)行詳細(xì)描述,其中,在步驟S2中,識別設(shè)備I根據(jù)所述目標(biāo)文本,獲得與所述目標(biāo)文本相 對應(yīng)的統(tǒng)計信息;在步驟S3中,識別設(shè)備I根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失 序文本;其具體過程與前述參照圖3所描述的實施例中步驟S2和S3所執(zhí)行的過程相同,為 簡明起見,以引用方式包含于此,而不做贅述。
      更具體地,用戶通過與用戶設(shè)備的交互方式,包括但不限于鍵盤、鼠標(biāo)、遙控器、觸 摸板、或手寫設(shè)備,在瀏覽器軟件、應(yīng)用程序或客戶端軟件中輸入目標(biāo)文本;以鍵盤為例,用 戶在應(yīng)用程序的輸入文本框完成目標(biāo)文本的輸入,并通過點(diǎn)擊“提交”按鈕或其他方式觸發(fā) 用戶設(shè)備將該目標(biāo)文本按照約定的通信協(xié)議經(jīng)由網(wǎng)絡(luò)發(fā)送到識別設(shè)備1,在步驟S I中,識 別設(shè)備I通過監(jiān)聽用戶消息,實時地接收該失序文本。在此,該用戶設(shè)備可以是任何一種可 與用戶通過鍵盤、鼠標(biāo)、遙控器、觸摸板、或聲控設(shè)備進(jìn)行人機(jī)交互的電子產(chǎn)品,包括但不限 于計算機(jī)、智能手機(jī)、PDA、或IPTV等。識別設(shè)備I與用戶設(shè)備之間可通過任何通信方式實 現(xiàn)通信,包括但不限于,基于3GPP、LTE、WIMAX的移動通信、基于TCP/IP、UDP協(xié)議的計算機(jī) 網(wǎng)絡(luò)通信以及基于藍(lán)牙、紅外傳輸標(biāo)準(zhǔn)的近距無線傳輸方式。識別設(shè)備I與用戶設(shè)備連接 的網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc 網(wǎng)絡(luò))等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本的方式僅為舉例,其他現(xiàn)有的或今 后可能出現(xiàn)的獲取目標(biāo)文本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi), 并在此以引用方式包含于此。
      隨后,在步驟S6中,識別設(shè)備I根據(jù)其在步驟S3中獲取的目標(biāo)文本的識別結(jié)果, 例如識別結(jié)果是目標(biāo)文本是否為失序文本,采用任何已知的計算機(jī)提供人可讀信息的技術(shù)手段,例如屏幕顯示、揚(yáng)聲器播放等,將該識別結(jié)果提供給用戶設(shè)備。以屏幕顯示為例,在步 驟S6中,識別設(shè)備I將目標(biāo)文本的識別結(jié)果,利用頁面技術(shù),如JSP、ASP或PHP,按一定格 式提供給用戶設(shè)備,例如以鏈接、頁面文本等形式提供給用戶設(shè)備,供用戶進(jìn)行瀏覽。本領(lǐng) 域技術(shù)人員應(yīng)能理解上述對提供識別結(jié)果的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的 提供識別結(jié)果的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用 方式包含于此。
      對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細(xì)節(jié),而且在 不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論 從哪一點(diǎn)來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán) 利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有 變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此 夕卜,顯然“包括” 一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多 個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來 表示名稱,而并不表示任何特定的順序。
      權(quán)利要求
      1.一種由計算機(jī)實現(xiàn)的用于識別失序文本的方法,該方法包括以下步驟 a獲取待識別的目標(biāo)文本;b根據(jù)所述目標(biāo)文本,獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息; c根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本。
      2.根據(jù)權(quán)利要求I所述的方法,其中,所述步驟b還包括-對所述目標(biāo)文本進(jìn)行分詞處理,以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果;-對所述分詞處理結(jié)果進(jìn)行統(tǒng)計分析,以獲得與所述目標(biāo)文本相對應(yīng)的單字分詞或多字分詞的統(tǒng)計分布信息;其中,所述步驟c還包括-將所述統(tǒng)計分布信息與預(yù)設(shè)的參考分布信息進(jìn)行比較,以識別所述目標(biāo)文本是否為失序文本。
      3.根據(jù)權(quán)利要求2所述的方法,其中,所述參考分布信息包括以下至少任一項-基于自然語目的標(biāo)準(zhǔn)分布息;-與所述目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息。
      4.根據(jù)權(quán)利要求I至3中任一項所述的方法,其中,該方法還包括-按照預(yù)置的文本抽樣規(guī)則,從所述目標(biāo)文本中選取優(yōu)選文本;其中,所述步驟b還包括-根據(jù)所述優(yōu)選文本,獲得與所述優(yōu)選文本相對應(yīng)的統(tǒng)計信息。
      5.根據(jù)權(quán)利要求4所述的方法,其中,所述文本抽樣規(guī)則基于以下至少任一項來從所述目標(biāo)文本中選取所述優(yōu)選文本-選取所述目標(biāo)文本中的若干行文本;-選取所述目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本。
      6.根據(jù)權(quán)利要求I至5中任一項所述的方法,其中,該方法還包括X對所述目標(biāo)文本進(jìn)行預(yù)處理,獲得預(yù)處理文本;其中,所述步驟b還包括-根據(jù)所述預(yù)處理文本,獲得與所述預(yù)處理文本相對應(yīng)的統(tǒng)計信息。
      7.根據(jù)權(quán)利要求6所述的方法,其中,所述預(yù)處理操作包括以下至少任一項-濾除所述目標(biāo)文本中的特定字符;-將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
      8.根據(jù)權(quán)利要求7所述的方法,其中,所述預(yù)處理操作包括將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字;其中,所述步驟X還包括-將所述目標(biāo)文本在異型文字庫進(jìn)行匹配映射,以使所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
      9.根據(jù)權(quán)利要求7或8所述的方法,其中,所述異型文字包括以下至少任一項-火星文;-菊花文。
      10.根據(jù)權(quán)利要求I至9中任一項所述的方法,其中,所述步驟a還包括-獲取用戶通過用戶設(shè)備提交的待識別的目標(biāo)文本;其中,該方法還包括-將所述目標(biāo)文本的識別結(jié)果提供給所述用戶設(shè)備。
      11.一種用于識別失序文本的設(shè)備,該設(shè)備包括文本獲取裝置,用于獲取待識別的目標(biāo)文本;統(tǒng)計信息獲取裝置,用于根據(jù)所述目標(biāo)文本,獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息;識別裝置,用于根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本。
      12.根據(jù)權(quán)利要求11所述的設(shè)備,其中,所述統(tǒng)計信息獲取裝置還包括分詞處理單元,用于對所述目標(biāo)文本進(jìn)行分詞處理,以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果;分布信息獲取單元,用于對所述分詞處理結(jié)果進(jìn)行統(tǒng)計分析,以獲得與所述目標(biāo)文本相對應(yīng)的單字分詞或多字分詞的統(tǒng)計分布信息;其中,所述識別裝置還用于將所述統(tǒng)計分布信息與預(yù)設(shè)的參考分布信息進(jìn)行比較,以識別所述目標(biāo)文本是否為失序文本。
      13.根據(jù)權(quán)利要求12所述的設(shè)備,其中,所述參考分布信息包括以下至少任一項-基于自然語目的標(biāo)準(zhǔn)分布息;-與所述目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息。
      14.根據(jù)權(quán)利要求11至13中任一項所述的設(shè)備,其中,該設(shè)備還包括選取裝置,用于按照預(yù)置的文本抽樣規(guī)則,從所述目標(biāo)文本中選取優(yōu)選文本;其中,所述統(tǒng)計信息獲取裝置還用于根據(jù)所述優(yōu)選文本,獲得與所述優(yōu)選文本相對應(yīng)的統(tǒng)計信息。
      15.根據(jù)權(quán)利要求14所述的設(shè)備,其中,所述文本抽樣規(guī)則基于以下至少任一項來從所述目標(biāo)文本中選取所述優(yōu)選文本-選取所述目標(biāo)文本中的若干行文本;-選取所述目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本。
      16.根據(jù)權(quán)利要求11至15中任一項所述的設(shè)備,其中,該設(shè)備還包括預(yù)處理裝置,用于對所述目標(biāo)文本進(jìn)行預(yù)處理,獲得預(yù)處理文本;其中,所述統(tǒng)計信息獲取裝置還用于根據(jù)所述預(yù)處理文本,獲得與所述預(yù)處理文本相對應(yīng)的統(tǒng)計信息。
      17.根據(jù)權(quán)利要求16所述的設(shè)備,其中,所述預(yù)處理操作包括以下至少任一項-濾除所述目標(biāo)文本中的特定字符;-將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
      18.根據(jù)權(quán)利要求17所述的設(shè)備,其中,所述預(yù)處理操作包括將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字;其中,所述預(yù)處理裝置還用于將所述目標(biāo)文本在異型文字庫進(jìn)行匹配映射,以使所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
      19.根據(jù)權(quán)利要求17或18所述的設(shè)備,其中,所述異型文字包括以下至少任一項-火星文;-菊花文。
      20.根據(jù)權(quán)利要求11至19中任一項所述的設(shè)備,其中,所述文本獲取裝置還用于獲取用戶通過用戶設(shè)備提交的待識別的目標(biāo)文本;其中,該設(shè)備還包括 提供裝置,用于將所述目標(biāo)文本的識別結(jié)果提供給所述用戶設(shè)備。
      全文摘要
      本發(fā)明的目的是提供一種用于識別失序文本的方法與設(shè)備。其中,識別設(shè)備獲取待識別的目標(biāo)文本;根據(jù)所述目標(biāo)文本,獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息;根據(jù)所述統(tǒng)計信息,識別所述目標(biāo)文本是否為失序文本。與現(xiàn)有技術(shù)相比,本發(fā)明根據(jù)獲得的與目標(biāo)文本相對應(yīng)的統(tǒng)計信息,識別該目標(biāo)文本是否為失序文本,進(jìn)而實現(xiàn)有效的文本內(nèi)容管理。
      文檔編號G06F17/30GK102982011SQ20111026421
      公開日2013年3月20日 申請日期2011年9月7日 優(yōu)先權(quán)日2011年9月7日
      發(fā)明者李彥宏, 舒迅, 帥帥, 王波 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1