一種用于識別失序文本的方法與設(shè)備的制作方法

文檔序號：6432637閱讀：271來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種用于識別失序文本的方法與設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域，尤其涉及一種用于識別失序文本的技術(shù)。
背景技術(shù)：
互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用，向人們提供了更多相互溝通的平臺和交流信息的方式，例如人們可以通過論壇、貼吧等溝通平臺與他人分享趣聞、對所共同關(guān)注的事件發(fā)表意見，進(jìn)而，在開放的交流平臺上有效地管理文本內(nèi)容的需求也日益增加?，F(xiàn)有技術(shù)可以通過對正常排序的文字進(jìn)行分析管理，但是對失序文本無法有效識別，從而當(dāng)有惡意或違法信息以失序文本的形式通過網(wǎng)絡(luò)溝通平臺進(jìn)行發(fā)布時，網(wǎng)絡(luò)服務(wù)器等設(shè)備無法對其進(jìn)行有效識別。
因此，如何有效地識別失序文本，成為本領(lǐng)域技術(shù)人員亟須解決的問題之一。發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于識別失序文本的方法與設(shè)備。
根據(jù)本發(fā)明的一個方面，提供了一種用于識別失序文本的方法，該方法包括以下步驟
a獲取待識別的目標(biāo)文本；
b根據(jù)所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息；
c根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本。
根據(jù)本發(fā)明的另一方面，還提供了一種用于識別失序文本的設(shè)備，該設(shè)備包括
文本獲取裝置，用于獲取待識別的目標(biāo)文本；
統(tǒng)計信息獲取裝置，用于根據(jù)所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息；
識別裝置，用于根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本。
與現(xiàn)有技術(shù)相比，本發(fā)明根據(jù)獲得的與目標(biāo)文本相對應(yīng)的統(tǒng)計信息，識別該目標(biāo) 文本是否為失序文本，進(jìn)而實現(xiàn)有效的文本內(nèi)容管理。

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述，本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯
圖I示出根據(jù)本發(fā)明一個方面用于識別失序文本的設(shè)備示意圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于識別失序文本的設(shè)備示意圖3示出根據(jù)本發(fā)明另一個方面用于識別失序文本的方法流程圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于識別失序文本的方法流程圖。
附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
具體實施方式
下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。
圖I示出根據(jù)本發(fā)明一個方面用于識別失序文本的設(shè)備示意圖。識別設(shè)備I包括文本獲取裝置11、統(tǒng)計信息獲取裝置12和識別裝置13。在此，識別設(shè)備I包括但不限于計算機(jī)、網(wǎng)絡(luò)主機(jī)、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云。在此，云由基于云計算(Cloud Computing)的大量計算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中，云計算是分布式計算的一種，由一群松散耦合的計算機(jī)集組成的一個超級虛擬計算機(jī)。
具體地，文本獲取裝置11獲取待識別的目標(biāo)文本。更具體地，文本獲取裝置11按預(yù)定周期或應(yīng)事件觸發(fā)實時地獲取待處理的目標(biāo)文本，例如通過實時監(jiān)聽用戶通過用戶設(shè) 備提交的目標(biāo)文本提交請求，以獲取用戶輸入的目標(biāo)文本，或者定期地通過約定的通信方式直接從第三方設(shè)備讀取目標(biāo)文本。例如，假設(shè)識別設(shè)備I為網(wǎng)絡(luò)論壇服務(wù)器，用戶通過用戶設(shè)備在網(wǎng)絡(luò)論壇網(wǎng)頁的輸入界面輸入一段文本信息，然后，用戶設(shè)備將該信息作為論壇發(fā)帖包裝成http請求并通過http通信協(xié)議提交到識別設(shè)備I的文本獲取裝置11，接著，文本獲取裝置11通過實時監(jiān)聽用戶消息，接收并解析該http請求，獲取其中的文本信息并作為目標(biāo)文本。再如，文本獲取裝置11按一定周期，定期地通過調(diào)用預(yù)定的應(yīng)用編程接口 (API)向第三方設(shè)備發(fā)送獲取目標(biāo)文本的請求，并接收該第三方設(shè)備基于該請求返回的目標(biāo)文本的文檔。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的獲取目標(biāo)文本的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
隨后，統(tǒng)計信息獲取裝置12根據(jù)所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng) 計信息。具體地，統(tǒng)計信息獲取裝置12根據(jù)文本獲取裝置11提供的目標(biāo)文本，例如通過對該目標(biāo)文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計，并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)，以獲取與該目標(biāo) 文本相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息；或者通過對該目標(biāo)文本進(jìn)行分詞處理，并統(tǒng)計獲得分詞處理后的分詞處理結(jié)果中單字分詞與多字分詞的分布信息，如單字分詞與多字分詞的比例值，以獲取與該目標(biāo)文本相對應(yīng)的統(tǒng)計信息。例如，統(tǒng)計信息獲取裝置12根據(jù)文本獲取裝置11 提供的目標(biāo)文本
證速
件打
辦電辦
理話證
將該目標(biāo)文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng)計，即該目標(biāo)文本從上到下各行字?jǐn)?shù)分別為2、 2、3、3，并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為2. 5。
再如，統(tǒng)計信息獲取裝置12根據(jù)文本獲取裝置11提供的目標(biāo)文本
進(jìn)豎失
行行序
分文文
詞文本
處字舉
理& 例
對該目標(biāo)文本的每行文字按照最大反向匹配法進(jìn)行分詞處理，以獲得分詞處理結(jié) 果如下
進(jìn)/豎/失
行/行/序
分/文/文
詞/文本
處/字/舉
理/&/ 例
并計算該目標(biāo)文本的分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例值為 16 I。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲得統(tǒng)計信息的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的獲得統(tǒng)計信息的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
接著，識別裝置13根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本。具體地，識別裝置13根據(jù)統(tǒng)計信息獲取裝置12獲取的統(tǒng)計信息，例如若統(tǒng)計信息中包括該目標(biāo)文本各行的平均字?jǐn)?shù)，則將該各行的平均字?jǐn)?shù)與預(yù)定的各行平均字?jǐn)?shù)閾值進(jìn)行比較，當(dāng) 該各行的平均字?jǐn)?shù)小于預(yù)定的各行平均字?jǐn)?shù)閾值時，識別該目標(biāo)文本為失序文本；若統(tǒng)計信息中包括對該目標(biāo)文本進(jìn)行分詞處理所獲得的分詞處理結(jié)果中單字分詞與多字分詞的分布信息，將該分詞統(tǒng)計信息與預(yù)設(shè)的參考統(tǒng)計信息進(jìn)行比較，識別該目標(biāo)文本是否為失序文本。例如，假設(shè)統(tǒng)計信息獲取裝置12獲取的統(tǒng)計信息為該目標(biāo)文本各行的平均字?jǐn)?shù)為 2. 5;識別裝置13根據(jù)該目標(biāo)文本各行的平均字?jǐn)?shù)，將該各行的平均字?jǐn)?shù)與預(yù)定的各行平均字?jǐn)?shù)閾值6進(jìn)行比較，即2.5 < 6，則據(jù)該比較結(jié)果識別該目標(biāo)文本為失序文本。又如，假設(shè)統(tǒng)計信息獲取裝置12獲取的統(tǒng)計信息為將目標(biāo)文本進(jìn)行分詞處理后獲得的分詞處理結(jié)果中單字分詞與多字分詞的分布信息，該分布信息示出該分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例值為16 I ;識別裝置13根據(jù)該單字分詞與多字分詞的分布信息，將該比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的比例閾值3 5進(jìn)行比較，SP 16 : I > 3 : 5，據(jù)此判斷該目標(biāo)文本為失序文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述識別失序文本的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的識別失序文本的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，文本獲取裝置11、統(tǒng)計信息獲取裝置12和識別裝置13之間是持續(xù)不斷地工作。具體地，文本獲取裝置11獲取待識別的目標(biāo)文本；隨后，統(tǒng)計信息獲取裝置12根據(jù) 所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息；接著，識別裝置13根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本。在此，本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指各裝置分別按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求進(jìn)行目標(biāo)文本的獲取、統(tǒng)計信息的獲取、及失序文本的識別，直至文本獲取裝置11在較長時間內(nèi)停止對待識別的目標(biāo)文本的獲取。
圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于識別失序文本的設(shè)備示意圖，統(tǒng)計信息獲取裝置12’還包括分詞處理單元121’和分布信息獲取單元122’。具體地，分詞處理單元121’對所述目標(biāo)文本進(jìn)行分詞處理，以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果；分布信息獲取單元122’對所述分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得與所述目標(biāo)文本相對應(yīng)的單字分詞或多字分詞的統(tǒng)計分布信息；識別裝置13’還將所述統(tǒng)計分布信息與預(yù)設(shè)的參考分布信息進(jìn)行比較，以識別所述目標(biāo)文本是否為失序文本。在此，圖2中所示裝置11’與前面參照圖I所描述的裝置11的內(nèi)容相同，為簡明起見，以引用方式包含于此，而不做贅述。
更具體地，分詞處理單元121’例如對文本獲取裝置11獲取的目標(biāo)文本的每行進(jìn) 行分詞處理，或?qū)υ撃繕?biāo)文本的各行中具有相同列數(shù)的文字組成的列文本進(jìn)行分詞處理，以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果；其中，分詞處理的方法包括但不限于最大正向匹配法、最大反向匹配法、詞典串匹配法；接著，分布信息獲取單元122’對分詞處理單元121’獲取的分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得該分詞處理結(jié)果中單字分詞或多字分詞的統(tǒng)計分布信息，其中，該單字分詞或多字分詞的統(tǒng)計分布信息包括但不限于單字分詞數(shù)量與多字分詞數(shù)量的比例值、單字分詞數(shù)量與所有分詞數(shù)量的比例值、多字分詞數(shù)量與所有分詞數(shù)量的比例值；隨后，識別裝置13’例如將分布信息獲取單元122’獲取的統(tǒng)計分布信息中單字分詞數(shù)量與多字分詞數(shù)量的比例值與預(yù)設(shè)的參考分布信息中單字分詞數(shù)量與多字分詞數(shù)量的參考比例閾值進(jìn)行比較，判斷該比例值與參考比例閾值的大小關(guān)系，以識別目標(biāo)文本是否為失序文本。
例如，分詞處理單元121’根據(jù)文本獲取裝置11’提供的目標(biāo)文本
行豎失
分行序
詞文文
處文本
理字例
對該目標(biāo)文本的每行文字按照最大正向匹配法進(jìn)行分詞處理，以獲得第一行的分詞處理結(jié)果為“行/豎/失”，第二行的分詞處理結(jié)果為“分行/序”，第三行的分詞處理結(jié)果為“詞/文/文”，第四行的分詞結(jié)果為“處/文本”，第五行的分詞結(jié)果為“理/字/例”;接著，分布信息獲取單元122’對分詞處理單元121’提供的該目標(biāo)文本的各行分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得該目標(biāo)文本所對應(yīng)的統(tǒng)計分布信息，其示出該分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例為11 2;隨后，識別裝置13’將該單字分詞數(shù)量與多字分詞數(shù)量的比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的參考比例閾值進(jìn)行比較，即11 : 2>2 : 5，以識別目標(biāo)文本為失序文本。
又例如，分詞處理單元121’根據(jù)文本獲取裝置11’提供的目標(biāo)文本
行豎失
分行序
詞文文
處文本
理字例
提取該目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本，即第一列文本為 “行分詞處理”，第二列文本為“豎行文文字”，第三列文本為“失序文本例”，對該三個列文本按照最大正向匹配法進(jìn)行分詞處理，以獲得第一列文本的分詞處理結(jié)果為“行/分詞/處理”，第二列文本的分詞處理結(jié)果為“豎行文/文字”，第三列文本的分詞處理結(jié)果為“失序/ 文本/例”;接著，分布信息獲取單元122’對分詞處理單元121’提供的該目標(biāo)文本的各行分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得該目標(biāo)文本所對應(yīng)的統(tǒng)計分布信息，其示出該分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例為I : 3;隨后，識別裝置13’將該單字分詞數(shù)量與多字分詞數(shù)量的比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的參考比例閾值進(jìn)行比較，即I : 3<2 : 5，以識別目標(biāo)文本為失序文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取分詞統(tǒng)計信息或獲取分布信息或識別失序文本的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的獲取分詞統(tǒng)計信息、獲取分布信息和識別失序文本的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，參考分布信息包括以下至少任一項
-基于自然語言的標(biāo)準(zhǔn)分布信息；
-與所述目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息。
具體地，參考分布信息包括但不限于基于自然語言的標(biāo)準(zhǔn)分布信息、與目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息。獲得基于自然語言的標(biāo)準(zhǔn)分布信息的方式可為根據(jù)對自然語言中的海量文本進(jìn)行分詞處理，并對該海量分詞處理的所有分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得這些海量文本的分詞處理結(jié)果中標(biāo)準(zhǔn)的單字分詞或多字分詞的分布信息；獲得與目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息的方式可為根據(jù)目標(biāo)文本所在的應(yīng)用，如網(wǎng)絡(luò)論壇、百度貼吧等，提取該應(yīng)用中的大量正常文本，并對這些文本進(jìn)行分詞處理且對所有分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得與目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的中單字分詞或多字分詞的分布信息。本領(lǐng)域技術(shù)人員應(yīng)能理解上述參考分布信息僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的參考分布信息如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
在另一個優(yōu)選實施例中(參照圖I)，識別設(shè)備I還包括選取裝置(未示出)，具體地，選取裝置按照預(yù)置的文本抽樣規(guī)則，從所述目標(biāo)文本中選取優(yōu)選文本；統(tǒng)計信息獲取裝置12還根據(jù)所述優(yōu)選文本，獲得與所述優(yōu)選文本相對應(yīng)的統(tǒng)計信息。以下參照圖I對該優(yōu) 選實施例進(jìn)行詳細(xì)描述，其中，文本獲取裝置11獲取待識別的目標(biāo)文本；識別裝置13根據(jù) 所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本；其具體過程與前述參照圖I所描述的實施例中文本獲取裝置11和識別裝置13所執(zhí)行的過程相同，為簡明起見，以引用方式包含于此，而不做贅述。
更具體地，選取裝置按照預(yù)置的文本抽樣規(guī)則，從所述目標(biāo)文本中選取優(yōu)選文本，例如選取裝置從目標(biāo)文本中選取若干行作為優(yōu)選文本；接著，統(tǒng)計信息獲取裝置12還根據(jù) 選取裝置選取的優(yōu)選文本，例如通過對該優(yōu)選文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計，并計算獲得該優(yōu) 選文本的行平均字?jǐn)?shù)，以獲得與該優(yōu)選文本相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息。例如，選取裝置根據(jù)文本獲取裝置11獲取的目標(biāo)文本
各速
種打
證電辦
件話證
辦聯(lián)*
理系&
按照預(yù)置的文本抽樣規(guī)則，選取目標(biāo)文本中的前三行，
各速
種打
證電辦
作為優(yōu)選文本；接著，統(tǒng)計信息獲取裝置12將該優(yōu)選文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng) 計，即該優(yōu)選文本從上到下各行字?jǐn)?shù)分別為2、2、3，并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為 2. 3。本領(lǐng)域技術(shù)人員應(yīng)能理解上述選取優(yōu)選文本與獲取統(tǒng)計信息的方式僅為舉例，其他現(xiàn) 有的或今后可能出現(xiàn)的選取優(yōu)選文本或獲取統(tǒng)計信息的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，所述文本抽樣規(guī)則基于以下至少任一項來從所述目標(biāo)文本中選取所述優(yōu) 選文本
-選取所述目標(biāo)文本中的若干行文本；
-選取所述目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本。
具體地，文本抽樣規(guī)則基于選取目標(biāo)文本中的若干行文本來從該目標(biāo)文本中選取優(yōu)選文本。例如，選取裝置從目標(biāo)文本中隨機(jī)地選取若干行文本作為優(yōu)選文本，或選取裝置從目標(biāo)文本中選取固定地若干行作為優(yōu)選文本。文本抽樣規(guī)則基于選取目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本來從該目標(biāo)文本中選取優(yōu)選文本，例如，假設(shè)目標(biāo)文本為5行8列的文本，各行中具有相同列數(shù)的字符組成的字符序列構(gòu)成一個列文本，如此獲得與該目標(biāo)文本相對應(yīng)的8個列文本；選取裝置可從該些列文本中選取固定若干列文本作為優(yōu)選文本。優(yōu)選地，選取裝置還可以根據(jù)上述文本抽樣規(guī)則的任意組合，從所述目標(biāo)文本中選取優(yōu)選文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述文本抽樣規(guī)則僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的文本抽樣規(guī)則如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
在又一個優(yōu)選實施例中(參照圖I)，識別設(shè)備I還包括預(yù)處理裝置(未示出)。以下參照圖I對該優(yōu)選實施例進(jìn)行詳細(xì)描述，其中，文本獲取裝置11獲取待識別的目標(biāo)文本；識別裝置13根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本；其具體過程與前述參照圖I所描述的實施例中文本獲取裝置11和識別裝置13所執(zhí)行的過程相同，為簡明起見，以引用方式包含于此，而不做贅述。
具體地，預(yù)處理裝置對所述目標(biāo)文本進(jìn)行預(yù)處理，獲得預(yù)處理文本；統(tǒng)計信息獲取裝置12還根據(jù)所述預(yù)處理文本，獲得與所述預(yù)處理文本相對應(yīng)的統(tǒng)計信息。更具體地，預(yù) 處理裝置對目標(biāo)文本進(jìn)行諸如濾除特定字符、將異型文字轉(zhuǎn)化為正常文字等預(yù)處理，獲得預(yù)處理文本；統(tǒng)計信息獲取裝置12根據(jù)預(yù)處理裝置獲得的預(yù)處理文本，例如通過對該預(yù)處理文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計，并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)，以獲取與該目標(biāo)文本相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息。例如，假設(shè)目標(biāo)文本為
矢預(yù)#
塘処#
吱理&
卒 #&
預(yù)處理裝置首先將該目標(biāo)文本的每個字符在特定字符庫中進(jìn)行匹配查詢，獲得字符為特定字符，然后預(yù)處理裝置將字符從該失序文本中濾除，獲得第一預(yù)處理結(jié) 果
矢預(yù)
塘処
吱理
卒
接著，預(yù)處理裝置將該第一預(yù)處理文本的每個字符在異型文字庫中進(jìn)行匹配查詢，并據(jù)此將火星文字‘矢’轉(zhuǎn)化為‘失’，‘塘’轉(zhuǎn)化為‘序’，‘吱’轉(zhuǎn)化為‘文’，‘卒’轉(zhuǎn)化為 ‘本’，‘預(yù)’轉(zhuǎn)化為‘預(yù)’，‘処’轉(zhuǎn)化為‘處’從而獲得第二預(yù)處理結(jié)果
失預(yù)
序處
文理
本
并將該第二預(yù)處理結(jié)果作為預(yù)處理文本；然后，統(tǒng)計信息獲取裝置12根據(jù)預(yù)處理裝置獲得的預(yù)處理文本，將該預(yù)處理文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng)計，即該預(yù)處理文本從上到下各行字?jǐn)?shù)分別為2、2、2、1，并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為I. 75。在此，所舉實施例中的特定字符庫用于存儲預(yù)定義的特定字符，包括但不限于關(guān)系數(shù)據(jù)庫，內(nèi)存存儲器，硬盤存儲器等，所舉實施例中的異型文字庫用于存儲諸如菊花體、火星文等異型文字及與其對應(yīng)的正常文字的映射。在此，本領(lǐng)域技術(shù)人員應(yīng)能理解，所述特定字符庫既可以與所述異型文字庫相互獨(dú)立，也可以集成于所述異型文字庫中。本領(lǐng)域技術(shù)人員應(yīng)能理解上述目標(biāo)文本預(yù)處理的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的目標(biāo)文本預(yù)處理的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，所述預(yù)處理操作包括以下至少任一項
-濾除所述目標(biāo)文本中的特定字符；
-將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
具體地，預(yù)處理操作包括濾除目標(biāo)文本中的特定字符，該特定字符包括但不限于 ~、*、I、◎、口、(^、Θ、★等，其可存儲在特定字符庫中；預(yù)處理操作包括將目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字，該異型文字包括但不限于菊花文、火星文等，其可存儲在異型文字庫中。本領(lǐng)域技術(shù)人員應(yīng)能理解，上述兩項預(yù)處理規(guī)則不僅可以單獨(dú)用于對目標(biāo)文本進(jìn)行預(yù)處理，還可以將兩項結(jié)合用于對目標(biāo)文本進(jìn)行預(yù)處理。本領(lǐng)域技術(shù)人員應(yīng)能理解上述預(yù)處理規(guī)則僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的預(yù)處理規(guī)則如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，所述預(yù)處理操作包括將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字；其中，所述預(yù)處理裝置將所述目標(biāo)文本在異型文字庫進(jìn)行匹配映射，以使所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。具體地，預(yù)處理裝置將文本獲取裝置11獲取的目標(biāo)文本在異型文字庫中進(jìn)行匹配映射，若匹配成功，則將該字符串轉(zhuǎn)化為其在異型文字庫中匹配映射得到的正常文字，其中，匹配方式包括但不限于最大字符串匹配、正則表達(dá)式匹配。例如，假設(shè)目標(biāo)文本中包括字符串“偷愫誰”，預(yù)處理裝置將該字符串的第一個字符“偷”在異型文字庫中進(jìn)行匹配映射，匹配獲得火星文“偷”與正常文字“你”相對應(yīng)，接著，將該字符串的前兩個字符“偷愫”在異型文字庫中進(jìn)行匹配映射，匹配獲得火星文“偷愫”與正常文字“你是”相對應(yīng)，隨后，將該字符串“偷愫誰”在異型文字庫中再次進(jìn)行匹配映射，沒有匹配到與其相對應(yīng)的正常文字，則將“偷愫誰”的前兩個字符轉(zhuǎn)換為正常文字且保留第三個字符，獲得轉(zhuǎn)化后的文字為“你是誰”。又如，假設(shè)目標(biāo)文本中包括數(shù)字字符串“13955667788”，預(yù)處理裝置根據(jù)將該數(shù)字字符串進(jìn)行正則表達(dá)式匹配，獲得“ 139”與“ 139”相對應(yīng)的正則表達(dá)式相匹配，將“13955667788”轉(zhuǎn)化為“13955667788”。本領(lǐng)域技術(shù)人員應(yīng)能理解上述將異型文字轉(zhuǎn) 化為正常文字的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的將異型文字轉(zhuǎn)化為正常文字的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，所述異型文字包括以下至少任一項
-火星文；
-菊花文。
具體地，異形文字包括但不限于火星文、菊花文?；鹦俏挠煞?、繁體字、日文、韓文、冷僻字或漢字拆分后的部分等非正規(guī)化文字符號組合而成，如正常文字“國家大劇院” 對應(yīng)的火星文為“啯傢t劇院”;菊花文指在標(biāo)準(zhǔn)字符的前后加入一些特殊字符，如“失□序 □文□字□”，其中，菊花文的符號“□”的ASCII碼為1161。本領(lǐng)域技術(shù)人員應(yīng)能理解上述異型文字僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的異型文字如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
在再一個優(yōu)選實施例中(參照圖I)，識別設(shè)備I還包括提供裝置(未示出)。具體地，文本獲取裝置11獲取用戶通過用戶設(shè)備提交的待識別的目標(biāo)文本；提供裝置將所述目標(biāo)文本的識別結(jié)果提供給所述用戶設(shè)備。以下參照圖I對該優(yōu)選實施例進(jìn)行詳細(xì)描述，其中，統(tǒng)計信息獲取裝置12根據(jù)所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息；識別裝置13根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本；其具體過程與前述參照圖I所描述的實施例中統(tǒng)計信息獲取裝置12和識別裝置13所執(zhí)行的過程相同，為簡明起見，以引用方式包含于此，而不做贅述。
更具體地，用戶通過與用戶設(shè)備的交互方式，包括但不限于鍵盤、鼠標(biāo)、遙控器、觸摸板、或手寫設(shè)備，在瀏覽器軟件、應(yīng)用程序或客戶端軟件中輸入目標(biāo)文本；以鍵盤為例，用戶在應(yīng)用程序的輸入文本框完成目標(biāo)文本的輸入，并通過點(diǎn)擊“提交”按鈕或其他方式觸發(fā) 用戶設(shè)備將該目標(biāo)文本按照約定的通信協(xié)議經(jīng)由網(wǎng)絡(luò)發(fā)送到識別設(shè)備1，文本獲取裝置11 通過監(jiān)聽用戶消息，實時地接收該失序文本。在此，該用戶設(shè)備可以是任何一種可與用戶通過鍵盤、鼠標(biāo)、遙控器、觸摸板、或聲控設(shè)備進(jìn)行人機(jī)交互的電子產(chǎn)品，包括但不限于計算機(jī)、智能手機(jī)、PDA、或IPTV等。識別設(shè)備I與用戶設(shè)備之間可通過任何通信方式實現(xiàn)通信，包括但不限于，基于3GPP、LTE、WIMAX的移動通信、基于TCP/IP、UDP協(xié)議的計算機(jī)網(wǎng)絡(luò)通信以及基于藍(lán)牙、紅外傳輸標(biāo)準(zhǔn)的近距無線傳輸方式。識別設(shè)備I與用戶設(shè)備連接的網(wǎng)絡(luò) 包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc網(wǎng)絡(luò)) 等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的獲取目標(biāo)文本的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
隨后，提供裝置根據(jù)識別裝置13獲取的目標(biāo)文本的識別結(jié)果，例如識別結(jié)果是目標(biāo)文本是否為失序文本，采用任何已知的計算機(jī)提供人可讀信息的技術(shù)手段，例如屏幕顯示、揚(yáng)聲器播放等，將該識別結(jié)果提供給用戶設(shè)備。以屏幕顯示為例，提供裝置將目標(biāo)文本的識別結(jié)果，利用頁面技術(shù)，如JSP、ASP或PHP，按一定格式提供給用戶設(shè)備，例如以鏈接、頁面文本等形式提供給用戶設(shè)備，供用戶進(jìn)行瀏覽。本領(lǐng)域技術(shù)人員應(yīng)能理解上述對提供識別結(jié)果的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的提供識別結(jié)果的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
圖3示出根據(jù)本發(fā)明一個方面用于識別失序文本的方法流程圖。在此，識別設(shè)備I 包括但不限于計算機(jī)、網(wǎng)絡(luò)主機(jī)、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云。在此，云由基于云計算(Cloud Computing)的大量計算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中，云計算是分布式計算的一種，由一群松散耦合的計算機(jī)集組成的一個超級虛擬計算機(jī)。
具體地，在步驟SI中，識別設(shè)備I獲取待識別的目標(biāo)文本。更具體地，在步驟SI 中，識別設(shè)備I按預(yù)定周期或應(yīng)事件觸發(fā)實時地獲取待處理的目標(biāo)文本，例如通過實時監(jiān) 聽用戶通過用戶設(shè)備提交的目標(biāo)文本提交請求，以獲取用戶輸入的目標(biāo)文本，或者定期地通過約定的通信方式直接從第三方設(shè)備讀取目標(biāo)文本。例如，假設(shè)識別設(shè)備I為網(wǎng)絡(luò)論壇服務(wù)器，用戶通過用戶設(shè)備在網(wǎng)絡(luò)論壇網(wǎng)頁的輸入界面輸入一段文本信息，然后，用戶設(shè)備將該信息作為論壇發(fā)帖包裝成http請求并通過http通信協(xié)議提交到識別設(shè)備1，接著，識別設(shè)備I通過實時監(jiān)聽用戶消息，接收并解析該http請求，獲取其中的文本信息并作為目標(biāo)文本。再如，在步驟SI中，識別設(shè)備I按一定周期，定期地通過調(diào)用預(yù)定的應(yīng)用編程接口 (API)向第三方設(shè)備發(fā)送獲取目標(biāo)文本的請求，并接收該第三方設(shè)備基于該請求返回的目標(biāo)文本的文檔。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的獲取目標(biāo)文本的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
隨后，在步驟S2中，識別設(shè)備I根據(jù)所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息。具體地，在步驟S2中，識別設(shè)備I根據(jù)其在步驟SI中提供的目標(biāo)文本，例如通過對該目標(biāo)文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計，并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)，以獲取與該目標(biāo)文本相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息；或者通過對該目標(biāo)文本進(jìn)行分詞處理，并統(tǒng)計獲得分詞處理后的分詞處理結(jié)果中單字分詞與多字分詞的分布信息，如單字分詞與多字分詞的比例值，以獲取與該目標(biāo)文本相對應(yīng)的統(tǒng)計信息。例如，在步驟S2中，識別設(shè)備I根據(jù)其在步驟 SI中提供的目標(biāo)文本
證速
件打
辦電辦
理話證
將該目標(biāo)文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng)計，即該目標(biāo)文本從上到下各行字?jǐn)?shù)分別為2、 2、3、3，并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為2. 5。再如，在步驟S2中，識別設(shè)備I根據(jù)其在步驟SI中提供的目標(biāo)文本
進(jìn)豎失
行行序
分文文
詞文本
處字舉
理& 例
對該目標(biāo)文本的每行文字按照最大反向匹配法進(jìn)行分詞處理，以獲得分詞處理結(jié)果如下
選/豎/失
行/行/序
分/文/文
詞/文本
處/字/舉
理/&/例
并計算該目標(biāo)文本的分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例值為 16 I。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲得統(tǒng)計信息的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的獲得統(tǒng)計信息的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
接著，在步驟S3中，識別設(shè)備I根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本。具體地，在步驟S3中，識別設(shè)備I根據(jù)其在步驟S2中獲取的統(tǒng)計信息，例如若統(tǒng)計信息中包括該目標(biāo)文本各行的平均字?jǐn)?shù)，則將該各行的平均字?jǐn)?shù)與預(yù)定的各行平均字?jǐn)?shù)閾值進(jìn)行比較，當(dāng)該各行的平均字?jǐn)?shù)小于預(yù)定的各行平均字?jǐn)?shù)閾值時，識別該目標(biāo)文本為失序文本；若統(tǒng)計信息中包括對該目標(biāo)文本進(jìn)行分詞處理所獲得的分詞處理結(jié)果中單字分詞與多字分詞的分布信息，將該分詞統(tǒng)計信息與預(yù)設(shè)的參考統(tǒng)計信息進(jìn)行比較，識別該目標(biāo)文本是否為失序文本。例如，假設(shè)在步驟S2中，識別設(shè)備I獲取的統(tǒng)計信息為該目標(biāo)文本各行的平均字?jǐn)?shù)為2. 5 ;在步驟S3中，識別設(shè)備I根據(jù)該目標(biāo)文本各行的平均字?jǐn)?shù)，將該各行的平均字?jǐn)?shù)與預(yù)定的各行平均字?jǐn)?shù)閾值6進(jìn)行比較，即2. 5 < 6，則據(jù)該比較結(jié)果識別該目標(biāo)文本為失序文本。又如，假設(shè)在步驟S2中，識別設(shè)備I獲取的統(tǒng)計信息為將目標(biāo)文本進(jìn)行分詞處理后獲得的分詞處理結(jié)果中單字分詞與多字分詞的分布信息，該分布信息示出該分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例值為16 I;在步驟S3中，識別設(shè)備I根據(jù)該單字分詞與多字分詞的分布信息，將該比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的比例閾值3 5進(jìn)行比較，S卩16 1>3 5，據(jù)此判斷該目標(biāo)文本為失序文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述識別失序文本的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的識別失序文本的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，上述各步驟之間是持續(xù)不斷地工作。具體地，在步驟SI中，識別設(shè)備I獲取待識別的目標(biāo)文本；隨后，在步驟S2中，識別設(shè)備I根據(jù)所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息；接著，在步驟S3中，識別設(shè)備I根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本。在此，本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指各步驟分別按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求進(jìn)行目標(biāo)文本的獲取、統(tǒng)計信息的獲取、及失序文本的識別，直至識別設(shè)備I在較長時間內(nèi)停止對待識別的目標(biāo)文本的獲取。
圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于識別失序文本的方法流程圖，步驟 S2’還包括步驟S21’和步驟S22’。具體地，在步驟S21’中，識別設(shè)備I對所述目標(biāo)文本進(jìn)行分詞處理，以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果；在步驟S22’中，識別設(shè)備I對所述分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得與所述目標(biāo)文本相對應(yīng)的單字分詞或多字分詞的統(tǒng)計分布信息；在步驟S3’中，識別設(shè)備I還將所述統(tǒng)計分布信息與預(yù)設(shè)的參考分布信息進(jìn) 行比較，以識別所述目標(biāo)文本是否為失序文本。在此，圖4中所示步驟SI，與前面參照圖3 所描述的步驟SI的內(nèi)容相同，為簡明起見，以引用方式包含于此，而不做贅述。
更具體地，在步驟S21’中，識別設(shè)備I例如對其在步驟SI’中獲取的目標(biāo)文本的每行進(jìn)行分詞處理，或?qū)υ撃繕?biāo)文本的各行中具有相同列數(shù)的文字組成的列文本進(jìn)行分詞處理，以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果；其中，分詞處理的方法包括但不限于最大正向匹配法、最大反向匹配法、詞典串匹配法；接著，在步驟S22’中，識別設(shè)備I對其在步驟S21’中獲取的分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得該分詞處理結(jié)果中單字分詞或多字分詞的統(tǒng)計分布信息，其中，該單字分詞或多字分詞的統(tǒng)計分布信息包括但不限于單字分詞數(shù)量與多字分詞數(shù)量的比例值、單字分詞數(shù)量與所有分詞數(shù)量的比例值、多字分詞數(shù)量與所有分詞數(shù)量的比例值；隨后，在步驟S3’中，識別設(shè)備I例如將其在步驟S22’中獲取的統(tǒng)計分布信息中單字分詞數(shù)量與多字分詞數(shù)量的比例值與預(yù)設(shè)的參考分布信息中單字分詞數(shù)量與多字分詞數(shù)量的參考比例閾值進(jìn)行比較，判斷該比例值與參考比例閾值的大小關(guān) 系，以識別目標(biāo)文本是否為失序文本。
例如，在步驟S21’中，識別設(shè)備I根據(jù)其在步驟SI’中提供的目標(biāo)文本
行豎失
分行序
詞文文
處文本
理字例
對該目標(biāo)文本的每行文字按照最大正向匹配法進(jìn)行分詞處理，以獲得第一行的分詞處理結(jié)果為“行/豎/失”，第二行的分詞處理結(jié)果為“分行/序”，第三行的分詞處理結(jié) 果為“詞/文/文”，第四行的分詞結(jié)果為“處/文本”，第五行的分詞結(jié)果為“理/字/例”；接著，在步驟S22’中，識別設(shè)備I對其在步驟S21’中提供的該目標(biāo)文本的各行分詞處理結(jié) 果進(jìn)行統(tǒng)計分析，以獲得該目標(biāo)文本所對應(yīng)的統(tǒng)計分布信息，其示出該分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例為11 2;隨后，在步驟S3’中，識別設(shè)備I將該單字分詞數(shù)量與多字分詞數(shù)量的比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的參考比例閾值進(jìn)行比較，即11 2>2 5，以識別目標(biāo)文本為失序文本。
又例如，在步驟S21’中，識別設(shè)備I根據(jù)其在步驟SI’中提供的目標(biāo)文本
行豎失
分行序
詞文文
處文本
理字例
提取該目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本，即第一列文本為 “行分詞處理”，第二列文本為“豎行文文字”，第三列文本為“失序文本例”，對該三個列文本按照最大正向匹配法進(jìn)行分詞處理，以獲得第一列文本的分詞處理結(jié)果為“行/分詞/處理”，第二列文本的分詞處理結(jié)果為“豎行文/文字”，第三列文本的分詞處理結(jié)果為“失序 /文本/例”;接著，在步驟S22’中，識別設(shè)備I對其在步驟S21’中提供的該目標(biāo)文本的各行分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得該目標(biāo)文本所對應(yīng)的統(tǒng)計分布信息，其示出該分詞處理結(jié)果中單字分詞數(shù)量與多字分詞數(shù)量的比例為I : 3;隨后，在步驟S3’中，識別設(shè)備 I將該單字分詞數(shù)量與多字分詞數(shù)量的比例值與自然語言中單字分詞數(shù)量與多字分詞數(shù)量的參考比例閾值進(jìn)行比較，即I : 3<2 : 5，以識別目標(biāo)文本為失序文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取分詞統(tǒng)計信息或獲取分布信息或識別失序文本的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的獲取分詞統(tǒng)計信息、獲取分布信息和識別失序文本的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，參考分布信息包括以下至少任一項
-基于自然語言的標(biāo)準(zhǔn)分布信息；
-與所述目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息。
具體地，參考分布信息包括但不限于基于自然語言的標(biāo)準(zhǔn)分布信息、與目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息。獲得基于自然語言的標(biāo)準(zhǔn)分布信息的方式可為根據(jù)對自然語言中的海量文本進(jìn)行分詞處理，并對該海量分詞處理的所有分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得這些海量文本的分詞處理結(jié)果中標(biāo)準(zhǔn)的單字分詞或多字分詞的分布信息；獲得與目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息的方式可為根據(jù)目標(biāo)文本所在的應(yīng)用，如網(wǎng)絡(luò)論壇、百度貼吧等，提取該應(yīng)用中的大量正常文本，并對這些文本進(jìn)行分詞處理且對所有分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得與目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的中單字分詞或多字分詞的分布信息。本領(lǐng)域技術(shù)人員應(yīng)能理解上述參考分布信息僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的參考分布信息如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
在另一個優(yōu)選實施例中(參照圖3)，該過程還包括步驟S4(未示出)，具體地，在步驟S4中，識別設(shè)備I按照預(yù)置的文本抽樣規(guī)則，從所述目標(biāo)文本中選取優(yōu)選文本；在步驟 S2中，識別設(shè)備I還根據(jù)所述優(yōu)選文本，獲得與所述優(yōu)選文本相對應(yīng)的統(tǒng)計信息。以下參照圖3對該優(yōu)選實施例進(jìn)行詳細(xì)描述，其中，在步驟SI中，識別設(shè)備I獲取待識別的目標(biāo)文本；在步驟S3中，識別設(shè)備I根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本；其具體過程與前述參照圖3所描述的實施例中在步驟SI和步驟S3所執(zhí)行的過程相同，為簡明起見，以引用方式包含于此，而不做贅述。
更具體地，在步驟S4中，識別設(shè)備I按照預(yù)置的文本抽樣規(guī)則，從所述目標(biāo)文本中選取優(yōu)選文本，例如在步驟S4中，識別設(shè)備I從目標(biāo)文本中選取若干行作為優(yōu)選文本；接著，在步驟S2中，識別設(shè)備I還根據(jù)其在步驟S4中選取的優(yōu)選文本，例如通過對該優(yōu)選文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計，并計算獲得該優(yōu)選文本的行平均字?jǐn)?shù)，以獲得與該優(yōu)選文本相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息。例如，在步驟S4中，識別設(shè)備I根據(jù)其在步驟SI中獲取的目標(biāo)文本
各速
種打
證電辦
件話證
辦聯(lián)*
理系&
按照預(yù)置的文本抽樣規(guī)則，選取目標(biāo)文本中的前三行，
各速
種打
證電辦
作為優(yōu)選文本；接著，在步驟S2中，識別設(shè)備I將該優(yōu)選文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng) 計，即該優(yōu)選文本從上到下各行字?jǐn)?shù)分別為2、2、3，并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為2.3。本領(lǐng)域技術(shù)人員應(yīng)能理解上述選取優(yōu)選文本與獲取統(tǒng)計信息的方式僅為舉例，其他現(xiàn) 有的或今后可能出現(xiàn)的選取優(yōu)選文本或獲取統(tǒng)計信息的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，所述文本抽樣規(guī)則基于以下至少任一項來從所述目標(biāo)文本中選取所述優(yōu) 選文本
-選取所述目標(biāo)文本中的若干行文本；
-選取所述目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本。
具體地，文本抽樣規(guī)則基于選取目標(biāo)文本中的若干行文本來從該目標(biāo)文本中選取優(yōu)選文本。例如，在步驟S4中，識別設(shè)備I從目標(biāo)文本中隨機(jī)地選取若干行文本作為優(yōu)選文本，或從目標(biāo)文本中選取固定地若干行作為優(yōu)選文本。文本抽樣規(guī)則基于選取目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本來從該目標(biāo)文本中選取優(yōu)選文本，例如，假設(shè) 目標(biāo)文本為5行8列的文本，各行中具有相同列數(shù)的字符組成的字符序列構(gòu)成一個列文本，如此獲得與該目標(biāo)文本相對應(yīng)的8個列文本；在步驟S4中，識別設(shè)備I可從該些列文本中選取固定若干列文本作為優(yōu)選文本。優(yōu)選地，在步驟S4中，識別設(shè)備I還可以根據(jù)上述文本抽樣規(guī)則的任意組合，從所述目標(biāo)文本中選取優(yōu)選文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述文本抽樣規(guī)則僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的文本抽樣規(guī)則如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
在又一個優(yōu)選實施例中(參照圖3)，該過程還包括步驟S5(未示出)。以下參照圖3對該優(yōu)選實施例進(jìn)行詳細(xì)描述，其中，在步驟SI中，識別設(shè)備I獲取待識別的目標(biāo)文本；在步驟S3中，識別設(shè)備I根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本；其具體過程與前述參照圖3所描述的實施例中步驟SI和S3所執(zhí)行的過程相同，為簡明起見，以引用方式包含于此，而不做贅述。
具體地，在步驟S5中，識別設(shè)備I對所述目標(biāo)文本進(jìn)行預(yù)處理，獲得預(yù)處理文本；在步驟S2中，識別設(shè)備I還根據(jù)所述預(yù)處理文本，獲得與所述預(yù)處理文本相對應(yīng)的統(tǒng)計信息。更具體地，在步驟S5中，識別設(shè)備I對目標(biāo)文本進(jìn)行諸如濾除特定字符、將異型文字轉(zhuǎn) 化為正常文字等預(yù)處理，獲得預(yù)處理文本；在步驟S2中，識別設(shè)備I根據(jù)其在步驟S5中獲得的預(yù)處理文本，例如通過對該預(yù)處理文本的每行進(jìn)行字?jǐn)?shù)統(tǒng)計，并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)，以獲取與該目標(biāo)文本相對應(yīng)的字?jǐn)?shù)統(tǒng)計信息。例如，假設(shè)目標(biāo)文本為
矢預(yù)#
糖処#
吱理&
卒#&
在步驟S5中，識別設(shè)備I首先將該目標(biāo)文本的每個字符在特定字符庫中進(jìn)行匹配查詢，獲得字符‘#，、‘&’為特定字符，然后識別設(shè)備I將字符從該失序文本中濾除，獲得第一預(yù)處理結(jié)果
矢預(yù)
塘処
吱理
卒
接著，在步驟S5中，識別設(shè)備I將該第一預(yù)處理文本的每個字符在異型文字庫中進(jìn)行匹配查詢，并據(jù)此將火星文字‘矢’轉(zhuǎn)化為‘失’，‘塘’轉(zhuǎn)化為‘序’，‘吱’轉(zhuǎn)化為‘文’， ‘卒’轉(zhuǎn)化為‘本’，‘預(yù)’轉(zhuǎn)化為‘預(yù)’，‘処’轉(zhuǎn)化為‘處’從而獲得第二預(yù)處理結(jié)果
失預(yù)
序處
文理
本
并將該第二預(yù)處理結(jié)果作為預(yù)處理文本；然后，在步驟S2中，識別設(shè)備I根據(jù)其在步驟S5中獲得的預(yù)處理文本，將該預(yù)處理文本中的每行進(jìn)行字?jǐn)?shù)統(tǒng)計，即該預(yù)處理文本從上到下各行字?jǐn)?shù)分別為2、2、2、1，并計算獲得該目標(biāo)文本的行平均字?jǐn)?shù)為I. 75。在此，所舉實施例中的特定字符庫用于存儲預(yù)定義的特定字符，包括但不限于關(guān)系數(shù)據(jù)庫，內(nèi)存存儲器，硬盤存儲器等，所舉實施例中的異型文字庫用于存儲諸如菊花體、火星文等異型文字及與其對應(yīng)的正常文字的映射。在此，本領(lǐng)域技術(shù)人員應(yīng)能理解，所述特定字符庫既可以與所述異型文字庫相互獨(dú)立，也可以集成于所述異型文字庫中。本領(lǐng)域技術(shù)人員應(yīng)能理解上述目標(biāo)文本預(yù)處理的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的目標(biāo)文本預(yù)處理的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，所述預(yù)處理操作包括以下至少任一項
-濾除所述目標(biāo)文本中的特定字符；
-將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
具體地，預(yù)處理操作包括濾除目標(biāo)文本中的特定字符，該特定字符包括但不限于 ~、*、I、◎、口、6\θ、★等，其可存儲在特定字符庫中；預(yù)處理操作包括將目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字，該異型文字包括但不限于菊花文、火星文等，其可存儲在異型文字庫中。本領(lǐng)域技術(shù)人員應(yīng)能理解，上述兩項預(yù)處理規(guī)則不僅可以單獨(dú)用于對目標(biāo)文本進(jìn)行預(yù)處理，還可以將兩項結(jié)合用于對目標(biāo)文本進(jìn)行預(yù)處理。本領(lǐng)域技術(shù)人員應(yīng)能理解上述預(yù)處理規(guī)則僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的預(yù)處理規(guī)則如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，所述預(yù)處理操作包括將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字；其中，步驟S5中，識別設(shè)備I將所述目標(biāo)文本在異型文字庫進(jìn)行匹配映射，以使所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。具體地，在步驟S5中，識別設(shè)備I將其在步驟SI中獲取的目標(biāo)文本在異型文字庫中進(jìn)行匹配映射，若匹配成功，則將該字符串轉(zhuǎn)化為其在異型文字庫中匹配映射得到的正常文字，其中，匹配方式包括但不限于最大字符串匹配、正則表達(dá)式匹配。例如，假設(shè)目標(biāo)文本中包括字符串“偷愫誰”，在步驟S5中，識別設(shè)備I將該字符串的第一個字符“偷”在異型文字庫中進(jìn)行匹配映射，匹配獲得火星文“偷”與正常文字“你”相對應(yīng)，接著，將該字符串的前兩個字符“偷愫”在異型文字庫中進(jìn)行匹配映射，匹配獲得火星、文“偷愫”與正常文字“你是”相對應(yīng)，隨后，將該字符串“偷愫誰”在異型文字庫中再次進(jìn)行匹配映射，沒有匹配到與其相對應(yīng)的正常文字，則將“偷愫誰”的前兩個字符轉(zhuǎn)換為正常文字且保留第三個字符，獲得轉(zhuǎn)化后的文字為“你是誰”。又如，假設(shè)目標(biāo)文本中包括數(shù)字字符串“13955667788”，在步驟S5中，識別設(shè)備I根據(jù)將該數(shù)字字符串進(jìn)行正則表達(dá)式匹配，獲得“ 139”與“ 139”相對應(yīng)的正則表達(dá)式相匹配，將“ 13955667788”轉(zhuǎn)化為“ 13955667788”。本領(lǐng)域技術(shù)人員應(yīng)能理解上述將異型文字轉(zhuǎn)化為正常文字的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的將異型文字轉(zhuǎn)化為正常文字的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
優(yōu)選地，所述異型文字包括以下至少任一項
-火星文；
-菊花文。
具體地，異形文字包括但不限于火星文、菊花文?；鹦俏挠煞?、繁體字、日文、韓文、冷僻字或漢字拆分后的部分等非正規(guī)化文字符號組合而成，如正常文字“國家大劇院” 對應(yīng)的火星文為“啯傢t劇院”;菊花文指在標(biāo)準(zhǔn)字符的前后加入一些特殊字符，如“失□序 □文□字□”，其中，菊花文的符號“□”的ASCII碼為1161。本領(lǐng)域技術(shù)人員應(yīng)能理解上述異型文字僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的異型文字如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
在再一個優(yōu)選實施例中(參照圖3)，該過程還包括步驟S6(未示出)。具體地，在步驟S I中，識別設(shè)備I獲取用戶通過用戶設(shè)備提交的待識別的目標(biāo)文本；在步驟S6中，識別設(shè)備I將所述目標(biāo)文本的識別結(jié)果提供給所述用戶設(shè)備。以下參照圖3對該優(yōu)選實施例進(jìn)行詳細(xì)描述，其中，在步驟S2中，識別設(shè)備I根據(jù)所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息；在步驟S3中，識別設(shè)備I根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本；其具體過程與前述參照圖3所描述的實施例中步驟S2和S3所執(zhí)行的過程相同，為簡明起見，以引用方式包含于此，而不做贅述。
更具體地，用戶通過與用戶設(shè)備的交互方式，包括但不限于鍵盤、鼠標(biāo)、遙控器、觸摸板、或手寫設(shè)備，在瀏覽器軟件、應(yīng)用程序或客戶端軟件中輸入目標(biāo)文本；以鍵盤為例，用戶在應(yīng)用程序的輸入文本框完成目標(biāo)文本的輸入，并通過點(diǎn)擊“提交”按鈕或其他方式觸發(fā) 用戶設(shè)備將該目標(biāo)文本按照約定的通信協(xié)議經(jīng)由網(wǎng)絡(luò)發(fā)送到識別設(shè)備1，在步驟S I中，識別設(shè)備I通過監(jiān)聽用戶消息，實時地接收該失序文本。在此，該用戶設(shè)備可以是任何一種可與用戶通過鍵盤、鼠標(biāo)、遙控器、觸摸板、或聲控設(shè)備進(jìn)行人機(jī)交互的電子產(chǎn)品，包括但不限于計算機(jī)、智能手機(jī)、PDA、或IPTV等。識別設(shè)備I與用戶設(shè)備之間可通過任何通信方式實現(xiàn)通信，包括但不限于，基于3GPP、LTE、WIMAX的移動通信、基于TCP/IP、UDP協(xié)議的計算機(jī) 網(wǎng)絡(luò)通信以及基于藍(lán)牙、紅外傳輸標(biāo)準(zhǔn)的近距無線傳輸方式。識別設(shè)備I與用戶設(shè)備連接的網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc 網(wǎng)絡(luò))等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的獲取目標(biāo)文本的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
隨后，在步驟S6中，識別設(shè)備I根據(jù)其在步驟S3中獲取的目標(biāo)文本的識別結(jié)果，例如識別結(jié)果是目標(biāo)文本是否為失序文本，采用任何已知的計算機(jī)提供人可讀信息的技術(shù)手段，例如屏幕顯示、揚(yáng)聲器播放等，將該識別結(jié)果提供給用戶設(shè)備。以屏幕顯示為例，在步驟S6中，識別設(shè)備I將目標(biāo)文本的識別結(jié)果，利用頁面技術(shù)，如JSP、ASP或PHP，按一定格式提供給用戶設(shè)備，例如以鏈接、頁面文本等形式提供給用戶設(shè)備，供用戶進(jìn)行瀏覽。本領(lǐng) 域技術(shù)人員應(yīng)能理解上述對提供識別結(jié)果的方式僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的提供識別結(jié)果的方式如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并在此以引用方式包含于此。
對于本領(lǐng)域技術(shù)人員而言，顯然本發(fā)明不限于上述示范性實施例的細(xì)節(jié)，而且在不背離本發(fā)明的精神或基本特征的情況下，能夠以其他的具體形式實現(xiàn)本發(fā)明。因此，無論從哪一點(diǎn)來看，均應(yīng)將實施例看作是示范性的，而且是非限制性的，本發(fā)明的范圍由所附權(quán) 利要求而不是上述說明限定，因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此夕卜，顯然“包括” 一詞不排除其他單元或步驟，單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一，第二等詞語用來表示名稱，而并不表示任何特定的順序。
權(quán)利要求
1.一種由計算機(jī)實現(xiàn)的用于識別失序文本的方法，該方法包括以下步驟 a獲取待識別的目標(biāo)文本；b根據(jù)所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息； c根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本。
2.根據(jù)權(quán)利要求I所述的方法，其中，所述步驟b還包括-對所述目標(biāo)文本進(jìn)行分詞處理，以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果；-對所述分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得與所述目標(biāo)文本相對應(yīng)的單字分詞或多字分詞的統(tǒng)計分布信息；其中，所述步驟c還包括-將所述統(tǒng)計分布信息與預(yù)設(shè)的參考分布信息進(jìn)行比較，以識別所述目標(biāo)文本是否為失序文本。
3.根據(jù)權(quán)利要求2所述的方法，其中，所述參考分布信息包括以下至少任一項-基于自然語目的標(biāo)準(zhǔn)分布息；-與所述目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息。
4.根據(jù)權(quán)利要求I至3中任一項所述的方法，其中，該方法還包括-按照預(yù)置的文本抽樣規(guī)則，從所述目標(biāo)文本中選取優(yōu)選文本；其中，所述步驟b還包括-根據(jù)所述優(yōu)選文本，獲得與所述優(yōu)選文本相對應(yīng)的統(tǒng)計信息。
5.根據(jù)權(quán)利要求4所述的方法，其中，所述文本抽樣規(guī)則基于以下至少任一項來從所述目標(biāo)文本中選取所述優(yōu)選文本-選取所述目標(biāo)文本中的若干行文本；-選取所述目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本。
6.根據(jù)權(quán)利要求I至5中任一項所述的方法，其中，該方法還包括X對所述目標(biāo)文本進(jìn)行預(yù)處理，獲得預(yù)處理文本；其中，所述步驟b還包括-根據(jù)所述預(yù)處理文本，獲得與所述預(yù)處理文本相對應(yīng)的統(tǒng)計信息。
7.根據(jù)權(quán)利要求6所述的方法，其中，所述預(yù)處理操作包括以下至少任一項-濾除所述目標(biāo)文本中的特定字符；-將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
8.根據(jù)權(quán)利要求7所述的方法，其中，所述預(yù)處理操作包括將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字；其中，所述步驟X還包括-將所述目標(biāo)文本在異型文字庫進(jìn)行匹配映射，以使所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
9.根據(jù)權(quán)利要求7或8所述的方法，其中，所述異型文字包括以下至少任一項-火星文；-菊花文。
10.根據(jù)權(quán)利要求I至9中任一項所述的方法，其中，所述步驟a還包括-獲取用戶通過用戶設(shè)備提交的待識別的目標(biāo)文本；其中，該方法還包括-將所述目標(biāo)文本的識別結(jié)果提供給所述用戶設(shè)備。
11.一種用于識別失序文本的設(shè)備，該設(shè)備包括文本獲取裝置，用于獲取待識別的目標(biāo)文本；統(tǒng)計信息獲取裝置，用于根據(jù)所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息；識別裝置，用于根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本。
12.根據(jù)權(quán)利要求11所述的設(shè)備，其中，所述統(tǒng)計信息獲取裝置還包括分詞處理單元，用于對所述目標(biāo)文本進(jìn)行分詞處理，以獲得與所述目標(biāo)文本相對應(yīng)的分詞處理結(jié)果；分布信息獲取單元，用于對所述分詞處理結(jié)果進(jìn)行統(tǒng)計分析，以獲得與所述目標(biāo)文本相對應(yīng)的單字分詞或多字分詞的統(tǒng)計分布信息；其中，所述識別裝置還用于將所述統(tǒng)計分布信息與預(yù)設(shè)的參考分布信息進(jìn)行比較，以識別所述目標(biāo)文本是否為失序文本。
13.根據(jù)權(quán)利要求12所述的設(shè)備，其中，所述參考分布信息包括以下至少任一項-基于自然語目的標(biāo)準(zhǔn)分布息；-與所述目標(biāo)文本所對應(yīng)的應(yīng)用相關(guān)的分布信息。
14.根據(jù)權(quán)利要求11至13中任一項所述的設(shè)備，其中，該設(shè)備還包括選取裝置，用于按照預(yù)置的文本抽樣規(guī)則，從所述目標(biāo)文本中選取優(yōu)選文本；其中，所述統(tǒng)計信息獲取裝置還用于根據(jù)所述優(yōu)選文本，獲得與所述優(yōu)選文本相對應(yīng)的統(tǒng)計信息。
15.根據(jù)權(quán)利要求14所述的設(shè)備，其中，所述文本抽樣規(guī)則基于以下至少任一項來從所述目標(biāo)文本中選取所述優(yōu)選文本-選取所述目標(biāo)文本中的若干行文本；-選取所述目標(biāo)文本的各行中具有相同列數(shù)的文字組成的列文本。
16.根據(jù)權(quán)利要求11至15中任一項所述的設(shè)備，其中，該設(shè)備還包括預(yù)處理裝置，用于對所述目標(biāo)文本進(jìn)行預(yù)處理，獲得預(yù)處理文本；其中，所述統(tǒng)計信息獲取裝置還用于根據(jù)所述預(yù)處理文本，獲得與所述預(yù)處理文本相對應(yīng)的統(tǒng)計信息。
17.根據(jù)權(quán)利要求16所述的設(shè)備，其中，所述預(yù)處理操作包括以下至少任一項-濾除所述目標(biāo)文本中的特定字符；-將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
18.根據(jù)權(quán)利要求17所述的設(shè)備，其中，所述預(yù)處理操作包括將所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字；其中，所述預(yù)處理裝置還用于將所述目標(biāo)文本在異型文字庫進(jìn)行匹配映射，以使所述目標(biāo)文本中的異型文字轉(zhuǎn)化為正常文字。
19.根據(jù)權(quán)利要求17或18所述的設(shè)備，其中，所述異型文字包括以下至少任一項-火星文；-菊花文。
20.根據(jù)權(quán)利要求11至19中任一項所述的設(shè)備，其中，所述文本獲取裝置還用于獲取用戶通過用戶設(shè)備提交的待識別的目標(biāo)文本；其中，該設(shè)備還包括提供裝置，用于將所述目標(biāo)文本的識別結(jié)果提供給所述用戶設(shè)備。
全文摘要
本發(fā)明的目的是提供一種用于識別失序文本的方法與設(shè)備。其中，識別設(shè)備獲取待識別的目標(biāo)文本；根據(jù)所述目標(biāo)文本，獲得與所述目標(biāo)文本相對應(yīng)的統(tǒng)計信息；根據(jù)所述統(tǒng)計信息，識別所述目標(biāo)文本是否為失序文本。與現(xiàn)有技術(shù)相比，本發(fā)明根據(jù)獲得的與目標(biāo)文本相對應(yīng)的統(tǒng)計信息，識別該目標(biāo)文本是否為失序文本，進(jìn)而實現(xiàn)有效的文本內(nèi)容管理。
文檔編號G06F17/30GK102982011SQ20111026421
公開日2013年3月20日申請日期2011年9月7日優(yōu)先權(quán)日2011年9月7日
發(fā)明者李彥宏, 舒迅, 帥帥, 王波申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李彥宏;舒迅;帥帥;王波
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司
我是此專利的發(fā)明人

上一篇：一種電容式觸摸屏的制作方法
上一篇：一種對互動平臺中的互動信息進(jìn)行作弊檢測的方法與設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

小程序富文本編輯器相關(guān)技術(shù)

ppt文本轉(zhuǎn)換程序下載相關(guān)技術(shù)

文本排序相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種用于識別失序文本的方法與設(shè)備的制作方法