文本信息的處理方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理技術(shù),特別是涉及一種文本信息的處理方法和裝置。
【背景技術(shù)】
[0002]各種文本信息中的網(wǎng)絡(luò)傳播中,非法信息傳播者為了逃避信息安全中的各種信息過(guò)濾應(yīng)用而在文本信息中添加噪音,以繞過(guò)信息過(guò)濾應(yīng)用所進(jìn)行的安全檢測(cè),使得作為垃圾信息甚至于非法信息的文本信息得以廣泛地傳播。
[0003]傳統(tǒng)的文本信息過(guò)濾應(yīng)用是提取文本信息的關(guān)鍵字實(shí)現(xiàn)其中的噪音清除的,但是,由于經(jīng)過(guò)傳統(tǒng)的文本信息過(guò)濾應(yīng)用提得到的文本信息僅僅是由原文本信息中提取得到的關(guān)鍵字組合在一起形成的,并不會(huì)對(duì)非關(guān)鍵字進(jìn)行提取,因此常常遺漏了非關(guān)鍵字,進(jìn)而造成文本信息的缺失。
【發(fā)明內(nèi)容】
[0004]基于此,有必要針對(duì)文本信息過(guò)濾中遺漏非關(guān)鍵字的技術(shù)問(wèn)題,提供一種能避免非關(guān)鍵字遺漏的文本信息的處理方法。
[0005]此外,還有必要提供一種能避免非關(guān)鍵字遺漏的文本信息的處理裝置。
[0006]一種文本信息的處理方法,包括如下步驟:
[0007]對(duì)文本信息進(jìn)行分詞處理以得到切分的文本;
[0008]提取所述切分的文本匹配的詞以及所述切分的文本在所述文本信息中的偏移量;
[0009]判斷是否存在未匹配的切分的文本,若為是,則組合所述相互連續(xù)的切分的文本,并更新所述組合的文本的出現(xiàn)頻度;
[0010]根據(jù)所述出現(xiàn)頻度獲取所述組合的文本在所述文本信息中的偏移量;
[0011]根據(jù)所述偏移量將所述切合的文本匹配的詞和組合的文本進(jìn)行組合排列得到有效文本信息。
[0012]一種文本信息的處理裝置,其特征在于,包括:
[0013]分詞處理模塊,用于對(duì)文本信息進(jìn)行分詞處理以得到切分的文本;
[0014]偏移量提取模塊,用于提取所述切分的文本匹配的詞以及所述切分的文本在所述文本信息中的偏移量;
[0015]未匹配處理模塊,用于判斷是否存在未匹配的切分的文本,若為是,則組合所述相互連續(xù)的切分的文本,并更新所述組合的文本的出現(xiàn)頻度;
[0016]組合文本處理模塊,用于根據(jù)所述出現(xiàn)頻度獲取所述組合的文本在所述文本信息的偏移量;
[0017]組合排列模塊,用于根據(jù)所述偏移量將所述切合的文本匹配的詞和組合的文本進(jìn)行組合排列得到有效文本信息。
[0018]上述文本信息的處理方法和裝置中,對(duì)文本信息進(jìn)行分詞處理以得以切分的文本,提取切分的文本匹配的詞以及切分的文本在文本信息中的偏移量,此時(shí),所提取到的切分的文本匹配的詞必然為文本信息中的關(guān)鍵詞,而對(duì)于不存在與其匹配的詞的切分的文本,由于無(wú)法提取得到與之相匹配的詞被視為非關(guān)鍵詞,此時(shí),需要將相互之間連續(xù)的切分的文本組合在一起,并更新這一組合在一起的文本的出現(xiàn)頻度,進(jìn)而根據(jù)出現(xiàn)頻度來(lái)進(jìn)行組合的文本在文本信息中的偏移量的獲取,根據(jù)偏移量將切分的文本和組合的文本進(jìn)行組合排列得到有效文本信息,無(wú)論是文本信息中的關(guān)鍵字還是非關(guān)鍵字均存在于有效文本信息中,避免了非關(guān)鍵字的遺漏,屏蔽了噪音在文本信息中對(duì)文本完整性和語(yǔ)義上的干擾,有效提聞了識(shí)別文本/[目息的準(zhǔn)確性。
【附圖說(shuō)明】
[0019]圖1為一個(gè)實(shí)施例中文本信息的處理方法的流程圖;
[0020]圖2為圖1中根據(jù)出現(xiàn)頻度獲取組合的文本在文本信息中的偏移量的方法流程圖;
[0021]圖3為一個(gè)實(shí)施例中文本信息的處理裝置的結(jié)構(gòu)示意圖;
[0022]圖4為一個(gè)實(shí)施例中組合文本處理模塊的結(jié)構(gòu)示意圖;
[0023]圖5為一個(gè)實(shí)施例中實(shí)現(xiàn)本發(fā)明實(shí)施例的計(jì)算機(jī)系統(tǒng)的模塊圖。
【具體實(shí)施方式】
[0024]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0025]除非上下文另有特定清楚的描述,本發(fā)明中的元件和組件,數(shù)量既可以單個(gè)的形式存在,也可以多個(gè)的形式存在,本發(fā)明并不對(duì)此進(jìn)行限定。本發(fā)明中的步驟雖然用標(biāo)號(hào)進(jìn)行了排列,但并不用于限定步驟的先后次序,除非明確說(shuō)明了步驟的次序或者某步驟的執(zhí)行需要其他步驟作為基礎(chǔ),否則步驟的相對(duì)次序是可以調(diào)整的??梢岳斫猓疚闹兴褂玫男g(shù)語(yǔ)“和/或”涉及且涵蓋相關(guān)聯(lián)的所列項(xiàng)目中的一者或一者以上的任何和所有可能的組口 ο
[0026]如圖1所示,在一個(gè)實(shí)施例中,一種文本信息的處理方法,包括如下步驟:
[0027]步驟S110,對(duì)文本信息進(jìn)行分詞處理以得到切分的文本。
[0028]本實(shí)施例中,文本信息中的文本可以是繁體中文、簡(jiǎn)體中文、數(shù)字、圖形符號(hào)、標(biāo)點(diǎn)符號(hào)等。例如,該文本信息可以是短信以及各種網(wǎng)絡(luò)消息等。
[0029]通過(guò)對(duì)文本信息進(jìn)行分詞處理,切分文本信息中的文本,以得到若干個(gè)切分的文本。
[0030]具體的,可采用正向最大匹配算法對(duì)文本信息進(jìn)行分詞處理,其中,在正向最大匹配算法所進(jìn)行的詞典搜索中,所應(yīng)用的搜索樹(shù)為雙trie樹(shù)。
[0031]進(jìn)一步的,對(duì)于文本信息中的數(shù)字或者字母,將相連的數(shù)字或者字母切分在一起,作為一個(gè)切分的文本,進(jìn)而完成文本信息中文本的分詞處理。
[0032]步驟S120,提取切分的文本匹配的詞以及切分的文本在文本信息中的偏移量。
[0033]本實(shí)施例中,預(yù)先設(shè)置詞庫(kù),將大量的詞存儲(chǔ)于預(yù)先設(shè)置的詞庫(kù)中,將信息中的若干個(gè)切分的文本與詞庫(kù)中的詞進(jìn)行逐一比對(duì),以得到與切分的文本相匹配的詞,進(jìn)而提取該詞,并從文本信息中獲取這一切分的文本在文本信息中的偏移量。
[0034]切分的文本在文本信息中的偏移量用于標(biāo)識(shí)其在文本信息中的位置,例如,在“24小時(shí)服務(wù)熱線(xiàn)”這樣一個(gè)文本信息中,在進(jìn)行分詞處理后將得到包括了 4個(gè)切分的文本即“24/小時(shí)/服務(wù)/熱線(xiàn)”,而切分的文本“小時(shí)”在文本信息中的偏移量為2。
[0035]從詞庫(kù)中所提取得到的與切分的文本相匹配的詞即為關(guān)鍵詞,是該切分的文本所對(duì)應(yīng)的正確詞,這一匹配過(guò)程能夠清除文本中存在的噪音,以消除噪音對(duì)文本信息的干擾,其中,文本信息中的噪音指的是對(duì)文本信息中的語(yǔ)句完整性或者語(yǔ)義起到破壞作用的字或
ο
[0036]例如,若某一切分的文本為“哈爾賓”,則“賓”這一個(gè)字即被視為噪音,則所提取得到的詞為“哈爾濱”,清除了噪音。
[0037]步驟S130,判斷是否存在未匹配的切分的文本,若為是,則進(jìn)入步驟S140,若為否,則進(jìn)入步驟S150。
[0038]本實(shí)施例中,若詞庫(kù)中不存在與某一切分的文本相匹配的詞,則說(shuō)明該切分的文本為非關(guān)鍵詞,因此,需要進(jìn)一步區(qū)分該切分的文本是有效詞還是噪音,以避免作為有效詞的非關(guān)鍵詞被誤當(dāng)成噪音而清除。
[0039]步驟S140,組合相互連續(xù)的切分的文本,并更新組合的文本的出現(xiàn)頻度。
[0040]本實(shí)施例中,若判斷到當(dāng)前存在著未匹配的切分的文本,則對(duì)相互連續(xù)的切分的文本進(jìn)行組合,以得到組合的文本,并