專利名稱::文件壓縮、解壓縮方法、裝置及壓縮文件搜索方法、裝置的制作方法
技術領域:
:本發(fā)明涉及文件壓縮
技術領域:
,特別是一種文件壓縮、解壓縮方法、裝置及壓縮文件搜索方法、裝置。
背景技術:
:隨著計算機技術的不斷前進,各種類型的數(shù)據(jù)文件越來越龐大,因此,導致其存儲占用越來越多的存儲空間,而傳輸?shù)臅r候需要占用越來越多的帶寬。因此,數(shù)據(jù)文件壓縮在計算機技術中顯得越來越重要。現(xiàn)在,針對數(shù)據(jù)文件的壓縮分為有損壓縮和無損壓縮兩種,我們常用的WinRAR、WinZip都是屬于無損壓縮,其基本原理都是一樣的,簡單地說也就是把文件中的重復數(shù)據(jù)用更簡潔的方法表示,也就是去除數(shù)據(jù)冗余?,F(xiàn)有的文本壓縮算法中,包括一類統(tǒng)計壓縮算法,如Huffman(哈夫曼)算法等,說明如下。Huffman算法是一種基于統(tǒng)計的壓縮方法。它的本質(zhì)就是對文本文件中的字符進行重新編碼,對于使用頻率越高的字符,其編碼也越短。經(jīng)過編碼后的文本文件,主要包含2個部分Huffman碼表部分和壓縮內(nèi)容部分。解壓縮的時候,先把Huffman碼表取出來,然后對壓縮內(nèi)容部分各個字符進行逐一解碼,形成源文件。由此可見,使用Huffman算法的關鍵是形成Huffman碼表。這里就要用到Huffman樹的數(shù)據(jù)結(jié)構(gòu)。當把一棵Huffman樹生成后,碼表也就生成了。下舉例說明,假定我們的原始文本為〃abcbbcccc"。Huffman樹的生成包括如下步驟步驟Al,掃描源文件,對字符頻率進行統(tǒng)計。對于樣例,統(tǒng)計結(jié)果是a出現(xiàn)1次,b出現(xiàn)3次,而c出現(xiàn)5次,記為如圖1所示的隊列,a:1b:3c:5。步驟A2,從上述隊列中取出頻率最低的2個節(jié)點,合并成一個頻率為2節(jié)點頻率之和的樹枝節(jié)點X,加入到原隊列中,加入后,繼續(xù)保持隊列按頻率升序排列;對于樣例,得到如圖2所示的隊列;步驟A3,重復步驟A2,直到隊列中只有一個節(jié)點。步驟A4,通過上述步驟得到圖3所示的Huffman樹,葉子節(jié)點為字符,而從樹根節(jié)點到葉子節(jié)點的路徑即為該字符的Huffman編碼。從一個節(jié)點導航到其左孩子,該段路徑為O,導航到右孩子,該段路徑為1。如圖3所示,可以知道a字符的編碼就是00,b字符的編碼為01,而c字符的編碼為1,Huffman碼表生成后,原文本〃abcbbcccc〃就變成了0001101011111的位串,按每個字符占用2個byte計算,大小由原來的18個字節(jié)(9*2),共144個bit,變成了13個bit,2個字節(jié)。達到了壓縮的目的。解壓縮過程如下所述,首先根據(jù)Huffman碼表生成一棵Huffman樹,然后,根據(jù)Huffman樹,對壓縮內(nèi)容進行解壓縮。比如如果壓縮內(nèi)容為位串0001101011111,結(jié)合圖3所示,那么從樹根節(jié)點起,因為第一個bit為O,先轉(zhuǎn)向左子樹,第二個bit為O,再轉(zhuǎn)向左子樹,到達葉子節(jié)點a,所以解碼出來的第一個字符就是a,每次解壓一個字符,都從根節(jié)點起,根據(jù)bit流,向左或向右轉(zhuǎn),直到到達葉子節(jié)點,也就是解壓出來的字符,一直重復此過程,直到所有的字符都被解壓縮。然而發(fā)明人在實現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術至少存在如下缺點現(xiàn)有技術中,針對每一個文本壓縮文檔都必須包括兩部分,一部分是用于編碼的碼表,另一部分為文本壓縮后的編碼序列,由于這二者是在一個壓縮文檔中,所以導致壓縮率不是很理想,因此有必要提出新的壓縮方案,以進一步提高文本壓縮算法的壓縮率。
發(fā)明內(nèi)容本發(fā)明實施例的目的是提供一種文件壓縮、解壓縮方法、裝置及壓縮文件搜索方法、裝置,以提高文本壓縮算法的壓縮率。為了實現(xiàn)上述目的,本發(fā)明實施例提供了一種文件壓縮裝置,包括第一保存模塊,用于保存一編碼表,所述編碼表記錄了標準字串與編碼標識之間的對應關系,每個所述標準字串具有唯一的所述編碼標識;第一獲取模塊,用于獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用于根據(jù)所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用于根據(jù)所述編碼表中記錄的所述標準字串與所述編碼標識之間的對應關系,利用所述標準字串的所述編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列。上述的文件壓縮裝置,其中,所述編碼標識以數(shù)字表示,且所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述字串的編碼標識的數(shù)字越小。上述的文件壓縮裝置,其中,還包括統(tǒng)計模塊,用于對所述組成語料庫的文本文件進行詞頻統(tǒng)計,得到所述標準字串在所述文本文件中出現(xiàn)的頻率。上述的文件壓縮裝置,其中,所述編碼表中,對應于每一個所述標準字串設置有搜索字段,所述搜索字段用于記錄文件標識,所述搜索字段中記錄的文件標識所指示的文件包括所述搜索字段對應的所述標準字串,所述文件壓縮裝置還包括修改模塊,用于將所述待壓縮文件的文件標識添加到每個所述至少一個待編碼字串對應的所述搜索字段中。為了實現(xiàn)上述目的,本發(fā)明實施例還提供了一種文件壓縮方法,其特征在于,包括獲取待壓縮文件中的部分或全部文本,形成待編碼文本;根據(jù)標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;6根據(jù)預先保存的編碼表中記錄的所述標準字串與編碼標識之間的對應關系,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列,每個所述標準字串具有唯一的所述編碼標識。上述的方法,其中,所述編碼標識以數(shù)字表示,所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述字串的編碼標識的數(shù)字越小。上述的方法,其中,所述編碼表中,對應于每一個所述標準字串設置有搜索字段,所述搜索字段用于記錄文件標識,所述搜索字段中記錄的文件標識所指示的文件包括所述搜索字段對應的所述標準字串,所述方法還包括將所述待壓縮文件的文件標識添加到每個所述至少一個待編碼字串對應的所述搜索字段中。為了實現(xiàn)上述目的,本發(fā)明實施例還提供了一種文件解壓縮裝置,其特征在于,包括第三獲取模塊,用于獲取第一待解碼序列;第一解碼模塊,用于根據(jù)預先保存的編碼表中記錄的標準字串與編碼標識的對應關系,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述第一待解碼序列對應的文本,每個所述標準字串具有唯一的所述編碼標識。上述的裝置,其中,所述編碼標識與以數(shù)字表示,所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述字串的編碼標識的數(shù)字越小。上述的裝置,其中,還包括統(tǒng)計模塊,用于對所述組成語料庫的文本文件進行詞頻統(tǒng)計,得到所述標準字串在所述文本文件中出現(xiàn)的頻率。上述的裝置,其中,還包括第二解碼模塊,用于利用預設數(shù)值解壓縮算法,對第二待解碼序列進行解壓縮,得到所述第一待解碼序列。為了實現(xiàn)上述目的,本發(fā)明實施例還提供了一種文件解壓縮方法,其特征在于,包括獲取第一待解碼序列;根據(jù)預先保存的編碼表中記錄的標準字串與編碼標識的對應關系,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述第一待解碼序列對應的文本,每個所述標準字串具有唯一的所述編碼標識。上述的裝置,其中,所述編碼標識與以數(shù)字表示,所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述字串的編碼標識的數(shù)字越小。上述的裝置,其中,還包括利用預設數(shù)值解壓縮算法,對第二待解碼序列進行解壓縮,得到所述第一待解碼序列。為了實現(xiàn)上述目的,本發(fā)明實施例還提供了一種壓縮文件搜索裝置,其特征在于,包括第一保存模塊,用于預先保存一編碼表,所述編碼表記錄了標準字串與以數(shù)字表示的編碼標識之間的對應關系,每個所述標準字串具有唯一的所述編碼標識,所述編碼表中,對應于每一個所述標準字串設置有搜索字段,所述搜索字段用于記錄文件標識,所述文件標識所指示的文件包括所述搜索字段對應的所述標準字串;第二獲取模塊,用于獲取用戶輸入的搜索字符串;第二分詞模塊,用于根據(jù)所述標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;文件標識提取模塊,用于從所述編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合;搜索結(jié)果輸出模塊,用于將所述文件標識集合的交集作為搜索結(jié)果輸出。為了實現(xiàn)上述目的,本發(fā)明實施例還提供了一種壓縮文件搜索方法,包括獲取用戶輸入的搜索字符串;根據(jù)所述標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;從預先保存的編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合;所述編碼表記錄了標準字串與以數(shù)字表示的編碼標識之間的對應關系,每個所述標準字串具有唯一的所述編碼標識,且所述編碼表中,對應于每一個所述標準字串設置有搜索字段,所述搜索字段用于記錄文件標識,所述文件標識所指示的文件包括所述搜索字段對應的所述標準字串;將所述文件標識集合的交集作為搜索結(jié)果輸出。為了實現(xiàn)上述目的,本發(fā)明實施例還提供了一種文件壓縮傳輸方法,包括獲取待壓縮文件中的部分或全部文本,形成待編碼文本;根據(jù)所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;根據(jù)預先保存的編碼表中記錄的標準字串與編碼標識之間的對應關系,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列,每個所述標準字串具有唯一的所述編碼標識;將所述第一編碼序列發(fā)送到網(wǎng)絡存儲服務器。上述的裝置,其中,在獲取待壓縮文件中的部分文本時,所述方法還包括重復獲取文本到發(fā)送編碼序列的步驟,直至所述待壓縮文件中的文本全部壓縮傳輸完畢。為了實現(xiàn)上述目的,本發(fā)明實施例還提供了一種文件壓縮傳輸裝置,包括第一保存模塊,用于保存一編碼表,所述編碼表記錄了標準字串與編碼標識之間的對應關系,每個所述標準字串具有唯一的所述編碼標識;第一獲取模塊,用于獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用于根據(jù)所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用于根據(jù)所述編碼表中記錄的所述標準字串與編碼標識之間的對應關系,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列;傳輸模塊,用于將所述第一編碼序列發(fā)送到網(wǎng)絡存儲服務器。本發(fā)明實施例具有以下的有益效果首先,本發(fā)明實施例中預先保存一個針對于所有文本壓縮的碼表,所以每個壓縮文件中都不包括碼表,因此,大大縮小了壓縮后的文本文件的數(shù)據(jù)量,提高了壓縮率;其次,本發(fā)明實施例中的碼表是針對全局的,是基于一個大的語料庫得到的全局的字串的編碼標識,因此能夠提供更高的壓縮比;再次,相對于現(xiàn)有技術的壓縮后傳輸?shù)骄W(wǎng)絡存儲服務器的技術方案相比,由于可以預先在網(wǎng)絡存儲服務器存儲相同的編碼表,所以壓縮后的編碼序列不包括編碼表,降低了網(wǎng)絡負擔,而且該編碼表對所有壓縮文本都適用,在網(wǎng)絡存儲的文本較多時,減少了存儲最后,由于使用預先得到的編碼表,所以在發(fā)送端可以將待壓縮文本分成多個部分分別處理,處理完一部分及時傳輸,降低了對臨時存儲的需求。圖1到圖3為Huffman算法的文本壓縮處理的過程示意圖;圖4為本發(fā)明實施例的文件壓縮裝置的結(jié)構(gòu)示意圖;圖5為本發(fā)明實施例的文件壓縮方法的流程示意圖;圖6為本發(fā)明實施例的壓縮文件搜索方法的流程示意圖。具體實施例方式本發(fā)明實施例的方法及裝置中,預先保存一數(shù)據(jù)庫,該數(shù)據(jù)庫記錄了用于形成文本的字或詞的利用數(shù)字表示的編碼,在進行文本壓縮時,利用該數(shù)據(jù)庫進行編碼,提高壓縮比,同時,通過在編碼表中增加一搜索字段,利用該編碼表即可進行搜索,節(jié)省了搜索的資源消耗。如圖1所示,本發(fā)明實施例的數(shù)據(jù)文件中的文件壓縮裝置包括第一保存模塊,用于保存一編碼表,所述編碼表記錄了所述標準字串對應的編碼標識,所述編碼標識以數(shù)字表示,且每個所述標準字串具有唯一的所述編碼標識(也就是每個標準字串的編碼標識都是不同的,標準字串與編碼標識具有一一對應關系),所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述字串的編碼標識的數(shù)字越小;第一獲取模塊,用于獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用于根據(jù)所述編碼表中的所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用于利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列。由上面可以知道所述標準字串的編碼標識與其出現(xiàn)頻率相關,因此,本發(fā)明實施例的文件壓縮裝置還包括統(tǒng)計模塊,用于根據(jù)組成所述語料庫的所述文本文件進行詞頻統(tǒng)計,得到組成所述文本文件的所述標準字串在所述文本文件中出現(xiàn)的頻率;現(xiàn)有的分詞算法分為三大類基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法,在本發(fā)明的具體實施例中不進行具體限定。9上述表格中記錄的字串與編碼標識滿足如下的條件1、標碼標識具有唯一性;2、標準字串與標碼標識具有——對應關系;3、標準字串在組成語料庫的文本文件出現(xiàn)的次數(shù)越多,用于表示所述字串的編碼標識的數(shù)字越小。下面以具體的實例對本發(fā)明實施例進行詳細說明。假定利用多個文本文件進行詞頻統(tǒng)計后,編碼表中保存了如下表所示的對應關系,應當了解的是,在此僅僅是舉例說明,編碼標識并不代表實際的情形<table>tableseeoriginaldocumentpage10</column></row><table>假定此時獲取模塊得到的待編碼文本為"采用適當?shù)奈淖?,通過分詞模塊得到如下的待編碼字串采用、適當、的、文字。查找編碼表可以得到待編碼文本的編碼序列ID6ID4ID1ID2。本發(fā)明實施例相對于現(xiàn)有的基于統(tǒng)計的壓縮方法具有以下的有益效果本發(fā)明實施例中預先保存一個針對于所有文本壓縮的碼表,所以每個壓縮文件中都不包括碼表,因此,大大縮小了壓縮后的文本文件的數(shù)據(jù)量,提高了壓縮率;本發(fā)明實施例中的碼表是針對全局的,是基于一個大的語料庫得到的全局的字串的編碼標識,因此能夠提供更高的壓縮比。同時,現(xiàn)有技術中,為了提供搜索服務,需要將壓縮的文本文件解壓縮后,才能提供搜索服務,本發(fā)明實施例中為了進一步提供搜索服務,該編碼表中,對應于每一個所述標準字串還設置有一搜索字段,該搜索字段用于記錄對應的標準字串出現(xiàn)在哪些文件中,因此,文件壓縮裝置還包括數(shù)據(jù)庫修改模塊,用于將所述待壓縮文件的文件標識添加到每個所述至少一個待編碼字串對應的搜索字段中;該壓縮文件搜索裝置包括第二獲取模塊,用于獲取用戶輸入的搜索字符串;第二分詞模塊,用于根據(jù)所述標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;文件標識提取模塊,用于從所述編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合;搜索結(jié)果輸出模塊,用于將所述文件標識提取模塊得到的所述文件標識集合的交集作為搜索結(jié)果輸出。通過上述的處理,利用本發(fā)明實施例的壓縮裝置,在提供搜索服務時,利用該編碼表即可進行搜索服務,而不用將壓縮文件進行解壓縮,節(jié)約了系統(tǒng)的資源。同時,可以知道,第一編碼模塊的輸出結(jié)果是一個數(shù)字序列,因此,為了進一步提高壓縮率,本發(fā)明實施例的文件壓縮裝置還包括第二壓縮模塊,用于利用預設數(shù)值壓縮編碼算法,分別對所述第一編碼模塊得到的編碼序列中的與所述至少一個待編碼字串對應的編碼標識進行壓縮編碼,得到與所述待編碼文本對應的第二編碼序列。其中,該預設數(shù)值壓縮編碼算法可以是游程定長編碼算法、游程變長編碼算法等數(shù)值壓縮編碼算法。同時,由于本發(fā)明實施例中利用預先保存的編碼表,而不是利用待壓縮文件中的文本來獲取編碼標識,所以本發(fā)明實施例的文件壓縮裝置用于網(wǎng)絡傳輸時,可以對一個文本文件中的文本分成多個部分進行串行處理,而不用等待讀取整個文件,所以能夠節(jié)省處理時間。本發(fā)明實施例的數(shù)據(jù)文件中的文本壓縮方法,如圖5所示,包括步驟51,獲取待壓縮文件中的部分或全部文本,形成待編碼文本;步驟52,根據(jù)編碼表中的標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;所述編碼表記錄了所述標準字串對應的編碼標識,所述編碼標識以數(shù)字表示,且每個所述標準字串具有唯一的所述編碼標識,所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述標準字串的編碼標識的數(shù)字越??;步驟53,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列;步驟54,利用預設數(shù)值壓縮編碼算法,分別對所述第一編碼序列中的與所述至少一個待編碼字串對應的編碼標識進行壓縮編碼,得到與所述待編碼文本對應的第二編碼序列。本發(fā)明實施例還提供了對圖5所示的壓縮方法得到的壓縮文件的搜索方法,如圖6所示,包括步驟61,獲取用戶輸入的搜索字符串;步驟62,根據(jù)標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;步驟63,從編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合.步驟64,將所述文件標識集合的交集作為搜索結(jié)果輸出。本發(fā)明實施例的文件解壓縮裝置包括第一保存模塊,用于保存一編碼表,所述編碼表記錄了所述標準字串對應的編碼標識,所述編碼標識以數(shù)字表示,且每個所述標準字串具有唯一的所述編碼標識,所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述字串的編碼標識的數(shù)字越?。坏谌@取模塊,用于獲取第一待解碼序列;第一解碼模塊,用于根據(jù)所述編碼表記錄的所述標準字串與所述編碼標識的對應關系,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述待解碼序列對應的文本。當然,如果在壓縮過程中對數(shù)字序列進行了壓縮,則本發(fā)明實施例的文件解壓縮裝置還包括第二解碼模塊,用于利用預設數(shù)值解壓縮算法,對第二待解碼序列進行解壓縮,得到第一待解碼序列;其處理過程包括如下步驟利用預設數(shù)值解壓縮算法,對第二待解碼序列進行解壓縮,得到第一待解碼序列;根據(jù)編碼表記錄的標準字串與編碼標識的對應關系,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述第一待解碼序列對應的文本。本發(fā)明實施例還提供一種文件壓縮傳輸方法,包括獲取待壓縮文件中的全部文本或部分文本,形成待編碼文本;根據(jù)所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;根據(jù)預先保存的編碼表中記錄的標準字串與編碼標識之間的對應關系,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列,每個所述標準字串具有唯一的所述編碼標識;將所述第一編碼序列發(fā)送到網(wǎng)絡存儲服務器。當獲取待壓縮文件中的部分文本時,當然還應該重復執(zhí)行上述步驟,直至待壓縮文件中的全部文本處理完畢。對應的文件壓縮傳輸裝置包括第一保存模塊,用于保存一編碼表,所述編碼表記錄了標準字串與編碼標識之間的對應關系,每個所述標準字串具有唯一的所述編碼標識;第一獲取模塊,用于獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用于根據(jù)所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用于根據(jù)所述編碼表中記錄的所述標準字串與編碼標識之間的對應關系,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列;傳輸模塊,用于將所述第一編碼序列發(fā)送到網(wǎng)絡存儲服務器。相對于現(xiàn)有技術的壓縮后傳輸?shù)骄W(wǎng)絡存儲服務器的技術方案相比,由于可以預先在網(wǎng)絡存儲服務器存儲相同的編碼表,所以壓縮后的編碼序列不包括編碼表,降低了網(wǎng)絡負擔,而且該編碼表對所有壓縮文本都適用,在網(wǎng)絡存儲的文本較多時,減少了存儲量。同時,由于使用預先得到的編碼表,所以在發(fā)送端可以將待壓縮文本分成多個部分分別處理,處理完一部分及時傳輸,降低了對臨時存儲的需求。以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本
技術領域:
的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。權利要求一種文件壓縮裝置,其特征在于,包括第一保存模塊,用于保存一編碼表,所述編碼表記錄了標準字串與編碼標識之間的對應關系,每個所述標準字串具有唯一的所述編碼標識;第一獲取模塊,用于獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用于根據(jù)所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用于根據(jù)所述編碼表中記錄的所述標準字串與所述編碼標識之間的對應關系,利用所述標準字串的所述編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列。2.根據(jù)權利要求1所述的文件壓縮裝置,其特征在于,所述編碼標識以數(shù)字表示,且所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述字串的編碼標識的數(shù)字越小。3.根據(jù)權利要求2所述的文件壓縮裝置,其特征在于,還包括統(tǒng)計模塊,用于對所述組成語料庫的文本文件進行詞頻統(tǒng)計,得到所述標準字串在所述文本文件中出現(xiàn)的頻率。4.根據(jù)權利要求1或2或3所述的文件壓縮裝置,其特征在于,所述編碼表中,對應于每一個所述標準字串設置有搜索字段,所述搜索字段用于記錄文件標識,所述搜索字段中記錄的文件標識所指示的文件包括所述搜索字段對應的所述標準字串,所述文件壓縮裝置還包括修改模塊,用于將所述待壓縮文件的文件標識添加到每個所述至少一個待編碼字串對應的所述搜索字段中。5.根據(jù)權利要求1或2或3所述的文件壓縮裝置,其特征在于,還包括第二壓縮模塊,用于利用預設數(shù)值壓縮編碼算法,分別對所述第一編碼模塊得到的編碼序列中的與所述至少一個待編碼字串對應的編碼標識進行壓縮編碼,得到與所述待編碼文本對應的第二編碼序列。6.—種文件壓縮方法,其特征在于,包括獲取待壓縮文件中的部分或全部文本,形成待編碼文本;根據(jù)標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;根據(jù)預先保存的編碼表中記錄的所述標準字串與編碼標識之間的對應關系,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列,每個所述標準字串具有唯一的所述編碼標識。7.根據(jù)權利要求6所述的方法,其特征在于,所述編碼標識以數(shù)字表示,所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述字串的編碼標識的數(shù)字越小。8.根據(jù)權利要求6或7所述的方法,其特征在于,所述編碼表中,對應于每一個所述標準字串設置有搜索字段,所述搜索字段用于記錄文件標識,所述搜索字段中記錄的文件標識所指示的文件包括所述搜索字段對應的所述標準字串,所述方法還包括將所述待壓縮文件的文件標識添加到每個所述至少一個待編碼字串對應的所述搜索字段中。9.根據(jù)權利要求6或7所述的方法,其特征在于,還包括利用預設數(shù)值壓縮編碼算法,分別對所述第一編碼序列中的與所述至少一個待編碼字串對應的編碼標識進行壓縮編碼,得到與所述待編碼文本對應的第二編碼序列。10.—種文件解壓縮裝置,其特征在于,包括第三獲取模塊,用于獲取第一待解碼序列;第一解碼模塊,用于根據(jù)預先保存的編碼表中記錄的標準字串與編碼標識的對應關系,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述第一待解碼序列對應的文本,每個所述標準字串具有唯一的所述編碼標識。11.根據(jù)權利要求io所述的文件解壓縮裝置,其特征在于,所述編碼標識與以數(shù)字表示,所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述字串的編碼標識的數(shù)字越小。12.根據(jù)權利要求11所述的文件解壓縮裝置,其特征在于,還包括統(tǒng)計模塊,用于對所述組成語料庫的文本文件進行詞頻統(tǒng)計,得到所述標準字串在所述文本文件中出現(xiàn)的頻率。13.根據(jù)權利要求10或11或12所述的文件解壓縮裝置,其特征在于,還包括第二解碼模塊,用于利用預設數(shù)值解壓縮算法,對第二待解碼序列進行解壓縮,得到所述第一待解碼序列。14.一種文件解壓縮方法,其特征在于,包括獲取第一待解碼序列;根據(jù)預先保存的編碼表中記錄的標準字串與編碼標識的對應關系,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述第一待解碼序列對應的文本,每個所述標準字串具有唯一的所述編碼標識。15.根據(jù)權利要求14所述的方法,其特征在于,所述編碼標識與以數(shù)字表示,所述標準字串在組成語料庫的文本文件中出現(xiàn)的頻率越高,用于表示所述字串的編碼標識的數(shù)字越小。16.根據(jù)權利要求14或15所述的方法,其特征在于,還包括利用預設數(shù)值解壓縮算法,對第二待解碼序列進行解壓縮,得到所述第一待解碼序列。17.—種壓縮文件搜索裝置,其特征在于,包括第一保存模塊,用于預先保存一編碼表,所述編碼表記錄了標準字串與以數(shù)字表示的編碼標識之間的對應關系,每個所述標準字串具有唯一的所述編碼標識,所述編碼表中,對應于每一個所述標準字串設置有搜索字段,所述搜索字段用于記錄文件標識,所述文件標識所指示的文件包括所述搜索字段對應的所述標準字串;第二獲取模塊,用于獲取用戶輸入的搜索字符串;第二分詞模塊,用于根據(jù)所述標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;文件標識提取模塊,用于從所述編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合;搜索結(jié)果輸出模塊,用于將所述文件標識集合的交集作為搜索結(jié)果輸出。18.—種壓縮文件搜索方法,其特征在于,包括獲取用戶輸入的搜索字符串;根據(jù)所述標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;從預先保存的編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合;所述編碼表記錄了標準字串與以數(shù)字表示的編碼標識之間的對應關系,每個所述標準字串具有唯一的所述編碼標識,且所述編碼表中,對應于每一個所述標準字串設置有搜索字段,所述搜索字段用于記錄文件標識,所述文件標識所指示的文件包括所述搜索字段對應的所述標準字串;將所述文件標識集合的交集作為搜索結(jié)果輸出。19.一種文件壓縮傳輸方法,其特征在于,包括獲取待壓縮文件中的部分或全部文本,形成待編碼文本;根據(jù)所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;根據(jù)預先保存的編碼表中記錄的標準字串與編碼標識之間的對應關系,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列,每個所述標準字串具有唯一的所述編碼標識;將所述第一編碼序列發(fā)送到網(wǎng)絡存儲服務器。20.根據(jù)權利要求19所述的方法,其特征在于,在獲取待壓縮文件中的部分文本時,所述方法還包括重復獲取文本到發(fā)送編碼序列的步驟,直至所述待壓縮文件中的文本全部壓縮傳輸完畢。21.—種文件壓縮傳輸裝置,其特征在于,包括第一保存模塊,用于保存一編碼表,所述編碼表記錄了標準字串與編碼標識之間的對應關系,每個所述標準字串具有唯一的所述編碼標識;第一獲取模塊,用于獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用于根據(jù)所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用于根據(jù)所述編碼表中記錄的所述標準字串與編碼標識之間的對應關系,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列;傳輸模塊,用于將所述第一編碼序列發(fā)送到網(wǎng)絡存儲服務器。全文摘要本發(fā)明實施例提供一種文件壓縮、解壓縮方法、裝置及壓縮文件搜索方法、裝置,該文件壓縮裝置包括第一保存模塊,用于保存一編碼表,編碼表記錄了標準字串與編碼標識之間的對應關系,每個標準字串具有唯一的編碼標識;第一獲取模塊,用于獲取待壓縮文件中的¨分或全部文本,形成待編碼文本;第一分詞模塊,用于根據(jù)標準字串對待編碼文本進行分詞,將待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用于根據(jù)編碼表中記錄的標準字串與編碼標識之間的對應關系,利用標準字串的所述編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列。本發(fā)明提高了文本壓縮算法的壓縮率和檢索的方便性。文檔編號H04L29/06GK101783788SQ20091007679公開日2010年7月21日申請日期2009年1月21日優(yōu)先權日2009年1月21日發(fā)明者范昂申請人:聯(lián)想(北京)有限公司