專利名稱:壓縮方法、解壓縮方法、壓縮單元、解壓縮單元以及壓縮文檔的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及結(jié)構(gòu)化文檔的壓縮和解壓縮,尤其是壓縮方法、解壓縮方法、壓縮單元和解壓縮單元以及例如二進(jìn)制形式的壓縮文檔。
背景技術(shù):
多年以來,借助結(jié)構(gòu)化文檔來表示信息。用于表示結(jié)構(gòu)化文檔的普遍公知的標(biāo)準(zhǔn)是 W3C (W3C-fforld Wide Web Consortium 萬維網(wǎng)聯(lián)盟)的 XML (XML-eXtensible Markup Language 可擴(kuò)展標(biāo)記語言)。借此在很多應(yīng)用和設(shè)備中準(zhǔn)備信息。例如,可以借助結(jié)構(gòu)化文檔提供用于初始化終端設(shè)備(例如,移動電話或者設(shè)備組件)的配置數(shù)據(jù)。另一示例是結(jié)構(gòu)化文檔用于描述多媒體內(nèi)容,如其例如用于標(biāo)準(zhǔn)SVG (SVG- Scalable Vector Graphic 可縮放矢量圖)。結(jié)構(gòu)化文檔具有以下缺點存儲或傳輸所需的數(shù)據(jù)體積大。因此開發(fā)了一些壓縮方法,這些壓縮方法可以減小結(jié)構(gòu)化文檔的數(shù)據(jù)體積。例如提到GZIP (GZIP-GNU ZIP)、標(biāo)準(zhǔn) BIM (BIM-Binary MPEG format for XML 用于 XML 的二進(jìn)制 MPEG 格式)或者 W3C 的 EXI (Efficient XML Interchange 高效XML交換),它們產(chǎn)生二進(jìn)制形式的壓縮文檔。盡管如此,仍需要進(jìn)一步減小數(shù)據(jù)體積,因為尤其是較小的并且很廉價的終端設(shè)備(例如通過網(wǎng)格網(wǎng)絡(luò)進(jìn)行通信的傳感器)僅僅具有較小的存儲器。
發(fā)明內(nèi)容
因此,本發(fā)明的任務(wù)在于說明一種壓縮方法和一種壓縮單元,它們進(jìn)一步減小在壓縮結(jié)構(gòu)化文檔時的數(shù)據(jù)體積。此外,本發(fā)明的任務(wù)還在于說明一種相應(yīng)的解壓縮方法和解壓縮單元。所述任務(wù)通過獨(dú)立權(quán)利要求解決。在從屬權(quán)利要求中可以獲知本發(fā)明的擴(kuò)展方案。本發(fā)明涉及一種用于壓縮結(jié)構(gòu)化文檔的壓縮方法,其中,所述結(jié)構(gòu)化文檔具有至少一個信息單元,所述至少一個信息單元由預(yù)給定的結(jié)構(gòu)規(guī)則的類型實例化,所述結(jié)構(gòu)規(guī)則包括第一基本類型和第二基本類型,所述第一基本類型用于表示至少一個字符,所述類型具有通過至少一個第一基本類型表述的數(shù)據(jù)域,并且所述數(shù)據(jù)域的結(jié)構(gòu)通過正則表達(dá)確定,預(yù)給定的壓縮方法可以將所述結(jié)構(gòu)化文檔壓縮成壓縮文檔,其中實施以下步驟
-如此求得所述正則表達(dá)的至少一個部分,使得所述相應(yīng)部分可通過所述第二基本類型表示;
-求得所述至少一個信息單元的相應(yīng)片段,該片段基于所述正則表達(dá)的所述相應(yīng)部
分;
-借助于所述預(yù)給定的壓縮方法如此壓縮所述相應(yīng)片段,使得通過所述預(yù)給定的壓縮方法基于預(yù)給定的壓縮規(guī)則對于所述第二基本類型壓縮所述相應(yīng)片段。
發(fā)明人認(rèn)識到,借助于第一基本類型字符串表示的數(shù)據(jù)的壓縮導(dǎo)致較差的壓縮率。這基于以下知識第一基本類型由于其可以進(jìn)行表示的多個字符而僅僅實現(xiàn)較差的壓縮率。通過基于第一基本類型的類型實例化產(chǎn)生的信息元素在通過第一基本類型定義的數(shù)據(jù)域中具有字符串。壓縮率的改善可以通過以下方式實現(xiàn)將字符串劃分成至少一個片段, 其可以借助與第一基本類型不同的第二基本類型進(jìn)行壓縮。在當(dāng)前方法中,數(shù)據(jù)域的結(jié)構(gòu)基于例如BNF的正則表達(dá),其中,通過正則表達(dá)的分析所述正則表達(dá)的至少一個部分可對應(yīng)于一個或多個非第一基本類型。在此有利的是,正則表達(dá)詳細(xì)地說明數(shù)據(jù)域或至少一個片段的結(jié)構(gòu)和可能內(nèi)容,從而所述至少一個部分可對應(yīng)于一個或多個非第一基本類型,而不存在片段的可能內(nèi)容不能通過所選擇的第二基本類型表示的危險。所述壓縮方法的另一優(yōu)點在于,為了解壓縮結(jié)構(gòu)化文檔,可使用預(yù)給定的解壓縮方法,因為片段的壓縮僅僅借助于預(yù)給定的壓縮方法基于結(jié)構(gòu)規(guī)則的預(yù)給定的基本類型實施。應(yīng)當(dāng)注意,第一基本類型和第二基本類型是不同的基本類型。此外,預(yù)給定的壓縮方法可以考慮實施壓縮時的結(jié)構(gòu)規(guī)則。在壓縮方法的一個擴(kuò)展方案中,確定正則片段的兩個部分和至少一個信息內(nèi)容的兩個片段,其中,所述兩個片段基于正則表達(dá)的相應(yīng)部分,所述兩個片段組合成一個新的片段,并且借助于預(yù)給定的壓縮方法基于預(yù)給定的壓縮規(guī)則關(guān)于第二基本類型壓縮所述新的片段。由此,通過兩個或多個片段組合成一個新的片段實現(xiàn)壓縮率的進(jìn)一步提高。此外,對于所述部分的一個,基于所述基本類型形成一個新的類型,取代至少一個信息單元形成第一數(shù)量的新的信息單元,其中,所述第一數(shù)量對應(yīng)于部分的第二數(shù)量,并且基于與相應(yīng)部分相對應(yīng)的新的類型實例化并且以與所述部分相對應(yīng)的片段賦值所述新的信息單元。借助所述擴(kuò)展方案,為正則表達(dá)的部分的每一個基于結(jié)構(gòu)規(guī)則的預(yù)給定的基本類型分配一個自己的類型。由此可以實現(xiàn)內(nèi)容對應(yīng),例如在日期一日、月或年的情況下那樣。因此,可以進(jìn)一步提高壓縮率,因為基于內(nèi)容對應(yīng)相應(yīng)部分和(因此)相應(yīng)片段的值范圍是已知的。例如通過關(guān)于日期的日的片段的內(nèi)容對應(yīng),清楚的是,所述值范圍僅僅包括自然數(shù)1至31。基于所述知識,在分配基本類型時,選擇既包括整個值范圍并且對于所覆蓋的值范圍也實現(xiàn)最高壓縮率的那個基本類型。 此外,可以為壓縮片段中的至少一個(在其壓縮前)添加標(biāo)識,所述標(biāo)識辨識待壓縮的片段。通過所述擴(kuò)展方案可以實現(xiàn),通過向壓縮文檔中添加一個待壓縮片段的標(biāo)識部分地簡化了壓縮文檔的內(nèi)容辨識。這提高了壓縮率,因為通過劃分成多個片段提高了壓縮率并且通過添加標(biāo)識還改善了相應(yīng)片段的可讀性。附加地,可以基于正則片段的基于相應(yīng)片段的部分來形成標(biāo)識。有利地,標(biāo)識的形成可通過分析正則表達(dá)的部分來實施。例如,正則表達(dá)具有所謂的“Tag”,如日、月或年,其可以直接作為標(biāo)識。所述處理方式是建立標(biāo)識時的簡化方案。優(yōu)選地,通過標(biāo)準(zhǔn)XML定義結(jié)構(gòu)規(guī)則,其中
-所述至少一個信息單元是XML元素或XML屬性, -所述結(jié)構(gòu)化文檔是XML文檔,
-所述基本類型由XML類型(內(nèi)置基本類型和內(nèi)置派生類型)的集合中形成。當(dāng)前方法也可使用基于XML的結(jié)構(gòu)化文檔。恰好XML標(biāo)準(zhǔn)廣泛使用,從而尤其在使用本發(fā)明時具有較大的經(jīng)濟(jì)效益。
此外,用于壓縮結(jié)構(gòu)化文檔的壓縮單元也是本發(fā)明的一部分,其中,所述結(jié)構(gòu)化文檔具有至少一個信息單元,所述至少一個信息單元由預(yù)給定的結(jié)構(gòu)規(guī)則的類型實例化, 所述結(jié)構(gòu)規(guī)則包括第一基本類型和第二基本類型,所述第一基本類型用于表示至少一個字符,所述類型具有通過至少一個第一基本類型表述的數(shù)據(jù)域,并且所述數(shù)據(jù)域的結(jié)構(gòu)通過正則表達(dá)確定,預(yù)給定的壓縮方法可以將所述結(jié)構(gòu)化文檔壓縮成壓縮文檔,其中所述壓縮單元具有以下裝置
-第一裝置,用于如此求得所述正則表達(dá)的至少一個部分,使得所述相應(yīng)部分可通過所述第二基本類型表示;
-第二裝置,用于求得所述至少一個信息單元的一個相應(yīng)片段,該片段基于所述正則表達(dá)的所述相應(yīng)部分;
-第三裝置,用于求得借助于所述預(yù)給定的壓縮方法如此壓縮所述相應(yīng)片段,使得通過所述預(yù)給定的壓縮方法基于預(yù)給定的壓縮規(guī)則對于所述第二基本類型壓縮所述相應(yīng)片段。所述壓縮單元具有與壓縮方法相同的優(yōu)點。所述壓縮單元還具有第四裝置,所述第四裝置如此設(shè)計,使得其實施壓縮方法的以上所述的方法步驟。所述壓縮單元具有與壓縮方法的擴(kuò)展方法相同的優(yōu)點。此外,用于解壓縮壓縮文檔的解壓縮方法也是本發(fā)明的一部分,其中,結(jié)構(gòu)化文檔已經(jīng)根據(jù)以上所述的壓縮方法的方法步驟壓縮成壓縮文檔,所述結(jié)構(gòu)化文檔具有至少一個信息單元,所述至少一個信息單元由預(yù)給定的結(jié)構(gòu)規(guī)則的類型實例化,所述結(jié)構(gòu)規(guī)則包括第一基本類型和第二基本類型,所述第一基本類型用于表示至少一個字符,所述類型包括一個數(shù)據(jù)域,所述數(shù)據(jù)域通過至少一個第一基本類型表述,并且所述數(shù)據(jù)域的結(jié)構(gòu)通過正則表達(dá)確定,預(yù)給定的解壓縮方法可以解壓縮所述壓縮文檔,其中實施以下步驟
-如此求得所述正則表達(dá)的至少一個部分,使得所述相應(yīng)部分可通過所述第二基本類型表示;
-通過預(yù)給定的解壓縮方法至少部分地將所述壓縮文檔解壓縮成至少一個片段,其中,基于預(yù)給定的解壓縮規(guī)則對于第二基本類型獲得相應(yīng)片段; -使相應(yīng)片段對應(yīng)于正則表達(dá)的相應(yīng)部分。所述解壓縮方法在解壓縮壓縮文檔時利用壓縮方法的優(yōu)點。優(yōu)選地,在解壓縮方法中,將相應(yīng)片段分配給至少一個信息單元,其中,所述相應(yīng)片段基于正則表達(dá)的相應(yīng)部分。由此可以產(chǎn)生重建的結(jié)構(gòu)化文檔。此外,可以通過解壓縮方法確定正則表達(dá)的兩個部分,基于所述兩個部分將通過解壓縮獲得的新的片段如此劃分成兩個片段,使得片段的每一個分別對應(yīng)于部分的每一個。因此可以實現(xiàn)更高的壓縮率。在解壓縮方法的一個擴(kuò)展方案中,對于部分的每一個基于基本類型形成一個新的類型,取代至少一個信息單元基于解壓縮形成第一數(shù)量的新的信息單元,其中,所述第一數(shù)量對應(yīng)于部分的第二數(shù)量,并且基于與相應(yīng)部分相對應(yīng)的新的類型實例化并且以與所述部分相對應(yīng)的、通過解壓縮重建的片段賦值所述新的信息單元。在此,優(yōu)點類似于相應(yīng)的解壓縮方法的描述。在解壓縮范疇內(nèi),可以通過以下方式改善片段的可讀性,給片段的至少一個分配一個標(biāo)識,所述標(biāo)識辨識所述至少一個片段。這尤其可以通過以下方式實現(xiàn),基于正則表達(dá)的基于相應(yīng)片段的部分來形成所述標(biāo)識。優(yōu)選地,在解壓縮方法中,通過標(biāo)準(zhǔn)XML定義結(jié)構(gòu)規(guī)則,其中 -所述至少一個信息單元是XML元素或XML屬性,
-所述結(jié)構(gòu)化文檔是XML文檔,
-所述基本類型由XML類型(內(nèi)置基本類型和內(nèi)置派生類型)的集合形成。因此,解壓縮方法也可以用于最通用的標(biāo)準(zhǔn)之一 XML中。此外,可以如此擴(kuò)展解壓縮方法,使得在解壓縮步驟前根據(jù)正則表達(dá)的至少一個部分判斷基于相應(yīng)的預(yù)給定解壓縮方法對于第一基本類型還是對于第二基本類型獲得與至少一個部分相對應(yīng)的片段。所述變型方案允許解壓縮方法的簡單實現(xiàn),因為無需改變結(jié)構(gòu)規(guī)則。在解壓縮壓縮文檔時,所述解壓縮方法利用壓縮方法的優(yōu)點。在此應(yīng)當(dāng)注意,根據(jù)實現(xiàn),通過解壓縮方法獲得的片段與相應(yīng)的信息單元的對應(yīng)是一種擴(kuò)展方案,因為可以通過進(jìn)一步處理的單元直接負(fù)責(zé)所述片段,例如用于在屏幕上顯示信息。所述解壓縮方法的另一優(yōu)點在于,為了解壓縮壓縮文檔,可使用預(yù)給定的解壓縮方法,因為片段的壓縮僅僅基于結(jié)構(gòu)規(guī)則的預(yù)給定的基本類型借助于預(yù)給定的壓縮方法實施。此外,可以基于預(yù)給定的結(jié)構(gòu)規(guī)則和/或正則表達(dá)的部分實施預(yù)給定的解壓縮方法,其中,由此可以考慮預(yù)給定的解壓縮方法和結(jié)構(gòu)規(guī)則和/或正則表達(dá)的具體情況匹配。本發(fā)明涉及用于解壓縮壓縮文檔的解壓縮單元,其中,結(jié)構(gòu)化文檔借助于壓縮單元壓縮成了壓縮文檔,所述結(jié)構(gòu)化文檔具有至少一個信息單元,所述至少一個信息單元由預(yù)給定的結(jié)構(gòu)規(guī)則的類型實例化,所述結(jié)構(gòu)規(guī)則包括第一基本類型和第二基本類型,所述第一基本類型用于表示至少一個字符,所述類型包括通過至少一個第一基本類型表述的數(shù)據(jù)域,并且所述數(shù)據(jù)域的結(jié)構(gòu)通過正則表達(dá)確定,通過預(yù)給定的解壓縮方法可解壓縮所述壓縮文檔,其中,解壓縮單元具有以下裝置
-第一裝置,用于如此求得所述正則表達(dá)的至少一個部分,使得所述相應(yīng)部分可通過所述第二基本類型表示;
-第五裝置,用于通過預(yù)給定的解壓縮方法至少部分地將所述壓縮文檔解壓縮成至少一個片段,其中,基于預(yù)給定的解壓縮規(guī)則對于第二基本類型獲得相應(yīng)片段,以及用于使相應(yīng)片段對應(yīng)于正則表達(dá)的相應(yīng)部分。所述解壓縮單元具有與解壓縮方法相同的優(yōu)點。所述解壓縮單元還具有第六裝置,所述第六裝置如此設(shè)計,使得其可實施至少一個根據(jù)解壓縮方法的方法步驟。所述解壓縮單元具有與解壓縮方法的擴(kuò)展方法相同的優(yōu)
點ο最后,壓縮文檔也形成本發(fā)明的一部分,其中,該壓縮文檔可根據(jù)壓縮方法的方法步驟中的一個生成。例如二進(jìn)制文檔或數(shù)據(jù)流形式的壓縮文檔相對于已知的壓縮方法具有更高的壓縮率。壓縮文檔的另一優(yōu)點在于,為了解壓縮壓縮文檔可使用預(yù)給定的解壓縮方法,因為片段的壓縮僅僅基于結(jié)構(gòu)規(guī)則的預(yù)給定的基本類型借助于預(yù)給定的壓縮方法實施。因此實現(xiàn)本發(fā)明的成本有利的實現(xiàn)。
根據(jù)附圖詳細(xì)闡述本發(fā)明及其擴(kuò)展方案。具體地 圖IA示出基于SVG語言的具有字符串的XML元素
圖IB示出根據(jù)圖IA基于SVG語言的具有字符串的XML元素的可視化表示圖2示出EXI壓縮方法的壓縮率與本發(fā)明的壓縮方法的壓縮率的比較圖3示出用于實施壓縮方法的壓縮單元的結(jié)構(gòu)
圖4示出包括壓縮單元、用于實施解壓縮方法的解壓縮單元以及用于存放解壓縮文檔的存儲單元的系統(tǒng)的結(jié)構(gòu)。具有相同功能和作用的元素配備有相同的附圖標(biāo)記。
具體實施例方式借助第一實施例詳細(xì)地闡述本發(fā)明??梢越柚谡齽t表達(dá)RA[1]如下定義一個日期 {2, 2} [. ]
{2, 2} [. ]
{4, 4} 表1:日期定義為正則表達(dá)。因此,有以上正則表達(dá)生成的日期字符串例如是“23. 03. 2009”。結(jié)構(gòu)化文檔DOC[2]具有一個或多個信息單元ELE、ATT0由W3C標(biāo)準(zhǔn)化的XML[3] 是結(jié)構(gòu)化文檔定義的最有名的代表。在XML中,信息單元通過元素和屬性形成。結(jié)構(gòu)化文檔的結(jié)構(gòu)由結(jié)構(gòu)規(guī)則SYN預(yù)給定,其除語法外還確定類型TYP。在XML中,結(jié)構(gòu)規(guī)則例如稱作方案或者DTD (DTD-Document Type Definition 文檔類型定義)。信息單元由類型的實例化生成。結(jié)構(gòu)規(guī)則為不同功能確定多種基本類型。因此第一基本類型(BTSTR)規(guī)定用于接收或者表示一個或多個字符。在XML中,這樣的基本類型稱作內(nèi)置基本類型和內(nèi)置派生類型,其中,第一基本類型在XML中定義為“字符串”。此外,第二基本類型BTINT規(guī)定用于接收非負(fù)的整數(shù),在XML中這例如是基本類型“nonNegativelnteger”。這樣,日期在XML中作為類型TYP=typeDatum以字符串的形式表達(dá)為 <simpleType name="typeDatum" base=//string///>
表2 在XML中借助于第一基本類型字符串定義類型typeDatum。此外,類型日期的文檔定義可以生成為 〈element name="Datum" type ="typeDatum7> 表3:XML中日期的文檔定義。在根據(jù)XML的結(jié)構(gòu)化文檔DOC中,日期編碼為
<Datum>23. 03. 2009</Datum>
表4 =XML中具有日期的結(jié)構(gòu)化文檔的片段。通過根據(jù)表1的日期描述,確定數(shù)據(jù)域DF的結(jié)構(gòu),即編碼為根據(jù)表2的字符串的值的結(jié)構(gòu)。在根據(jù)表4的結(jié)構(gòu)化文檔中示出了通過正則表達(dá)定義的字符串的日期的具體示例。結(jié)構(gòu)化文檔的預(yù)給定的壓縮方法CM,例如MPEG組織(MPEG-Motion Picture Expert Group:運(yùn)動圖像專家組)的標(biāo)準(zhǔn) BIM (BIM-Binary MPEG format for XML:用于 XML 的二進(jìn)制MPEG格式)或者W3C的的EXI (Efficient XML Interchange 高效XML交換)產(chǎn)生壓縮文檔BDOC。在第一步驟中,如此求得正則表達(dá)的至少一個第一部分ETA,即所述第一部分可由第二基本類型BTINT表示。在正則表達(dá)中,首先求得分別具有一個0和9之間的數(shù)字的兩個位置(
{2,2})。這得出0和99之間的數(shù)字。如果已知所述數(shù)字代表日期的日,則可以將所述數(shù)字限制到1和31之間的值域上。第二基本類型“nonNegativelnteger”能夠表示0、1等的非負(fù)數(shù)。因此,第一部分是ETA=
{2,2}。在正則表達(dá)的另一分析中,清楚的是,正則表達(dá)的另兩部分可表示為數(shù)字,更確切地說,
{2, 2}和
{4,4}。此外顯然的是,在正則表達(dá)的作為數(shù)字的部分之間分別出現(xiàn)一個字符“冒號”。在應(yīng)用類型typeDatum具有以上所述結(jié)構(gòu)的知識時,預(yù)給定的壓縮方法CM基于預(yù)給定的壓縮規(guī)則CMBTINT對于第二基本類型BTINT至少部分地將日期壓縮成多個片段而不是字符串。為此,由結(jié)構(gòu)化文檔根據(jù)以上求得的部分分析在那里存在的信息單元,即XML元素日期,由此找到與這些部分相對應(yīng)的片段EAS、EAT、EAU。第一部分EAS= {2,2}相應(yīng)于第一片段EAS=23。下表示出相應(yīng)的部分和片段以及每個片段所基于的基本類型
表5 部分與片段和與基本類型的對應(yīng)關(guān)系。在第一實施例中,看到用于日期的字符串,其根據(jù)通過正則表達(dá)的定義不解釋為內(nèi)容。在第二實施例中,正則表達(dá)還具有附加信息,在壓縮時考慮這些附加信息。表6 {Tag}
{2, 2} [. ] {Monat}
{2, 2} [. ] {Jahr}
{4, 4}
表6 日期定義為擴(kuò)展的正則表達(dá)
在附加的H括號內(nèi)示出正則表達(dá)的各個域的解釋。因此,可以作為中間步驟在壓縮前在求取正則表達(dá)的部分時對于每個部分定義一個自己的類型,例如 <simpleType name=〃typeTag〃 base=//nonNegativeInteger///> 〈simpleType name=〃typeMonat〃 base=〃nonNegativeInteger〃/ <simpleType name=//typejahr// base=//nonNegativeInteger///> 表7 :根據(jù)擴(kuò)展正則表達(dá)的用于日期的新類型。此外,可以通過新類型生成文檔定義 〈element name=//Tag// type =//typeTag///> 〈element name="Monat" type ="typeMonat7> 〈element name=//Jahr// type =//typeJahr///>
表8 :根據(jù)擴(kuò)展正則表達(dá)的XML中用于日期的文檔定義。在所述文檔定義中,給予待實例化的信息單元一個相應(yīng)的名稱Tag、Monat, Jahr作為標(biāo)識。這些相應(yīng)的標(biāo)識可從根據(jù)表6的擴(kuò)展正則表達(dá)得出。在英語中,標(biāo)識的專業(yè)概 ;^ Tag ο 下表示出相對應(yīng)的部分ETA、ETB、ETC和片段EAS、EAT、EAU以及每個片段所基于的基本類型和新類型
權(quán)利要求
1.一種用于壓縮結(jié)構(gòu)化文檔(DOC)的壓縮方法,其中,所述結(jié)構(gòu)化文檔(DOC)具有至少一個信息單元(ELE,ATT),所述至少一個信息單元 (ELEjATT)由預(yù)給定的結(jié)構(gòu)規(guī)則(SYN)的類型(TYP)實例化,所述結(jié)構(gòu)規(guī)則(SYN)包括第一基本類型(BTSTR)和第二基本類型(BTINT),所述第一基本類型(BTSTR)用于表示至少一個字符(CH),所述類型(TYP)包括通過至少一個第一基本類型(BTSTR)表述的數(shù)據(jù)域(DF),并且所述數(shù)據(jù)域(DF)的結(jié)構(gòu)通過正則表達(dá)(RA)確定,預(yù)給定的壓縮方法(CM)能夠?qū)⑺鼋Y(jié)構(gòu)化文檔(DOC)壓縮成壓縮文檔(BD0C),其特征在于,實施以下步驟如此求得所述正則表達(dá)(RA)的至少一個部分(ETA),使得該相應(yīng)部分(ETA)能通過所述第二基本類型(BTINT)表示;求得所述至少一個信息單元(ELE,ATT)的相應(yīng)片段(EAS),所述片段(EAS)基于所述正則表達(dá)(RA)的所述相應(yīng)部分(ETA);借助于所述預(yù)給定的壓縮方法(CM)如此壓縮所述相應(yīng)片段(EAS),使得通過所述預(yù)給定的壓縮方法(CM)基于預(yù)給定的壓縮規(guī)則(CMBTINT)對于所述第二基本類型(BTINT)壓縮所述相應(yīng)片段(EAS)。
2.根據(jù)權(quán)利要求1所述的壓縮方法,其中,確定所述正則片段(RA)的兩個部分(ΕΤΑ,ΕΤΒ)和至少一個信息單元(ELE,ATT)的兩個片段(EAS,EAT),其中,所述兩個片段(EAS,EAT)基于所述正則表達(dá)(RA)的相應(yīng)部分(ETA, ETB),所述兩個片段(EAS,EAT)組合成新的片段(EAN),借助于所述預(yù)給定的壓縮方法(CM)基于所述預(yù)給定的壓縮規(guī)則(CMBTINT)對于所述第二基本類型(BTINT)壓縮所述新的片段(ΕΑΝ)。
3.根據(jù)權(quán)利要求1或2所述的壓縮方法,其中,對于所述部分(ΕΤΑ,ETB)的每一個,基于所述基本類型(BTSTR,ΒΤΙΝΤ)形成新的類型 (typeTag, typeMonat, typejahr),取代所述至少一個信息單元(ELE,ATT)形成第一數(shù)量的新的信息單元(Tag,Monat, Jahr),其中,所述第一數(shù)量對應(yīng)于部分(ETA,ETB, ETC)的第二數(shù)量,并且基于與相應(yīng)部分 (ETA,ETB, ETC)相對應(yīng)的新的類型(typeTag,typeMonat,typeJahr)實例化并且用與所述部分(ETA,ETB, ETC)相對應(yīng)的片段(EAS,EAT, EAU)占用所述新的信息單元(Tag,Monat, Jahr)ο
4.根據(jù)權(quán)利要求1至3之一所述的壓縮方法,其中,在壓縮所述片段(EAS)的至少一個前給其添加標(biāo)識(Tag,Monat, Jahr),所述標(biāo)識辨識待壓縮的片段(EAS)。
5.根據(jù)權(quán)利要求4所述的壓縮方法,其中,基于所述正則片段(RA)的基于相應(yīng)片段(EAS)的部分(ETA)來形成所述標(biāo)識(Tag, Monat, Jahr) ο
6.根據(jù)權(quán)利要求1至5之一所述的壓縮方法,其中,通過標(biāo)準(zhǔn)XML定義所述結(jié)構(gòu)規(guī)則(SYN),其中-所述至少一個信息單元(ELE,ATT)是XML元素或XML屬性,-所述結(jié)構(gòu)化文檔(DOC)是XML文檔,-所述基本類型(BTSTR,BTINT)由XML類型內(nèi)置基本類型和內(nèi)置派生類型的集合形成。
7.一種用于壓縮結(jié)構(gòu)化文檔(DOC)的壓縮單元(CE),其中,所述結(jié)構(gòu)化文檔(DOC)具有至少一個信息單元(ELE,ATT),所述至少一個信息單元 (ELE,ATT)由預(yù)給定的結(jié)構(gòu)規(guī)則(SYN)的類型(TYP)實例化,所述結(jié)構(gòu)規(guī)則(SYN)包括第一基本類型(BTSTR)和第二基本類型(BTINT),所述第一基本類型(BTSTR)用于表示至少一個字符(CH),所述類型(TYP)具有通過至少一個第一基本類型(BTSTR)表述的數(shù)據(jù)域(DF),并且所述數(shù)據(jù)域(DF)的結(jié)構(gòu)通過正則表達(dá)(RA)確定,預(yù)給定的壓縮方法(CM)可以將所述結(jié)構(gòu)化文檔(DOC)壓縮成壓縮文檔(BD0C),其特征在于,所述壓縮單元(CE)具有以下裝置-第一裝置(M1),用于如此求得所述正則表達(dá)(RA)的至少一個部分(ETA),使得所述相應(yīng)部分(ETA)能通過所述第二基本類型(BTINT)表示;-第二裝置(M2),用于求得所述至少一個信息單元(ELE,ATT)的相應(yīng)片段(EAS),該片段基于所述正則表達(dá)(RA)的所述相應(yīng)部分(ETA);-第三裝置(M3),用于借助于所述預(yù)給定的壓縮方法(CM)如此壓縮所述相應(yīng)片段 (EAS),使得通過所述預(yù)給定的壓縮方法(CM)基于預(yù)給定的壓縮規(guī)則(CMBTINT)對于所述第二基本類型(BTINT)壓縮所述相應(yīng)片段(EAS)。
8.壓縮單元(CE),其還具有第四裝置(M4),所述第四裝置設(shè)計用于實施根據(jù)權(quán)利要求 2至6之一所述的方法步驟。
9.一種用于解壓縮壓縮文檔(BDOC)的解壓縮方法,其中,結(jié)構(gòu)化文檔(DOC)已經(jīng)根據(jù)權(quán)利要求1至6之一壓縮成所述壓縮文檔(BD0C),所述結(jié)構(gòu)化文檔(DOC)具有至少一個信息單元(ELE,ATT),所述至少一個信息單元(ELE,ATT) 由預(yù)給定的結(jié)構(gòu)規(guī)則(SYN)的類型(TYP)實例化,所述結(jié)構(gòu)規(guī)則(SYN)包括第一基本類型(BTSTR)和第二基本類型(BTINT),所述第一基本類型(BTSTR)用于表示至少一個字符 (CH),所述類型(TYP)具有通過至少一個第一基本類型(BTSTR)表述的數(shù)據(jù)域(DF),并且所述數(shù)據(jù)域(DF)的結(jié)構(gòu)通過正則表達(dá)(RA)確定,預(yù)給定的解壓縮方法(DM)可以解壓縮所述壓縮文檔(BDOC),其特征在于,實施以下步驟如此求得所述正則表達(dá)(RA)的至少一個部分(ETA),使得所述相應(yīng)部分(ETA)能通過所述第二基本類型(BTINT)表示;通過所述預(yù)給定的解壓縮方法(DM)至少部分地將所述壓縮文檔(BDOC)解壓縮成至少一個片段(EAS,EAN),其中,基于預(yù)給定的解壓縮規(guī)則(DMBTINT)對于所述第二基本類型 (BTINT)獲得相應(yīng)片段(EAS,ΕΑΝ);將所述相應(yīng)片段(EAS)分配給所述正則表達(dá)(RA)的相應(yīng)部分(ΕΤΑ)。
10.根據(jù)權(quán)利要求9所述的解壓縮方法,其中,將所述相應(yīng)片段(EAS)分配給所述至少一個信息單元(ELE,ΑΤΤ),其中,所述相應(yīng)片段 (EAS)基于所述正則表達(dá)(RA)的相應(yīng)部分(ETA)。
11.根據(jù)權(quán)利要求9或10所述的解壓縮方法,其中,確定所述正則表達(dá)(RA)的兩個部分(ETA,ETB),基于所述兩個部分(ETA,ETB)將通過解壓縮獲得的新的片段(EAN)如此劃分成兩個片段(EAS,EAT),使得所述片段(EAS,EAT)的每一個分別分配給所述部分(ETA,ETB)的每一個。
12.根據(jù)權(quán)利要求9至11之一所述的解壓縮方法,其中,對于所述部分(ETA,ETB)的每一個基于所述基本類型(BTINT,BTSTR)形成新的類型 (typeTag, typeMonat, typejahr),取代所述至少一個信息單元(ELE,ATT)基于所述解壓縮形成第一數(shù)量的新的信息單元 (Tag, Monat, Jahr),其中,所述第一數(shù)量對應(yīng)于部分(ETA,ETB, ETC)的第二數(shù)量,并且基于與所述相應(yīng)部分(ETA,ETB, ETC)相對應(yīng)的新的類型(typeTag,typeMonat,type Jahr)實例化并且用與所述部分(ETA,ETB, ETC)相對應(yīng)的、通過解壓縮重建的片段(EAS,EAT, EAU)占用所述新的信息單元(Tag,Monat, Jahr)。
13.根據(jù)權(quán)利要求9至12之一所述的解壓縮方法,其中,給所述片段(EAS)的至少一個分配標(biāo)識(Tag,Monat, Jahr),所述標(biāo)識辨識所述至少一個片段(EAS)。
14.根據(jù)權(quán)利要求13所述的解壓縮方法,其中,基于所述正則表達(dá)(RA)的基于所述相應(yīng)片段(EAS)的部分(EAT)來形成所述標(biāo)識 (Tag, Monat, Jahr)。
15.根據(jù)權(quán)利要求9至14之一所述的解壓縮方法,其中,通過標(biāo)準(zhǔn)XML定義所述結(jié)構(gòu)規(guī)則(SYN),其中-所述至少一個信息單元(ELE,ATT)是XML元素或XML屬性,-所述結(jié)構(gòu)化文檔(DOC)是XML文檔,-所述基本類型(BTINT,BTSTR)由XML類型內(nèi)置基本類型和內(nèi)置派生類型的集合形成。
16.根據(jù)權(quán)利要求9至15之一所述的解壓縮方法,其中,在解壓縮步驟前根據(jù)所述正則表達(dá)的至少一個部分(ETA,ETB, ETC)判斷,基于所述相應(yīng)的預(yù)給定解壓縮規(guī)則(DMBTSTR,DMBTINT)對于所述第一基本類型(BTSTR)還是對于所述第二基本類型(BTINT)獲得與所述至少一個部分(ETA)相對應(yīng)的片段(EAS)。
17.一種用于解壓縮壓縮文檔(BDOC)的解壓縮單元(DE),其中,結(jié)構(gòu)化文檔(DOC)根據(jù)權(quán)利要求7或8之一壓縮成所述壓縮文檔(BD0C),所述結(jié)構(gòu)化文檔(DOC)具有至少一個信息單元(ELE,ATT),所述至少一個信息單元(ELE,ATT)由預(yù)給定的結(jié)構(gòu)規(guī)則(SYN)的類型(TYP)實例化,所述結(jié)構(gòu)規(guī)則(SYN)包括第一基本類型(BTSTR) 和第二基本類型(BTINT),所述第一基本類型(BTSTR)用于表示至少一個字符(CH),所述類型(TYP)具有通過至少一個第一基本類型(BTSTR)表述的數(shù)據(jù)域(DF),并且所述數(shù)據(jù)域 (DF)的結(jié)構(gòu)通過正則表達(dá)(RA)確定,通過預(yù)給定的解壓縮方法(DM)能解壓縮所述壓縮文檔(BDOC),其特征在于,所述解壓縮單元具有以下裝置第一裝置(M1),用于如此求得所述正則表達(dá)(RA)的至少一個部分(ETA),使得所述相應(yīng)部分(ETA)能通過所述第二基本類型(BTINT)表示;第五裝置(M5),用于通過所述預(yù)給定的解壓縮方法(DM)將所述壓縮文檔(BDOC)解壓縮成至少一個片段(EAS),其中,基于預(yù)給定的解壓縮規(guī)則(DMBTINT)對于所述第二基本類型(BTINT)能解壓縮相應(yīng)片段(EAS),以及用于將所述相應(yīng)片段(EAS)分配給所述正則表達(dá) (RA)的所述相應(yīng)部分(ETA)。
18.根據(jù)權(quán)利要求17所述的解壓縮單元(DE),其中,所述壓縮單元(DE)還具有第六裝置(M6),該第六裝置如此設(shè)計,使得能實施根據(jù)權(quán)利要求9至16之一所述的方法步驟中的至少一個。
19.一種壓縮文檔(BD0C),其能根據(jù)權(quán)利要求1至6之一生成。
全文摘要
本發(fā)明涉及一種壓縮方法,其將根據(jù)第一基本類型包括一個或多個字符的至少一個信息單元劃分成第二基本類型的片段并且根據(jù)預(yù)給定的壓縮規(guī)則對于第二基本類型壓縮所述片段。所述處理方式實現(xiàn)更高的壓縮率。信息元素例如是XML語言的部分。除該壓縮方法以外,相應(yīng)的壓縮單元、解壓縮方法和解壓縮單元也是本發(fā)明的一部分。本發(fā)明可用于終端設(shè)備初始化環(huán)境中,例如在系統(tǒng)工程和IT消費(fèi)領(lǐng)域中。
文檔編號H03M7/30GK102379087SQ201080015288
公開日2012年3月14日 申請日期2010年3月22日 優(yōu)先權(quán)日2009年3月31日
發(fā)明者佩因特納 D., 霍伊爾 J., 庫爾茨 T. 申請人:西門子公司