一種篩選文本的方法及裝置制造方法
【專利摘要】本發(fā)明的實施方式提供了一種篩選文本的方法。例如,該方法可以包括:對電子文檔中的文本元素進行解析,得到所述文本元素的屬性;根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。通過從文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素,本發(fā)明的方法使得用戶可以得到具有該特定屬性的文本元素的集合,無需反復(fù)執(zhí)行復(fù)制、切換文檔、粘貼的操作,用戶操作簡單,而且終端無需與用戶進行大量的交互操作,提高了終端運行效率。此外,本發(fā)明的實施方式提供了一種篩選文本的裝置。
【專利說明】一種篩選文本的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實施方式涉及文本處理領(lǐng)域,更具體地,本發(fā)明的實施方式涉及一種篩選文本的方法及裝置。
【背景技術(shù)】
[0002]本部分旨在為權(quán)利要求書中陳述的本發(fā)明的實施方式提供背景或上下文。此處的描述不因為包括在本部分中就承認是現(xiàn)有技術(shù)。
[0003]隨著各種格式的文檔閱讀器的出現(xiàn),給人們閱讀和編輯電子文檔帶來了很大方便。當(dāng)用戶看到電子文檔中喜歡的一條文本內(nèi)容時,可以通過這些文檔閱讀器中提供的復(fù)制功能,復(fù)制這條文本內(nèi)容。當(dāng)切換到另一電子文檔頁面時,可以將復(fù)制出的文本內(nèi)容粘貼到另一電子文檔中。例如,人們可以通過微軟提供的辦公軟件自帶的WORD工具瀏覽、新建、編輯WORD文檔。還可以利用WORD工具提供的復(fù)制功能復(fù)制出一條文本內(nèi)容。當(dāng)切換到另一 WORD或TXT文檔頁面時,將復(fù)制出的這條文本內(nèi)容粘貼到另一 WORD或TXT文檔中。
【發(fā)明內(nèi)容】
[0004]但是,當(dāng)用戶喜歡的內(nèi)容分散地出現(xiàn)在電子文檔中時,用戶只能反復(fù)執(zhí)行復(fù)制、切換文檔、粘貼的操作,導(dǎo)致用戶操作復(fù)雜,而且運行文檔閱讀器的終端需要與用戶進行大量的交互操作,降低了終端運行效率。
[0005]因此在現(xiàn)有技術(shù)中,如何在電子文檔中高效率地篩選出用戶喜歡的文本內(nèi)容是非常令人煩惱的問題。
[0006]為此,非常需要一種篩選文本的方法及裝置,以實現(xiàn)高效率地篩選出用戶喜歡的文本的目的。
[0007]在本上下文中,本發(fā)明的實施方式期望提供一種篩選文本的方法及裝置。
[0008]在本發(fā)明實施方式的第一方面中,提供了一種篩選文本的方法。例如,該方法可以包括:對電子文檔中的文本元素進行解析,得到所述文本元素的屬性,根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。
[0009]在本發(fā)明實施方式的第二方面中,提供了一種篩選文本的裝置。例如,該裝置可以包括:解析單元,可以配置用于對電子文檔中的文本元素進行解析,得到所述文本元素的屬性。篩選單元,可以配置用于根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。
[0010]根據(jù)本發(fā)明實施方式的篩選文本的方法及裝置,可以對電子文檔中的文本元素進行解析,得到文本元素的例如高亮、下劃線等屬性,因此,根據(jù)文本元素的屬性,可以從文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。對于用戶來說,在閱讀文檔過程中對喜歡的文本元素添加某特定屬性后,可以得到具有該特定屬性的文本元素的集合,無需反復(fù)執(zhí)行復(fù)制、切換文檔、粘貼的操作,用戶操作簡單,而且終端無需與用戶進行大量的交互操作,提聞了終端運行效率。
【專利附圖】
【附圖說明】
[0011]通過參考附圖閱讀下文的詳細描述,本發(fā)明示例性實施方式的上述以及其他目的、特征和優(yōu)點將變得易于理解。在附圖中,以示例性而非限制性的方式示出了本發(fā)明的若干實施方式,其中:
[0012]圖1示意性地示出了根據(jù)本發(fā)明實施方式的應(yīng)用場景示意圖;
[0013]圖2示意性地示出了根據(jù)本發(fā)明實施方式的篩選文本的方法的流程示意圖;
[0014]圖3示意性地示出了根據(jù)本發(fā)明一實施例的電子文檔組成示意圖;
[0015]圖4示意性地示出了根據(jù)本發(fā)明再一實施例的文本元素及文本元素屬性示意圖;
[0016]圖5示意性地示出了根據(jù)本發(fā)明實施方式的篩選文本的裝置的結(jié)構(gòu)示意圖;
[0017]在附圖中,相同或?qū)?yīng)的標號表不相同或?qū)?yīng)的部分。
【具體實施方式】
[0018]下面將參考若干示例性實施方式來描述本發(fā)明的原理和精神。應(yīng)當(dāng)理解,給出這些實施方式僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進而實現(xiàn)本發(fā)明,而并非以任何方式限制本發(fā)明的范圍。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達給本領(lǐng)域的技術(shù)人員。
[0019]本領(lǐng)域技術(shù)人員知道,本發(fā)明的實施方式可以實現(xiàn)為一種系統(tǒng)、裝置、設(shè)備、方法或計算機程序產(chǎn)品。因此,本公開可以具體實現(xiàn)為以下形式,即:完全的硬件、完全的軟件(包括固件、駐留軟件、微代碼等),或者硬件和軟件結(jié)合的形式。
[0020]根據(jù)本發(fā)明的實施方式,提出了一種篩選文本的方法及裝置。
[0021]在本文中,需要理解的是,附圖中的任何元素數(shù)量均用于示例而非限制,以及任何命名都僅用于區(qū)分,而不具有任何限制含義。
[0022]下面參考本發(fā)明的若干代表性實施方式,詳細闡釋本發(fā)明的原理和精神。
[0023]發(fā)明概沭
[0024]本發(fā)明人發(fā)現(xiàn),用戶通常會在閱讀電子文檔過程中對自己喜歡的文本添加某些屬性,例如,添加高亮、下劃線等字體。如果能夠?qū)﹄娮游臋n中的文本元素進行解析,則可以得到文本元素的例如高亮、下劃線等屬性。根據(jù)文本元素的屬性,可以從文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。例如,篩選出具有高亮字體屬性的文本。因此,用戶在閱讀文檔過程中添加某些屬性后,可以篩選出具有該特定屬性的文本元素的集合,無需反復(fù)執(zhí)行復(fù)制、切換文檔、粘貼的操作,用戶操作簡單,而且終端無需與用戶進行大量的交互操作,提聞了終端運行效率。
[0025]在介紹了本發(fā)明的基本原理之后,下面具體介紹本發(fā)明的各種非限制性實施方式。
[0026]應(yīng)用場景總覽
[0027]首先參考圖1,界面示意圖101為利用word工具閱讀word文檔的界面示意圖。本發(fā)明實施例提供的方法可以應(yīng)用于圖1所示word工具中。當(dāng)用戶想從word文檔中得到高亮文本時,可以通過應(yīng)用本發(fā)明實施例提供的方法的word工具對word文檔中文本元素進行解析,得到其中文本元素的屬性,根據(jù)文本元素的屬性,從word文檔的文本元素中篩選出具有高亮字體屬性的文本元素,從而使用戶得到篩選出的具有高亮字體屬性的文本元素的集合,例如,可以通過輸出到圖1界面示意圖102所示的另一電子文檔中。
[0028]可以理解的是,本發(fā)明實施例可以依據(jù)任意屬性篩選規(guī)則,從電子文檔中篩選出部分文本元素,并不僅限于篩選高亮文本。
[0029]示例性方法
[0030]下面結(jié)合圖1的應(yīng)用場景,參考圖2來描述根據(jù)本發(fā)明示例性實施方式的篩選文本的方法。需要注意的是,上述應(yīng)用場景僅是為了便于理解本發(fā)明的精神和原理而示出,本發(fā)明的實施方式在此方面不受任何限制。相反,本發(fā)明的實施方式可以應(yīng)用于適用的任何場景。例如,本發(fā)明實施例提供的方法還可以應(yīng)用于云閱讀客戶端、網(wǎng)頁瀏覽器等客戶端中。
[0031]例如,參見圖2,為本發(fā)明實施例提供的篩選文本的方法流程示意圖。如圖2所示,該方法可以包括:
[0032]S210、對電子文檔中的文本元素進行解析,得到所述文本元素的屬性。
[0033]例如,文本元素可以包括表格、標題、段落等文本字符。文本元素的屬性可以包括段落對齊方式、段間距、行間距、文字顏色、大小、背景色等。
[0034]可以理解的是,任意格式的電子文檔均可解析得到其中文本元素的屬性,因此,本發(fā)明實施例對電子文檔的格式并不進行限制。例如,所述電子文檔可以為遵守openxml協(xié)議的word文檔(如,文件后綴為docx的word文檔)、不遵守openxml協(xié)議的word文檔(如,文件后綴為doc的word文檔)、HTML網(wǎng)頁文檔、PDF文檔等等。
[0035]其中,遵守openxml標準協(xié)議的word文檔是由微軟制定的基于xml格式的壓縮文件格式。可以用來展示表格數(shù)據(jù)、圖表、演示文稿和文字處理類文檔。實際上,遵守openxml標準協(xié)議的word文檔是一個壓縮文件包,里面的子文件如圖3所示的壓縮包中包含的所有子文件組成了整個文檔的內(nèi)容。
[0036]例如,如果所述電子文檔是遵守openxml標準協(xié)議的word文檔,可以對所述電子文檔進行解壓縮,得到所述電子文檔的子文件(如圖3所示的子文件列表),根據(jù)openxml標準協(xié)議,從所述子文件中得到使用xml標簽描述所述電子文檔的文本元素及其屬性的控制文件(如document, xml),從所述控制文件中讀取出文本元素及用于描述所述文本元素屬性的xml標簽。如果所述電子文檔不是遵守openxml標準協(xié)議的word文檔(如,文件后綴為doc的word文檔),則可以將所述電子文檔轉(zhuǎn)換為遵守openxml標準協(xié)議的文檔,進入所述對電子文檔進行解壓縮的步驟。例如,對于文件后綴為doc的word文檔,可以調(diào)用微軟office的組件,將其強制轉(zhuǎn)換為docx格式的文檔。
[0037]一些可能的實施方式中,由于Apache POI可以自動提取出docx電子文檔中包含的子文件,自動根據(jù)openxml標準協(xié)議讀取子文件如document, xml中的內(nèi)容。因此可以使用Apache POI提供的接口直接獲取到docx電子文檔中文本元素及用于描述所述文本元素屬性的xml標簽。
[0038]另一些可能的實施方式中,可以使用任意解壓縮工具如7zip對docx電子文檔中的控制文件document, xml進行解壓縮,其中,document, xml中包含使用xml標簽描述的文本元素及其屬性。從控制文件document, xml中讀取出如圖4所示的文本元素及用于描述所述文本元素屬性的xml標簽。可以理解的是,按照openxml協(xié)議規(guī)定的文件之間屬性的引用關(guān)系,docx的壓縮包中還可能存在其他xml文件描述文本元素屬性。所以,除了從document, xml文件獲取文本元素的屬性以外,還可以根據(jù)文件之間屬性的引用關(guān)系,從其他相關(guān)的xml文件中獲取文本元素的屬性。
[0039]S220、根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。
[0040]例如,所述屬性篩選規(guī)則可以包括:對具有指定字體屬性的文本元素的篩選規(guī)則、對具有指定段落屬性的文本元素的篩選規(guī)則、和/或者,對具有指定樣式屬性的文本元素的篩選規(guī)則。其中,所述字體屬性可以包括高亮、顏色、下劃線、黑體、字號等屬性。所述段落屬性可以包括列表、倒懸、首行縮進等屬性。所述樣式屬性可以包括強調(diào)樣式、標題樣式、副標題樣式等屬性。當(dāng)然,屬性篩選規(guī)則所設(shè)置的需要被篩選出的文本元素的屬性還可以是其他任意屬性,在此不再一一贅述。
[0041]例如,如圖4所示,從document, xml讀取出的具有高亮字體屬性的文本元素可能由xml標簽“〈w:highlight w: val = "yellow"/〉”來標記。也就是說,高亮的文本元素對應(yīng)了 highlight屬性,因此,可以根據(jù)xml標簽中是否包含關(guān)鍵字“highlight”來判斷該xml標簽標記的文本元素是否填充了高亮背景色。例如,對具有高亮字體屬性的文本元素的篩選規(guī)則可以設(shè)置為:xml標簽包含關(guān)鍵字“highlight”的文本元素。
[0042]再例如,從document, xml讀取出的標題級別的文本元素可能由xml標簽“<w:pStyle w: val =參數(shù)/>”來標記。其中,不同參數(shù)可以表示不同級別標題的級別數(shù)。因此,可以根據(jù)xml標簽中是否包含關(guān)鍵字“<w:pStyle w: val =”來判斷其標記的文本元素是否為標題,以及,根據(jù)val對應(yīng)的參數(shù)判斷標題所屬級別。例如,對具有指定級別標題屬性的文本元素的篩選規(guī)則可以設(shè)置為:xml標簽包含關(guān)鍵字“<W:pStyle w:val =”的文本元素。
[0043]一些可能的實施方式中,本發(fā)明實施例提供的方法可以預(yù)置有多種屬性篩選規(guī)貝U。相應(yīng)地,本發(fā)明實施例提供的方法還可以接收用戶對屬性篩選規(guī)則的選定,從所述文本元素中篩選出屬性符合用戶選定的屬性篩選規(guī)則的文本元素。
[0044]可以理解的是,本發(fā)明實施例篩選出屬性符合屬性篩選規(guī)則的文本元素,即得到了篩選出的文本元素的集合。如何將篩選出的文本元素的集合反饋給用戶,可以根據(jù)實際需要設(shè)置。
[0045]例如,一些可能的實施方式中,可以將篩選出的所有文本元素的集合集中寫在被篩選的電子文檔的文件尾,以便用戶集中查看、復(fù)制。
[0046]再例如,另一些可能的實施方式中,可以將篩選出的所有文本元素以預(yù)置屬性輸出到預(yù)置格式的另一電子文檔中。例如,從一電子文檔篩選出的具有標題屬性的文本元素可以按相同或不同的標題屬性輸出到另一電子文檔中。再例如,從一電子文檔篩選出的具有高亮字體屬性的文本元素可以按普通字體或高亮字體輸出到另一電子文檔中。其中,被篩選的電子文檔以及輸出到的另一電子文檔可以為不同格式的電子文檔,以滿足不同用戶的閱讀需求。例如,從word文檔中篩選出的文本元素可以輸出到HTML文檔或者epub等格式的電子文檔中。
[0047]一些可能的實施方式中,可以在篩選屬性符合屬性篩選規(guī)則的文本元素的過程中,每篩選出一條屬性符合屬性篩選規(guī)則的文本元素,即將該條文本元素寫入到另一電子文檔中,直到篩選整個電子文檔結(jié)束。
[0048]另一些可能的實施方式中,可以在篩選屬性符合屬性篩選規(guī)則的文本元素的過程中,每篩選出一條屬性符合屬性篩選規(guī)則的文本元素,即將該條文本元素保存在內(nèi)存中,直到篩選整個電子文檔結(jié)束,將內(nèi)存中保存的所有文本元素一塊輸出到另一電子文檔中。
[0049]可見,由于本發(fā)明實施例提供的方法對電子文檔中的文本元素進行解析,得到了文本元素的例如高亮、下劃線等屬性,因此,根據(jù)文本元素的屬性,可以從文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。對于用戶來說,在閱讀文檔過程中對喜歡的文本元素添加某特定屬性后,可以得到具有該特定屬性的文本元素的集合,無需反復(fù)執(zhí)行復(fù)制、切換文檔、粘貼的操作,用戶操作簡單,而且終端無需與用戶進行大量的交互操作,提高了終端運行效率。
[0050]示例性設(shè)備
[0051]在介紹了本發(fā)明示例性實施方式的方法之后,接下來,參考圖5對本發(fā)明示例性實施方式的篩選文本的裝置進行介紹。
[0052]例如,參見圖5,為本申請實施例提供的一種篩選文本的裝置結(jié)構(gòu)示意圖。如圖5所示,該裝置可以包括:解析單元510,可以配置用于對電子文檔中的文本元素進行解析,得到所述文本元素的屬性。篩選單元520,可以配置用于根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。
[0053]一些可能的實施方式中,所述篩選單元520,可以配置用于根據(jù)所述文本元素的屬性,從所述文本元素中篩選出具有指定字體屬性的文本元素、具有指定段落屬性的文本元素、和/或者,具有指定樣式屬性的文本元素。
[0054]具體地,例如,結(jié)合上面的實施方式,所述篩選單元,可以配置用于根據(jù)所述文本元素的屬性,從所述文本元素中篩選出具有高亮字體屬性的文本元素、以及,具有標題屬性的文本元素。
[0055]一些可能的實施方式中,所述解析單元510可以包括:壓縮文檔解析子單元511,可以配置用于如果所述電子文檔是遵守openxml標準協(xié)議的word文檔,對所述電子文檔進行解壓縮,得到所述電子文檔的子文件。標簽讀取子單元512,可以配置用于根據(jù)openxml標準協(xié)議,從所述子文件中得到使用xml標簽描述所述電子文檔的文本元素及其屬性的控制文件,從所述控制文件中讀取出文本元素及用于描述所述文本元素屬性的xml標簽。非壓縮文檔轉(zhuǎn)換子單元513,可以配置用于如果所述電子文檔不是遵守openxml標準協(xié)議的word文檔,將所述電子文檔轉(zhuǎn)換為遵守openxml標準協(xié)議的文檔,觸發(fā)所述壓縮文檔解析子單元511對轉(zhuǎn)換后的文檔進行解壓縮。其中,所述篩選單元520,具體可以配置用于從所述標簽讀取子單元讀取出的文本元素中篩選出所述屬性篩選規(guī)則設(shè)置的篩選xml標簽所描述的文本元素。
[0056]可以理解的是,本發(fā)明實施例篩選出屬性符合屬性篩選規(guī)則的文本元素,即得到了篩選出的文本元素的集合。如何將篩選出的文本元素的集合反饋給用戶,可以根據(jù)實際需要設(shè)置。例如,一些可能的實施方式中,本發(fā)明實施例提供的裝置還可以包括輸出單元530,可以配置用于將篩選出的所有文本元素以預(yù)置屬性輸出到預(yù)置格式的另一電子文檔中。
[0057]可見,由于本發(fā)明實施例提供的裝置中的解析單元510對電子文檔中的文本元素進行解析,得到了文本元素的例如高亮、下劃線等屬性,因此,篩選單元520可以根據(jù)文本元素的屬性,從文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。對于用戶來說,在閱讀文檔過程中對喜歡的文本元素添加某特定屬性后,可以得到具有該特定屬性的文本元素的集合,無需反復(fù)執(zhí)行復(fù)制、切換文檔、粘貼的操作,用戶操作簡單,而且終端無需與用戶進行大量的交互操作,提高了終端運行效率。
[0058]需要注意的是,本發(fā)明實施例所述的壓縮文檔解析子單元511、標簽讀取子單元512、非壓縮文檔轉(zhuǎn)換子單元513、以及輸出單元530在圖5中以虛線繪制,以表示這些單元不是本發(fā)明實施例提供的篩選文本的裝置的必要單元。
[0059]應(yīng)當(dāng)注意,盡管在上文詳細描述中提及了篩選文本的裝置的若干單元或子單元,但是這種劃分僅僅并非強制性的。實際上,根據(jù)本發(fā)明的實施方式,上文描述的兩個或更多單元的特征和功能可以在一個單元中具體化。反之,上文描述的一個單元的特征和功能可以進一步劃分為由多個單元來具體化。
[0060]此外,盡管在附圖中以特定順序描述了本發(fā)明方法的操作,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些操作,或是必須執(zhí)行全部所示的操作才能實現(xiàn)期望的結(jié)果。附加地或備選地,可以省略某些步驟,將多個步驟合并為一個步驟執(zhí)行,和/或?qū)⒁粋€步驟分解為多個步驟執(zhí)行。
[0061]雖然已經(jīng)參考若干【具體實施方式】描述了本發(fā)明的精神和原理,但是應(yīng)該理解,本發(fā)明并不限于所公開的【具體實施方式】,對各方面的劃分也不意味著這些方面中的特征不能組合以進行受益,這種劃分僅是為了表述的方便。本發(fā)明旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。
【權(quán)利要求】
1.一種篩選文本的方法,包括: 對電子文檔中的文本元素進行解析,得到所述文本元素的屬性; 根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述屬性篩選規(guī)則包括:對具有指定字體屬性的文本元素的篩選規(guī)則、對具有指定段落屬性的文本元素的篩選規(guī)則、和/或者,對具有指定樣式屬性的文本元素的篩選規(guī)則。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述對具有指定字體屬性的文本元素的篩選規(guī)則具體為,對具有高亮字體屬性的文本元素的篩選規(guī)則; 所述對具有指定樣式屬性的文本元素的篩選規(guī)則具體為,對具有標題屬性的文本元素的篩選規(guī)則。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述對電子文檔中的文本元素進行解析,得到所述文本元素的屬性包括: 如果所述電子文檔是遵守openxml標準協(xié)議的word文檔,對所述電子文檔進行解壓縮,得到所述電子文檔的子文件,根據(jù)openxml標準協(xié)議,從所述子文件中得到使用xml標簽描述所述電子文檔的文本元素及其屬性的控制文件,從所述控制文件中讀取出文本元素及用于描述所述文本元素屬性的xml標簽; 如果所述電子文檔不是遵守openxml標準協(xié)議的word文檔,將所述電子文檔轉(zhuǎn)換為遵守openxml標準協(xié)議的文檔,進入所述對電子文檔進行解壓縮的步驟; 所述根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素包括: 從讀取出的文本元素中篩選出所述屬性篩選規(guī)則設(shè)置的篩選xml標簽所描述的文本元素。
5.根據(jù)權(quán)利要求1-4任一項所述的方法,還包括: 將篩選出的所有文本元素以預(yù)置屬性輸出到預(yù)置格式的另一電子文檔中。
6.一種篩選文本的裝置,包括: 解析單元,配置用于對電子文檔中的文本元素進行解析,得到所述文本元素的屬性;篩選單元,配置用于根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素。
7.根據(jù)權(quán)利要求6所述的裝置,其中,所述篩選單元,配置用于根據(jù)所述文本元素的屬性,從所述文本元素中篩選出具有指定字體屬性的文本元素、具有指定段落屬性的文本元素、和/或者,具有指定樣式屬性的文本元素。
8.根據(jù)權(quán)利要求7所述的裝置,其中,所述篩選單元,配置用于根據(jù)所述文本元素的屬性,從所述文本元素中篩選出具有高亮字體屬性的文本元素、以及,具有標題屬性的文本元素。
9.根據(jù)權(quán)利要求6所述的裝置,其中,所述解析單元包括: 壓縮文檔解析子單元,配置用于如果所述電子文檔是遵守openxml標準協(xié)議的word文檔,對所述電子文檔進行解壓縮,得到所述電子文檔的子文件; 標簽讀取子單元,配置用于根據(jù)openxml標準協(xié)議,從所述子文件中得到使用xml標簽描述所述電子文檔的文本元素及其屬性的控制文件,從所述控制文件中讀取出文本元素及用于描述所述文本元素屬性的xml標簽; 非壓縮文檔轉(zhuǎn)換子單元,配置用于如果所述電子文檔不是遵守openxml標準協(xié)議的word文檔,將所述電子文檔轉(zhuǎn)換為遵守openxml標準協(xié)議的文檔,觸發(fā)所述壓縮文檔解析子單元對轉(zhuǎn)換后的文檔進行解壓縮; 所述篩選單元,具體配置用于從所述標簽讀取子單元讀取出的文本元素中篩選出所述屬性篩選規(guī)則設(shè)置的篩選xml標簽所描述的文本元素。
10.根據(jù)權(quán)利要求6-9任一項所述的裝置,還包括: 輸出單元,配置用于將篩選出的所有文本元素以預(yù)置屬性輸出到預(yù)置格式的另一電子文檔中。
【文檔編號】G06F17/21GK104331390SQ201410658708
【公開日】2015年2月4日 申請日期:2014年11月18日 優(yōu)先權(quán)日:2014年11月18日
【發(fā)明者】陳俊光, 羅尚虎 申請人:網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司