專(zhuān)利名稱(chēng):一種epub文檔的校對(duì)方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文檔校對(duì)技術(shù),尤其涉及一種EPUB文檔的校對(duì)方法及裝置。
背景技術(shù):
隨著傳統(tǒng)紙質(zhì)媒介數(shù)字化的快速發(fā)展,電子書(shū)產(chǎn)業(yè)前景誘人。在電子書(shū)數(shù)量不斷提升的同時(shí),電子書(shū)的質(zhì)量問(wèn)題也日漸凸顯。傳統(tǒng)書(shū)刊質(zhì)量主要依賴(lài)作者、編輯及校對(duì)人員的努力,而計(jì)算機(jī)校對(duì)技術(shù)則可以很大程度上提升校對(duì)人員的校對(duì)效率?,F(xiàn)有的校對(duì)技術(shù)主要可分為兩類(lèi)一是附帶型校對(duì),如Microsoft Word, WPS等軟件自帶的拼寫(xiě)和語(yǔ)法檢查功能。二是專(zhuān)業(yè)型校對(duì),如WhiteSmoke、黑馬校對(duì)軟件等。這些校對(duì)軟件目前可適用于word、pdf、ps等格式的文件。
EPUB(electronic publication,電子出版物)作為一種自由的電子書(shū)開(kāi)放標(biāo)準(zhǔn),已逐步成為數(shù)字圖書(shū)的主流格式。但是,由于EPUB文檔的特殊結(jié)構(gòu)等原因,使得現(xiàn)有技術(shù)中的校對(duì)技術(shù)不適用于EPUB文檔的校對(duì),從而使得對(duì)EPUB文檔的校對(duì)錯(cuò)誤率很高,校對(duì)效率低下。因此,急需開(kāi)發(fā)一種適用于EPUB文檔的校對(duì)方案。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種EPUB文檔的校對(duì)方法及裝置,以提高對(duì)EPUB文檔校對(duì)的準(zhǔn)確性和校對(duì)效率。本發(fā)明實(shí)施例采用如下技術(shù)方案一種EPUB文檔的校對(duì)方法,包括獲取待校對(duì)EPUB文檔中符合XML規(guī)范的目標(biāo)文檔;利用所述目標(biāo)文檔的標(biāo)簽構(gòu)造所述目標(biāo)文檔的文檔結(jié)構(gòu)樹(shù),其中所述文檔結(jié)構(gòu)樹(shù)中包括所述目標(biāo)文檔中各節(jié)點(diǎn)的結(jié)構(gòu)信息和所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容;根據(jù)所述文檔結(jié)構(gòu)樹(shù)對(duì)所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì),以實(shí)現(xiàn)對(duì)所述待校對(duì)EPUB文檔的校對(duì)。一種EPUB文檔的校對(duì)裝置,包括文檔獲取單元,用于獲取待校對(duì)EPUB文檔中符合XML規(guī)范的目標(biāo)文檔;文檔處理單元,用于利用所述目標(biāo)文檔的標(biāo)簽構(gòu)造所述目標(biāo)文檔的文檔結(jié)構(gòu)樹(shù),其中所述文檔結(jié)構(gòu)樹(shù)中包括所述目標(biāo)文檔中各節(jié)點(diǎn)的結(jié)構(gòu)信息和所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容;文檔校對(duì)單元,用于根據(jù)所述文檔結(jié)構(gòu)樹(shù)對(duì)所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì),以實(shí)現(xiàn)對(duì)所述待校對(duì)EPUB文檔的校對(duì)。本發(fā)明實(shí)施例提供的EPUB文檔的校對(duì)方法及裝置,對(duì)獲取的待校對(duì)EPUB文檔中符合XML (Extensible Markup Language,可擴(kuò)展標(biāo)記語(yǔ)言)規(guī)范的目標(biāo)文檔的結(jié)構(gòu)進(jìn)行分析,根據(jù)其標(biāo)簽構(gòu)造所述目標(biāo)文檔的文檔結(jié)構(gòu)樹(shù),在所述文檔結(jié)構(gòu)樹(shù)中包括所述目標(biāo)文檔中各節(jié)點(diǎn)的結(jié)構(gòu)信息和所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容,而后根據(jù)所述文檔結(jié)構(gòu)樹(shù)對(duì)所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì),以實(shí)現(xiàn)對(duì)所述待校對(duì)EPUB文檔的校對(duì)。由于EPUB文檔是嚴(yán)格符合XML規(guī)范的文件,其中包含了較多的結(jié)構(gòu)信息,而本發(fā)明實(shí)施例正是基于EPUB文檔的文檔結(jié)構(gòu)進(jìn)行校對(duì)的,也即在對(duì)EPUB文檔進(jìn)行校對(duì)的過(guò)程中充分考慮到了它的文檔結(jié)構(gòu)因素,因此,利用本發(fā)明實(shí)施例的方法提高了對(duì)EPUB文檔校對(duì)的準(zhǔn)確性和校對(duì)效率。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明實(shí)施例EPUB文檔的校對(duì)方法的流程圖;圖2為按照本發(fā)明實(shí)施例中方法建立文檔結(jié)構(gòu)樹(shù)后,各節(jié)點(diǎn)的節(jié)點(diǎn)結(jié)構(gòu)信息示意圖; 圖3為本發(fā)明實(shí)施例中某文檔校對(duì)前的部分內(nèi)容的示意圖;圖4為本發(fā)明實(shí)施例中,將圖3所示文檔內(nèi)容進(jìn)行校對(duì)并寫(xiě)入校對(duì)結(jié)果信息后的示意圖;圖5為本發(fā)明實(shí)施例中寫(xiě)入有校對(duì)信息后的文檔結(jié)構(gòu)樹(shù)的示意圖;圖6為本發(fā)明實(shí)施例的EPUB文檔的校對(duì)裝置的示意圖;圖7為本發(fā)明實(shí)施例的EPUB文檔的校對(duì)裝置的又一示意圖;圖8為本發(fā)明實(shí)施例的EPUB文檔的校對(duì)裝置的又一示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。為了提高對(duì)EPUB文檔校對(duì)的準(zhǔn)確性,本發(fā)明實(shí)施例的EPUB文檔的校對(duì)方法包括獲取待校對(duì)EPUB文檔中符合可擴(kuò)展標(biāo)記語(yǔ)言XML規(guī)范的目標(biāo)文檔,利用所述目標(biāo)文檔的標(biāo)簽構(gòu)造所述目標(biāo)文檔的文檔結(jié)構(gòu)樹(shù),其中所述文檔結(jié)構(gòu)樹(shù)中包括所述目標(biāo)文檔中各節(jié)點(diǎn)的結(jié)構(gòu)信息和所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容。然后,根據(jù)所述文檔結(jié)構(gòu)樹(shù)對(duì)所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì),以實(shí)現(xiàn)對(duì)所述待校對(duì)EPUB文檔的校對(duì)。由于EPUB文檔是嚴(yán)格符合XML規(guī)范的文件,其中包含了較多的結(jié)構(gòu)信息,而本發(fā)明實(shí)施例中正是基于EPUB文檔的文檔結(jié)構(gòu)進(jìn)行校對(duì)的,也即在對(duì)EPUB文檔進(jìn)行校對(duì)的過(guò)程中充分考慮到了它的文檔結(jié)構(gòu)因素,因此,利用本發(fā)明實(shí)施例的方法提高了對(duì)EPUB文檔校對(duì)的準(zhǔn)確性和校對(duì)效率。以下結(jié)合實(shí)施例一詳細(xì)描述一下本發(fā)明實(shí)施例的EPUB文檔的校對(duì)方法的具體過(guò)程。如圖I所示,本發(fā)明實(shí)施例EPUB文檔的校對(duì)方法包括
步驟11、打開(kāi)待校對(duì)的EPUB文檔,讀取EPUB文檔中的各個(gè)符合XML規(guī)范的文檔。步驟12、對(duì)所述文檔進(jìn)行XML規(guī)范性校正,以進(jìn)一步確保所述文檔符合XML規(guī)范。如果經(jīng)過(guò)校正確定所述文檔符合XML規(guī)范,在此實(shí)施例中將其作為符合XML規(guī)范的目標(biāo)文檔。如果經(jīng)過(guò)校正確定所述文檔不符合XML規(guī)范,通過(guò)對(duì)其進(jìn)行XML規(guī)范性校正,使其符合XML規(guī)范,也可將其作為符合XML規(guī)范的目標(biāo)文檔。也就是說(shuō),對(duì)于該目標(biāo)文檔而言,它需要是符合XML規(guī)范的文檔,例如其可以為符合XML規(guī)范的.html文檔或者符合XML規(guī)范的.xml文檔。
步驟13、利用所述目標(biāo)文檔的標(biāo)簽構(gòu)造所述目標(biāo)文檔的文檔結(jié)構(gòu)樹(shù),其中所述文檔結(jié)構(gòu)樹(shù)中包括所述目標(biāo)文檔中各節(jié)點(diǎn)的結(jié)構(gòu)信息和所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容。以.html文檔為例,根據(jù)現(xiàn)有技術(shù)的內(nèi)容,.html文檔中包含有標(biāo)簽以及該標(biāo)簽對(duì)應(yīng)的純文本內(nèi)容。因此,在此實(shí)施例中,就可以.html文檔的標(biāo)簽和其對(duì)應(yīng)的純文本內(nèi)容為基礎(chǔ)構(gòu)造文檔結(jié)構(gòu)樹(shù)。首先,分別獲取所述目標(biāo)文檔中各標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn),并判斷該節(jié)點(diǎn)是否對(duì)應(yīng)有純文本內(nèi)容,并在所述節(jié)點(diǎn)對(duì)應(yīng)有純文本內(nèi)容時(shí)獲取所述節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容。然后,確定該節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽是否包含有下一級(jí)標(biāo)簽。如果所述節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽包括有下一級(jí)標(biāo)簽,將所述節(jié)點(diǎn)作為父節(jié)點(diǎn),將所述下一級(jí)標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)作為所述節(jié)點(diǎn)的子節(jié)點(diǎn),并在所述子節(jié)點(diǎn)對(duì)應(yīng)有純文本內(nèi)容時(shí)獲取所述子節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容。最后,根據(jù)確定的父節(jié)點(diǎn)和子節(jié)點(diǎn)以及所述父節(jié)點(diǎn)和所述子節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容構(gòu)造所述文檔結(jié)構(gòu)樹(shù)。而在此實(shí)施例中,對(duì)于沒(méi)有對(duì)應(yīng)的純文本內(nèi)容的標(biāo)簽,只需將其作為文檔結(jié)構(gòu)樹(shù)中的父節(jié)點(diǎn)或者子節(jié)點(diǎn),校對(duì)時(shí)也無(wú)需對(duì)這種類(lèi)型的父節(jié)點(diǎn)或者子節(jié)點(diǎn)進(jìn)行校對(duì)。按照上述方法,將.html文檔中所有的標(biāo)簽以及其對(duì)應(yīng)的純文本內(nèi)容都表示在文檔結(jié)構(gòu)樹(shù)中。例如,圖2所示為按照上述方法建立文檔結(jié)構(gòu)樹(shù)后,各節(jié)點(diǎn)的結(jié)構(gòu)信息示意圖。在該文檔結(jié)構(gòu)樹(shù)中,記錄有節(jié)點(diǎn)ID,節(jié)點(diǎn)名,節(jié)點(diǎn)屬性對(duì),節(jié)點(diǎn)文本,父節(jié)點(diǎn)的ID,子節(jié)點(diǎn)的ID等節(jié)點(diǎn)結(jié)構(gòu)信息。步驟14、根據(jù)所述文檔結(jié)構(gòu)樹(shù)對(duì)所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì),以實(shí)現(xiàn)對(duì)所述待校對(duì)EPUB文檔的校對(duì)。根據(jù)文檔結(jié)構(gòu)樹(shù)中的各父節(jié)點(diǎn)和各子節(jié)點(diǎn),對(duì)其對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì)。步驟15、將所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容的校對(duì)結(jié)果信息按照預(yù)定規(guī)范寫(xiě)入到所述文檔結(jié)構(gòu)樹(shù)中所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容中。如圖3所示為某個(gè)節(jié)點(diǎn)的文本內(nèi)容在校對(duì)前的示意圖。通過(guò)分析圖3所示的文本內(nèi)容可以發(fā)現(xiàn),該節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容中包含有“姓名錯(cuò)誤”(如圖3中的111所示)、“職務(wù)錯(cuò)誤”(如圖3中的112所示)、“排序錯(cuò)誤”(如圖3中的113所示)等錯(cuò)誤。通過(guò)對(duì)該文本內(nèi)容進(jìn)行校對(duì),得出的校對(duì)結(jié)果信息應(yīng)該與上述分析的相同。因此,在此步驟中,將包含有上述校對(duì)結(jié)果信息的純文本內(nèi)容按照預(yù)定規(guī)范寫(xiě)入到文檔結(jié)構(gòu)樹(shù)中該節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容中,其中所述預(yù)定規(guī)范可包括錯(cuò)誤類(lèi)型、錯(cuò)誤樣式、建議詞條規(guī)范等。寫(xiě)入后,該節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容如圖4所示。例如,對(duì)于圖3中111所示的錯(cuò)誤,在圖4中指出了其錯(cuò)誤樣式(圖4中Illa所示)和建議詞條規(guī)范(圖4中112a所示)。那么,此時(shí)文檔結(jié)構(gòu)樹(shù)如圖5所示。由圖5可以看出,在節(jié)點(diǎn)nl3對(duì)應(yīng)的信息中,其對(duì)應(yīng)的純文本內(nèi)容出現(xiàn)錯(cuò)誤,同時(shí)還記錄有針對(duì)該錯(cuò)誤的修改建議。
步驟16、利用包含有所述校對(duì)結(jié)果信息的文檔結(jié)構(gòu)樹(shù)進(jìn)行校對(duì)統(tǒng)計(jì)處理。在此步驟中,將所述包含有所述校對(duì)結(jié)果信息的文檔結(jié)構(gòu)樹(shù)轉(zhuǎn)換為符合XML規(guī)范的待處理文檔,并根據(jù)所述校對(duì)結(jié)果信息對(duì)所述待處理文檔進(jìn)行校對(duì)統(tǒng)計(jì)處理。其中,所述待處理文檔與所述目標(biāo)文檔一樣都符合XML規(guī)范,它可以理解為是包含有校對(duì)結(jié)果信息的符合XML規(guī)范的目標(biāo)文檔。根據(jù)校對(duì)結(jié)果信息,可以對(duì)待處理文檔中的錯(cuò)誤進(jìn)行統(tǒng)計(jì),例如統(tǒng)計(jì)錯(cuò)誤的數(shù)量,錯(cuò)誤的類(lèi)型等,并可查看、清除、修正相應(yīng)的錯(cuò)誤。同時(shí),還可根據(jù)獲得的信息生成錯(cuò)誤報(bào)告,以便于用戶(hù)進(jìn)行下一步的操作。步驟17、保存校對(duì)后的待校對(duì)EPUB文檔。由于EPUB文檔是嚴(yán)格符合XML規(guī)范的文件,其中包含了較多的結(jié)構(gòu)信息,而本發(fā)明實(shí)施例中正是基于EPUB文檔的文檔結(jié)構(gòu)進(jìn)行校對(duì)的,也即在對(duì)EPUB文檔進(jìn)行校對(duì)的過(guò)程中充分考慮到了它的文檔結(jié)構(gòu)因素,因此,利用本發(fā)明實(shí)施例的方法提高了對(duì)EPUB文檔校對(duì)的準(zhǔn)確性和校對(duì)效率?!と鐖D6所示,本發(fā)明實(shí)施例的EPUB文檔的校對(duì)裝置包括文檔獲取單元21,用于獲取待校對(duì)EPUB文檔中符合XML規(guī)范的目標(biāo)文檔;文檔處理單元22,用于利用所述目標(biāo)文檔的標(biāo)簽構(gòu)造所述目標(biāo)文檔的文檔結(jié)構(gòu)樹(shù),其中所述文檔結(jié)構(gòu)樹(shù)中包括所述目標(biāo)文檔中各節(jié)點(diǎn)的結(jié)構(gòu)信息和所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容;文檔校對(duì)單元23,用于根據(jù)所述文檔結(jié)構(gòu)樹(shù)對(duì)所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì),以實(shí)現(xiàn)對(duì)所述待校對(duì)EPUB文檔的校對(duì)。此外,為了進(jìn)一步提高校對(duì)的準(zhǔn)確性,如圖7所示,所述裝置還可包括文檔校正單元24,用于對(duì)所述目標(biāo)文檔進(jìn)行XML規(guī)范性校正,以確保所述目標(biāo)文檔符合XML規(guī)范。其中,所述文檔處理單元22可包括第一信息獲取模塊,用于分別獲取所述目標(biāo)文檔中各標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn),并在所述節(jié)點(diǎn)對(duì)應(yīng)有純文本內(nèi)容時(shí)獲取所述節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容;第二信息獲取模塊,用于如果所述節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽包括有下一級(jí)標(biāo)簽,將所述節(jié)點(diǎn)作為父節(jié)點(diǎn),將所述下一級(jí)標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)作為所述節(jié)點(diǎn)的子節(jié)點(diǎn),并在所述子節(jié)點(diǎn)對(duì)應(yīng)有純文本內(nèi)容時(shí)獲取所述子節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容;文檔處理模塊,用于根據(jù)確定的父節(jié)點(diǎn)和子節(jié)點(diǎn)以及所述父節(jié)點(diǎn)和所述子節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容構(gòu)造所述文檔結(jié)構(gòu)樹(shù)。為了方便用戶(hù)統(tǒng)計(jì)文檔中的錯(cuò)誤,如圖8所示,所述裝置還包括文本寫(xiě)入單元25,用于將所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容的校對(duì)結(jié)果信息按照預(yù)定規(guī)范寫(xiě)入到所述文檔結(jié)構(gòu)樹(shù)中所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容中;校對(duì)結(jié)果處理單元26,用于利用包含有所述校對(duì)結(jié)果信息的文檔結(jié)構(gòu)樹(shù)進(jìn)行校對(duì)統(tǒng)計(jì)處理。具體的,所述校對(duì)結(jié)果處理單元26包括格式轉(zhuǎn)換模塊,用于將所述包含有所述校對(duì)結(jié)果信息的文檔結(jié)構(gòu)樹(shù)轉(zhuǎn)換為符合XML規(guī)范的待處理文檔;校對(duì)統(tǒng)計(jì)模塊,用于根據(jù)所述校對(duì)結(jié)果信息對(duì)所述待處理文檔進(jìn)行校對(duì)統(tǒng)計(jì)處理。此外,在圖6,圖7或者圖8所示的基礎(chǔ)上,所述裝置還可包括保存單元27,用于保存校對(duì)后的待校對(duì)EPUB文檔。其中,所述裝置的工作原理可參照前述方法實(shí)施例的描述。由于EPUB文檔是嚴(yán)格符合XML規(guī)范的文件,其中包含了較多的結(jié)構(gòu)信息,而本發(fā)明實(shí)施例中正是基于EPUB文檔的文檔結(jié)構(gòu)進(jìn)行校對(duì)的,也即在對(duì)EPUB文檔進(jìn)行校對(duì)的過(guò)程中充分考慮到了它的文檔結(jié)構(gòu)因素,因此,利用本發(fā)明實(shí)施例的裝置提高了對(duì)EPUB文檔校對(duì)的準(zhǔn)確性和校對(duì)效率。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤(pán)、只讀存儲(chǔ)記憶體(Read-Only Memory, ROM)或隨機(jī)存儲(chǔ)記憶體(Random AccessMemory, RAM)等。
以上所述,僅為本發(fā)明的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種EPUB文檔的校對(duì)方法,其特征在于,包括 獲取待校對(duì)EPUB文檔中符合可擴(kuò)展標(biāo)記語(yǔ)言XML規(guī)范的目標(biāo)文檔; 利用所述目標(biāo)文檔的標(biāo)簽構(gòu)造所述目標(biāo)文檔的文檔結(jié)構(gòu)樹(shù),其中所述文檔結(jié)構(gòu)樹(shù)中包括所述目標(biāo)文檔中各節(jié)點(diǎn)的結(jié)構(gòu)信息和所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容; 根據(jù)所述文檔結(jié)構(gòu)樹(shù)對(duì)所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì),以實(shí)現(xiàn)對(duì)所述待校對(duì)EPUB文檔的校對(duì)。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述獲取待校對(duì)EPUB文檔中符合XML規(guī)范的目標(biāo)文檔后,所述方法還包括 對(duì)所述目標(biāo)文檔進(jìn)行XML規(guī)范性校正,以進(jìn)一步確保所述目標(biāo)文檔符合XML規(guī)范。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述利用所述目標(biāo)文檔的標(biāo)簽構(gòu)造所述目標(biāo)文檔的文檔結(jié)構(gòu)樹(shù),其中所述文檔結(jié)構(gòu)樹(shù)中包括所述目標(biāo)文檔中各節(jié)點(diǎn)的結(jié)構(gòu)信息和所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容,包括 分別獲取所述目標(biāo)文檔中各標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn),并在所述節(jié)點(diǎn)對(duì)應(yīng)有純文本內(nèi)容時(shí)獲取所述節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容; 如果所述節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽包括有下一級(jí)標(biāo)簽,將所述節(jié)點(diǎn)作為父節(jié)點(diǎn),將所述下一級(jí)標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)作為所述節(jié)點(diǎn)的子節(jié)點(diǎn),并在所述子節(jié)點(diǎn)對(duì)應(yīng)有純文本內(nèi)容時(shí)獲取所述子節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容; 根據(jù)確定的父節(jié)點(diǎn)和子節(jié)點(diǎn)以及所述父節(jié)點(diǎn)和所述子節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容構(gòu)造所述文檔結(jié)構(gòu)樹(shù)。
4.根據(jù)權(quán)利要求1-3任一所述的方法,其特征在于,在根據(jù)所述文檔結(jié)構(gòu)樹(shù)對(duì)所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì)后,所述方法還包括 將所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容的校對(duì)結(jié)果信息按照預(yù)定規(guī)范寫(xiě)入到所述文檔結(jié)構(gòu)樹(shù)中所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容中; 利用包含有所述校對(duì)結(jié)果信息的文檔結(jié)構(gòu)樹(shù)進(jìn)行校對(duì)統(tǒng)計(jì)處理。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述利用包含有所述校對(duì)結(jié)果信息的目標(biāo)文檔進(jìn)行校對(duì)統(tǒng)計(jì)處理包括 將所述包含有所述校對(duì)結(jié)果信息的文檔結(jié)構(gòu)樹(shù)轉(zhuǎn)換為符合XML規(guī)范的待處理文檔; 根據(jù)所述校對(duì)結(jié)果信息對(duì)所述待處理文檔進(jìn)行校對(duì)統(tǒng)計(jì)處理。
6.根據(jù)權(quán)利要求1-3任一所述的方法,其特征在于,所述方法還包括 保存校對(duì)后的待校對(duì)EPUB文檔。
7.—種EPUB文檔的校對(duì)裝置,其特征在于,包括 文檔獲取單元,用于獲取待校對(duì)EPUB文檔中符合XML規(guī)范的目標(biāo)文檔; 文檔處理單元,用于利用所述目標(biāo)文檔的標(biāo)簽構(gòu)造所述目標(biāo)文檔的文檔結(jié)構(gòu)樹(shù),其中所述文檔結(jié)構(gòu)樹(shù)中包括所述目標(biāo)文檔中各節(jié)點(diǎn)的結(jié)構(gòu)信息和所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容; 文檔校對(duì)單元,用于根據(jù)所述文檔結(jié)構(gòu)樹(shù)對(duì)所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì),以實(shí)現(xiàn)對(duì)所述待校對(duì)EPUB文檔的校對(duì)。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括 文檔校正單元,用于對(duì)所述目標(biāo)文檔進(jìn)行XML規(guī)范性校正,以進(jìn)一步確保所述目標(biāo)文檔符合XML規(guī)范。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述文檔處理單元包括 第一信息獲取模塊,用于分別獲取所述目標(biāo)文檔中各標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn),并在所述節(jié)點(diǎn)對(duì)應(yīng)有純文本內(nèi)容時(shí)獲取所述節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容; 第二信息獲取模塊,用于如果所述節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽包括有下一級(jí)標(biāo)簽,將所述節(jié)點(diǎn)作為父節(jié)點(diǎn),將所述下一級(jí)標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)作為所述節(jié)點(diǎn)的子節(jié)點(diǎn),并在所述子節(jié)點(diǎn)對(duì)應(yīng)有純文本內(nèi)容時(shí)獲取所述子節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容; 文檔處理模塊,用于根據(jù)確定的父節(jié)點(diǎn)和子節(jié)點(diǎn)以及所述父節(jié)點(diǎn)和所述子節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容構(gòu)造所述文檔結(jié)構(gòu)樹(shù)。
10.根據(jù)權(quán)利要求7-9任一所述的裝置,其特征在于,所述裝置還包括 文本寫(xiě)入單元,用于將所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容的校對(duì)結(jié)果信息按照預(yù)定規(guī)范寫(xiě)入到所述文檔結(jié)構(gòu)樹(shù)中所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容中; 校對(duì)結(jié)果處理單元,用于利用包含有所述校對(duì)結(jié)果信息的文檔結(jié)構(gòu)樹(shù)進(jìn)行校對(duì)統(tǒng)計(jì)處理。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述校對(duì)結(jié)果處理單元包括 格式轉(zhuǎn)換模塊,用于將所述包含有所述校對(duì)結(jié)果信息的文檔結(jié)構(gòu)樹(shù)轉(zhuǎn)換為符合XML規(guī)范的待處理文檔; 校對(duì)統(tǒng)計(jì)模塊,用于根據(jù)所述校對(duì)結(jié)果信息對(duì)所述待處理文檔進(jìn)行校對(duì)統(tǒng)計(jì)處理。
12.根據(jù)權(quán)利要求7-9任一所述的裝置,其特征在于,所述裝置還包括 保存單元,用于保存校對(duì)后的待校對(duì)EPUB文檔。
全文摘要
本發(fā)明實(shí)施例公開(kāi)了一種EPUB文檔的校對(duì)方法及裝置,涉及文檔校對(duì)技術(shù),為提高對(duì)EPUB文檔校對(duì)的準(zhǔn)確性和校對(duì)效率而發(fā)明。一種EPUB文檔的校對(duì)方法,包括獲取待校對(duì)EPUB文檔中符合XML規(guī)范的目標(biāo)文檔;利用所述目標(biāo)文檔的標(biāo)簽構(gòu)造所述目標(biāo)文檔的文檔結(jié)構(gòu)樹(shù),其中所述文檔結(jié)構(gòu)樹(shù)中包括所述目標(biāo)文檔中各節(jié)點(diǎn)的結(jié)構(gòu)信息和所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容;根據(jù)所述文檔結(jié)構(gòu)樹(shù)對(duì)所述各節(jié)點(diǎn)對(duì)應(yīng)的純文本內(nèi)容進(jìn)行校對(duì),以實(shí)現(xiàn)對(duì)所述待校對(duì)EPUB文檔的校對(duì)。本發(fā)明實(shí)施例主要用于EPUB文檔的校對(duì)技術(shù)中。
文檔編號(hào)G06F17/21GK102799569SQ20111014137
公開(kāi)日2012年11月28日 申請(qǐng)日期2011年5月27日 優(yōu)先權(quán)日2011年5月27日
發(fā)明者吳文元, 陳峻峰 申請(qǐng)人:漢王科技股份有限公司