本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種識別文字文檔生成目錄的方法及裝置。
背景技術(shù):
在日常生活、工作中,在電腦端文字文檔已普遍為用戶使用,用戶將自己的想法、介紹項目計劃、說明產(chǎn)品使用、發(fā)布公告通知等通過文字文檔形式展示給多人查閱。而如何讓文檔看起來更加直觀、結(jié)構(gòu)更加清晰、重點(diǎn)更加突出就成了重難點(diǎn)。microsoftword設(shè)定了一系列的展示規(guī)則(例如:標(biāo)題樣式、題注樣式、項目符號和編號不同層級的縮進(jìn)和行間距等)來解決上述問題,而用戶必須了解和學(xué)習(xí)這些規(guī)則,并在文檔編輯過程中,對字、段設(shè)置相應(yīng)的規(guī)則和屬性。
在閱讀文檔時,有目錄的文檔能更加吸引看者來閱讀,并且能讓閱讀者在短時間內(nèi)就知道全文的主旨和主要內(nèi)容,把握全文的結(jié)構(gòu)布局。而對于一篇文檔要顯示出目錄,必須要作者在編寫時嚴(yán)格按照microsoftword設(shè)定了大綱級別規(guī)則來做,才能在文檔完成時生成目錄。否則,用戶拿到任何一篇沒有目錄的文檔,是無法看到目錄的,從而導(dǎo)致了操作復(fù)雜,體驗性低的技術(shù)問題。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了一種識別文字文檔生成目錄的方法及裝置,解決了目前對于一篇文檔要顯示出目錄,必須要作者在編寫時嚴(yán)格按照microsoftword設(shè)定了大綱級別規(guī)則來做,才能在文檔完成時生成目錄。否則,用戶拿到任何一篇沒有目錄的文檔,是無法看到目錄的,從而導(dǎo)致了操作復(fù)雜,體驗性低的技術(shù)問題。
本發(fā)明實施例中提供的一種識別文字文檔生成目錄的方法,包括:
根據(jù)提取的原文檔內(nèi)容識別出版面元素;
根據(jù)所述版面元素將所述原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成。
可選地,根據(jù)提取的原文檔內(nèi)容識別出版面元素之前還包括:
提取原文檔的所有內(nèi)容或部分內(nèi)容。
可選地,根據(jù)提取的原文檔內(nèi)容識別出版面元素具體包括:
根據(jù)提取的原文檔的所有內(nèi)容或部分內(nèi)容對應(yīng)的屬性以確定所述版面元素。
可選地,所述版面元素屬于文字屬性和版面排版屬性。
可選地,所述文字屬性包括文字字形、文字顏色、文字字號;
所述版面排版屬性包括段落大綱級別。
可選地,根據(jù)提取的原文檔的所有內(nèi)容或部分內(nèi)容對應(yīng)的屬性以確定所述版面元素具體包括:
根據(jù)所述文字屬性和所述版面排版屬性將所述原文檔內(nèi)容按照預(yù)置規(guī)則進(jìn)行目錄生成。
可選地,根據(jù)所述文字屬性和所述版面排版屬性將所述原文檔內(nèi)容按照預(yù)置規(guī)則進(jìn)行目錄生成具體包括:
根據(jù)所述文字字形和/或所述文字顏色和/或所述文字字號和/或所述段落大綱級別將所述原文檔內(nèi)容按照預(yù)置規(guī)則進(jìn)行目錄生成。
本發(fā)明實施例中提供的一種識別文字文檔生成目錄的裝置,包括:
識別單元,用于根據(jù)提取的原文檔內(nèi)容識別出版面元素;
目錄生成單元,用于根據(jù)所述版面元素將所述原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成。
可選地,所述識別文字文檔生成目錄的裝置還包括:
提取單元,用于提取原文檔的所有內(nèi)容或部分內(nèi)容。
可選地,目錄生成單元具體用于根據(jù)文字字形和/或文字顏色和/或文字字號和/或段落大綱級別將所述原文檔內(nèi)容按照預(yù)置規(guī)則進(jìn)行目錄生成;
其中,所述版面元素屬于文字屬性和版面排版屬性;
所述文字屬性包括文字字形、文字顏色、文字字號;
所述版面排版屬性包括段落大綱級別。
從以上技術(shù)方案可以看出,本發(fā)明實施例具有以下優(yōu)點(diǎn):
本發(fā)明實施例中提供的一種識別文字文檔生成目錄的方法及裝置,其中,識別文字文檔生成目錄的方法包括:根據(jù)提取的原文檔內(nèi)容識別出版面元素;根據(jù)所述版面元素將所述原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成。本實施例 中,通過根據(jù)提取的原文檔內(nèi)容識別出版面元素;根據(jù)所述版面元素將所述原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成,解決了目前對于一篇文檔要顯示出目錄,必須要作者在編寫時嚴(yán)格按照microsoftword設(shè)定了大綱級別規(guī)則來做,才能在文檔完成時生成目錄。否則,用戶拿到任何一篇沒有目錄的文檔,是無法看到目錄的,從而導(dǎo)致了操作復(fù)雜,體驗性低的技術(shù)問題。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1為本發(fā)明實施例中提供的一種識別文字文檔生成目錄的方法的一個實施例流程示意圖;
圖2為本發(fā)明實施例中提供的一種識別文字文檔生成目錄的方法的另一個實施例流程示意圖;
圖3為本發(fā)明實施例中提供的一種識別文字文檔生成目錄的裝置的一個實施例結(jié)構(gòu)示意圖;
圖4為本發(fā)明實施例中提供的一種識別文字文檔生成目錄的裝置的另一個實施例結(jié)構(gòu)示意圖。
具體實施方式
本發(fā)明實施例提供了一種識別文字文檔生成目錄的方法及裝置,解決了目前對于一篇文檔要顯示出目錄,必須要作者在編寫時嚴(yán)格按照microsoftword設(shè)定了大綱級別規(guī)則來做,才能在文檔完成時生成目錄。否則,用戶拿到任何一篇沒有目錄的文檔,是無法看到目錄的,從而導(dǎo)致了操作復(fù)雜,體驗性低的技術(shù)問題。
為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點(diǎn)能夠更加的明顯和易懂,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,下面所描述的實施例僅僅是本發(fā)明一部分實施例,而非全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護(hù)的范圍。
請參閱圖1,本發(fā)明實施例中提供的一種識別文字文檔生成目錄的方法的一個實施例包括:
101、根據(jù)提取的原文檔內(nèi)容識別出版面元素;
本實施例中,當(dāng)一篇文檔要顯示出目錄時,需要根據(jù)提取的原文檔內(nèi)容識別出版面元素。
102、根據(jù)版面元素將原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成。
當(dāng)根據(jù)提取的原文檔內(nèi)容識別出版面元素之后,需要根據(jù)版面元素將原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成。
本實施例中,前述的版面元素可以是單個或多個,此處具體不做限定。
本實施例中,通過根據(jù)提取的原文檔內(nèi)容識別出版面元素;根據(jù)版面元素將原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成,解決了目前對于一篇文檔要顯示出目錄,必須要作者在編寫時嚴(yán)格按照microsoftword設(shè)定了大綱級別規(guī)則來做,才能在文檔完成時生成目錄。否則,用戶拿到任何一篇沒有目錄的文檔,是無法看到目錄的,從而導(dǎo)致了操作復(fù)雜,體驗性低的技術(shù)問題。
上面是對識別文字文檔生成目錄的方法的過程進(jìn)行詳細(xì)的描述,下面將對根據(jù)版面元素將原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成的具體過程進(jìn)行詳細(xì)的描述,請參閱圖2,本發(fā)明實施例中提供的一種識別文字文檔生成目錄的方法的另一個實施例包括:
201、提取原文檔的所有內(nèi)容或部分內(nèi)容;
本實施例中,當(dāng)一篇文檔要顯示出目錄時,需要提取原文檔的所有內(nèi)容或部分內(nèi)容。
202、根據(jù)提取的原文檔內(nèi)容識別出版面元素;
當(dāng)提取原文檔的所有內(nèi)容或部分內(nèi)容之后,需要根據(jù)提取的原文檔內(nèi)容識別出版面元素,提取目標(biāo)文檔內(nèi)容的部分屬性,例如:文字的字形、顏色、字號、段落的大綱級別等。
203、根據(jù)文字字形和/或文字顏色和/或文字字號和/或段落大綱級別將原文檔內(nèi)容按照預(yù)置規(guī)則進(jìn)行目錄生成。.
當(dāng)提取原文檔的所有內(nèi)容或部分內(nèi)容之后,需要根據(jù)文字字形和/或文字顏色和/或文字字號和/或段落大綱級別將版面元素屬于文字屬性和版面排版 屬性,文字屬性包括文字字形、文字顏色、文字字號,版面排版屬性包括段落大綱級別,例如根據(jù)所獲取的屬性,加上自定義規(guī)則,識別出文檔的標(biāo)題和大綱,只根據(jù)字號來識別文檔標(biāo)題和大綱。
需要說明的是,可以是根據(jù)實際的目的和關(guān)注的重點(diǎn)提取整篇文檔或部分文檔的所需內(nèi)容。
例如提?。嚎崭?、回車、字號、字形、段落、文檔標(biāo)題、大綱級別、項目符號和編號、表格、圖片、超鏈接、題注、藝術(shù)字。
需要說明的是,可以是將版面元素映射到相對應(yīng)的預(yù)置標(biāo)簽;
當(dāng)根據(jù)提取的原文檔內(nèi)容識別出復(fù)數(shù)個版面元素之后,可以是將版面元素映射到相對應(yīng)的預(yù)置標(biāo)簽,可以是根據(jù)一些規(guī)則將提取到的元素映射到對應(yīng)的標(biāo)簽,對應(yīng)的標(biāo)簽可自定義,還可以是多個映射到一個預(yù)置標(biāo)簽中,此處具體不做限定。
元素映射到對應(yīng)的標(biāo)簽可以如下表所示:
需要說明的是,根據(jù)文字字形和/或文字顏色和/或文字字號和/或段落大綱級別將原文檔內(nèi)容按照預(yù)置規(guī)則進(jìn)行目錄生成時,我們可以將版面元素或者這些標(biāo)簽的做出相應(yīng)的展示規(guī)則,以便更好的展現(xiàn)文檔。例如:我們可以取出所有映射到正文標(biāo)簽的文字,將他們的行間距、左右縮進(jìn)進(jìn)行特殊設(shè)定,展示規(guī)則可以多樣,此處具體不做限定。
例如:在全文無標(biāo)題樣式和大綱級別的對應(yīng)屬性時,如表2所示規(guī)則判斷標(biāo)題和大綱級別(注:規(guī)則不僅僅包括所列出項,此規(guī)則可以多樣,這里僅是一個樣例,本實施例為一個優(yōu)選例)。
表2
以上只是樣例,識別規(guī)則多樣,可根據(jù)原有的大綱級別+字號來識別文檔標(biāo)題和大綱;根據(jù)段落的字形來識別樣式等等,然后根據(jù)識別的結(jié)果,將結(jié)果生成目錄。
本實施例中,通過根據(jù)提取的原文檔內(nèi)容識別出版面元素;根據(jù)版面元素將原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成,解決了目前對于一篇文檔要顯示出目錄,必須要作者在編寫時嚴(yán)格按照microsoftword設(shè)定了大綱級別規(guī)則來做,才能在文檔完成時生成目錄。否則,用戶拿到任何一篇沒有目錄的文 檔,是無法看到目錄的,從而導(dǎo)致了操作復(fù)雜,體驗性低的技術(shù)問題。
以及,通過對文字文檔的智能識別,解決由于文字片段缺省相應(yīng)屬性標(biāo)識使得文檔結(jié)構(gòu)錯亂的問題,從而在識別后不僅能保證與用戶的表達(dá)意思一致,更能清晰的展示文檔結(jié)構(gòu),或?qū)ξ臋n的某些文字片段進(jìn)行重點(diǎn)的顯示效果優(yōu)化。
請參閱圖3,本發(fā)明實施例中提供的一種識別文字文檔生成目錄的裝置的一個實施例包括:
識別單元301,用于根據(jù)提取的原文檔內(nèi)容識別出版面元素;
目錄生成單元302,用于根據(jù)版面元素將原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成。
本實施例中,通過識別單元301根據(jù)提取的原文檔內(nèi)容識別出版面元素;目錄生成單元302根據(jù)版面元素將原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成,解決了目前對于一篇文檔要顯示出目錄,必須要作者在編寫時嚴(yán)格按照microsoftword設(shè)定了大綱級別規(guī)則來做,才能在文檔完成時生成目錄。否則,用戶拿到任何一篇沒有目錄的文檔,是無法看到目錄的,從而導(dǎo)致了操作復(fù)雜,體驗性低的技術(shù)問題。
上面是對識別文字文檔生成目錄的裝置的各單元進(jìn)行詳細(xì)的描述,下面將對附加單元進(jìn)行詳細(xì)的描述,請參閱圖4,本發(fā)明實施例中提供的一種識別文字文檔生成目錄的裝置的另一個實施例包括:
提取單元401,用于提取原文檔的所有內(nèi)容或部分內(nèi)容
識別單元402,用于根據(jù)提取的原文檔內(nèi)容識別出版面元素;
目錄生成單元403,用于根據(jù)版面元素將原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成。
目錄生成單元403,具體用于根據(jù)文字字形和/或文字顏色和/或文字字號和/或段落大綱級別將原文檔內(nèi)容按照預(yù)置規(guī)則進(jìn)行目錄生成;
其中,版面元素屬于文字屬性和版面排版屬性;
文字屬性包括文字字形、文字顏色、文字字號;
版面排版屬性包括段落大綱級別。
本實施例中,通過識別單元402根據(jù)提取的原文檔內(nèi)容識別出版面元素; 目錄生成單元403根據(jù)版面元素將原文檔內(nèi)容按照預(yù)置方式進(jìn)行目錄生成,解決了目前對于一篇文檔要顯示出目錄,必須要作者在編寫時嚴(yán)格按照microsoftword設(shè)定了大綱級別規(guī)則來做,才能在文檔完成時生成目錄。否則,用戶拿到任何一篇沒有目錄的文檔,是無法看到目錄的,從而導(dǎo)致了操作復(fù)雜,體驗性低的技術(shù)問題。
以及,通過對文字文檔的智能識別,解決由于文字片段缺省相應(yīng)屬性標(biāo)識使得文檔結(jié)構(gòu)錯亂的問題,從而在識別后不僅能保證與用戶的表達(dá)意思一致,更能清晰的展示文檔結(jié)構(gòu),或?qū)ξ臋n的某些文字片段進(jìn)行重點(diǎn)的顯示效果優(yōu)化。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本 發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機(jī)存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。