專利名稱:基于圖片的網(wǎng)頁文本保護(hù)方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,涉及網(wǎng)頁的文本保護(hù)方法,用于電腦、手機(jī)等各 種信息設(shè)備的文本保護(hù)。
背景技術(shù):
隨著電腦、手機(jī)等信息設(shè)備的普及,網(wǎng)絡(luò)文學(xué)作品也越來越成為一種趨勢。很多 網(wǎng)絡(luò)文學(xué)作品發(fā)布網(wǎng)站為了保護(hù)作者的版權(quán)和利益,需要用戶付費才能夠閱讀該網(wǎng)站的作品。但對于這些付費文學(xué)作品網(wǎng)站來說,只要某一讀者付費進(jìn)入之后,通過查看頁面 源代碼,甚至僅僅通過“復(fù)制一粘貼”頁面文本,就可以輕輕松松地把這些文學(xué)作品內(nèi)容 轉(zhuǎn)載到別的網(wǎng)頁中,更多時候轉(zhuǎn)載到自己的博客空間中。這樣很多想要閱讀這些文學(xué)作品 的人,不需要進(jìn)入相關(guān)的收費網(wǎng)站,而僅僅訪問這些空間就可以閱讀文學(xué)作品了。這對于讀 者提供了極大方便,可以免費閱讀這些作品。但對于這些收費網(wǎng)站來說,不僅損害了文學(xué)作 品作者的權(quán)益,而且也讓他們的收益大大減少。目前各大網(wǎng)站大都采用圖片的方式來進(jìn)行文本保護(hù),即作者在網(wǎng)上提交作品后, 服務(wù)器端生成圖片,然后用戶瀏覽時將生成好的圖片傳送到客戶端。該技術(shù)能較好的對文 本進(jìn)行保護(hù),但缺點是圖片要比文本大的多,導(dǎo)致網(wǎng)絡(luò)傳輸量大大增加,為用戶瀏覽尤其是 手機(jī)用戶瀏覽帶來了極大不便。另外雖然也有一些從事安全方面研究的人提出了很多方 法來保護(hù)這些文本,例如,在瀏覽器中裝入打亂頁面次序的插件,這樣,當(dāng)讀者想要通過查 看頁面源代碼來獲取文本時,看到的只是亂序后的文本,從而給以往的“復(fù)制——粘貼”文 本的方法,帶來了一個的困難,但這僅僅是治標(biāo)不治本。讀者只要稍有編程知識,就可以很 容易地分析出這些文本亂序的算法,此時,只要再以相同的做法,“以其人之道還治其人之 身”,將插件的功能逆轉(zhuǎn)過來,就可以很方便地還原出頁面文本。隨著信息技術(shù)的不斷發(fā)展,如何保護(hù)網(wǎng)站的收益不受損害,而且網(wǎng)絡(luò)文學(xué)作品作 者的權(quán)益也不受到侵害,已經(jīng)越來越受關(guān)注。
發(fā)明內(nèi)容
本發(fā)明目的在于克服現(xiàn)有對網(wǎng)頁文本保護(hù)方法的傳輸量大,安全性差的不足,提 出了一種基于圖片的網(wǎng)頁文本保護(hù)方法,以防止用戶獲取和傳播頁面文本的內(nèi)容,有效地 保護(hù)網(wǎng)絡(luò)文學(xué)作品作者的版權(quán)和利益,同時減少網(wǎng)站的損失。為了實現(xiàn)上述目的,本發(fā)明提供的文本保護(hù)方法,包括(1)在Web服務(wù)器端獲取文本內(nèi)容,打亂文本次序;(2)隨機(jī)選取文本中的小部分內(nèi)容,生成圖片;(3)將文本中未生成圖片的剩余內(nèi)容,與每一個文字相應(yīng)的坐標(biāo)信息一起加密,并 壓縮;(4)將壓縮后的信息,以及所生成的圖片保存到html頁面中,傳輸給客戶端;
(5)客戶端接收到html頁面后,獲取其中的圖片,作為背景圖片,并對接收到的壓縮信息進(jìn)行解壓及解密,還原出原始信息;(6)客戶端將還原的原始信息中的每個文字解釋成像素,生成一張僅包含該文字 的小圖片,并根據(jù)該文字的坐標(biāo)信息,將圖片疊加到背景圖上,最終將包含完整文字信息的 整個頁面顯示給用戶。本發(fā)明具有如下優(yōu)點1)本發(fā)明由于隨機(jī)選取文本中小部分內(nèi)容生成圖片,減少了傳輸時的信息量;2)本發(fā)明由于將文本亂序,并將文本剩余內(nèi)容及坐標(biāo)加密壓縮,使傳輸過程中信 息截獲后的恢復(fù)變得困難,同時,有效防止了通過查看頁面源代碼來獲取文本;3)本發(fā)明由于在背景圖中加入干擾信息及標(biāo)準(zhǔn)字庫中的字體等內(nèi)容,有效的防止 OCR識別,進(jìn)一步保護(hù)網(wǎng)頁文本內(nèi)容;4)本發(fā)明由于將文本剩余的每個文字解釋成像素,有效防止通過“復(fù)制-粘貼”獲 取傳播頁面文本的內(nèi)容。
圖1是現(xiàn)有瀏覽器服務(wù)器端與客戶端交互圖;圖2是本發(fā)明在服務(wù)器端處理文本的流程圖;圖3是本發(fā)明在客戶端處理文本的流程圖。
圖4是本發(fā)明實驗實例中服務(wù)器端隨機(jī)選取文本小部分字符生成的圖片; 圖5是本發(fā)明實驗實例中客戶端生成的“御”字對應(yīng)的文字圖片; 圖6是本發(fā)明實驗實例中客戶端最終生成的文字圖片。
具體實施例方式下面結(jié)合附圖和具體實施來進(jìn)一步說明本發(fā)明實施的技術(shù)方案。圖1為web瀏覽器工作的基本原理圖。上半部分表示客戶機(jī)與服務(wù)器交互的關(guān)系; 下半部分圖示則表示瀏覽器與web服務(wù)器交互的關(guān)系。其中,瀏覽器首先向web服務(wù)器發(fā) 出請求,web服務(wù)器對請求做出響應(yīng),將響應(yīng)數(shù)據(jù)發(fā)送給客戶端瀏覽器,通常是html文件, 然后通過瀏覽器把html文件信息顯示到用戶端屏幕上。這是最基本的網(wǎng)絡(luò)應(yīng)用原理。其 中的web服務(wù)器處理模塊,將對文本進(jìn)行處理,生成客戶端合成圖片所需的像素信息。參照圖2,本發(fā)明在服務(wù)器端的工作流程包括如下步驟步驟1,在Web服務(wù)器端獲取文本內(nèi)容,打亂文本次序。當(dāng)用戶發(fā)出URL請求,要瀏覽某個web頁面的文學(xué)作品內(nèi)容時,瀏覽器將該請求發(fā) 送到服務(wù)器端。服務(wù)器端接收到該請求后,查找用戶所要瀏覽的網(wǎng)頁以及該頁面中包含的 文學(xué)作品內(nèi)容。根據(jù)得到的信息,提取出文學(xué)作品內(nèi)容,為了增加文本保護(hù)的安全級別,對 文本進(jìn)行亂序操作。該亂序操作是依據(jù)用戶賬戶、登錄時間和IP地址作為隨機(jī)種子,打亂 文本的原始次序。步驟2,隨機(jī)選取文本中的小部分內(nèi)容,生成圖片。從亂序后的文本中,隨機(jī)選取小部分內(nèi)容,并隨機(jī)從瀏覽器服務(wù)器端字庫中選取 出某種字體,生成所選取內(nèi)容的像素信息,合成圖片。
其中,為了阻礙OCR識別,在生成像素的過程中,添加了 一些圖像加噪聲等干擾因 素。具體來說,在生成像素信息的過程中,適當(dāng)?shù)丶尤氡尘跋袼攸c、干擾像素點、噪聲線,以 及對文字添加陰影、變字體、加入標(biāo)準(zhǔn)字庫中的字,以及適當(dāng)?shù)丶尤胱栽熳煮w庫中的字體。步驟3,將文本中未生成圖片的剩余內(nèi)容,與每一個文字相應(yīng)的坐標(biāo)信息一起加 密,并壓縮。為了保證在客戶端還原原始文本時,準(zhǔn)確地知道每個文字的位置,在亂序前需要 記錄下每個文字在原始文本中的坐標(biāo)。首先,獲取剩余文本及其中每個文字在所生成圖片中的像素坐標(biāo)信息,為了保證 傳輸?shù)陌踩校枰獙Υ诵畔⑦M(jìn)行加密;然后,對于加密后的信息,又進(jìn)一步進(jìn)行壓縮,再傳 輸,從而提高了傳輸效率,方便讀者閱讀。根據(jù)瀏覽器的工作特性,要保證效率,就要使得大部分工作在瀏覽器客戶端完成, 而另一方面,為了提高網(wǎng)絡(luò)傳輸?shù)陌踩裕忠蠓?wù)器端采取一定的措施。因而,為了兼 顧網(wǎng)絡(luò)傳輸效率以及網(wǎng)絡(luò)傳輸?shù)陌踩?,采取小部分文本作為圖片傳輸,大部分用文本傳輸 的措施,使得這兩者可以得到更好的結(jié)合。步驟4,將壓縮后的信息,以及所生成的圖片保存到html頁面中,傳輸給客戶端。將需要生成的圖片,以及加密壓縮之后的敏感信息寫入到html頁面,并進(jìn)一步傳 輸?shù)娇蛻舳藶g覽器,通過該處理,在網(wǎng)絡(luò)傳輸?shù)倪^程中,即使所傳輸?shù)膆tml頁面被截獲,所 得到的也只不過是一張包含文本中小部分文字的圖片和加密壓縮后的被打亂次序的文字 信息以及坐標(biāo)信息,因此上述將壓縮后的信息,以及所生成的圖片先保存到html頁面中, 再傳輸給客戶端的這種處理方法可以有效的保護(hù)頁面文本。參考圖3,本發(fā)明在瀏覽器的處理流程包括如下步驟步驟A,接收到服務(wù)器端發(fā)送的html頁面,解析出其中的關(guān)鍵信息。客戶端瀏覽器一旦接收到web服務(wù)器發(fā)送過來的html信息,就會對頁面內(nèi)容進(jìn)行 分析,解析出網(wǎng)頁中的關(guān)鍵敏感信息,這些信息包括生成的圖片信息,加密壓縮的剩余文本 信息和坐標(biāo)信息。步驟B,獲取圖片作為背景圖片。根據(jù)步驟A中獲得的信息,提取出其中的圖片,該圖片即為服務(wù)器端步驟2所生成 的帶有小部分文字及防止OCR識別的干擾信息的圖片,將圖片作為客戶端頁面中的背景圖 片。步驟C,獲取其中的剩余文字信息,將其進(jìn)行解壓并解密。根據(jù)步驟A中得到的文字信息,則首先由瀏覽器客戶端負(fù)責(zé)解壓,然后根據(jù)加密密鑰,解密出亂序的文本信息。步驟D,生成每個文字的圖片。瀏覽器客戶端依次讀取信息中的每個文字,并將其解釋成像素信息,生成包含該 文字的圖片。在生成圖片的過程中,同樣利用阻礙OCR識別的技術(shù),即在生成文本像素信息 的過程中,對文本加入各種阻礙OCR識別的圖像加噪聲,包括背景像素點、干擾像素點、噪 聲線、文字添加陰影、變字體、加入標(biāo)準(zhǔn)字庫中的字以及適當(dāng)?shù)丶尤胱栽熳煮w庫中的字體。步驟E,按照每個文字在圖片中的位置,讀取每個文字小圖片在背景圖片中的坐標(biāo) 信息,根據(jù)該坐標(biāo),將每張小圖片疊加到背景圖片的相應(yīng)位置上,得到包含完整文本信息的圖片網(wǎng)頁,并將該網(wǎng)頁顯示給用戶。本發(fā)明的效果可以通過以下實驗實例來進(jìn)一步說明1.本實驗選擇的原始文本為“內(nèi)御膳房的小雜院內(nèi),因為有些看宴會的人還未回 來,有些卻已早早睡下,因而整個院子都黑燈瞎火的,闃靜至極,摸著黑想找回自己的屋子, 心里卻被一種恐懼感反反復(fù)復(fù)地侵襲著,偶爾落下的碎雪也能把我驚到,……閃閃爍爍的 兩簇?zé)艋?,在這樣的寒夜里仿佛是唯一的依存,為彼此的光芒而存在著,若有一盞滅去,于 另一盞……都會是黑暗里永久的孤獨……遙遙傳來一聲寂寥的打更,突然的一聲響,心里 也如同被震懾到一般,隱隱到戰(zhàn)栗著……不知自己在害怕什么,但總覺得一種漸漸壓抑到 極限的氣氛,開始綻散在這紫禁城里,有些東西真是有預(yù)兆的……是在過了多久之后我突 然間就這樣想了呢? ”,然后提取文字的坐標(biāo),最后以用戶賬戶、登錄時間和IP地址作為隨 機(jī)種子,打亂文本的原始次序。2.在服務(wù)器端,本實驗隨機(jī)選取文本的小部分內(nèi)容為“內(nèi)御膳小因宴而整院子黑 至種偶雪也爍的樣是唯此存在去,是里遙聲打更突的聲震,戰(zhàn)在得漸始在城真預(yù)…過”共46 個字及標(biāo)點符號,生成圖片,在生成的圖片中加入了阻礙OCR識別的干擾信息,使用了標(biāo)準(zhǔn) 庫及自造字體庫中的字體,如圖4所示。由圖4可以看出,本實驗隨機(jī)選取了 46個字及標(biāo) 點符號,并加入了阻礙OCR識別的干擾信息使用了標(biāo)準(zhǔn)庫及自造字體庫中的字體,完成了 將小部分文本生成圖片。3.壓縮及加密亂序的文字及坐標(biāo)信息,然后,將圖片信息及壓縮信息保存在html 頁面中并返回給客戶端。4.客戶端接收到服務(wù)器發(fā)送的信息,獲取其中的圖片信息作為背景圖片,并解壓 并解密信息,得到亂序的文字及坐標(biāo)信息。5.依次讀取信息中的每個文字,逐個生成帶有干擾信息的文字小圖片,如“御”字, 其圖片如圖5所示。由圖5可以看出,本實驗將“御”字生成為對應(yīng)的文字圖片,并加入了 干擾信息。6讀取文字在背景圖片中的對應(yīng)坐標(biāo),按照坐標(biāo)信息將每個文字對應(yīng)的圖片疊加 在背景圖上。在實現(xiàn)時,我們把每個文字所在背景圖片區(qū)域的左上角坐標(biāo)作為該文字在圖 片中的位置。將每個文字對應(yīng)的圖片疊加到背景圖上之后,即可看到包含整個文本信息的 圖片,如圖6所示。由圖6可以看出,本實驗完成將文字生成圖片并加入干擾像素,使用了 標(biāo)準(zhǔn)字庫和自造字庫中字體,有效的阻礙OCR識別,防止信息盜用,保護(hù)了網(wǎng)頁文本。由本實驗可以得出,本發(fā)明提出的基于圖片的網(wǎng)頁文本保護(hù)方法,不僅可以提高 傳輸?shù)男?,而且在一定程度上也保證了傳輸?shù)陌踩?,從而有效地保障了網(wǎng)絡(luò)作者和收 費網(wǎng)站的權(quán)利和利益。
權(quán)利要求
一種基于圖片的網(wǎng)頁文本保護(hù)方法,包括如下步驟(1)在Web服務(wù)器端獲取文本內(nèi)容,打亂文本次序;(2)隨機(jī)選取文本中的小部分內(nèi)容,生成圖片;(3)將文本中未生成圖片的剩余內(nèi)容,與每一個文字相應(yīng)的坐標(biāo)信息一起加密,并壓縮;(4)將壓縮后的信息,以及所生成的圖片保存到html頁面中,傳輸給客戶端;(5)客戶端接收到html頁面后,獲取其中的圖片,作為背景圖片,并對接收到的壓縮信息進(jìn)行解壓及解密,還原出原始信息;(6)客戶端將還原的原始信息中的每個文字解釋成像素,生成一張包含該文字的小圖片,并根據(jù)該文字的坐標(biāo)信息,將圖片疊加到背景圖上,最終將包含完整文字信息的整個頁面顯示給用戶。
2.根據(jù)權(quán)利要求1所述的基于圖片的網(wǎng)頁文本保護(hù)方法,其中步驟(1)所述的打亂文 本次序,是以用戶賬戶、登錄時間和訪問IP地址作為隨機(jī)數(shù)種子,對文本進(jìn)行亂序排列,使 破解文本原始內(nèi)容變得困難。
3.根據(jù)權(quán)利要求1所述的基于圖片的網(wǎng)頁文本保護(hù)方法,其中步驟(2)所述的隨機(jī)選 取文本中的小部分內(nèi)容,生成圖片,在具體實現(xiàn)時,在文本圖片中要隨機(jī)加入各種阻礙OCR 識別的噪聲,包括背景像素點、干擾像素點、噪聲線和文字添加陰影,同時使用了標(biāo)準(zhǔn)字庫 及自造字庫的字體。
4.根據(jù)權(quán)利要求1所述的基于圖片的網(wǎng)頁文本保護(hù)方法,其中步驟(5)所述的客戶端 將還原的原始信息中的每個文字解釋成像素,生成一張包含該文字的小圖片,在具體實現(xiàn) 時,在每個文字小圖片中要隨機(jī)加入各種阻礙OCR識別的噪聲,包括背景像素點、干擾像素 點、噪聲線和文字添加陰影。
全文摘要
本發(fā)明公開了一種基于圖片的網(wǎng)頁文本保護(hù)的網(wǎng)絡(luò)安全方法。主要解決現(xiàn)有網(wǎng)頁文本保護(hù)方法傳輸量大,安全性差的問題。在服務(wù)器端,隨機(jī)打亂文本次序,并選取亂序后文本中的小部分文字,生成圖片,然后將文本中的剩余文字及每個字的坐標(biāo)信息進(jìn)行加密,連同圖片一起傳輸?shù)娇蛻舳恕T诳蛻舳藢鬏攣淼膱D片作為背景圖片,而加密后的信息,則由客戶端解密,解密后所得文本信息中的每個文字,由客戶端生成相應(yīng)的一張小圖片,并按照該文字在原始文本中的位置,將此小圖片疊加到背景圖片的適當(dāng)位置上,從而得到包含整個文本信息的圖片,并顯示到瀏覽器中。本發(fā)明使文本復(fù)制得到控制,可有效地保護(hù)作者的版權(quán)和利益。
文檔編號G06F21/00GK101814118SQ20091002318
公開日2010年8月25日 申請日期2009年7月2日 優(yōu)先權(quán)日2009年7月2日
發(fā)明者劉西洋, 姚丹, 李曉東, 王黎明, 秦英 申請人:西安電子科技大學(xué)