專利名稱:用于網(wǎng)頁(yè)概括的網(wǎng)關(guān)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)頁(yè)內(nèi)容的概括。本發(fā)明特別適用于,但并不限于,簡(jiǎn)化這些網(wǎng)頁(yè)以便通過(guò)WAP網(wǎng)關(guān)將他們提供給手持式設(shè)備。
背景技術(shù):
WAP(無(wú)線應(yīng)用協(xié)議)是一套通信協(xié)議,用于將如個(gè)人數(shù)字助理(PDA)、移動(dòng)電話和無(wú)線電收發(fā)器等的無(wú)線設(shè)備訪問(wèn)互連網(wǎng)(包括電子郵件和萬(wàn)維網(wǎng))的方式標(biāo)準(zhǔn)化。
為了從可以使用WAP的無(wú)線設(shè)備訪問(wèn)互連網(wǎng)資源,需要WAP網(wǎng)關(guān)服務(wù)。WAP網(wǎng)關(guān)使得執(zhí)行類似于萬(wàn)維網(wǎng)的服務(wù)成為可能。雖然已經(jīng)有一些主要由WAP設(shè)備供應(yīng)商建立的WAP網(wǎng)站,但是這些網(wǎng)站上的內(nèi)容有限并且不經(jīng)常更新。這是因?yàn)椋环矫婺壳癢AP的用戶數(shù)量少,因此,沒(méi)有互連網(wǎng)內(nèi)容提供商(ICP)愿意投入資金和人力來(lái)提供WAP內(nèi)容,同時(shí),另一方面,由于內(nèi)容有限,很少有移動(dòng)用戶愿意訂閱WAP服務(wù)。
無(wú)線標(biāo)志語(yǔ)言(WML)被應(yīng)用于創(chuàng)建頁(yè)面,這些頁(yè)面可以用WAP來(lái)傳送。一些WAP網(wǎng)關(guān)允許WAP使用者使用WML訪問(wèn)數(shù)量有限的HTTP服務(wù)器。這種語(yǔ)言主要用于窄帶無(wú)線設(shè)備,如PDA和移動(dòng)電話,并且允許顯示W(wǎng)eb頁(yè)面上的文本。
互連網(wǎng)的內(nèi)容主要是使用超文本標(biāo)記語(yǔ)言(HTML)的形式來(lái)寫的。是一個(gè)代碼(由多個(gè)元素或多個(gè)標(biāo)記符組成)的集合,它告訴Web瀏覽器怎樣顯示W(wǎng)eb頁(yè)面上的文本和圖像。用一個(gè)過(guò)濾程序來(lái)將這些HTML頁(yè)面轉(zhuǎn)換成WML頁(yè)面。
然而,HTML頁(yè)面通常采用這樣的方法書寫,以至于需要快速連接、大帶寬、高速處理器、大容量存儲(chǔ)器、大顯示屏、音頻/視頻輸出,并且可能需要十分有效的輸入機(jī)制。另一方面,便攜式電話通常具有相對(duì)慢的處理器(10-200MHz)、小的存儲(chǔ)器(128KB-512KB)、小的屏幕(例如,320×240象素)、間歇式帶寬(WAP 3-7KB/s或者更低)和很小的要求高精度操作的小鍵盤。這樣就使得在便攜式電話上閱讀轉(zhuǎn)換而來(lái)的WML網(wǎng)頁(yè)速度慢、價(jià)格昂貴并且不方便。
發(fā)明內(nèi)容
在本說(shuō)明書,包括權(quán)利要求中,術(shù)語(yǔ)“包含”、“包括”或類似術(shù)語(yǔ)都是非排他性的包含,這樣,一種包含一些元素(元件)的方法或者設(shè)備并不只包含那些已列出的元素,還可以包含其他沒(méi)有列出的元素。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于概括網(wǎng)頁(yè)內(nèi)容的方法,這些網(wǎng)頁(yè)是在電子設(shè)備的請(qǐng)求下要提供給提供電子設(shè)備的。這包括接收一個(gè)由所述電子設(shè)備發(fā)送出的壓縮率,接收所述網(wǎng)頁(yè),從所述網(wǎng)頁(yè)中提取出文本并且根據(jù)接收到的壓縮率對(duì)提取出的文本進(jìn)行概括。
根據(jù)本發(fā)明的另一方面,提供了一種用于響應(yīng)移動(dòng)電子設(shè)備對(duì)網(wǎng)頁(yè)的請(qǐng)求,將所述網(wǎng)頁(yè)提供給所述移動(dòng)電子設(shè)備的網(wǎng)關(guān)。所述網(wǎng)關(guān)被配置成能夠接收一個(gè)由所述電子設(shè)備發(fā)送出的壓縮率,接收所述網(wǎng)頁(yè),從所述網(wǎng)頁(yè)中提取出文本并且根據(jù)接收到的壓縮率對(duì)提取出的文本進(jìn)行概括。
根據(jù)本發(fā)明的又一個(gè)方面,提供了一種帶有瀏覽器的移動(dòng)電子設(shè)備,用于通過(guò)網(wǎng)關(guān)請(qǐng)求和接收網(wǎng)頁(yè),該網(wǎng)關(guān)可以在這些網(wǎng)頁(yè)被傳送到電子設(shè)備之前對(duì)網(wǎng)頁(yè)進(jìn)行概括。移動(dòng)電子設(shè)備可以設(shè)置用于概括網(wǎng)頁(yè)的壓縮率,以便將所設(shè)置的壓縮率傳送到所述網(wǎng)關(guān)。
在上述的每一個(gè)方面中,壓縮率最好由電子設(shè)備或多個(gè)電子設(shè)備的使用者設(shè)置。
本發(fā)明提供了一種新穎的解決方案,使得無(wú)線設(shè)備可以通過(guò)WML訪問(wèn)任何HTTP服務(wù)器。
為了更好的理解本發(fā)明并且將本發(fā)明付諸實(shí)踐,下面根據(jù)附圖對(duì)優(yōu)選非限制性實(shí)施例進(jìn)行說(shuō)明,其中圖1所示是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于通過(guò)WAP下載網(wǎng)頁(yè)的常規(guī)方案的框圖;圖2所示是根據(jù)本發(fā)明的一個(gè)實(shí)施例的涉及通過(guò)WAP下載網(wǎng)頁(yè)的流程圖;圖3所示是根據(jù)本發(fā)明的一個(gè)實(shí)施例的涉及網(wǎng)頁(yè)壓縮的流程圖;圖4所示是根據(jù)本發(fā)明的一個(gè)實(shí)施例的涉及網(wǎng)頁(yè)分析的流程圖;圖5所示是根據(jù)本發(fā)明的一個(gè)實(shí)施例的涉及文本概括的流程圖;以及圖6所示是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于通過(guò)WAP下載網(wǎng)頁(yè)的移動(dòng)電話。
優(yōu)選實(shí)施例的詳細(xì)說(shuō)明在優(yōu)選實(shí)施例中,當(dāng)通過(guò)移動(dòng)設(shè)備,如移動(dòng)電話來(lái)請(qǐng)求網(wǎng)頁(yè)時(shí),請(qǐng)求要通過(guò)網(wǎng)關(guān),由網(wǎng)關(guān)對(duì)相應(yīng)的網(wǎng)頁(yè)進(jìn)行檢索。接收到網(wǎng)頁(yè)時(shí),網(wǎng)關(guān)剝?nèi)ゾW(wǎng)頁(yè)中的如廣告和標(biāo)題的不需要的信息,提取出文本和主超級(jí)鏈接并對(duì)文本進(jìn)行概括。用于概括文本的壓縮率是由移動(dòng)設(shè)備的使用者設(shè)定的,并且同網(wǎng)頁(yè)請(qǐng)求一同被發(fā)送到網(wǎng)關(guān)。被提取和壓縮的信息被轉(zhuǎn)換成WML(或者其他相應(yīng)的語(yǔ)言),以便被傳送回移動(dòng)設(shè)備。
在附圖中,相同的數(shù)字來(lái)表示相同元件。
參見(jiàn)圖1,圖中所示是一個(gè)根據(jù)本發(fā)明的用于通過(guò)WAP下載網(wǎng)頁(yè)的常規(guī)方案?,F(xiàn)在參見(jiàn)圖2對(duì)其進(jìn)行說(shuō)明,圖2所示是涉及通過(guò)WAP下載網(wǎng)頁(yè)的流程圖。使用本實(shí)施例,如果需要可以將被訪問(wèn)的網(wǎng)頁(yè)的信息量按照要求減少。
電子設(shè)備(如如可以使用WAP的移動(dòng)電話12的移動(dòng)設(shè)備)的使用者將設(shè)備開(kāi)啟并對(duì)其進(jìn)行操作。這就啟動(dòng)了這個(gè)過(guò)程(步驟S100)。使用者將一個(gè)統(tǒng)一資源定位器(URL)形式的網(wǎng)頁(yè)地址輸入到設(shè)備中的瀏覽器中(步驟S102)。使用者還要設(shè)定他所希望的要生成的網(wǎng)頁(yè)概括的壓縮率。移動(dòng)電話通過(guò)無(wú)線數(shù)據(jù)網(wǎng)16用WAP堆棧將HTTP請(qǐng)求傳送給WAP網(wǎng)關(guān)14(步驟S104)。網(wǎng)關(guān)14將網(wǎng)頁(yè)請(qǐng)求轉(zhuǎn)換成超文本傳輸協(xié)議(HTTP),并且通過(guò)互連網(wǎng)20將其傳送給服務(wù)器18(步驟S106),在服務(wù)器18中存儲(chǔ)了相關(guān)的網(wǎng)頁(yè)。然后,被請(qǐng)求的網(wǎng)頁(yè)被下載(步驟S108)并且使用HTTP被發(fā)送回網(wǎng)關(guān)14,并且網(wǎng)頁(yè)仍然是HTML形式的。
當(dāng)接收到HTML網(wǎng)頁(yè)時(shí),在WAP網(wǎng)關(guān)14中的概括引擎對(duì)其中的信息進(jìn)行概括(如后面所描述的)并產(chǎn)生一個(gè)WML頁(yè)(步驟S110)。然后將WML頁(yè)壓縮并被WAP協(xié)議堆棧通過(guò)無(wú)線數(shù)據(jù)網(wǎng)16傳送回移動(dòng)電話12(步驟S112)。移動(dòng)電話12上的本地瀏覽器對(duì)WML頁(yè)進(jìn)行解析并且進(jìn)行顯示(步驟S114)。如果后面又請(qǐng)求一個(gè)新的網(wǎng)頁(yè)(步驟S116),例如通過(guò)一個(gè)下載頁(yè)上的鏈接,那么將這個(gè)過(guò)程重復(fù)。否則,將終止這個(gè)過(guò)程(步驟S118)。
本發(fā)明特別涉及在網(wǎng)關(guān)14減少網(wǎng)頁(yè)中的信息量,并且涉及WML頁(yè)的產(chǎn)生(步驟S110)。其目的是使得WAP設(shè)備可以瀏覽幾乎任意一個(gè)HTTP服務(wù)器。下面將參照?qǐng)D3說(shuō)明一些由概括引擎執(zhí)行的步驟的子步驟。為了將信息包含進(jìn)WML頁(yè)而進(jìn)行的信息簡(jiǎn)化有幾個(gè)階段。在本實(shí)施例中有四個(gè)階段,盡管在本發(fā)明的不同實(shí)施例中他們的不同部分可以省略。
概括引擎首先執(zhí)行一個(gè)網(wǎng)頁(yè)清理任務(wù),去除大部分廣告、無(wú)用鏈接、標(biāo)題等形式的無(wú)用、不需要的信息和垃圾(步驟S202)。其次,根據(jù)多媒體信息,如圖片的內(nèi)容,將他們轉(zhuǎn)換成文本(步驟S204)。第三,用自動(dòng)HTML輪廓分析從復(fù)雜HTML頁(yè)中提取出主鏈接和文本信息(步驟S206)。然后用文本概括將文本信息壓縮成概括,以便將網(wǎng)頁(yè)內(nèi)的長(zhǎng)文本內(nèi)容縮減成幾個(gè)句子,同時(shí)保持原始頁(yè)面的主要思想(步驟S208)。文本概括功能將長(zhǎng)文本信息壓縮至更適合于在小屏幕上顯示的長(zhǎng)度。這樣,使得用戶可能在移動(dòng)設(shè)備12上設(shè)置壓縮率,以對(duì)整體長(zhǎng)度進(jìn)行一些控制。
一旦概括引擎已經(jīng)生成了概括,網(wǎng)關(guān)就將這個(gè)概括轉(zhuǎn)換成WML頁(yè)并且將WML頁(yè)壓縮為一個(gè)更緊湊的形式,以便節(jié)省空間中的帶寬并且進(jìn)一步減少電話的處理需求。這最后的壓縮是可能的,因?yàn)檫@些WML頁(yè)都是文本信息。在服務(wù)器端采用數(shù)據(jù)壓縮算法和方法來(lái)對(duì)信息進(jìn)行編碼,并且在移動(dòng)電話端對(duì)信息進(jìn)行解碼。
該實(shí)施例中的電子設(shè)備12允許使用者決定是否需要概括。這樣,這種概括就成為在任何下載中的可選項(xiàng)。如果使用者想瀏覽HTML頁(yè)的所有原始文本,WAP網(wǎng)關(guān)14也支持這個(gè)請(qǐng)求。
網(wǎng)頁(yè)清理(步驟S202)HTML頁(yè)上的某些無(wú)關(guān)和不需要的信息(例如廣告、無(wú)用鏈接、標(biāo)題等)可能對(duì)無(wú)線訪問(wèn)的效果產(chǎn)生嚴(yán)重的有害影響。它花費(fèi)額外的時(shí)間和帶寬并且很少被需要(如果有的話)。
因此,在被檢索的網(wǎng)頁(yè)中搜索已知的與這種信息有關(guān)的結(jié)構(gòu)。例如<!-- -->表示在HTML頁(yè)中的注釋,被刪除。
<FORM>...</FROM>“FORMS”通常指公用網(wǎng)關(guān)接口(CGI),用于執(zhí)行使用者互動(dòng),如登錄、注冊(cè)、記帳等,被刪除。
<SCRIPT>...</SCRIPT>JAVA SCRIPT通常執(zhí)行沒(méi)有網(wǎng)頁(yè)服務(wù)器支持的操作,例如取得和顯示本地時(shí)間或者驗(yàn)證使用者輸入的信息,如用戶名組成、密碼長(zhǎng)度等,被刪除。
以包含“Copyright”、、或者“All Right Reserved”的標(biāo)記為形式的著作權(quán)信息,還有位于著作權(quán)信息附近的電話號(hào)碼或者網(wǎng)絡(luò)管理員的電子郵件地址也要被刪除。
被看作是可刪除垃圾的內(nèi)容可以是不同的,如果不是上述的一種或幾種,那么就可能包含一個(gè)或者幾個(gè)其他的標(biāo)準(zhǔn)。一個(gè)使用者甚至可以定制他自己的設(shè)置來(lái)指定他通常需要拒絕的信息。
將多媒體信息轉(zhuǎn)換成文本(步驟S204)多媒體信息,例如圖片,根據(jù)其內(nèi)容被轉(zhuǎn)換為文本。
在HTML中,任何多媒體部分都必須鏈接到某一文件。因此就可以根據(jù)多媒體信息的文件擴(kuò)展名決定其類型,如表1中所示。
表1
這種轉(zhuǎn)換是通過(guò)解析整個(gè)文件名來(lái)完成的,用文件擴(kuò)展名來(lái)判斷是哪種信息,并且用具體的文件名來(lái)解釋內(nèi)容。例如,如果一個(gè)文件被命名為“Great_wall.jpeg”,這將被解釋成文本“A JPEG image of Great_wallhere”(“這是一個(gè)關(guān)于長(zhǎng)城得IPEG圖像”)。當(dāng)具體名本身沒(méi)有意義時(shí),例如,只是一串?dāng)?shù)字或在字典中沒(méi)有出現(xiàn)的一串字母,如“003.wav”,那么具體名就被忽略并且文件只被轉(zhuǎn)換成“a WAV audio file here”(“這是一個(gè)WAV音頻文件”)。
自動(dòng)HTML輪廓分析(步驟S206)自動(dòng)HTML輪廓分析(特別是過(guò)濾不需要的信息)可以顯著的減少移動(dòng)使用者尋找和得到他們所需信息所花費(fèi)的時(shí)間和費(fèi)用。其目的是分析HTML頁(yè)的輪廓并且找出最重要的內(nèi)容或超級(jí)鏈接,以便只提供這些內(nèi)容。
根據(jù)本實(shí)施例的自動(dòng)HTML輪廓分析將網(wǎng)頁(yè)分為兩類,主超級(jí)鏈接頁(yè)和主文本頁(yè)。對(duì)于超級(jí)鏈接頁(yè),根據(jù)超級(jí)鏈接在頁(yè)面中的位置和寬度提取出最重要的超級(jí)鏈接。對(duì)于主文本頁(yè),則只提取出標(biāo)題和文本。
用于執(zhí)行輪廓分析功能的程序可以作為動(dòng)態(tài)鏈接庫(kù)(DLL)來(lái)執(zhí)行,并在需要時(shí)被引入。
圖4所示是自動(dòng)HTML輪廓分析操作的簡(jiǎn)單流程圖。在步驟S302,由于版面的要求,網(wǎng)頁(yè)被標(biāo)準(zhǔn)化。在步驟S304,網(wǎng)頁(yè)被分類主超級(jí)鏈接頁(yè)面或者主文本頁(yè)。如果網(wǎng)頁(yè)是主文本頁(yè),那么將在步驟S306提取主文本或多個(gè)主文本。如果網(wǎng)頁(yè)是主超級(jí)鏈接頁(yè)面,那么將在步驟S308提取主超級(jí)鏈接或多個(gè)超級(jí)鏈接。在步驟S306或者S308之后,輪廓分析將結(jié)束。
標(biāo)準(zhǔn)化Web頁(yè)(S302)如果不被標(biāo)準(zhǔn)化,用HTML書寫的網(wǎng)頁(yè)是很難分析的。在本實(shí)施例中的網(wǎng)頁(yè)標(biāo)準(zhǔn)化包括兩個(gè)步驟(i)標(biāo)記大寫;以及(ii)刪除不重要的部分(i)標(biāo)記大寫-HTML并不要求用大寫字母或者小寫字母來(lái)書寫標(biāo)記。為了減少分析的難度,頁(yè)面中的每一個(gè)標(biāo)記都被轉(zhuǎn)換成大寫字母(如果不是已經(jīng)為大寫字母)。
(ii)刪除不重要部分-頁(yè)面中的(多個(gè))不重要部分,正如表2中所列舉的那樣,會(huì)干擾分析。為了避免這種干擾,在標(biāo)準(zhǔn)化步驟中將它們刪除。表2中,在“Begin”和“End”之間的任何內(nèi)容都被刪除。
表2-實(shí)例性不重要部分
網(wǎng)頁(yè)分類(S304)區(qū)別網(wǎng)頁(yè)類型依賴于將“text”的字節(jié)數(shù)(長(zhǎng)度)和超級(jí)鏈接的字節(jié)數(shù)(長(zhǎng)度)相比較。如果前者較長(zhǎng),則將其分類到主文本頁(yè)。否則,將其分類到主超級(jí)鏈接頁(yè)面。為此,用“text”來(lái)表示任何沒(méi)有被標(biāo)記包含圍并且是文本信息主體的一部分的信息。另一方面,如果所有大的文本主體都被從HTML頁(yè)中提取出去,那么“hyperlink”則指余下的內(nèi)容。
提取主文本頁(yè)(S308)這包括取出所有網(wǎng)頁(yè)中的文本。這可以包括對(duì)剩余在文件中的一些標(biāo)記的解析,并且刪除所有除了新段落標(biāo)記和回車符外的標(biāo)記。盡管那樣,冗余的回車符、空格和制表符形式的冗余字節(jié)也都應(yīng)該被刪除。所生成的最終文本文件也包含已編碼的字符轉(zhuǎn)換(例如“&amp”為“&”、“&lt”為“<”、“&gt”為“>”、“&qout”為““”、“&nbsp”為一個(gè)空格)。
在本例中,滿足如下規(guī)則的字符串被看作是“text”(a)沒(méi)有被標(biāo)記包圍;(b)該文本的字節(jié)數(shù)大于最小值(例如100);(c)只包含特定允許標(biāo)記(如,<A>、<B>、<BR>、<I>、<P>、<SUB>、<SUP>、<U>、<UL>),即使如此,他們只占一小部分,例如在字符串中所有這些標(biāo)記的字節(jié)總數(shù)不超過(guò)該字符串字節(jié)總數(shù)的40%;(d)如果文本的長(zhǎng)度不超過(guò)最小長(zhǎng)度(例如500字節(jié)),那么在一個(gè)文本中的超級(jí)鏈接個(gè)數(shù)不應(yīng)超過(guò)一個(gè)具體數(shù)值(例如5)。
提取主超級(jí)鏈接頁(yè)面(S310)主超級(jí)鏈接的提取是根據(jù)他們?cè)诰W(wǎng)頁(yè)中的位置進(jìn)行的。不同的相應(yīng)標(biāo)記包含寬度屬性。如果超級(jí)鏈接具有很多字符(例如100),并且它位于頁(yè)面的中心,那么在這個(gè)意義上它就是一個(gè)主超級(jí)鏈接。對(duì)于任何一個(gè)這樣的主超級(jí)鏈接,將該超級(jí)鏈接取出、標(biāo)準(zhǔn)化為一個(gè)具體格式,并且將其與其附加信息一同存儲(chǔ)在一個(gè)陣列中。對(duì)于這樣的頁(yè)面,沒(méi)有必要提取任何文本主體。相反,通常只有超級(jí)鏈接被提取出并被用來(lái)組成一個(gè)應(yīng)用于移動(dòng)設(shè)備的WML頁(yè)。
提供被提取出的文本和超級(jí)鏈接用于包含于WML頁(yè)中。如果需要,可以首先用文本概括模塊對(duì)文本進(jìn)行概括。
文本概括(S208)文本概括是由一個(gè)能夠自動(dòng)產(chǎn)生網(wǎng)頁(yè)文本概括的模塊來(lái)完成的,例如用前面所述的自動(dòng)HTML輪廓分析來(lái)進(jìn)行提取。概括步驟能夠極大的壓縮所顯示的網(wǎng)頁(yè)文本內(nèi)容,這樣就極大的減少了對(duì)數(shù)百字節(jié)數(shù)據(jù)的轉(zhuǎn)換和移交工作。文本概括為移動(dòng)環(huán)境提供更多的精煉信息。對(duì)于移動(dòng)設(shè)備使用者,這樣的好處就是他不必閱讀小屏幕上的數(shù)百行文字就可以得到他想要知道的信息要點(diǎn),更加快捷和便宜。對(duì)于網(wǎng)絡(luò)來(lái)說(shuō),由于傳送比較少的數(shù)據(jù),因此減少了過(guò)載的風(fēng)險(xiǎn)。
當(dāng)文本主體過(guò)長(zhǎng)時(shí),可以用文本概括來(lái)減小文本主體的長(zhǎng)度,這樣做的前提是該文本是用來(lái)在移動(dòng)設(shè)備的小屏幕上顯示的。在本實(shí)施例中,使用者可以在0至1(與原始文本長(zhǎng)度相比)之間選擇壓縮率,例如表明文本概括的長(zhǎng)度應(yīng)該是源文本長(zhǎng)度的30%。
圖5所示是文本概括如何操作的簡(jiǎn)單流程圖。將文本輸入(步驟S402)并且預(yù)處理(步驟S404),使其盡量規(guī)格化。這要考慮到不同的人進(jìn)行不同的格式化(用來(lái)去除額外的空格和行);雙字節(jié)字符(如中文文本)和單字節(jié)字符(如英文文本)的混和;同一標(biāo)記的不同用法,如“.”,被用作文本標(biāo)點(diǎn)(作為句號(hào)或者省略號(hào)的一部分“so long...”)、在數(shù)字中作為小數(shù)點(diǎn)、在IP地址中(10.193.147.254)、在電子郵件地址中(a.b@c.com)、在URL地址中(www.motorola.com)、在縮寫中(Prof.、Dr.、St.Louis)或者在編號(hào)方式中(“1.1.Introduction)作為下標(biāo)或者間隔符號(hào),可以適當(dāng)?shù)母淖優(yōu)榱硗獾姆?hào);或者其他的類似的考慮。
對(duì)文本結(jié)構(gòu)進(jìn)行分析(步驟S406),以便識(shí)別和標(biāo)注句和段落,并確定他們的長(zhǎng)度和位置。然后對(duì)文本進(jìn)行斷字(例如對(duì)于中文來(lái)說(shuō))或者尋找詞干和構(gòu)詞法(例如對(duì)于英文來(lái)說(shuō))(步驟S408)。例如在中文中,在兩個(gè)字之間沒(méi)有看得見(jiàn)的字邊界的地方需要進(jìn)行斷字。尋找詞干的過(guò)程進(jìn)行兩個(gè)詞的比較,例如具有相同詞干“scien”的“science”和“scientific”就很相似。構(gòu)詞法處理是需要的,因?yàn)橛⑽脑~具有不同的變形,例如“books”是“book”的復(fù)數(shù)形式、“eating”是“eat”的現(xiàn)在分詞。需要恢復(fù)基本的“book”和“eat”,以便進(jìn)行頻率統(tǒng)計(jì)和詞的權(quán)重。斷字或者尋找詞干和構(gòu)詞法(步驟S408)是參考字典和/或辭典數(shù)據(jù)庫(kù)30而進(jìn)行的。在進(jìn)行斷字或者尋找詞干和構(gòu)詞法(步驟S408)之后,要對(duì)這些通過(guò)斷字或其他方法識(shí)別的字進(jìn)行計(jì)數(shù)(步驟S410),以便確定它們的發(fā)生頻率。
在斷字或者尋找詞干和構(gòu)詞法(步驟S408),以及對(duì)識(shí)別出的詞進(jìn)行計(jì)數(shù)(步驟S410)的同時(shí),還要決定高頻字符串統(tǒng)計(jì)(步驟S412)。該步驟對(duì)文本內(nèi)的子字符串進(jìn)行計(jì)數(shù)并決定它們的頻率,以便推測(cè)出沒(méi)有在辭典或字典沒(méi)有出現(xiàn)過(guò)的“新”詞,例如名字。對(duì)于這種字,該過(guò)程決定它們的頻率,以便幫助建立權(quán)重。
在斷句(或者尋找詞干和構(gòu)詞法)(步驟S408)和對(duì)已識(shí)別字的計(jì)數(shù)(步驟S410)和高頻字符串統(tǒng)計(jì)(步驟S412)之后,對(duì)文本內(nèi)的詞類進(jìn)行標(biāo)記(步驟S414)并提取出關(guān)鍵詞(步驟S416)。最后這兩步還要參考字典和/或辭典數(shù)據(jù)庫(kù)30而進(jìn)行。置標(biāo)記是有用的,因?yàn)槟承┰~類,例如代詞和介詞,在文本概括中的使用非常有限。而重點(diǎn)在名詞、動(dòng)詞、副詞和形容詞上。提取關(guān)鍵詞(步驟S416)包含查找通常與重要信息有關(guān)的詞,例如“爆炸”、“殺死”、“謀殺”。
對(duì)詞和句子進(jìn)行加權(quán)(步驟S418),并且選出用于產(chǎn)生最終概括(步驟S420)的句子。詞或句子的權(quán)重依賴于早先的分析、斷句或者頻率確定、詞類標(biāo)記的設(shè)置和關(guān)鍵詞的提取的結(jié)果。更加具體地說(shuō),詞的權(quán)重依賴于其長(zhǎng)度、使用頻率、是什么詞類和在句子中的位置。
一個(gè)句子的權(quán)重依賴于其長(zhǎng)度、其中的詞的權(quán)重之和、其位置和它是否包含表明其可能相關(guān)性的詞或短語(yǔ)。如果具有表明它具體的與文本的主題事件(例如具有如“本文”或者“總之”的短語(yǔ))相關(guān)的詞或短語(yǔ),那么它將具有更大的權(quán)重。如果具有表明它并不具體的與文本的主題事件(例如具有如“例如”的短語(yǔ))相關(guān)的詞或短語(yǔ),那么它將具有更小的權(quán)重。
在句子選擇中(步驟S420),采用使用者所選擇的壓縮率。給定某一壓縮率R,則目標(biāo)概括長(zhǎng)度L為L(zhǎng)=R*原始文本長(zhǎng)度.
另外,選定句子Si,使句子Si的任意子集將滿足下面的兩個(gè)條件(1)L(Si)的和與L之差的絕對(duì)值被最小化|∑L(Si)-L|=min(2)對(duì)于那些相同的句子W(Si)之和被最大化∑W(Si)=max其中,L(Si)代表Si的長(zhǎng)度,W(Si)代表Si的權(quán)重。
將被選句子鏈接起來(lái)以得到一個(gè)大致的概括(步驟S422),然后對(duì)其進(jìn)行平滑(步驟S424)和輸出(步驟S426)。平滑過(guò)程包含將概括分為段落,這樣就沒(méi)有了過(guò)長(zhǎng)的段落。該過(guò)程還可以包括去除相對(duì)不重要的形容詞、去除在同一句子的結(jié)果從句中出現(xiàn)的原因從句,以及類似的東西。
可以設(shè)置一個(gè)具體的壓縮率,例如30%,為默認(rèn)值,使用者可以根據(jù)需要改變。另一個(gè)功能允許使用者選擇是否總需要文本概括,或者只有當(dāng)原始文本比某個(gè)最小值,例如大于30個(gè)詞時(shí),才需要。具體概括壓縮率還可以被設(shè)置成只應(yīng)用于長(zhǎng)度超過(guò)產(chǎn)生最小值的文本的長(zhǎng)度的文本。例如,如果壓縮率是30%,并且最小值是30個(gè)詞,那么只對(duì)100個(gè)詞或者更長(zhǎng)的文本用30%的壓縮率進(jìn)行壓縮。對(duì)于任何低于這個(gè)最小值的文本,在這個(gè)例子中就是30個(gè)詞或者更少,將不會(huì)被減少。對(duì)于任何介于這個(gè)最小值和用現(xiàn)在的壓縮率將要產(chǎn)生最小值的文本長(zhǎng)度之間的文本,在這個(gè)例子中就是31至99個(gè)詞,概括將把文本減少到最小值,也就是30個(gè)詞。
最好采用前面所述的文本概括過(guò)程,但在這個(gè)包含文本概括的發(fā)明中,并不是對(duì)所有的方面都是必須的。也可以采用其他的概括過(guò)程來(lái)代替,例如只采用步驟S406、S408、S418、S422和S426。也可以采用其他的組合。概括過(guò)程可以如如下任何一個(gè)文章所論述[1]H.P.Luhn,The automatic creation of literature abstracts.IBMJournal of Research and Development,2(2)159-165,1959;[2]Edmundson H.P.New methods in automatic abstracting,Journalof the Association for Computing Machinery.16(2)264-285,1969;[3]Kupiec,J.Pedersen,J.and Chen,F(xiàn).,A trainable documentsummarizer.In Proceeding of the 18th ACM-SIGIR conference.1995年;[4]S.Teufel,M.Moens,Sentence Extraction as a Classification Task,Workshop‘Intelligent and scalable Text summarization’,ACL/EACL 1997.July 1997;以及[5]Hovy,E.,Lin,C-Y。Automated Text Summarization inSUMMARIST.In Advances in Automatic Text Summarization,I Maini andM.T.Maybury(eds.),81-94,Cambridge,MassachusettsMIT Press,1999.
還可以對(duì)已知的過(guò)程,如上面的參考文章[1],進(jìn)行修改,例如在步驟S420中討論的那樣,在決定要選的句子時(shí)允許使用不同的壓縮率。
然后,與任何已轉(zhuǎn)換的多媒體信息、任何提取出的超級(jí)鏈接和任何已經(jīng)概括和未概括的已提取文本相結(jié)合產(chǎn)生WML頁(yè)面。已轉(zhuǎn)換的多媒體信息來(lái)自多媒體信息轉(zhuǎn)換步驟(S204)。已經(jīng)提取出的超級(jí)鏈接來(lái)自主超級(jí)鏈接頁(yè)面提取步驟(S310)。已經(jīng)提取出的文本來(lái)自主超級(jí)鏈接頁(yè)面提取步驟(S310)或者主文本頁(yè)提取步驟(S308),不管是否然后在文本概括步驟(S208)進(jìn)行概括。然后將這個(gè)WML頁(yè)壓縮并發(fā)送。
參見(jiàn)圖6,其中所示是一個(gè)根據(jù)本發(fā)明至少一個(gè)實(shí)施例的無(wú)線電話51。該無(wú)線電話51具有一個(gè)與處理器53相連接并與其進(jìn)行通信的射頻通信單元52。屏幕54和小鍵盤55形式的輸入接口也與處理器53相連接并與之通信。小鍵盤55或屏幕54可以被用于設(shè)定在文本壓縮步驟(圖3中的S208)和圖5中的句子選擇步驟(S420)使用的壓縮率。
處理器53包含一個(gè)帶有一個(gè)只讀存儲(chǔ)器(ROM)57的編碼/解碼器56,只讀存儲(chǔ)器存儲(chǔ)用于編碼和解碼可由無(wú)線電話51發(fā)送和接收的音頻或者其他信號(hào),如WAP信號(hào),的數(shù)據(jù)。處理器53還包括一個(gè)微處理器58,它通過(guò)公共數(shù)據(jù)地址總線59與編碼/解碼器56、相關(guān)字符只讀存儲(chǔ)器(ROM)60、隨機(jī)存儲(chǔ)器(RAM)61、一個(gè)靜態(tài)可編程存儲(chǔ)器62和一個(gè)可拆裝SIM模塊63連接。靜態(tài)可編程存儲(chǔ)器62和可拆裝SIM模塊63都可以在執(zhí)行其他功能之外存儲(chǔ)一個(gè)用于通過(guò)WAP網(wǎng)關(guān)進(jìn)行互連網(wǎng)接入的WAP瀏覽器和已選的輸入文本消息以及電話號(hào)碼的電話本數(shù)據(jù)庫(kù)。
微處理器58具有用于和小鍵盤55、屏幕54、包含振動(dòng)電機(jī)和相關(guān)驅(qū)動(dòng)器的報(bào)警模塊64、麥克風(fēng)65和揚(yáng)聲器66連接的端口。
字符ROM 60存儲(chǔ)用于解碼和編碼文本消息的數(shù)據(jù),這些消息可以是從小鍵盤55輸入,并由通信單元52接收的。字符ROM 60還存儲(chǔ)微處理器58的操作碼(OC)。
射頻通信單元52是一個(gè)具有公用天線67的組合接收器和發(fā)送器。通信單元52具有一個(gè)通過(guò)射頻放大器69和天線67耦合的發(fā)送接收器68。發(fā)送接收器68還與將通信單元52和處理器53相連的組合調(diào)制/解調(diào)器70相連。
本發(fā)明使得無(wú)線設(shè)備可以有效的瀏覽HTTP網(wǎng)站。它提供了一種新的網(wǎng)關(guān)系統(tǒng)和一個(gè)新的瀏覽器,使得使用者可以設(shè)置文本壓縮率。實(shí)施例中的新網(wǎng)關(guān)不僅具有傳統(tǒng)WAP網(wǎng)關(guān)的所有特點(diǎn),還采用了自動(dòng)HTML輪廓分析功能來(lái)慮除不需要的垃圾信息,還采用了文本概括引擎來(lái)壓縮文本信息??梢詫⒃摼W(wǎng)關(guān)系統(tǒng)安裝在WAP服務(wù)提供商的服務(wù)器上。移動(dòng)設(shè)備上的瀏覽器是一個(gè)微型瀏覽器,它小到可以通過(guò)無(wú)線數(shù)據(jù)網(wǎng)將其下載到無(wú)線設(shè)備上。整個(gè)系統(tǒng)擴(kuò)大了移動(dòng)電話和其它合適的移動(dòng)設(shè)備可以訪問(wèn)的網(wǎng)頁(yè)范圍,同時(shí)減少了使用者在無(wú)線通信上需要花費(fèi)的時(shí)間和金錢(用于用戶得到他所需要的信息)。
實(shí)施例中的概括網(wǎng)關(guān)是一個(gè)獨(dú)立系統(tǒng),它使得WAP設(shè)備可以瀏覽現(xiàn)在的HTTP服務(wù)器。概括引擎還可以被用于其他的基于服務(wù)器的應(yīng)用程序中或者和其他應(yīng)用程序結(jié)合使用。例如,可以和一個(gè)電子郵件交換服務(wù)器結(jié)合來(lái)將長(zhǎng)電子郵件壓縮為短電子郵件。
本發(fā)明與現(xiàn)有WAP網(wǎng)關(guān)不同的優(yōu)勢(shì)還在于它能夠提供如下功能在WAP和HTTP協(xié)議之間進(jìn)行轉(zhuǎn)換;
濾除潛在的不需要信息;將非文本信息轉(zhuǎn)換為文本信息;自動(dòng)對(duì)HTML頁(yè)的輪廓進(jìn)行分析;將長(zhǎng)文本壓縮為短概括;以及以WAP形式反饋概括。
上述詳細(xì)說(shuō)明只提供了一個(gè)優(yōu)選示范性的實(shí)施例,并打算限制本發(fā)明的范圍、應(yīng)用、或者配置。相反,該優(yōu)選示范性的實(shí)施例的詳細(xì)說(shuō)明給本領(lǐng)域技術(shù)人員提供了可以用于實(shí)現(xiàn)本發(fā)明優(yōu)選示范性的實(shí)施例的描述。應(yīng)該明白,在不脫離所附權(quán)利要求中列出的本發(fā)明的精神和范圍的前提下,可以對(duì)本發(fā)明中要素的功能和配置進(jìn)行不同的修改。
權(quán)利要求
1.一種用于概括網(wǎng)頁(yè)內(nèi)容的方法,該網(wǎng)頁(yè)是在電子設(shè)備的請(qǐng)求下提供的,該方法包括從所述電子設(shè)備接收一個(gè)壓縮率;接收所述網(wǎng)頁(yè);從所述網(wǎng)頁(yè)中提取出文本;以及根據(jù)接收到的壓縮率對(duì)提取出的文本進(jìn)行概括。
2.根據(jù)權(quán)利要求1的方法,還包括使用者在所述電子設(shè)備中設(shè)定所述壓縮率。
3.根據(jù)權(quán)利要求1的方法,還包括從所述網(wǎng)頁(yè)中提取出超級(jí)鏈接。
4.根據(jù)權(quán)利要求1的方法,還包括清理廣告網(wǎng)頁(yè)的內(nèi)容。
5.根據(jù)權(quán)利要求1的方法,還包括清理標(biāo)題網(wǎng)頁(yè)的內(nèi)容。
6.根據(jù)權(quán)利要求1的方法,還包括將網(wǎng)頁(yè)中的圖像數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)。
7.根據(jù)權(quán)利要求1的方法,還包括產(chǎn)生包含概括文本的WML頁(yè)。
8.一種用于響應(yīng)移動(dòng)電子設(shè)備對(duì)網(wǎng)頁(yè)的請(qǐng)求,將所述網(wǎng)頁(yè)提供給所述移動(dòng)電子設(shè)備的網(wǎng)關(guān),該網(wǎng)關(guān)被配置成從所述電子設(shè)備接收一個(gè)壓縮率;接收所述網(wǎng)頁(yè);從所述網(wǎng)頁(yè)中提取出文本;以及根據(jù)接收到的壓縮率對(duì)提取出的文本進(jìn)行概括。
9.根據(jù)權(quán)利要求8的網(wǎng)關(guān),其中該網(wǎng)關(guān)還被配置成可以從所述網(wǎng)頁(yè)中提取出超級(jí)鏈接。
10.根據(jù)權(quán)利要求8的網(wǎng)關(guān),其中該網(wǎng)關(guān)還被配置成可以清理所述廣告網(wǎng)頁(yè)的內(nèi)容。
11.根據(jù)權(quán)利要求8的網(wǎng)關(guān),其中該網(wǎng)關(guān)還被配置成可以清理所述標(biāo)題網(wǎng)頁(yè)的內(nèi)容。
12.根據(jù)權(quán)利要求8的網(wǎng)關(guān),其中該網(wǎng)關(guān)還被配置成可以將網(wǎng)頁(yè)中的圖像數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)。
13.根據(jù)權(quán)利要求8的網(wǎng)關(guān),其中該網(wǎng)關(guān)還被配置成可以接收HTML網(wǎng)頁(yè),并提供作為WML頁(yè)的已概括文本,以便傳送給所述移動(dòng)設(shè)備。
14.一種帶有一個(gè)瀏覽器的移動(dòng)電子設(shè)備,用于通過(guò)網(wǎng)關(guān)請(qǐng)求和接收網(wǎng)頁(yè),該網(wǎng)關(guān)可以在這些網(wǎng)頁(yè)被傳送到電子設(shè)備之前對(duì)網(wǎng)頁(yè)進(jìn)行概括,其中所述移動(dòng)電子設(shè)備可以用來(lái)設(shè)置用于概括網(wǎng)頁(yè)的壓縮率;以及所述移動(dòng)電子設(shè)備可以將所設(shè)置的壓縮率傳送到所述網(wǎng)關(guān)。
15.根據(jù)權(quán)利要求14的設(shè)備,其中所述壓縮率可以直接由設(shè)備使用者改變。
全文摘要
一種用于網(wǎng)頁(yè)概括的網(wǎng)關(guān),當(dāng)使用如移動(dòng)電話等的移動(dòng)設(shè)備請(qǐng)求網(wǎng)頁(yè)時(shí),該請(qǐng)求將通過(guò)網(wǎng)關(guān),該網(wǎng)關(guān)檢索出相關(guān)網(wǎng)頁(yè)。接收到網(wǎng)頁(yè)時(shí),網(wǎng)關(guān)剝?nèi)ゲ恍枰男畔?,如廣告和標(biāo)題,提取出文本和主超級(jí)鏈接并概括該文本。用于概括文本的壓縮率是由移動(dòng)設(shè)備的使用者設(shè)定并和網(wǎng)頁(yè)請(qǐng)求一起被傳送到網(wǎng)關(guān)的。提取和壓縮信息被轉(zhuǎn)化為WML(或者其他的相關(guān)語(yǔ)言),以便發(fā)送回移動(dòng)設(shè)備。
文檔編號(hào)H04M1/725GK1592280SQ03156319
公開(kāi)日2005年3月9日 申請(qǐng)日期2003年9月1日 優(yōu)先權(quán)日2003年9月1日
發(fā)明者韓客松, 黃建成 申請(qǐng)人:摩托羅拉公司