專利名稱:基于上下文的書(shū)簽的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對(duì)用戶訪問(wèn)的資源設(shè)置書(shū)簽以及使用該書(shū)簽的方法和 裝置。
背景技術(shù):
眾所周知,萬(wàn)維網(wǎng)或因特網(wǎng)是支持超文本標(biāo)注語(yǔ)言格式(HTML ) 的文檔的服務(wù)器系統(tǒng)。HTML支持通向文檔以及圖形、音頻和視頻文 件等的鏈接。從其它文檔引用指向文檔的鏈接,該鏈接允許用戶僅僅 通過(guò)鼠標(biāo)點(diǎn)擊容易地從一個(gè)文檔或Web頁(yè)轉(zhuǎn)入另 一個(gè)文檔或Web頁(yè)。 因此鏈接是非常有用的因特網(wǎng)導(dǎo)航工具。文檔或Web頁(yè)可被互換使 用。
另一個(gè)有用的因特網(wǎng)導(dǎo)航工具是書(shū)簽。書(shū)簽應(yīng)用在大部分Web 瀏覽器中,Web瀏覽器是用于定位Web站點(diǎn)并顯示W(wǎng)eb頁(yè)的軟件應(yīng) 用程序。在Web瀏覽器中,書(shū)簽允許用戶在文件夾例如書(shū)簽文件夾中 存儲(chǔ)Web地址或Web頁(yè)的URL (統(tǒng)一資源定位符)來(lái)指定協(xié)議如 HTTP或FTP以及對(duì)象、文檔、萬(wàn)維網(wǎng)網(wǎng)頁(yè)或其他目標(biāo)在Internet 或Intranet上的位置,以l更隨后訪問(wèn)。
當(dāng)用戶在訪問(wèn)那些希望以后再訪問(wèn)的Web頁(yè)時(shí)可以對(duì)該Web頁(yè) 設(shè)置書(shū)簽。但是當(dāng)隨后訪問(wèn)該Web頁(yè)時(shí),該Web頁(yè)經(jīng)常從其開(kāi)端開(kāi) 始顯示。如果用戶希望返回到Web頁(yè)的中間或結(jié)尾時(shí)需要向下滾動(dòng)滾 動(dòng)條來(lái)找尋相關(guān)段落,這個(gè)過(guò)程非常費(fèi)力,尤其是當(dāng)顯示的文檔很大 時(shí)。
因此需要使書(shū)簽具有顯示訪問(wèn)對(duì)象的特定部分的功能?,F(xiàn)有技術(shù) 中針對(duì)Office文檔等可編輯文檔提供了利用光標(biāo)的位置設(shè)置書(shū)簽的功 能。具體地在定位書(shū)簽時(shí),編輯者需要將光標(biāo)移動(dòng)到可編輯文檔中希
望設(shè)置書(shū)簽的位置進(jìn)行書(shū)簽設(shè)置,從而在其它可編輯文檔中以UNC 路徑(通用命名規(guī)則)引用該書(shū)簽時(shí)可以顯示已設(shè)置書(shū)簽的文檔的特 定部分。
但是這種可以指向?qū)ο蟮奶囟ú糠值臅?shū)簽的設(shè)置取決于光標(biāo)的位 置,其書(shū)簽系統(tǒng)要求指出書(shū)簽所在的光標(biāo)位置。對(duì)于可編輯文檔,這 是自然的,但是對(duì)于網(wǎng)頁(yè)以及其它不可編輯文檔例如只讀PDF卻無(wú)法 做到這一點(diǎn)。現(xiàn)在隨著網(wǎng)站提供的電子書(shū)籍以及軟件材料的普及,希 望提出一種對(duì)這些不可編輯文檔設(shè)置書(shū)簽的新書(shū)簽技術(shù)。
業(yè)界也曾提出了對(duì)網(wǎng)頁(yè)的各種解決方案。例如US2004/0205543A1 公開(kāi)了允許用戶在設(shè)置書(shū)簽時(shí),在存儲(chǔ)頁(yè)面URL的同時(shí)還存儲(chǔ)顯示 該頁(yè)面的窗口的尺寸、該窗口內(nèi)的水平和垂直滾動(dòng)塊的位置以及用于 顯示該頁(yè)面的字體屬性,這樣在重新訪問(wèn)設(shè)置了書(shū)簽的Web頁(yè)時(shí)允許 僅僅顯示具體的頁(yè)面部分。US6219679B1教導(dǎo)了使用顯示區(qū)域左上角 位置和右下角位置的坐標(biāo)對(duì)作為書(shū)簽定位符的一部分,由此限定了再 訪問(wèn)時(shí)顯示的頁(yè)面部分。
發(fā)明內(nèi)容
考慮到以上的現(xiàn)有技術(shù),本發(fā)明致力于解決現(xiàn)有技術(shù)中利用光標(biāo)、 坐標(biāo)等可定位信息設(shè)置書(shū)簽的缺陷,提出一種既可為不可編輯文檔設(shè) 置書(shū)簽、還可為可編輯文檔設(shè)置書(shū)簽的技術(shù)方案。
根據(jù)本發(fā)明的一個(gè)方面, 一種在數(shù)據(jù)處理系統(tǒng)中對(duì)資源的特定部 分設(shè)置書(shū)簽的方法,包括如下步驟
響應(yīng)對(duì)資源的當(dāng)前屏幕設(shè)置書(shū)簽的請(qǐng)求,對(duì)資源的當(dāng)前屏幕的實(shí) 際文本采集屏幕上下文信息;以及
存儲(chǔ)所述資源的地址信息和屏幕上下文信息作為用于返回所述資 源特定部分的書(shū)簽。
本發(fā)明提出通過(guò)采集屏幕上下文信息來(lái)反映顯示屏幕的文檔內(nèi)容 和結(jié)構(gòu),將此屏幕上下文信息作為書(shū)簽的一部分內(nèi)容,由此在再次訪 問(wèn)設(shè)置了書(shū)簽的資源內(nèi)容時(shí)可以利用已記錄的屏幕上下文信息與再次
訪問(wèn)的資源內(nèi)容相比較,從而選定所下載的資源的特定部分。
其中根據(jù)用戶輸入或從存儲(chǔ)單元獲取的一定的采集率對(duì)資源的當(dāng)
前屏幕采集屏幕上下文信息。
所述屏幕上下文信息可以包括文本定位器元件,例如當(dāng)前屏幕中
的第一個(gè)詞、某個(gè)特定詞或者第一段;還可包括用于輔助文本定位器 元件定位文檔的文本定位輔助信息,例如行號(hào)、段落號(hào)、屏幕分辨率 和/或文本布置和顯示方式中的至少之一。
優(yōu)選地,本發(fā)明的對(duì)資源設(shè)置書(shū)簽的方法還包括對(duì)資源的實(shí)際文 本編寫(xiě)摘要信息的步驟,并且存儲(chǔ)所述編寫(xiě)的摘要信息作為所述書(shū)簽
的一部分。對(duì)當(dāng)前屏幕編寫(xiě)摘要的步驟可以包括根據(jù)預(yù)定的采集率對(duì) 當(dāng)前屏幕編寫(xiě)摘要的步驟。
根據(jù)本發(fā)明的另一方面, 一種根據(jù)設(shè)置的書(shū)簽提供資源的特定部 分的方法,所述書(shū)簽包括地址信息和通過(guò)采集所述資源特定部分獲得
的屏幕上下文信息,所述方法包括如下步驟
響應(yīng)用戶重新打開(kāi)資源的請(qǐng)求,將由所述地址信息識(shí)別的資源內(nèi)
容下載到存儲(chǔ)器;
對(duì)下載的資源內(nèi)容采集屏幕上下文信息,和 比較所下載資源內(nèi)容的屏幕上下文信息和所述書(shū)簽指示的屏幕上
下文信息,根據(jù)模糊匹配的規(guī)則選定所下載的資源的特定部分并在顯 示窗口中顯示所選定的資源特定部分。
類(lèi)似地,所述對(duì)下載的資源內(nèi)容采集屏幕上下文信息的步驟包括 使用相同的預(yù)定采集率對(duì)下栽的資源內(nèi)容采集屏幕上下文信息。
另外,所述書(shū)簽的屏幕上下文信息包括文本定位器元件,相應(yīng)地 所述使用預(yù)定采集率對(duì)下載的資源內(nèi)容采集屏幕上下文信息的步驟包 括
在下載的資源內(nèi)容中檢索與所述文本定位器元件匹配的部分; 基于所述與文本定位器元件匹配的部分使用預(yù)定采集率對(duì)下載的 資源內(nèi)容采集實(shí)際文本,獲得各個(gè)用于與所述書(shū)簽的屏幕上下文信息
進(jìn)行比較的瞬態(tài)模擬屏幕。
容的步驟之后還包括:
對(duì)下載的資源內(nèi)容編制摘要信息,并且比較該摘要信息與所述書(shū) 簽指示的摘要信息,進(jìn)而判斷下載的資源內(nèi)容是否有效的步驟。
本發(fā)明還提出了一種在數(shù)據(jù)處理系統(tǒng)中對(duì)資源的特定部分設(shè)置書(shū) 簽的書(shū)簽設(shè)置裝置,包括
采集單元,用于響應(yīng)對(duì)資源的當(dāng)前屏幕設(shè)置書(shū)簽的請(qǐng)求,對(duì)資源 的當(dāng)前屏幕的實(shí)際文本采集屏幕上下文信息;以及
存儲(chǔ)單元,用于存儲(chǔ)所述資源的地址信息和屏幕上下文信息作為 用于返回所述資源特定部分的書(shū)簽。
另外,本發(fā)明也提出了 一種根據(jù)設(shè)置的書(shū)簽提供資源的特定部分 的裝置,所述書(shū)簽包括地址信息和通過(guò)采集所述資源特定部分獲得的 屏幕上下文信息,所述裝置包括
比較單元,響應(yīng)用戶重新打開(kāi)資源的請(qǐng)求,將由所述地址信息識(shí) 別的資源內(nèi)容下栽到存儲(chǔ)器,對(duì)下載的資源內(nèi)容采集屏幕上下文信息, 并且比較所下載資源內(nèi)容的屏幕上下文信息和所述書(shū)簽指示的屏幕上
下文信息;
定位器,用于根據(jù)模糊匹配的規(guī)則選定所下載的資源的特定部分 并在顯示窗口中顯示所選定的資源特定部分。
本發(fā)明使用屏幕上下文信息來(lái)記錄文檔中的讀取或編輯位置,可 在無(wú)需光標(biāo)、坐標(biāo)等可定位信息的幫助下對(duì)文檔設(shè)置書(shū)簽;在再訪問(wèn) 時(shí)利用模糊匹配方法比較已記錄的屏幕上下文信息與再次訪問(wèn)的資源 內(nèi)容,從而精確地定位文檔中的讀取或編輯位置。
本發(fā)明釆用了反映文檔內(nèi)容和結(jié)構(gòu)的屏幕上下文信息,相比
US6219679B1等使用顯示區(qū)域左上角位置和右下角位置的坐標(biāo)來(lái)定位 具體的顯示區(qū)域的4支術(shù)方案,可以不受文檔實(shí)際布置方式或部分l內(nèi)容 變化l導(dǎo)致的坐標(biāo)等信息變化的影響,因而可以精確地定位文檔中的具 體位置。
另外本發(fā)明提出了對(duì)資源內(nèi)容編制摘要信息,在再訪問(wèn)時(shí)通過(guò)比 較已記錄的摘要信息和再訪問(wèn)時(shí)編制的摘要信息,可檢測(cè)文檔的有效 性。
利用本發(fā)明的書(shū)簽設(shè)置方法,可以使用URL地址或UNC路徑轉(zhuǎn) 向萬(wàn)維網(wǎng)中的各種文件、文件的位置或網(wǎng)頁(yè),或是Intranet上的網(wǎng) 頁(yè)等。同樣由于在同一計(jì)算機(jī)內(nèi)Office文檔(Word、 Excel 、 PowerPoint, Access等)相互之間以及PDF之間可以利用類(lèi)似的UNC 路徑(通用命名規(guī)則)對(duì)文件進(jìn)行定位,因此本發(fā)明的書(shū)簽設(shè)置方法 完全可以應(yīng)用于同一計(jì)算機(jī)內(nèi)Office文檔之間、PDF文檔之間以及 Office文檔和PDF文檔的交互訪問(wèn)。
根據(jù)下面示意性實(shí)施例的說(shuō)明(參照附圖)本發(fā)明的其它特點(diǎn)將 顯而易見(jiàn)。
圖1示出了根據(jù)本發(fā)明的分布式數(shù)據(jù)處理系統(tǒng)的示意性框圖。 圖2示出了根據(jù)本發(fā)明的服務(wù)器設(shè)備的示意性框圖。 圖3示出了根據(jù)本發(fā)明的客戶機(jī)設(shè)備的示意性框圖。 圖4示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例用于對(duì)資源設(shè)置書(shū)簽的元件 的示意圖。
圖5示出了用于根據(jù)本發(fā)明的優(yōu)選實(shí)施例生成書(shū)簽的方法的流程圖。
圖6示出了用于根據(jù)本發(fā)明的優(yōu)選實(shí)施例,響應(yīng)對(duì)書(shū)簽的選擇呈 現(xiàn)資源的方法的流程圖
具體實(shí)施方式
下面,將參照附圖等詳細(xì)描述本發(fā)明的具體實(shí)施方式
。但是,本 發(fā)明可以通過(guò)多種不同的方式來(lái)實(shí)施,本領(lǐng)域人員可以很容易地理解 其方式和詳細(xì)內(nèi)容可以被變換為各種各樣的形式,而不脫離本發(fā)明的 宗旨及其范圍。因此,本發(fā)明不應(yīng)該被解釋為僅限定在實(shí)施方式所記 載的內(nèi)容中。
參考附圖,其中圖1示出了實(shí)施本發(fā)明的數(shù)據(jù)處理系統(tǒng)100的網(wǎng) 絡(luò)示意圖。數(shù)據(jù)處理系統(tǒng)100包括作為在彼此相連的各種設(shè)備和計(jì)算 機(jī)之間提供通信鏈接的媒介的網(wǎng)絡(luò)102。該網(wǎng)絡(luò)102可以包括有線、 無(wú)線通信鏈接或光纖。
在所示實(shí)例中,服務(wù)器104以及存儲(chǔ)單元106連接到網(wǎng)絡(luò)102。 另夕卜,服務(wù)器104的客戶機(jī)108、 IIO和112可以是個(gè)人計(jì)算機(jī)和網(wǎng)絡(luò) 計(jì)算機(jī)。在所示實(shí)例中,服務(wù)器104提供例如引導(dǎo)文件、操作系統(tǒng)圖 4象以及客戶機(jī)108、 110和112的應(yīng)用程序。網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100 中,網(wǎng)絡(luò)102表示使用TCP/IP協(xié)議彼此通信的網(wǎng)絡(luò)和網(wǎng)關(guān)集合的因 特網(wǎng)。在因特網(wǎng)中心是在主節(jié)點(diǎn)或主計(jì)算機(jī)之間的高速數(shù)據(jù)通信線路 的骨干,由若干商業(yè)、政府、教育和其它發(fā)布數(shù)據(jù)信息的計(jì)算機(jī)系統(tǒng) 組成。當(dāng)然數(shù)據(jù)處理系統(tǒng)100還可以在intranet、局域網(wǎng)(LAN)、 廣域網(wǎng)(WAN)中。
現(xiàn)在根據(jù)本發(fā)明的一個(gè)實(shí)施例參考圖2描述可以作為例如圖1的 服務(wù)器104的服務(wù)器實(shí)施的數(shù)據(jù)處理系統(tǒng)的框圖。數(shù)據(jù)處理系統(tǒng)200 可以是包括連接到數(shù)據(jù)總線206的多個(gè)處理器202和204的對(duì)稱多處 理器(SMP)?;蛘呖梢詰?yīng)用單個(gè)處理器系統(tǒng)。同樣鏈接至數(shù)據(jù)總線 206的是存儲(chǔ)器控制器/高速緩沖存儲(chǔ)器208,用以提供與局部存儲(chǔ)器 209的接口 。 I/O總線橋210也連接到數(shù)據(jù)總線206,用以提供與I/O 總線212的接口 。存儲(chǔ)器控制器/高速緩沖存儲(chǔ)器208和I/O總線橋210 可以集成在一起。
連接至與I/O總線212的周邊元件互連(PCI)總線橋214提供 了與PCI局部總線216的接口??梢杂卸鄠€(gè)調(diào)制解調(diào)器連接到PCI 局部總線216。典型的PCI總線實(shí)現(xiàn)可以支持4個(gè)PCI擴(kuò)展槽或者插
入式(add-in)連接器。與圖1中網(wǎng)絡(luò)計(jì)算機(jī)108、 110以及112的通 信鏈接可以由調(diào)制解調(diào)器218和通過(guò)插入式主板與PCI局部總線216 相連的網(wǎng)絡(luò)適配器220來(lái)提供。
附加的PCI總線橋222和224為附加的PCI局部總線226和228, 由此可以支持附加的調(diào)制解調(diào)器和網(wǎng)絡(luò)適配器。以這種方式,數(shù)據(jù)處 理系統(tǒng)200允許連接到多個(gè)網(wǎng)絡(luò)計(jì)算機(jī)。存儲(chǔ)器映射圖形適配器230 和硬盤(pán)232也可以如圖所示直接或間接連接到I/O總線212。
現(xiàn)在參考圖3描述可以應(yīng)用本發(fā)明的數(shù)據(jù)處理系統(tǒng)的框圖。數(shù)據(jù) 處理系統(tǒng)300是一個(gè)客戶機(jī)計(jì)算機(jī)的例子。該數(shù)據(jù)處理系統(tǒng)300應(yīng)用 周邊元件互連(PCI)局部總線構(gòu)架。盡管所示的例子應(yīng)用了 PCI總 線,其它諸如加速圖形端口 (AGP)以及工業(yè)標(biāo)準(zhǔn)構(gòu)架(ISA)等也 可以使用。處理器302和主存儲(chǔ)器304通過(guò)PCI橋308連接到PCI 局部總線306。 PCI橋308也包括用于處理器302的集成的存儲(chǔ)器控 制器和高速緩沖存儲(chǔ)器??梢酝ㄟ^(guò)直接元件互連或通過(guò)插入式主板形 成與PCI局部總線306的附加連接。在所示的實(shí)例中,局域網(wǎng)適配器 320, SCSI主機(jī)總線適配器312以及擴(kuò)展總線接口 314通過(guò)直接元件 連接連接到PCI局部總線306。相反,音頻適配器316、圖形適配器 318以及音視頻適配器319通過(guò)插在擴(kuò)展槽中的插入式主板連接到 PCI局部總線306。擴(kuò)展總線接口 314提供用于鍵盤(pán)和鼠標(biāo)適配器320、 調(diào)制解調(diào)器332以及附加存儲(chǔ)器324的連接。小計(jì)算機(jī)系統(tǒng)接口 (SCSI)主機(jī)總線適配器312提供了用于硬盤(pán)驅(qū)動(dòng)器326、磁帶驅(qū)動(dòng) 器328以及CD-ROM驅(qū)動(dòng)器330的連接。典型的PCI局部總線實(shí)現(xiàn) 可支持三個(gè)或四個(gè)PCI擴(kuò)展槽或插入式連接。
操作系統(tǒng)運(yùn)行在處理器302中,用于協(xié)調(diào)和提供對(duì)圖3中數(shù)據(jù)處 理系統(tǒng)300的各種元件的控制。該操作系統(tǒng)可以是市場(chǎng)上可獲得的 Windows2000等。面向?qū)ο缶幊滔到y(tǒng)例如Java可與該操作系統(tǒng)一起 運(yùn)行,以便提供從Java程序或該數(shù)據(jù)操作系統(tǒng)300中其它應(yīng)用程序?qū)?操作系統(tǒng)的調(diào)用。操作系統(tǒng)的指令、面向?qū)ο蟛僮飨到y(tǒng)以及應(yīng)用程序 或程序可以在存儲(chǔ)設(shè)備例如硬盤(pán)驅(qū)動(dòng)器326中,可以在由處理器302
執(zhí)行時(shí)加載到主存儲(chǔ)器304中。
作為另外一個(gè)實(shí)例,數(shù)據(jù)操作系統(tǒng)300可以被配置成無(wú)需依賴網(wǎng) 絡(luò)通信接口的類(lèi)型而啟動(dòng)。另外,數(shù)據(jù)操作系統(tǒng)300也可以是個(gè)人數(shù) 字助理(PDA)設(shè)備,與ROM和/或閃速ROM—起用于提供存儲(chǔ)操 作系統(tǒng)文件和/或用戶生成文件的非易失性存儲(chǔ)器。
圖3所示的實(shí)例以及上述實(shí)例僅僅是例舉,例如數(shù)據(jù)操作系統(tǒng)300 也可以是筆記本或采用PDA形式的手持式計(jì)算機(jī)。數(shù)據(jù)操作系統(tǒng)300 還可以是資訊站(kiosk) 或環(huán)球網(wǎng)設(shè)備(web appliance)。
以下首先簡(jiǎn)介本說(shuō)明書(shū)使用的術(shù)語(yǔ)
屏幕上下文信息屏幕上下文記錄了當(dāng)前屏幕的信息,包括屏幕 中的第一個(gè)詞,屏幕分辨率,第一段以及行號(hào)中的至少之一。對(duì)于不 同文檔屏幕上下文信息可能不同,例如對(duì)html(超文本鏈接標(biāo)示語(yǔ)言) 文檔,屏幕上下文信息可以具有標(biāo)題信息。
采集率采集率涉及采集文檔內(nèi)容。例如如果采集率是100%, 則整個(gè)文檔將被記錄。
重新顯示模式重新顯示模式是告訴書(shū)簽設(shè)置裝置,對(duì)設(shè)置了書(shū) 簽的文檔的位置進(jìn)行重新定位的方式。例如"由第一個(gè)詞泉位",則在 顯示屏幕中的第一個(gè)詞被存儲(chǔ)為在重新定位時(shí)屏幕中的第一個(gè)詞。
有效文檔文檔只有在書(shū)簽設(shè)置裝置自上一次對(duì)該文檔設(shè)置書(shū)簽 后將其識(shí)別為仍然是同一個(gè)文檔時(shí)才是有效文檔。
系統(tǒng)體系結(jié)構(gòu)
本發(fā)明提供了一種對(duì)資源設(shè)置書(shū)簽的方法和裝置,本發(fā)明可以應(yīng) 用在圖l所示客戶機(jī)設(shè)備108、 110和112 (即個(gè)人計(jì)算機(jī)或網(wǎng)絡(luò)計(jì)算 機(jī))中或者在服務(wù)器104中。本發(fā)明可以存在于由計(jì)算機(jī)系統(tǒng)使用的 各種數(shù)據(jù)存儲(chǔ)介質(zhì)(例如軟盤(pán)、光盤(pán)、硬盤(pán)、ROM、 RAM等)中。
本發(fā)明的對(duì)資源設(shè)置書(shū)簽的裝置可以由圖2或圖3所示的數(shù)據(jù)操 作系統(tǒng)200或數(shù)據(jù)操作系統(tǒng)300實(shí)現(xiàn),具體地,如圖4所示,根據(jù)設(shè)
置的書(shū)簽提供資源的特定部分的裝置以及根據(jù)設(shè)置的書(shū)簽提供資源的
特定部分的裝置包括5個(gè)單元,分別為用戶配置中心401,存儲(chǔ)單元 402,采集單元403,比較單元404和定位器405。
用戶配置中心401用于設(shè)置采集整個(gè)文檔的采集率、以及按照書(shū) 簽?zāi)J竭x擇文檔重新顯示的方式,例如可以通過(guò)各種編輯工具(Office 文檔工具或Acrobat Reader工具)或者瀏覽器的圖形用戶接口由終端 用戶借助鼠標(biāo)鍵盤(pán)來(lái)設(shè)置,由此通過(guò)設(shè)置整個(gè)文檔的采集率可使終端 用戶定義比較文檔的準(zhǔn)確性。
終端用戶設(shè)置的采集率可以存儲(chǔ)在存儲(chǔ)單元402中,該存儲(chǔ)單元 402如圖3中所示的主存儲(chǔ)器304。
采集單元403、比較單元404以及定位器405可以是例如圖2和 圖3中處理器202、 204或處理器302中的功能模塊。
采集單元403與用戶配置中心401以及存儲(chǔ)單元402相連,用于 按照用戶配置中心401提供的設(shè)置采集文檔各點(diǎn),并從當(dāng)前屏幕獲得 上下文,然后將上述各點(diǎn)和屏幕上下文信息發(fā)送至存儲(chǔ)單元402。
比較單元404用于判斷設(shè)置書(shū)簽的文檔顯示仍然有效,具體地從 存儲(chǔ)單元402檢索/取出設(shè)置了書(shū)簽的該文檔各點(diǎn),通過(guò)使之與抽取實(shí) 際文檔的內(nèi)容相比較來(lái)識(shí)別該書(shū)簽是否有效。
定位器405根據(jù)比較單元的比較結(jié)果選定所下載的資源的特定部 分并在顯示窗口中顯示所選定的資源特定部分。
圖5示出了用于根據(jù)本發(fā)明的優(yōu)選實(shí)施例生成書(shū)簽的方法的流程 圖。該方法可以由圖4所示的對(duì)資源設(shè)置書(shū)簽的裝置實(shí)現(xiàn)。
該方法首先接收用戶對(duì)資源設(shè)置書(shū)簽的請(qǐng)求(步驟501)。優(yōu)選 地,用戶對(duì)資源請(qǐng)求設(shè)置書(shū)簽的同時(shí)可以輸入請(qǐng)求設(shè)置的采集率,以 便于步驟502中的采集。用戶通過(guò)用戶配置中心401提供的采集率可 以存儲(chǔ)到存儲(chǔ)單元402,也可以直接傳送到采集單元403進(jìn)行采集, 實(shí)現(xiàn)針對(duì)不同文檔定制不同的采集率。
響應(yīng)該書(shū)簽設(shè)置請(qǐng)求,采集單元403開(kāi)始采集整個(gè)文檔信息(步 驟502 )。在此以Internet或Intranet網(wǎng)頁(yè)為資源對(duì)象,當(dāng)然資源對(duì)
象也可以是網(wǎng)絡(luò)上或者同一計(jì)算才幾內(nèi)諸如Word、 Excel、 PowerPoint Access等Office文檔或者PDF文檔等。
在步驟502,采集羊元403首先從網(wǎng)頁(yè)抽取實(shí)際文本,即不抽取 HTML標(biāo)簽以及一些圖片和一些多媒體數(shù)據(jù)。
隨后釆集單元403從存儲(chǔ)單元402或者采集單元403獲得采集率, 并根據(jù)該采集率開(kāi)始采集各點(diǎn),從而形成該文檔的摘要。!或者,由于 摘要編寫(xiě)器是目前的成熟技術(shù),在此本發(fā)明還可以使用文本編輯器中 的摘要編寫(xiě)器工具來(lái)編寫(xiě)摘要。在此情況下,用作摘要編寫(xiě)器工具的 采集單元對(duì)文檔進(jìn)行分析并為每個(gè)句子指定分?jǐn)?shù),以此確定文檔中的 要點(diǎn)。那些包含文檔中常用詞匯的文本內(nèi)容(例如句子)得分較高。 然后由用戶按百分比選擇部分得分最高的句子,將其顯示在摘要中。 在此編寫(xiě)摘要器時(shí)使用的"百分比,,與采集率的含義一樣,表示"相當(dāng)于 原長(zhǎng)的百分比"。
編寫(xiě)摘要的目的是為了在對(duì)文檔設(shè)置書(shū)簽后再訪問(wèn)該文檔時(shí)通過(guò) 模糊匹配識(shí)別該文檔是否仍然是同 一 個(gè)文檔,即為了識(shí)別再訪問(wèn)的文
檔是否為有效文檔。該步驟502是優(yōu)選步驟,本發(fā)明的方法可以在不 編寫(xiě)摘要的情況下直接使用文本定位器元件分析資源對(duì)象,獲得屏幕
上下文信息。
隨后在步驟503,采集單元403利用文本定位器元件描述當(dāng)前屏 幕的上下文。屏幕上下文信息記錄了當(dāng)前屏幕的信息,包括屏幕中的 第一個(gè)詞、某個(gè)特定詞或者第一段等中的至少一個(gè)文本定位器元件。 在此實(shí)例中,使用屏幕中的第一個(gè)詞作為文本定位器元件,步驟503 的處理記錄第 一 個(gè)詞例如"<complexType",另外從第 一 個(gè)詞例如 "〈complexType"開(kāi)始在當(dāng)前屏幕上下文中任意拾取其它詞,其中的拾 取率是由終端用戶在用戶配置中心401定義的采集率。
對(duì)于不同的文檔屏幕上下文信息可能不同,例如對(duì)于html (超文 本鏈接標(biāo)示語(yǔ)言)文檔,屏幕上下文信息還可以具有標(biāo)題信息。
附加地,行號(hào)、段落號(hào)以及屏幕分辨率也可以作為屏幕上下文信 息的一部分,輔助上述與實(shí)際內(nèi)容相關(guān)的可檢索的文本定位器元件來(lái)
描述當(dāng)前屏幕的上下文。另外,在屏幕有圖片、尤其是圖片可能覆蓋 整個(gè)屏幕的情況下,除了純文本信息之外,屏幕上下文信息還可以包 括文本布置和顯示的方式,在此采集單元獲取的文本布置和顯示方式 包括圖片信息例如圖片信息源。
最后在步驟504,采集單元403將設(shè)置了書(shū)簽的資源的地址信息、 摘要信息和屏幕上下文信息傳送到存儲(chǔ)單元402進(jìn)行記錄。設(shè)置書(shū)簽 的流程結(jié)束。
圖6示出了用于根據(jù)本發(fā)明的優(yōu)選實(shí)施例,響應(yīng)對(duì)書(shū)簽的選擇呈 現(xiàn)資源的方法的流程圖。
首先在步驟601用戶請(qǐng)求重新打開(kāi)設(shè)置了書(shū)簽的文檔。響應(yīng)用戶 定位該書(shū)簽的請(qǐng)求,在步驟602中比較單元404首先根據(jù)書(shū)簽中指示 的超鏈接地址抽取文檔的實(shí)際文本。書(shū)簽中包括的超鏈接地址例如是 通用資源標(biāo)識(shí)符(URI)的路徑信息,在本實(shí)施例中,針對(duì)網(wǎng)頁(yè),URI 可以是統(tǒng)一資源定位符(URL)地址,用于指定協(xié)議(如HTTP或 FTP)以及對(duì)象、文檔、萬(wàn)維網(wǎng)網(wǎng)頁(yè)或其他目標(biāo)在Internet或Intranet 上的位置,也可以是UNC路徑(通用命名規(guī)則路徑),用于對(duì)文件 的地址進(jìn)行定位。如果針對(duì)同 一客戶機(jī)內(nèi)的其它文檔作為書(shū)簽對(duì)象, 則書(shū)簽中包括的路徑信息為UNC路徑信息。
在步驟603,比較單元404從存儲(chǔ)單元402檢索/取出設(shè)置了書(shū)簽 的文檔的摘要信息。隨后在步驟604比較單元404根據(jù)從存儲(chǔ)單元402 檢索/取出的采集率編制該文檔的摘要,并且比較該實(shí)際文檔的摘要與 從存儲(chǔ)單元402取出的已記錄的摘要,以便識(shí)別這兩個(gè)摘要是否一致, 從而確定該文檔是否是有效文檔。與步驟502 —樣,在步驟603中比 較單元404還可以使用文本編輯器中的摘要編寫(xiě)器工具直接編寫(xiě)摘 要。并且在不需要判斷再訪問(wèn)的文檔是否有效的情況下或者設(shè)置書(shū)簽 時(shí)未編寫(xiě)摘要信息的情況下,在本發(fā)明響應(yīng)對(duì)書(shū)簽的選擇呈現(xiàn)資源的 方法中,步驟603和步驟604都是可選的步驟,本發(fā)明的方法可以在 不判斷再訪問(wèn)的文檔是否有效的情況下即省略步驟603、 604以及步驟
605,直接執(zhí)行步驟606的處理。
如果在步驟605判斷為該文檔并非有效文檔即文檔已過(guò)期,則流 程結(jié)束。
如果文檔仍然有效,則比較單元404在步驟606采用已獲取的書(shū) 簽中包括的屏幕上下文信息針對(duì)實(shí)際文檔生成瞬態(tài)(snapshot)模擬 屏幕。例如如果所獲取的書(shū)簽中的屏幕上下文信息以第一個(gè)詞 "〈complexType,,作為與實(shí)際內(nèi)容相關(guān)的可檢索的文本定位器元件,則 比較單元404在實(shí)際文檔中查找"<complexType",在發(fā)現(xiàn)詞 "〈complexType,,后從該詞"〈complexType"開(kāi)始形成瞬態(tài)模擬屏幕。 隨后,比較單元404從按照與采集單元403拾取一樣的方式從瞬態(tài)模 擬屏幕拾取詞,即使用相同的與實(shí)際內(nèi)容相關(guān)的可檢索文本定位器元 件如第一個(gè)詞、某個(gè)特定詞或者第一段以及相同的采集率來(lái)拾取瞬態(tài) 模擬屏幕中的詞;并且比較拾取的這些詞與采集單元403已采集的作 為屏幕上下文信息存儲(chǔ)在存儲(chǔ)單元中的各詞。如果他們匹配,則利用 定位器在顯示窗口中顯示該屏幕,完成書(shū)簽定位。這里的匹配取決于 模糊匹配算法,無(wú)需100%匹配。如果它們不匹配,則返回步驟606 重新生成瞬態(tài)模擬屏幕進(jìn)行匹配,直到到達(dá)文檔結(jié)尾。
在書(shū)簽的屏幕上下文信息還包括行號(hào)、段落號(hào)、屏幕分辨率和/ 或文本布置和顯示方式的情況下,比較單元403結(jié)合采用這些輔助信 息來(lái)匹配瞬態(tài)模擬屏幕和已存儲(chǔ)的屏幕上下文信息。
優(yōu)選的,在屏幕有圖片的情況下,比較單元可以通過(guò)根據(jù)屏幕上 下文信息中的圖片信息判斷圖片的大小和形狀,不必在下載實(shí)際文檔 或形成瞬態(tài)模擬屏幕的過(guò)程中下載圖片。若最終選定的瞬態(tài)模擬屏幕 包括有圖片,則可以繼續(xù)下載的內(nèi)容。在此,根據(jù)具體的要求可允許 用戶或不允許用戶上下滾動(dòng)查閱頁(yè)面的其余部分,或者當(dāng)用戶上下滾 動(dòng)查閱頁(yè)面的其余部分時(shí),選定屏幕之外的圖片可以在繼續(xù)下載之后 顯示在屏幕上。
盡管已經(jīng)結(jié)合實(shí)施例具體說(shuō)明了由本發(fā)明的發(fā)明人所做出的發(fā)
明,但是本發(fā)明不限于這樣的實(shí)施例,在不脫離本發(fā)明主旨的情況下, 可以進(jìn)行各種修改。例如,在本發(fā)明的實(shí)施例中,以顯示窗口即當(dāng)前 屏冪的笫一個(gè)詞描迷屏幕上下文信息,即以當(dāng)前屏幕的第一個(gè)詞開(kāi)始 采集文本內(nèi)容,獲得屏幕上下文信息。當(dāng)然還可以使用其它某個(gè)特定 詞如第二個(gè)詞、最后一個(gè)詞或者第一段等等作為文本定位器元件。在 本發(fā)明公開(kāi)的范圍內(nèi),本領(lǐng)域的普通技術(shù)人員可以設(shè)想到其它獲取反 映顯示屏幕文檔內(nèi)容和結(jié)構(gòu)的技術(shù)方案。
權(quán)利要求
1.一種在數(shù)據(jù)處理系統(tǒng)中對(duì)資源的特定部分設(shè)置書(shū)簽的方法,包括如下步驟響應(yīng)對(duì)資源的當(dāng)前屏幕設(shè)置書(shū)簽的請(qǐng)求,對(duì)資源的當(dāng)前屏幕的實(shí)際文本采集屏幕上下文信息;以及存儲(chǔ)所述資源的地址信息和屏幕上下文信息作為用于返回所述資源特定部分的書(shū)簽。
2. 根據(jù)權(quán)利要求l所述的對(duì)資源的特定部分設(shè)置書(shū)簽的方法,其 中根據(jù)預(yù)定的采集率對(duì)資源的當(dāng)前屏幕采集屏幕上下文信息。
3. 根據(jù)權(quán)利要求2所述的對(duì)資源的特定部分設(shè)置書(shū)簽的方法,其 中所述采集率是由用戶輸入的。
4. 根據(jù)權(quán)利要求2所述的對(duì)資源的特定部分設(shè)置書(shū)簽的方法,其 中所述采集率是從存儲(chǔ)單元獲取的。
5. 根據(jù)權(quán)利要求1所述的對(duì)資源的特定部分設(shè)置書(shū)簽的方法,其 中所述屏幕上下文信息包括文本定位器元件。
6. 根據(jù)權(quán)利要求5所述的對(duì)資源的特定部分設(shè)置書(shū)簽的方法,其 中所述文本定位器元件包括當(dāng)前屏幕中的第一個(gè)詞、某個(gè)特定詞或者 第一段。
7. 根據(jù)權(quán)利要求5所述的對(duì)資源的特定部分設(shè)置書(shū)簽的方法,其 中所述屏幕上下文信息還包括文本定位輔助信息,
8. 根據(jù)權(quán)利要求7所述的對(duì)資源設(shè)置書(shū)簽的方法,其中所述文本 定位輔助信息包括行號(hào)、段落號(hào)、屏幕分辨率和/或文本布置和顯示方 式中的至少之一。
9. 根據(jù)權(quán)利要求l所述的對(duì)資源設(shè)置書(shū)簽的方法,還包括對(duì)資源 的實(shí)際文本編寫(xiě)摘要信息的步驟,并且存儲(chǔ)所述編寫(xiě)的摘要信息作為 所迷書(shū)簽的一部分。
10. 根據(jù)權(quán)利要求9所述的對(duì)資源的特定部分設(shè)置書(shū)簽的方法, 其中對(duì)當(dāng)前屏幕編寫(xiě)摘要的步驟包括根據(jù)預(yù)定的釆集率對(duì)當(dāng)前屏幕編寫(xiě)摘要的步驟。
11. 一種根據(jù)設(shè)置的書(shū)簽提供資源的特定部分的方法,所迷書(shū)簽 包括地址信息和通過(guò)采集所述資源特定部分獲得的屏幕上下文信息,所述方法包括如下步驟響應(yīng)用戶重新打開(kāi)資源的請(qǐng)求,將由所述地址信息識(shí)別的資源內(nèi)容下載到存儲(chǔ)器;對(duì)下栽的資源內(nèi)容采集屏幕上下文信息,和 比較所下載資源內(nèi)容的屏幕上下文信息和所述書(shū)簽指示的屏幕上下文信息,根據(jù)模糊匹配的規(guī)則選定所下栽的資源的特定部分并在顯 示窗口中顯示所選定的資源特定部分。
12. 根據(jù)權(quán)利要求11所述的根據(jù)設(shè)置的書(shū)簽提供資源的特定部分的方法,其中所述書(shū)簽的屏幕上下文信息是通過(guò)以預(yù)定的采集率采集 所述資源特定部分獲得的,所述對(duì)下載的資源內(nèi)容采集屏幕上下文信息的步驟包括使用相同 的預(yù)定采集率對(duì)下栽的資源內(nèi)容采集屏幕上下文信息。
13. 根據(jù)權(quán)利要求12所述的根據(jù)設(shè)置的書(shū)簽提供資源的特定部分 的方法,其中所述書(shū)簽的屏幕上下文信息包括文本定位器元件,所述使用預(yù)定采集率對(duì)下載的資源內(nèi)容采集屏幕上下文信息的步 驟包括在下載的資源內(nèi)容中檢索與所述文本定位器元件匹配的部分; 基于所述與文本定位器元件匹配的部分使用預(yù)定采集率對(duì)下栽的資源內(nèi)容采集實(shí)際文本,獲得各個(gè)用于與所述書(shū)簽的屏幕上下文信息進(jìn)行比較的瞬態(tài)模擬屏幕。
14. 根據(jù)權(quán)利要求13所述的根據(jù)設(shè)置的書(shū)簽提供資源的特定部分 的方法,其中所述文本定位器元件包括當(dāng)前屏幕中的第一個(gè)詞、某個(gè) 特定詞或者第一段。
15. 根據(jù)權(quán)利要求13所述的根據(jù)設(shè)置的書(shū)簽提供資源的特定部分 的方法,其中所述屏幕上下文信息還包括文本定位輔助信息。
16. 根據(jù)權(quán)利要求15所述的根據(jù)設(shè)置的書(shū)簽提供資源的特定部分 的方法,其中所述文本定位輔助信息包括行號(hào)、段落號(hào)、屏幕分辨率 和/或文本布置和顯示方式中的至少之一。
17. 根據(jù)權(quán)利要求11所述的根據(jù)設(shè)置的書(shū)簽提供資源的特定部分 的方法,其中所述書(shū)簽還包括對(duì)資源的實(shí)際文本編寫(xiě)的摘要信息,在下載資源內(nèi)容的步驟之后還包括對(duì)下載的資源內(nèi)容編制摘要信息,并且比較該摘要信息與所述書(shū) 簽指示的摘要信息,進(jìn)而判斷下載的資源內(nèi)容是否有效的步驟。
18. —種在數(shù)據(jù)處理系統(tǒng)中對(duì)資源的特定部分設(shè)置書(shū)簽的書(shū)簽設(shè) 置裝置,包括采集單元,用于響應(yīng)對(duì)資源的當(dāng)前屏幕設(shè)置書(shū)簽的請(qǐng)求,對(duì)資源 的當(dāng)前屏幕的實(shí)際文本采集屏幕上下文信息;以及存儲(chǔ)單元,用于存儲(chǔ)所述資源的地址信息和屏幕上下文信息作為 用于返回所述資源特定部分的書(shū)簽。
19. 根據(jù)權(quán)利要求18所述的書(shū)簽設(shè)置裝置,其中還包括對(duì)資源的 實(shí)際文本編寫(xiě)摘要信息的摘要編寫(xiě)器,所述存儲(chǔ)單元存儲(chǔ)所述編寫(xiě)的 摘要信息作為所述書(shū)簽的一部分。
20. 根據(jù)權(quán)利要求19所述的書(shū)簽設(shè)置裝置,其中摘要編寫(xiě)器根據(jù)預(yù)定的采集率對(duì)當(dāng)前屏幕編寫(xiě)摘要。
21. —種根據(jù)設(shè)置的書(shū)簽提供資源的特定部分的裝置,所述書(shū)簽 包括地址信息和通過(guò)采集所述資源特定部分獲得的屏幕上下文信息, 所述裝置包括比較單元,用于響應(yīng)用戶重新打開(kāi)資源的請(qǐng)求,將由所述地址信 息識(shí)別的資源內(nèi)容下載到存儲(chǔ)器,并對(duì)下載的資源內(nèi)容采集屏幕上下 文信息,以及比較所下載資源內(nèi)容的屏幕上下文信息和所述書(shū)簽指示 的屏幕上下文信息;定位器,用于根據(jù)模糊匹配的規(guī)則選定所下載的資源的特定部分 并在顯示窗口中顯示所選定的資源特定部分。
22.根據(jù)權(quán)利要求21所述的根據(jù)設(shè)置的書(shū)簽提供資源的特定部分 的裝置,其中所述書(shū)簽還包括對(duì)資源的實(shí)際文本編寫(xiě)的摘要信息,所迷比較羊元還用于在下載資源內(nèi)容之后對(duì)下載的資源內(nèi)容編制 摘要信息,并且比較該摘要信息與所述書(shū)簽指示的摘要信息,進(jìn)而判 斷下載的資源內(nèi)容是否有效。
全文摘要
本發(fā)明涉及對(duì)用戶訪問(wèn)的資源設(shè)置書(shū)簽以及使用該書(shū)簽的方法和裝置。書(shū)簽設(shè)置方法,包括響應(yīng)對(duì)資源的當(dāng)前屏幕設(shè)置書(shū)簽的請(qǐng)求,對(duì)資源的當(dāng)前屏幕的實(shí)際文本采集屏幕上下文信息;以及存儲(chǔ)所述資源的地址信息和屏幕上下文信息作為用于返回所述資源特定部分的書(shū)簽。根據(jù)設(shè)置的書(shū)簽提供資源的特定部分的方法包括響應(yīng)用戶重新打開(kāi)資源的請(qǐng)求,將由所述地址信息識(shí)別的資源內(nèi)容下載到存儲(chǔ)器;對(duì)下載的資源內(nèi)容采集屏幕上下文信息,和比較所下載資源內(nèi)容的屏幕上下文信息和所述書(shū)簽指示的屏幕上下文信息,根據(jù)模糊匹配的規(guī)則選定所下載的資源的特定部分并在顯示窗口中顯示所選定的資源特定部分。
文檔編號(hào)G06F17/30GK101192231SQ20061016302
公開(kāi)日2008年6月4日 申請(qǐng)日期2006年11月27日 優(yōu)先權(quán)日2006年11月27日
發(fā)明者聶伯敏, 嶽 馬 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司