技術編號:6488145
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發(fā)明的實施例公開了一種網(wǎng)絡信息抓取方法和裝置。涉及網(wǎng)絡,能夠直接獲取動態(tài)網(wǎng)頁中的URL和URL對應的內容。該方法包括通過預設的瀏覽器客戶端訪問靜態(tài)的統(tǒng)一資源定位符URL;獲取靜態(tài)的URL對應的超文本標記語言HTML文件;獲取該HTML文件中對應可實現(xiàn)用戶操作執(zhí)行的腳本語言函數(shù),該腳本語言函數(shù)包括JavaScript腳本函數(shù);解析該腳本語言函數(shù),得到解析后的網(wǎng)頁,并從該網(wǎng)頁中抽取其他靜態(tài)的URL,并將該網(wǎng)頁存儲,并應用正則表達式抽取其中的其他靜態(tài)的URL。...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。