本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種自動(dòng)比價(jià)方法及其機(jī)器人裝置。
背景技術(shù):
在互聯(lián)網(wǎng)的網(wǎng)購時(shí)代,如天貓,淘寶,京東,國美,蘇寧等等網(wǎng)店紛紛通過燒錢低價(jià),優(yōu)惠券,好友紅包分享的方式大打價(jià)格戰(zhàn),吸引更多的用戶進(jìn)行購物消費(fèi)。而用戶在使用這些網(wǎng)上購物資源的時(shí)候,常常很難對價(jià)格進(jìn)行比對,通常只能是分別到各大網(wǎng)站去檢索相同的產(chǎn)品,而這個(gè)過程是很浪費(fèi)時(shí)間的,并且也常常會(huì)因?yàn)楹馁M(fèi)了檢索的時(shí)間,造成同產(chǎn)品中價(jià)格最便宜的會(huì)出現(xiàn)售罄的情況,使用戶即浪費(fèi)了時(shí)間也沒有買到想要的產(chǎn)品,因此急需一種能夠?qū)ο嗤蛘哳愃飘a(chǎn)品進(jìn)行價(jià)格統(tǒng)一把握的技術(shù)來解決有技術(shù)中存在的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的是提供一種自動(dòng)比價(jià)方法及其機(jī)器人裝置,可以解決現(xiàn)有技術(shù)中無法對同一或者類似產(chǎn)品價(jià)格統(tǒng)一把握的問題。
本發(fā)明解決技術(shù)問題采用如下技術(shù)方案:
一種自動(dòng)比價(jià)方法,其特征在于,至少包括以下步驟:
獲取購物網(wǎng)站信息,指定初始種子連接以及抓取深度抓取相關(guān)網(wǎng)頁;
采用正則表達(dá)式抽取導(dǎo)航欄連接,并對網(wǎng)頁進(jìn)行去噪,抽取標(biāo)題和價(jià)格;
存儲(chǔ)抽取的標(biāo)題以及價(jià)格;
根據(jù)用戶的查詢,按照標(biāo)題對各價(jià)格進(jìn)行對比,生成價(jià)格比對信息。
其中,使用開源工具nutch進(jìn)行相關(guān)網(wǎng)頁抓取。
其中,使用開源工具boilerpipe進(jìn)行網(wǎng)頁去噪。
其中,所述抽取的標(biāo)題以及價(jià)格存儲(chǔ)在數(shù)據(jù)庫redis中。
本發(fā)明還一種自動(dòng)比價(jià)機(jī)器人裝置,至少包括:
購物網(wǎng)站獲取單元,用于獲取購物網(wǎng)站信息,指定初始種子連接以及抓取深度抓取相關(guān)網(wǎng)頁;
價(jià)格抽取單元,用于采用正則表達(dá)式抽取導(dǎo)航欄連接,并對網(wǎng)頁進(jìn)行去噪,抽取標(biāo)題和價(jià)格;
價(jià)格信息存儲(chǔ)單元,用于存儲(chǔ)抽取的標(biāo)題以及價(jià)格;
價(jià)格比對單元,根據(jù)用戶的查詢,按照標(biāo)題對各價(jià)格進(jìn)行對比,生成價(jià)格比對信息。
本發(fā)明具有如下有益效果:用戶可以統(tǒng)一把握相同或者類似商品的價(jià)格,選擇最優(yōu)的網(wǎng)站進(jìn)行購買,獲得最佳的選擇。
附圖說明
圖1為本發(fā)明的自動(dòng)比價(jià)方法的簡易流程圖;
圖2為本發(fā)明的自動(dòng)比價(jià)的機(jī)器人裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對本發(fā)明的技術(shù)方案作進(jìn)一步闡述。
一種自動(dòng)比價(jià)方法,至少包括以下步驟:
獲取購物網(wǎng)站信息,指定初始種子連接以及抓取深度抓取相關(guān)網(wǎng)頁;
采用正則表達(dá)式抽取導(dǎo)航欄連接,并對網(wǎng)頁進(jìn)行去噪,抽取標(biāo)題和價(jià)格;
存儲(chǔ)抽取的標(biāo)題以及價(jià)格;
根據(jù)用戶的查詢,按照標(biāo)題對各價(jià)格進(jìn)行對比,生成價(jià)格比對信息。
本發(fā)明的比價(jià)方法可以對各種產(chǎn)品進(jìn)行網(wǎng)絡(luò)比價(jià),基于原理相同,在本實(shí)施例中,僅以針對圖書類產(chǎn)品進(jìn)行說明,因此在本實(shí)施例中提供一種能針對圖書進(jìn)行自動(dòng)抓取和進(jìn)行自動(dòng)比價(jià)的網(wǎng)絡(luò)爬蟲機(jī)器人。以為兩個(gè)購物網(wǎng)站京東和天貓為例,本發(fā)明的方法首先使用開源工具nutch對京東和天貓的圖書類別進(jìn)行抓取網(wǎng)頁,然后進(jìn)行網(wǎng)頁去噪,抽取出圖書名和價(jià)格名出來,使用數(shù)據(jù)庫redis進(jìn)行存儲(chǔ),對同一本書,給出價(jià)格上的對比,從而幫助用戶做出更好的選擇。
參考圖1所示,以及以下步驟:
1、采集購物網(wǎng)頁,本實(shí)施例中為天貓和京東。指定初始種子鏈接和抓取深度,即檢索例如“l(fā)onelyplanetchina”所有賣家的相同圖書,使用開源工具nutch抓取相關(guān)網(wǎng)頁,其中nutch是一個(gè)開源的搜索引擎,它提供了我們運(yùn)行自己搜索引擎的全部工具,包括全文搜索和web爬蟲,鑒于該搜索引擎為現(xiàn)有的工具因此具體技術(shù)細(xì)節(jié)不再進(jìn)行贅述;
2、使用正則表達(dá)式抽取導(dǎo)航欄鏈接,使用開源工具boilerpipe進(jìn)行網(wǎng)頁去噪的處理部分,根據(jù)正則表達(dá)式,抽取出標(biāo)題和價(jià)格,也就是該書的標(biāo)題和價(jià)格。boilerpipe是一個(gè)開源的java類庫,能從html中將廣告和其他的附加信息剔除;
3、將抽取的標(biāo)題和價(jià)格存儲(chǔ)到數(shù)據(jù)庫redis之中,方便用戶進(jìn)行查詢。redis是一個(gè)開源的,key-value的高性能的數(shù)據(jù)庫存儲(chǔ)。
4、在本實(shí)施例中,使用html5進(jìn)行用戶的頁面的查詢,給出對比后的價(jià)格。
在本發(fā)明中,還提供一種自動(dòng)比價(jià)機(jī)器人裝置,參考圖2所示,至少包括:
購物網(wǎng)站獲取單元,用于獲取購物網(wǎng)站信息,指定初始種子連接以及抓取深度抓取相關(guān)網(wǎng)頁;
價(jià)格抽取單元,用于采用正則表達(dá)式抽取導(dǎo)航欄連接,并對網(wǎng)頁進(jìn)行去噪,抽取標(biāo)題和價(jià)格;
價(jià)格信息存儲(chǔ)單元,用于存儲(chǔ)抽取的標(biāo)題以及價(jià)格;
價(jià)格比對單元,根據(jù)用戶的查詢,按照標(biāo)題對各價(jià)格進(jìn)行對比,生成價(jià)格比對信息。
基于本發(fā)明的自動(dòng)比價(jià)機(jī)器人裝置應(yīng)用上述方法進(jìn)行價(jià)格比對,因此在此不再進(jìn)行贅述。
采用本發(fā)明的方案,用戶可以統(tǒng)一把握相同或者類似商品的價(jià)格,選擇最優(yōu)的網(wǎng)站進(jìn)行購買,獲得最佳的選擇。
以上實(shí)施例的先后順序僅為便于描述,不代表實(shí)施例的優(yōu)劣。
最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。