網(wǎng)址識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)?jiān)O(shè)及計(jì)算機(jī)技術(shù)領(lǐng)域,具體設(shè)及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其設(shè)及網(wǎng)址識(shí)別方法 和裝置。
【背景技術(shù)】
[0002] 在網(wǎng)絡(luò)上存在著大量的垃圾網(wǎng)站,虛假的垃圾網(wǎng)站經(jīng)常會(huì)誘導(dǎo)人們點(diǎn)擊,W騙取 點(diǎn)擊流量,甚至是騙取用戶名和密碼等隱私信息。因此,需要對(duì)運(yùn)些垃圾網(wǎng)址進(jìn)行主動(dòng)識(shí) 另IJ,對(duì)用戶做出相應(yīng)的提醒。
[0003] 現(xiàn)有技術(shù)中,對(duì)垃圾網(wǎng)址的識(shí)別主要通過(guò)設(shè)置網(wǎng)頁(yè)白名單、設(shè)置網(wǎng)頁(yè)黑名單或者 識(shí)別從網(wǎng)站抓取的網(wǎng)頁(yè)內(nèi)容等方式。然而,白名單方式無(wú)法列舉所有正常網(wǎng)站的網(wǎng)址,黑名 單方式則無(wú)法對(duì)新產(chǎn)生的垃圾網(wǎng)址進(jìn)行識(shí)別,對(duì)抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行識(shí)別則可能因?yàn)榫W(wǎng)站 設(shè)置了禁止抓取或者克隆正常站點(diǎn)騙取用戶密碼的偽造網(wǎng)站等情形而無(wú)法準(zhǔn)確識(shí)別垃圾 網(wǎng)址。因此,需要擴(kuò)大垃圾網(wǎng)址識(shí)別的識(shí)別范圍。
【發(fā)明內(nèi)容】
[0004] 本申請(qǐng)的目的在于提出一種改進(jìn)的網(wǎng)址識(shí)別方法和裝置,來(lái)解決W上【背景技術(shù)】部 分提到的技術(shù)問(wèn)題。
[0005] 第一方面,本申請(qǐng)?zhí)峁┝艘环N網(wǎng)址識(shí)別方法,所述方法包括:獲取待識(shí)別網(wǎng)址;根 據(jù)預(yù)設(shè)規(guī)則對(duì)所述待識(shí)別網(wǎng)址進(jìn)行切分處理,并將切分后的各個(gè)網(wǎng)址部分轉(zhuǎn)換為與各網(wǎng)址 部分的內(nèi)容類型對(duì)應(yīng)的類型標(biāo)識(shí);根據(jù)所述待識(shí)別網(wǎng)址所對(duì)應(yīng)的類型標(biāo)識(shí)序列,確定所述 待識(shí)別網(wǎng)址為非垃圾網(wǎng)址的概率值;根據(jù)所述概率值,生成網(wǎng)址識(shí)別信息。
[0006] 在一些實(shí)施例中,所述根據(jù)所述待識(shí)別網(wǎng)址所對(duì)應(yīng)的類型標(biāo)識(shí)序列,確定所述待 識(shí)別網(wǎng)址為非垃圾網(wǎng)址的概率值,包括:將所述類型標(biāo)識(shí)序列作為隱馬爾可夫模型的觀測(cè) 序列,并根據(jù)前向算法W及預(yù)先訓(xùn)練的隱馬爾可夫模型參數(shù)計(jì)算所述觀測(cè)序列對(duì)應(yīng)的概率 值;將計(jì)算出的概率值作為所述待識(shí)別網(wǎng)址為非垃圾網(wǎng)址的概率值。
[0007] 在一些實(shí)施例中,在所述獲取待識(shí)別網(wǎng)址之前,所述方法還包括:從日志服務(wù)器中 獲取非垃圾網(wǎng)址集合;根據(jù)預(yù)設(shè)規(guī)則對(duì)所述非垃圾網(wǎng)址集合中的每個(gè)網(wǎng)址進(jìn)行切分處理, 并將每個(gè)網(wǎng)址切分后的各個(gè)網(wǎng)址部分轉(zhuǎn)換為與各網(wǎng)址部分的內(nèi)容類型對(duì)應(yīng)的類型標(biāo)識(shí),W 生成包含每個(gè)網(wǎng)址對(duì)應(yīng)的類型標(biāo)識(shí)序列的類型標(biāo)識(shí)序列集合;將所述類型標(biāo)識(shí)序列集合作 為隱馬爾可夫模型的待訓(xùn)練觀測(cè)序列集合,并根據(jù)最大期望算法確定隱馬爾可夫模型參 數(shù);將確定的隱馬爾模型參數(shù)作為預(yù)先訓(xùn)練的隱馬爾科夫模型參數(shù),或者根據(jù)確定的隱馬 爾科夫模型參數(shù)對(duì)預(yù)先訓(xùn)練的隱馬爾科夫模型參數(shù)進(jìn)行更新。
[000引在一些實(shí)施例中,所述最大期望算法為前向后向算法。
[0009] 在一些實(shí)施例中,所述根據(jù)所述概率值,生成網(wǎng)址識(shí)別信息,包括:響應(yīng)于所述概 率值大于預(yù)設(shè)概率闊值,生成非垃圾網(wǎng)址提醒信息。
[0010] 在一些實(shí)施例中,所述根據(jù)所述概率值,生成網(wǎng)址識(shí)別信息,包括:響應(yīng)于所述概 率值小于預(yù)設(shè)概率闊值,生成垃圾網(wǎng)址提醒信息。
[0011] 在一些實(shí)施例中,在所述響應(yīng)于所述概率值小于預(yù)設(shè)概率闊值,生成垃圾網(wǎng)址提 醒信息之后,所述方法還包括:接收用戶對(duì)所述待識(shí)別網(wǎng)址是垃圾網(wǎng)址或非垃圾網(wǎng)址的確 認(rèn)信息;將確認(rèn)為非垃圾網(wǎng)址的待識(shí)別網(wǎng)址對(duì)應(yīng)的類型標(biāo)識(shí)序列作為隱馬爾可夫模型的待 訓(xùn)練觀測(cè)序列,并通過(guò)最大期望算法對(duì)預(yù)先訓(xùn)練的隱馬爾可夫模型參數(shù)進(jìn)行更新。
[0012] 第二方面,本申請(qǐng)?zhí)峁┝艘环N網(wǎng)址識(shí)別裝置,所述裝置包括:獲取單元,配置用于 獲取待識(shí)別網(wǎng)址;切分轉(zhuǎn)換單元,配置用于根據(jù)預(yù)設(shè)規(guī)則對(duì)所述待識(shí)別網(wǎng)址進(jìn)行切分處理, 并將切分后的各個(gè)網(wǎng)址部分轉(zhuǎn)換為與各網(wǎng)址部分的內(nèi)容類型對(duì)應(yīng)的類型標(biāo)識(shí);概率確定單 元,配置用于根據(jù)所述待識(shí)別網(wǎng)址所對(duì)應(yīng)的類型標(biāo)識(shí)序列,確定所述待識(shí)別網(wǎng)址為非垃圾 網(wǎng)址的概率值;生成單元,配置用于根據(jù)所述概率值,生成網(wǎng)址識(shí)別信息。
[0013] 在一些實(shí)施例中,所述概率確定單元包括:計(jì)算子單元,配置用于將所述類型標(biāo)識(shí) 序列作為隱馬爾可夫模型的觀測(cè)序列,并根據(jù)前向算法W及預(yù)先訓(xùn)練的隱馬爾可夫模型參 數(shù)計(jì)算所述觀測(cè)序列對(duì)應(yīng)的概率值;概率確定子單元,配置用于將計(jì)算出的概率值作為所 述待識(shí)別網(wǎng)址為非垃圾網(wǎng)址的概率值。
[0014] 在一些實(shí)施例中,所述裝置還包括:非垃圾網(wǎng)址集合獲取單元,配置用于從日志服 務(wù)器中獲取非垃圾網(wǎng)址集合;非垃圾網(wǎng)址集合切分轉(zhuǎn)換單元,配置用于根據(jù)預(yù)設(shè)規(guī)則對(duì)所 述非垃圾網(wǎng)址集合中的每個(gè)網(wǎng)址進(jìn)行切分處理,并將每個(gè)網(wǎng)址切分后的各個(gè)網(wǎng)址部分轉(zhuǎn)換 為與各網(wǎng)址部分的內(nèi)容類型對(duì)應(yīng)的類型標(biāo)識(shí),W生成包含每個(gè)網(wǎng)址對(duì)應(yīng)的類型標(biāo)識(shí)序列的 類型標(biāo)識(shí)序列集合;模型參數(shù)計(jì)算單元,配置用于將所述類型標(biāo)識(shí)序列集合作為隱馬爾可 夫模型的待訓(xùn)練觀測(cè)序列集合,并根據(jù)最大期望算法確定隱馬爾可夫模型參數(shù);模型參數(shù) 確定與更新單元,配置用于將確定的隱馬爾模型參數(shù)作為預(yù)先訓(xùn)練的隱馬爾科夫模型參 數(shù),或者根據(jù)確定的隱馬爾科夫模型參數(shù)對(duì)預(yù)先訓(xùn)練的隱馬爾科夫模型參數(shù)進(jìn)行更新。
[0015] 在一些實(shí)施例中,所述最大期望算法為前向后向算法。
[0016] 在一些實(shí)施例中,所述生成單元進(jìn)一步配置用于響應(yīng)于所述概率值大于預(yù)設(shè)概率 闊值,生成非垃圾網(wǎng)址提醒信息。
[0017] 在一些實(shí)施例中,所述生成單元進(jìn)一步配置用于響應(yīng)于所述概率值小于預(yù)設(shè)概率 闊值,生成垃圾網(wǎng)址提醒信息。
[0018] 在一些實(shí)施例中,所述裝置還包括:確認(rèn)信息接收單元,配置用于接收用戶對(duì)所述 待識(shí)別網(wǎng)址是垃圾網(wǎng)址或非垃圾網(wǎng)址的確認(rèn)信息;參數(shù)調(diào)整單元,配置用于將確認(rèn)為非垃 圾網(wǎng)址的待識(shí)別網(wǎng)址對(duì)應(yīng)的類型標(biāo)識(shí)序列作為隱馬爾可夫模型的待訓(xùn)練觀測(cè)序列,并通過(guò) 最大期望算法對(duì)預(yù)先訓(xùn)練的隱馬爾可夫模型參數(shù)進(jìn)行更新。
[0019] 本申請(qǐng)?zhí)峁┑木W(wǎng)址識(shí)別方法和裝置,將待識(shí)別網(wǎng)址轉(zhuǎn)換成對(duì)應(yīng)的類型標(biāo)識(shí)序列并 根據(jù)該類型標(biāo)識(shí)序列計(jì)算待識(shí)別網(wǎng)址為非垃圾網(wǎng)址的概率W生成網(wǎng)址識(shí)別信息,將待識(shí)別 網(wǎng)址轉(zhuǎn)換為對(duì)應(yīng)的類型標(biāo)識(shí)序列再進(jìn)行識(shí)別,只需根據(jù)類型標(biāo)識(shí)序列即可進(jìn)行識(shí)別,不需 要預(yù)先存儲(chǔ)與待識(shí)別網(wǎng)址完全對(duì)應(yīng)的歷史網(wǎng)址,從而擴(kuò)大了網(wǎng)址識(shí)別的識(shí)別范圍。
【附圖說(shuō)明】
[0020] 通過(guò)閱讀參照W下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本申請(qǐng)的其它 特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0021] 圖1是本申請(qǐng)可W應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
[0022] 圖2是根據(jù)本申請(qǐng)的網(wǎng)址識(shí)別方法的一個(gè)實(shí)施例的流程圖;
[0023] 圖3是根據(jù)本申請(qǐng)的網(wǎng)址識(shí)別方法的一個(gè)應(yīng)用場(chǎng)景的示意圖;
[0024] 圖4是根據(jù)本申請(qǐng)的網(wǎng)址識(shí)別方法的又一個(gè)實(shí)施例的流程圖;
[0025] 圖5是根據(jù)本申請(qǐng)的網(wǎng)址識(shí)別裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0026] 圖6是適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的終端設(shè)備或服務(wù)器的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)示意 圖。
【具體實(shí)施方式】
[0027] 下面結(jié)合附圖和實(shí)施例對(duì)本申請(qǐng)作進(jìn)一步的詳細(xì)說(shuō)明。可W理解的是,此處所描 述的具體實(shí)施例僅僅用于解釋相關(guān)發(fā)明,而非對(duì)該發(fā)明的限定。另外還需要說(shuō)明的是,為了 便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
[0028] 需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可W相 互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)。
[0029] 圖1示出了可W應(yīng)用本申請(qǐng)的網(wǎng)址識(shí)別方法或網(wǎng)址識(shí)別裝置的實(shí)施例的示例性系 統(tǒng)架構(gòu)100。
[0030] 如圖1所示,系統(tǒng)架構(gòu)100可W包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。 網(wǎng)絡(luò)104用W在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可W 包括各種連接類型,例如有線、無(wú)線通信鏈路或者光纖電纜等等。
[0031] 用戶可W使用終端設(shè)備101、102、103通過(guò)網(wǎng)絡(luò)104與服務(wù)器105交互,W接收或發(fā) 送消息等。終端設(shè)備101、102、103上可W安裝有各種通訊客戶端應(yīng)用,例如網(wǎng)頁(yè)瀏覽器應(yīng) 用、安全類應(yīng)用等。
[0032] 終端設(shè)備101、102、103可W是具有顯示屏的各種電子設(shè)備,包括但不限于智能手 機(jī)、平板電腦、電子書(shū)閱讀器、MP3播放器(Moving Picture E邱erts Gro叫Audio Layer III,動(dòng)態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面3)、MP4(Moving