国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于互聯(lián)網(wǎng)信息的事件預(yù)警方法

      文檔序號(hào):6442364閱讀:341來源:國知局
      專利名稱:一種基于互聯(lián)網(wǎng)信息的事件預(yù)警方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于信息技術(shù)領(lǐng)域,尤其涉及一種采用特定步驟監(jiān)控、爬取、分析互聯(lián)網(wǎng)信息,并基于此提取食品安全事件相關(guān)信息和進(jìn)行預(yù)警的方法,主要應(yīng)用于食品安全等非常規(guī)突發(fā)事件應(yīng)急處理所需的互聯(lián)網(wǎng)信息監(jiān)控、信息預(yù)警等工作中。
      背景技術(shù)
      近年來,食品安全事件諸如瘦肉精、染色饅頭、塑化劑、毒黃瓜等頻頻發(fā)生,這既造成了極壞的社會(huì)影響,也帶來了大量的經(jīng)濟(jì)損失。為了避免或最大限度的降低這些食品安全事件所帶來的危害,基于事件的風(fēng)險(xiǎn)預(yù)警技術(shù)開始得到了關(guān)注,這就需要提前發(fā)現(xiàn)這些事件的信息,及時(shí)預(yù)警并快速處理。這里面,獲取信息是應(yīng)急處理的關(guān)鍵和源頭。隨著Internet的迅猛發(fā)展,互聯(lián)網(wǎng)網(wǎng)民數(shù)量越來越龐大,互聯(lián)網(wǎng)逐漸成為網(wǎng)民發(fā)布信息、獲取信息和傳遞信息的主要載體,而且通過人、組織等之間的交流形成了一個(gè)虛擬的社會(huì),它已經(jīng)變成了世界上規(guī)模最大的公共數(shù)據(jù)源,而且其規(guī)模還正在不停的增長著。此狀況下,利用互聯(lián)網(wǎng)自身的特點(diǎn),建立起完善的社會(huì)信息反饋網(wǎng)絡(luò),提前發(fā)現(xiàn)各種可能帶來危機(jī)的“未然”因素,為食品安全事件的應(yīng)急管理提供及時(shí)、準(zhǔn)確、全面的信息就顯得勢在必行和有著非常重要的意義。從現(xiàn)實(shí)的角度看,注意到多數(shù)食品安全事件發(fā)生前,在互聯(lián)網(wǎng)上總是已經(jīng)存在一些零星的線索,為此,可以采取采集、分析互聯(lián)網(wǎng)上的相關(guān)信息后以預(yù)警的方式為這些食品安全事件的應(yīng)急管理提供直接的信息來源。為及時(shí)、準(zhǔn)確、全面獲取、掌握所需要的特定互聯(lián)網(wǎng)目標(biāo)信息,就需要用到互聯(lián)網(wǎng)信息監(jiān)控、爬取、分析和預(yù)警等相關(guān)技術(shù)。比如有研究工作利用互聯(lián)網(wǎng)信息進(jìn)行風(fēng)險(xiǎn)預(yù)警,但該研究中對收集的信息如何處理,采取何種措施,都需要人工的參與和決定。也有研究工作可以自動(dòng)的基于互聯(lián)網(wǎng)信息針對添加劑和補(bǔ)充劑等進(jìn)行食品安全風(fēng)險(xiǎn)預(yù)警,但其過程中所采集的信息主要是新聞信息,沒有考慮目前正在快速發(fā)展的Web2.0應(yīng)用諸如博客信息,同時(shí)也沒有考慮信息的質(zhì)量問題,沒有對采集的垃圾信息進(jìn)行過濾-這會(huì)影響預(yù)警的準(zhǔn)確性;信息采集過程中沒有考慮信息采集的及時(shí)、主題性等問題-這會(huì)影響預(yù)警的時(shí)效性和準(zhǔn)確性;及事件信息發(fā)現(xiàn)過程中直接將經(jīng)過關(guān)鍵詞匹配后得到的類別信息作為同一種事件信息的做法中可能存在信息對應(yīng)的主體不一致等問題。從實(shí)際的測試結(jié)果看,其信息分類、預(yù)警的準(zhǔn)確性、全面性、及時(shí)性等方面尚存在需要進(jìn)一步提聞的地方。

      發(fā)明內(nèi)容
      為解決上述的問題,本發(fā)明的目的在于提供一種采取特定步驟監(jiān)控、爬取、過濾、分析互聯(lián)網(wǎng)信息,并基于此提取食品安全事件信息和及時(shí)進(jìn)行預(yù)警的方法,以有效的應(yīng)對食品安全事件的應(yīng)急管理需要。方法的步驟如下所述。一、信息配置在明確風(fēng)險(xiǎn)預(yù)警的目標(biāo)和信息采集范圍的基礎(chǔ)上,通過預(yù)先的通用網(wǎng)頁信息爬取(非主題爬取)和網(wǎng)頁信息分析等工作,確定信息的存在區(qū)域、存在特點(diǎn),并據(jù)此對數(shù)據(jù)源、風(fēng)險(xiǎn)預(yù)警目標(biāo)等進(jìn)行系統(tǒng)配置,為后面的信息監(jiān)控、爬取、分析等步驟奠定基礎(chǔ)。二、信息爬取在前面信息配置的基礎(chǔ)上,通過預(yù)先的頻繁頁面信息爬取等工作,建立目標(biāo)網(wǎng)站導(dǎo)航頁面變化的時(shí)間序列預(yù)測模型以及頁面主題相關(guān)等的判斷模型,據(jù)此進(jìn)行網(wǎng)頁信息的及時(shí)和主題爬取,將相關(guān)信息進(jìn)行保存,并在此基礎(chǔ)上及時(shí)進(jìn)行判斷模型等的更新。三、垃圾信息過濾對爬取得到的網(wǎng)頁信息進(jìn)行垃圾信息過濾。其中對于欺騙性垃圾意見,首先采用啟發(fā)式方法、正反向確認(rèn)的方式建立準(zhǔn)確的欺騙性垃圾意見集合,并在此基礎(chǔ)上通過“從正例和無標(biāo)注數(shù)據(jù)中學(xué)習(xí)”的機(jī)器學(xué)習(xí)方法建立欺騙性垃圾意見檢測模型;基于此即可進(jìn)行垃圾意見的檢測識(shí)別(包括黑名單識(shí)別、反向識(shí)別、模型識(shí)別),并定期進(jìn)行后期的樣本、模型更新。對于其他類型的垃圾信息(包括通過內(nèi)容作弊、鏈接作弊等方式生成的垃圾頁面、以及用戶生成內(nèi)容中的無關(guān)意見和低質(zhì)量意見等),通過標(biāo)注正反例樣本后采用機(jī)器學(xué)習(xí)方法建立檢測模型進(jìn)行識(shí)別(信息特征主要包括內(nèi)容、內(nèi)容分布、鏈接三個(gè)緯度)。四、事件信息發(fā)現(xiàn)對于經(jīng)過垃圾信息過濾后的信息,在建立的食品安全事件信息本體基礎(chǔ)上,通過信息分類、事件區(qū)分、趨勢追蹤和信息預(yù)警等技術(shù),提取得到食品安全事件的相關(guān)信息并進(jìn)行保存(含預(yù)警結(jié)果)。五、信息服務(wù)經(jīng)過信息爬取、垃圾信息過濾、事件信息發(fā)現(xiàn)等步驟后,將識(shí)別發(fā)現(xiàn)的食品安全事件相關(guān)信息等保存到數(shù)據(jù)庫中,并基于此通過信息展示、檢索等方式提供給相關(guān)人員或直接提供給決策支持系統(tǒng)使用。本發(fā)明在信息爬取過程中,綜合使用了主題信息爬取、及時(shí)信息爬取技術(shù),具體的建立了基于信息標(biāo)題、內(nèi)容、鏈接等的主題判斷模型、基于時(shí)間序列的導(dǎo)航頁面變化預(yù)測模型,以此為基礎(chǔ)保證了網(wǎng)頁信息爬取的及時(shí)性和主題相關(guān)性,提高了效率。本發(fā)明在信息分析之前引入垃圾信息過濾的工作,提高后續(xù)處理的信息質(zhì)量,這從根本上為保證風(fēng)險(xiǎn)預(yù)警的準(zhǔn)確奠定了基礎(chǔ)。本發(fā)明在垃圾信息過濾工作中,針對的Web垃圾主要包括Web垃圾頁面和用戶生成內(nèi)容中的垃圾意見兩種。其中,Web垃圾頁面可分為內(nèi)容作弊頁面、鏈接作弊頁面;垃圾意見可分為不可信意見、低質(zhì)量意見、無關(guān)意見。本發(fā)明在垃圾信息過濾過程中,針對欺騙性垃圾意見,通過啟發(fā)式方法和正反向確認(rèn)的方法建立了準(zhǔn)確的欺騙性垃圾意見集合,并形成了無標(biāo)注的用戶生成內(nèi)容網(wǎng)頁集合,然后采用“從正例和無標(biāo)注數(shù)據(jù)中學(xué)習(xí)”技術(shù)基于意見作者、意見內(nèi)容、內(nèi)容分布、鏈接四個(gè)緯度的特征等建立了檢測模型,并采用黑名單識(shí)別、反向識(shí)別、模型識(shí)別的方法檢測欺騙性垃圾意見,從而保證了欺騙性垃圾意見的準(zhǔn)確識(shí)別。本發(fā)明在對內(nèi)容作弊頁面、鏈接作弊頁面、低質(zhì)量意見、無關(guān)意見等垃圾信息進(jìn)行過濾的過程中,基于內(nèi)容、內(nèi)容分布、鏈接三個(gè)緯度的特征采用機(jī)器學(xué)習(xí)方法(諸如支持向量機(jī)等)建立檢測模型,進(jìn)行垃圾信息的識(shí)別判斷。本發(fā)明在事件信息發(fā)現(xiàn)過程中,采取了建立本體、對網(wǎng)頁信息進(jìn)行基于本體的信息分類、聚類區(qū)分、趨勢追蹤和預(yù)警等分析處理,綜合提高了事件信息發(fā)現(xiàn)、預(yù)警的準(zhǔn)確率和召回率。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn):本發(fā)明綜合網(wǎng)頁信息的及時(shí)爬取、主題爬取技術(shù)、垃圾信息過濾尤其是欺騙性垃圾意見過濾技術(shù)、基于本體的食品安全事件信息發(fā)現(xiàn)技術(shù),對食品安全事件信息進(jìn)行監(jiān)控、爬取、過濾、分析、事件信息發(fā)現(xiàn)和預(yù)警,從而保證了食品安全事件信息識(shí)別、預(yù)警的及時(shí)性、準(zhǔn)確率和召回率,提高了食品安全風(fēng)險(xiǎn)預(yù)警的效率。


      圖1基于互聯(lián)網(wǎng)信息的事件預(yù)警方法流程圖;圖2信息爬取流程圖;圖3垃圾信息過濾示意圖;圖4欺騙性垃圾意見過濾流程圖;圖5事件信息發(fā)現(xiàn)流程圖。
      具體實(shí)施例方式借鑒智能系統(tǒng)的思路,本發(fā)明的具體實(shí)施方式
      如圖1所示。下面詳述其步驟。一、信息配置在明確風(fēng)險(xiǎn)預(yù)警的目標(biāo)和信息采集范圍的基礎(chǔ)上,通過預(yù)先的信息爬取和整理等步驟,確定信息的存在區(qū)域、存在特征,并據(jù)此對數(shù)據(jù)源、風(fēng)險(xiǎn)預(yù)警目標(biāo)等進(jìn)行系統(tǒng)配置(初始化),這是后面進(jìn)行信息爬取、分析的基礎(chǔ)。具體步驟如下所述。(一 )數(shù)據(jù)源配置1.收集相關(guān)信息Url地址按照預(yù)定的主題含義,首先選擇確定部分(比如3-5個(gè))主題關(guān)鍵詞;在通用搜索引擎上輸入這些主題關(guān)鍵詞,得到查詢結(jié)果列表;對查詢結(jié)果進(jìn)行整理和Url提取,得到部分相關(guān)信息的Url地址。2.初始Url設(shè)置及網(wǎng)頁信息爬取選用互聯(lián)網(wǎng)信息爬蟲軟件(比如Heritrix、Nutch等),并將步驟一(一)I整理得到的這些Url地址作為種子Url地址在軟件中進(jìn)行設(shè)置,同時(shí)選擇網(wǎng)頁信息爬取的層數(shù)、信息爬取的最大頁面數(shù)等參數(shù)(事先確定)并在軟件中進(jìn)行設(shè)置,之后采用通用互聯(lián)網(wǎng)信息爬取的方式(不進(jìn)行主題相關(guān)判斷、及時(shí)性預(yù)測)進(jìn)行網(wǎng)頁信息爬取。并將爬取得到的網(wǎng)頁信息保存到數(shù)據(jù)庫中。3、網(wǎng)頁信息整理將所有爬取到的網(wǎng)頁進(jìn)行鏈接結(jié)構(gòu)分析(通過構(gòu)建鏈接圖分析)。分析的內(nèi)容主要是對爬取得到的網(wǎng)頁進(jìn)行信息源及導(dǎo)航頁面整理、確認(rèn)。即將網(wǎng)頁信息按照其所屬網(wǎng)站及鏈接關(guān)系不同進(jìn)行歸納,找出這些網(wǎng)頁所屬的網(wǎng)站及網(wǎng)站的導(dǎo)航頁面。4、線程分配將步驟一(一)3整理出來的每一個(gè)網(wǎng)站及其導(dǎo)航頁面作為網(wǎng)頁信息監(jiān)控的對象,并分配給一特定的網(wǎng)頁信息爬取線程進(jìn)行信息爬取。這就形成了一個(gè)目標(biāo)Url及對應(yīng)爬取線程的網(wǎng)站監(jiān)控列表。(二)風(fēng)險(xiǎn)預(yù)警目標(biāo)配置在明確風(fēng)險(xiǎn)預(yù)警的目標(biāo)基礎(chǔ)上,對每一個(gè)需要預(yù)警的風(fēng)險(xiǎn)按照名稱、類別、識(shí)別規(guī)則(事先構(gòu)建)等配置導(dǎo)入到系統(tǒng)中,以備后續(xù)信息分析、事件發(fā)現(xiàn)之用。二、信息爬取結(jié)合主題爬取、及時(shí)爬取技術(shù)的互聯(lián)網(wǎng)信息爬取過程如圖2所示,具體的如下所述。(一 )頁面頻繁爬取在一定的時(shí)間范圍內(nèi)(比如2個(gè)月),每個(gè)線程以較低的時(shí)間間隔(比如2分鐘,據(jù)經(jīng)驗(yàn)事先確定)對指定網(wǎng)站的導(dǎo)航頁面及其子鏈接頁面進(jìn)行爬取、保存,并提取、記錄導(dǎo)航頁面的最后變更時(shí)間等信息,將導(dǎo)航網(wǎng)頁的相關(guān)元數(shù)據(jù)(含每次采集得到的頁面最后變更時(shí)間等)一并保存到數(shù)據(jù)庫中。( 二)建立模型1、網(wǎng)頁信息整理、標(biāo)注對步驟二( 一)爬取得到的網(wǎng)頁進(jìn)行整理、標(biāo)注。整理、標(biāo)注的內(nèi)容主要是對爬取得到的網(wǎng)頁進(jìn)行主題相關(guān)判斷和標(biāo)注(類別主要分為三種:相關(guān)、不相關(guān)、后續(xù)頁面),如果爬取的網(wǎng)頁信息和預(yù)定的主題相關(guān),則標(biāo)注為相關(guān)頁面;如果爬取的網(wǎng)頁信息和預(yù)定主題不相關(guān),則標(biāo)注為不相關(guān)頁面;如果頁面內(nèi)容是某一網(wǎng)頁的后續(xù)頁面,則標(biāo)注為后續(xù)頁面。這樣對步驟一整理出來的每一個(gè)網(wǎng)站,均有一個(gè)對應(yīng)的主題相關(guān)頁面集合、主題不相關(guān)頁面集合、后續(xù)頁面集合。具體的,對每一個(gè)網(wǎng)站的網(wǎng)頁,可分為導(dǎo)航頁面、內(nèi)容頁面(又可分為主題相關(guān)頁面、主題不相關(guān)頁面)、后續(xù)頁面(如下一頁等)等類別。2、建立時(shí)間序列預(yù)測模型對步驟一整理出來的每一個(gè)網(wǎng)站(及其導(dǎo)航頁面),以前面收集的導(dǎo)航頁面的變更時(shí)間(即其子鏈接頁面的發(fā)布時(shí)間)為基礎(chǔ),整理形成導(dǎo)航頁面變更的時(shí)間序列。考慮到信息監(jiān)控的主題相關(guān)需求,這里在時(shí)間序列中排除不相關(guān)頁面的情況,從而最終形成一個(gè)網(wǎng)站導(dǎo)航頁面的變更時(shí)間序列(即主題相關(guān)子頁面發(fā)布時(shí)間序列)。在此基礎(chǔ)上,建立針對導(dǎo)航頁面變更的時(shí)間序列預(yù)測模型。其過程為:首先將時(shí)間分為節(jié)假日、工作日兩種類型,對每一種類型的時(shí)間,又分為兩種子類型,分別是6:00-18:00,18:00-6:00兩個(gè)時(shí)間段。這樣,前面建立的時(shí)間序列就可以分為4種類型,相應(yīng)的,時(shí)間序列預(yù)測模型也需要針對這四種類型的時(shí)間序列建立。方法中建立的時(shí)間序列預(yù)測模型主要原理是:依據(jù)歷史時(shí)期內(nèi)導(dǎo)航頁面的變更時(shí)間序列,預(yù)測以后導(dǎo)航頁面的變更情況。即:導(dǎo)航頁面的下一次變更時(shí)間Tnrart (下一次變更時(shí)間)=Tcurrent (當(dāng)前變更時(shí)間)+Tinteval(變更的時(shí)間段)。其中,Tinterval依據(jù)歷史時(shí)期內(nèi)導(dǎo)航頁面的變更時(shí)間序列計(jì)算得到,則問題轉(zhuǎn)變?yōu)榇_定Tinteval。為了確定Tintwval,方法中采取的模式是用以前的變更時(shí)間段均值去預(yù)測下一次變更的時(shí)間段。這里面就出現(xiàn)一個(gè)問題:用以前的哪些變更時(shí)間段去預(yù)測下一次變更的時(shí)間段呢?為此,方法中定義了一個(gè)時(shí)間窗口的概念TwindOT,設(shè)Twindmt的長度為N,則有:
      權(quán)利要求
      1.一種基于互聯(lián)網(wǎng)信息的事件預(yù)警方法,其步驟為: 1)對每一設(shè)定網(wǎng)站進(jìn)行網(wǎng)頁信息爬取并保存,得到與事件相關(guān)的信息; 2)對爬取得到的與事件相關(guān)的信息進(jìn)行垃圾信息過濾; 3)建立事件信息本體,基于所述事件信息本體中的實(shí)例名稱和屬性采用模式匹配方法對過濾后的信息進(jìn)行分類; 4)對分類后的信息按照設(shè)定特征進(jìn)行聚類,得到每一類信息中所包含的事件; 5)定期計(jì)算每一事件的各特征參數(shù)值;如果某事件的各特征參數(shù)值和其之前一定時(shí)期內(nèi)的均值之間的差值超過事先設(shè)定的閾值,則對該事件進(jìn)行預(yù)警。
      2.如權(quán)利要求1所述的方法,其特征在于對設(shè)定網(wǎng)站進(jìn)行網(wǎng)頁信息爬取得到與事件相關(guān)信息的方法為: a)將設(shè)定初始地址作為種子地址進(jìn)行網(wǎng)頁信息爬取并保存,確定所爬取網(wǎng)頁所屬網(wǎng)站及網(wǎng)站的導(dǎo)航頁面; b)將確定出的每一網(wǎng)站導(dǎo)航頁面作為一爬取對象分配一網(wǎng)頁信息爬取線程,并建立一目標(biāo)地址及對應(yīng)爬取線程的監(jiān)控列表;然后設(shè)定所述網(wǎng)頁信息爬取線程的爬取時(shí)間間隔,在設(shè)定爬取時(shí)間范圍內(nèi)對每一所述爬取對象進(jìn)行定期的多次爬取,并對其子頁面爬取保存; c)對步驟b)爬取的網(wǎng)頁進(jìn)行主題相關(guān)判斷和標(biāo)注,將爬取的每一網(wǎng)站的頁面分別標(biāo)注為:主題相關(guān)頁面、主題不相關(guān)頁面、后續(xù)頁面; d)基于標(biāo)注的頁面集合及形成的無標(biāo)注樣本集合,建立每一網(wǎng)站的頁面主題相關(guān)判斷模型、頁面主題不相關(guān)判斷模型、后續(xù)頁面判斷模型及基于內(nèi)容和鏈接的通用主題相關(guān)判斷模型;根據(jù)每次爬取時(shí)網(wǎng)站導(dǎo)航頁面的主題相關(guān)子頁面的發(fā)布時(shí)間建立一導(dǎo)航頁面變更時(shí)間序列,創(chuàng)建每一網(wǎng)站的導(dǎo)航頁面變更時(shí)間序列預(yù)測模型; e)利用所述導(dǎo)航頁面變更時(shí)間序列預(yù)測模型預(yù)測每一網(wǎng)站導(dǎo)航頁面下一次變更時(shí)間,然后利用該變更時(shí)間預(yù)測值確定每一網(wǎng)站導(dǎo)航頁面的下一爬取時(shí)間,爬取網(wǎng)站導(dǎo)航頁面并提取其中未爬取過的子頁面地址和錨文本; f)利用所建頁面主題相關(guān)判斷模型、頁面主題不相關(guān)判斷模型、后續(xù)頁面判斷模型和通用主題判斷模型對上一步提取的子頁面地址和錨文本進(jìn)行判斷:如果子頁面屬于后續(xù)頁面類別,則繼續(xù)進(jìn)行爬?。蝗绻禹撁鎸儆谥黝}相關(guān)頁面,則爬取保存;如果子頁面屬于主題不相關(guān)頁面類別,則放棄; g)基于新爬取的主題相關(guān)頁面,形成或更新每一網(wǎng)站導(dǎo)航頁面的當(dāng)前變更時(shí)間序列,采用步驟e)方法確定每一網(wǎng)站導(dǎo)航頁面下一爬取時(shí)間進(jìn)行網(wǎng)頁爬取。
      3.如權(quán)利要求2所述的方法,其特征在于將時(shí)間分為節(jié)假日、工作日兩種類型,對每一種類型的時(shí)間分別劃分兩個(gè)時(shí)間段,從而將所述變更時(shí)間序列分為4種類型,對每一類型時(shí)間序列建立一導(dǎo)航頁面變更時(shí)間序列預(yù)測模型。
      4.如權(quán)利要求2或3所述的方法,其特征在于利用所述導(dǎo)航頁面變更時(shí)間序列預(yù)測模型預(yù)測每一網(wǎng)站導(dǎo)航頁面下一次變更時(shí)間的方法為:導(dǎo)航頁面的下一次變更時(shí)間Tnrart =當(dāng)前變更時(shí)間Tmt+變更的時(shí)間段Tinteval ;其中,Tinterval= ^Tmtervali /N,N為設(shè)定的時(shí)間窗口 ITwindow 的長度。
      5.如權(quán)利要求4所述的方法,其特征在于確定N值的方法為:根據(jù)所述導(dǎo)航頁面歷史變更時(shí)間序列計(jì)算每次導(dǎo)航頁面變更的實(shí)KTintwval;然后采用不同的時(shí)間窗口內(nèi)的實(shí)際Tinterval預(yù)測歷史變更時(shí)間序列內(nèi)下一次變更的Tinteval,并計(jì)算預(yù)測值和實(shí)際的變更值之間的相關(guān)系數(shù),選取預(yù)測值和實(shí)際的變更值之間的相關(guān)性最強(qiáng)時(shí)的時(shí)間窗口長度值確定為N值。
      6.如權(quán)利要求5所述的方法,其特征在于確定每一網(wǎng)站導(dǎo)航頁面的下一爬取時(shí)間T的方法為:如果 Min < Tl < Max,則 T = Tcur+Tl ;如果 Max < Tl,則 T = Tcur+Max ;如果 Tl< Min,則T = Tcur+Min ;其中,Tcur為網(wǎng)站導(dǎo)航頁面當(dāng)前變更時(shí)間,Tl為網(wǎng)站導(dǎo)航頁面下一次變更時(shí)間段預(yù)測值,Max為網(wǎng)站導(dǎo)航頁面下一次變更時(shí)間段預(yù)測值的最大閾值,Min為網(wǎng)站導(dǎo)航頁面下一次變更時(shí)間段預(yù)測值的最小閾值。
      7.如權(quán)利要求6所述的方法,其特征在于,如果某一次導(dǎo)航頁面爬取過程中,不存在新的主題相關(guān)子頁面,貝1J更新T1 = L+Min。
      8.如權(quán)利要求2所述的方法,其特征在于基于標(biāo)注的主題相關(guān)頁面集合和由其他頁面組成的無標(biāo)注樣本集合建立所述通用主題相關(guān)判斷模型的方法為:首先,將信息頁面內(nèi)容分詞、去除停用詞后得到各詞語的頻率,并選擇頻率法降維后形成向量,設(shè)為P ;然后,計(jì)算信息頁面的網(wǎng)站內(nèi)出鏈數(shù)占總出鏈數(shù)比例、網(wǎng)站外出鏈數(shù)占總出鏈數(shù)比例、信息鏈接主題相關(guān)頁面集合內(nèi)的信息數(shù)占總出鏈數(shù)比例、主題相關(guān)頁面集合內(nèi)鏈接信息的數(shù)量占總頁面數(shù)比例,并將各項(xiàng)參數(shù)加權(quán)計(jì)算得到總的數(shù)值,設(shè)為k ;然后采用聯(lián)合特征向量k*P表征信息頁面,利用偏置SVM機(jī)器學(xué)習(xí)方法建立基于內(nèi)容、鏈接的通用主題相關(guān)判斷模型。
      9.如權(quán)利要求8所述的方法,其特征在于所述步驟f)中,首先將錨文本作為特征,利用所建頁面主題相關(guān)判斷模型、頁面主題不相關(guān)判斷模型、后續(xù)頁面判斷模型對步驟e)提取的未爬取子頁面地址和錨文本進(jìn)行判斷,如果子頁面屬于后續(xù)頁面類別,則繼續(xù)進(jìn)行爬?。蝗绻禹撁鎸儆谥黝}相關(guān)頁面,則爬取保存;如果子頁面屬于主題不相關(guān)頁面類別,則放棄;否則直接爬取子頁 面后基于網(wǎng)頁內(nèi)容和鏈接建立特征向量,利用所建通用主題相關(guān)判斷模型對爬取的頁面進(jìn)行判斷,對于屬于主題相關(guān)的類別,則標(biāo)注保存,否則放棄。
      10.如權(quán)利要求1所述的方法,其特征在于對一網(wǎng)站爬取得到的與事件相關(guān)的信息進(jìn)行非欺騙性垃圾意見的垃圾信息過濾,其方法為: a)選取部分與事件相關(guān)的信息,并對其進(jìn)行標(biāo)注,得到垃圾信息集合和非垃圾信息集合; b)從信息內(nèi)容、信息內(nèi)容分布、信息鏈接特征三個(gè)緯度對所述垃圾信息集合和非垃圾信息集合樣本進(jìn)行特征提取,生成每一維度的特征向量; c)采用機(jī)器學(xué)習(xí)方法基于所述垃圾信息集合和非垃圾信息集合建立基于每一維度特征的非欺騙性垃圾意見的垃圾信息檢測模型; d)利用所述非欺騙性垃圾意見的垃圾信息檢測模型對所述與事件相關(guān)的信息進(jìn)行非欺騙性垃圾意見的垃圾信息過濾。
      11.如權(quán)利要求10所述的方法,其特征在于對一網(wǎng)站爬取得到的與事件相關(guān)的信息進(jìn)行欺騙性垃圾意見過濾,其方法為: a)選取部分與事件相關(guān)的信息并生成用戶生成內(nèi)容網(wǎng)頁集合,對用戶生成內(nèi)容網(wǎng)頁進(jìn)行標(biāo)注,得到候選欺騙性垃圾意見集合;b)對候選欺騙性垃圾意見集合中的每一個(gè)樣本進(jìn)行過濾,對確定的欺騙性垃圾意見進(jìn)行標(biāo)注,得到準(zhǔn)確欺騙性垃圾意見集合; c)從意見作者、意見內(nèi)容、意見內(nèi)容分布、鏈接特征四個(gè)緯度對所述準(zhǔn)確欺騙性垃圾意見集合和無標(biāo)注的用戶生成內(nèi)容網(wǎng)頁集合進(jìn)行特征提取,生成每一維度的特征向量; d)采用機(jī)器學(xué)習(xí)方法基于所述準(zhǔn)確欺騙性垃圾意見集合和無標(biāo)注用戶生成內(nèi)容集合建立每一維度的欺騙性垃圾意見檢測模型; e)利用所述欺騙性垃圾意見檢測模型對所述與事件相關(guān)的信息進(jìn)行欺騙性垃圾意見過濾。
      12.如權(quán)利要求1所述的方法,其特征在于從事件信息的對象、區(qū)域、結(jié)果、關(guān)聯(lián)者、時(shí)間五個(gè)緯度創(chuàng)建所述事件信息本體;對所述事件信息本體中的每一實(shí)例建立包括該實(shí)例名稱的同義詞、反義詞、別名詞的附加表。
      13.如權(quán)利要求12所述的方法,其特征在于所述步驟3)的分類方法為:對于設(shè)定的每一信息類別,首先對信息的標(biāo)題采用模式匹配方法進(jìn)行分類,如果某信息可以被歸入當(dāng)前所選的信息類別,則針對此信息類別的模式匹配分類處理完畢;否則對該信息的內(nèi)容采用模式匹配方法進(jìn)行分類,判斷其是否可歸入當(dāng)前所選信息類別;并且對設(shè)定的每一信息類別還包括:a)基于建立的事件信息本體及標(biāo)注過的樣本集合采用支持向量機(jī)機(jī)器學(xué)習(xí)方法,分別針對設(shè)定的每一信息類別建立一基于信息標(biāo)題和內(nèi)容的分類判斷模型,對信息進(jìn)行分類處理;b)基于建立的事件信息本體及標(biāo)注過的樣本集合采用KNN機(jī)器學(xué)習(xí)方法,分別針對設(shè)定的每一信息類別建立一基于信息標(biāo)題和內(nèi)容的分類判斷模型,對信息進(jìn)行分類處理;最后根據(jù)步驟3)、a)、b)三種方法的分類結(jié)果中占多數(shù)者決定信息是否應(yīng)該歸入某一個(gè)類別。
      14.如權(quán)利要求1所述的方法,其特征在于對分類后的信息進(jìn)行聚類處理的方法為:對信息標(biāo)題和內(nèi)容進(jìn)行分詞、去除停用詞后提取和所述事件信息本體中對象、區(qū)域、結(jié)果、關(guān)聯(lián)者四個(gè)緯度實(shí)例名稱、屬 性相匹配的詞語作為特征進(jìn)行聚類計(jì)算;同時(shí)對聚類過程中屬于同一事件的信息進(jìn)行篩選,選取設(shè)定發(fā)布時(shí)間段內(nèi)的信息作為同一事件的信息。
      15.如權(quán)利要求1所述的方法,其特征在于對事件進(jìn)行預(yù)警的閾值設(shè)定方法為:在收集事件各特征參數(shù)的歷史變化數(shù)據(jù)基礎(chǔ)上,結(jié)合經(jīng)過確認(rèn)的歷史事件的發(fā)生時(shí)間、區(qū)域、規(guī)模,計(jì)算事件各特征參數(shù)值和其之前一定時(shí)期內(nèi)的均值之間的差值形成變量并作為自變量,將表示設(shè)定事件是否發(fā)生的變量作為因變量,采用logistic回歸分析的方法建立上述自變量、因變量之間的回歸預(yù)測模型;然后基于此模型,選擇使得因變量值為I的自變量值作為閾值;其中因變量值為I表示事件發(fā)生,O表示事件未發(fā)生。
      16.如權(quán)利要求1所述的方法,其特征在于所述事件為食品安全事件;所述事件特征參數(shù)包括:信息頁面數(shù)、頁面瀏覽數(shù)、頁面轉(zhuǎn)發(fā)數(shù)、信息來源區(qū)域數(shù)、信息來源網(wǎng)站數(shù)以及綜合這些參數(shù)形成的綜合指數(shù)。
      全文摘要
      本發(fā)明公開了一種基于互聯(lián)網(wǎng)信息的事件預(yù)警方法,屬于信息技術(shù)領(lǐng)域。其方法為1)對每一設(shè)定網(wǎng)站進(jìn)行網(wǎng)頁信息爬取并保存,得到與事件相關(guān)的信息;2)對爬取得到的與事件相關(guān)的信息進(jìn)行垃圾信息過濾;3)建立事件信息本體,基于所述事件信息本體中的實(shí)例名稱和屬性采用模式匹配方法對過濾后的信息進(jìn)行分類;4)對分類后的信息按照設(shè)定特征進(jìn)行聚類,得到每一類信息中所包含的事件;5)定期計(jì)算每一事件的各特征參數(shù)值,如果某事件的各特征參數(shù)值和其之前一定時(shí)期內(nèi)的均值之間的差值超過事先設(shè)定的閾值,則對該事件進(jìn)行預(yù)警。本發(fā)明保證了食品安全事件信息識(shí)別、預(yù)警的及時(shí)性、準(zhǔn)確性、全面性,提高了食品安全風(fēng)險(xiǎn)預(yù)警的效率。
      文檔編號(hào)G06F17/30GK103176983SQ201110430949
      公開日2013年6月26日 申請日期2011年12月20日 優(yōu)先權(quán)日2011年12月20日
      發(fā)明者楊風(fēng)雷, 黎建輝 申請人:中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1