国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向特定區(qū)域的事件發(fā)生風(fēng)險(xiǎn)預(yù)測(cè)并預(yù)警方法

      文檔序號(hào):6492058閱讀:290來(lái)源:國(guó)知局
      一種面向特定區(qū)域的事件發(fā)生風(fēng)險(xiǎn)預(yù)測(cè)并預(yù)警方法
      【專利摘要】本發(fā)明公開了一種面向特定區(qū)域的事件發(fā)生風(fēng)險(xiǎn)預(yù)測(cè)并預(yù)警方法。本方法為:1)對(duì)爬取的網(wǎng)頁(yè)信息進(jìn)行過濾;2)對(duì)網(wǎng)頁(yè)信息中表示處所的詞語(yǔ)進(jìn)行解析,得到地名詞語(yǔ);基于所建信息本體對(duì)網(wǎng)頁(yè)信息進(jìn)行處理,將網(wǎng)頁(yè)信息歸入匹配區(qū)域;3)利用回歸分析模型對(duì)網(wǎng)頁(yè)信息進(jìn)行處理,判斷每一網(wǎng)頁(yè)相關(guān)的對(duì)象類別;4)根據(jù)網(wǎng)頁(yè)所屬區(qū)域及其相關(guān)的對(duì)象類別,得到設(shè)定區(qū)域、對(duì)象的事件的網(wǎng)頁(yè)信息集合,建立事件的特征參數(shù)并定期計(jì)算參數(shù)值,如果某事件的特征參數(shù)值持續(xù)超過設(shè)定閾值則對(duì)該事件進(jìn)行預(yù)警;5)如果某區(qū)域出現(xiàn)設(shè)定對(duì)象事件預(yù)警,基于矩陣分析和回歸預(yù)測(cè)模型對(duì)目標(biāo)區(qū)域發(fā)生該設(shè)定事件的風(fēng)險(xiǎn)進(jìn)行不同級(jí)別的預(yù)警。本發(fā)明提高了風(fēng)險(xiǎn)預(yù)警的效率。
      【專利說明】一種面向特定區(qū)域的事件發(fā)生風(fēng)險(xiǎn)預(yù)測(cè)并預(yù)警方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于信息【技術(shù)領(lǐng)域】,尤其涉及一種對(duì)爬取得到的互聯(lián)網(wǎng)信息進(jìn)行特定處理,基于此對(duì)特定區(qū)域發(fā)生特定事件的風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)并進(jìn)行預(yù)警的方法,主要應(yīng)用于食品安全信息監(jiān)控、風(fēng)險(xiǎn)預(yù)警等非常規(guī)突發(fā)事件的應(yīng)急處理工作中。
      【背景技術(shù)】
      [0002]近年來(lái),食品安全事件諸如毒膠囊、回鍋油、瘦肉精、染色饅頭、塑化劑、毒黃瓜等頻頻發(fā)生,這既造成了極壞的社會(huì)影響,也帶來(lái)了大量的經(jīng)濟(jì)損失。為了避免或最大限度的降低這些食品安全事件所帶來(lái)的危害,基于事件的風(fēng)險(xiǎn)預(yù)警技術(shù)開始得到了極大關(guān)注。為進(jìn)行基于事件的風(fēng)險(xiǎn)預(yù)警,這就需要提前發(fā)現(xiàn)這些事件的信息。
      [0003]隨著Internet的迅猛發(fā)展,互聯(lián)網(wǎng)網(wǎng)民數(shù)量越來(lái)越龐大,互聯(lián)網(wǎng)逐漸成為網(wǎng)民發(fā)布信息、獲取信息和傳遞信息的主要載體,而且通過人、組織等之間的交互形成了一個(gè)和現(xiàn)實(shí)社會(huì)有一定的對(duì)應(yīng)、關(guān)聯(lián)關(guān)系的虛擬社會(huì)。它已經(jīng)變成了世界上規(guī)模最大的公共數(shù)據(jù)源,而且其規(guī)模還正在不停的增長(zhǎng)著。此狀況下,利用互聯(lián)網(wǎng)自身的特點(diǎn),建立起完善的社會(huì)信息反饋網(wǎng)絡(luò),提前發(fā)現(xiàn)各種可能帶來(lái)危機(jī)的“未然”因素,為食品安全事件的應(yīng)急管理提供及時(shí)、準(zhǔn)確、全面的信息就顯得勢(shì)在必行和有著非常重要的意義。
      [0004]為利用互聯(lián)網(wǎng)上的信息進(jìn)行食品安全事件的風(fēng)險(xiǎn)預(yù)警,需要經(jīng)過一定的過程得到事件相關(guān)的信息。這首先需要進(jìn)行互聯(lián)網(wǎng)信息爬取,之后即可進(jìn)行食品安全事件相關(guān)的信息提取、發(fā)現(xiàn)工作,待發(fā)展到一定程度后即可進(jìn)行預(yù)警。在這樣一個(gè)過程里面,其中的關(guān)鍵步驟是進(jìn)行事件信息的識(shí)別,理論上這可以通過各種有監(jiān)督的機(jī)器學(xué)習(xí)或者無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn),但結(jié)合實(shí)際的信息需求和準(zhǔn)確度、可操作性等的考慮,往往采取一些變通的措施。比如有研究工作采取的方式是:事先建立一些信息分類(比如疾病),針對(duì)每個(gè)分類收集一些關(guān)鍵詞,之后對(duì)收集到的網(wǎng)頁(yè)信息以這些分類和關(guān)鍵詞為基礎(chǔ),采取關(guān)鍵詞匹配的方式進(jìn)行信息分類,并在此基礎(chǔ)上監(jiān)控類別信息即事件的發(fā)展。也有研究工作采用了信息的相關(guān)性檢測(cè)、命名實(shí)體識(shí)別、利用疾病和地址的信息提取、可視化的展示結(jié)果等步驟進(jìn)行事件信息的識(shí)別和判斷的做法。
      [0005]從評(píng)估試驗(yàn)的結(jié)果看,上述做法中事件信息的判斷、識(shí)別、預(yù)警等還存在性能上的不足(準(zhǔn)確率、召回率等參數(shù)有待進(jìn)一步提高)。對(duì)此,如果考慮到上述方法中未考慮信息中存在的各種垃圾信息的影響、截止目前信息提取技術(shù)的準(zhǔn)確度尚未足夠高、及直接將經(jīng)過關(guān)鍵詞匹配后得到的類別信息作為同一種事件信息的做法中可能存在信息對(duì)應(yīng)的主體不一致等問題,上述方法存在性能上的不足也就不足為奇了。
      [0006]更進(jìn)一步,在通過事件信息發(fā)現(xiàn)方法提取出相關(guān)區(qū)域所發(fā)生的事件信息后,如果能對(duì)特定區(qū)域發(fā)生特定事件(當(dāng)前尚未發(fā)生)的風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),即對(duì)其是否會(huì)發(fā)生此種事件,以及多長(zhǎng)時(shí)間后可能會(huì)發(fā)生等進(jìn)行預(yù)測(cè)并預(yù)警,將對(duì)特定區(qū)域的風(fēng)險(xiǎn)監(jiān)測(cè)和預(yù)警有著非常重要的意義。通過查閱文獻(xiàn),尚未發(fā)現(xiàn)此類研究。
      【發(fā)明內(nèi)容】

      [0007]為解決上述的問題,本發(fā)明的目的在于提供一種采取特定步驟對(duì)網(wǎng)頁(yè)信息的內(nèi)容進(jìn)行分析,之后對(duì)特定區(qū)域發(fā)生特定事件的風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)并預(yù)警的方法。方法中借鑒智能系統(tǒng)思路,形成的步驟如下所述。
      [0008]1、建立本體
      [0009]依據(jù)食品安全事件的特點(diǎn)和后期信息分析的需要,從對(duì)象、區(qū)域、結(jié)果、關(guān)聯(lián)者、時(shí)間等緯度建立食品安全事件信息本體。從而為食品安全事件的信息過濾、信息發(fā)現(xiàn)等提供了基礎(chǔ)。
      [0010]2、信息過濾
      [0011]在上述建立的本體基礎(chǔ)上,對(duì)爬取得到的網(wǎng)頁(yè)信息進(jìn)行過濾。過濾過程主要分為兩個(gè)部分:食品安全信息過濾、垃圾信息過濾。其中前者主要是通過對(duì)信息的標(biāo)題、內(nèi)容等采取模式匹配的方法確定其是否屬于食品安全信息;后者主要是對(duì)通過內(nèi)容、鏈接作弊的垃圾信息、以及用戶生成內(nèi)容中的無(wú)關(guān)意見、低質(zhì)量意見和欺騙性垃圾意見通過建立的檢測(cè)模型進(jìn)行過濾。從而保證進(jìn)入后續(xù)過程的信息的質(zhì)量。
      [0012]3、區(qū)域信息發(fā)現(xiàn)
      [0013]在上述建立的區(qū)域信息本體基礎(chǔ)上,對(duì)爬取、過濾后的信息的標(biāo)題、內(nèi)容等進(jìn)行地名代詞等解析后,采取模式匹配、基于機(jī)器學(xué)習(xí)判斷模型的判斷識(shí)別方法進(jìn)行信息相關(guān)區(qū)域的發(fā)現(xiàn)確定。
      [0014]4、對(duì)象信息發(fā)現(xiàn)
      [0015]基于事先建立的回歸分析模型,對(duì)信息的標(biāo)題、內(nèi)容等進(jìn)行分詞、降維等步驟后針對(duì)各對(duì)象類別(事先設(shè)定,比如蔬菜)進(jìn)行回歸分析,以此確定網(wǎng)頁(yè)信息是否和目標(biāo)對(duì)象有關(guān)系。從而發(fā)現(xiàn)信息相關(guān)的對(duì)象種類等。由此,結(jié)合區(qū)域信息、對(duì)象種類信息等,即可相對(duì)準(zhǔn)確的確定發(fā)生的事件。
      [0016]5、趨勢(shì)追蹤、事件預(yù)警
      [0017]經(jīng)過信息過濾、區(qū)域信息發(fā)現(xiàn)、對(duì)象信息發(fā)現(xiàn)后,在建立表示事件的特征參數(shù)諸如頁(yè)面數(shù)、頁(yè)面瀏覽數(shù)、綜合指數(shù)等的基礎(chǔ)上,通過定期計(jì)算事件特征參數(shù)值的方法對(duì)事件的發(fā)展趨勢(shì)進(jìn)行追蹤;并對(duì)事件當(dāng)前的各特征參數(shù)值和其之前一定時(shí)期內(nèi)的均值進(jìn)行比較,如果差值為正且絕對(duì)值持續(xù)大于一定的閾值,則進(jìn)行事件預(yù)警。
      [0018]6、事件結(jié)束判斷
      [0019]對(duì)預(yù)警的事件,定期計(jì)算事件各特征參數(shù)值,并將事件當(dāng)前的各特征參數(shù)值和其之前一定時(shí)期內(nèi)(自預(yù)警日開始)的均值進(jìn)行比較,如果差值為負(fù)且絕對(duì)值大于一定的閾值,則結(jié)束針對(duì)此事件的預(yù)警。
      [0020]7、目標(biāo)區(qū)域事件發(fā)生風(fēng)險(xiǎn)預(yù)測(cè)、預(yù)警及展示
      [0021]基于已經(jīng)發(fā)生特定事件的區(qū)域分布,采用矩陣分解和logistic回歸分析的方法,對(duì)目標(biāo)區(qū)域(當(dāng)前未發(fā)生)是否會(huì)發(fā)生特定事件以及可能的發(fā)生時(shí)間等進(jìn)行分析和預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果進(jìn)行不同的風(fēng)險(xiǎn)預(yù)警;之后將預(yù)警分析的結(jié)果展示給相關(guān)的用戶和為用戶服務(wù)。
      [0022]8、本體補(bǔ)充和修正
      [0023]考慮到互聯(lián)網(wǎng)信息的分布變化特點(diǎn),從持續(xù)提高方法效率的角度出發(fā),定期對(duì)信息過濾、區(qū)域和對(duì)象信息發(fā)現(xiàn)等過程的結(jié)果進(jìn)行評(píng)估,并基于此對(duì)本體中的不足諸如遺漏、錯(cuò)誤等加以補(bǔ)充、修正,以提高后續(xù)的方法效率。
      [0024]本發(fā)明為保證信息過濾、信息發(fā)現(xiàn)的準(zhǔn)確、高效,建立了符合食品安全事件信息特點(diǎn)的本體,建立本體過程中主要從對(duì)象、結(jié)果、區(qū)域、時(shí)間、關(guān)聯(lián)者幾個(gè)緯度進(jìn)行。其中,針對(duì)區(qū)域信息本體的每個(gè)實(shí)例,分別建立了電話區(qū)號(hào)、郵政編碼、簡(jiǎn)稱、名勝、鄰近域、所在方位六個(gè)緯度的附加表。
      [0025]本發(fā)明為提高事件信息發(fā)現(xiàn)的準(zhǔn)確度,在對(duì)爬取得到的互聯(lián)網(wǎng)信息進(jìn)行后續(xù)處理前,首先對(duì)其進(jìn)行了信息過濾處理,包括食品安全信息過濾、垃圾信息過濾。
      [0026]本發(fā)明為了提高網(wǎng)頁(yè)信息相關(guān)區(qū)域識(shí)別判斷的準(zhǔn)確度,首先對(duì)網(wǎng)頁(yè)信息進(jìn)行預(yù)處理后對(duì)可能是地名的相關(guān)詞語(yǔ)進(jìn)行相關(guān)解析以得到明確的詞語(yǔ),之后通過模式匹配和判斷模型判斷等方式判斷信息是否可歸入目標(biāo)區(qū)域,由此確定網(wǎng)頁(yè)信息相關(guān)區(qū)域。
      [0027]本發(fā)明為了提高網(wǎng)頁(yè)信息相關(guān)區(qū)域判斷確定的準(zhǔn)確度,對(duì)于預(yù)處理過后的網(wǎng)頁(yè)信息進(jìn)行了地名代詞解析、相對(duì)位置解析、非標(biāo)準(zhǔn)詞語(yǔ)解析等處理,從而解決了非標(biāo)準(zhǔn)地名詞語(yǔ)、地名代詞、相對(duì)位置等所帶來(lái)的網(wǎng)頁(yè)信息相關(guān)區(qū)域判斷準(zhǔn)確度低的問題。
      [0028]本發(fā)明在網(wǎng)頁(yè)信息相關(guān)區(qū)域判斷確定過程中,依次采用了針對(duì)標(biāo)題信息的模式匹配方法、針對(duì)正文信息的模式匹配方法、基于機(jī)器學(xué)習(xí)的判斷模型進(jìn)行判斷的方法進(jìn)行信息相關(guān)區(qū)域的判斷。其中,在基于機(jī)器學(xué)習(xí)的判斷模型進(jìn)行判斷的方法中,通過集成的區(qū)域判斷模型進(jìn)行信息相關(guān)區(qū)域判斷,避免了同名、同詞異義(比如通常詞作為地名)等所帶來(lái)的區(qū)域判斷不準(zhǔn)確問題。
      [0029]本發(fā)明在對(duì)象信息發(fā)現(xiàn)過程中,基于事先建立的回歸分析模型,對(duì)信息的標(biāo)題、內(nèi)容等進(jìn)行分詞、降維等步驟后針對(duì)各對(duì)象類別進(jìn)行回歸分析,以此確定網(wǎng)頁(yè)信息分別與哪些對(duì)象種類有關(guān)系。
      [0030]本發(fā)明定期計(jì)算事件各特征參數(shù)值和其之前一定時(shí)間范圍內(nèi)的均值之間的關(guān)系,當(dāng)差值為正且絕對(duì)值持續(xù)達(dá)到一定程度時(shí)(比如3倍的標(biāo)準(zhǔn)差)進(jìn)行及時(shí)的事件預(yù)警。
      [0031]本發(fā)明對(duì)預(yù)警的事件定期計(jì)算其各特征參數(shù)值,并將事件當(dāng)前的各特征參數(shù)值和其之前一定時(shí)期內(nèi)(自預(yù)警日開始)的均值進(jìn)行比較,如果差值為負(fù)且絕對(duì)值大于一定的閾值,則結(jié)束針對(duì)此事件的預(yù)警。
      [0032]本發(fā)明基于已經(jīng)發(fā)生特定事件的區(qū)域分布,采用矩陣分解和logistic回歸分析的方法,對(duì)目標(biāo)區(qū)域(當(dāng)前未發(fā)生)是否會(huì)發(fā)生特定事件以及可能的發(fā)生時(shí)間等進(jìn)行分析和預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果進(jìn)行不同的風(fēng)險(xiǎn)預(yù)警。
      [0033]與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn):
      [0034]本發(fā)明通過建立食品安全事件信息本體及其附加表,并在此基礎(chǔ)上對(duì)爬取得到的互聯(lián)網(wǎng)信息采取信息過濾、區(qū)域信息發(fā)現(xiàn)、對(duì)象信息發(fā)現(xiàn)、事件預(yù)警、風(fēng)險(xiǎn)預(yù)測(cè)并預(yù)警等技術(shù)進(jìn)行處理,保證了食品安全事件信息發(fā)現(xiàn)和預(yù)警、目標(biāo)區(qū)域事件發(fā)生風(fēng)險(xiǎn)預(yù)測(cè)和預(yù)警的準(zhǔn)確性和全面性,保證了食品安全風(fēng)險(xiǎn)預(yù)警的效率。
      【專利附圖】

      【附圖說明】
      [0035]圖1 一種面向特定區(qū)域的事件發(fā)生風(fēng)險(xiǎn)預(yù)測(cè)并預(yù)警的方法流程圖;
      [0036]圖2區(qū)域信息本體附加表示意圖;[0037]圖3網(wǎng)頁(yè)信息相關(guān)地域的識(shí)別方法流程圖;
      [0038]圖4網(wǎng)頁(yè)信息相關(guān)地域判斷方法示意圖;
      [0039]圖5基于機(jī)器學(xué)習(xí)模型的網(wǎng)頁(yè)信息相關(guān)地域判斷方法示意圖;
      [0040]圖6事件預(yù)警方法示意圖;
      [0041]圖7目標(biāo)區(qū)域事件風(fēng)險(xiǎn)預(yù)測(cè)、預(yù)警方法示意圖。
      【具體實(shí)施方式】
      [0042]本發(fā)明的【具體實(shí)施方式】如圖1所示,具體步驟敘述如下。
      [0043]1、建立本體
      [0044]考慮到食品安全事件的特點(diǎn)以及后期事件信息提取、追蹤等分析的需要,在食品安全事件信息本體的構(gòu)建過程中,主要從對(duì)象、區(qū)域、時(shí)間、結(jié)果、關(guān)聯(lián)者五個(gè)緯度考慮建立。比如對(duì)象即食品,可分為初產(chǎn)品、加工產(chǎn)品等類別,初產(chǎn)品又可以分為蔬菜、水果等類另IJ,以此類推;比如結(jié)果可分為污染、中毒等類別,污染又可以分為過期、超標(biāo)等類別,以此類推;比如區(qū)域總體上可分為五個(gè)類別,分別是亞細(xì)亞洲、歐羅巴洲、阿非利加洲、亞美利加洲、大洋洲;對(duì)每個(gè)類別可以再次進(jìn)行細(xì)分,比如亞細(xì)亞洲可分為東亞、西亞、南亞、北亞、中亞、東南亞六個(gè)類別,以此類推;直至分類到不能再分為止,即為一個(gè)最底層的元素(即實(shí)例)。其他類別的構(gòu)建過程類似。同時(shí),針對(duì)本體中的每個(gè)實(shí)例,分別建立了對(duì)應(yīng)的同義詞、反義詞、別名詞等附加表;此外,針對(duì)區(qū)域信息本體中的實(shí)例,分別建立了電話區(qū)號(hào)、郵政編碼、簡(jiǎn)稱、名勝(山、湖、海、河、島嶼、建筑)、鄰近域(東、南、西、北等方向的相鄰?fù)?jí)域)、所在方位(相對(duì)上一級(jí)而言,比如中部、南部等)六個(gè)緯度的附加表(如圖2所示),以備后續(xù)信息處理過程中使用。
      [0045]2、信息過濾
      [0046]對(duì)特定的信息源,采用互聯(lián)網(wǎng)信息爬取技術(shù)(比如通用爬取、有限范圍爬取等技術(shù))對(duì)信息源中的信息進(jìn)行爬取??紤]到一個(gè)網(wǎng)站上可能存在和預(yù)定主題不相關(guān)的內(nèi)容、以及可能存在各種垃圾信息的情況,為了提高事件信息發(fā)現(xiàn)、預(yù)警的準(zhǔn)確度,在對(duì)信息進(jìn)行后續(xù)處理之前,首先對(duì)信息進(jìn)行過濾。整個(gè)過濾過程分為兩個(gè)方面:即食品安全信息過濾、垃圾信息過濾。
      [0047]食品安全信息過濾,即判斷所采集的信息是否屬于食品安全相關(guān)的信息。這里面需要考慮兩個(gè)問題:信息范圍、過濾規(guī)則。關(guān)于過濾規(guī)則,基于建立的食品安全事件信息本體,過程中主要考慮對(duì)象和結(jié)果兩個(gè)緯度,具體的通過組合這兩個(gè)緯度的本體實(shí)例的名稱、屬性等采取模式匹配的方法進(jìn)行過濾;方法中所采取的模式匹配具體方法包括布爾匹配、頻數(shù)匹配、實(shí)例名稱間的距離匹配、實(shí)例名稱同義反義匹配、實(shí)例名稱別名匹配等方式;具體的方式選擇及具體規(guī)則建立通過對(duì)信息統(tǒng)計(jì)分析后確定(事先確定并定期更新)。關(guān)于信息范圍的選擇,這里主要考慮信息的標(biāo)題、信息內(nèi)容兩個(gè)緯度,考慮到信息標(biāo)題和信息內(nèi)容可能存在不匹配的情況,具體處理過程中首先對(duì)信息的標(biāo)題進(jìn)行處理,如果經(jīng)過對(duì)標(biāo)題信息過濾后,信息可以被歸入食品安全信息類別,則對(duì)此信息的處理完畢;否則對(duì)信息的內(nèi)容進(jìn)行二次判斷處理。
      [0048]Web垃圾可分為Web垃圾頁(yè)面和用戶生成內(nèi)容中的垃圾意見兩種。其中,Web垃圾頁(yè)面可分為內(nèi)容作弊頁(yè)面、鏈接作弊頁(yè)面;垃圾意見按照其負(fù)面影響大小不同,可將其分為不可信意見、低質(zhì)量意見、無(wú)關(guān)意見。不可信意見,也就是欺騙性的意見,一方面表現(xiàn)為對(duì)特定的對(duì)象、事件、人物等給出不符合實(shí)際情況的超高評(píng)價(jià)、恭維等;另一方面也可能表現(xiàn)為對(duì)特定的對(duì)象、事件、人物等給出不符合實(shí)際情況的超低評(píng)價(jià)、謾罵、攻擊等。低質(zhì)量意見,此種意見內(nèi)容一般長(zhǎng)度較短,其內(nèi)容可能是有用的,也可能是無(wú)用的,但是由于其內(nèi)容對(duì)特定的話題/產(chǎn)品描述不詳細(xì),不能非常確定其對(duì)特定話題/產(chǎn)品的意見挖掘的意義,因此也認(rèn)為是一種垃圾意見(針對(duì)計(jì)算機(jī)而言)。無(wú)關(guān)意見,此種意見主要表現(xiàn)為廣告或者和話題無(wú)關(guān)的內(nèi)容。
      [0049]對(duì)一網(wǎng)站的Web垃圾頁(yè)面、用戶生成內(nèi)容中的低質(zhì)量意見、無(wú)關(guān)意見等,考慮到其垃圾特征相對(duì)比較明顯,可以基于事先建立的經(jīng)過標(biāo)注的樣本集合,提取樣本的內(nèi)容、內(nèi)容分布、鏈接等緯度的特征(抽取特征前需對(duì)網(wǎng)頁(yè)信息進(jìn)行元數(shù)據(jù)提取、正文提取、分詞、句子統(tǒng)計(jì)、段落統(tǒng)計(jì)、錨文本統(tǒng)計(jì)、鏈接統(tǒng)計(jì)等處理)后建立檢測(cè)模型進(jìn)行檢測(cè)。關(guān)于內(nèi)容緯度的特征,本方法中采用了對(duì)抽取出來(lái)的信息進(jìn)行分詞、去掉停用詞并經(jīng)過降維(可采用文檔頻率法、信息增益法等)后形成內(nèi)容特征向量-權(quán)數(shù)為詞語(yǔ)頻率;關(guān)于內(nèi)容分布特征,本方法中采用了信息的標(biāo)題長(zhǎng)度(字符數(shù))、段落數(shù)、句子數(shù)、段落長(zhǎng)度(均值)、句子長(zhǎng)度(均值)、信息長(zhǎng)度(字符數(shù))、錨文本數(shù)、錨文本長(zhǎng)度(字符數(shù)-均值)等(建立模型過程中,對(duì)特征進(jìn)行歸一化處理,過程為y = x/ (max+1),其中x、y分別是歸一化前后的特征值,max為事先對(duì)網(wǎng)站信息集合內(nèi)樣本統(tǒng)計(jì)該特征所得到的最大值;在1^1參數(shù)更新前如果出現(xiàn)X > max時(shí),貝U取X = max+1,即y = I);關(guān)于鏈接纟韋度的特征,本方法中采用了信息的網(wǎng)站內(nèi)出鏈數(shù)占總出鏈數(shù)比例、信息的網(wǎng)站外出鏈數(shù)占總出鏈數(shù)比例、信息鏈接垃圾頁(yè)面集合(事先構(gòu)建)內(nèi)的信息數(shù)占總出鏈數(shù)比例、垃圾頁(yè)面集合(事先構(gòu)建)內(nèi)鏈接此信息的數(shù)量占總頁(yè)面數(shù)比例等。針對(duì)上述三個(gè)維度的特征,基于事先建立的垃圾信息集合和非垃圾信息集合,分別形成特征向量并采取機(jī)器學(xué)習(xí)的方法(比如支持向量機(jī)等)建立垃圾信息檢測(cè)模型(三個(gè),基于更新的樣本集合定期更新模型),之后即可對(duì)新采集的信息進(jìn)行過濾(信息被判斷為垃圾信息的規(guī)則是至少其中兩個(gè)模型的檢測(cè)結(jié)果為正例)。
      [0050]同時(shí),對(duì)一網(wǎng)站用戶生成內(nèi)容中的欺騙性垃圾意見,考慮到垃圾特征不是很明顯,在建立垃圾意見樣本集合過程·中遵循寧缺勿濫的原則(即要保證欺騙性垃圾意見樣本的準(zhǔn)確性),結(jié)合基于知識(shí)庫(kù)的審核、排查等方式對(duì)可能是欺騙性垃圾意見的信息(此過程中主要關(guān)注用戶生成內(nèi)容中內(nèi)容重復(fù)或者近似重復(fù)的意見、一定時(shí)間范圍內(nèi)發(fā)布意見量最高的top-Nl個(gè)作者所發(fā)布的意見、一定時(shí)間范圍內(nèi)意見量最高的top-N2個(gè)特定對(duì)象相關(guān)的意見、一定時(shí)間范圍內(nèi)發(fā)布意見量最高的top-N3個(gè)IP地址相關(guān)的意見、針對(duì)特定對(duì)象發(fā)布意見最早的top-M個(gè)用戶所發(fā)布的意見和針對(duì)特定對(duì)象的意見修正次數(shù)最多的top-N5個(gè)用戶所發(fā)布的意見,并形成候選欺騙性垃圾意見集合)進(jìn)行審核確認(rèn)。具體的采取了兩種方法進(jìn)行確認(rèn),一種是正向確認(rèn),一種是反向確認(rèn)。所謂正向確認(rèn),如果意見信息內(nèi)容和欺騙性垃圾意見知識(shí)庫(kù)中的信息描述的是同一件事情,即信息內(nèi)容與欺騙性垃圾意見知識(shí)庫(kù)中的某信息描述相匹配,則為欺騙性垃圾意見。欺騙性垃圾意見知識(shí)庫(kù)中的信息條目增加規(guī)則為:對(duì)于一條意見信息,經(jīng)過一段時(shí)間的過程或者事后證明,某用戶所發(fā)布的信息的確是欺騙性的意見,加入知識(shí)庫(kù)中。比如在某論壇有人發(fā)布信息說某品牌牛奶中含有三聚氰胺,但后來(lái)有人舉出種種理由說明這是不可能的,事后證明后者是某品牌牛奶公司的內(nèi)部員工欺騙所致,由此即可確認(rèn)此意見信息是欺騙性垃圾信息,加入知識(shí)庫(kù)中(知識(shí)庫(kù)事先構(gòu)建并定期更新)。所謂反向確認(rèn),即在現(xiàn)有的正常情況下,出現(xiàn)此類信息是不可能的,從而從反向的角度證明是欺騙性垃圾意見。比如反向確認(rèn)知識(shí)庫(kù)(事先構(gòu)建并定期更新)中的一條規(guī)則為:某一用戶id在設(shè)定時(shí)間中(比如I分鐘)對(duì)一種或多種產(chǎn)品發(fā)布了多于N(比如10條)條意見信息,則將該用戶所發(fā)表的這些意見信息標(biāo)注為欺騙性垃圾意見信息。能匹配此規(guī)則的一個(gè)例子是:某一論壇中某一用戶id在不到I分鐘的時(shí)間中對(duì)3種不同產(chǎn)品發(fā)布了 15條評(píng)價(jià)信息,從一個(gè)正常人的角度考慮這是不可能的。因此,從反向的角度證明了此用戶所發(fā)布的這些信息的欺騙性。將通過上述方法確認(rèn)的信息進(jìn)行標(biāo)注,并形成準(zhǔn)確欺騙性垃圾意見集合,同時(shí)對(duì)于經(jīng)常發(fā)布欺騙性垃圾意見的用戶,即發(fā)布欺騙性垃圾意見最多的N個(gè)用戶,將其加到黑名單以備后期識(shí)別使用;另外,依據(jù)準(zhǔn)確的欺騙性垃圾意見集合等,歸納意見作者的反常行為(比如上述用戶在I分鐘內(nèi)針對(duì)3種產(chǎn)品發(fā)布了 15條信息等)形成規(guī)則,以備后用。注意到明確的確認(rèn)一意見是非欺騙性垃圾意見也存在相當(dāng)?shù)睦щy(對(duì)于一條信息,不能明確的表明是欺騙性垃圾意見也可能意味著不能明確的說明其不是欺騙性垃圾意見),考慮到時(shí)間、工作量、以及非欺騙性垃圾意見存在的多樣性等因素,這里沒有對(duì)非欺騙性垃圾意見進(jìn)行標(biāo)注。
      [0051]建立了準(zhǔn)確欺騙性垃圾意見集合后,從判斷識(shí)別欺騙性垃圾意見的角度看,目前需要選擇機(jī)器學(xué)習(xí)方法、抽取樣本特征后建立檢測(cè)模型。注意到經(jīng)過上述的過程得到了經(jīng)過標(biāo)注的欺騙性垃圾意見集合,以及未經(jīng)標(biāo)注的意見信息集合,但沒有經(jīng)過標(biāo)注的非欺騙性垃圾意見集合。這就意味著不能簡(jiǎn)單地采用一般的有監(jiān)督機(jī)器學(xué)習(xí)方法,因?yàn)樗⒛P托枰瑫r(shí)具備正例、反例集合。所以我們這里采用了一種“從正例和無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)”的機(jī)器學(xué)習(xí)方法-偏置 SVM(Liu, B.,Y.Dai, X.Li, ff.Lee, and P.Yu.Buildingtext classifiers using positive and unlabeled examples.Proceedings of IEEEInternational Conference on Data Mining.2003.)。
      [0052]關(guān)于檢測(cè)模型建立過程中樣本特征的確定,本發(fā)明中主要從四個(gè)緯度考慮:意見作者、意見內(nèi)容、意見內(nèi)容分布、鏈接特征四個(gè)緯度(抽取特征前需對(duì)網(wǎng)頁(yè)信息進(jìn)行作者等元數(shù)據(jù)提取、正文提取、分詞、詞性標(biāo)注、命名實(shí)體抽取、句子統(tǒng)計(jì)、段落統(tǒng)計(jì)、標(biāo)點(diǎn)符號(hào)統(tǒng)計(jì)、鏈接統(tǒng)計(jì)等處理)。其中關(guān)于意見內(nèi)容特征的確定方法是:對(duì)抽取出來(lái)的意見信息進(jìn)行分詞,去掉停用詞,并經(jīng)過降維(可采用文檔頻率法、信息增益法等)后形成內(nèi)容特征向量(權(quán)數(shù)為詞語(yǔ)頻率);關(guān)于意見內(nèi)容分布特征的選擇方法是選擇:意見段落數(shù)、段落長(zhǎng)度(均值)、句子數(shù)、句子長(zhǎng)度(均值)、詞數(shù)、第一人稱代詞數(shù)、第二人稱代詞數(shù)、第三人稱代詞數(shù)等(建立模型過程中,對(duì)特征進(jìn)行歸一化處理,過程為y = x/ (max+1),其中x、y分別是歸一化前后的特征值,max為事先對(duì)網(wǎng)站信息集合內(nèi)樣本統(tǒng)計(jì)該特征所得到的最大值;在max參數(shù)更新前如果出現(xiàn)X > max時(shí),貝U取X = max+1,即y = I);對(duì)于意見作者纟韋度的特征選擇方法是選擇:意見用戶名(字符數(shù))、意見發(fā)布時(shí)間(距離當(dāng)天零點(diǎn)的時(shí)間間隔)、意見發(fā)布時(shí)間間隔(和上一條信息相比)、意見字?jǐn)?shù)、意見數(shù)/小時(shí)(截至此條信息為止)、意見字?jǐn)?shù)變化比率(和上一條信息相比)、意見數(shù)變化比率(截至此條信息為止,和上一小時(shí)相比)等(建立模型過程中,對(duì)特征進(jìn)行歸一化處理,過程為y = x/ (max+1),其中x、y分別是歸一化前后的特征值,max為事先對(duì)網(wǎng)站信息集合內(nèi)樣本統(tǒng)計(jì)該特征所得到的最大值;在max參數(shù)更新前如果出現(xiàn)X > max時(shí),貝U取X = max+1,即y = I);對(duì)于意見信息的鏈接特征纟韋度的選擇方法是選擇:意見信息的網(wǎng)站內(nèi)入鏈數(shù)、意見信息的網(wǎng)站內(nèi)出鏈數(shù)、意見信息的網(wǎng)站外入鏈數(shù)、意見信息的網(wǎng)站外出鏈數(shù)、意見信息鏈接準(zhǔn)確欺騙性垃圾意見集合內(nèi)的信息數(shù)、準(zhǔn)確欺騙性垃圾意見集合內(nèi)信息鏈接意見信息的數(shù)量等(建立模型過程中,對(duì)特征進(jìn)行歸一化處理,過程為y = x/ (max+1),其中x、y分別是歸一化前后的特征值,max為事先對(duì)網(wǎng)站信息集合內(nèi)樣本統(tǒng)計(jì)該特征所得到的最大值;在max參數(shù)更新前如果出現(xiàn)X > max時(shí),則取X = max+1,即y = I);針對(duì)上述四個(gè)維度的特征,基于上述步驟建立的準(zhǔn)確欺騙性垃圾意見集合和無(wú)標(biāo)注樣本集合(即用戶生成內(nèi)容網(wǎng)頁(yè)集合中的其他樣本組成的集合),分別形成特征向量并建立檢測(cè)模型(四個(gè),基于更新的樣本集合定期更新模型)。
      [0053]之后即可對(duì)新爬取得到的用戶生成內(nèi)容信息進(jìn)行欺騙性垃圾意見的識(shí)別過濾。首先進(jìn)行黑名單識(shí)別,對(duì)屬于黑名單中用戶發(fā)布的信息,直接識(shí)別為欺騙性垃圾意見;對(duì)于剩余意見,依據(jù)前述過程歸納的規(guī)則按照反向確認(rèn)(即在現(xiàn)有的正常情況下,出現(xiàn)此類信息是不可能的,從而從反向的角度證明是欺騙性垃圾意見)的方式進(jìn)行識(shí)別,對(duì)于不正常的意見,識(shí)別為欺騙性垃圾意見;對(duì)于剩余的意見按照上述過程建立的欺騙性垃圾意見檢測(cè)模型進(jìn)行識(shí)別,識(shí)別過程為,對(duì)意見信息分別進(jìn)行四個(gè)模型的判斷,如果至少有三個(gè)模型判斷為正例,則對(duì)此信息識(shí)別為欺騙性垃圾意見。
      [0054]經(jīng)過以上過濾步驟后的,參與到后續(xù)信息處理過程中的信息(即食品安全相關(guān)的非垃圾信息)相對(duì)質(zhì)量較高,這為后續(xù)信息處理的準(zhǔn)確提供了基礎(chǔ)。
      [0055]3、區(qū)域信息發(fā)現(xiàn)(如圖3所示)
      [0056](I)網(wǎng)頁(yè)信息預(yù)處理
      [0057]對(duì)爬取得到并經(jīng)過濾的網(wǎng)頁(yè)信息,提取其標(biāo)題、來(lái)源、作者、發(fā)布時(shí)間、發(fā)布網(wǎng)站所在地等元數(shù)據(jù)信息并保存,同時(shí)提取網(wǎng)頁(yè)信息的正文內(nèi)容進(jìn)行保存。
      [0058]對(duì)提取的網(wǎng)頁(yè)信息標(biāo)題、正文內(nèi)容,采用分詞器對(duì)其進(jìn)行基于統(tǒng)計(jì)和詞典(包括依據(jù)步驟I建立的本體形成地名詞典)的分詞(并記錄詞語(yǔ)相對(duì)信息標(biāo)題和正文內(nèi)容構(gòu)成的文本開始、結(jié)束的相對(duì)位置、所屬句子、相對(duì)句子開始和結(jié)束的相對(duì)位置等特征參數(shù)),之后采用基于詞表(詞表事先整理形成并定期更新,其中包括同時(shí)可作為人名和地名的詞語(yǔ)、有其他特定含義但同時(shí)也可能是地名的詞語(yǔ)等;比如吳忠-寧夏回族自治區(qū)的一個(gè)市,同時(shí)可為人名;方正-黑龍江省的一個(gè)縣,同時(shí)可為方正公司;但注意包含了特定后綴的詞語(yǔ)比如吳忠市則不予排除)的匹配方法對(duì)可能不是地名的詞語(yǔ)予以排除。
      [0059](2)地名代詞解析
      [0060]經(jīng)過分詞的網(wǎng)頁(yè)標(biāo)題信息、正文信息中可能存在一些表示處所的代詞,比如本省、本市、該省等。由于這些代詞字面本身無(wú)法直接表明確切地理位置,因此需要對(duì)其進(jìn)行解析。
      [0061]I)為進(jìn)行地名代詞的解析,首先建立代詞解析的滑動(dòng)窗口,滑動(dòng)窗口長(zhǎng)度L事先確定(比如通過分析地名代詞和其先行詞之間的詞數(shù)分布狀況后確定)。
      [0062]2)之后選擇地名代詞前L個(gè)詞語(yǔ)內(nèi)是否存在合理的地理名詞(比如本省對(duì)應(yīng)的遼寧等,基于事先建立的規(guī)則判斷),如果存在,則采用下述建立的地理名詞和地名代詞之間是否存在指代關(guān)系的判斷模型進(jìn)行判斷,如果存在指代關(guān)系,則根據(jù)指代關(guān)系確定代詞對(duì)應(yīng)的地理名詞,解析結(jié)束(如果存在多個(gè)指代關(guān)系成立的地理名詞,則選擇距離地名代詞最近的地理名詞),否則進(jìn)行步驟3)。
      [0063]3)如果L個(gè)詞語(yǔ)內(nèi)不存在合理的地理名詞或者模型判斷指代關(guān)系不存在,則選擇地名代詞前2L個(gè)詞語(yǔ)內(nèi)(不超出整個(gè)句子,比如用句號(hào)標(biāo)識(shí))是否存在合理的地理名詞,如果存在,則采用下述建立的地理名詞和地名代詞之間是否存在指代關(guān)系的判斷模型進(jìn)行判斷,如果存在指代關(guān)系,則根據(jù)指代關(guān)系確定代詞對(duì)應(yīng)的地理名詞,解析結(jié)束(如果存在多個(gè)指代關(guān)系成立的地理名詞,則選擇距離地名代詞最近的地理名詞),否則進(jìn)行步驟4)。
      [0064]4)如果2L個(gè)詞語(yǔ)內(nèi)不存在合理的地理名詞或者模型判斷指代關(guān)系不存在,則根據(jù)元數(shù)據(jù)提取過程中得到的信息來(lái)源或網(wǎng)站所在地采用抽取或者替換的方法確定地名代詞的指代地名。
      [0065]判斷模型的建立方法:收集整理包含地名代詞等的網(wǎng)頁(yè)信息形成樣本集合,并對(duì)樣本集合信息中每一地名代詞和其之前2L(L長(zhǎng)度同步驟I))個(gè)詞語(yǔ)內(nèi)的地理名詞(不超出句子范圍)之間的指代關(guān)系進(jìn)行標(biāo)注,作為類別變量;對(duì)樣本集合信息中每一地名代詞和其之前2L(L長(zhǎng)度同步驟I))個(gè)詞語(yǔ)內(nèi)的地理名詞(不超出句子范圍)之間的關(guān)系提取相關(guān)數(shù)據(jù),建立信息樣本關(guān)于此對(duì)地名代詞和地理名詞之間關(guān)系的特征向量:包括地理名詞后綴(后綴即代表地名或者具有地名特征,比如“新疆維吾爾自治區(qū)”中的“自治區(qū)”)長(zhǎng)度(后綴字?jǐn)?shù)除以文本長(zhǎng)度)、地理名詞和地名代詞之間的距離(詞數(shù)除以文本長(zhǎng)度)、地理名詞距離文本開始的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)、地名代詞距離文本開始的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)、地理名詞距離句子開始的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)、地名代詞距離句子開始的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)、地理名詞距離句子結(jié)束的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)、地名代詞距離句子結(jié)束的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)等;之后選擇機(jī)器學(xué)習(xí)方法(比如svm)基于上述的樣本集合、類別變量和特征向量建立地理名詞和地名代詞之間是否存在指代關(guān)系的判斷模型。
      [0066]基于判斷模型對(duì)地名代詞和地理名詞之間是否存在指代關(guān)系進(jìn)行判斷的方法是:首先提取地理名詞和地名代詞之間關(guān)系的相關(guān)數(shù)據(jù)形成特征向量,提取的數(shù)據(jù)具體包括地理名詞后綴長(zhǎng)度(后綴字?jǐn)?shù)除以文本長(zhǎng)度)、地理名詞和地名代詞之間的距離(詞數(shù)除以文本長(zhǎng)度)、地理名詞距離文本開始的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)、地名代詞距離文本開始的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)、地理名詞距離句子開始的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)、地名代詞距離句子開始的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)、地理名詞距離句子結(jié)束的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)、地名代詞距離句子結(jié)束的相對(duì)距離(詞數(shù)除以文本長(zhǎng)度)等。之后基于上述建立的判斷模型進(jìn)行識(shí)別判斷,并根據(jù)判斷結(jié)果確定地名代詞和地理名詞之間的指代關(guān)系是否存在。
      [0067](3)非標(biāo)準(zhǔn)詞解析
      [0068]經(jīng)過分詞的網(wǎng)頁(yè)標(biāo)題信息、正文信息中可能存在一些表示處所的詞語(yǔ)使用了一些非標(biāo)準(zhǔn)的語(yǔ)言形式,如中文文本中出現(xiàn)beijing、bj等。對(duì)此,基于建立的標(biāo)準(zhǔn)詞語(yǔ)和非標(biāo)準(zhǔn)詞語(yǔ)對(duì)照表(事先建立并定期更新),通過查詢后進(jìn)行替換的方式對(duì)非標(biāo)準(zhǔn)的地名詞語(yǔ)形式進(jìn)行解析。
      [0069](4)相對(duì)位置解析
      [0070]經(jīng)過分詞的網(wǎng)頁(yè)標(biāo)題信息、正文信息中可能存在一些表示處所的詞語(yǔ)使用了相對(duì)位置的表達(dá)方式,比如中國(guó)西南部省份等。同樣的,這些語(yǔ)言表達(dá)方式也沒有明確的地名名稱。為解決此問題,基于步驟I中建立的區(qū)域信息本體實(shí)例及其附加表,對(duì)這些相對(duì)位置區(qū)域信息進(jìn)行查詢和解析,得到準(zhǔn)確的地名詞語(yǔ)(比如對(duì)中國(guó)西南部省份,結(jié)合建立的區(qū)域信息本體,首先查找到中國(guó)所屬的省份名稱,并對(duì)每個(gè)所屬的省份查詢其所在方位緯度的附加表,將所有所在方位為西南的省份提取出來(lái),據(jù)此替代中國(guó)西南部省份,完成解析)。
      [0071](5)地域確定
      [0072]對(duì)網(wǎng)頁(yè)信息進(jìn)行了預(yù)處理和相關(guān)解析后即可進(jìn)行信息相關(guān)聯(lián)區(qū)域的確定工作,此過程中主要包括兩個(gè)步驟:分別采用模式匹配、機(jī)器學(xué)習(xí)判斷模型進(jìn)行信息相關(guān)區(qū)域的判斷(如圖4所示)。
      [0073]區(qū)域確定的目標(biāo)在于識(shí)別信息相關(guān)區(qū)域,為食品安全事件信息的發(fā)現(xiàn)提供區(qū)域基礎(chǔ)。綜合考慮準(zhǔn)確性、計(jì)算量和可操作性等問題,此過程中首先采取了模式匹配的方法進(jìn)行。這里面需要考慮兩個(gè)問題:信息范圍、匹配規(guī)則。關(guān)于匹配規(guī)則,基于建立的區(qū)域信息本體(即本體中區(qū)域維度維度),過程中主要考慮部分本體實(shí)例名稱、屬性等,具體的通過組合這些本體實(shí)例的名稱、屬性等采取模式匹配的方法進(jìn)行判斷;方法中所采取的模式匹配具體方法包括布爾匹配、頻數(shù)匹配、實(shí)例名稱間的距離匹配等方式;具體的方式選擇及具體規(guī)則建立通過對(duì)信息統(tǒng)計(jì)分析后確定(事先確定并定期更新)。關(guān)于信息范圍的選擇,這里主要考慮信息的標(biāo)題、信息內(nèi)容兩個(gè)緯度,考慮到信息標(biāo)題和信息內(nèi)容可能存在不匹配的情況,具體處理過程中首先對(duì)信息的標(biāo)題進(jìn)行處理,如果對(duì)信息的標(biāo)題采用上述的模式匹配方法處理后,信息可以被歸入當(dāng)前所選的區(qū)域(比如北京),則針對(duì)此區(qū)域的模式匹配處理完畢;否則對(duì)該信息的內(nèi)容采用上述的模式匹配方法針對(duì)此區(qū)域進(jìn)行二次模式匹配處理。此過程中遵循寧缺勿濫的原則,盡可能保證識(shí)別判斷結(jié)果的準(zhǔn)確度。
      [0074]如果經(jīng)過上述的模式匹配過程,此信息無(wú)法歸入某一區(qū)域,則采用基于機(jī)器學(xué)習(xí)方法建立的區(qū)域判斷模型進(jìn)行第三次判斷確定。事先建立區(qū)域判斷模型的過程為:基于整理(同步驟(1)-(4))、標(biāo)注(是否和某區(qū)域相關(guān)聯(lián))過的網(wǎng)頁(yè)信息樣本集合(事先建立并定期更新),將信息樣本的標(biāo)題、內(nèi)容詞語(yǔ)(選擇和本體實(shí)例名稱、屬性匹配的詞語(yǔ))綜合在一起-將這些詞語(yǔ)按照行政地名(指省、市等)、電話區(qū)號(hào)、郵政編碼、簡(jiǎn)稱、名勝(山、湖、海、河、島嶼、建筑等)五個(gè)類別進(jìn)行歸類組成五個(gè)特征向量(其中向量中詞語(yǔ)權(quán)重為詞語(yǔ)頻率,考慮到標(biāo)題詞語(yǔ)的重要性,對(duì)標(biāo)題詞語(yǔ)的權(quán)重乘以事先確定的倍數(shù))。之后,采用機(jī)器學(xué)習(xí)方法(支持向量機(jī)等)對(duì)每一目標(biāo)區(qū)域建立基于上述五個(gè)特征向量的區(qū)域判斷模型(5個(gè),基于更新的樣本集合定期更新模型)。對(duì)信息進(jìn)行第三次判斷確定的過程為:將經(jīng)過步驟(1)-(4)處理、解析后的信息的標(biāo)題、內(nèi)容詞語(yǔ)(選擇和本體實(shí)例名稱、屬性匹配的詞語(yǔ))綜合在一起:按照行政地名(指省、市等)、電話區(qū)號(hào)、郵政編碼、簡(jiǎn)稱、名勝(山、湖、海、河、島嶼、建筑等)五個(gè)類別進(jìn)行歸類組成五個(gè)向量(其中向量中詞語(yǔ)權(quán)重為詞語(yǔ)頻率,考慮到標(biāo)題詞語(yǔ)的重要性,對(duì)標(biāo)題詞語(yǔ)的權(quán)重乘以事先確定的倍數(shù)),并分別對(duì)這五個(gè)向量采用前述建立的五個(gè)區(qū)域判斷模型進(jìn)行檢測(cè)判斷,并對(duì)檢測(cè)判斷的結(jié)果進(jìn)行加權(quán)計(jì)算(權(quán)數(shù)按照網(wǎng)頁(yè)信息中每個(gè)類別中詞語(yǔ)頻數(shù)之和除以五個(gè)類別中詞語(yǔ)頻數(shù)之和的方法確定),如果加權(quán)計(jì)算結(jié)果大于事先設(shè)定的閾值,則此信息即可歸入此區(qū)域;否則,則此信息不能歸入此區(qū)域(如圖5所示)。
      [0075]4、對(duì)象信息發(fā)現(xiàn)
      [0076]網(wǎng)頁(yè)信息的對(duì)象信息發(fā)現(xiàn)即對(duì)象種類識(shí)別,即確定網(wǎng)頁(yè)信息所描述的內(nèi)容和何種對(duì)象有關(guān)(以及和何種事件因素有關(guān)、造成何種后果)等。其目的是結(jié)合網(wǎng)頁(yè)信息中發(fā)現(xiàn)的區(qū)域信息、對(duì)象信息等盡可能唯一的確定事件。[0077]為此,綜合考慮識(shí)別的準(zhǔn)確性、計(jì)算量和可操作性等問題,過程中采取了回歸分析的方法進(jìn)行。方法中采用的信息范圍,是將每一網(wǎng)頁(yè)的信息標(biāo)題和內(nèi)容綜合在一起,并進(jìn)行分詞、去停用詞、降維后形成該網(wǎng)頁(yè)的特征向量(作為自變量)_其中詞語(yǔ)權(quán)重為詞語(yǔ)頻率,考慮到標(biāo)題詞語(yǔ)的重要性,對(duì)標(biāo)題詞語(yǔ)的權(quán)重乘以事先確定的倍數(shù);同樣的,對(duì)和本體中對(duì)象、結(jié)果、關(guān)聯(lián)者實(shí)例名稱、屬性匹配的詞語(yǔ)權(quán)重乘以事先確定的倍數(shù)。針對(duì)每一對(duì)象種類,將上述網(wǎng)頁(yè)的特征向量數(shù)據(jù)代入相應(yīng)的logistic回歸模型(事先以需要區(qū)分的種類和建立的樣本集合為基礎(chǔ)建立模型)中,據(jù)回歸分析結(jié)果進(jìn)行判斷,此網(wǎng)頁(yè)信息是否和此對(duì)象種類有關(guān)系。
      [0078]其中,回歸分析模型的建立方法為:基于整理、標(biāo)注過的網(wǎng)頁(yè)信息樣本集合(事先建立并定期更新),將信息樣本的標(biāo)題、內(nèi)容詞語(yǔ)綜合在一起并進(jìn)行分詞、去停用詞、降維后形成特征向量(作為自變量)_其中詞語(yǔ)權(quán)重為詞語(yǔ)頻率,考慮到標(biāo)題詞語(yǔ)的重要性,對(duì)標(biāo)題詞語(yǔ)的權(quán)重乘以事先確定的倍數(shù);同樣的,對(duì)和本體中對(duì)象、結(jié)果、關(guān)聯(lián)者實(shí)例名稱、屬性匹配的詞語(yǔ)權(quán)重乘以事先確定的倍數(shù);同時(shí)對(duì)網(wǎng)頁(yè)信息所屬的對(duì)象類別進(jìn)行標(biāo)注(I表示屬于此對(duì)象類別、O表示不屬于此對(duì)象類別,作為因變量),以此為基礎(chǔ)采用logistic方法建立針對(duì)各對(duì)象類別的回歸分析模型。
      [0079]5、趨勢(shì)追蹤、事件預(yù)警
      [0080]從實(shí)踐的角度看,結(jié)合前述步驟中發(fā)現(xiàn)的區(qū)域信息、對(duì)象種類信息等,即可相對(duì)準(zhǔn)確的確定發(fā)生的事件(即用屬于上述兩個(gè)緯度的信息的交集表示事件相關(guān)的信息)。
      [0081]在網(wǎng)頁(yè)信息的區(qū)域和對(duì)象種類要素識(shí)別的基礎(chǔ)上,建立表示事件的特征參數(shù)-具體的采用和事件相關(guān)的信息頁(yè)面數(shù)、頁(yè)面瀏覽數(shù)、頁(yè)面轉(zhuǎn)發(fā)數(shù)、特定網(wǎng)站頁(yè)面瀏覽數(shù)、特定域名下網(wǎng)站頁(yè)面瀏覽數(shù)以及綜合指數(shù)(通過加權(quán)的方法綜合上述參數(shù)得到,權(quán)數(shù)通過德爾菲方法確定,但需保證權(quán)數(shù)之和為I)等表示事件的特征,并定期(比如每隔I小時(shí))對(duì)特征參數(shù)進(jìn)行計(jì)算處理。并根據(jù)時(shí)間的變化,綜合分析這些事件特征參數(shù)的變化情況。
      [0082]在上述事件趨勢(shì)追蹤的基礎(chǔ)上,定期(比如每12小時(shí))計(jì)算表示事件的各特征參數(shù)(包括綜合指數(shù))數(shù)值,并將事件當(dāng)前的各特征參數(shù)值和其之前一定時(shí)期內(nèi)的均值(目前考慮到網(wǎng)絡(luò)事件傳播的特點(diǎn),選擇了一個(gè)月作為計(jì)算周期,也可據(jù)情況進(jìn)行調(diào)整)進(jìn)行比較,如果差值為正且絕對(duì)值大于一定的閾值(比如3倍的標(biāo)準(zhǔn)差,閾值事先設(shè)定),則對(duì)此事件進(jìn)行預(yù)警初始化。
      [0083]之后對(duì)此進(jìn)行了預(yù)警初始化的事件進(jìn)行追蹤,定期(比如每12小時(shí))計(jì)算表示事件的各特征參數(shù)(包括綜合指數(shù))數(shù)值,并將事件當(dāng)前的各特征參數(shù)值和其之前一定時(shí)期內(nèi)的均值(目前考慮到網(wǎng)絡(luò)事件傳播的特點(diǎn),選擇預(yù)警初始化之前的一個(gè)月作為計(jì)算周期,也可據(jù)情況進(jìn)行調(diào)整)進(jìn)行比較,如果差值持續(xù)(比如24小時(shí),事先確定)大于一定的閾值(比如3倍的標(biāo)準(zhǔn)差,閾值事先設(shè)定),則對(duì)此事件進(jìn)行正式的預(yù)警(如圖6所示)。否則取消對(duì)此事件的預(yù)警初始化設(shè)置。
      [0084]其中閾值的確定方法為:在收集事件各特征參數(shù)的歷史(比如一年內(nèi))變化數(shù)據(jù)基礎(chǔ)上,并結(jié)合經(jīng)過確認(rèn)的歷史食品安全事件的發(fā)生時(shí)間、區(qū)域、規(guī)模等資料(可以從食品安全相關(guān)管理部門獲得),計(jì)算事件各特征參數(shù)值和其之前一定時(shí)期內(nèi)(比如一個(gè)月)的均值之間的差值形成變量-作為自變量,將表示特定性質(zhì)食品安全事件是否發(fā)生(I表示發(fā)生、O表示未發(fā)生)的變量作為因變量,采用logistic回歸分析的方法建立上述自變量、因變量之間的回歸預(yù)測(cè)模型?;诖四P?,結(jié)合事件特征參數(shù)的歷史變化趨勢(shì)特點(diǎn),選擇可以使得因變量值為I的合適的自變量值作為閾值。
      [0085]6、事件結(jié)束判斷
      [0086]對(duì)正式預(yù)警的事件,在上述事件趨勢(shì)追蹤的基礎(chǔ)上,定期(比如每12小時(shí))計(jì)算表示事件的各特征參數(shù)(包括綜合指數(shù))數(shù)值,并將事件當(dāng)前的各特征參數(shù)值和其之前一定時(shí)期內(nèi)的均值(目前考慮到網(wǎng)絡(luò)事件傳播的特點(diǎn),選擇了從預(yù)警開始日開始到計(jì)算日前一天為止作為計(jì)算周期,也可據(jù)情況進(jìn)行調(diào)整)進(jìn)行比較,如果差值為負(fù)且絕對(duì)值大于一定的閾值(比如3倍的標(biāo)準(zhǔn)差,閾值事先設(shè)定),則認(rèn)為此事件結(jié)束。結(jié)束對(duì)此事件的預(yù)警。
      [0087]7、目標(biāo)區(qū)域事件風(fēng)險(xiǎn)預(yù)測(cè)、預(yù)警及展示(如圖7所示)
      [0088]在特定事件出現(xiàn)在某些區(qū)域的情況下,定期計(jì)算目標(biāo)區(qū)域(當(dāng)前未發(fā)生)發(fā)生此事件的可能性以及可能的發(fā)生時(shí)間,并根據(jù)分析計(jì)算的結(jié)果進(jìn)行不同級(jí)別的預(yù)警。計(jì)算目標(biāo)區(qū)域發(fā)生特定事件的可能性及可能的發(fā)生時(shí)間之前的模型(定期更新)建立過程為:
      [0089]選擇和目標(biāo)區(qū)域(比如北京)同行政級(jí)別的區(qū)域(比如省級(jí)區(qū)域河北、河南等),在收集這些區(qū)域(含目標(biāo)區(qū)域,設(shè)總數(shù)為R)經(jīng)過確認(rèn)的歷史食品安全事件的發(fā)生時(shí)間、區(qū)域、規(guī)模等資料(可以從食品安全相關(guān)管理部門獲得)基礎(chǔ)上,形成特定食品安全事件在何地、何時(shí)發(fā)生的數(shù)據(jù)集合。以此為基礎(chǔ),按照一個(gè)區(qū)域是否發(fā)生特定事件的不同建立網(wǎng)絡(luò)圖,圖的頂點(diǎn)是上述的各個(gè)區(qū)域、食品安全事件,如果一個(gè)區(qū)域發(fā)生了特定事件,則上述區(qū)域、事件標(biāo)識(shí)的頂點(diǎn)之間產(chǎn)生一個(gè)邊,并且邊的權(quán)重為此種情況發(fā)生的次數(shù)。進(jìn)一步,將網(wǎng)絡(luò)圖轉(zhuǎn)換為一個(gè)R*S (R為區(qū)域數(shù),S為食品安全事件數(shù))的矩陣A (事先形成并定期更新)。
      [0090]同時(shí),按照目標(biāo)區(qū)域發(fā)生特定事件的時(shí)間和最早發(fā)生相應(yīng)事件的區(qū)域之間的發(fā)生時(shí)間之差的不同,設(shè)定N個(gè)時(shí)間范圍(可以設(shè)定5個(gè)時(shí)間段,比如目標(biāo)區(qū)域發(fā)生特定事件的時(shí)間距離最早發(fā)生該事件的時(shí)間為I天內(nèi)、3天內(nèi)、I周內(nèi)、2周內(nèi)、I月內(nèi)5個(gè)時(shí)間段),分別對(duì)原始的數(shù)據(jù)集合進(jìn)行標(biāo)注(即分別標(biāo)明在上述時(shí)間段中特定事件在各區(qū)域是否發(fā)生),分別形成N個(gè)(設(shè)定5個(gè)時(shí)間段的情況下,形成5個(gè)數(shù)據(jù)集合)數(shù)據(jù)集合(事先形成并定期更新)。在此基礎(chǔ)上,將數(shù)據(jù)集合中目標(biāo)區(qū)域在上述的時(shí)間范圍內(nèi)是否發(fā)生特定事件作為因變量(I表示發(fā)生,O表示未發(fā)生),其余區(qū)域是否發(fā)生相應(yīng)事件作為自變量(I表示發(fā)生,O表示未發(fā)生),采用logistic回歸分析的方法建立上述自變量、因變量之間的回歸預(yù)測(cè)模型(5個(gè),用(:1、02、03、04、05表示,事先形成并定期更新)。
      [0091]在此基礎(chǔ)上,計(jì)算目標(biāo)區(qū)域發(fā)生特定事件的可能性及可能的發(fā)生時(shí)間的過程為:
      [0092]根據(jù)當(dāng)前發(fā)生特定事件的區(qū)域不同,更新矩陣A中的相應(yīng)元素,之后對(duì)矩陣A采用矩陣分解的方法進(jìn)行處理,形成新的矩陣B(比如采用svd方法,其處理過程為首先將矩陣A進(jìn)行奇異值分解:A = TySyDy,其中Ty為R*F陣,Sy為F*F對(duì)角陣,Dy為F*S陣,F(xiàn)為矩陣A的秩;設(shè)定正整數(shù)K,O < K < F,僅考慮Sy中值最大的K個(gè)奇異值,據(jù)此取Sy中相應(yīng)的K階對(duì)角矩陣-設(shè)為Sm、Ty中相應(yīng)的K列-設(shè)為Tm、Dy中相應(yīng)的K行-設(shè)為Dm ;之后進(jìn)行奇異值分解的反運(yùn)算,B = TmSmDm,完成處理過程)。之后尋找矩陣B中標(biāo)識(shí)目標(biāo)區(qū)域和特定事件相關(guān)性的矩陣元素值,如果其大于事先設(shè)定的閾值,則即可確定目標(biāo)區(qū)域可能會(huì)發(fā)生特定事件;否則,可確定目標(biāo)區(qū)域可能不會(huì)發(fā)生特定事件。
      [0093]如果根據(jù)上述的判斷過程后確定目標(biāo)區(qū)域會(huì)發(fā)生特定事件,那么根據(jù)目前發(fā)生特定事件的區(qū)域形成各自變量的值(I表示發(fā)生,O表示未發(fā)生),并代入上述的回歸預(yù)測(cè)模型進(jìn)行分析判斷,判斷順序?yàn)榘凑誄5、C4、C3、C2、C1的順序依次進(jìn)行。具體做法是如果按照C5判斷的結(jié)果為真(會(huì)發(fā)生),則進(jìn)行C4的判斷;如果結(jié)果為假(不會(huì)發(fā)生,即I個(gè)月后可能發(fā)生),則停止判斷。依此類推,直到判斷結(jié)果為假或者全部判斷完畢,從而得到目標(biāo)區(qū)域可能發(fā)生此事件的時(shí)間(即最后一個(gè)判斷結(jié)果為真的回歸預(yù)測(cè)模型所代表的時(shí)間范圍,比如如果C2模型是最后一個(gè)判斷結(jié)果為真的模型,則可預(yù)測(cè)目標(biāo)區(qū)域特定事件的發(fā)生時(shí)間可能在I天后3天內(nèi))。從而,可對(duì)目標(biāo)區(qū)域發(fā)生特定事件的風(fēng)險(xiǎn)進(jìn)行不同時(shí)間級(jí)別的預(yù)警。
      [0094]在對(duì)目標(biāo)區(qū)域特定事件是否發(fā)生、何時(shí)發(fā)生進(jìn)行預(yù)測(cè)、預(yù)警分析的基礎(chǔ)上,將分析得到的結(jié)果通過表格、圖等的方式展示給用戶。并提供短信息、郵件等即時(shí)送發(fā)的服務(wù)方式。
      [0095]8、本體補(bǔ)充和修正
      [0096]在事件信息發(fā)現(xiàn)、風(fēng)險(xiǎn)預(yù)警的整個(gè)過程中,構(gòu)建的食品安全事件信息本體對(duì)信息過濾、信息發(fā)現(xiàn)等步驟的性能有著重要的影響。因此,考慮到互聯(lián)網(wǎng)信息的分布變化特點(diǎn),從持續(xù)提高方法效率的角度出發(fā),需要定期對(duì)信息過濾、信息發(fā)現(xiàn)等過程的結(jié)果進(jìn)行評(píng)估。并對(duì)本體中的不足諸如遺漏、錯(cuò)誤等加以補(bǔ)充、修正,以提高方法后續(xù)的效率。
      [0097]由此,完整地實(shí)現(xiàn)了從爬取得到的互聯(lián)網(wǎng)信息中提取食品安全事件信息,并根據(jù)事件發(fā)展過程、目標(biāo)區(qū)域的事件發(fā)生風(fēng)險(xiǎn)及時(shí)進(jìn)行預(yù)警和為用戶服務(wù)的全過程。過程中,通過采取信息過濾、區(qū)域信息發(fā)現(xiàn)、對(duì)象種類信息發(fā)現(xiàn)、趨勢(shì)追蹤及預(yù)警、風(fēng)險(xiǎn)預(yù)測(cè)及預(yù)警等技術(shù)保證了事件信息發(fā)現(xiàn)和預(yù)警、風(fēng)險(xiǎn)預(yù)測(cè)和預(yù)警的準(zhǔn)確。這將為食品安全事件的風(fēng)險(xiǎn)預(yù)警、快速應(yīng)急處理等提供重要的信息基礎(chǔ)。
      [0098]值得說明的是,本發(fā)明不僅可用于食品安全事件的應(yīng)急管理,稍加改造,即可應(yīng)用到其他的、能從互聯(lián)網(wǎng)上獲取事件信息的非常規(guī)突發(fā)事件的風(fēng)險(xiǎn)預(yù)警等應(yīng)急處理工作中。
      【權(quán)利要求】
      1.一種面向特定區(qū)域的事件發(fā)生風(fēng)險(xiǎn)預(yù)測(cè)并預(yù)警方法,其步驟為: 1)建立一食品安全事件信息本體,并對(duì)本體中的每個(gè)實(shí)例分別建立一附加表; 2)對(duì)爬取的網(wǎng)頁(yè)信息進(jìn)行過濾,得到與食品安全事件相關(guān)的非垃圾網(wǎng)頁(yè)信息; 3)對(duì)過濾后的網(wǎng)頁(yè)信息中表示處所的詞語(yǔ)進(jìn)行解析,得到準(zhǔn)確的地名詞語(yǔ);基于所述食品安全事件信息本體中區(qū)域維度的本體實(shí)例名稱、屬性采用模式匹配方法對(duì)解析后的網(wǎng)頁(yè)信息進(jìn)行處理,將網(wǎng)頁(yè)信息歸入匹配成功的區(qū)域; 4)針對(duì)每一設(shè)定的對(duì)象類別,利用回歸分析模型對(duì)網(wǎng)頁(yè)信息進(jìn)行處理,判斷每一網(wǎng)頁(yè)相關(guān)的對(duì)象類別; 5)根據(jù)步驟3)、4)確定出的網(wǎng)頁(yè)所屬區(qū)域及其相關(guān)的對(duì)象類別,得到設(shè)定區(qū)域、對(duì)象的事件的網(wǎng)頁(yè)信息集合,建立事件的特征參數(shù)并定期計(jì)算特征參數(shù)值,如果某事件的特征參數(shù)值持續(xù)設(shè)定時(shí)間超過設(shè)定閾值則對(duì)該事件進(jìn)行預(yù)警; 6)如果某區(qū)域出現(xiàn)一設(shè)定對(duì)象事件預(yù)警,基于矩陣分析和回歸預(yù)測(cè)模型定期計(jì)算目標(biāo)區(qū)域發(fā)生該設(shè)定事件的可能性以及可能的發(fā)生時(shí)間,并進(jìn)行不同級(jí)別的風(fēng)險(xiǎn)預(yù)警。
      2.如權(quán)利要求1所述的方法,其特征在于對(duì)網(wǎng)頁(yè)信息中表示處所的詞語(yǔ)進(jìn)行解析的方法為: 1)對(duì)于地名代詞,用一判斷模型判斷地名代詞與其前面出現(xiàn)的地理名詞之間是否存在指代關(guān)系,如果存在,則將地名代詞替換為相應(yīng)的地理名詞; 2)基于標(biāo)準(zhǔn)詞語(yǔ)和非標(biāo)準(zhǔn)詞語(yǔ)對(duì)照表對(duì)詞語(yǔ)中非標(biāo)準(zhǔn)地名詞語(yǔ)進(jìn)行解析,將非標(biāo)準(zhǔn)詞語(yǔ)替換為標(biāo)準(zhǔn)詞語(yǔ); 3)基于所述食品安全事件信息本體中 的區(qū)域維度,對(duì)詞語(yǔ)中的相對(duì)位置區(qū)域信息進(jìn)行解析,得到準(zhǔn)確的地名詞語(yǔ); 其中,所述判斷模型的建立方法為:將包含地名代詞的網(wǎng)頁(yè)信息形成一樣本集合,并對(duì)樣本集合中地名代詞和其之前的地理名詞之間的指代關(guān)系進(jìn)行標(biāo)注,作為類別變量;建立地名代詞和其之前的地理名詞之間關(guān)系的特征向量:然后選擇機(jī)器學(xué)習(xí)方法基于所述樣本集合、類別變量和特征向量建立地理名詞和地名代詞之間是否存在指代關(guān)系的判斷模型; 其中,判斷地名代詞與其前面出現(xiàn)的地理名詞之間是否存在指代關(guān)系的方法為:計(jì)算地名代詞和地理名詞之間關(guān)系的特征向量值,利用所述判斷模型對(duì)所述特征向量值進(jìn)行判斷,確定地名代詞和地理名詞之間的指代關(guān)系是否存在。
      3.如權(quán)利要求1或2所述的方法,其特征在于所述食品安全事件信息本體包括對(duì)象、區(qū)域、時(shí)間、結(jié)果、關(guān)聯(lián)者五個(gè)緯度;所述附加表的內(nèi)容包括同義詞、反義詞、別名詞三個(gè)緯度;其中,針對(duì)區(qū)域維度,附件表的內(nèi)容還包括電話區(qū)號(hào)、郵政編碼、簡(jiǎn)稱、名勝、鄰近域、所在方位六個(gè)緯度。
      4.如權(quán)利要求3所述的方法,其特征在于步驟3)對(duì)過濾后的網(wǎng)頁(yè)信息中表示處所的詞語(yǔ)進(jìn)行解析之前采用分詞器對(duì)信息標(biāo)題和正文內(nèi)容進(jìn)行分詞,并記錄分詞所得詞語(yǔ)相對(duì)信息標(biāo)題和正文內(nèi)容構(gòu)成的文本開始、結(jié)束的相對(duì)位置、所屬句子、相對(duì)句子開始和結(jié)束的相對(duì)位置。
      5.如權(quán)利要求4所述的方法,其特征在于首先建立一可疑地名詞表,記錄可用作其他名稱的地名,然后用所述可疑地名詞表對(duì)步驟3)分詞所得詞語(yǔ)進(jìn)行匹配,濾除匹配的詞語(yǔ);其中,如果匹配的詞語(yǔ)具有代表地名的后綴,則保留該詞語(yǔ)。
      6.如權(quán)利要求2所述的方法,其特征在于對(duì)網(wǎng)頁(yè)信息中表示處所的地名代詞進(jìn)行解析的方法為: 61)建立一代詞解析的長(zhǎng)度為L(zhǎng)的滑動(dòng)窗口; 62)選擇地名代詞前L個(gè)詞語(yǔ)內(nèi)是否存在地理名詞,如果存在,則采用判斷模型進(jìn)行判斷,如果存在指代關(guān)系,則根據(jù)指代關(guān)系確定代詞對(duì)應(yīng)的地理名詞,解析結(jié)束,否則進(jìn)行步驟 63); 63)選擇地名代詞前2L個(gè)詞語(yǔ)內(nèi)是否存在地理名詞,如果存在,則采用判斷模型進(jìn)行判斷,如果存在指代關(guān)系,則根據(jù)指代關(guān)系確定代詞對(duì)應(yīng)的地理名詞,解析結(jié)束,否則進(jìn)行步驟64); 64)根據(jù)元數(shù)據(jù)提取過程中得到的信息來(lái)源或網(wǎng)站所在地采用抽取或者替換的方法確定地名代詞的指代地名。
      7.如權(quán)利要求2或6所述的方法,其特征在于所述判斷模型中的樣本特征向量的分量包括:地理名詞后綴長(zhǎng)度、地理名詞和地名代詞之間的距離、地理名詞距離文本開始的相對(duì)距離、地名代詞距離文本開始的相對(duì)距離、地理名詞距離句子開始的相對(duì)距離、地名代詞距離句子開始的相對(duì)距離、地理名詞距離句子結(jié)束的相對(duì)距離、地名代詞距離句子結(jié)束的相對(duì)距離。
      8.如權(quán)利要求6所述的方法,其特征在于在步驟62)中,如果地名代詞前L個(gè)詞語(yǔ)內(nèi)存在多個(gè)指代關(guān)系成立的地理名詞,則選擇距離地名代詞最近的地理名詞;在步驟64)中,如果地名代詞前2L個(gè)詞語(yǔ)內(nèi)存在多個(gè)指代關(guān)系成立的地理名詞,則選擇距離地名代詞最近的地理名詞。
      9.如權(quán)利要求1所述·的方法,其特征在于將每一網(wǎng)頁(yè)的信息標(biāo)題和內(nèi)容綜合在一起,并進(jìn)行分詞、去停用詞、降維后形成該網(wǎng)頁(yè)的特征向量,將網(wǎng)頁(yè)的特征向量作為回歸分析模型的自變量對(duì)網(wǎng)頁(yè)進(jìn)行處理,判斷其與對(duì)象類別是否相關(guān)。
      10.如權(quán)利要求1所述的方法,其特征在于步驟5)對(duì)該事件進(jìn)行預(yù)警的方法為:定期計(jì)算所述特征參數(shù)的數(shù)值,并將事件當(dāng)前的各特征參數(shù)值和其之前一定時(shí)期內(nèi)的均值進(jìn)行比較,如果差值為正且絕對(duì)值大于一定的閾值,則確定對(duì)此事件進(jìn)行預(yù)警初始化;對(duì)進(jìn)行了預(yù)警初始化設(shè)置的事件,繼續(xù)定期計(jì)算所述特征參數(shù)的數(shù)值,并將事件當(dāng)前的各特征參數(shù)值和其之前一定時(shí)期內(nèi)的均值進(jìn)行比較,如果差值為正且絕對(duì)值持續(xù)大于一定的閾值,則對(duì)此事件進(jìn)行正式預(yù)警;所述事件的特征參數(shù)包括:與事件相關(guān)的信息頁(yè)面數(shù)、頁(yè)面瀏覽數(shù)、頁(yè)面轉(zhuǎn)發(fā)數(shù)、設(shè)定網(wǎng)站的頁(yè)面瀏覽數(shù)、設(shè)定域名下網(wǎng)站頁(yè)面瀏覽數(shù)以及上述參數(shù)的綜合指數(shù)。
      11.如權(quán)利要求1或2或10所述的方法,其特征在于所述步驟6)的實(shí)現(xiàn)方法為: 11)選擇與目標(biāo)區(qū)域同行政級(jí)別的區(qū)域的歷史事件信息集合,基于該歷史事件信息集合建立事件網(wǎng)絡(luò)圖;其中,事件網(wǎng)絡(luò)圖的頂點(diǎn)標(biāo)識(shí)各個(gè)區(qū)域、食品安全事件,如果一個(gè)區(qū)域發(fā)生了某一事件,則標(biāo)識(shí)該區(qū)域的頂點(diǎn)與標(biāo)識(shí)該事件的頂點(diǎn)之間產(chǎn)生一個(gè)邊,并且邊的權(quán)重為該事件發(fā)生的次數(shù); 12)將該事件網(wǎng)絡(luò)圖轉(zhuǎn)換為一個(gè)R*S的矩陣A;其中,R為區(qū)域數(shù),S為食品安全事件數(shù); 13)基于上述的歷史事件信息集合,按照目標(biāo)區(qū)域發(fā)生設(shè)定事件距離最早發(fā)生該事件的時(shí)間不同,設(shè)定N個(gè)時(shí)間范圍,針對(duì)每一時(shí)間范圍分別對(duì)該歷史事件信息集合進(jìn)行標(biāo)注,形成N個(gè)數(shù)據(jù)集合; 14)對(duì)上述每一數(shù)據(jù)集合,將目標(biāo)區(qū)域在相應(yīng)時(shí)間范圍內(nèi)是否發(fā)生設(shè)定事件作為因變量,其余區(qū)域是否發(fā)生相應(yīng)事件作為自變量,采用回歸分析方法分別建立自變量、因變量之間的回歸預(yù)測(cè)模型; 15)更新矩陣A中的相應(yīng)元素,對(duì)矩陣A采用矩陣分解方法進(jìn)行處理,形成新的矩陣B; 16)尋找矩陣B中標(biāo)識(shí)目標(biāo)區(qū)域和設(shè)定事件相關(guān)性的矩陣元素值,如果其大于事先設(shè)定的閾值,則確定目標(biāo)區(qū)域可能會(huì)發(fā)生該設(shè)定事件;否則,不會(huì)發(fā)生該設(shè)定事件; 17)如果確定目標(biāo)區(qū)域未來(lái)會(huì)發(fā)生該設(shè)定事件,則根據(jù)目前發(fā)生該設(shè)定事件的區(qū)域得到自變量的值,代入上述回歸預(yù)測(cè)模型進(jìn)行判斷,根據(jù)判斷結(jié)果得到目標(biāo)區(qū)域可能發(fā)生設(shè)定事件的時(shí)間預(yù)測(cè)值; 18)根據(jù)上述的 風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果,對(duì)目標(biāo)區(qū)域發(fā)生設(shè)定事件的風(fēng)險(xiǎn)進(jìn)行不同級(jí)別的預(yù)警。
      【文檔編號(hào)】G06Q10/04GK103854064SQ201210501874
      【公開日】2014年6月11日 申請(qǐng)日期:2012年11月29日 優(yōu)先權(quán)日:2012年11月29日
      【發(fā)明者】楊風(fēng)雷, 黎建輝 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1