專(zhuān)利名稱(chēng)::一種對(duì)互聯(lián)網(wǎng)信息進(jìn)行異常狀態(tài)監(jiān)測(cè)的方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于互聯(lián)網(wǎng)信息挖掘
技術(shù)領(lǐng)域:
,具體涉及的是對(duì)互聯(lián)網(wǎng)信息進(jìn)行異常程度的跟蹤和監(jiān)測(cè)的方法。
背景技術(shù):
:隨著網(wǎng)絡(luò)日益成為人們發(fā)布信息、溝通信息的主要媒體,網(wǎng)絡(luò)上的信息也越來(lái)越能反映人們關(guān)注的焦點(diǎn)和社會(huì)熱點(diǎn)事件了。因此,通過(guò)監(jiān)控網(wǎng)絡(luò)信息中所反映的熱點(diǎn)問(wèn)題和熱點(diǎn)事件就成為一個(gè)自然的需求了。不論是普通用戶(hù)還是行業(yè)專(zhuān)家都希望有一個(gè)自動(dòng)化的工具或者方法幫助他們實(shí)時(shí)地跟蹤他們所關(guān)注的領(lǐng)域的最新熱點(diǎn)話(huà)題或者新聞,以便了解該領(lǐng)域的最新進(jìn)展。不難發(fā)現(xiàn),在一般情況下,互聯(lián)網(wǎng)信息中某個(gè)關(guān)鍵詞大量集中出現(xiàn)往往意味著某個(gè)熱點(diǎn)新聞或者熱點(diǎn)事件的發(fā)生,而當(dāng)發(fā)生了被廣泛關(guān)注的新聞或事件時(shí),又會(huì)在網(wǎng)絡(luò)上集中出現(xiàn)大量的帶有相關(guān)關(guān)鍵詞的文本。因此,互聯(lián)網(wǎng)文本中熱點(diǎn)關(guān)鍵詞的數(shù)量的較大變化常常反映了社會(huì)熱點(diǎn)新聞或事件的出現(xiàn)或降溫,而網(wǎng)絡(luò)上反映熱點(diǎn)新聞或事件的文本又會(huì)進(jìn)一步推動(dòng)廣大網(wǎng)民對(duì)于相關(guān)新聞和事件的關(guān)注程度和看法。也就是說(shuō),異常高的關(guān)鍵詞詞頻和顯著的熱點(diǎn)新聞和事件有一定的耦合關(guān)系。所以,在本發(fā)明中,避開(kāi)對(duì)詞頻小的變化問(wèn)題的預(yù)測(cè),只關(guān)心異常高的詞頻變化量。本發(fā)明對(duì)于網(wǎng)絡(luò)監(jiān)管機(jī)構(gòu)、關(guān)注社會(huì)熱點(diǎn)新聞和事件的機(jī)構(gòu)來(lái)說(shuō),是非常有價(jià)值的自動(dòng)跟蹤熱點(diǎn)詞匯出現(xiàn)頻率的工具。以下討論的關(guān)于詞的方法,均指互聯(lián)網(wǎng)信息中的關(guān)鍵詞。不同詞有不同的出現(xiàn)詞頻,而在某日,不同出現(xiàn)詞頻的詞的相同出現(xiàn)次數(shù)有不同含義。對(duì)于一個(gè)使用頻率很高的詞來(lái)說(shuō),詞頻的歷史均值和歷史標(biāo)準(zhǔn)差都很大,例如,分別是500次/天和350次/天。如果在某一天,其互聯(lián)網(wǎng)頻率增加了300次,變成了800次,即增加了大約l倍,那么一般仍然很正常;但是,如果其互聯(lián)網(wǎng)頻率變成了1200次,即增加了大約2倍,就會(huì)預(yù)示著發(fā)生了相應(yīng)的熱點(diǎn)新聞或事件了。4而對(duì)一個(gè)頻率比較低的詞,平均日互聯(lián)網(wǎng)出現(xiàn)頻率及其標(biāo)準(zhǔn)差很小,例如,分別是20次和15次。如果在某一天,其互聯(lián)網(wǎng)頻率增加了30次,變成了50次,即增加了大約l倍多,那么一般仍然很正常;但是,如果在某一天,互聯(lián)網(wǎng)上該詞的信息量增加了300次,變成了320次,則預(yù)示出現(xiàn)了相應(yīng)的熱點(diǎn)事件或新聞。也就是說(shuō),同樣是增加300次,對(duì)高頻詞說(shuō),仍然正常;而對(duì)低頻詞來(lái)說(shuō),則說(shuō)明出現(xiàn)了異常事件。即對(duì)具有不同詞頻的詞的度量,標(biāo)準(zhǔn)是不同的。對(duì)于低頻詞,上述的300次出現(xiàn)次數(shù)稱(chēng)為異常高的詞頻增加量。本發(fā)明的主要目標(biāo)是監(jiān)測(cè)異常高的詞頻增加量,進(jìn)而預(yù)測(cè)網(wǎng)絡(luò)熱點(diǎn)信息的出現(xiàn)或降溫,以及進(jìn)行必要的報(bào)警。KhooK.B.等人于2001年提出了一種跟蹤熱點(diǎn)話(huà)題的方法,對(duì)一些定點(diǎn)的網(wǎng)站或者網(wǎng)頁(yè)定期統(tǒng)計(jì)一些關(guān)鍵詞項(xiàng)(term)的詞頻,并利用tfidf公式計(jì)算每個(gè)term的當(dāng)前權(quán)重,并從中得到當(dāng)前的熱點(diǎn)話(huà)題(KhooK.B.,MitsuruI.EmergingTopicTrackingSystem.AdvancedIssuesofE-CommerceandWeb-BasedInformationSystems,WECWIS2001,ThirdInternationalWorkshopon.2-11.2001.),以下稱(chēng)為現(xiàn)有技術(shù)1。其貢獻(xiàn)之處在于,現(xiàn)有技術(shù)l給出了一種標(biāo)準(zhǔn)化的公式來(lái)計(jì)算每個(gè)term的當(dāng)前權(quán)重,隨著時(shí)間的變化,這個(gè)權(quán)重也會(huì)隨之變化,從而反映出互聯(lián)網(wǎng)信息熱點(diǎn)的變化情況。其主要缺點(diǎn)在于,沒(méi)有考慮每個(gè)term的歷史均值和歷史標(biāo)準(zhǔn)差,因此無(wú)法按照高頻詞和低頻詞的歷史表現(xiàn)對(duì)異常的熱點(diǎn)進(jìn)行準(zhǔn)確的度量,只能對(duì)各個(gè)term進(jìn)行橫向的比較。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種通過(guò)對(duì)互聯(lián)網(wǎng)信息中熱點(diǎn)詞匯的頻率所發(fā)生的變化進(jìn)行監(jiān)測(cè),從而對(duì)互聯(lián)網(wǎng)信息進(jìn)行異常狀態(tài)監(jiān)測(cè)的方法。本發(fā)明的技術(shù)方案如下一種對(duì)互聯(lián)網(wǎng)信息進(jìn)行異常狀態(tài)監(jiān)測(cè)的方法,所述的方法是結(jié)合用戶(hù)關(guān)注的熱點(diǎn)詞匯詞典,對(duì)用戶(hù)關(guān)注的互聯(lián)網(wǎng)信息進(jìn)行異常狀態(tài)的監(jiān)測(cè),具體包括以下步驟一、獲取通用詞匯在當(dāng)日互聯(lián)網(wǎng)頁(yè)中出現(xiàn)的當(dāng)日詞頻數(shù)據(jù),并存入數(shù)據(jù)庫(kù)。對(duì)互聯(lián)網(wǎng)的網(wǎng)頁(yè)進(jìn)行定時(shí)抓取,得出每個(gè)通用詞匯在每篇網(wǎng)頁(yè)中的詞頻數(shù);累加所有網(wǎng)頁(yè)中該通用詞匯的詞頻數(shù),得到當(dāng)日互聯(lián)網(wǎng)信息中的該通用詞匯的當(dāng)日詞頻數(shù)據(jù),并存入數(shù)據(jù)庫(kù)??梢园凑找韵虏襟E進(jìn)行(1.1)給定欲抓取的互聯(lián)網(wǎng)站點(diǎn)列表并存入數(shù)據(jù)庫(kù)之中;(1.2)遍歷數(shù)據(jù)庫(kù)站點(diǎn)列表中的每一條記錄,按照如下方法得到該站點(diǎn)中每一個(gè)通用詞匯的詞頻數(shù)根據(jù)互聯(lián)網(wǎng)站點(diǎn)列表記錄和通用詞匯表,得到需抓取的網(wǎng)頁(yè)鏈接地址;根據(jù)需抓取的鏈接地址,找出每一個(gè)通用詞匯標(biāo)有當(dāng)天日期的信息,并對(duì)這些信息計(jì)數(shù);(1.3)累加每一個(gè)通用詞匯在數(shù)據(jù)庫(kù)中所有站點(diǎn)列表中的詞頻數(shù),得到該通用詞匯的當(dāng)日詞頻數(shù)據(jù),并再存入數(shù)據(jù)庫(kù)的原位置。使用上述步驟,可以抓取并算出所有通用詞匯的當(dāng)日詞頻數(shù)據(jù)。需要說(shuō)明的是,使用本方面的方法,需要按如上方法積累相對(duì)較長(zhǎng)一段時(shí)間的上面的歷史數(shù)據(jù)。在得到歷史數(shù)據(jù)之后,就可以對(duì)新的一天的詞頻變化狀況進(jìn)行檢測(cè)了。首先利用中文分詞方法把當(dāng)日每篇網(wǎng)頁(yè)文檔進(jìn)行中文分詞得到該網(wǎng)頁(yè)中的所有通用詞匯(可借助當(dāng)前較成熟的中文分詞詞典進(jìn)行,如中科院計(jì)算所的海量詞典)。二、結(jié)合用戶(hù)關(guān)注的熱點(diǎn)詞匯詞典,確定每篇網(wǎng)頁(yè)的當(dāng)日關(guān)鍵詞,合并所有網(wǎng)頁(yè)的當(dāng)日關(guān)鍵詞,得到互聯(lián)網(wǎng)信息的當(dāng)日關(guān)鍵詞集合(ti,i=l……M},M為當(dāng)日關(guān)鍵詞表中的關(guān)鍵詞個(gè)數(shù)。確定當(dāng)日每篇網(wǎng)頁(yè)的關(guān)鍵詞的方法可以如下(2.1)對(duì)于每篇網(wǎng)頁(yè)中的每個(gè)通用詞匯,按照如下公式計(jì)算其信息特征值tfidf,即tfidf=-[freq(p,D)/size(D)]*[1og(df(p)/N)],其中:freq(p,D)是通用詞匯p在網(wǎng)頁(yè)D中的出現(xiàn)次數(shù),size(D)是網(wǎng)頁(yè)D中包含的所有通用詞匯的數(shù)量,df(p)是當(dāng)日網(wǎng)頁(yè)集合中含有通用詞匯p的文章的數(shù)量,N是當(dāng)日網(wǎng)頁(yè)集合中網(wǎng)頁(yè)的數(shù)量N;(2.2)將該網(wǎng)頁(yè)中的所有通用詞匯與用戶(hù)關(guān)注的熱點(diǎn)詞匯詞典進(jìn)行比較,刪去其中不屬于用戶(hù)關(guān)注的熱點(diǎn)詞匯,形成針對(duì)該網(wǎng)頁(yè)的備選關(guān)鍵詞表,選取該網(wǎng)頁(yè)備選關(guān)鍵詞表中tfidf值較大的K個(gè)關(guān)鍵詞,得到該篇網(wǎng)頁(yè)的當(dāng)日關(guān)鍵詞,K為正整數(shù)。三、確定當(dāng)日關(guān)鍵詞的權(quán)重。在當(dāng)日抓取的網(wǎng)頁(yè)集合中對(duì)當(dāng)日關(guān)鍵詞集合中的所有關(guān)鍵詞進(jìn)行累加求和,統(tǒng)計(jì)出每個(gè)關(guān)鍵詞的當(dāng)日詞頻,按照當(dāng)日詞頻將所有當(dāng)日關(guān)鍵詞從小到大排序。根據(jù)每個(gè)關(guān)鍵詞的互聯(lián)網(wǎng)詞頻的歷史數(shù)據(jù),計(jì)算歷史均值^i、歷史波動(dòng)率cri(不管頻率升降,本發(fā)明定義波動(dòng)率均取詞頻變化率的絕對(duì)值,即波動(dòng)率永遠(yuǎn)為正數(shù))。然后計(jì)算關(guān)鍵詞的權(quán)重將關(guān)鍵詞ti的q值定義為其波動(dòng)率的上取整值的倒數(shù),即qi=1/(cein(di)),i=l,...,M,其中cein()是上取整函數(shù),那么關(guān)鍵詞ti的權(quán)重wi=四、確定當(dāng)日關(guān)鍵詞的異常閥值。對(duì)于當(dāng)日關(guān)鍵詞ti,定義其異常闊值為cri,CTi+c(wi/wl),i=l,...,M。其中c是一個(gè)常數(shù),可以由用戶(hù)根據(jù)經(jīng)驗(yàn)來(lái)給出,代表詞語(yǔ)異常閥值的膨脹。對(duì)于不常見(jiàn)詞匯ti,由于cri-crl,所以d'-cji+c;而對(duì)于最常見(jiàn)詞匯,其cri較大,所以oi'-ai;而對(duì)于普通的詞匯,其異常閥值在ai和d+c之間平滑過(guò)渡。五、檢測(cè)當(dāng)日關(guān)鍵詞的異常程度并確定當(dāng)日熱點(diǎn)互聯(lián)網(wǎng)信息定義當(dāng)日關(guān)鍵詞的偏移度er=(fi-w)/d',偏移度大的當(dāng)日關(guān)鍵詞所屬的互聯(lián)網(wǎng)信息即為當(dāng)日熱點(diǎn)互聯(lián)網(wǎng)信息。進(jìn)一步,上述的方法中還包括如下步驟六.按照如圖4所示的折線(xiàn)判別函數(shù)(需要取整)檢測(cè)每個(gè)關(guān)鍵詞的異常度0i。也就是說(shuō),當(dāng)^o〈ei,〈0時(shí),9i=0;當(dāng)0sei,〈l時(shí),ei=floor(10ei,),其中floor()是下取整函數(shù);當(dāng)U,<2時(shí),ei=floor(80(ei,-1))+10;當(dāng)2,<3時(shí),6i=floor(9(6i,-2))+90;當(dāng)3S6i,〈+oo時(shí),6i=99。當(dāng)關(guān)鍵詞ti的異常度0i>90分時(shí),認(rèn)為該關(guān)鍵詞發(fā)生異常變化,該關(guān)鍵詞所屬的互聯(lián)網(wǎng)信息為當(dāng)日突發(fā)的熱點(diǎn)信息。進(jìn)一步,上述的方法中還包括如下步驟七.將所有關(guān)鍵詞的異常度得分以圖2所示的圖形方式顯示,便于用戶(hù)觀(guān)察其得分。圖形方式下將步驟6的結(jié)果使用JavaApplet技術(shù)和JavaAWT接口,根據(jù)各熱點(diǎn)詞匯在畫(huà)布上的坐標(biāo)及其預(yù)測(cè)的詞頻異常度大小,繪制給用戶(hù)。其中,圖形條越長(zhǎng),表示互聯(lián)網(wǎng)詞頻的異常程度越大。圖形條的顏色的決定方法是按照?qǐng)D形條的長(zhǎng)度,通過(guò)查一個(gè)20個(gè)長(zhǎng)度和20個(gè)顏色一一對(duì)應(yīng)的表,來(lái)決定其應(yīng)該繪制的顏色(見(jiàn)圖2)。圖形條的長(zhǎng)度和顏色分別從<7.1>長(zhǎng)度為0、顏色為深綠色(對(duì)應(yīng)詞頻異常度0),逐漸過(guò)度到<7.2>長(zhǎng)度為ZV2、顏色為橙色(對(duì)應(yīng)詞頻異常度90),再逐漸過(guò)度到<7.3>長(zhǎng)度為£、顏色為大紅色(對(duì)應(yīng)詞頻異常度100)。,i=l時(shí)對(duì)應(yīng)當(dāng)日詞頻fi最小的當(dāng)日關(guān)鍵詞。7其中,圖形條最大長(zhǎng)度為£,而且為了突出異常關(guān)鍵詞的顯示,圖形條的長(zhǎng)度與關(guān)鍵詞的異常度分值并不是正比關(guān)系而是反方向的對(duì)數(shù)關(guān)系,即/,=(2-log(100-0i))L/2,其中l(wèi)og是以IO為底的對(duì)數(shù)函數(shù)。這樣,最高分99對(duì)應(yīng)著長(zhǎng)度L,異常臨界值90分對(duì)應(yīng)著長(zhǎng)度L/2,異常度O分對(duì)應(yīng)著長(zhǎng)度O。為及時(shí)提醒用戶(hù),上述的方法進(jìn)一步包括如下步驟當(dāng)當(dāng)日關(guān)鍵詞ti的異常度6i〉卯分時(shí),向用戶(hù)報(bào)警。也即,當(dāng)圖形條長(zhǎng)度超過(guò)或等于L/2(這時(shí)顏色較偏紅,例如為大紅色和橙色)時(shí),即達(dá)到或超過(guò)報(bào)警線(xiàn)時(shí),系統(tǒng)向用戶(hù)報(bào)警。本發(fā)明與現(xiàn)有技術(shù)1的區(qū)別有以下三點(diǎn)。第一,現(xiàn)有技術(shù)l使用了tfidf公式來(lái)度量關(guān)鍵詞項(xiàng)的重要程度,而沒(méi)有考慮各個(gè)term的歷史均值和標(biāo)準(zhǔn)差,也沒(méi)有對(duì)高頻詞和低頻詞的不同情況進(jìn)行分別處理的機(jī)制;本發(fā)明除了使用tfidf公式選取當(dāng)日的關(guān)鍵詞,還發(fā)明設(shè)計(jì)了對(duì)不同頻率詞匯變化的權(quán)重度量公式,使用歷史均值和歷史標(biāo)準(zhǔn)差對(duì)詞頻顯著性波動(dòng),進(jìn)行預(yù)測(cè)。由于每個(gè)關(guān)鍵詞是否出現(xiàn)異常在很大程度上依賴(lài)于歷史上該關(guān)鍵詞的頻率分布,所以利用歷史均值和標(biāo)準(zhǔn)差可以從根本上提高關(guān)鍵詞異常程度檢測(cè)的實(shí)際應(yīng)用效果。第二,對(duì)詞頻的變化所代表的熱點(diǎn)話(huà)題的變化,現(xiàn)有技術(shù)1使用term的權(quán)重的排位來(lái)體現(xiàn),而本發(fā)明使用異常、半異常或正常作為檢測(cè)標(biāo)準(zhǔn),而異常程度是通過(guò)當(dāng)日的詞頻偏離歷史均值的程度計(jì)算的,判斷的閥值除了建立在歷史標(biāo)準(zhǔn)差之上,還對(duì)高頻詞和低頻詞進(jìn)行區(qū)分,從而把抽象的熱點(diǎn)變化程度具體化,并使之更接近實(shí)際使用場(chǎng)合。第三,現(xiàn)有技術(shù)l沒(méi)有進(jìn)行圖形化顯示,不方便實(shí)際應(yīng)用,本發(fā)明的方法進(jìn)一步設(shè)計(jì)和實(shí)現(xiàn)了圖形條長(zhǎng)度及顏色的顯示方法,對(duì)詞頻波動(dòng)率大小給出了直觀(guān)表達(dá)的途徑,并提供了報(bào)警功能。本發(fā)明通過(guò)對(duì)互聯(lián)網(wǎng)信息中熱點(diǎn)詞匯的頻率所發(fā)生的變化進(jìn)行監(jiān)測(cè),計(jì)算關(guān)鍵詞的異常程度,對(duì)熱點(diǎn)詞匯的詞頻變化的異常程度進(jìn)行預(yù)測(cè)和報(bào)警。對(duì)網(wǎng)絡(luò)監(jiān)管部門(mén)來(lái)說(shuō),本發(fā)明可以提供一個(gè)及時(shí)的熱點(diǎn)信息觀(guān)察窗口,盡早發(fā)現(xiàn)那些有異常程度的事件,可以對(duì)熱點(diǎn)詞匯詞頻的較大波動(dòng)提高警惕性,并在第一時(shí)間做出反應(yīng)。此外,根據(jù)本方法,可以從互聯(lián)網(wǎng)角度,對(duì)熱點(diǎn)信息和事件的變化情況進(jìn)行預(yù)測(cè),并可以相當(dāng)?shù)販?zhǔn)確向用戶(hù)報(bào)警。由于通常互聯(lián)網(wǎng)信息數(shù)量龐大,本發(fā)明的圖形輸出方式實(shí)質(zhì)上是給出了一個(gè)總結(jié)性信息,從而提高了發(fā)現(xiàn)熱點(diǎn)信息的效率。舉例來(lái)說(shuō),如果熱點(diǎn)信息為股市熱點(diǎn)信息,通過(guò)此監(jiān)控技術(shù),就可以間接地了解宏觀(guān)經(jīng)濟(jì)指標(biāo)變動(dòng)、公司財(cái)務(wù)變化對(duì)股價(jià)的影響,為決策機(jī)關(guān)的政策制定提供更多的理論依據(jù)。隨著互聯(lián)網(wǎng)的進(jìn)一步發(fā)展和滲透,將會(huì)有更多的金融信息通過(guò)網(wǎng)絡(luò)的渠道進(jìn)行公示,而由于互聯(lián)網(wǎng)的廣泛性和匿名性,很可能成為故意炒作者的利器。從這個(gè)意義上說(shuō),對(duì)互聯(lián)網(wǎng)金融熱點(diǎn)信息進(jìn)行研究還可以幫助金融監(jiān)督機(jī)構(gòu)有效地實(shí)現(xiàn)金融監(jiān)管,提高信息可信度,打擊惡意操作的行為。對(duì)于企業(yè)管理者而言,如果可以提前把握互聯(lián)網(wǎng)金融信息對(duì)自身股市行為帶來(lái)的可能影響,那么勢(shì)必將更為有效地做出決策,同時(shí)也可以及時(shí)地對(duì)虛假和炒作的金融信息做出回應(yīng)。圖l本發(fā)明方法的主要步驟流程圖2利用互聯(lián)網(wǎng)詞頻的變化預(yù)測(cè)熱點(diǎn)異常程度的圖形化顯示及報(bào)警舉例;圖32006-09-11新浪網(wǎng)的新聞分頁(yè)上的信息。圖4異常度折線(xiàn)判別函數(shù)圖具體實(shí)施例方式下面更詳細(xì)的描述出本發(fā)明的一個(gè)實(shí)施例。參見(jiàn)附圖1,一種對(duì)互聯(lián)網(wǎng)信息進(jìn)行異常狀態(tài)監(jiān)測(cè)的方法,所述的方法是結(jié)合用戶(hù)關(guān)注的熱點(diǎn)詞匯詞典,對(duì)用戶(hù)關(guān)注的互聯(lián)網(wǎng)信息進(jìn)行異常狀態(tài)的監(jiān)測(cè),包括以下步驟(1)抓取某日互聯(lián)網(wǎng)新聞文本<1>給出待抓取的網(wǎng)站列表并存入數(shù)據(jù)庫(kù)之中,錯(cuò)誤!未找到引用源。給出了一部分。表l互聯(lián)網(wǎng)新聞網(wǎng)站列表舉例<table>tableseeoriginaldocumentpage9</column></row><table><table>tableseeoriginaldocumentpage10</column></row><table><2>從數(shù)據(jù)庫(kù)的站點(diǎn)列表中讀取一條記錄,例如http:〃news.sina.com.cn/。<3>根據(jù)需抓取的鏈接地址,找出標(biāo)有當(dāng)天日期(例如2005-12-6)的信息,并計(jì)數(shù)(如果需要,可以進(jìn)入標(biāo)有"更多"的網(wǎng)頁(yè)鏈接,以找全當(dāng)日所有信息),例子見(jiàn)圖3;<4>生成用戶(hù)熱點(diǎn)詞匯的詞典(錯(cuò)誤!未找到引用源。給出了一部分,這是由用戶(hù)給定的),給出每個(gè)熱點(diǎn)詞匯對(duì)應(yīng)的歷史平均詞頻和歷史詞頻方差。<5>對(duì)于每個(gè)網(wǎng)頁(yè),計(jì)算詞典中的每個(gè)熱點(diǎn)詞匯在其中出現(xiàn)了多少次,與前面已經(jīng)抓取過(guò)的網(wǎng)頁(yè)中所計(jì)算的詞頻相加,存入數(shù)據(jù)庫(kù)的原位置。使用上述步驟,可以抓取并算出所有熱點(diǎn)詞匯的當(dāng)日詞頻。本例子使用從2003年末至2004年末的互聯(lián)新聞信息數(shù)據(jù)。本發(fā)明并不限于抓取互聯(lián)網(wǎng)新聞文本,可以抓取任何能夠反映熱點(diǎn)信息的文本,例如論壇文本。(2)數(shù)據(jù)預(yù)處理如上得到歷史數(shù)據(jù)之后,下面可以對(duì)每天的關(guān)鍵詞異常狀態(tài)進(jìn)行監(jiān)測(cè)。首先利用中文分詞方法借助分詞詞典(如中科院計(jì)算所的海量詞典)把當(dāng)日每篇網(wǎng)頁(yè)文檔進(jìn)行中文分詞,得到該篇網(wǎng)頁(yè)中的通用詞匯。對(duì)于每個(gè)通用詞匯,計(jì)算其信息特征值tfidf,即tfidf=-freq(p,D)/size(D)*log(df(p)/N),其中freq(p,D)是通用詞匯p在網(wǎng)頁(yè)D中的出現(xiàn)次數(shù),size(D)是網(wǎng)頁(yè)D中包含的所有通用詞匯的數(shù)量,df(p)是當(dāng)日網(wǎng)頁(yè)集合中含有通用詞匯p的文章的數(shù)量,N是當(dāng)日網(wǎng)頁(yè)集合中網(wǎng)頁(yè)的數(shù)量。(3)關(guān)鍵詞自動(dòng)選取將當(dāng)日抓取的網(wǎng)頁(yè)中的所有通用詞匯按照其tfidf值的大小排序,然后與用戶(hù)給定的熱點(diǎn)詞匯詞典進(jìn)行比較,刪去沒(méi)有出現(xiàn)在用戶(hù)詞典中的單詞,從而形成備選關(guān)鍵詞表。然后對(duì)照備選關(guān)鍵詞表,從當(dāng)日抓取的每個(gè)網(wǎng)頁(yè)文檔中選取tfidf值最大的IO個(gè)關(guān)鍵詞,合并得到當(dāng)日關(guān)鍵詞集合,如表2所示。表22004年8月16日的關(guān)鍵詞表<table>tableseeoriginaldocumentpage11</column></row><table>(4)計(jì)算關(guān)鍵詞權(quán)重在當(dāng)日抓取的網(wǎng)頁(yè)集合中對(duì)當(dāng)日關(guān)鍵詞集合中的所有關(guān)鍵詞進(jìn)行累積求和,統(tǒng)計(jì)出每個(gè)關(guān)鍵詞的當(dāng)日詞頻fi,并按照當(dāng)日詞頻從小到大將所有當(dāng)日關(guān)鍵詞排序,方便按照詞頻大小順序進(jìn)行權(quán)重的計(jì)算過(guò)程,i=l時(shí)fi最小。根據(jù)每個(gè)關(guān)鍵詞的互聯(lián)網(wǎng)詞頻的歷史數(shù)據(jù),計(jì)算歷史均值^、歷史波動(dòng)率cri(不管頻率升降,我們定義波動(dòng)率均取詞頻變化率的絕對(duì)值,即波動(dòng)率永遠(yuǎn)為正數(shù))。然后計(jì)算關(guān)鍵詞的權(quán)重。關(guān)鍵詞ti的權(quán)重wi:,其中qi-l/(cein(cji)),i=l,...,M,cein()是上取整函數(shù)。(見(jiàn)錯(cuò)誤!未找到引用源。)(5)計(jì)算關(guān)鍵詞的異常閥值對(duì)于關(guān)鍵詞ti,計(jì)算其異常闊值oi、(ji+c(wi/wl),i=l,...,M。這里默認(rèn)的常數(shù)c為15,由用戶(hù)根據(jù)經(jīng)驗(yàn)給出,代表詞語(yǔ)異常閥值的膨脹。可以看到,對(duì)于不常見(jiàn)詞匯ti,ai,-d+c;而對(duì)于最常見(jiàn)詞匯,ai'^(5i;對(duì)于普通的詞匯,其異常閥值在cri和(ji+c之間平滑過(guò)渡(見(jiàn)錯(cuò)誤!未找到引用源。)。(6)關(guān)鍵詞異常程度檢測(cè)以及圖形化顯示計(jì)算關(guān)鍵詞的偏移度0i'=(fi,i)/ai',i-l,...,M。然后按照?qǐng)D4所示的折線(xiàn)函數(shù)測(cè)每個(gè)關(guān)鍵詞的異常度ei。結(jié)果如錯(cuò)誤!未找到引用源。所示。最后,異常度ei〉90分的關(guān)鍵詞認(rèn)為是發(fā)生了異常變化。同時(shí),可以將所有關(guān)鍵詞的異常度得分以圖2所示的圖形方式顯示,便于用戶(hù)觀(guān)察其得分。表32004年8月16日的關(guān)鍵詞各屬性值及其異常度指標(biāo)<table>tableseeoriginaldocumentpage11</column></row><table><table>tableseeoriginaldocumentpage12</column></row><table>圖2所示的圖形方式下,按照?qǐng)D形條的長(zhǎng)度,通過(guò)查一個(gè)20個(gè)長(zhǎng)度和20個(gè)顏色一一對(duì)應(yīng)的表,來(lái)決定其應(yīng)該繪制的顏色。圖形條表示關(guān)鍵詞的異常程度,圖形條越長(zhǎng),表示互聯(lián)網(wǎng)詞頻的異常程度越大。圖中可以看出,關(guān)鍵詞"奧運(yùn)會(huì)"發(fā)生了顯著的異常變化,為大紅色;關(guān)鍵詞"教育"也有異常變化,為橘紅色;而關(guān)鍵詞"伊拉克"雖然詞頻的絕對(duì)值較高,但是由于詞頻變化較小,沒(méi)有超出閥值,所以不認(rèn)為發(fā)生了異常變化。(7)報(bào)警當(dāng)圖形條長(zhǎng)度超過(guò)或等于丄/2(這時(shí)顏色較偏紅,例如為大紅色和橙色)時(shí),即達(dá)到或超過(guò)報(bào)警線(xiàn)時(shí),系統(tǒng)向用戶(hù)報(bào)警。本發(fā)明的有效性評(píng)價(jià)本發(fā)明中采用一個(gè)測(cè)試集合來(lái)評(píng)價(jià)本發(fā)明的有效性,這個(gè)集合取自各個(gè)門(mén)戶(hù)網(wǎng)站的新聞和消息,為表現(xiàn)熱點(diǎn)事件的關(guān)鍵詞出現(xiàn)異常的全面情況,選用的事件涵蓋了多個(gè)領(lǐng)域。評(píng)價(jià)熱點(diǎn)詞匯的選擇是否正確,以及這些熱點(diǎn)詞匯的正確率多高需要一個(gè)參照標(biāo)準(zhǔn),當(dāng)前還沒(méi)有一個(gè)客觀(guān)的全面的標(biāo)準(zhǔn)來(lái)進(jìn)行評(píng)價(jià),對(duì)于這種情形,本發(fā)明根據(jù)這些門(mén)戶(hù)網(wǎng)站上的信息分布,預(yù)先采用人工的方式確定一個(gè)熱點(diǎn)詞匯的參照表(由于隨著時(shí)間變動(dòng),該熱點(diǎn)詞匯表也是不斷變化的,每天都可能改變)的方式來(lái)進(jìn)行。目前在信息檢索領(lǐng)域,用于評(píng)價(jià)詞匯提取性能的最常用指標(biāo)是召回率(Recall)和查準(zhǔn)率(Precision),在本發(fā)明的有效性評(píng)價(jià)中,采用這兩個(gè)指標(biāo)來(lái)進(jìn)行,分別定義為P=(獲取的符合條件的熱點(diǎn)詞數(shù)目)/(獲取的詞匯總數(shù)目)11=(獲取的符合條件的熱點(diǎn)詞數(shù)目)/(熱點(diǎn)詞匯表中詞數(shù)目)兩個(gè)指標(biāo)分別從不同側(cè)面刻畫(huà)了性能的好壞。測(cè)試首先是獲取數(shù)據(jù)集合,文檔時(shí)間范圍為2004年8月1日至2004年8月16日,選取的地點(diǎn)來(lái)自前面錯(cuò)誤!未找到引用源。所列舉的網(wǎng)站。采用本發(fā)明所介紹的第一步方法來(lái)獲取網(wǎng)頁(yè)數(shù)據(jù),并保存于本地供進(jìn)一步評(píng)測(cè)使用,測(cè)試文檔集合詳細(xì)情形參見(jiàn)附錯(cuò)誤!未找到引用源。所示,列出了成功獲取的文檔篇數(shù)、詞數(shù)以及文檔大小。獲取數(shù)據(jù)的同時(shí),對(duì)文檔進(jìn)行了中文分詞處理,分詞基于中科院計(jì)算所的海量詞典進(jìn)行,后面的統(tǒng)計(jì)計(jì)算是基于分詞后的結(jié)果。<table>tableseeoriginaldocumentpage13</column></row><table>針對(duì)該段時(shí)間的關(guān)鍵詞異常度檢測(cè)獲得的異常度結(jié)果如錯(cuò)誤!未找到引用源。所示,當(dāng)日的異常度依賴(lài)于前面的歷史詞頻和波動(dòng)變化。表52004年8月1日至2004年8月16日部分關(guān)鍵詞異常度<table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table>在錯(cuò)誤!未找到引用源。中,該段時(shí)間每日的關(guān)鍵詞異常度隨著相應(yīng)詞頻的歷史均值和歷史方差變動(dòng),在這段時(shí)間內(nèi),可以觀(guān)察到熱點(diǎn)詞匯的異常變化與歷史均值和方差之間的關(guān)系,以測(cè)試文檔頭一天的異常度數(shù)據(jù)為例,在此前未有歷史均值和方差的基礎(chǔ)上,該天的異常度數(shù)據(jù)可能說(shuō)明不了什么問(wèn)題,僅僅只是在tf"4df值的基礎(chǔ)上,更多的以詞頻本身來(lái)體現(xiàn)當(dāng)天的熱點(diǎn)詞匯,詞頻大的,比如"伊拉克",異常度為99,該天的詞頻數(shù)量為155,占有很大的比重,只能說(shuō)明在該天的出現(xiàn)次數(shù)較多,等到隔一周時(shí)間之后,該詞的詞頻145雖然還是很大,但異常度就只有66,未達(dá)到異常報(bào)警限。平常詞頻均值較小的詞語(yǔ),如"奧運(yùn)會(huì)",在測(cè)試文檔第一天的數(shù)據(jù)中,異常度為0,詞頻數(shù)目8很小,但是到三天之后,雖然詞頻僅有67,但是異常度已經(jīng)達(dá)到90了。主要是由于詞頻的歷史數(shù)據(jù)較大波動(dòng)率所致。而這與根據(jù)當(dāng)天文檔信息所產(chǎn)生的熱點(diǎn)詞表符合度是較高的,在后面的錯(cuò)誤!未找到引用源。數(shù)據(jù)分析中會(huì)進(jìn)一步予以說(shuō)明。針對(duì)熱點(diǎn)詞匯的提取,首先是對(duì)詞頻的統(tǒng)計(jì),計(jì)算其tf和idf的值,根據(jù)得到的tPidf特征,預(yù)先提取相應(yīng)特征詞匯,這個(gè)過(guò)程獲得詞匯與我們提供的關(guān)鍵詞有個(gè)比較過(guò)程,用以驗(yàn)證前期提取關(guān)鍵詞的效果。在利用tPidf值進(jìn)行關(guān)鍵詞自動(dòng)選取之后,得到的數(shù)據(jù)如錯(cuò)誤!未找到引用源。所示。表62004年8月1日至2004年8月16日部分關(guān)鍵詞tPidf值<table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage15</column></row><table>可以看到,關(guān)鍵詞選取過(guò)程中的tf4df值的大小并不能完全說(shuō)明關(guān)鍵詞的熱度,以錯(cuò)誤!未找到引用源。中的2004年8月16日關(guān)鍵詞tPidf值為例,對(duì)比錯(cuò)誤!未找到引用源。中的異常度可以看到,"奧運(yùn)會(huì)"的異常度99在當(dāng)天為最大,但是tf"4df值0.0041卻排在好幾個(gè)詞之后。在接下來(lái)的步驟中,釆用本發(fā)明所述的方法檢測(cè)并提取熱點(diǎn)詞匯,得到的提取效果如表7所示。表7基于統(tǒng)計(jì)異常度提取熱點(diǎn)詞匯的結(jié)果<table>tableseeoriginaldocumentpage15</column></row><table>熱點(diǎn)詞匯的提取,在基于前面的tf"4df值的選取范圍之內(nèi),根據(jù)詞頻歷史均值和歷史方差,對(duì)詞匯進(jìn)行重要性排序,按照異常度打分的機(jī)制,選取最終的熱點(diǎn)詞匯。由于網(wǎng)上獲取的文檔沒(méi)有給出關(guān)鍵詞,也沒(méi)有較客觀(guān)的現(xiàn)成標(biāo)準(zhǔn)可以用來(lái)對(duì)照,對(duì)于本發(fā)明的驗(yàn)證我們通過(guò)手工建立的熱點(diǎn)關(guān)鍵詞詞典,進(jìn)而與提取詞匯進(jìn)行比較。對(duì)于按照本發(fā)明的方法找出來(lái)的熱點(diǎn)詞匯,也即經(jīng)檢測(cè)發(fā)現(xiàn)的異常度較大的關(guān)鍵詞,其對(duì)于文檔的査準(zhǔn)率和査全率從錯(cuò)誤!未找到引用源。中可以看到,本發(fā)明中的熱點(diǎn)詞匯檢測(cè)方法是建立在關(guān)鍵詞提取基礎(chǔ)上的,是對(duì)關(guān)鍵詞中的熱點(diǎn)詞匯的發(fā)現(xiàn),因此關(guān)鍵詞提取的全面性會(huì)影響到熱點(diǎn)詞匯的發(fā)現(xiàn)。本發(fā)明的效果驗(yàn)證過(guò)程,某個(gè)詞匯在一段時(shí)間成為異常度較高的詞匯,如果異常度持續(xù)保持較高,對(duì)于其詞頻的增長(zhǎng)是個(gè)較強(qiáng)的遞增過(guò)程,通過(guò)錯(cuò)誤!未找到引用源。中的tPidf體現(xiàn)出詞匯出現(xiàn)頻度的變動(dòng);同時(shí)在一段時(shí)間內(nèi),某個(gè)詞匯異常度一直為較低,會(huì)在出現(xiàn)一個(gè)較為可觀(guān)的變動(dòng)后,異常度開(kāi)始走高(如"奧運(yùn)會(huì)",在本發(fā)明中的測(cè)試數(shù)據(jù)集中,以13曰為分界線(xiàn),此前異常度一直不是很大不足5.0,異常度開(kāi)始變?yōu)檩^大異常90以上);同時(shí)異常度在起初較大,到后來(lái)隨著時(shí)間變化逐漸異常度減低(如伊拉克,在測(cè)試數(shù)據(jù)開(kāi)始階段,從6—9日異常度均值83.7,逐漸變?yōu)椴坏絀O),可以從錯(cuò)誤!未找到引用源。中看出部分詞匯異常度的走勢(shì)??梢杂^(guān)察到,錯(cuò)誤!未找到引用源。中涉及的熱點(diǎn)詞提取的查準(zhǔn)率是較高的,初始第一天的數(shù)據(jù),由于歷史數(shù)據(jù)波動(dòng)尚未考慮,査準(zhǔn)率較低,包括第二、三天也是歷史波動(dòng)不太明顯,在此后的幾日數(shù)據(jù)有了歷史波動(dòng)的參照和修正,可以發(fā)現(xiàn)查準(zhǔn)率均在75%以上,最高達(dá)89%(均值為78.13%),說(shuō)明按照本發(fā)明的方法提取的熱點(diǎn)詞匯中的大部分符合熱點(diǎn)詞表的詞匯,提取的結(jié)果比較準(zhǔn)確。在錯(cuò)誤!未找到引用源。中,召回率表示按照本發(fā)明方法進(jìn)行熱點(diǎn)詞發(fā)現(xiàn)的詞占熱點(diǎn)詞表比例,本發(fā)明所提供的熱點(diǎn)詞評(píng)價(jià)詞典是人工產(chǎn)生的,每天的詞典不同,詞數(shù)也有差異,都是根據(jù)當(dāng)天以及前些天的網(wǎng)上信息得出,由于在本次信息的提取中涉及到的樣本數(shù)量比較有限,加上在關(guān)鍵詞自動(dòng)選取中根據(jù)tPidf的大小選取詞數(shù)較少,驗(yàn)證中的召回率不是太高(均值為60.61%)。該處不足可以通過(guò)擴(kuò)大樣本集合,并且增加關(guān)鍵詞自動(dòng)選詞數(shù)目來(lái)進(jìn)行提高。此處只是簡(jiǎn)單的效果驗(yàn)證,在實(shí)際的應(yīng)用中使用的樣本數(shù)量遠(yuǎn)遠(yuǎn)大于此處的測(cè)試集合,而且實(shí)現(xiàn)中就不再僅限于按照tPidf值提取當(dāng)天10個(gè)詞語(yǔ)作為關(guān)鍵詞,可根據(jù)需要擴(kuò)大這個(gè)范圍,以免漏掉一些tf"4df值偏小但是有可能是熱點(diǎn)詞匯的詞語(yǔ),通過(guò)實(shí)際應(yīng)用大規(guī)模數(shù)據(jù)集和大量提取關(guān)鍵詞的方式,可相應(yīng)提升召回率。按照我們的方法,檢測(cè)出的熱點(diǎn)詞匯效果進(jìn)行評(píng)價(jià)打分,根據(jù)錯(cuò)誤!未找到引用源。中的査準(zhǔn)率和召回率數(shù)值來(lái)綜合比較,可作為評(píng)價(jià)熱點(diǎn)詞匯的一個(gè)較為客觀(guān)的參考數(shù)據(jù),打分的準(zhǔn)確性由這兩個(gè)指標(biāo)數(shù)值進(jìn)行綜合評(píng)價(jià),據(jù)了解目前在中文的熱點(diǎn)詞檢測(cè)方面并沒(méi)有同類(lèi)的方法,本發(fā)明的提出具有原創(chuàng)性,我們對(duì)該處兩個(gè)指標(biāo)值的評(píng)價(jià)就只能從專(zhuān)利的效果自身來(lái)進(jìn)行??疾閺?日到16日的查準(zhǔn)率和召回率數(shù)值變化看來(lái),初始第一天的查準(zhǔn)率和召回率指標(biāo)均不高,而且差異較大(查準(zhǔn)率68%,召回率46%),在其后的幾日,通過(guò)與人工熱點(diǎn)詞表的對(duì)照比較,綜合了歷史詞頻的波動(dòng),査準(zhǔn)率和召回率都有所回升,比如在2004年8月13-16日的熱點(diǎn)詞表中,基于歷史波動(dòng),對(duì)"奧運(yùn)會(huì)"詞頻的增長(zhǎng)做出了很好的判斷,并能正確的做出預(yù)警提示,對(duì)于此段時(shí)間的其他熱點(diǎn)詞匯,平均査準(zhǔn)率達(dá)79.2%,平均査全率為69.4%,考慮歷史波動(dòng)的累積對(duì)評(píng)價(jià)指標(biāo)值的提升有一定效果。在本發(fā)明方法的效果評(píng)價(jià)過(guò)程中,我們更多的依靠人的主觀(guān)常識(shí)判斷生成的熱點(diǎn)詞匯作為標(biāo)準(zhǔn),可能會(huì)在一定程度上影響評(píng)價(jià)效果的客觀(guān)性,但是由于目前沒(méi)有現(xiàn)成的中文熱點(diǎn)詞表標(biāo)準(zhǔn)作為參照,作為熱點(diǎn)詞匯的檢測(cè)方法效果的體現(xiàn),暫時(shí)只能以人工標(biāo)準(zhǔn)作為比對(duì),就某領(lǐng)域的重大事件而言,我們選取的熱點(diǎn)詞是基于主要門(mén)戶(hù)網(wǎng)站的信息,相對(duì)也是比較客觀(guān)的,從目的上來(lái)說(shuō)它也適應(yīng)作為實(shí)際應(yīng)用的參考。進(jìn)一步的我們對(duì)提取的一段時(shí)間的熱門(mén)詞,對(duì)照了某搜索網(wǎng)站搜集并總結(jié)的以周為單位的時(shí)間段內(nèi)熱門(mén)事件(從2004年8月1日到8月16日兩周時(shí)間),對(duì)比結(jié)果如表8所示。表8本發(fā)明的熱點(diǎn)詞匯與某搜索引擎的熱門(mén)事件關(guān)鍵詞分類(lèi)本發(fā)明熱點(diǎn)詞匯累計(jì)某搜索引擎熱點(diǎn)事件關(guān)鍵詞標(biāo)準(zhǔn)詞表累計(jì)時(shí)間段2004080卜2004081620040801-2004081620040801-20040816詞例奧運(yùn)會(huì)、房地產(chǎn)、匯率、伊拉克、人民幣、股改、環(huán)保、通貨膨脹、世界杯、恐怖、巴勒斯坦、臺(tái)灣、教育、銀行、比賽、爆炸、中國(guó)隊(duì)等等比賽、希臘、中國(guó)隊(duì)、奧運(yùn)會(huì)、金牌、伊拉克、美軍、恐怖、加沙、電信、納杰夫、奧林匹克、教育、飛機(jī)、巴勒斯坦、援助、資源、航空、開(kāi)幕式、錄取、影片、人民幣、禁賽、紀(jì)錄、體育場(chǎng)等等臺(tái)灣、飛機(jī)、伊拉克、美軍、比賽、中國(guó)隊(duì)、奧運(yùn)會(huì)、教育、航空、恐怖、體育場(chǎng)、納杰夫、海軍、奧委會(huì)、聯(lián)合國(guó)、希臘、阿富汗、戰(zhàn)爭(zhēng)、資源、武器、金牌、核武器、影片、食品、石油、好萊塢、市政等等總詞數(shù)16019621017<table>tableseeoriginaldocumentpage18</column></row><table>因?yàn)樵撍阉骶W(wǎng)站搜集的這些信息都是以消息標(biāo)題形式呈現(xiàn),并且列出的是一段時(shí)間的信息,沒(méi)有具體針對(duì)某一天的事件,我們針對(duì)這些事件提取了關(guān)鍵詞,同時(shí)列出了該段時(shí)間內(nèi)我們的方法發(fā)現(xiàn)的熱門(mén)詞信息。以前面每天手工產(chǎn)生的熱門(mén)詞表的累積為標(biāo)準(zhǔn)來(lái)進(jìn)行一下比較,仍然按照前面定義的方式,經(jīng)過(guò)統(tǒng)計(jì)計(jì)算,可以看到該搜索引擎在該段時(shí)間內(nèi)獲取的信息平均查準(zhǔn)率為69.27%,平均召回率為63.3%;相應(yīng)的,對(duì)于一段時(shí)間的統(tǒng)計(jì)結(jié)果,本發(fā)明驗(yàn)證的平均査準(zhǔn)率73.75,召回率56.19%。從這兩樣指標(biāo)的數(shù)值看來(lái),本次測(cè)試中方法的平均召回率不及該搜索引擎的指標(biāo),但是查確率卻稍稍領(lǐng)先,可能是受到此處驗(yàn)證使用的人工標(biāo)準(zhǔn)熱點(diǎn)詞表的影響,但是這里的差異都不是太大。錯(cuò)誤!未找到引用源。中的數(shù)據(jù)對(duì)比可以看出,本發(fā)明具有較高的平均査準(zhǔn)率,原因主要是因?yàn)檩^好地抓住了"熱點(diǎn)詞匯在某一特定時(shí)間點(diǎn)相較于自身歷史回溯忽增的特點(diǎn)",與此同時(shí),另一方面本發(fā)明顯示出較低的平均召回率,這一特性又說(shuō)明熱點(diǎn)詞匯還有其他特點(diǎn)本發(fā)明沒(méi)有概括進(jìn)去。這樣,綜合看來(lái),本發(fā)明適合的用戶(hù)包括那些比較挑剔結(jié)果正確率,滿(mǎn)足于找出當(dāng)天大部分熱點(diǎn)詞匯,而對(duì)于個(gè)別未能找到的熱點(diǎn)詞匯不太在意的人群,包括時(shí)間緊張的政府領(lǐng)導(dǎo)人、風(fēng)險(xiǎn)投資家權(quán)利要求1.一種對(duì)互聯(lián)網(wǎng)信息進(jìn)行異常狀態(tài)監(jiān)測(cè)的方法,所述的方法是結(jié)合用戶(hù)關(guān)注的熱點(diǎn)詞匯詞典,對(duì)用戶(hù)關(guān)注的互聯(lián)網(wǎng)信息進(jìn)行異常狀態(tài)的監(jiān)測(cè),其特征在于,包括以下步驟(1)獲取通用詞匯在當(dāng)日互聯(lián)網(wǎng)頁(yè)中出現(xiàn)的當(dāng)日詞頻數(shù)據(jù),并存入數(shù)據(jù)庫(kù);(2)結(jié)合用戶(hù)關(guān)注的熱點(diǎn)詞匯詞典,確定每篇網(wǎng)頁(yè)的當(dāng)日關(guān)鍵詞,合并所有網(wǎng)頁(yè)的當(dāng)日關(guān)鍵詞,得到互聯(lián)網(wǎng)信息的當(dāng)日關(guān)鍵詞集合{ti,i=1……M},M為當(dāng)日關(guān)鍵詞表中的關(guān)鍵詞個(gè)數(shù);(3)確定當(dāng)日關(guān)鍵詞的權(quán)重根據(jù)每個(gè)當(dāng)日關(guān)鍵詞ti的互聯(lián)網(wǎng)詞頻的歷史數(shù)據(jù),計(jì)算其歷史均值μi、歷史波動(dòng)率σi,波動(dòng)率為詞頻變化率的絕對(duì)值;定義qi=1/(cein(σi)),cein()是上取整函數(shù),當(dāng)日關(guān)鍵詞ti的權(quán)重<mathsid="math0001"num="0001"><math><![CDATA[<mrow><mi>wi</mi><mo>=</mo><msub><mi>q</mi><mi>i</mi></msub><mo>/</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>q</mi><mi>i</mi></msub><mo>,</mo></mrow>]]></math>id="icf0001"file="A2007100986450002C1.tif"wi="27"he="10"top="110"left="56"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>i=1時(shí)對(duì)應(yīng)當(dāng)日詞頻fi最小的當(dāng)日關(guān)鍵詞;(4)確定當(dāng)日關(guān)鍵詞的異常閥值對(duì)于當(dāng)日關(guān)鍵詞ti,定義其異常閥值為σi’=σi+c(wi/w1),其中c是用戶(hù)根據(jù)經(jīng)驗(yàn)來(lái)給出的一個(gè)常數(shù),代表詞語(yǔ)異常閥值的膨脹;(5)檢測(cè)當(dāng)日關(guān)鍵詞的異常程度并確定當(dāng)日熱點(diǎn)互聯(lián)網(wǎng)信息定義當(dāng)日關(guān)鍵詞的偏移度θi’=(fi-μi)/σi’,偏移度大的當(dāng)日關(guān)鍵詞所屬的互聯(lián)網(wǎng)信息即為當(dāng)日熱點(diǎn)互聯(lián)網(wǎng)信息。2.如權(quán)利要求1所述的自動(dòng)監(jiān)測(cè)方法,其特征在于,所述步驟(1)中通用詞匯的當(dāng)日詞頻數(shù)據(jù)是按照如下方法得出(1.1)給定欲抓取的互聯(lián)網(wǎng)站點(diǎn)列表并存入數(shù)據(jù)庫(kù)之中;(1.2)遍歷數(shù)據(jù)庫(kù)站點(diǎn)列表中的每一條記錄,按照如下方法得到該站點(diǎn)中每一個(gè)通用詞匯的詞頻數(shù)根據(jù)互聯(lián)網(wǎng)站點(diǎn)列表記錄和通用詞匯表,得到需抓取的網(wǎng)頁(yè)鏈接地址;根據(jù)需抓取的鏈接地址,找出每一個(gè)通用詞匯標(biāo)有當(dāng)天日期的信息,并對(duì)這些信息計(jì)數(shù);(1.3)累加每一個(gè)通用詞匯在數(shù)據(jù)庫(kù)中所有站點(diǎn)列表中的詞頻數(shù),得到該通用詞匯的當(dāng)日詞頻數(shù)據(jù)。3.如權(quán)利要求l所述的對(duì)互聯(lián)網(wǎng)信息進(jìn)行異常狀態(tài)監(jiān)測(cè)的方法,其特征在于,所述步驟(2)中確定當(dāng)日每篇網(wǎng)頁(yè)的關(guān)鍵詞的方法如下-(2.1)對(duì)于每篇網(wǎng)頁(yè)中的每個(gè)通用詞匯,按照如下公式計(jì)算其信息特征值tfidf,即tfidf=-[freq(p,D)/size(D)]*[1og(df(p)/N)],其中freq(p,D)是通用詞匯p在網(wǎng)頁(yè)D中的出現(xiàn)次數(shù),size(D)是網(wǎng)頁(yè)D中包含的所有通用詞匯的數(shù)量,df(p)是當(dāng)日網(wǎng)頁(yè)集合中含有通用詞匯p的文章的數(shù)量,N是當(dāng)日網(wǎng)頁(yè)集合中網(wǎng)頁(yè)的數(shù)量;(2.2)將該網(wǎng)頁(yè)中的所有通用詞匯與用戶(hù)關(guān)注的熱點(diǎn)詞匯詞典進(jìn)行比較,刪去其中不屬于用戶(hù)關(guān)注的熱點(diǎn)詞匯,形成針對(duì)該網(wǎng)頁(yè)的備選關(guān)鍵詞表,選取該網(wǎng)頁(yè)備選關(guān)鍵詞表中tfidf值較大的K個(gè)關(guān)鍵詞,得到該篇網(wǎng)頁(yè)的當(dāng)日關(guān)鍵詞,K為正整數(shù)。4.如權(quán)利要求l所述的自動(dòng)監(jiān)測(cè)方法,其特征在于,所述的方法進(jìn)一步包括如下步驟定義每個(gè)當(dāng)日關(guān)鍵詞的異常度ei,當(dāng)"Oo〈ero時(shí),ei=o;當(dāng)O50i,〈i時(shí),ei=floor(10ei,),其中floor()是下取整函數(shù);當(dāng)Hei,〈2時(shí),9i=floor(80(ei,—1))+10;當(dāng)256i,〈3時(shí),9i=floor(9(9i,—2))+90;當(dāng)3sei,〈+oo時(shí),ei=99;當(dāng)當(dāng)日關(guān)鍵詞ti的異常度61>90時(shí),認(rèn)為該關(guān)鍵詞發(fā)生異常變化,該關(guān)鍵詞所屬的互聯(lián)網(wǎng)信息為當(dāng)日突發(fā)的熱點(diǎn)信息。5.如權(quán)利要求4所述的自動(dòng)監(jiān)測(cè)方法,其特征在于,所述的方法進(jìn)一步包括如下步驟將所有當(dāng)日關(guān)鍵詞的異常度得分進(jìn)行圖形化顯示。6.如權(quán)利要求4或5所述的自動(dòng)監(jiān)測(cè)方法,其特征在于,所述的方法進(jìn)一步包括如下步驟當(dāng)當(dāng)日關(guān)鍵詞ti的異常度9i〉90分時(shí),向用戶(hù)報(bào)警。全文摘要本發(fā)明提供了一種通過(guò)對(duì)互聯(lián)網(wǎng)信息中熱點(diǎn)詞匯的頻率所發(fā)生的變化進(jìn)行監(jiān)測(cè),從而對(duì)互聯(lián)網(wǎng)信息進(jìn)行異常狀態(tài)監(jiān)測(cè)的方法。該方法包括以下步驟一、獲取通用詞匯在當(dāng)日互聯(lián)網(wǎng)頁(yè)中出現(xiàn)的當(dāng)日詞頻數(shù)據(jù);二、結(jié)合用戶(hù)關(guān)注的熱點(diǎn)詞匯詞典,確定互聯(lián)網(wǎng)信息的當(dāng)日關(guān)鍵詞集合;三、確定每個(gè)當(dāng)日關(guān)鍵詞的權(quán)重;四、確定當(dāng)日關(guān)鍵詞的異常閥值;五、檢測(cè)當(dāng)日關(guān)鍵詞的異常程度并確定當(dāng)日熱點(diǎn)互聯(lián)網(wǎng)信息。本發(fā)明通過(guò)對(duì)互聯(lián)網(wǎng)信息中熱點(diǎn)詞匯的頻率所發(fā)生的變化進(jìn)行監(jiān)測(cè),計(jì)算關(guān)鍵詞的異常程度,對(duì)熱點(diǎn)詞匯的詞頻變化的異常程度進(jìn)行預(yù)測(cè)和報(bào)警??梢允沟没ヂ?lián)網(wǎng)信息使用者在第一時(shí)間做出反應(yīng)。文檔編號(hào)G06F17/30GK101296128SQ20071009864公開(kāi)日2008年10月29日申請(qǐng)日期2007年4月24日優(yōu)先權(quán)日2007年4月24日發(fā)明者健楊,循梁,華陳申請(qǐng)人:北京大學(xué)