在社交網(wǎng)絡中的事件挖掘的制作方法
【專利摘要】一種用于從社交流中檢測事件的方法和系統(tǒng)。該方法包括以下步驟:從社交網(wǎng)絡接收社交流,其中社交流包括至少一個對象并且該對象包括文本、文本的發(fā)送方信息、和文本的接收方信息;基于在對象與聚類之間的相似度值而將所述對象指配到聚類;監(jiān)測聚類中的至少一個聚類的改變;并且在聚類中的至少一個聚類的改變超過第一門限值時觸發(fā)警報,其中使用計算機設備來執(zhí)行步驟中的至少一個步驟。
【專利說明】在社交網(wǎng)絡中的事件挖掘
【技術領域】
[0001] 本發(fā)明涉及事件挖掘,并且更具體地涉及從社交流中檢測新事件。
【背景技術】
[0002] 由于文本數(shù)據(jù)在廣泛多種場景、比如web、社交網(wǎng)絡、新聞饋送和許多其它場景中 普遍可用,文本挖掘問題已經(jīng)在信息檢索界中被廣泛研究。文本數(shù)據(jù)中的許多文本數(shù)據(jù)在 時間應用、比如新聞饋送和社交網(wǎng)絡流的情境中出現(xiàn),在這些時間應用中,文本作為連續(xù)和 規(guī)模文檔流到達。由于經(jīng)常有必要在單次通過中處理數(shù)據(jù)并且不能在盤上存儲所有數(shù)據(jù)用 于再處理,流應用給這樣的問題帶來特殊挑戰(zhàn)。
[0003] 時間的和流的文本數(shù)據(jù)的情境中的重要問題是與主題檢測和跟蹤問題密切相關 的在線事件檢測問題。這一問題也與流分割密切相關,并且嘗試確定文本流中的新主題趨 勢及其顯著演變。思想是現(xiàn)實中的重要和有新聞價值的事件(比如在中東內(nèi)的新近動蕩) 經(jīng)常以與社交流中的文檔密切相關的時間猝發(fā)的形式被捕獲。可以在經(jīng)監(jiān)督的和不經(jīng)監(jiān)督 的場景二者中提出該問題。在不經(jīng)監(jiān)督的情況下,假設無訓練數(shù)據(jù)可用以便引導流的事件 檢測過程。在經(jīng)監(jiān)督的情況下,關于事件的在先數(shù)據(jù)可用以便指導事件檢測過程。
【發(fā)明內(nèi)容】
[0004] 因而,本發(fā)明的一個方面提供一種用于從社交流中檢測事件的方法。該方法包括 以下步驟:從社交網(wǎng)絡接收社交流,其中社交流包括至少一個對象,并且對象包括文本、文 本的發(fā)送方信息和文本的接收方信息;基于在對象與聚類之間的相似度值將所述對象指配 到聚類;監(jiān)測在聚類中的至少一個聚類的改變;并且在聚類中的至少一個聚類的改變超過 第一門限值時觸發(fā)警報,其中使用計算機設備來執(zhí)行步驟中的至少一個步驟。
[0005] 本發(fā)明的另一方面提供一種從社交流中檢測事件的系統(tǒng)。該系統(tǒng)包括:用于從社 交網(wǎng)絡接收社交流的接收模塊,其中社交流包括至少一個對象,并且對象包括文本、文本的 發(fā)送方信息和文本的接收方信息;用于基于在對象與聚類之間的相似度值將所述對象指配 到聚類的聚類模塊;用于監(jiān)測聚類中的至少一個聚類的改變的監(jiān)測模塊;以及用于在聚類 中的至少一個聚類的改變超過第一門限值時觸發(fā)警報的觸發(fā)模塊。
【專利附圖】
【附圖說明】
[0006] 圖1示出流程圖,該流程圖圖示根據(jù)本發(fā)明的一個優(yōu)選實施例的檢測社交網(wǎng)絡中 的事件的方法100。
[0007] 圖2示出根據(jù)本發(fā)明的一個優(yōu)選實施例的用于檢測社交網(wǎng)絡中的事件的系統(tǒng)。
[0008] 圖3圖示用于實施或者執(zhí)行本發(fā)明的至少一個實施例的硬件配置。
[0009] 圖4示出流程圖,該流程圖圖示根據(jù)本發(fā)明的一個優(yōu)選實施例的用于在分割步驟 102期間將對象指配到現(xiàn)有聚類或者創(chuàng)建新聚類的方法的流程圖。
[0010] 圖5示出流程圖,該流程圖圖示根據(jù)本發(fā)明的另一優(yōu)選實施例的維護方法500。
[0011] 圖6示出根據(jù)本發(fā)明的另一優(yōu)選實施例的用于聚類維護的詳細總體算法。
[0012] 圖7圖示根據(jù)本發(fā)明的一個優(yōu)選實施例的聚類算法在聚類純度方面的有效性結 果。
[0013] 圖8示出根據(jù)本發(fā)明的一個優(yōu)選實施例的聚類方式關于增加的聚類數(shù)目的效率。
[0014] 圖9圖示根據(jù)本發(fā)明的一個優(yōu)選實施例的經(jīng)監(jiān)督的事件檢測方法的結果。
【具體實施方式】
[0015] 本發(fā)明的以上和其它特征將通過與附圖組合示出的實施例具體描述而變得更明 顯。相同標號代表本發(fā)明的附圖中的相同或者相似部分。
[0016] 如所屬【技術領域】的技術人員將意識到的,本發(fā)明的多個方面可以實現(xiàn)為系統(tǒng)、方 法或計算機程序產(chǎn)品。因此,本發(fā)明的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件 實施方式、完全的軟件實施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結合 的實施方式,這里可以統(tǒng)稱為"電路"、"模塊"或"系統(tǒng)"。此外,本發(fā)明的各個方面可以采取 體現(xiàn)在任何一個或多個計算機可讀介質中的計算機程序產(chǎn)品的形式,該計算機可讀介質具 有體現(xiàn)在其中的計算機可讀程序代碼。
[0017] 可以采用一個或多個計算機可讀介質的任意組合。計算機可讀存儲介質可以是, 例如,電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置、器件或者任意以上的組合,但不限于 此。計算機可讀存儲介質的更具體的示例(非窮舉的列表)可以包括下列:具有一個或多 個導線的電連接、便攜式計算機盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦 式可編程只讀存儲器(EPROM或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲設 備、磁存儲設備、或者上述的任意合適的組合。在本文的上下文中,計算機可讀存儲介質可 以是任何包含或存儲程序的有形介質,該程序被指令執(zhí)行系統(tǒng)、裝置或者設備使用或者與 其結合使用。
[0018] 可以以一種或多種程序設計語言的任意組合來編寫用于執(zhí)行本發(fā)明的多個方面 的操作的計算機程序代碼,所述程序設計語言包括面向對象的程序設計語言-諸如Java、 Smalltalk、C++等,還包括常規(guī)的過程式程序設計語言-諸如"C"或類似的程序設計語言。 程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的 軟件包執(zhí)行、部分在用戶計算機上執(zhí)行。下面將參照根據(jù)本發(fā)明示例實施例的方法、裝置 (系統(tǒng))和計算機程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應當理解,流程圖和/或框 圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機程序指令實現(xiàn)。這 些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理 器,從而生產(chǎn)出一種機器,使得這些計算機程序指令在通過計算機或其它可編程數(shù)據(jù)處理 裝置的處理器執(zhí)行時,產(chǎn)生用于實現(xiàn)流程圖和/或框圖中的一個或多個方框中規(guī)定的功能 /動作的裝置。
[0019] 也可以把這些計算機程序指令存儲在計算機可讀介質中,這些指令使得計算機、 其它可編程數(shù)據(jù)處理裝置、或其他設備以特定方式工作,從而,存儲在計算機可讀介質中的 指令就產(chǎn)生出包括實現(xiàn)流程圖和/或框圖中的一個或多個方框中規(guī)定的功能/動作的指令 的制造品(article of manufacture) 〇
[0020] 也可以把計算機程序指令加載到計算機、其它可編程數(shù)據(jù)處理裝置、或其它設備 上,使得將在計算機、其它可編程裝置或其它設備上執(zhí)行一系列操作步驟,以產(chǎn)生計算機實 現(xiàn)的過程,從而使得在計算機或其它可編程裝置上執(zhí)行的指令提供用于實現(xiàn)流程圖和/或 框圖中的一個或多個方框中規(guī)定的功能/動作的過程。
[0021] 附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的各種實施例的系統(tǒng)、方法和計算機程 序產(chǎn)品的可能實現(xiàn)的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代 表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用 于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些替換實現(xiàn)中,方框中所標注的功 能也可以以不同于附圖中所標注的順序發(fā)生。例如,被連續(xù)示出的兩個方框實際上可以基 本并行地執(zhí)行,或者,方框有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注 意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用 執(zhí)行規(guī)定的功能或動作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指 令的組合來實現(xiàn)。
[0022] 這里所用術語僅為了描述具體實施例的目的,而并非旨在于限制本發(fā)明。如這里 所用,除非上下文另有明示,單數(shù)形式"一個"和"該"旨在于也包括復數(shù)形式。還將理解術 語"包括"在說明書中使用時指定存在陳述的特征、整件、步驟、操作、單元和/或部件、但是 未排除存在或者添加一個或者多個其它特征、整件、步驟、操作、單元、部件和/或其組。
[0023] 所附權利要求中的所有裝置或者步驟加上功能要素的對應結構、材料、動作和等 效物旨在于包括用于與如具體要求保護的其它權利要求要素組合執(zhí)行功能的任何結構、材 料或者動作。已經(jīng)出于示例和描述的目的而呈現(xiàn)本公開內(nèi)容的描述,但是該描述未旨在于 窮舉本發(fā)明或者使本發(fā)明限于公開的形式。許多修改和變化將對于本領域普通技術人員顯 而易見而未脫離公開內(nèi)容的范圍和精神實質。選擇和描述實施例以便最好地說明本發(fā)明的 原理和實際應用,并且使本領域其他普通技術人員能夠對于具有與設想的特定使用相配的 各種修改的各種實施例理解本發(fā)明。
[0024] 社交網(wǎng)絡是由稱為"節(jié)點"的動作者(或者組織)組成的社交結構,這些節(jié)點由一 個或者多個具體類型的相互依耐性、比如朋友關系、親屬關系、共同利益、金融交易、嫌惡、 性關系、或者信仰、知識或者聲望關系連結(連接)。社交網(wǎng)絡還可以包括在線聊天信使服 務中的消息,或者它可以包括電子郵件網(wǎng)絡,在該電子郵件網(wǎng)絡中在成對節(jié)點之間發(fā)送消 肩、。
[0025] 許多感興趣的問題在這樣的社交網(wǎng)絡中出現(xiàn),因為它們是動態(tài)的并且與流中的網(wǎng) 絡結構關聯(lián)。每個節(jié)點代表社交網(wǎng)絡中的動作者,并且在社交網(wǎng)絡中發(fā)送的每個消息是與 社交網(wǎng)絡中的邊緣關聯(lián)的文本內(nèi)容。顯然,可以隨時間在相同一對節(jié)點之間發(fā)送多個消息。 在這一情況下,文檔的主題內(nèi)容、它們的時間分布、和動態(tài)交互網(wǎng)絡的圖形結構可以用來檢 測感興趣的事件及其演變。在緊密地編織的一組節(jié)點之間發(fā)送的消息可以比從結構觀點來 看更分散地相關的消息集合更能指示社交興趣的特定事件。在社交網(wǎng)絡被視為圖形時,這 樣的消息可以在結構上良好的連接,該圖形具有與在實體之間發(fā)送的消息對應的邊緣。這 與團體檢測問題有關,在該團體檢測中,關鍵問題是發(fā)現(xiàn)社交網(wǎng)絡的在結構上連接的區(qū)域。 同時,文檔的內(nèi)容和主題也應當在事件檢測過程中發(fā)揮強大作用。
[0026] 事件的網(wǎng)絡局部性可以在它的意義中發(fā)揮關鍵作用。例如專屬于特定大學的大事 件可以主要對應于在該大學的學生和員工成員內(nèi)的消息,而更全局事件、比如中東動蕩可 以對應于與具有更大的社交網(wǎng)絡局部性的內(nèi)容有關的消息。在前一種情況下,通信可能在 更密切地連接的一組實體之間出現(xiàn),而在后一種情況下,消息可以更全局,而偏向與中東對 應的社交網(wǎng)絡的局部性。在繁多和大規(guī)模社交網(wǎng)絡中檢測在動態(tài)網(wǎng)絡中具有不同局部性和 范圍的這樣的不同事件極有挑戰(zhàn)性。
[0027] 在流式場景中的關鍵問題是假設由于用于處理這樣的大量流的存儲器和存儲限 制而不能在盤上存儲數(shù)據(jù)用于重復的處理。換而言之,必須在一次通過流式假設下執(zhí)行所 有分割或者事件檢測算法,在該假設中僅可以從傳入流提取(存儲受約束的)摘要數(shù)據(jù), 此后丟失原始流。另外,算法必須快速,因為它應當能夠從社交網(wǎng)絡流的繁多流中實時檢 測事件。因此,對于社交流中的事件檢測的關鍵挑戰(zhàn)如下:(a)有能力將交互的內(nèi)容和(圖 形)結構二者用于事件檢測。(b)有能力在事件檢測中使用時間信息。從結構和內(nèi)容觀點 來看,在更早時尚未被遇到的密切地有關的文本文檔的新趨勢可以對應于社交流中的新事 件。(c)有能力在流式場景的一次通過約束之下處理很大量和繁多的文本文檔。
[0028] 確定流中的事件的問題與流分割問題密切地有關,對于后者已經(jīng)針對不同種類的 數(shù)據(jù)提出多種方法。在社交網(wǎng)絡的情境中,這樣的流的內(nèi)容是文本。在這樣的文本流中的 事件實質上是活動的新模式的開始,其可以被建模為數(shù)據(jù)中的新聚類的起點。文本挖掘界 已經(jīng)在主題檢測和跟蹤情境中提出許多這樣的方法。這也與動態(tài)文本流中的分割和主題建 豐旲問題有關。
[0029] 然而在社交網(wǎng)絡中,有在確定網(wǎng)絡中的關鍵事件時可用的豐富數(shù)量的結構。例如 與中東動蕩對應的事件可以經(jīng)常對應于在基于地理鄰近而相互密切地鏈接的成員之間交 換的文本流。盡管社交聯(lián)網(wǎng)界已經(jīng)廣泛研究鏈接的使用以便確定聚類和模式,但是這些方 法通常被設計用于靜態(tài)網(wǎng)絡。一些分割方法最近也已經(jīng)被設計用于動態(tài)網(wǎng)絡,但是它們未 將下層網(wǎng)絡的內(nèi)容用于挖掘過程。另一方面,用于網(wǎng)絡中的模式發(fā)現(xiàn)的一些最近的方法使 用內(nèi)容和結構二者,但是這些方法未被定義用于時間場景中的事件檢測問題。因此,設計 一種能夠以整體方式使用內(nèi)容、結構和時間信息以便檢測社交流中的相關聚類和事件的方 法,其中該方法可以解決確定網(wǎng)絡中的關鍵事件這樣的獨特挑戰(zhàn)。
[0030] 圖1圖示流程圖,該流程圖包括根據(jù)本發(fā)明的一個實施例的方法步驟。在步驟 101,從社交網(wǎng)絡接收社交流,其中社交流包括至少一個對象。如以上提到的那樣,社交網(wǎng)絡 是由稱為"節(jié)點"的動作者(或者組織)組成的社交結構,這些節(jié)點由一個或者多個具體類 型的相互依賴性、比如朋友關系、親屬關系、共同利益、金融交易、嫌惡、性關系、或者信仰、 知識或者聲望關系連結(連接)。社交網(wǎng)絡還可以包括在線聊天信使服務中的消息,或者 它可以包括電子郵件網(wǎng)絡,在該電子郵件網(wǎng)絡中在成對節(jié)點之間發(fā)送消息。社交網(wǎng)絡生成 社交流,其中社交流包括對象Sp 的連續(xù)和時間序列,從而每個對象Si對應于在社 交實體之間的、基于內(nèi)容的交互,并且包含實體之間的顯式內(nèi)容信息和鏈接信息,對象Si包 括與社交網(wǎng)絡中的實體與一個或者多個其它實體的交互的內(nèi)容對應的文本文檔?\。對象Si 還包括始發(fā)節(jié)點1 e N,該始發(fā)節(jié)點是到其它節(jié)點的消息?\的發(fā)送方。對象Si最后包括一 個或者多個接收方節(jié)點R £ A/的集合,這些接收方節(jié)點對應于來自節(jié)點qi的消息Ti的所有 接收方。因此,從始發(fā)節(jié)點1向每個節(jié)點r e氏發(fā)送消息Ti。假設每個邊(qi,r)屬于集 合A。
[0031] 在步驟101中,對象、即Si由元組(qi,Ri,Ti)表示。應當注意社交流的以上定義 捕獲在不同類型的社交網(wǎng)絡中的多個不同自然場景。例如在Twitter社交網(wǎng)絡中,文檔Ti 對應于tweet的內(nèi)容,并且節(jié)點qi對應于tweet動作者。集合氏對應于tweet的接收方。 電子郵件交互網(wǎng)絡也可以被視為具有與以上完全相似的解釋的社交網(wǎng)絡。相似主張適用于 聊天交互網(wǎng)絡。在這些情況中的許多情況下,接收方集合氏可以包含僅一個節(jié)點,作為這 種情況的結果,有基于內(nèi)容的邊交換的流。最后在許多社交網(wǎng)絡中,一個動作者在墻上對另 一動作者的布告對應于邊,而文檔t對應于布告的內(nèi)容。
[0032] 社交流在步驟101中通常包含關于趨勢的豐富信息,該趨勢可以造成交互可以在 其中出現(xiàn)的網(wǎng)絡的內(nèi)容和結構局部性二者的改變。本發(fā)明的實施例從描述用于事件檢測的 不經(jīng)監(jiān)督的技術開始,該不經(jīng)監(jiān)督的技術以聚類的形式連續(xù)地表征傳入的交互,并且利用 它們以便報告數(shù)據(jù)流中的事件。
[0033] 在從社交網(wǎng)絡接收社交流之后,圖1中的步驟102執(zhí)行接收的社交流的分割,其中 稍后將描述步驟102的進一步細節(jié)。來自社交流Si. &的對象被連續(xù)地分割成k個聚類 . . Ck,從而每個對象Si屬于聚類(;中的至多一個聚類。另外,使用相似度值來將對象指 配到不同聚類,該相似度值捕獲交換的消息的內(nèi)容,以及不同消息暗示的動態(tài)社交網(wǎng)絡結 構。將在圖4中進一步具體提供相似度值的計算。
[0034] 通過利用內(nèi)容和鏈接信息二者來創(chuàng)建聚類。由于動態(tài)創(chuàng)建聚類,所以它們可以隨 著流演變以及新點被添加到聚類而隨時間明顯改變。另外,在一些情況下,傳入對象可以與 當前聚類充分不同。在該情況下,它可以被放入它自己的聚類中,并且當前聚類之一可以被 從集合Ci. .. ck中去除。這樣的事件可能是令人感興趣的事件,尤其是如果新創(chuàng)建的聚類開 始新活動模式時,在該新活動模式中更多流對象被隨后添加。同時,在一些情況下,事件不 能全新、但是可以對應于到達對象的模式在它們到聚類的相對分布方面的顯著改變。
[0035] 在步驟103,在聚類中的至少一個聚類中監(jiān)測聚類的改變。在本發(fā)明的本實施例 中,有兩個類型的新事件,將這兩個類型的新事件稱為新穎事件和演變事件以便描述這些 不同場景。如果數(shù)據(jù)點Si被作為新創(chuàng)建的聚類Q內(nèi)的單個點放置,則其到達被視為新穎事 件。聚類Q的創(chuàng)建時間由UQ)表示。事件在這一情況下是在數(shù)據(jù)點Si下面的故事或者 主題,而不是數(shù)據(jù)點本身。
[0036] 新事件的出現(xiàn)可以作為新穎事件而產(chǎn)生,但是該出現(xiàn)也可以影響現(xiàn)有數(shù)據(jù)點在不 同聚類中的相對存在。例如,"中東動蕩"事件可以作為新聚類的創(chuàng)建而產(chǎn)生,或者作為向與 這一主題最密切有關的聚類顯著添加新數(shù)據(jù)點而產(chǎn)生。這是因為先前存在的聚類經(jīng)常有可 能與特定主題有關的對象的突然猝發(fā)密切地匹配。事件中的對象的突然猝發(fā)將被定義為演 變事件。演變事件被局限于具體時間范圍并且表示該特定聚類的相對活動的改變。
[0037] 為了確定新事件是否為新穎事件或者演變事件,步驟103利用分數(shù)聚類存在函 數(shù)。聚類(^在時間段(tp t2)中的分數(shù)聚類存在是來自在時間段(tp t2)期間到達的社交 流的屬于聚類(^的記錄的百分比。這一分數(shù)存在由FaptyCi)表示。這一突然猝發(fā)由聚 類中的數(shù)據(jù)點的分數(shù)存在的改變來表征,并且這樣的猝發(fā)將定義演變事件。
[0038] 步驟103確定更高速率,與其它數(shù)據(jù)點甚至在Η之前的到達比較,在長度為Η的先 前時間窗中數(shù)據(jù)點已經(jīng)以該更高速率到達聚類。參數(shù)a也用作第一門限值,以便測量這 一演變速率。參數(shù)a可以是預定值,并且可以由于用戶配置。如果聚類Q中的點在范圍 (t e-H,t。)內(nèi)的相對存在與在時間te_H之前的相對存在的比值大于第一門限值a,則在當 前時間t。、在范圍Η內(nèi)的演變事件被視為已經(jīng)以聚類Q的第一門限值α出現(xiàn)。提供以下 等式以便更好理解:
【權利要求】
1. 一種用于從社交流中檢測事件的方法,所述方法包括以下步驟: 從社交網(wǎng)絡接收社交流, 其中所述社交流包括至少一個對象;并且 其中所述對象包括文本、所述文本的發(fā)送方信息、和所述文本的接收方信息; 基于在所述對象與聚類之間的相似度值將所述對象指配到所述聚類; 監(jiān)測所述聚類中的至少一個聚類的改變;以及 在所述聚類中的至少一個聚類的所述改變超過第一門限值時觸發(fā)警報, 其中使用計算機設備來執(zhí)行所述步驟中的至少一個步驟。
2. 根據(jù)權利要求1所述的方法,其中通過計算從包括結構相似度值、基于內(nèi)容的相似 度值、時間相似度值、及其組合的組中所選擇的值來確定所述相似度值。
3. 根據(jù)權利要求1所述的方法,其中所述分割步驟還包括以下步驟: 如果在所述對象與現(xiàn)有聚類之間的相似度值大于第二門限值,則將所述對象指配到所 述現(xiàn)有聚類。
4. 根據(jù)權利要求1所述的方法,其中所述分割步驟還包括以下步驟: 如果在所述對象與所述現(xiàn)有聚類之間的所述相似度值小于第二門限值,則用所述對象 創(chuàng)建新聚類;以及 用所述新聚類替換舊聚類。
5. 根據(jù)權利要求3所述的方法,其中根據(jù)所述相似度值的平均值和標準偏差來計算所 述第二門限值。
6. 根據(jù)權利要求1所述的方法,還包括以下步驟: 維護所述聚類的所述改變,作為所述社交流的歷史數(shù)據(jù)。
7. 根據(jù)權利要求6所述的方法,其中所述歷史數(shù)據(jù)被用于經(jīng)監(jiān)督的事件檢測。
8. 根據(jù)權利要求7所述的方法,其中觸發(fā)警報的所述步驟還包括以下步驟: 利用事件簽名和范圍簽名。
9. 根據(jù)權利要求6所述的方法,其中所述維護步驟使用基于略圖的技術。
10. 根據(jù)權利要求9所述的方法,其中所述基于略圖的技術被用來估計在所述對象與 所述聚類之間的結構相似度值。
11. 一種用于從社交流中檢測事件的系統(tǒng),所述系統(tǒng)包括: 用于從社交網(wǎng)絡接收社交流的接收模塊, 其中所述社交流包括至少一個對象;并且 其中所述對象包括文本、所述文本的發(fā)送方信息、和所述文本的接收方信息; 用于基于在所述對象與聚類之間的相似度值將所述對象指配到所述聚類的聚類模 塊; 用于監(jiān)測所述聚類中的至少一個聚類的改變的監(jiān)測模塊;以及 用于在所述聚類中的至少一個聚類的所述改變超過第一門限值時觸發(fā)警報的觸發(fā)模 塊。
12. 根據(jù)權利要求11所述的系統(tǒng),其中通過計算從包括結構相似度值、基于內(nèi)容的相 似度值、時間相似度值及其組合的組中選擇的值來確定所述相似度值。
13. 根據(jù)權利要求11所述的系統(tǒng),其中所述聚類模塊還包括: 用于如果在所述對象與現(xiàn)有聚類之間的相似度值大于第二門限值則將所述對象指配 到所述現(xiàn)有聚類的現(xiàn)有聚類模塊。
14. 根據(jù)權利要求11所述的系統(tǒng),其中所述聚類模塊還包括: 用于如果在所述對象與所述現(xiàn)有聚類之間的所述相似度值小于第二門限值則用所述 對象創(chuàng)建新聚類的新聚類模塊;以及 用所述新聚類替換舊聚類的替換模塊。
15. 根據(jù)權利要求13所述的系統(tǒng),其中根據(jù)所述相似度值的平均值和標準偏差來計算 所述第二門限值。
16. 根據(jù)權利要求11所述的系統(tǒng),還包括: 用于維護所述聚類的所述改變作為所述社交流的歷史數(shù)據(jù)的維護模塊。
17. 根據(jù)權利要求16所述的系統(tǒng),其中所述歷史數(shù)據(jù)被用于經(jīng)監(jiān)督的事件檢測。
18. 根據(jù)權利要求17所述的系統(tǒng),其中所述觸發(fā)模塊還包括: 用于利用事件簽名和范圍簽名的簽名模塊。
19. 根據(jù)權利要求16所述的系統(tǒng),其中所述維護模塊使用基于略圖的技術。
20. 根據(jù)權利要求19所述的系統(tǒng),其中所述基于略圖的技術被用來估計在所述對象與 所述聚類之間的結構相似度值。
21. -種有形地體現(xiàn)計算機可讀程序代碼的計算機可讀存儲介質,所述計算機可讀程 序代碼具有在被實施時使計算機執(zhí)行根據(jù)權利要求1的所述步驟的計算機可讀指令。
【文檔編號】G06F17/30GK104054072SQ201280061288
【公開日】2014年9月17日 申請日期:2012年11月23日 優(yōu)先權日:2011年12月13日
【發(fā)明者】C·阿加沃爾, K·薩比安 申請人:國際商業(yè)機器公司