用于在大型數(shù)據(jù)處理系統(tǒng)中進行孤立異常檢測的方法
【專利摘要】本發(fā)明涉及檢測孤立異常,并且本發(fā)明以自動方式進行操作,而不會導致在發(fā)生大規(guī)模異常的情況下令異常管理系統(tǒng)過載,且并不依賴于用戶介入。
【專利說明】用于在大型數(shù)據(jù)處理系統(tǒng)中進行孤立異常檢測的方法
1.
【技術(shù)領(lǐng)域】
[0001]本發(fā)明總體上涉及大型數(shù)據(jù)處理系統(tǒng),其中許多(例如,數(shù)千個、數(shù)百萬個)設(shè)備處理數(shù)據(jù)提供數(shù)據(jù)處理服務。具體地,本發(fā)明的【技術(shù)領(lǐng)域】涉及在這種大型數(shù)據(jù)處理系統(tǒng)中檢測孤立異常。
2.
【背景技術(shù)】
[0002]本發(fā)明上下文中的大型數(shù)據(jù)處理系統(tǒng)的示例是三網(wǎng)融合視聽服務提供系統(tǒng),其中向數(shù)百萬用戶提供電視、互聯(lián)網(wǎng)和電話服務(這里,接收和呈現(xiàn)視聽服務是數(shù)據(jù)處理)。大型數(shù)據(jù)處理系統(tǒng)的另一示例是(分布式)數(shù)據(jù)存儲系統(tǒng),其中數(shù)千個的存儲節(jié)點提供存儲服務(這里,呈現(xiàn)存儲服務是數(shù)據(jù)處理)。為了檢測由運營商的數(shù)百萬客戶享有的三網(wǎng)融合服務的質(zhì)量服務的異常,或為了檢測在分布式數(shù)據(jù)存儲系統(tǒng)中存儲設(shè)備的功能異常,作為異常檢測系統(tǒng)的一部分的集中式誤差檢測服務器監(jiān)測所述數(shù)據(jù)處理設(shè)備。這里,孤立異常檢測是存在問題的。這是因為異常管理系統(tǒng)由于與其相連的數(shù)百萬個數(shù)據(jù)處理設(shè)備而必須保護自身不會發(fā)生過載,其中當系統(tǒng)支持從數(shù)據(jù)傳輸設(shè)備向異常管理系統(tǒng)進行單個消息傳輸時可能發(fā)生所述過載。如果例如出于任何原因而使得通信路徑故障,則至少部分通過這種通信路徑伺服的(針對三網(wǎng)融合示例)或相互通信的(針對分布式存儲示例)的數(shù)千個或數(shù)百萬個數(shù)據(jù)處理設(shè)備將經(jīng)歷QoS(服務質(zhì)量)的忽然降低(針對三網(wǎng)融合的示例),或連接的忽然丟失(針對分布式存儲的示例),并將向異常管理系統(tǒng)大量發(fā)送錯誤消息。然后,異常管理系統(tǒng)可能無法處理在非常短的時間段內(nèi)處理所述大量消息。因此,對于這種大型數(shù)據(jù)處理系統(tǒng),運營商想要限制單個設(shè)備向異常管理系統(tǒng)傳輸錯誤消息的可能性。存在例如TR-069或SNMP(簡單協(xié)議)的遠程管理技術(shù)。這些協(xié)議是以服務器-客戶端為導向的,即,服務器遠程管理多個數(shù)據(jù)處理設(shè)備。實際上,由于單個服務器無法有效地監(jiān)測這種巨型設(shè)備集,這種集中式遠程管理架構(gòu)無法擴展到數(shù)百萬個數(shù)據(jù)處理設(shè)備。根據(jù)現(xiàn)有技術(shù),因此,采用不同的監(jiān)測架構(gòu),其中監(jiān)測系統(tǒng)頻繁監(jiān)測在服務分布網(wǎng)絡(luò)拓撲的分布路徑內(nèi)的一些數(shù)據(jù)處理設(shè)備,以便驗證這些數(shù)據(jù)處理設(shè)備是否繼續(xù)正確地進行運作。實際上,這種對異常管理系統(tǒng)不進行過載的保護屏障令任何精細度小的異常檢測都是不可能的。因此,單個基礎(chǔ)的異常檢測是不可能的。
[0003]當發(fā)生異常時,所述異??梢允怯捎诰W(wǎng)絡(luò)關(guān)聯(lián)問題而引起的(在這種情況下,大量數(shù)據(jù)處理設(shè)備將經(jīng)歷相同異常),或由于本地問題而引起的,僅影響單個數(shù)據(jù)處理設(shè)備或有限數(shù)目的數(shù)據(jù)處理設(shè)備。以三網(wǎng)融合的服務提供系統(tǒng)作為大型數(shù)據(jù)處理系統(tǒng)的第一示例,盡管服務運營商邏輯上想要向?qū)τ绊懘罅繑?shù)據(jù)處理設(shè)備的異常的檢測給予優(yōu)先權(quán),對于經(jīng)歷QoS的孤立減小的用戶,這是非常令人不滿的情況。該用戶除了嘗試聯(lián)系服務運營商之外沒有其它選擇。聯(lián)系服務運營商是耗時的并且是麻煩的;通常用戶不得不親自去服務運營商的呼叫中心。一旦受到困擾的用戶最終聯(lián)系上呼叫中心電話操作員,呼叫中心電話操作員將命令該用戶嘗試不同控制,例如返回到工廠設(shè)置或設(shè)備重啟。如果在大量試驗之后用戶的服務接收仍處于故障狀態(tài),則維修技術(shù)人員在用戶許可下可以介入,作為最后補救辦法。這種過程是非常令用戶厭惡的,其中用戶不得不令自己采取一些可能有助于解決所發(fā)生的問題的行為。服務運營商不能完全理解所述失望用戶。盡管可以從技術(shù)角度將單個問題認為是較輕的,但是單個問題具有較大的規(guī)模范圍。由于人的天性是向其他個體傳播不滿意的經(jīng)歷,因而失望的并受挫的用戶可能破壞運營商的聲譽,其中所述其它個體是服務運營商的客戶或潛在客戶??紤]到大型數(shù)據(jù)處理系統(tǒng)是分布式數(shù)據(jù)存儲系統(tǒng)的第二示例,存儲“節(jié)點”或設(shè)備可以遇到由于存儲介質(zhì)故障、電力波動、CPU超載而引起的本地問題。所述問題降低設(shè)備的性能或設(shè)備所傳遞服務的服務質(zhì)量(QoS),其中由存儲設(shè)備傳遞的服務是存儲服務。
[0004]因此,對于大型數(shù)據(jù)存儲系統(tǒng),需要一種用于檢測孤立異常的更優(yōu)解決方案,該解決方案以自動的方式工作而不引起異常管理系統(tǒng)發(fā)生過載,并且該解決方案不依賴于用戶介入。
3.
【發(fā)明內(nèi)容】
[0005]本發(fā)明針對的是緩解現(xiàn)有技術(shù)的一些不便。
[0006]本發(fā)明提供了一種在呈現(xiàn)服務的數(shù)據(jù)處理設(shè)備中進行孤立異常檢測的方法,包括:由數(shù)據(jù)處理設(shè)備執(zhí)行的步驟,根據(jù)由數(shù)據(jù)處理設(shè)備呈現(xiàn)的至少一個服務的服務質(zhì)量,將所述數(shù)據(jù)處理設(shè)備首次插入源質(zhì)量桶,質(zhì)量桶表示針對所述至少一個服務具有預定的服務質(zhì)量范圍的數(shù)據(jù)處理設(shè)備組;如果由所述數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務質(zhì)量演進超過第一質(zhì)量桶的預定范圍,則將所述數(shù)據(jù)處理設(shè)備再次插入目的地質(zhì)量桶的步驟;以及當對目的地質(zhì)量桶中源質(zhì)量桶與所述數(shù)據(jù)處理設(shè)備的質(zhì)量桶相同的數(shù)據(jù)處理設(shè)備的總數(shù)加以表示的計數(shù)在預定值以下時,發(fā)送表示孤立異常檢測的消息的步驟。
[0007]根據(jù)本發(fā)明的方法的特定實施例,所述方法還包括:確定數(shù)據(jù)處理設(shè)備在目的地質(zhì)量桶中的地址,所述目的地質(zhì)量桶負責根據(jù)作用于源質(zhì)量桶和所述再次插入的時間戳上的哈希函數(shù)來存儲計數(shù),所述時間戳表示根據(jù)在數(shù)據(jù)處理設(shè)備之間共享的公共時鐘而得到的時隙。
[0008]根據(jù)本發(fā)明的方法的特定實施例,在包括根數(shù)據(jù)處理設(shè)備的數(shù)據(jù)處理設(shè)備網(wǎng)絡(luò)中組織數(shù)據(jù)處理設(shè)備,所述根數(shù)據(jù)處理設(shè)備表示質(zhì)量桶的進入點,所述再次插入還包括向源質(zhì)量桶的第一根數(shù)據(jù)處理設(shè)備發(fā)送第一請求,以便獲得目的地質(zhì)量桶的目的地根數(shù)據(jù)處理設(shè)備的地址。
[0009]根據(jù)本發(fā)明的方法的特定實施例,所述方法還包括向目的地質(zhì)量桶的目的地根數(shù)據(jù)處理設(shè)備發(fā)送第二請求,以便在目的地質(zhì)量桶中插入數(shù)據(jù)處理設(shè)備。
[0010]根據(jù)本發(fā)明的方法的特定實施例,根據(jù)兩級交疊結(jié)構(gòu)來組織數(shù)據(jù)處理設(shè)備網(wǎng)絡(luò),所述兩級交疊結(jié)構(gòu)包括:一個頂部交疊,組織根數(shù)據(jù)處理設(shè)備之間的網(wǎng)絡(luò)連接;以及多個底部交疊,組織相同質(zhì)量桶的數(shù)據(jù)處理設(shè)備之間的網(wǎng)絡(luò)連接。
[0011]根據(jù)本發(fā)明的方法的特定實施例,由數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務是數(shù)據(jù)存儲服務。
[0012]本發(fā)明的方法的特定實施例,由數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務是視聽數(shù)據(jù)呈現(xiàn)服務。
[0013]本發(fā)明還涉及一種針對呈現(xiàn)服務的數(shù)據(jù)處理設(shè)備的孤立異常檢測布置,包括:用于根據(jù)由數(shù)據(jù)處理設(shè)備呈現(xiàn)的至少一個服務的服務質(zhì)量,將所述數(shù)據(jù)處理設(shè)備首次插入源質(zhì)量桶的裝置,質(zhì)量桶表示針對所述至少一個服務具有預定的服務質(zhì)量范圍的數(shù)據(jù)處理設(shè)備組;用于如果由所述數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務質(zhì)量演進超過第一質(zhì)量桶的預定范圍,則將所述數(shù)據(jù)處理設(shè)備再次插入目的地質(zhì)量桶的裝置;以及用于當對目的地質(zhì)量桶中源質(zhì)量桶與所述數(shù)據(jù)處理設(shè)備的質(zhì)量桶相同的數(shù)據(jù)處理設(shè)備的總數(shù)加以表示的計數(shù)在預定值以下時,發(fā)送表示孤立異常檢測的消息的裝置。
[0014]根據(jù)本發(fā)明的布置的特定實施例,所述布置還包括:用于確定數(shù)據(jù)處理設(shè)備在目的地質(zhì)量桶中的地址的裝置,所述目的地質(zhì)量桶負責根據(jù)作用于源質(zhì)量桶和所述再次插入的時間戳上的哈希函數(shù)來存儲計數(shù),所述時間戳表示根據(jù)在數(shù)據(jù)處理設(shè)備之間共享的公共時鐘而得到的時隙。
[0015]根據(jù)本發(fā)明的布置的特定實施例,在包括根數(shù)據(jù)處理設(shè)備的數(shù)據(jù)處理設(shè)備網(wǎng)絡(luò)中組織數(shù)據(jù)處理設(shè)備,所述根數(shù)據(jù)處理設(shè)備表示質(zhì)量桶的進入點,所述再次插入還包括用于向源質(zhì)量桶的第一根數(shù)據(jù)處理設(shè)備發(fā)送第一請求以便獲得目的地質(zhì)量桶的目的地根數(shù)據(jù)處理設(shè)備的地址的裝置。
[0016]根據(jù)本發(fā)明的布置的特定實施例,所述布置還包括用于向目的地質(zhì)量桶的目的地根數(shù)據(jù)處理設(shè)備發(fā)送第二請求以便在目的地質(zhì)量桶中插入數(shù)據(jù)處理設(shè)備的裝置。
[0017]根據(jù)本發(fā)明的布置的特定實施例,根據(jù)兩級交疊結(jié)構(gòu)來組織數(shù)據(jù)處理設(shè)備網(wǎng)絡(luò),所述兩級交疊結(jié)構(gòu)包括:一個頂部交疊,組織根數(shù)據(jù)處理設(shè)備之間的網(wǎng)絡(luò)連接;以及多個底部交疊,組織相同質(zhì)量桶的數(shù)據(jù)處理設(shè)備之間的網(wǎng)絡(luò)連接。
[0018]根據(jù)本發(fā)明的布置的特定實施例,由數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務是數(shù)據(jù)存儲服務。
[0019]根據(jù)本發(fā)明的布置的特定實施例,由數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務是視聽數(shù)據(jù)呈現(xiàn)服務。
4.
【專利附圖】
【附圖說明】
[0020]通過對本發(fā)明的特定的、非限制性的實施例的描述,將清楚本發(fā)明更多優(yōu)點。
[0021]將參考以下附圖描述實施例:
[0022]圖1示出了大型數(shù)據(jù)處理系統(tǒng)的示例網(wǎng)絡(luò)拓撲,示出了檢測到或沒有檢測到孤立異常的不同情況。
[0023]圖2示出了本發(fā)明的方法。
[0024]圖3示出了二維的頂部交疊結(jié)構(gòu)的示例,在本發(fā)明中可以將所述二維的頂部交疊結(jié)構(gòu)用于監(jiān)測兩個服務的服務質(zhì)量。
[0025]圖4示出了頂部交疊結(jié)構(gòu)和底部交疊結(jié)構(gòu)之間的層次,在本發(fā)明中可以將所述層次用于增加所提供的解決方案的可擴展性,所述結(jié)構(gòu)允許節(jié)點或數(shù)據(jù)處理設(shè)備在從一個質(zhì)量桶移動到另一質(zhì)量桶時有效地進行導航。
[0026]圖5示出了可以在實現(xiàn)本發(fā)明的方法的系統(tǒng)中使用的布置和設(shè)備。
[0027]圖6以流程圖的形式示出了根據(jù)特定實施例的本發(fā)明的方法。
【具體實施方式】
[0028]在本公開中,使用術(shù)語“異常檢測”,而不是“誤差檢測”。這樣的使用是有原因的。實際上,異常被認為是QoS中的“不正?!弊兓_@種異??梢允欠e極的(更好的QoS)或消極的(更差的QoS),因此,應與“誤差”相區(qū)分。出于異常監(jiān)測目的,除了誤差檢測之外,同樣感興趣的是檢測具有更好QoS的節(jié)點,例如以便故障查找。
[0029]對于數(shù)據(jù)處理系統(tǒng),對異常管理系統(tǒng)的通信復雜性是可擴展性的關(guān)鍵。如本文檔的現(xiàn)有技術(shù)部分所討論的,由于異常監(jiān)測系統(tǒng)無法同時處理來自多個設(shè)備的異常消息,在大型數(shù)據(jù)處理系統(tǒng)中,精細度小的異常檢測與成批的異常檢測是相矛盾的。因此,本發(fā)明限定了一種用于孤立異常檢測的解決方案,特別好地進行擴展以便在大型數(shù)據(jù)處理系統(tǒng)中使用,在所述系統(tǒng)中,數(shù)千或數(shù)百萬個設(shè)備提供一個或更多個數(shù)據(jù)處理服務。與本發(fā)明可擴展性相關(guān)的本發(fā)明的重要特征是:一旦在設(shè)備發(fā)生明顯降低或相反地明顯改善它們所提供的數(shù)據(jù)處理服務的QoS時檢測到異常,能夠最小化警報的發(fā)出。當前發(fā)明的目標是減少報告以下情況的警報:QoS降低/改善被認為是針對所述設(shè)備的或有限設(shè)備集的。為此,本發(fā)明提供了一種異常檢測的自組織方法,所述方法適用于任何規(guī)模的數(shù)據(jù)處理系統(tǒng),包括大型的或非常大型的規(guī)模。
[0030]圖1示出了大型數(shù)據(jù)處理系統(tǒng)的示例網(wǎng)絡(luò)拓撲,示出了檢測到或沒有檢測到孤立異常的不同情況。如果針對多個數(shù)據(jù)處理系統(tǒng)節(jié)點(下文中,稱作“節(jié)點”)僅監(jiān)測一個服務(例如,一個電視接收服務),則可以將可能的QoS表示為線條,其中“質(zhì)量桶”表示用于從0(最小質(zhì)量)到I (最大質(zhì)量)劃分QoS的多個預定的(本文:10個)質(zhì)量桶。附圖標記10表示對兩個節(jié)點(A(10)和B(1l))的這種分類。附圖標記12-15表示針對所述節(jié)點的QoS演進的不同情景。開始時,根據(jù)附圖標記10,盡管節(jié)點A和B不具有完全相同的QoS,但是它們處于相同的質(zhì)量桶內(nèi)。在t+Ι (附圖標記11),針對這些節(jié)點中的至少一個節(jié)點,QoS發(fā)生不同變化(在下文討論的x+d)。根據(jù)情景12,節(jié)點A經(jīng)歷QoS的輕微改變,使得節(jié)點A與節(jié)點B具有相同QoS。然而,這種改變不足以令節(jié)點A改變到其它質(zhì)量桶;所述改變保持在所述質(zhì)量桶邊界內(nèi),并且不采取其它動作,即,沒有檢測到異常。然而,根據(jù)情景13到15,節(jié)點A經(jīng)歷足以使其演進到其它質(zhì)量桶的QoS改變。然而,根據(jù)本發(fā)明,檢測到異常的多個條件之一是演進應是十分顯著的(sufficiently important),也就是針對情景14和15的情況,而不是針對情景13的情況。根據(jù)情景13,因此沒有檢測到異常。對于情景14和15,演進是十分顯著的,但是應當只有在所涉及的節(jié)點的演進是孤立的情況下才檢測到孤立異常;否則,如果多個節(jié)點經(jīng)歷相同演進,則演進不是孤立的,而是由于發(fā)生在網(wǎng)絡(luò)中的變化或由于大量系統(tǒng)錯誤而引起的,例如,漏洞軟件更新。在這種情況下,可以假定足夠的設(shè)備在經(jīng)歷相同的異常,使得網(wǎng)絡(luò)運營商能夠用其他裝置訪問該問題,不需要本文描述的精細粒度的機械裝置。根據(jù)情景14,由于節(jié)點B發(fā)生了相同的演進,節(jié)點A的演進不是孤立情況。對于情景14,由于多于預定數(shù)目(例如,這里為2)的節(jié)點發(fā)生了相同的演進,使得不認為所述異常是孤立的,因此沒有檢測到異常。然而,根據(jù)情景15,僅節(jié)點A經(jīng)歷了十分顯著的QoS演進。因此,檢測到異常。根據(jù)實施例,將對“十分顯著”的概念實現(xiàn)為預定閾值,參照由圖2提供的解釋。根據(jù)變型的實施例,使用Holt-Winters預測方法。如果使用霍爾特溫特斯方法,則針對每個節(jié)點存儲k個最新QoS值的列表。使用該列表,預測下一值。如果實際值與預測值相差甚遠,則檢測到異常。根據(jù)另一變型實施例,使用Cusum方法。類似于Holt-Winters,針對每個節(jié)點存儲k個最新QoS值的列表,但是Holt-Winters使用該列表來預測下一值,Cusum檢測這些值的趨勢,如果該趨勢表示存在預定數(shù)量的QoS值具有與先前討論的節(jié)點A的QoS值類似的QoS值,則檢測到異常。Cusum是基于趨勢的,而Holt-Winters檢測準時的改變。這些是可以根據(jù)運營商的需要而限定的多個示例變型實施例。
[0031]圖2示出了本發(fā)明的方法的特定實施例。如果節(jié)點離開它的質(zhì)量桶(21)并且t (或下文所討論的X)的QoS與t+Ι (或x+d)處的QoS之間的演進距離超過了預定閾值
(22),并且如果小于預定數(shù)目的節(jié)點經(jīng)歷了相同的演進(23),則檢測到(24)異常。備選地,在確定QoS改變是否超過了預定閾值的單個測試步驟中,合并測試步驟21和22。
[0032]數(shù)字數(shù)據(jù)處理技術(shù)具有經(jīng)歷閾值的特性,在所述閾值之下,不再可能進行數(shù)據(jù)處理。類似于電視技術(shù),盡管模擬TV接收機的用戶仍能夠繼續(xù)觀看來自包括大量噪聲的模擬信號的電視節(jié)目期間,然而如果數(shù)字信號的噪聲量顯著,則數(shù)字TV接收機無法呈現(xiàn)圖像;存在不再可能進行數(shù)字信號接收的閾值。當確定Q0S的演進是否是顯著的時以及在檢測異常時,可以考慮該因素。例如,如果由于即使在QoS為0.4的情況下接收機仍能夠(例如,通過應用誤差校正方法)校正在讀取數(shù)字信號時發(fā)生的誤差,可接受從0.6到0.4的QoS演進,則由于接收機不再能使用QoS為0.4以下的數(shù)字信號,0.4到0.3的演進是不可接受的??梢詫⑦@種認知用于限定質(zhì)量桶的分布。根據(jù)以上示例,可以針對QoS范圍為O到0.4限定單個質(zhì)量桶,針對QoS范圍為0.4到0.6限定另一質(zhì)量桶。因此,質(zhì)量桶的分布不必是規(guī)則性的。根據(jù)變型實施例,采用所述方法,使得添加其它OR條件:如果節(jié)點離開它的質(zhì)量桶并且在t (或X)和t+Ι (或x+d)的QoS之間的演進距離超過預定閾值或者如果節(jié)點離開它的質(zhì)量桶并演進到表示在預定閾值以下的QoS值的質(zhì)量桶,并且如果少于預定數(shù)目的節(jié)點發(fā)生了相同演進,則檢測到異常??梢詫㈩A定閾值設(shè)置為一定的值,在該值以下不再可能無誤差的接收,或在該值以下不再可能進行接收。
[0033]根據(jù)圖1的示例,僅監(jiān)測一個服務。實踐中,可以監(jiān)測多于一個的服務(例如,兩個或更多個電視接收服務;電視接收服務和電話服務)。當前發(fā)明允許用多維質(zhì)量桶運作,而不是將對多個服務的監(jiān)測編譯為通用結(jié)果(例如,使用用于計算平均值的平均函數(shù)),所述編譯將導致丟失信息。盡管不改變該方法的操作原理,但是D維的質(zhì)量桶僅需要監(jiān)測多個⑶服務。
[0034]為了避免令數(shù)據(jù)處理系統(tǒng)的集中異常檢測服務器過載,根據(jù)本發(fā)明的數(shù)據(jù)處理設(shè)備或節(jié)點自己本地地監(jiān)測它們的QoS。這些節(jié)點將它們自己組織為具有相似QoS的多個節(jié)點組。如果節(jié)點觀察到使其改變質(zhì)量桶的QoS變化,并且確定所述變化是足夠顯著的,則所述節(jié)點從當前QoS組改變到其它QoS組。為了確定所述異常是否是孤立的,所述節(jié)點關(guān)于“新”QoS組中其它節(jié)點的先前QoS聯(lián)系所述“新”QoS組中的其它節(jié)點。如果在具有相同Q0S的新QoS組中的節(jié)點數(shù)目在預定閾值以下,則節(jié)點可以認為其發(fā)生的異常對于所述節(jié)點是本地的,即,孤立的,只有在這種情況下,所述節(jié)點才向集中異常檢測服務器發(fā)送警報消息。因此,在發(fā)送所述警報消息之前,不聯(lián)系集中異常檢測服務器,由于孤立異常而不存在對消息發(fā)送的過載。此外,異常檢測自動進行,而無需用戶介入。
[0035]如上所述,根據(jù)本發(fā)明的方法,多個節(jié)點進行合作,以便確定發(fā)生在一個節(jié)點處的異常是否是孤立的,而無需集中控制器或服務器的介入。根據(jù)有利的實施例,以對等的(P2P)方式組織所述節(jié)點。由于節(jié)點可以在彼此之間直接通信而無需使用集中控制器或服務器的服務來發(fā)現(xiàn)彼此的地址和與彼此通信,P2P網(wǎng)絡(luò)拓撲增加了減少通信瓶頸的優(yōu)點。這還增加了本發(fā)明的可擴展特性。對于這種P2P網(wǎng)絡(luò)拓撲,本發(fā)明增加了兩種類型的交疊:一個頂部交疊(將節(jié)點置于D維空間中),允許節(jié)點之間的全局通信;以及一個或更多個底部交疊(但至多是每個質(zhì)量桶一個底部交疊),負責連接具有相似QoS的節(jié)點。
[0036]如上所述,改變質(zhì)量桶的節(jié)點將移動到其它質(zhì)量桶,然后必須確定有多少個其它節(jié)點也進行了相同移動,以便確定所述移動是否是孤立情況,在孤立情況下,可以發(fā)出警報。因此,所述節(jié)點與周圍節(jié)點進行通信,以便獲得所述節(jié)點應將自己插入哪個節(jié)點組(目的地組)的信息,然后詢問在目的地組中的特定位置(節(jié)點)以便獲知有多少個其它節(jié)點也進行了相同的移動。這樣需要某種組織。直接的實施例是集中式服務器,每個節(jié)點可以聯(lián)系集中式服務器并且集中式服務器收集所需信息。然而,這種解決方案不是特別可擴展到大型數(shù)據(jù)處理系統(tǒng)。更好的解決方案是使用交疊架構(gòu),其中一部分節(jié)點起到與其它節(jié)點集的鏈接節(jié)點的作用。為了使節(jié)點容易發(fā)現(xiàn)節(jié)點地址而無需使用集中式服務器,使用DHT(分布式哈希表)。DHT是一類去集中化的分布系統(tǒng),提供與哈希表相似的查找服務;將(密鑰、值)對存儲在DHT中,任何參與的節(jié)點可以有效地檢索與給定密鑰相關(guān)的值。將用于保持從密鑰到值的映射的責任分布在多個節(jié)點之間,使得參與者集合的改變引起最少量的中斷。這樣允許DHT擴展到極大量的節(jié)點,并處理連續(xù)的節(jié)點到達和離開。這種DHT提供基本TOT和GET操作,以便在參與的節(jié)點之中以分布式方式分別存儲和檢索項目。根據(jù)使用DHT的本發(fā)明的特定實施例,分布式的哈希表輸出了提供PUT和GET操作的基礎(chǔ)界面,從而允許將(密鑰;值)對映射到參與所述系統(tǒng)的節(jié)點。然后,節(jié)點可以采用PUT操作將值插入DHT中,并使用與密鑰相關(guān)的GET來檢索值。通過對對象的內(nèi)容(或名稱)進行哈希處理來獲得密鑰,以便獲得DHT地址空間的隨機地址。節(jié)點負責基于它們在DHT的位置(取決于在相同空間內(nèi)它們的ID),存儲密鑰落入其DHT的地址空間的子集中的對象。
[0037]根據(jù)本發(fā)明的允許節(jié)點在大型數(shù)據(jù)處理系統(tǒng)中有效地進行通信的特別有效的交疊架構(gòu)使用上述兩級P2P網(wǎng)絡(luò)拓撲,即,一個或多個“底部”和僅一個“頂部”交疊結(jié)構(gòu)。在底部交疊層處的特定交疊架構(gòu)允許具有相近QoS值的節(jié)點以可擴展方式緊密相連;每個節(jié)點僅知道給定組中其它節(jié)點的子集,使得不在所有節(jié)點之間傳播通信。根據(jù)本發(fā)明的特定實施例,將底部交疊實現(xiàn)為超立方體。根據(jù)變型實施例,將底部交疊實現(xiàn)為Plaxton樹的實現(xiàn)方案,如同Chord或Pastry—樣。頂部交疊允許在節(jié)點組之間的快速通信。在頂部交疊中,節(jié)點根據(jù)它們的QoS值將它們自己自組織為質(zhì)量桶。底部交疊用于避免每個節(jié)點與所有其它節(jié)點進行通信。在底部交疊中,節(jié)點獨立于QoS值對自己進行自組織。針對每個質(zhì)量桶都存在底部交萱,通過頂部交萱將質(zhì)量桶互聯(lián);底部交萱是超立方體、Plaxton樹或其它。對于底部交疊,使用典型的DHT函數(shù),典型的DHT函數(shù)允許在相同的服務質(zhì)量桶中的多個節(jié)點基于哈希值發(fā)現(xiàn)彼此的地址并且有效地進行通信而無需通過大量節(jié)點。然而,高效的“標準” DHT用于構(gòu)造底部交疊,針對頂部交疊,特定版本的DHT更適用于本發(fā)明的目的;為了能夠處理D維度量,本發(fā)明的方法可以同時監(jiān)測D個服務。“標準"DHT和根據(jù)本發(fā)明的用于頂部交疊的特定DHT變型之間的主要區(qū)別在于:根據(jù)“標準”DHT,哈希值與交疊內(nèi)的位置是相關(guān)的。但是散列操作導致將節(jié)點均勻分布到空間中,這將導致丟失了需要將節(jié)點根據(jù)其QoS分布到空間中的信息。因此,根據(jù)本發(fā)明,在節(jié)點的相應QoS值方面,節(jié)點與相近的節(jié)點互聯(lián);然后所述系統(tǒng)在考慮頂部交疊內(nèi)的多個節(jié)點的接近度時,考慮原始的QoS分布。例如,當節(jié)點在它需要移動到其它質(zhì)量桶時觀察到它的QoS值發(fā)生改變時,所述節(jié)點將發(fā)送消息,其中根據(jù)被監(jiān)測的服務的D值來路由所述消息;該消息最終將到達該D值坐標所屬的質(zhì)量桶,然后該節(jié)點能夠通過與處于該距離的節(jié)點和消息最終到達的新質(zhì)量桶進行交互,來執(zhí)行從它在交疊中的過去(源)位置到新(目的地)位置的移動。
[0038]因此,頂部交疊允許在節(jié)點組之間有效的、較短路徑導航(“路由”),當節(jié)點改變質(zhì)量桶時所述有效的、較短路徑導航是所需要的,從而必須路由到準確的新質(zhì)量桶,其中節(jié)點找到具有與該節(jié)點的新QoS接近的值的節(jié)點組(S卩,底部交疊)。因此,在頂部交疊中,如上所述根據(jù)節(jié)點的質(zhì)量桶而不是根據(jù)它們的哈希值來組織所述節(jié)點。圖3和4允許更好地理解這些不同概念,圖3表示了類似CAN(內(nèi)容可尋址網(wǎng)絡(luò))的DHT,處理與D個被監(jiān)測服務相對應的D維空間(在圖3和4中,D = 2)。CAN是分布式去集中化P2P基礎(chǔ)結(jié)構(gòu),在類似互聯(lián)網(wǎng)規(guī)模上提供哈希表功能。
[0039]通過圖3示出了二維頂部交疊結(jié)構(gòu)(D = 2)的示例。D是將要被監(jiān)測以便建立QoS的服務的數(shù)目:水平方向上,服務X的QoS (附圖標記35);垂直方向上,服務y的QoS (34)。將D維的空間分為多個質(zhì)量桶。將質(zhì)量桶分組為多個單元(這里,I到4,附圖標記30-33),將具有特定的QoS范圍的質(zhì)量桶分組在一起。每個單元最多有一個種子(這里,變黑的質(zhì)量桶38)。根據(jù)節(jié)點的QoS,將節(jié)點(變黑的點,附圖標記39)置于網(wǎng)格內(nèi)。種子(38)是包含數(shù)目在預定的閾值以上的多個節(jié)點(39,示出了質(zhì)量桶中的單個節(jié)點)的質(zhì)量桶。所述閾值與先前討論的在所述本發(fā)明的所述特定實施例中用于確定異常是否是孤立的預定閾值無關(guān)。
[0040]圖4示出了頂部交疊40和一個或多個底部交疊41之間的層次(文中,作為非限制性的示例,示出了四個底部交疊)。在頂部交疊中,根據(jù)節(jié)點在網(wǎng)格中的坐標來在質(zhì)量桶中組織節(jié)點。在底部交疊中,通過DHT來組織具有相同或相似服務質(zhì)量的節(jié)點組。為了說明的清楚性,針對四個底部交疊中的每個,繪制了簡單的樹狀結(jié)構(gòu)。通過線條43表示頂部交疊和底部交疊之間的鏈接,線條43示出了作為底部交疊和頂部交疊之間的橋梁的“根”節(jié)點,所述根節(jié)點表示到質(zhì)量桶的底部交疊的進入點。
[0041]當節(jié)點改變質(zhì)量桶,S卩,“移動到”其它質(zhì)量桶時,所述節(jié)點使用DHT來在其底部交疊中查找根節(jié)點(附圖標記42)。(所述“移動”節(jié)點可以例如路由到負責DHT中的IDO的DHT節(jié)點。根據(jù)變型實施例,使用負載平衡結(jié)構(gòu)。)當尋找到根節(jié)點(42)時,移動節(jié)點請求根節(jié)點通過在頂部交疊中的查找操作,根據(jù)其目的地質(zhì)量桶的質(zhì)量桶坐標,在頂部交疊中尋找根節(jié)點的地址。移動節(jié)點接著將根節(jié)點用作將要被插入到目的地底部交疊的拓撲中的自舉節(jié)點。一旦插入到目的地底部交疊中,新加入的節(jié)點可以通過典型DHT原語(primitives)與在底部交疊中的節(jié)點通信。為了確定是否向中央服務器發(fā)送警報消息,新加入的節(jié)點需要知道進行相同移動的節(jié)點的數(shù)目。為此,移動節(jié)點增加了在底部交疊中進行相同移動的節(jié)點數(shù)目的計數(shù)器。使用所述計數(shù)器用于對近似同時從相同質(zhì)量桶(源桶)向當前桶(目的地桶)移動的節(jié)點的數(shù)目進行計數(shù)。所述節(jié)點共享公共時鐘t,根據(jù)所述公共時鐘t,產(chǎn)生時間戳,所述時間戳限定了根據(jù)公共時鐘得到的時隙,所述時隙具有預定時長d,d是針對實現(xiàn)本發(fā)明的數(shù)據(jù)處理系統(tǒng)而定義的參數(shù)。已確定在時隙X改變質(zhì)量桶的節(jié)點檢查在時間x+d (x+d意味著下一時隙)時該計數(shù)器的值。如果計數(shù)器的值在預定閾值以下或小于預定閾值,則發(fā)出警報。否則,節(jié)點保持靜默。公共時間線例如可以被節(jié)點之間共享的公共時鐘所共享,時隙的預定時長確保在每個時隙的時間線上同步地進行操作,所述同步對計算將在下文討論的哈希運算散列(prev1us_locat1n:time_of_move_relative_to_time_slot)是非常重要的。
[0042]計數(shù)器在每個底部交疊中的位置(即,負責主持計數(shù)器值的特定節(jié)點)被定義為通過對移動節(jié)點的先前位置和節(jié)點移動的時間進行的DHT哈希處理來確定的(例如,考慮幾分鐘的預定時隙時長)。換言之,對類型散列(prev1us_locat1n:time_of_move_relative_to_time_slot)的操作將提供由移動節(jié)點使用的確定性值(8卩,時間戳),以便唯一性地識別計數(shù)器在給定DHT中的位置。這樣,針對移動時隙在每個底部交疊中的每對過去位置/時間戳,限定新位置,這在構(gòu)成底部交疊的節(jié)點之間提供負載平衡。
[0043]圖5示出了可以在實現(xiàn)本發(fā)明的方法中使用的系統(tǒng)的設(shè)備500。所述設(shè)備包括通過數(shù)字數(shù)據(jù)及地址總線50互連的以下組件:
[0044]處理單元53 (或中央處理單元,CPU);
[0045]存儲器55 ;
[0046]網(wǎng)絡(luò)接口 54,用于通過連接51將設(shè)備500與連接在網(wǎng)絡(luò)中的其它設(shè)備相連。
[0047]處理單元53可以實現(xiàn)為微處理器、定制芯片、專用(微)的控制器等。存儲器55可以實現(xiàn)為任何形式的易失性和/或非易失性的存儲器,例如RAM(隨機訪問存儲器)、硬盤驅(qū)動、非易失性隨機訪問存儲器、EPROM(可擦除可編程ROM)等。設(shè)備500適合于實現(xiàn)根據(jù)本發(fā)明的方法的數(shù)據(jù)處理設(shè)備。數(shù)據(jù)處理設(shè)備500具有:用于插入到具有相同第一服務質(zhì)量值的第一數(shù)據(jù)處理設(shè)備組的裝置(53,54),所述第一服務質(zhì)量值與由所述數(shù)據(jù)處理設(shè)備提供的至少一個服務相關(guān);服務質(zhì)量演進確定裝置(52),用于確定數(shù)據(jù)處理設(shè)備的服務質(zhì)量值是否演進到超過預定閾值的第二服務質(zhì)量值;以及用于插入到具有相同服務質(zhì)量的第二數(shù)據(jù)處理設(shè)備組的裝置(53,54);計算裝置(53),用于確定第二數(shù)據(jù)處理設(shè)備組是否包括先前服務質(zhì)量值等于第一值的多個數(shù)據(jù)處理設(shè)備并且所述多個數(shù)據(jù)處理設(shè)備的數(shù)目在預定值以下;以及用于發(fā)送指示孤立異常檢測的消息的裝置(54)。
[0048]根據(jù)特定實施例,本發(fā)明全部實現(xiàn)為硬件,例如,作為專用組件(例如,ASIC、FPGA或VLSI)(分別是專用集成電路、場可編程門陣列和超大規(guī)模集成電路),或根據(jù)其它變型實施例,作為集成在設(shè)備中的不同電子組件,或根據(jù)另一變型實施例,以硬件和軟件混合的方式。
[0049]圖6以流程圖的形式示出了根據(jù)特定實施例的本發(fā)明的方法。在初始化的第一步驟60中,在存儲器(例如,設(shè)備500的存儲器55)中對執(zhí)行所述方法所需的變量進行初始化。在下一步驟61,所述設(shè)備根據(jù)由數(shù)據(jù)處理設(shè)備呈現(xiàn)的至少一個服務的服務質(zhì)量,將自己插入質(zhì)量桶(“源”質(zhì)量桶)中。質(zhì)量桶表示針對所述至少一個服務具有預定的服務質(zhì)量范圍的數(shù)據(jù)處理設(shè)備組。這樣,所述設(shè)備將自己插入到服務質(zhì)量范圍包括由所述數(shù)據(jù)處理設(shè)備呈現(xiàn)的所述至少一個服務的服務質(zhì)量的質(zhì)量桶?!安迦搿钡劫|(zhì)量桶意味著所述設(shè)備成為表示該質(zhì)量桶的組的成員。根據(jù)特定實施例,通過將表示設(shè)備的標識符插入到表示質(zhì)量桶的設(shè)備組的列表中,來進行這種插入。根據(jù)變型實施例,通過創(chuàng)建與表示質(zhì)量桶的設(shè)備集的網(wǎng)絡(luò)連接,來進行這種插入,其中質(zhì)量桶由所述質(zhì)量桶內(nèi)的設(shè)備之間的網(wǎng)絡(luò)連接來表征。在判定步驟62,確定由數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務質(zhì)量是否演進超過了所述數(shù)據(jù)處理設(shè)備所插入到的質(zhì)量桶(所述設(shè)備是該質(zhì)量桶的成員)的預定范圍。這意味著在給定時刻的服務質(zhì)量(該時刻的服務質(zhì)量包括在其質(zhì)量桶的范圍內(nèi))和后來時刻的服務質(zhì)量之間,后者不再處于該質(zhì)量桶的范圍內(nèi),即QoS的演進是十分顯著的以至于導致改變了質(zhì)量桶,S卩,從“源”質(zhì)量桶到“目的地”質(zhì)量桶。因此,在如果由所述數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務質(zhì)量演進超過第一質(zhì)量桶的預定范圍則將數(shù)據(jù)處理設(shè)備插入到目的地質(zhì)量桶的第二插入步驟(63)中,將該設(shè)備插入到其它質(zhì)量桶。然后,在步驟64中確定質(zhì)量桶的改變是否是孤立情況。為此,確定對在目的地質(zhì)量桶中源質(zhì)量桶與所述數(shù)據(jù)處理設(shè)備的質(zhì)量桶相同的數(shù)據(jù)處理設(shè)備的總數(shù)加以表示的計數(shù)是否在預定值以下。如果是,則檢測到孤立異常,所述設(shè)備傳輸/發(fā)送表示發(fā)生孤立異常檢測的消息。根據(jù)特定實施例,所述消息包括設(shè)備的標識符。根據(jù)變型實施例,所述消息包括異常檢測的原因,使得操作者可以介入,而無需向所述設(shè)備詢問異常原因。
【權(quán)利要求】
1.一種在呈現(xiàn)服務的數(shù)據(jù)處理設(shè)備中進行孤立異常檢測的方法,其特征在于所述方法包括由所述數(shù)據(jù)處理設(shè)備執(zhí)行的以下步驟: 根據(jù)由所述數(shù)據(jù)處理設(shè)備呈現(xiàn)的至少一個服務的服務質(zhì)量,將所述數(shù)據(jù)處理設(shè)備首次插入(61)源質(zhì)量桶,質(zhì)量桶表示針對所述至少一個服務具有預定的服務質(zhì)量范圍的數(shù)據(jù)處理設(shè)備組; 如果由所述數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務質(zhì)量演進超過第一質(zhì)量桶的預定范圍,則將所述數(shù)據(jù)處理設(shè)備再次插入¢3)目的地質(zhì)量桶; 當對所述目的地質(zhì)量桶中源質(zhì)量桶與所述數(shù)據(jù)處理設(shè)備的質(zhì)量桶相同的數(shù)據(jù)處理設(shè)備的總數(shù)加以表示的計數(shù)在預定值以下¢4)時,發(fā)送¢5)表示孤立異常檢測的消息。
2.根據(jù)權(quán)利要求1所述的方法,其中所述方法還包括:確定數(shù)據(jù)處理設(shè)備在所述目的地質(zhì)量桶中的地址,所述目的地質(zhì)量桶負責根據(jù)作用于源質(zhì)量桶和所述再次插入的時間戳上的哈希函數(shù)來存儲所述計數(shù),所述時間戳表示根據(jù)在所述數(shù)據(jù)處理設(shè)備之間共享的公共時鐘而得到的時隙。
3.根據(jù)權(quán)利要求1或2所述的方法,其中在包括根數(shù)據(jù)處理設(shè)備的數(shù)據(jù)處理設(shè)備網(wǎng)絡(luò)中組織數(shù)據(jù)處理設(shè)備,所述根數(shù)據(jù)處理設(shè)備表示質(zhì)量桶的進入點,所述再次插入還包括向源質(zhì)量桶的第一根數(shù)據(jù)處理設(shè)備發(fā)送第一請求,以便獲得目的地質(zhì)量桶的目的地根數(shù)據(jù)處理設(shè)備的地址。
4.根據(jù)權(quán)利要求3所述的方法,其中所述方法還包括:向目的地質(zhì)量桶的所述目的地根數(shù)據(jù)處理設(shè)備發(fā)送第二請求,以便將所述數(shù)據(jù)處理設(shè)備插入所述目的地質(zhì)量桶。
5.根據(jù)權(quán)利要求3或4所述的方法,其中根據(jù)兩級交疊結(jié)構(gòu)來組織所述數(shù)據(jù)處理設(shè)備網(wǎng)絡(luò),所述兩級交疊結(jié)構(gòu)包括:一個頂部交疊,組織在所述根數(shù)據(jù)處理設(shè)備之間的網(wǎng)絡(luò)連接;以及多個底部交疊,組織在具有相同質(zhì)量桶的數(shù)據(jù)處理設(shè)備之間的網(wǎng)絡(luò)連接。
6.根據(jù)權(quán)利要求1到5中任一權(quán)利要求所述的方法,其中由數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務是數(shù)據(jù)存儲服務。
7.根據(jù)權(quán)利要求1到5中任一權(quán)利要求所述的方法,其中由數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務是視聽數(shù)據(jù)呈現(xiàn)服務。
8.—種針對呈現(xiàn)服務的數(shù)據(jù)處理設(shè)備的孤立異常檢測布置,其特征在于所述布置包括: 用于根據(jù)由所述數(shù)據(jù)處理設(shè)備呈現(xiàn)的至少一個服務的服務質(zhì)量,將所述數(shù)據(jù)處理設(shè)備首次插入源質(zhì)量桶的裝置,質(zhì)量桶表示針對所述至少一個服務具有預定的服務質(zhì)量范圍的數(shù)據(jù)處理設(shè)備組; 用于如果由所述數(shù)據(jù)處理設(shè)備呈現(xiàn)的所述服務質(zhì)量演進超過第一質(zhì)量桶的所述預定范圍,則將所述數(shù)據(jù)處理設(shè)備再次插入目的地質(zhì)量桶的裝置; 用于當對所述目的地質(zhì)量桶中源質(zhì)量桶與所述數(shù)據(jù)處理設(shè)備的質(zhì)量桶相同的數(shù)據(jù)處理設(shè)備的總數(shù)加以表示的計數(shù)在預定值以下時,發(fā)送表示孤立異常檢測的消息的裝置。
9.根據(jù)權(quán)利要求8所述的布置,還包括:用于確定數(shù)據(jù)處理設(shè)備在所述目的地質(zhì)量桶中的地址的裝置,所述目的地質(zhì)量桶負責根據(jù)作用于源質(zhì)量桶上和所述再次插入的時間戳上的哈希函數(shù)來存儲所述計數(shù),所述時間戳表示根據(jù)在所述數(shù)據(jù)處理設(shè)備之間共享的公共時鐘而得到的時隙。
10.根據(jù)權(quán)利要求8或9所述的布置,其中在包括根數(shù)據(jù)處理設(shè)備的數(shù)據(jù)處理設(shè)備網(wǎng)絡(luò)中組織數(shù)據(jù)處理設(shè)備,所述根數(shù)據(jù)處理設(shè)備表示質(zhì)量桶的進入點,所述再次插入還包括用于向源質(zhì)量桶的第一根數(shù)據(jù)處理設(shè)備發(fā)送第一請求以便獲得目的地質(zhì)量桶的目的地根數(shù)據(jù)處理設(shè)備的地址的裝置。
11.根據(jù)權(quán)利要求10所述的布置,還包括:向所述目的地質(zhì)量桶的目的地根數(shù)據(jù)處理設(shè)備發(fā)送第二請求以便將所述數(shù)據(jù)處理設(shè)備插入所述目的地質(zhì)量桶的裝置。
12.根據(jù)權(quán)利要求10或11所述的布置,其中根據(jù)兩級交疊結(jié)構(gòu)來組織所述數(shù)據(jù)處理設(shè)備的網(wǎng)絡(luò),所述兩級交疊結(jié)構(gòu)包括:一個頂部交疊,組織在所述根數(shù)據(jù)處理設(shè)備之間的網(wǎng)絡(luò)連接;以及多個底部交疊,組織在具有相同質(zhì)量桶的數(shù)據(jù)處理設(shè)備之間的網(wǎng)絡(luò)連接。
13.根據(jù)權(quán)利要求8到12中的任一權(quán)利要求所述的方法,其中由數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務是數(shù)據(jù)存儲服務。
14.根據(jù)權(quán)利要求8到12中的任一權(quán)利要求所述的方法,其中由數(shù)據(jù)處理設(shè)備呈現(xiàn)的服務是視聽數(shù)據(jù)呈現(xiàn)服務。
【文檔編號】H04L12/703GK104488227SQ201380037387
【公開日】2015年4月1日 申請日期:2013年7月8日 優(yōu)先權(quán)日:2012年7月13日
【發(fā)明者】埃爾溫·勒梅雷, 吉勒·斯特勞布, 羅馬里克·勞德納德, 布魯諾·塞里克拉 申請人:湯姆遜許可公司