創(chuàng)建交換機日志模板的方法和裝置的制造方法
【專利摘要】本申請公開了創(chuàng)建交換機日志模板的方法和裝置。所述方法的一【具體實施方式】包括:獲取一個型號的交換機的原始日志;獲取所述原始日志中的消息類型和詳細消息,如果獲取不到消息類型,則創(chuàng)建聚類標簽作為消息類型;對所述詳細消息進行分詞,得到關鍵詞;根據所述關鍵詞的詞頻對所述關鍵詞重新排序,將詞頻高的關鍵詞排在前面;根據所述重新排序的關鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的根節(jié)點,所述重新排序的關鍵詞作為樹的節(jié)點,每個消息類型對應一個多叉樹;深度優(yōu)先遍歷所述多叉樹,根據所述多叉樹中的路徑創(chuàng)建所述型號交換機的每個消息類型所對應的日志模板。該實施方式創(chuàng)建交換機日志模板,使用該模板對日志進行壓縮。
【專利說明】
創(chuàng)建交換機日志模板的方法和裝置
技術領域
[0001 ]本申請涉及計算機技術領域,具體涉及互聯網技術領域,尤其涉及創(chuàng)建交換機日 志模板的方法和裝置。
【背景技術】
[0002] 交換機日志是交換機設備在存活周期內產生的重要數據,通過交換機日志可以獲 取交換機的狀態(tài),包括端口的抖動、協議的抖動、板卡故障、電源故障等,而傳統(tǒng)的設備監(jiān)控 系統(tǒng)都是基于交換機日志,通過特定的規(guī)則匹配日志,從而發(fā)現故障點并進行報警。
[0003] 隨著互聯網數據的爆炸性增長以及業(yè)務的增多,很多互聯網企業(yè)對自建網絡的投 入也越來越大,IDC(Internet Data Center,互聯網數據中心)中涉及到的網絡設備也越來 越多,尤其是交換機設備。
[0004] -個典型的案例是在企業(yè)自建IDC中,存在大規(guī)模的交換機設備,這些設備分別來 自不同的廠商、存在多種型號,同時分布在多個IDC中。過多的設備會產生大規(guī)模的交換機 日志,對于報警規(guī)則的挖掘以及排障都帶來了困難,需要一種自動化手段對日志進行壓縮。
【發(fā)明內容】
[0005] 本申請的目的在于提出一種創(chuàng)建交換機日志模板的方法和裝置,來解決以上背景 技術部分提到的技術問題。
[0006] 第一方面,本申請?zhí)峁┝藙?chuàng)建交換機日志模板的方法,所述方法包括:獲取一個型 號的交換機的原始日志;獲取所述原始日志中的消息類型和詳細消息,如果獲取不到消息 類型,則創(chuàng)建聚類標簽作為消息類型;對所述詳細消息進行分詞,得到關鍵詞;根據所述關 鍵詞的詞頻對所述關鍵詞重新排序,將詞頻高的關鍵詞排在前面;根據所述重新排序的關 鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的根節(jié)點,所述重新排序的關鍵詞作為樹的節(jié)點,每 個消息類型對應一個多叉樹;深度優(yōu)先遍歷所述多叉樹,根據所述多叉樹中的路徑創(chuàng)建所 述型號交換機的每個消息類型所對應的日志模板。
[0007] 在一些實施例中,所述方法還包括:獲取一個型號的交換機的新增日志;獲取所述 新增日志中的消息類型和詳細消息,如果獲取不到消息類型,則創(chuàng)建聚類標簽作為消息類 型;使用所述日志模板過濾所述新增日志;將所述日志模板無法匹配的新增日志中的詳細 消息進行分詞,得到關鍵詞;根據所述關鍵詞的詞頻對所述關鍵詞重新排序,將詞頻高的關 鍵詞排在前面;根據所述重新排序的關鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的根節(jié)點,所 述重新排序的關鍵詞作為樹的節(jié)點,每個消息類型對應一個多叉樹;深度優(yōu)先遍歷所述多 叉樹,根據所述多叉樹中的路徑創(chuàng)建所述型號交換機的每個消息類型所對應的新增日志模 板。
[0008] 在一些實施例中,如果所述多叉樹中一個節(jié)點的子節(jié)點超過節(jié)點閾值數目,則刪 除所述節(jié)點的所有子節(jié)點,所述節(jié)點作為最后一個子節(jié)點。
[0009] 在一些實施例中,所述創(chuàng)建聚類標簽作為消息類型,包括:將每一條消息類型未知 的日志按照語義分成了五種類別并分別賦予權重值,所述五種類別包括:只有數字或數字 與符號,數字、字母和符號,符號和字母,只有字母,只有符號;提取所述日志中五類語義的 頻度,將所述日志轉化為一個固定五個長度的詞頻向量;計算所述詞頻向量與已知的消息 類型集合的相似度,得到一組相似度結果,如果最大相似度大于等于預設的相似度閾值,則 將所述日志歸到對應的消息類型;如果最大相似度小于預設的相似度閾值,則將所述詞頻 向量作為一個新的消息類型。
[0010] 在一些實施例中,當一個日志模板是另外一個日志模板的子集時,通過對節(jié)點打 標簽的形式來標識一個節(jié)點是否是一條路徑的結束。
[0011] 在一些實施例中,將每個消息類型中的日志模板按照樹的深度排序,當一個日志 模板是另外一個日志模板的子集時,優(yōu)先采用樹的深度較大的日志模板進行匹配。
[0012] 第二方面,本申請?zhí)峁┝艘环N創(chuàng)建交換機日志模板的裝置,其特征在于,所述裝置 包括:獲取單元,配置用于獲取一個型號的交換機的原始日志;解析單元,配置用于獲取所 述原始日志中的消息類型和詳細消息,如果獲取不到消息類型,則創(chuàng)建聚類標簽作為消息 類型;處理單元,配置用于對所述詳細消息進行分詞,得到關鍵詞;根據所述關鍵詞的詞頻 對所述關鍵詞重新排序,將詞頻高的關鍵詞排在前面;創(chuàng)建單元,配置用于根據所述重新排 序的關鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的根節(jié)點,所述重新排序的關鍵詞作為樹的 節(jié)點,每個消息類型對應一個多叉樹;深度優(yōu)先遍歷所述多叉樹,根據所述多叉樹中的路徑 創(chuàng)建所述型號交換機的每個消息類型所對應的日志模板。
[0013] 在一些實施例中,所述裝置還配置用于:獲取一個型號的交換機的新增日志;獲取 所述新增日志中的消息類型和詳細消息,如果獲取不到消息類型,則創(chuàng)建聚類標簽作為消 息類型;使用所述日志模板過濾所述新增日志;將所述日志模板無法匹配的新增日志中的 詳細消息進行分詞,得到關鍵詞;根據所述關鍵詞的詞頻對所述關鍵詞重新排序,將詞頻高 的關鍵詞排在前面;根據所述重新排序的關鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的根節(jié) 點,所述重新排序的關鍵詞作為樹的節(jié)點,每個消息類型對應一個多叉樹;深度優(yōu)先遍歷所 述多叉樹,根據所述多叉樹中的路徑創(chuàng)建所述型號交換機的每個消息類型所對應的新增日 志模板。
[0014] 在一些實施例中,所述創(chuàng)建單元還配置用于:如果所述多叉樹中一個節(jié)點的子節(jié) 點超過節(jié)點閾值數目,則刪除所述節(jié)點的所有子節(jié)點,所述節(jié)點作為最后一個子節(jié)點。
[0015] 在一些實施例中,所述創(chuàng)建聚類標簽作為消息類型,包括:將每一條消息類型未知 的日志按照語義分成了五種類別并分別賦予權重值,所述五種類別包括:只有數字或數字 與符號,數字、字母和符號,符號和字母,只有字母,只有符號;提取所述日志中五類語義的 頻度,將所述日志轉化為一個固定五個長度的詞頻向量;計算所述詞頻向量與已知的消息 類型集合的相似度,得到一組相似度結果,如果最大相似度大于等于預設的相似度閾值,則 將所述日志歸到對應的消息類型;如果最大相似度小于預設的相似度閾值,則將所述詞頻 向量作為一個新的消息類型。
[0016] 在一些實施例中,所述創(chuàng)建單元還配置用于:當一個日志模板是另外一個日志模 板的子集時,通過對節(jié)點打標簽的形式來標識一個節(jié)點是否是一條路徑的結束。
[0017] 在一些實施例中,所述創(chuàng)建單元還配置用于:將每個消息類型中的模板按照樹的 深度排序,當一個日志模板是另外一個日志模板的子集時,優(yōu)先采用樹的深度較大的模板 進行匹配。
[0018] 本申請?zhí)峁┑膭?chuàng)建交換機日志模板的方法和裝置,通過獲取所述原始日志中的消 息類型和詳細消息,根據詳細消息中的關鍵詞創(chuàng)建多叉樹,根據多叉樹中的路徑創(chuàng)建交換 機的每個消息類型所對應的日志模板,以采用增量迭代訓練方式對交換機日志進行壓縮。
【附圖說明】
[0019] 通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它 特征、目的和優(yōu)點將會變得更明顯:
[0020] 圖1是本申請可以應用于其中的示例性系統(tǒng)架構圖;
[0021] 圖2是根據本申請的創(chuàng)建交換機日志模板的方法的一個實施例的流程圖;
[0022] 圖3是根據本申請的創(chuàng)建交換機日志模板的方法的詞頻向量的示意圖;
[0023]圖4a、4b和4c是根據本申請的創(chuàng)建交換機日志模板的方法的一個應用場景的示意 圖;
[0024] 圖5是根據本申請的創(chuàng)建交換機日志模板的方法的又一個實施例的流程圖;
[0025] 圖6是根據本申請的創(chuàng)建交換機日志模板的裝置的一個實施例的結構示意圖;
[0026] 圖7是適于用來實現本申請實施例的服務器的計算機系統(tǒng)的結構示意圖。
【具體實施方式】
[0027] 下面結合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖?,此處所描 述的具體實施例僅僅用于解釋相關發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了 便于描述,附圖中僅示出了與有關發(fā)明相關的部分。
[0028] 需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相 互組合。下面將參考附圖并結合實施例來詳細說明本申請。
[0029] 圖1示出了可以應用本申請的創(chuàng)建交換機日志模板的方法或創(chuàng)建交換機日志模板 的裝置的實施例的示例性系統(tǒng)架構1〇〇。
[0030] 如圖1所示,系統(tǒng)架構100可以包括交換機101、102、103,網絡104和服務器105。網 絡104用以在交換機101、102、103和服務器105之間提供通信鏈路的介質。網絡104可以包括 各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
[0031] 交換機101、102、103的日志通過網絡104傳輸到服務器105。交換機101、102、103上 可以安裝有各種日志采集工具的客戶端,例如安裝有可以將其內部的日志信息傳輸到遠程 的日志服務器的rsyslog等。
[0032] 交換機101、102、103可以是為接入交換機的任意兩個網絡節(jié)點提供獨享的電信號 通路的網絡設備,包括但不限于以太網交換機、快速以太網交換機、千兆以太網交換機、 FDDI交換機、ATM交換機和令牌環(huán)交換機等。
[0033] 服務器105可以是提供各種服務的服務器,例如采集交換機101、102、103的日志, 對采集到的日志進行結構化處理并創(chuàng)建日志模板的服務器。
[0034] 需要說明的是,本申請實施例所提供的創(chuàng)建交換機日志模板的方法一般由服務器 105執(zhí)行,相應地,創(chuàng)建交換機日志模板的裝置一般設置于服務器105中。
[0035] 應該理解,圖1中的交換機、網絡和服務器的數目僅僅是示意性的。根據實現需要, 可以具有任意數目的交換機、網絡和服務器。
[0036]繼續(xù)參考圖2,示出了根據本申請的創(chuàng)建交換機日志模板的方法的一個實施例的 流程200。所述的創(chuàng)建交換機日志模板的方法,包括以下步驟:
[0037]步驟201,獲取一個型號的交換機的原始日志。
[0038]在本實施例中,創(chuàng)建交換機日志模板的方法運行于其上的電子設備(例如圖1所示 的服務器)可以通過有線連接方式或者無線連接方式從交換機獲取原始日志。
[0039]步驟202,獲取原始日志中的消息類型和詳細消息,如果獲取不到消息類型,則創(chuàng) 建聚類標簽作為消息類型。
[0040]在本實施例中,獲取原始日志中的消息類型和詳細消息,如果獲取不到消息類型, 則創(chuàng)建聚類標簽作為消息類型。其中,所述詳細消息需要去除變量。
[0041 ]在本實施例的一些可選的實現方式中,所述創(chuàng)建聚類標簽作為消息類型,包括:將 每一條消息類型未知的日志按照語義分成了五種類別并分別賦予權重值,所述五種類別包 括:只有數字或數字與符號,數字、字母和符號,符號和字母,只有字母,只有符號,如表1中 所示;提取所述日志中五類語義的頻度,將所述日志轉化為一個固定五個長度的詞頻向量, 如圖3所示;計算所述詞頻向量與已知的消息類型集合的相似度,得到一組相似度結果,如 果最大相似度大于等于預設的相似度閾值,則將所述日志歸到對應的消息類型;如果最大 相似度小于預設的相似度閾值,則將所述詞頻向量作為一個新的消息類型。
[0042]
[0043] 表 1
[0044] 步驟203,對詳細消息進行分詞,得到關鍵詞。
[0045] 在本實施例中,采用Luene進行分詞,得到關鍵詞。
[0046] 步驟204,根據關鍵詞的詞頻對關鍵詞重新排序,將詞頻高的關鍵詞排在前面。
[0047] 在本實施例中,根據關鍵詞的詞頻對關鍵詞重新排序,將詞頻尚的關鍵詞排在如 面。
[0048]步驟205,根據重新排序的關鍵詞創(chuàng)建多叉樹。
[0049] 在本實施例中,根據步驟204中重新排序的關鍵詞創(chuàng)建多叉樹。
[0050] 在本實施例的一些可選的實現方式中,如果所述多叉樹中一個節(jié)點的子節(jié)點超過 節(jié)點閾值數目,則刪除所述節(jié)點的所有子節(jié)點,所述節(jié)點作為最后一個子節(jié)點。例如,如果 一個節(jié)點的子節(jié)點超過10個(經驗值),則砍掉該節(jié)點的所有子節(jié)點,該節(jié)點作為最后一個 子節(jié)點。這樣做的目的是防止模板膨脹,因為針對每一個消息類型,一般不會超過10個有效 的狀態(tài)。例如,以登錄日志為例,處理用戶名其它部分關鍵詞一致,如果不進行子節(jié)點數量 的限制,就會導致過多的模板表不同一含義。
[0051]步驟206,深度優(yōu)先遍歷多叉樹,根據多叉樹中的路徑創(chuàng)建該型號交換機的每個消 息類型所對應的日志模板。
[0052]在本實施例中,深度優(yōu)先遍歷步驟205創(chuàng)建的多叉樹,根據多叉樹中的路徑創(chuàng)建該 型號交換機的每個消息類型所對應的日志模板。
[0053]在本實施例的一些可選的實現方式中,當一個日志模板是另外一個日志模板的子 集時,通過對節(jié)點打標簽的形式來標識一個節(jié)點是否是一條路徑的結束(該節(jié)點可能不是 最長路徑的結束)。
[0054]在本實施例的一些可選的實現方式中,當一個日志模板是另外一個日志模板的子 集時,優(yōu)先采用樹的深度較大的日志模板進行匹配。在節(jié)點不是最長路徑的結束的情況下, 用路徑最長的匹配。
[0055]繼續(xù)參見圖4a_4c,圖4a_4c是根據本實施例的創(chuàng)建交換機日志模板的方法的應用 場景的一個示意圖。在圖4a_4c的應用場景中,在圖4a中,圖左側為經過按照詞頻排序后的 日志,圖右側為構造出的多叉樹。在圖4b中,節(jié)點down的子節(jié)點數目多于10個,因此刪除 down的子節(jié)點,并將down作為最后一個子節(jié)點。在圖4c中,節(jié)點up是一條路徑的結束,對其 打上標簽,但它不是最長路徑,第一模板的路徑比第二模板的路徑長。采用模板進行日志匹 配時優(yōu)先采用第一模板進行匹配。
[0056] 本申請的上述實施例提供的方法通過對已經消息類型的日志進行分詞處理得到 關鍵詞后創(chuàng)建多叉樹,創(chuàng)建了交換機日志模板,可用于增量迭代訓練方式壓縮日志,日志壓 縮比可達到2000:1。
[0057]進一步參考圖5,其示出了創(chuàng)建交換機日志模板的方法的又一個實施例的流程 500。該創(chuàng)建交換機日志模板的方法的流程500,包括以下步驟:
[0058]步驟501,獲取一個型號的交換機的新增日志。
[0059] 在本實施例中,該步驟與步驟201基本相同,區(qū)別在于該步驟獲取的是新增的日 VI、J、〇
[0060] 步驟502,獲取新增日志中的消息類型和詳細消息,如果獲取不到消息類型,則創(chuàng) 建聚類標簽作為消息類型。
[0061 ] 步驟502與步驟202基本相同,在此不再贅述。
[0062]步驟503,使用日志模板過濾新增日志。
[0063]在本實施例中,使用在步驟206中創(chuàng)建的日志模板過濾新增日志,得到原日志模板 無法匹配的日志進行增量訓練。
[0064]步驟504,將日志模板無法匹配的新增日志中的詳細消息進行分詞,得到關鍵詞。 [0065] 步驟504與步驟203基本相同,在此不再贅述。
[0066]步驟505,根據關鍵詞的詞頻對關鍵詞重新排序,將詞頻高的關鍵詞排在前面。 [0067]步驟506,根據重新排序的關鍵詞創(chuàng)建多叉樹。
[0068]步驟507,深度優(yōu)先遍歷多叉樹,根據多叉樹中的路徑創(chuàng)建該型號交換機的每個消 息類型所對應的新增日志模板。
[0069] 步驟505-507與步驟204-206基本相同,在此不再贅述。
[0070] 從圖5中可以看出,與圖2對應的實施例相比,本實施例中的創(chuàng)建交換機日志模板 的方法的流程500突出了對新增日志進行過濾的步驟。由此,本實施例描述的方案可以采用 增量迭代訓練的方式對日志進行壓縮。
[0071] 進一步參考圖6,作為對上述各圖所示方法的實現,本申請?zhí)峁┝艘环N創(chuàng)建交換機 曰志模板的裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體 可以應用于各種電子設備中。
[0072]如圖6所示,本實施例所述的創(chuàng)建交換機日志模板的裝置600包括:獲取單元601、 解析單元602、處理單元603和創(chuàng)建單元604。其中,獲取單元601配置用于獲取一個型號的交 換機的原始日志;解析單元602配置用于獲取所述原始日志中的消息類型和詳細消息,如果 獲取不到消息類型,則創(chuàng)建聚類標簽作為消息類型;處理單元603配置用于對所述詳細消息 進行分詞,得到關鍵詞;根據所述關鍵詞的詞頻對所述關鍵詞重新排序,將詞頻高的關鍵詞 排在前面;創(chuàng)建單元604配置用于根據所述重新排序的關鍵詞創(chuàng)建多叉樹,每個消息類型作 為樹的根節(jié)點,所述重新排序的關鍵詞作為樹的節(jié)點,每個消息類型對應一個多叉樹;深度 優(yōu)先遍歷所述多叉樹,根據所述多叉樹中的路徑創(chuàng)建所述型號交換機的每個消息類型所對 應的日志模板。
[0073] 在本實施例的一些可選的實現方式中,該創(chuàng)建交換機日志模板的裝置600還配置 用于:獲取一個型號的交換機的新增日志;獲取所述新增日志中的消息類型和詳細消息,如 果獲取不到消息類型,則創(chuàng)建聚類標簽作為消息類型;使用所述日志模板過濾所述新增日 志;將所述日志模板無法匹配的新增日志中的詳細消息進行分詞,得到關鍵詞;根據所述關 鍵詞的詞頻對所述關鍵詞重新排序,將詞頻高的關鍵詞排在前面;根據所述重新排序的關 鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的根節(jié)點,所述重新排序的關鍵詞作為樹的節(jié)點,每 個消息類型對應一個多叉樹;深度優(yōu)先遍歷所述多叉樹,根據所述多叉樹中的路徑創(chuàng)建所 述型號交換機的每個消息類型所對應的新增日志模板。
[0074] 在本實施例的一些可選的實現方式中,創(chuàng)建單元604還配置用于:如果所述多叉樹 中一個節(jié)點的子節(jié)點超過節(jié)點閾值數目,則刪除所述節(jié)點的所有子節(jié)點,所述節(jié)點作為最 后一個子節(jié)點。
[0075] 在本實施例的一些可選的實現方式中,創(chuàng)建聚類標簽作為消息類型,包括:將每一 條消息類型未知的日志按照語義分成了五種類別并分別賦予權重值,所述五種類別包括: 只有數字或數字與符號,數字、字母和符號,符號和字母,只有字母,只有符號;提取所述日 志中五類語義的頻度,將所述日志轉化為一個固定五個長度的詞頻向量;計算所述詞頻向 量與已知的消息類型集合的相似度,得到一組相似度結果,如果最大相似度大于等于預設 的相似度閾值,則將所述日志歸到對應的消息類型;如果最大相似度小于預設的相似度閾 值,則將所述詞頻向量作為一個新的消息類型。
[0076] 在本實施例的一些可選的實現方式中,創(chuàng)建單元604還配置用于:當一個日志模板 是另外一個日志模板的子集時,通過對節(jié)點打標簽的形式來標識一個節(jié)點是否是一條路徑 的結束。
[0077] 在本實施例的一些可選的實現方式中,創(chuàng)建單元604還配置用于:將每個消息類型 中的模板按照樹的深度排序,當一個日志模板是另外一個日志模板的子集時,優(yōu)先采用樹 的深度較大的模板進行匹配。
[0078]下面參考圖7,其示出了適于用來實現本申請實施例的服務器的計算機系統(tǒng)700的 結構示意圖。
[0079]如圖7所示,計算機系統(tǒng)700包括中央處理單元603(CPU)701,其可以根據存儲在只 讀存儲器(R〇M)702中的程序或者從存儲部分708加載到隨機訪問存儲器(RAM)703中的程序 而執(zhí)行各種適當的動作和處理。在RAM 703中,還存儲有系統(tǒng)700操作所需的各種程序和數 據。CPU 701、R0M 702以及RAM 703通過總線704彼此相連。輸入/輸出(I/O)接口705也連接 至總線704。
[0080] 以下部件連接至I/O接口 705:包括鍵盤、鼠標等的輸入部分706;包括諸如陰極射 線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分707;包括硬盤等的存儲部分708; 以及包括諸如LAN卡、調制解調器等的網絡接口卡的通信部分709。通信部分709經由諸如因 特網的網絡執(zhí)行通信處理。驅動器710也根據需要連接至I/O接口 705。可拆卸介質711,諸如 磁盤、光盤、磁光盤、半導體存儲器等等,根據需要安裝在驅動器710上,以便于從其上讀出 的計算機程序根據需要被安裝入存儲部分708。
[0081] 特別地,根據本公開的實施例,上文參考流程圖描述的過程可以被實現為計算機 軟件程序。例如,本公開的實施例包括一種計算機程序產品,其包括有形地包含在機器可讀 介質上的計算機程序,所述計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這 樣的實施例中,該計算機程序可以通過通信部分709從網絡上被下載和安裝,和/或從可拆 卸介質711被安裝。在該計算機程序被中央處理單元603(CPU)701執(zhí)行時,執(zhí)行本申請的方 法中限定的上述功能。
[0082] 附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程 序產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代 表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個 用于實現規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現中,方框中所 標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框實際 上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要 注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用 執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現,或者可以用專用硬件與計算機指 令的組合來實現。
[0083]描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現,也可以通過硬 件的方式來實現。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包 括獲取單元、解析單元、處理單元和創(chuàng)建單元。其中,這些單元的名稱在某種情況下并不構 成對該單元本身的限定,例如,獲取單元還可以被描述為"獲取一個型號的交換機的原始日 志的單元"。
[0084]作為另一方面,本申請還提供了一種非易失性計算機存儲介質,該非易失性計算 機存儲介質可以是上述實施例中所述裝置中所包含的非易失性計算機存儲介質;也可以是 單獨存在,未裝配入終端中的非易失性計算機存儲介質。上述非易失性計算機存儲介質存 儲有一個或者多個程序,當所述一個或者多個程序被一個設備執(zhí)行時,使得所述設備:獲取 一個型號的交換機的原始日志;獲取所述原始日志中的消息類型和詳細消息,如果獲取不 到消息類型,則創(chuàng)建聚類標簽作為消息類型;對所述詳細消息進行分詞,得到關鍵詞;根據 所述關鍵詞的詞頻對所述關鍵詞重新排序,將詞頻高的關鍵詞排在前面;根據所述重新排 序的關鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的根節(jié)點,所述重新排序的關鍵詞作為樹的 節(jié)點,每個消息類型對應一個多叉樹;深度優(yōu)先遍歷所述多叉樹,根據所述多叉樹中的路徑 創(chuàng)建所述型號交換機的每個消息類型所對應的日志模板。
[0085]以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人 員應當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術特征的特定組合而成的技術 方案,同時也應涵蓋在不脫離所述發(fā)明構思的情況下,由上述技術特征或其等同特征進行 任意組合而形成的其它技術方案。例如上述特征與本申請中公開的(但不限于)具有類似功 能的技術特征進行互相替換而形成的技術方案。
【主權項】
1. 一種創(chuàng)建交換機日志模板的方法,其特征在于,所述方法包括: 獲取一個型號的交換機的原始日志; 獲取所述原始日志中的消息類型和詳細消息,如果獲取不到消息類型,則創(chuàng)建聚類標 簽作為消息類型; 對所述詳細消息進行分詞,得到關鍵詞; 根據所述關鍵詞的詞頻對所述關鍵詞重新排序,將詞頻高的關鍵詞排在前面; 根據所述重新排序的關鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的根節(jié)點,所述重新排 序的關鍵詞作為樹的節(jié)點,每個消息類型對應一個多叉樹; 深度優(yōu)先遍歷所述多叉樹,根據所述多叉樹中的路徑創(chuàng)建所述型號交換機的每個消息 類型所對應的日志模板。2. 根據權利要求1所述的創(chuàng)建交換機日志模板的方法,其特征在于,所述方法還包括: 獲取一個型號的交換機的新增日志; 獲取所述新增日志中的消息類型和詳細消息,如果獲取不到消息類型,則創(chuàng)建聚類標 簽作為消息類型; 使用所述日志模板過濾所述新增日志; 將所述日志模板無法匹配的新增日志中的詳細消息進行分詞,得到關鍵詞; 根據所述關鍵詞的詞頻對所述關鍵詞重新排序,將詞頻高的關鍵詞排在前面; 根據所述重新排序的關鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的根節(jié)點,所述重新排 序的關鍵詞作為樹的節(jié)點,每個消息類型對應一個多叉樹; 深度優(yōu)先遍歷所述多叉樹,根據所述多叉樹中的路徑創(chuàng)建所述型號交換機的每個消息 類型所對應的新增日志模板。3. 根據權利要求1或2所述的創(chuàng)建交換機日志模板的方法,其特征在于,如果所述多叉 樹中一個節(jié)點的子節(jié)點超過節(jié)點閾值數目,則刪除所述節(jié)點的所有子節(jié)點,所述節(jié)點作為 最后一個子節(jié)點。4. 根據權利要求1或2所述的創(chuàng)建交換機日志模板的方法,其特征在于,所述創(chuàng)建聚類 標簽作為消息類型,包括: 將每一條消息類型未知的日志按照語義分成了五種類別并分別賦予權重值,所述五種 類別包括:只有數字或數字與符號,數字、字母和符號,符號和字母,只有字母,只有符號; 提取所述日志中五類語義的頻度,將所述日志轉化為一個固定五個長度的詞頻向量; 計算所述詞頻向量與已知的消息類型集合的相似度,得到一組相似度結果,如果最大 相似度大于等于預設的相似度閾值,則將所述日志歸到對應的消息類型;如果最大相似度 小于預設的相似度閾值,則將所述詞頻向量作為一個新的消息類型。5. 根據權利要求1或2所述的創(chuàng)建交換機日志模板的方法,其特征在于,當一個日志模 板是另外一個日志模板的子集時,通過對節(jié)點打標簽的形式來標識一個節(jié)點是否是一條路 徑的結束。6. 根據權利要求5所述的創(chuàng)建交換機日志模板的方法,其特征在于,將每個消息類型中 的日志模板按照樹的深度排序,當一個日志模板是另外一個日志模板的子集時,優(yōu)先采用 樹的深度較大的日志模板進行匹配。7. -種創(chuàng)建交換機日志模板的裝置,其特征在于,所述裝置包括: 獲取單元,配置用于獲取一個型號的交換機的原始日志; 解析單元,配置用于獲取所述原始日志中的消息類型和詳細消息,如果獲取不到消息 類型,則創(chuàng)建聚類標簽作為消息類型; 處理單元,配置用于對所述詳細消息進行分詞,得到關鍵詞;根據所述關鍵詞的詞頻對 所述關鍵詞重新排序,將詞頻高的關鍵詞排在前面; 創(chuàng)建單元,配置用于根據所述重新排序的關鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的 根節(jié)點,所述重新排序的關鍵詞作為樹的節(jié)點,每個消息類型對應一個多叉樹;深度優(yōu)先遍 歷所述多叉樹,根據所述多叉樹中的路徑創(chuàng)建所述型號交換機的每個消息類型所對應的日 志模板。8. 根據權利要求7所述的創(chuàng)建交換機日志模板的裝置,其特征在于,所述裝置還配置用 于: 獲取一個型號的交換機的新增日志; 獲取所述新增日志中的消息類型和詳細消息,如果獲取不到消息類型,則創(chuàng)建聚類標 簽作為消息類型; 使用所述日志模板過濾所述新增日志; 將所述日志模板無法匹配的新增日志中的詳細消息進行分詞,得到關鍵詞; 根據所述關鍵詞的詞頻對所述關鍵詞重新排序,將詞頻高的關鍵詞排在前面; 根據所述重新排序的關鍵詞創(chuàng)建多叉樹,每個消息類型作為樹的根節(jié)點,所述重新排 序的關鍵詞作為樹的節(jié)點,每個消息類型對應一個多叉樹; 深度優(yōu)先遍歷所述多叉樹,根據所述多叉樹中的路徑創(chuàng)建所述型號交換機的每個消息 類型所對應的新增日志模板。9. 根據權利要求7或8所述的創(chuàng)建交換機日志模板的裝置,其特征在于,所述創(chuàng)建單元 還配置用于: 如果所述多叉樹中一個節(jié)點的子節(jié)點超過節(jié)點閾值數目,則刪除所述節(jié)點的所有子節(jié) 點,所述節(jié)點作為最后一個子節(jié)點。10. 根據權利要求7或8所述的創(chuàng)建交換機日志模板的裝置,其特征在于,所述創(chuàng)建聚類 標簽作為消息類型,包括: 將每一條消息類型未知的日志按照語義分成了五種類別并分別賦予權重值,所述五種 類別包括:只有數字或數字與符號,數字、字母和符號,符號和字母,只有字母,只有符號; 提取所述日志中五類語義的頻度,將所述日志轉化為一個固定五個長度的詞頻向量; 計算所述詞頻向量與已知的消息類型集合的相似度,得到一組相似度結果,如果最大 相似度大于等于預設的相似度閾值,則將所述日志歸到對應的消息類型;如果最大相似度 小于預設的相似度閾值,則將所述詞頻向量作為一個新的消息類型。11. 根據權利要求7或8所述的創(chuàng)建交換機日志模板的裝置,其特征在于,所述創(chuàng)建單元 還配置用于: 當一個日志模板是另外一個日志模板的子集時,通過對節(jié)點打標簽的形式來標識一個 節(jié)點是否是一條路徑的結束。12. 根據權利要求11所述的創(chuàng)建交換機日志模板的裝置,其特征在于,所述創(chuàng)建單元還 配置用于: 將每個消息類型中的模板按照樹的深度排序,當一個日志模板是另外一個日志模板的 子集時,優(yōu)先采用樹的深度較大的模板進行匹配。
【文檔編號】G06F11/30GK106055452SQ201610355129
【公開日】2016年10月26日
【申請日】2016年5月25日
【發(fā)明人】董輝, 宋磊, 侯翔宇, 孟偉彬
【申請人】北京百度網訊科技有限公司