一種基于smart的預測硬盤亞健康指標的方法及裝置的制造方法
【專利摘要】本發(fā)明提供了一種基于SMART的預測硬盤亞健康指標的方法及裝置,其中方法包括:監(jiān)測硬盤的自我監(jiān)測分析與報告技術(shù)SMART參數(shù),所述SMART參數(shù)包括:重分配扇區(qū)參數(shù)、當前待映射扇區(qū)參數(shù)、錯誤無法恢復參數(shù)和指令超時參數(shù);根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤是否出現(xiàn)狀態(tài)異常;如果是,根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值調(diào)整所述硬盤的健康指標值;根據(jù)當前所述硬盤的健康指標值確定所述硬盤當前的健康狀態(tài)。能夠在硬盤狀態(tài)出現(xiàn)異常時對硬盤健康狀態(tài)的進行有效預估,給使用者提供準確的參考數(shù)據(jù)。
【專利說明】
一種基于SMART的預測硬盤亞健康指標的方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及硬盤監(jiān)測保護技術(shù)領(lǐng)域,具體而言,涉及一種基于SMART的預測硬盤亞 健康指標的方法及裝置。
【背景技術(shù)】
[0002] 硬盤在使用的過程中隨著時間的推移會逐步產(chǎn)生壞道,壞道足夠多時,將影響數(shù) 據(jù)存儲的安全,一般解決該問題的方式是對數(shù)據(jù)進行冗余備份,但即使采用了 RAID1,也無 法避免數(shù)據(jù)硬盤和備份硬盤同時出現(xiàn)故障的情況。
[0003] SMART(Self-Monitoring Analysis And Reporting Technology,自我監(jiān)測分析 與報告技術(shù))作為一種自動監(jiān)控硬盤驅(qū)動器完好狀況和報告潛在問題的技術(shù)標準,是硬盤 普遍采用的數(shù)據(jù)安全技術(shù),在硬盤工作的時候監(jiān)測系統(tǒng)中電極、電路、磁盤、磁頭等的狀態(tài); 現(xiàn)有技術(shù)中,硬盤廠商普遍采用闊值判定方法來預測硬盤故障,即利用硬盤SMART技術(shù),采 集硬盤運行時的各項監(jiān)測數(shù)據(jù)項的指標信息,并分別與預先設(shè)定的各項監(jiān)測數(shù)據(jù)項的指標 信息的硬盤故障預警闊值相比較,超過故障預警闊值時便觸發(fā)故障報警;但是在設(shè)定各項 監(jiān)測數(shù)據(jù)項的指標信息的故障預警闊值時往往選擇將誤報率降至最低,此種做法同時也犧 牲了預測的準確率,并且上述SMART各項監(jiān)測數(shù)據(jù)項的指標信息中大多數(shù)指標與硬盤故障 不存在關(guān)聯(lián),因此導致現(xiàn)有技術(shù)中在誤報率約為〇. 1 %時,其硬盤故障監(jiān)測準確率僅為3 % -10%〇
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明實施例的目的在于提供一種基于SMART的預測硬盤亞健康指標 的方法及裝置,以實現(xiàn)準確地監(jiān)測硬盤的健康狀態(tài)。
[0005] 有鑒于此,一方面本發(fā)明實施例提供了一種基于SMART的預測硬盤亞健康指標的 方法,包括:
[0006] 監(jiān)測硬盤的自我監(jiān)測分析與報告技術(shù)SMART參數(shù),所述SMART參數(shù)包括:重分配扇 區(qū)參數(shù)、當前待映射扇區(qū)參數(shù)、錯誤無法恢復參數(shù)和指令超時參數(shù);
[0007] 根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤是否出現(xiàn)狀態(tài)異常;
[0008] 如果是,根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值調(diào)整所述硬盤的健康指標值;
[0009] 根據(jù)當前所述硬盤的健康指標值確定所述硬盤當前的健康狀態(tài)。
[0010] 上一個實施例中,根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤是否出 現(xiàn)狀態(tài)異常包括:
[0011]當所述SMART參數(shù)的監(jiān)測值存在以下情況中的至少一項時,確定所述硬盤出現(xiàn)狀 態(tài)異常:
[0012] 所述重分配扇區(qū)計數(shù)參數(shù)的監(jiān)測值非0;
[0013] 所述當前待映射扇區(qū)計數(shù)參數(shù)的監(jiān)測值大于第一設(shè)定值;
[0014] 所述無法恢復的錯誤參數(shù)的監(jiān)測值非0;
[0015] 所述指令超時參數(shù)的監(jiān)測值大于第二設(shè)定值。
[0016] 上一個實施例中,所述SMART參數(shù)還包括:顆粒平均擦寫參數(shù);
[0017] 根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤是否出現(xiàn)狀態(tài)異常還包 括:當所述顆粒平均擦寫參數(shù)的監(jiān)測值小于第三設(shè)定值時,確定所述硬盤出現(xiàn)狀態(tài)異常。
[0018] 上一個實施例中,根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值調(diào)整所述硬盤的健康 指標值包括:根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值查找預先設(shè)定的健康指標值調(diào)整幅 度列表,所述健康指標值調(diào)整幅度列表包括所述SMART參數(shù)中各項參數(shù)的監(jiān)測值所處區(qū)間 對應(yīng)的健康指標調(diào)整幅度值;
[0019] 按照所述監(jiān)測值查找到的健康指標調(diào)整幅度值計算調(diào)整所述硬盤的健康指標值。
[0020] 上一個實施例中,根據(jù)當前所述硬盤的健康指標值確定所述硬盤當前的健康狀 態(tài),還包括:
[0021 ]根據(jù)所述健康指標值計算得到硬盤的健康百分比;
[0022]讀取所述硬盤的累計通電時間;
[0023] 基于所述健康百分比和所述硬盤的累計通電時間初步計算得到硬盤的剩余壽命;
[0024] 以及收集硬盤運維數(shù)據(jù),形成硬盤運維知識庫,在所述硬盤運維知識庫中獲取所 述累計通電時間和硬盤的亞健康指標數(shù)據(jù),構(gòu)建不同類型、品牌、型號硬盤的平衡預測系數(shù) 模型,根據(jù)所述平衡預測系數(shù)模型計算得到平衡預測系數(shù),并通過所述平衡預測系數(shù)對所 述硬盤的剩余壽命作進一步的精確計算。
[0025]另一方面,本發(fā)明實施例還提供了一種基于SMART的預測硬盤亞健康指標的裝置, 包括:
[0026]監(jiān)測模塊,用于監(jiān)測硬盤的自我監(jiān)測分析與報告技術(shù)SMART參數(shù),所述SMART參數(shù) 包括:重分配扇區(qū)參數(shù)、當前待映射扇區(qū)參數(shù)、錯誤無法恢復參數(shù)和指令超時參數(shù);
[0027]判斷模塊,用于根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤是否出現(xiàn) 狀態(tài)異常;
[0028] 健康指標值調(diào)整模塊,用于根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值調(diào)整所述硬 盤的健康指標值;
[0029] 健康狀態(tài)確定模塊,用于根據(jù)當前所述硬盤的健康指標值確定所述硬盤當前的健 康狀態(tài)。
[0030] 上一個實施例中,所述判斷模塊還用于當所述SMART參數(shù)的監(jiān)測值存在以下情況 中的至少一項時,確定所述硬盤出現(xiàn)狀態(tài)異常:
[0031] 所述重分配扇區(qū)計數(shù)參數(shù)的監(jiān)測值非0;
[0032] 所述當前待映射扇區(qū)計數(shù)參數(shù)的監(jiān)測值大于第一設(shè)定值;
[0033] 所述無法恢復的錯誤參數(shù)的監(jiān)測值非0;
[0034] 所述指令超時參數(shù)的監(jiān)測值大于第二設(shè)定值。
[0035] 上一個實施例中,所述判斷模塊還用于:當所述顆粒平均擦寫參數(shù)的監(jiān)測值小于 第三設(shè)定值時,確定所述硬盤出現(xiàn)狀態(tài)異常。
[0036] 上一個實施例中,所述健康指標值調(diào)整模塊,包括:
[0037]查找單元,用于根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值查找預先設(shè)定的健康指 標值調(diào)整幅度列表,所述健康指標值調(diào)整幅度列表包括所述SMART參數(shù)中各項參數(shù)的監(jiān)測 值所處區(qū)間對應(yīng)的健康指標調(diào)整幅度值;
[0038] 第一計算單元,用于按照所述監(jiān)測值查找到的健康指標調(diào)整幅度值計算調(diào)整所述 硬盤的健康指標值。
[0039] 上一個實施例中,所述健康狀態(tài)確定模塊,包括:
[0040] 讀取單元,用于讀取所述硬盤的累計通電時間;
[0041] 第二計算單元,用于根據(jù)所述健康指標值計算得到硬盤的健康百分比;還用于基 于所述健康百分比和所述硬盤的累計通電時間初步計算得到硬盤的剩余壽命;
[0042] 第三計算單元,用于收集硬盤運維數(shù)據(jù),形成硬盤運維知識庫,在所述硬盤運維知 識庫中獲取所述累計通電時間和硬盤的亞健康指標數(shù)據(jù),構(gòu)建不同類型、品牌、型號硬盤的 平衡預測系數(shù)模型,根據(jù)所述平衡預測系數(shù)模型計算得到平衡預測系數(shù),并通過所述平衡 預測系數(shù)對所述硬盤的剩余壽命作進一步的精確計算。
[0043]本申請實施例中提供的一種基于SMA R T的預測硬盤亞健康指標的方法,能夠在 SMART參數(shù)基礎(chǔ)上獲取與硬盤故障密切相關(guān)聯(lián)的有效參數(shù),根據(jù)該參數(shù)進行判斷硬盤是否 出現(xiàn)狀態(tài)異常,并在硬盤狀態(tài)出現(xiàn)異常時對硬盤健康狀態(tài)進行有效預估,給使用者提供準 確的參考數(shù)據(jù)。
[0044]為使本發(fā)明的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合 所附附圖,作詳細說明如下。
【附圖說明】
[0045]為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附 圖作簡單地介紹,應(yīng)當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應(yīng)被看作是對 范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這 些附圖獲得其他相關(guān)的附圖。
[0046]圖1示出了本發(fā)明一個實施例所提供的一種基于SMART的預測硬盤亞健康指標的 方法的流程示意圖;
[0047]圖2示出了本發(fā)明一個實施例所提供的預測平衡系數(shù)與累計通電時間關(guān)系示意 圖;
[0048]圖3示出了本發(fā)明一個實施例所提供的一種基于SMART的預測硬盤亞健康指標的 裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0049] 下面將結(jié)合本發(fā)明實施例中附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整 地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在 此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設(shè)計。因 此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的 范圍,而是僅僅表示本發(fā)明的選定實施例?;诒景l(fā)明的實施例,本領(lǐng)域技術(shù)人員在沒有做 出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0050] 硬盤在使用過程中,硬盤內(nèi)存儲的數(shù)據(jù)的寶貴性往往遠大于硬盤自身的價值,硬 盤通常是通過SMART技術(shù)進行硬盤故障監(jiān)測,并且SMART監(jiān)測信息存儲在硬盤的固件區(qū)內(nèi)。
[0051 ]如圖1所示的實施例,本實施例中給出了一種基于SMART的預測硬盤亞健康指標的 方法,該方法包括以下步驟:
[0052] SI 10、監(jiān)測硬盤的SMART參數(shù),該SMART參數(shù)包括:重分配扇區(qū)參數(shù)、當前待映射扇 區(qū)參數(shù)、錯誤無法恢復參數(shù)和指令超時參數(shù);
[0053] S120、根據(jù)上述的SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤是否出現(xiàn)狀態(tài)異 常;
[0054]本實施例中,當所述的SMART參數(shù)的監(jiān)測值存在以下情況中的至少一項時,確定所 述硬盤出現(xiàn)狀態(tài)異常:
[0055] 所述重分配扇區(qū)計數(shù)參數(shù)的監(jiān)測值非0;
[0056] 所述當前待映射扇區(qū)計數(shù)參數(shù)的監(jiān)測值大于第一設(shè)定值;
[0057]所述無法恢復的錯誤參數(shù)的監(jiān)測值非0;
[0058]所述指令超時參數(shù)的監(jiān)測值大于第二設(shè)定值。
[0059] S130、如果是,則根據(jù)上述的SMART參數(shù)中各項參數(shù)的監(jiān)測值調(diào)整所述硬盤的健康 指標值;
[0060] 上述根據(jù)SMART參數(shù)中各項參數(shù)的監(jiān)測值調(diào)整硬盤的健康指標值,按照如下方式 實現(xiàn):根據(jù)SMART參數(shù)中各項參數(shù)的監(jiān)測值查找預先設(shè)定的健康指標值調(diào)整幅度列表,該健 康指標值調(diào)整幅度列表包括SMART參數(shù)中各項參數(shù)的監(jiān)測值所處區(qū)間對應(yīng)的健康指標調(diào)整 幅度值;查找到對應(yīng)的健康指標值幅度值以后,按照該健康指標調(diào)整幅度值計算調(diào)整硬盤 的健康指標值,直至得到最終的健康指標值,并根據(jù)該健康指標值進行確定硬盤當前的健 康狀態(tài)。
[0061] 此處的健康指標值調(diào)整幅度列表包括上述的SMART各項參數(shù)的監(jiān)測值在硬盤出現(xiàn) 異常時所處的區(qū)間以及該區(qū)間對應(yīng)的健康指標調(diào)整幅度值,當查找到某一參數(shù)的監(jiān)測值位 于某一區(qū)間時,根據(jù)該參數(shù)的監(jiān)測值所處的區(qū)間對應(yīng)的健康指標調(diào)整幅度值進行對硬盤健 康指標值的調(diào)整,最終得到硬盤的健康指標值,此種方式與現(xiàn)有技術(shù)中設(shè)置單一的硬盤故 障預警闊值的方式相比較能夠更準確給出硬盤的健康指標值,能夠為使用者提供更可靠的 參考數(shù)據(jù),為客戶的硬盤使用過程中提供更高的數(shù)據(jù)存儲安全性。
[0062 ] S140、根據(jù)當前所述硬盤的健康指標值確定該硬盤當前的健康狀態(tài)。
[0063] 上述根據(jù)當前所述硬盤的健康指標值確定該硬盤當前的健康狀態(tài)的過程,通過以 下方式實現(xiàn):
[0064] 根據(jù)上述最終得到的健康指標值計算得到硬盤的健康百分比;并讀取所述硬盤的 累計通電時間,該硬盤的累計通電時間也可以由監(jiān)測SMART參數(shù)獲得,獲取上述的硬盤健康 百分比和硬盤的累計通電時間以后,基于該健康百分比和該硬盤的累計通電時間初步計算 得到硬盤的剩余壽命,進一步的,在對硬盤的運維過程中,收集硬盤運維數(shù)據(jù)(此處的硬盤 運維數(shù)據(jù)也包括人工輸入的硬盤數(shù)據(jù)),形成硬盤運維知識庫,該硬盤運維知識庫中的數(shù)據(jù) 包括但不限于:硬盤生產(chǎn)時間、累計運行時間、SMART參數(shù)(含:重分配扇區(qū)參數(shù)、當前待映射 扇區(qū)參數(shù)、錯誤無法恢復參數(shù)和指令超時參數(shù))改變的時間點和當前SMART參數(shù)值以及硬盤 的亞健康指標數(shù)據(jù)。在硬盤運維知識庫中獲取所述累計通電時間以及對硬盤的亞健康指標 數(shù)據(jù)并進行分析,構(gòu)建不同類型、品牌、型號硬盤的平衡預測系數(shù)模型,根據(jù)所述平衡預測 系數(shù)模型計算得到平衡預測系數(shù),并通過所述平衡預測系數(shù)對所述硬盤的剩余壽命作進一 步的精確計算;并且隨著收集到的同類型、同品牌、同型號硬盤數(shù)據(jù)的積累,該平衡預測系 數(shù)模型會越來越精確,最終計算得出硬盤的剩余壽命也更加符合硬盤的真實剩余壽命。
[0065] 本發(fā)明法能夠十分準確的預測硬盤的剩余壽命,為硬盤使用者提供準確的硬盤剩 余壽命信息,一方面提醒使用者在硬盤剩余使用壽命被耗盡前,及時進行對硬盤內(nèi)的數(shù)據(jù) 進行備份或轉(zhuǎn)存,防止硬盤壽命到盡頭時會導致數(shù)據(jù)丟失而給使用者帶來巨大損失的情況 發(fā)生;另一方面能夠滿足使用者對硬盤壽命進行充分的利用,避免使用者在硬盤還具有相 當多的使用壽命時將硬盤丟棄,因此而造成資源的浪費。
[0066] 在某一實施例中,根據(jù)參數(shù)的監(jiān)測值所處的區(qū)間所對應(yīng)的健康指標調(diào)整幅度值進 行對硬盤健康指標值的調(diào)整,可以是通過以下方式實現(xiàn):最初先給出某一基數(shù),該基數(shù)作為 最初的健康指標值,當根據(jù)SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤出現(xiàn)狀態(tài)異常時, 根據(jù)該參數(shù)的監(jiān)測值所處的區(qū)間對應(yīng)的調(diào)整幅度值來調(diào)整健康指標值,如果該基數(shù)為健康 狀態(tài)下的最高健康指標值時,在此基數(shù)基礎(chǔ)上,減去上述調(diào)整幅度值,最終得到當前硬盤的 健康指標值。
[0067] 上述的根據(jù)當前硬盤的健康指標值確定該硬盤當前的健康狀態(tài),該處的健康狀態(tài) 可以包括:健康、亞健康和危險三種狀態(tài);并分別劃分出滿足上述三種狀態(tài)時的健康指標值 所處的三個數(shù)值區(qū)間,例如三個健康狀態(tài)的健康指標值分別對應(yīng)的三個數(shù)值區(qū)間為:(a, b]、(b,c]以及(c,d],其中如果最終所得到的健康指標值落入到"健康"的健康指標值區(qū)間 范圍內(nèi)時,即落到(a,b]區(qū)間內(nèi)時,則確定硬盤當前的健康狀態(tài)為"健康";進一步的,如果最 終所得的健康指標值落入到"危險"的健康指標值區(qū)間范圍內(nèi)時,即位于(b,c]區(qū)間內(nèi)時,則 確定硬盤當前的健康狀態(tài)為"危險";上述"亞健康"的狀態(tài)以此類推,用此種方式進行判斷; 需要說明的是此處的三個區(qū)間為半開半閉區(qū)間,實際操作時也可以根據(jù)實際需要設(shè)置成為 全部開區(qū)間、全部閉區(qū)間等多種劃分方式;在該實施例中,(b,c]區(qū)間的右端點值c為"亞健 康"區(qū)間與"危險"區(qū)間的界限值,硬盤的健康百分比可以是用最終得到的健康指標值減去 該界限值c后得到的差值占整個健康滿分值a(最初的最高健康指標值)的比例計算得到。
[0068] 需要說明的是,健康指標值和健康百分比的計算方法并不局限于此,健康指標值 的計算也可以采用依次累加(減法的逆向運算)的方式,只是最終得到的結(jié)論會與上述算法 中相反而已;在此不加以敘述。
[0069] 此實施例中的健康狀態(tài)預估方法,克服了現(xiàn)有技術(shù)中僅通過人為查看SMART的各 項參數(shù)給出的告警信息來判斷硬盤狀態(tài)所存在的過程麻煩、預估準確度低的缺陷。
[0070] 需要說明的是,SMART的常用的、關(guān)鍵的監(jiān)測項主要有:Raw Read Error Rate原始 讀取錯誤率、Wear Leveling Count顆粒平均擦寫次數(shù)、Runtime Bad Block運行時環(huán)塊計 數(shù)、End To End Error端到端校驗錯誤、Reported Uncorrect無法恢復的錯誤、Command Timeout指令超時、Seek Error Rate尋道錯誤率、Reallocated Sector Ct重分配扇區(qū)計 數(shù)、Unexpect Power Loss Ct/Power-〇ff Retract Count/Emergency Retract Cycle Count異常斷電計數(shù)、High Fly Writes磁頭在異常高度工作、G-sense Error Rate加速度 傳感器告警、Current Pending Sector當前待映射扇區(qū)計數(shù)等等,經(jīng)過反復的測試和統(tǒng)計, 分析得出與磁盤故障存在較強關(guān)聯(lián)性的SMART參數(shù)為:重分配扇區(qū)參數(shù)、當前待映射扇區(qū)參 數(shù)、錯誤無法恢復參數(shù)和指令超時參數(shù);因此,本實施例中正是應(yīng)用上述與磁盤故障具有較 強關(guān)聯(lián)性的參數(shù)作為依據(jù)進行磁盤健康狀態(tài)的監(jiān)測,以實現(xiàn)準確的預估硬盤的健康狀態(tài)。
[0071 ]在某一具體實施例中,上述的SMART參數(shù)還包括:顆粒平均擦寫參數(shù);當所述顆粒 平均擦寫參數(shù)的監(jiān)測值小于第三設(shè)定值時,確定所述硬盤出現(xiàn)狀態(tài)異常。
[0072]進一步的,當出現(xiàn)上述的如:所述重分配扇區(qū)計數(shù)參數(shù)的監(jiān)測值非0、所述當前待 映射扇區(qū)計數(shù)參數(shù)的監(jiān)測值大于第一設(shè)定值、所述無法恢復的錯誤參數(shù)的監(jiān)測值非〇、所述 指令超時參數(shù)的監(jiān)測值大于第二設(shè)定值中的情況時,則判斷硬盤出現(xiàn)了狀態(tài)異常,但上述 參數(shù)的監(jiān)測值可以進一步進行劃分成不同的區(qū)間段,不同區(qū)間段對應(yīng)不同的硬盤故障程 度,進而予以分配不同的健康指標調(diào)整幅度值,以此進一步提高對硬盤健康狀態(tài)監(jiān)測的準 確性,劃分方式包含如下內(nèi)容:
[0073]①第一種情形:
[0074] 重分配扇區(qū)計數(shù)參數(shù)的監(jiān)測值非0且增長加速度值為0;
[0075] 當前待映射扇區(qū)計數(shù)參數(shù)的監(jiān)測值大于3且小于等于10;
[0076] 顆粒平均擦寫次數(shù)參數(shù)的監(jiān)測值大于1且小于15;
[0077]②第二種情形:
[0078] 重分配扇區(qū)計數(shù)參數(shù)的監(jiān)測值非0且增長加速度值非0;
[0079] 當前待映射扇區(qū)計數(shù)參數(shù)的監(jiān)測值值大于10;
[0080] 指令超時參數(shù)的監(jiān)測值大于10;
[0081 ]無法恢復的錯誤參數(shù)的監(jiān)測值非0;
[0082]顆粒平均擦寫次數(shù)參數(shù)的監(jiān)測值小于等于1;
[0083]上述第一種情形下的各種情況對應(yīng)第一種健康指標調(diào)整幅度值,上述第二種情形 下的各種情況對應(yīng)第二種健康指標調(diào)整幅度值,需要說明的是第二種情形下的各種情況出 現(xiàn)時代表硬盤的故障程度較第一種情形下的各種情況嚴重,因此第二種健康指標調(diào)整幅度 值較大。
[0084]下面通過舉例進行說明:
[0085] 在進行一次健康指標值計算過程中,初始時,將硬盤的初始健康值設(shè)為10分;
[0086] 當判斷硬盤出現(xiàn)狀態(tài)異常時,根據(jù)SMART各項參數(shù)的的監(jiān)測值查找健康指標值調(diào) 整幅度列表,該健康指標值調(diào)整幅度列表包含以下內(nèi)容:
[0087]當監(jiān)測到SMART參數(shù)的監(jiān)測值出現(xiàn)以下表1中的某一種情況時,在初始健康值基礎(chǔ) 上或者在已進行減分操作以后得到的中間值基礎(chǔ)上減1分:
[0090]當監(jiān)測到SMART參數(shù)的監(jiān)測值出現(xiàn)以下表2中的某一種情況時,在初始健康值基礎(chǔ) 上或者在已進行減分操作以后得到的中間值基礎(chǔ)上減5分;
[0092] 表 2
[0093] 最后,在初始健康指標值基礎(chǔ)上得到的最終剩余得分即為最終的健康指標值,進 一步的,根據(jù)該健康指標值確定硬盤的當前健康狀態(tài)按照如下方式進行:
[0094] 判斷該健康指標值所處的代表不同健康狀態(tài)的區(qū)間范圍,由于此例中數(shù)值均設(shè)置 的為整數(shù)值,所以區(qū)間范圍劃分狀態(tài)如下表3所示:
[0097] 當最終得到的健康指標值為8~10分之間(包括8分和10分),則確定硬盤處于健康 狀態(tài),依次類推。
[0098] 進一步的,在得到最終健康指標值和硬盤健康狀態(tài)結(jié)果以后,將該健康指標值和 健康狀態(tài)結(jié)果進行顯示,當處于亞健康或者危險狀態(tài)時進行告警。
[0099] 通過健康指標值和硬盤累計通電時間T按照以下方式初步計算出硬盤的剩余壽 命:
[0102] 然后,基于上述的累計通電時間和得到的硬盤的亞健康指標數(shù)據(jù)構(gòu)建不同類型、 品牌、型號硬盤的平衡預測系數(shù)模型,該亞健康指標數(shù)據(jù)包括硬盤的故障率、期望值等,根 據(jù)該平衡預測系數(shù)模型計算得到平衡預測系數(shù),并通過所述的平衡預測系數(shù)對上述硬盤的 剩余壽命作進一步的精確計算以得到硬盤精準剩余壽命,并且隨著收集到的同類型、同品 牌、同型號硬盤數(shù)據(jù)的積累,該平衡預測系數(shù)模型會越來越精確,最終得出的硬盤精準剩余 壽命會更加符合硬盤的真實剩余壽命;
[0103] 其中,硬盤精準剩余壽命=硬盤的剩余壽命XE,式中E為平衡預測系數(shù)。
[0104] 進一步的,上述的平衡預測系數(shù)模型是硬盤累計通電時間與平衡預測系數(shù)的關(guān)系 模型,可以通過對不同的類型或者品牌型號的硬盤的出現(xiàn)故障的時間點分類統(tǒng)計進行分別 構(gòu)建,出現(xiàn)故障頻率高的時間點,平衡預測系數(shù)相對較低;出現(xiàn)故障頻率低的時間點,平衡 預測系相對較高;應(yīng)用該平衡預測系數(shù)可以對初步計算得到的硬盤的剩余壽命進一步精確 化。
[0105] 下面通過舉例進行介紹:
[0106] 對同類型某品牌的硬盤累計通電時間和故障硬盤數(shù)進行數(shù)據(jù)統(tǒng)計,會得到如下表 4中的結(jié)果:
[0108] 表4
[0109] 100塊硬盤中,累計通電時間一年內(nèi)出現(xiàn)故障的硬盤有10塊,兩年內(nèi)出現(xiàn)故障的硬 盤有29塊,三年內(nèi)出現(xiàn)故障的硬盤有56塊,四年內(nèi)出現(xiàn)故障的硬盤有75塊,五年內(nèi)出現(xiàn)故障 的硬盤有87塊,六年內(nèi)出現(xiàn)故障的硬盤98塊、7年內(nèi)出現(xiàn)問題硬盤數(shù)100;則可以得出每年的 當年內(nèi)出現(xiàn)故障的硬盤數(shù)目,進而計算得到當年的故障率。
[0110] 進一步得出累計通電時間與當年的故障率的關(guān)系表如下表5所示,
[0113]由表5根據(jù)概率論和統(tǒng)計學計算得出硬盤壽命期望值=3.45年,然后構(gòu)建平衡預 測系數(shù)模型為:
[0115]通過上述平衡預測系數(shù)模型計算得到如下關(guān)系表6:
[0117] 表6
[0118] 并進一步繪制得出如圖2所示的預測平衡系數(shù)與累計通電時間關(guān)系圖,得到上述 平衡預測系數(shù)以后,可以對硬盤的剩余壽命進行進一步的精確化;
[0119] 例如:有一塊硬盤在使用一年時監(jiān)測到的硬盤健康指標值為8,那么通過計算可以
得出: 再通過上述平衡預測系數(shù)E計算出硬 盤精準剩余壽命=1*1.34 = 1.34年。
[0120] 需要說明的是上述的平衡預測系數(shù)E對于不同型號、品牌的硬盤可能是不同的,在 得到硬盤精準剩余壽命以后,設(shè)置使硬盤本身或者硬盤檢測裝置進行顯示和提醒,提醒硬 盤使用者在剩余壽命被耗盡之前進行數(shù)據(jù)轉(zhuǎn)存或備份,此處需要說明的是應(yīng)當在硬盤處于 亞健康或者健康狀態(tài)時進行硬盤剩余壽命的計算,在硬盤處于危險狀態(tài)時,其剩余壽命可 以被判斷是〇。
[0121] 進一步需要說明的是,此處僅是通過舉例進行對本發(fā)明的設(shè)計思路的說明,具體 實現(xiàn)時并不局限于上述舉例中的一種實現(xiàn)方式。
[0122] 如圖3所示的實施例,本實施例中提供了一種基于SMART的預測硬盤亞健康指標的 裝置,包括:
[0123] 監(jiān)測模塊210,用于監(jiān)測硬盤的自我監(jiān)測分析與報告技術(shù)SMART參數(shù),所述SMART參 數(shù)包括:重分配扇區(qū)參數(shù)、當前待映射扇區(qū)參數(shù)、錯誤無法恢復參數(shù)和指令超時參數(shù);
[0124] 判斷模塊220,用于根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤是否出 現(xiàn)狀態(tài)異常;
[0125] 健康指標值調(diào)整模塊230,用于根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值調(diào)整所述 硬盤的健康指標值;
[0126] 健康狀態(tài)確定模塊240,用于根據(jù)當前所述硬盤的健康指標值確定所述硬盤當前 的健康狀態(tài)。
[0127] 上述的判斷模塊220還用于當所述SMART參數(shù)的監(jiān)測值存在以下情況中的至少一 項時,確定所述硬盤出現(xiàn)狀態(tài)異常:
[0128] 所述重分配扇區(qū)計數(shù)參數(shù)的監(jiān)測值非0;
[0129] 所述當前待映射扇區(qū)計數(shù)參數(shù)的監(jiān)測值大于第一設(shè)定值;
[0130] 所述無法恢復的錯誤參數(shù)的監(jiān)測值非0;
[0131]所述指令超時參數(shù)的監(jiān)測值大于第二設(shè)定值。
[0132] 上述判斷模塊220還用于:當所述顆粒平均擦寫參數(shù)的監(jiān)測值小于第三設(shè)定值時, 確定所述硬盤出現(xiàn)狀態(tài)異常。
[0133] 健康指標值調(diào)整模塊230,包括:
[0134] 查找單元,用于根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值查找預先設(shè)定的健康指 標值調(diào)整幅度列表,所述健康指標值調(diào)整幅度列表包括所述SMART參數(shù)中各項參數(shù)的監(jiān)測 值所處區(qū)間對應(yīng)的健康指標調(diào)整幅度值;
[0135] 第一計算單元,用于按照所述監(jiān)測值查找到的健康指標調(diào)整幅度值計算調(diào)整所述 硬盤的健康指標值。
[0136] 健康狀態(tài)確定模塊240,包括:
[0137] 讀取單元,用于讀取所述硬盤的累計通電時間;
[0138] 第二計算單元,用于根據(jù)所述健康指標值計算得到硬盤的健康百分比;還用于基 于所述健康百分比和所述硬盤的累計通電時間初步計算得到硬盤的剩余壽命;
[0139] 第三計算單元,用于收集硬盤運維數(shù)據(jù),形成硬盤運維知識庫,在所述硬盤運維知 識庫中獲取所述累計通電時間和硬盤的亞健康指標數(shù)據(jù),構(gòu)建不同類型、品牌、型號硬盤的 平衡預測系數(shù)模型,根據(jù)所述平衡預測系數(shù)模型計算得到平衡預測系數(shù),并通過所述平衡 預測系數(shù)對所述硬盤的剩余壽命作進一步的精確計算。
[0140] 所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述裝置的 具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
[0141] 所述方法如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以 存儲在一個計算機可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說 對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計 算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個 人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。 而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(R0M,Read-0nly Memory)、隨機存取存 儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0142] 最后應(yīng)說明的是:以上所述實施例,僅為本發(fā)明的【具體實施方式】,用以說明本發(fā)明 的技術(shù)方案,而非對其限制,本發(fā)明的保護范圍并不局限于此,盡管參照前述實施例對本發(fā) 明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解:任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員 在本發(fā)明揭露的技術(shù)范圍內(nèi),其依然可以對前述實施例所記載的技術(shù)方案進行修改或可輕 易想到變化,或者對其中部分技術(shù)特征進行等同替換;而這些修改、變化或者替換,并不使 相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明實施例技術(shù)方案的精神和范圍。都應(yīng)涵蓋在本發(fā)明的保護 范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)所述以權(quán)利要求的保護范圍為準。
【主權(quán)項】
1. 一種基于SMART的預測硬盤亞健康指標的方法,其特征在于,包括: 監(jiān)測硬盤的自我監(jiān)測分析與報告技術(shù)SMART參數(shù),所述SMART參數(shù)包括:重分配扇區(qū)參 數(shù)、當前待映射扇區(qū)參數(shù)、錯誤無法恢復參數(shù)和指令超時參數(shù); 根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤是否出現(xiàn)狀態(tài)異常; 如果是,根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值調(diào)整所述硬盤的健康指標值; 根據(jù)當前所述硬盤的健康指標值確定所述硬盤當前的健康狀態(tài)。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值 判斷所述硬盤是否出現(xiàn)狀態(tài)異常包括: 當所述SMART參數(shù)的監(jiān)測值存在以下情況中的至少一項時,確定所述硬盤出現(xiàn)狀態(tài)異 常: 所述重分配扇區(qū)計數(shù)參數(shù)的監(jiān)測值非O; 所述當前待映射扇區(qū)計數(shù)參數(shù)的監(jiān)測值大于第一設(shè)定值; 所述無法恢復的錯誤參數(shù)的監(jiān)測值非O; 所述指令超時參數(shù)的監(jiān)測值大于第二設(shè)定值。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述SMART參數(shù)還包括:顆粒平均擦寫參 數(shù); 根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤是否出現(xiàn)狀態(tài)異常還包括:當 所述顆粒平均擦寫參數(shù)的監(jiān)測值小于第三設(shè)定值時,確定所述硬盤出現(xiàn)狀態(tài)異常。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值 調(diào)整所述硬盤的健康指標值包括:根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值查找預先設(shè)定 的健康指標值調(diào)整幅度列表,所述健康指標值調(diào)整幅度列表包括所述SMART參數(shù)中各項參 數(shù)的監(jiān)測值所處區(qū)間對應(yīng)的健康指標調(diào)整幅度值; 按照所述監(jiān)測值查找到的健康指標調(diào)整幅度值計算調(diào)整所述硬盤的健康指標值。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)當前所述硬盤的健康指標值確定所述 硬盤當前的健康狀態(tài),還包括: 根據(jù)所述健康指標值計算得到硬盤的健康百分比; 讀取所述硬盤的累計通電時間; 基于所述健康百分比和所述硬盤的累計通電時間初步計算得到硬盤的剩余壽命; 以及收集硬盤運維數(shù)據(jù),形成硬盤運維知識庫,在所述硬盤運維知識庫中獲取所述累 計通電時間和硬盤的亞健康指標數(shù)據(jù),構(gòu)建不同類型、品牌、型號硬盤的平衡預測系數(shù)模 型,根據(jù)所述平衡預測系數(shù)模型計算得到平衡預測系數(shù),并通過所述平衡預測系數(shù)對所述 硬盤的剩余壽命作進一步的精確計算。6. -種基于SMART的預測硬盤亞健康指標的裝置,其特征在于,包括: 監(jiān)測模塊,用于監(jiān)測硬盤的自我監(jiān)測分析與報告技術(shù)SMART參數(shù),所述SMART參數(shù)包括: 重分配扇區(qū)參數(shù)、當前待映射扇區(qū)參數(shù)、錯誤無法恢復參數(shù)和指令超時參數(shù); 判斷模塊,用于根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值判斷所述硬盤是否出現(xiàn)狀態(tài) 異常; 健康指標值調(diào)整模塊,用于根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值調(diào)整所述硬盤的 健康指標值; 健康狀態(tài)確定模塊,用于根據(jù)當前所述硬盤的健康指標值確定所述硬盤當前的健康狀 ??τ O7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述判斷模塊還用于當所述SMART參數(shù)的 監(jiān)測值存在以下情況中的至少一項時,確定所述硬盤出現(xiàn)狀態(tài)異常: 所述重分配扇區(qū)計數(shù)參數(shù)的監(jiān)測值非O; 所述當前待映射扇區(qū)計數(shù)參數(shù)的監(jiān)測值大于第一設(shè)定值; 所述無法恢復的錯誤參數(shù)的監(jiān)測值非O; 所述指令超時參數(shù)的監(jiān)測值大于第二設(shè)定值。8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述判斷模塊還用于:當所述顆粒平均擦 寫參數(shù)的監(jiān)測值小于第三設(shè)定值時,確定所述硬盤出現(xiàn)狀態(tài)異常。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述健康指標值調(diào)整模塊,包括: 查找單元,用于根據(jù)所述SMART參數(shù)中各項參數(shù)的監(jiān)測值查找預先設(shè)定的健康指標值 調(diào)整幅度列表,所述健康指標值調(diào)整幅度列表包括所述SMART參數(shù)中各項參數(shù)的監(jiān)測值所 處區(qū)間對應(yīng)的健康指標調(diào)整幅度值; 第一計算單元,用于按照所述監(jiān)測值查找到的健康指標調(diào)整幅度值計算調(diào)整所述硬盤 的健康指標值。10. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述健康狀態(tài)確定模塊,包括: 讀取單元,用于讀取所述硬盤的累計通電時間; 第二計算單元,用于根據(jù)所述健康指標值計算得到硬盤的健康百分比;還用于基于所 述健康百分比和所述硬盤的累計通電時間初步計算得到硬盤的剩余壽命; 第三計算單元,用于收集硬盤運維數(shù)據(jù),形成硬盤運維知識庫,在所述硬盤運維知識庫 中獲取所述累計通電時間和硬盤的亞健康指標數(shù)據(jù),構(gòu)建不同類型、品牌、型號硬盤的平衡 預測系數(shù)模型,根據(jù)所述平衡預測系數(shù)模型計算得到平衡預測系數(shù),并通過所述平衡預測 系數(shù)對所述硬盤的剩余壽命作進一步的精確計算。
【文檔編號】G06F11/34GK105893231SQ201610298338
【公開日】2016年8月24日
【申請日】2016年5月6日
【發(fā)明人】范光彬, 劉皙
【申請人】思創(chuàng)數(shù)碼科技股份有限公司