平衡數(shù)據(jù)建模中的起源和準(zhǔn)確性權(quán)衡的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本公開一般地涉及計(jì)算機(jī)化建模,更具體地說,涉及大型分析模型。
【背景技術(shù)】
[0002] 計(jì)算機(jī)化數(shù)據(jù)建??梢杂糜诖龠M(jìn)更好地理解大型數(shù)據(jù)集。數(shù)據(jù)建模技術(shù)的應(yīng)用很 廣泛,并且可以包括金融、保險(xiǎn)、醫(yī)療保健、教育等領(lǐng)域。盡管在創(chuàng)建分析模型中收集信息是 一項(xiàng)挑戰(zhàn),但同樣重要的挑戰(zhàn)是呈現(xiàn)信息以使其有用的方式。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的各實(shí)施例提供一種用于生成計(jì)算機(jī)化分析模型的方法、系統(tǒng)和計(jì)算機(jī)程 序產(chǎn)品,所述計(jì)算機(jī)化分析模型接收具有定義的第一特性集的原始數(shù)據(jù)集?;趯㈩I(lǐng)域知 識集應(yīng)用于所述第一特性集,定義第二特性集,以及基于所述第一和第二特性集的特性之 間的關(guān)系,生成特性層次結(jié)構(gòu)。從所述特性層次結(jié)構(gòu)中選擇特性集,其中將所述第二特性集 的盡可能多的特性結(jié)合到所述分析模型中,同時(shí)維持定義的準(zhǔn)確性值?;谒x擇的特性 集,生成計(jì)算機(jī)化分析模型。
【附圖說明】
[0004] 圖IA是根據(jù)本公開的一個(gè)實(shí)施例的數(shù)據(jù)建模環(huán)境的組件的示意框圖;
[0005] 圖IB是示出根據(jù)本公開的一個(gè)實(shí)施例的圖IA的數(shù)據(jù)建模環(huán)境的選擇組件的示意 框圖;
[0006] 圖2示出根據(jù)本公開的一個(gè)實(shí)施例的示例性特性層次結(jié)構(gòu);
[0007] 圖3A是根據(jù)本公開的一個(gè)實(shí)施例的特性層次結(jié)構(gòu)的示意框圖;
[0008] 圖3B是根據(jù)本公開的一個(gè)實(shí)施例的決策樹模型的示意框圖;
[0009] 圖4A是示出根據(jù)本公開的一個(gè)實(shí)施例的用于生成分析模型的方法的步驟的流程 圖;
[0010] 圖4B是示出根據(jù)本公開的一個(gè)實(shí)施例的圖4A的方法的其它步驟的流程圖;
[0011] 圖5是根據(jù)本公開的一個(gè)實(shí)施例的計(jì)算機(jī)系統(tǒng)的示意框圖;
[0012] 圖6是根據(jù)本公開的一個(gè)實(shí)施例的示例性云計(jì)算環(huán)境的框圖;以及
[0013] 圖7是根據(jù)本公開的一個(gè)實(shí)施例的圖6的示例性云計(jì)算環(huán)境的功能層的框圖。
【具體實(shí)施方式】
[0014] 本公開的各個(gè)方面提供解決方案以便生成分析模型和數(shù)據(jù)分類,它們比現(xiàn)有數(shù)據(jù) 建模技術(shù)提供的解決方案更全面。當(dāng)前建模技術(shù)不提供有關(guān)使用什么特性形成模型以及由 于什么原因的清晰視圖。當(dāng)?shù)讓訑?shù)據(jù)的大小和結(jié)果數(shù)據(jù)模型的復(fù)雜性增加時(shí),該問題加重。 給定底層特性的復(fù)雜性,最終用戶例如可能不注意或者甚至可能拒絕有價(jià)值的洞察。一個(gè) 實(shí)例是醫(yī)療保健領(lǐng)域,其中數(shù)據(jù)起源(provenance)尤其重要,因?yàn)樵诨颊咝畔⒌臄?shù)據(jù)挖掘 中使用的抽象并且原始的特性集不易于理解,或者甚至不易于呈現(xiàn)給領(lǐng)域中的專家。如果 分析模型和它所基于的特性未得到很好的解釋,則醫(yī)療保健領(lǐng)域中的決策者可能不愿意接 受分析模型進(jìn)行的建議。
[0015] 例如,第一模型可以基于收集的對應(yīng)于不同年齡的患者的原始數(shù)據(jù),以很高的準(zhǔn) 確性預(yù)測在患者生命的隨后每一年內(nèi),70歲以上的患者有95%的可能性需要高成本保健。 高成本保健例如可以定義為對應(yīng)于為患者提供的醫(yī)療服務(wù)的成本的貨幣價(jià)值。盡管該實(shí) 例中的模型高度準(zhǔn)確,但為什么70歲在預(yù)測醫(yī)療保健成本中發(fā)揮作用可能并不顯而易見, 艮P,模型可能具有相對低的起源。使用該實(shí)例中的模型的醫(yī)療保健專業(yè)人員可能無法確定 最佳實(shí)踐,以便幫助患者變得更健康并且產(chǎn)生較低的醫(yī)療保健成本,因?yàn)獒t(yī)療保健專業(yè)人 員和患者可能對患者年齡具有有限的控制。
[0016] 另一方面,使用本公開的各實(shí)施例生成的模型可以包括基于收集的數(shù)據(jù)和信息的 更有意義的特性,它們可以使醫(yī)療保健專業(yè)人員和患者能夠采取糾正或預(yù)防措施,以便降 低提供給患者的醫(yī)療保健的成本。例如,起源級別相對高于上面實(shí)例中的第一模型的第二 模型可以使用第一模型的相同底層數(shù)據(jù),以70%的準(zhǔn)確性預(yù)測血糖水平高于特定值的患者 可能產(chǎn)生高醫(yī)療保健成本。盡管此第二模型可能在預(yù)測患者是否產(chǎn)生高醫(yī)療保健成本方面 不如第一模型準(zhǔn)確,但第二模型允許醫(yī)療保健專業(yè)人員確定影響高醫(yī)療保健成本的因素, 醫(yī)療保健專業(yè)人員可以解決該因素。在該實(shí)例中,使用第二模型的醫(yī)療保健專業(yè)人員可以 建議患者接受治療以便降低患者的血糖水平。這是第一模型不支持的建議,盡管第一模型 遠(yuǎn)比第二模型準(zhǔn)確。
[0017] 以分類模型為例,大多數(shù)現(xiàn)有方法集中于構(gòu)建可以在分類準(zhǔn)確性方面提供高質(zhì)量 性能的分類模型。因此,通常同等對待模型中的所有特性,并且基于特性對分類準(zhǔn)確性的影 響選擇這些特性。但是,可用于生成分析模型的不同特性可以包含不同級別的語義。通常, 用于在分析模型中進(jìn)行分析的原始數(shù)據(jù)集包含基本特性。本公開有助于在這些基本特性之 上進(jìn)行構(gòu)建,以便可以通過應(yīng)用領(lǐng)域知識(例如,醫(yī)療保健領(lǐng)域知識),開發(fā)新的有意義特 性。例如,這可以尤其適用于以下情況:給定可接受級別的分類準(zhǔn)確性,期望較高的起源級 別。
[0018] 針對基于特性層次結(jié)構(gòu)構(gòu)建分類模型的問題,現(xiàn)有解決方案集中于如何通過在適 當(dāng)層次結(jié)構(gòu)級別選擇特性而最大化分析模型性能。為了使模型可理解,它們嘗試通過控制 層次結(jié)構(gòu)的深度來簡化決策樹模型。一種更好的方法可以是通過選擇對期望的分析(例 如,用戶期望的)更重要的特性,改進(jìn)模型的可理解性。
[0019] 相應(yīng)地,本公開的各實(shí)施例允許通過應(yīng)用領(lǐng)域特定知識,基于具有現(xiàn)有特性集的 數(shù)據(jù)集來定義新特性。這些新特性通常承載適用于其中部署分析模型的領(lǐng)域的更多語義, 并且可以有助于更好地理解模型。同時(shí),在某些情況下模型可能變得不太準(zhǔn)確。但是,本公 開的各實(shí)施例可以維持足夠級別的期望準(zhǔn)確性(例如,用戶所期望的),使得給定模型仍可 以用于進(jìn)行預(yù)測。相應(yīng)地,本公開的各實(shí)施例指定模型準(zhǔn)確性閾值,并且生成滿足該最低準(zhǔn) 確性要求的分析模型,同時(shí)最大化起源級別。
[0020] 本公開的各實(shí)施例可以提供一但不限于一以下一個(gè)或多個(gè)特性和/或優(yōu)點(diǎn):對原 始數(shù)據(jù)進(jìn)行更好地分類、優(yōu)先級確定和過濾,并且標(biāo)識使用有意義輸入(例如,來自用戶) 描述的模型;結(jié)果生成引擎,其基于更有意義的信息,更好地理解要采取什么決策;基于定 義為在給定領(lǐng)域中尤其有用的特性,產(chǎn)生更有洞察力的分析結(jié)果;控制分析模型的準(zhǔn)確性 和起源之間的權(quán)衡的能力;以及總體上促進(jìn)更多地使用分析模型。
[0021] 圖IA是根據(jù)本公開的一個(gè)實(shí)施例的數(shù)據(jù)建模環(huán)境100的組件的示意框圖。環(huán)境 100例如可以在下面圖5中描述的計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)。環(huán)境100可以包括計(jì)算機(jī)程序104, 其包含在有形存儲器件中。程序104可以促進(jìn)環(huán)境100的功能,包括處理其各種組件之間 的信息,如下所述。
[0022] 環(huán)境100可以還包括原始數(shù)據(jù)110集合,其包含有關(guān)領(lǐng)域的數(shù)據(jù),所述數(shù)據(jù)具有不 同級別的相關(guān)性和準(zhǔn)確性。原始數(shù)據(jù)110可以存儲在環(huán)境100中的有形存儲器件上。原始 數(shù)據(jù)Iio可以具有一個(gè)或多個(gè)屬性,每個(gè)屬性可以被視為原始數(shù)據(jù)Iio的特性。領(lǐng)域例如 可以定義為"醫(yī)療保健"。因此,原始數(shù)據(jù)Iio例如可以是在到醫(yī)療保健機(jī)構(gòu)一次或多次就 診期間,從患者收集的醫(yī)療保健數(shù)據(jù)。在該實(shí)例中,原始數(shù)據(jù)Iio可以包括醫(yī)療相關(guān)的人口 統(tǒng)計(jì)信息或其它潛在特性(例如性別和種族),并且可以還包括體重和身高測量、驗(yàn)血結(jié)果 等。
[0023] 原始數(shù)據(jù)110的特性可以通過特性組合120組件定義和組織,并且通過模型構(gòu)建 器130處理以便生成分析模型140??梢詫⒎治瞿P?40提供給用戶170。如上所述,這些 組件可以實(shí)現(xiàn)為程序104的組件,或者實(shí)現(xiàn)為環(huán)境100中的另一個(gè)程序的一部分。下面將 更詳細(xì)地描述這些組件。
[0024] 盡管本公開的各實(shí)施例討論用戶170的角色,但用戶170不必在任何情況下或者 在任何使用相應(yīng)的實(shí)施例期間與這些實(shí)施例交互。此外,如果涉及用戶170,則用戶170例 如可以指定用戶170輸入作為偏好,在每次迭代期間,該偏好自動應(yīng)用于這些實(shí)施例的建 模功能。
[0025] 環(huán)境100的特性組合120組件可以標(biāo)識原始數(shù)據(jù)110的特性,和/或可以基于預(yù) 定義的特性集來分析原始數(shù)據(jù)110,以便定義原始數(shù)據(jù)110的特性之間的依賴性。基于這些 特性之間的定義的依賴性,可以構(gòu)造特性層次結(jié)構(gòu)或樹,其中樹的每個(gè)節(jié)點(diǎn)表示可以鏈接 到父和/或子節(jié)點(diǎn)(多個(gè))的特性,并且兩個(gè)節(jié)點(diǎn)之間的每個(gè)鏈接表示依賴關(guān)系。在所述 特性層次結(jié)構(gòu)中,所有基本特性可以處于葉節(jié)點(diǎn)級別(即,可能一個(gè)特性不依賴于另一個(gè) 特性)。在下面討論的圖2中示出此類特性層次結(jié)構(gòu)的實(shí)例。
[0026] 可以將環(huán)境100的特性組合120組件生成的特性層次結(jié)構(gòu)提供給模型構(gòu)建器130, 以便生成分析模型140。根據(jù)本公開的一個(gè)方面,在首次生成模型中,或者在修改模型構(gòu)建 器130先前生成的現(xiàn)有模型中,模型構(gòu)建器130可以根據(jù)定義所需準(zhǔn)確性級別的閾值160 評估對應(yīng)的模型,以便生成的模型具有至少等于閾值160的準(zhǔn)確性級別。例如,可以根據(jù)以 下項(xiàng)測量準(zhǔn)確性:模型140如何密切地表示有關(guān)模型140的主題的信息(例如,其信息被收 集并且已知采用原始數(shù)據(jù)110的形式的患者的信息)和/或它可以很好地預(yù)測模型評估的 其它數(shù)據(jù)對象(例如,其它患者)的分類的程度。在一個(gè)相關(guān)實(shí)施例中,閾值160可以是期 望的準(zhǔn)確性范圍而不是特定值。
[0027] 應(yīng)用閾值160可以允許增加分類模型的可理解性,但代價(jià)可能是分析模型140的 準(zhǔn)確性級別較低但可接受。如果分析模型140包括特性層次結(jié)構(gòu)的更多高級特性,則它可 以更可理解和有用??赡苁沁@種情況,因?yàn)楦呒壧匦酝ǔ3休d更多反映領(lǐng)域特定知識的語 義。因此,可以生成分析模型140以便包括盡可能多的高級特性,而不違反定義的準(zhǔn)確性閾 值 160。
[0028] 可以迭代地修改分析模型140。例如,可以將原始數(shù)據(jù)110的定義的領(lǐng)域知識 150(即,針對適用領(lǐng)域定義的知識)迭代地(或者僅一次)應(yīng)用于特性組合120,以便在 現(xiàn)有低級特性之上定義新的高級特性。在每次迭代中,模型構(gòu)建器130可以再次處理修改 后的特性組合120,以便生成新分析模型140。在一個(gè)實(shí)施例中,領(lǐng)域知識150可以由用戶 170定義和/或修改。用戶170例如可以是在環(huán)境100中建模的領(lǐng)域?qū)<?。在醫(yī)療保健實(shí) 例中,用戶170可以是具有領(lǐng)域相關(guān)知識的醫(yī)療保健專家。專家能夠定義更有用的高級特 性,這些特性不易于在原始數(shù)據(jù)110中定義。
[0029] 圖IB是示出根據(jù)本公開的一個(gè)實(shí)施例的圖IA中所示的數(shù)據(jù)建模環(huán)境100的 選擇組件的示意框圖,其包括特性組合120組件的附加組件。特性組合120組件的提 取、轉(zhuǎn)換和加載(ETL) 172組件可以接收原始數(shù)據(jù)11