平衡數(shù)據(jù)建模中的起源和準(zhǔn)確性權(quán)衡的方法和系統(tǒng)的制作方法

文檔序號：8412510閱讀：409來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

平衡數(shù)據(jù)建模中的起源和準(zhǔn)確性權(quán)衡的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本公開一般地涉及計(jì)算機(jī)化建模，更具體地說，涉及大型分析模型。
【背景技術(shù)】
[0002] 計(jì)算機(jī)化數(shù)據(jù)建?？梢杂糜诖龠M(jìn)更好地理解大型數(shù)據(jù)集。數(shù)據(jù)建模技術(shù)的應(yīng)用很廣泛，并且可以包括金融、保險(xiǎn)、醫(yī)療保健、教育等領(lǐng)域。盡管在創(chuàng)建分析模型中收集信息是一項(xiàng)挑戰(zhàn)，但同樣重要的挑戰(zhàn)是呈現(xiàn)信息以使其有用的方式。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的各實(shí)施例提供一種用于生成計(jì)算機(jī)化分析模型的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品，所述計(jì)算機(jī)化分析模型接收具有定義的第一特性集的原始數(shù)據(jù)集?；趯㈩I(lǐng)域知識集應(yīng)用于所述第一特性集，定義第二特性集，以及基于所述第一和第二特性集的特性之間的關(guān)系，生成特性層次結(jié)構(gòu)。從所述特性層次結(jié)構(gòu)中選擇特性集，其中將所述第二特性集的盡可能多的特性結(jié)合到所述分析模型中，同時(shí)維持定義的準(zhǔn)確性值?；谒x擇的特性集，生成計(jì)算機(jī)化分析模型。
【附圖說明】
[0004] 圖IA是根據(jù)本公開的一個(gè)實(shí)施例的數(shù)據(jù)建模環(huán)境的組件的示意框圖；
[0005] 圖IB是示出根據(jù)本公開的一個(gè)實(shí)施例的圖IA的數(shù)據(jù)建模環(huán)境的選擇組件的示意框圖；
[0006] 圖2示出根據(jù)本公開的一個(gè)實(shí)施例的示例性特性層次結(jié)構(gòu)；
[0007] 圖3A是根據(jù)本公開的一個(gè)實(shí)施例的特性層次結(jié)構(gòu)的示意框圖；
[0008] 圖3B是根據(jù)本公開的一個(gè)實(shí)施例的決策樹模型的示意框圖；
[0009] 圖4A是示出根據(jù)本公開的一個(gè)實(shí)施例的用于生成分析模型的方法的步驟的流程圖；
[0010] 圖4B是示出根據(jù)本公開的一個(gè)實(shí)施例的圖4A的方法的其它步驟的流程圖；
[0011] 圖5是根據(jù)本公開的一個(gè)實(shí)施例的計(jì)算機(jī)系統(tǒng)的示意框圖；
[0012] 圖6是根據(jù)本公開的一個(gè)實(shí)施例的示例性云計(jì)算環(huán)境的框圖；以及
[0013] 圖7是根據(jù)本公開的一個(gè)實(shí)施例的圖6的示例性云計(jì)算環(huán)境的功能層的框圖。
【具體實(shí)施方式】
[0014] 本公開的各個(gè)方面提供解決方案以便生成分析模型和數(shù)據(jù)分類，它們比現(xiàn)有數(shù)據(jù) 建模技術(shù)提供的解決方案更全面。當(dāng)前建模技術(shù)不提供有關(guān)使用什么特性形成模型以及由于什么原因的清晰視圖。當(dāng)?shù)讓訑?shù)據(jù)的大小和結(jié)果數(shù)據(jù)模型的復(fù)雜性增加時(shí)，該問題加重。給定底層特性的復(fù)雜性，最終用戶例如可能不注意或者甚至可能拒絕有價(jià)值的洞察。一個(gè) 實(shí)例是醫(yī)療保健領(lǐng)域，其中數(shù)據(jù)起源（provenance)尤其重要，因?yàn)樵诨颊咝畔⒌臄?shù)據(jù)挖掘中使用的抽象并且原始的特性集不易于理解，或者甚至不易于呈現(xiàn)給領(lǐng)域中的專家。如果分析模型和它所基于的特性未得到很好的解釋，則醫(yī)療保健領(lǐng)域中的決策者可能不愿意接受分析模型進(jìn)行的建議。
[0015] 例如，第一模型可以基于收集的對應(yīng)于不同年齡的患者的原始數(shù)據(jù)，以很高的準(zhǔn) 確性預(yù)測在患者生命的隨后每一年內(nèi)，70歲以上的患者有95%的可能性需要高成本保健。高成本保健例如可以定義為對應(yīng)于為患者提供的醫(yī)療服務(wù)的成本的貨幣價(jià)值。盡管該實(shí) 例中的模型高度準(zhǔn)確，但為什么70歲在預(yù)測醫(yī)療保健成本中發(fā)揮作用可能并不顯而易見，艮P，模型可能具有相對低的起源。使用該實(shí)例中的模型的醫(yī)療保健專業(yè)人員可能無法確定最佳實(shí)踐，以便幫助患者變得更健康并且產(chǎn)生較低的醫(yī)療保健成本，因?yàn)獒t(yī)療保健專業(yè)人員和患者可能對患者年齡具有有限的控制。
[0016] 另一方面，使用本公開的各實(shí)施例生成的模型可以包括基于收集的數(shù)據(jù)和信息的更有意義的特性，它們可以使醫(yī)療保健專業(yè)人員和患者能夠采取糾正或預(yù)防措施，以便降低提供給患者的醫(yī)療保健的成本。例如，起源級別相對高于上面實(shí)例中的第一模型的第二模型可以使用第一模型的相同底層數(shù)據(jù)，以70%的準(zhǔn)確性預(yù)測血糖水平高于特定值的患者可能產(chǎn)生高醫(yī)療保健成本。盡管此第二模型可能在預(yù)測患者是否產(chǎn)生高醫(yī)療保健成本方面不如第一模型準(zhǔn)確，但第二模型允許醫(yī)療保健專業(yè)人員確定影響高醫(yī)療保健成本的因素，醫(yī)療保健專業(yè)人員可以解決該因素。在該實(shí)例中，使用第二模型的醫(yī)療保健專業(yè)人員可以建議患者接受治療以便降低患者的血糖水平。這是第一模型不支持的建議，盡管第一模型遠(yuǎn)比第二模型準(zhǔn)確。
[0017] 以分類模型為例，大多數(shù)現(xiàn)有方法集中于構(gòu)建可以在分類準(zhǔn)確性方面提供高質(zhì)量性能的分類模型。因此，通常同等對待模型中的所有特性，并且基于特性對分類準(zhǔn)確性的影響選擇這些特性。但是，可用于生成分析模型的不同特性可以包含不同級別的語義。通常，用于在分析模型中進(jìn)行分析的原始數(shù)據(jù)集包含基本特性。本公開有助于在這些基本特性之上進(jìn)行構(gòu)建，以便可以通過應(yīng)用領(lǐng)域知識（例如，醫(yī)療保健領(lǐng)域知識），開發(fā)新的有意義特性。例如，這可以尤其適用于以下情況：給定可接受級別的分類準(zhǔn)確性，期望較高的起源級別。
[0018] 針對基于特性層次結(jié)構(gòu)構(gòu)建分類模型的問題，現(xiàn)有解決方案集中于如何通過在適當(dāng)層次結(jié)構(gòu)級別選擇特性而最大化分析模型性能。為了使模型可理解，它們嘗試通過控制層次結(jié)構(gòu)的深度來簡化決策樹模型。一種更好的方法可以是通過選擇對期望的分析（例如，用戶期望的）更重要的特性，改進(jìn)模型的可理解性。
[0019] 相應(yīng)地，本公開的各實(shí)施例允許通過應(yīng)用領(lǐng)域特定知識，基于具有現(xiàn)有特性集的數(shù)據(jù)集來定義新特性。這些新特性通常承載適用于其中部署分析模型的領(lǐng)域的更多語義，并且可以有助于更好地理解模型。同時(shí)，在某些情況下模型可能變得不太準(zhǔn)確。但是，本公開的各實(shí)施例可以維持足夠級別的期望準(zhǔn)確性（例如，用戶所期望的），使得給定模型仍可以用于進(jìn)行預(yù)測。相應(yīng)地，本公開的各實(shí)施例指定模型準(zhǔn)確性閾值，并且生成滿足該最低準(zhǔn) 確性要求的分析模型，同時(shí)最大化起源級別。
[0020] 本公開的各實(shí)施例可以提供一但不限于一以下一個(gè)或多個(gè)特性和/或優(yōu)點(diǎn)：對原始數(shù)據(jù)進(jìn)行更好地分類、優(yōu)先級確定和過濾，并且標(biāo)識使用有意義輸入（例如，來自用戶）描述的模型；結(jié)果生成引擎，其基于更有意義的信息，更好地理解要采取什么決策；基于定義為在給定領(lǐng)域中尤其有用的特性，產(chǎn)生更有洞察力的分析結(jié)果；控制分析模型的準(zhǔn)確性和起源之間的權(quán)衡的能力；以及總體上促進(jìn)更多地使用分析模型。
[0021] 圖IA是根據(jù)本公開的一個(gè)實(shí)施例的數(shù)據(jù)建模環(huán)境100的組件的示意框圖。環(huán)境 100例如可以在下面圖5中描述的計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)。環(huán)境100可以包括計(jì)算機(jī)程序104，其包含在有形存儲器件中。程序104可以促進(jìn)環(huán)境100的功能，包括處理其各種組件之間的信息，如下所述。
[0022] 環(huán)境100可以還包括原始數(shù)據(jù)110集合，其包含有關(guān)領(lǐng)域的數(shù)據(jù)，所述數(shù)據(jù)具有不同級別的相關(guān)性和準(zhǔn)確性。原始數(shù)據(jù)110可以存儲在環(huán)境100中的有形存儲器件上。原始數(shù)據(jù)Iio可以具有一個(gè)或多個(gè)屬性，每個(gè)屬性可以被視為原始數(shù)據(jù)Iio的特性。領(lǐng)域例如可以定義為"醫(yī)療保健"。因此，原始數(shù)據(jù)Iio例如可以是在到醫(yī)療保健機(jī)構(gòu)一次或多次就診期間，從患者收集的醫(yī)療保健數(shù)據(jù)。在該實(shí)例中，原始數(shù)據(jù)Iio可以包括醫(yī)療相關(guān)的人口統(tǒng)計(jì)信息或其它潛在特性（例如性別和種族），并且可以還包括體重和身高測量、驗(yàn)血結(jié)果等。
[0023] 原始數(shù)據(jù)110的特性可以通過特性組合120組件定義和組織，并且通過模型構(gòu)建器130處理以便生成分析模型140?？梢詫⒎治瞿Ｐ?40提供給用戶170。如上所述，這些組件可以實(shí)現(xiàn)為程序104的組件，或者實(shí)現(xiàn)為環(huán)境100中的另一個(gè)程序的一部分。下面將更詳細(xì)地描述這些組件。
[0024] 盡管本公開的各實(shí)施例討論用戶170的角色，但用戶170不必在任何情況下或者在任何使用相應(yīng)的實(shí)施例期間與這些實(shí)施例交互。此外，如果涉及用戶170,則用戶170例如可以指定用戶170輸入作為偏好，在每次迭代期間，該偏好自動應(yīng)用于這些實(shí)施例的建模功能。
[0025] 環(huán)境100的特性組合120組件可以標(biāo)識原始數(shù)據(jù)110的特性，和/或可以基于預(yù) 定義的特性集來分析原始數(shù)據(jù)110,以便定義原始數(shù)據(jù)110的特性之間的依賴性。基于這些特性之間的定義的依賴性，可以構(gòu)造特性層次結(jié)構(gòu)或樹，其中樹的每個(gè)節(jié)點(diǎn)表示可以鏈接到父和/或子節(jié)點(diǎn)（多個(gè)）的特性，并且兩個(gè)節(jié)點(diǎn)之間的每個(gè)鏈接表示依賴關(guān)系。在所述特性層次結(jié)構(gòu)中，所有基本特性可以處于葉節(jié)點(diǎn)級別（即，可能一個(gè)特性不依賴于另一個(gè) 特性）。在下面討論的圖2中示出此類特性層次結(jié)構(gòu)的實(shí)例。
[0026] 可以將環(huán)境100的特性組合120組件生成的特性層次結(jié)構(gòu)提供給模型構(gòu)建器130，以便生成分析模型140。根據(jù)本公開的一個(gè)方面，在首次生成模型中，或者在修改模型構(gòu)建器130先前生成的現(xiàn)有模型中，模型構(gòu)建器130可以根據(jù)定義所需準(zhǔn)確性級別的閾值160 評估對應(yīng)的模型，以便生成的模型具有至少等于閾值160的準(zhǔn)確性級別。例如，可以根據(jù)以下項(xiàng)測量準(zhǔn)確性：模型140如何密切地表示有關(guān)模型140的主題的信息（例如，其信息被收集并且已知采用原始數(shù)據(jù)110的形式的患者的信息）和/或它可以很好地預(yù)測模型評估的其它數(shù)據(jù)對象（例如，其它患者）的分類的程度。在一個(gè)相關(guān)實(shí)施例中，閾值160可以是期望的準(zhǔn)確性范圍而不是特定值。
[0027] 應(yīng)用閾值160可以允許增加分類模型的可理解性，但代價(jià)可能是分析模型140的準(zhǔn)確性級別較低但可接受。如果分析模型140包括特性層次結(jié)構(gòu)的更多高級特性，則它可以更可理解和有用?？赡苁沁@種情況，因?yàn)楦呒壧匦酝ǔ３休d更多反映領(lǐng)域特定知識的語義。因此，可以生成分析模型140以便包括盡可能多的高級特性，而不違反定義的準(zhǔn)確性閾值 160。
[0028] 可以迭代地修改分析模型140。例如，可以將原始數(shù)據(jù)110的定義的領(lǐng)域知識 150(即，針對適用領(lǐng)域定義的知識）迭代地（或者僅一次）應(yīng)用于特性組合120,以便在現(xiàn)有低級特性之上定義新的高級特性。在每次迭代中，模型構(gòu)建器130可以再次處理修改后的特性組合120,以便生成新分析模型140。在一個(gè)實(shí)施例中，領(lǐng)域知識150可以由用戶 170定義和/或修改。用戶170例如可以是在環(huán)境100中建模的領(lǐng)域?qū)＜?。在醫(yī)療保健實(shí) 例中，用戶170可以是具有領(lǐng)域相關(guān)知識的醫(yī)療保健專家。專家能夠定義更有用的高級特性，這些特性不易于在原始數(shù)據(jù)110中定義。
[0029] 圖IB是示出根據(jù)本公開的一個(gè)實(shí)施例的圖IA中所示的數(shù)據(jù)建模環(huán)境100的選擇組件的示意框圖，其包括特性組合120組件的附加組件。特性組合120組件的提取、轉(zhuǎn)換和加載（ETL) 172組件可以接收原始數(shù)據(jù)11

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：C·古特曼;孫行智;
技術(shù)所有人：國際商業(yè)機(jī)器公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

平衡數(shù)據(jù)建模中的起源和準(zhǔn)確性權(quán)衡的方法和系統(tǒng)的制作方法