專利名稱:使用多個(gè)支持向量機(jī)從多個(gè)數(shù)據(jù)組中提升知識發(fā)現(xiàn)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從數(shù)據(jù)中發(fā)現(xiàn)知識的學(xué)習(xí)機(jī)的使用。更特別地,本發(fā)明涉及學(xué)習(xí)機(jī)和相關(guān)的輸入和輸出數(shù)據(jù)的最優(yōu)化,以便提升從多個(gè)數(shù)據(jù)組中發(fā)現(xiàn)的知識。
作為一個(gè)具體的示例,人類基因組計(jì)劃(Human Genome Project)正在增加描述人類遺傳碼的一個(gè)幾千兆字節(jié)的數(shù)據(jù)庫。在人類基因組的測繪完成(預(yù)期在2003年)之前,預(yù)期該數(shù)據(jù)庫的大小將顯著增長。這樣一個(gè)數(shù)據(jù)庫中的大數(shù)量的數(shù)據(jù)壓倒了傳統(tǒng)的數(shù)據(jù)分析工具,例如電子表格和特定(ad hoc)查詢。傳統(tǒng)的數(shù)據(jù)分析方法可用來從數(shù)據(jù)中創(chuàng)建豐富的報(bào)告,但是不具有聰明地以及自動(dòng)地協(xié)助人類在大數(shù)量的數(shù)據(jù)中分析并尋找有用知識模型的能力。而且,使用通常的已接受的參考范圍和解釋標(biāo)準(zhǔn),即使對于小數(shù)量的數(shù)據(jù),人類也經(jīng)常不可能識別有用知識的模型。
一個(gè)新近的改進(jìn),其已經(jīng)顯示在一些機(jī)器學(xué)習(xí)示例中有效,是反向傳播神經(jīng)網(wǎng)絡(luò)。反向傳播神經(jīng)網(wǎng)絡(luò)是一種學(xué)習(xí)機(jī),其可以被訓(xùn)練以便發(fā)現(xiàn)一個(gè)數(shù)據(jù)組中對人來說是不容易明白的知識。可是,使用反向傳播神經(jīng)網(wǎng)絡(luò)方法的各種問題阻止神經(jīng)網(wǎng)絡(luò)更好的控制學(xué)習(xí)機(jī)。例如,反向傳播神經(jīng)網(wǎng)絡(luò)一個(gè)顯著的缺點(diǎn)是經(jīng)驗(yàn)的風(fēng)險(xiǎn)函數(shù)可以有許多局部最小值,通過此技術(shù)會(huì)容易模糊來自發(fā)現(xiàn)中的最佳解。由反向傳播神經(jīng)網(wǎng)絡(luò)使用的標(biāo)準(zhǔn)最優(yōu)化程序可以收斂到一個(gè)最小值,但是該神經(jīng)網(wǎng)絡(luò)方法不能保證獲得比期望的全局最小值小許多的一個(gè)局部化最小值。從一個(gè)神經(jīng)網(wǎng)絡(luò)中獲得的解的質(zhì)量取決于許多因素。具體的說,實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的從業(yè)者的技能決定了最終的利益,但是甚至與初始加權(quán)的隨機(jī)選擇表面上一樣良性的因素也可能導(dǎo)致差的結(jié)果。此外,用于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的基于梯度收斂的方法從來就很慢。另外一個(gè)缺點(diǎn)是反曲函數(shù)具有一個(gè)比例因子,它影響近似法的質(zhì)量??赡芘c知識發(fā)現(xiàn)相關(guān)的神經(jīng)網(wǎng)絡(luò)的最大限制因素是“維數(shù)的詛咒”(curse of dimensionality)其與訓(xùn)練數(shù)據(jù)中的每個(gè)附加特性或者維數(shù)在所需要計(jì)算的時(shí)間和功率的不成比例的增長相關(guān)聯(lián)。
使用支持向量機(jī)可克服神經(jīng)網(wǎng)絡(luò)的這些缺點(diǎn)。在通常的術(shù)語中,一個(gè)支持向量機(jī)選擇優(yōu)先通過非線性映射函數(shù)把輸入向量映射到一高維特征空間中。在這個(gè)高維特征空間中,構(gòu)造了一個(gè)最佳分離的超平面。然后該最佳超平面被用于確定諸如類別分離、回歸適合或者密度估計(jì)中的精確度。
在一個(gè)支持向量機(jī)內(nèi)部,特征空間維數(shù)可以很巨大。例如,一個(gè)第四次方的多項(xiàng)式映射函數(shù)使一個(gè)200維輸入空間被映射到一個(gè)1.6億維的特征空間中。內(nèi)核手段(kernel trick)和Vapnik-Chervonenkis維數(shù)允許支持向量機(jī)阻礙這個(gè)″維數(shù)詛咒″(curse of dimensionality),該″維數(shù)詛咒″約束了其他方法和從很高維特征空間中有效的得出的可歸納答案。
如果訓(xùn)練向量被最佳超平面(或者廣義的最佳超平面)分離,那么在一個(gè)測試示例上提交一個(gè)差錯(cuò)的概率期望值由訓(xùn)練組中的示例所限制。這個(gè)界限既不取決于特征空間的維數(shù),也不取決于系數(shù)向量的范數(shù),也不取決于輸入向量數(shù)量的界限。因此,如果最佳超平面可以從與訓(xùn)練組大小有關(guān)的少數(shù)支持向量中構(gòu)造而來,甚至在無限維空間中,一般化的性能將很高。
同樣地,支持向量機(jī)提供一個(gè)理想的解決方案,解決來自巨大數(shù)量的輸入數(shù)據(jù)中的發(fā)現(xiàn)知識的問題??墒?,支持向量機(jī)從一個(gè)數(shù)據(jù)組中發(fā)現(xiàn)知識的能力局限在包括訓(xùn)練數(shù)據(jù)組內(nèi)部的信息的一部分。因此,這里存在對一種系統(tǒng)和方法的需要,該系統(tǒng)和方法用于增加訓(xùn)練數(shù)據(jù)以便使向量機(jī)的知識發(fā)現(xiàn)最大化。
此外,來自一個(gè)支持向量機(jī)的未加工的輸出不能以最容易解釋的形式完全公開知識。因此,這里依然還需要一種系統(tǒng)和方法,用于對從一個(gè)支持向量機(jī)中輸出的數(shù)據(jù)進(jìn)行后處理(post-processing)以便將人或另外的自動(dòng)處理所傳送的信息值最大化。
另外,支持向量機(jī)從數(shù)據(jù)中發(fā)現(xiàn)知識的能力被內(nèi)核的選擇所限制。因此,這里依然需要一種改良的系統(tǒng)和方法,用于為支持向量機(jī)選擇和/或創(chuàng)建一個(gè)期望的內(nèi)核。
在這種方式中,由預(yù)處理提供的訓(xùn)練數(shù)據(jù)的附加表述可以提升從那里發(fā)現(xiàn)知識的學(xué)習(xí)機(jī)的性能。在支持向量機(jī)的特定環(huán)境中,訓(xùn)練組的維數(shù)越大,則可以從那里導(dǎo)出的歸納質(zhì)量就越高。當(dāng)從數(shù)據(jù)中發(fā)現(xiàn)的知識涉及一個(gè)一個(gè)回歸或者密度估計(jì)時(shí)或者在訓(xùn)練輸出包括一個(gè)連續(xù)變量的地方,可以通過把訓(xùn)練輸出進(jìn)行最佳分類來對該訓(xùn)練輸出進(jìn)行后處理從而從連續(xù)變量中導(dǎo)出分類。
以與訓(xùn)練數(shù)據(jù)組相同的方式來預(yù)先處理一個(gè)測試數(shù)據(jù)組。然后,使用預(yù)處理的測試數(shù)據(jù)組來測試訓(xùn)練的學(xué)習(xí)機(jī)。被訓(xùn)練的學(xué)習(xí)機(jī)的一個(gè)測試輸出可以被后處理以便確定該測試輸出是否是一個(gè)最佳解。后處理測試輸出可以包括把測試輸出解釋為可以與測試數(shù)據(jù)組相比較的一種格式。選擇性的后處理步驟可以提升人類對于輸出數(shù)據(jù)的附加處理的解釋性或適應(yīng)性。
在支持向量機(jī)的環(huán)境中,本發(fā)明還在訓(xùn)練支持向量機(jī)之前提供內(nèi)核的選擇。內(nèi)核的選擇可以是以被處理的具體問題的現(xiàn)有的知識或者利用學(xué)習(xí)機(jī)可使用的任何可用數(shù)據(jù)的性質(zhì)分析為基礎(chǔ)的并且通常取決于從數(shù)據(jù)中發(fā)現(xiàn)的知識的性質(zhì)。作為選擇,把被后處理的訓(xùn)練輸出或者測試輸出進(jìn)行比較的一個(gè)迭代處理可以被應(yīng)用來進(jìn)行關(guān)于哪一配置提供最佳解的一個(gè)判定。如果測試輸出不是最佳解,則可以調(diào)整內(nèi)核的選擇并且支持向量機(jī)可以被重新訓(xùn)練及重新測試。當(dāng)確定最佳解已經(jīng)被識別時(shí),可以按照與訓(xùn)練數(shù)據(jù)組相同的方式來采集并預(yù)處理一個(gè)真實(shí)的數(shù)據(jù)組。預(yù)處理的實(shí)用數(shù)據(jù)組被輸入學(xué)習(xí)機(jī)用于處理。然后可以通過把實(shí)用輸出解釋為一種計(jì)算導(dǎo)出的文字?jǐn)?shù)字的分類來對學(xué)習(xí)機(jī)的實(shí)用輸出進(jìn)行后處理。
在一個(gè)示例性的實(shí)施例中,提供一種系統(tǒng),使用一個(gè)支持向量機(jī)來提升從數(shù)據(jù)中發(fā)現(xiàn)的知識。該示例性的系統(tǒng)包括用于一個(gè)存儲(chǔ)訓(xùn)練數(shù)據(jù)組和一個(gè)測試數(shù)據(jù)組的一個(gè)存儲(chǔ)設(shè)備和用于執(zhí)行支持向量機(jī)的一臺(tái)處理器。該處理器還可操作用于從數(shù)據(jù)庫采集訓(xùn)練數(shù)據(jù)組;對訓(xùn)練數(shù)據(jù)組進(jìn)行預(yù)處理以便提升多個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)的每一個(gè);使用該預(yù)處理的訓(xùn)練數(shù)據(jù)組來訓(xùn)練該支持向量機(jī);從數(shù)據(jù)庫中采集測試數(shù)據(jù);以與訓(xùn)練數(shù)據(jù)組相同的方式來對測試數(shù)據(jù)組進(jìn)行預(yù)處理;使用該預(yù)處理的測試數(shù)據(jù)組來測試被訓(xùn)練的支持向量機(jī);以及響應(yīng)于接收被訓(xùn)練的支持向量機(jī)的測試輸出,來對該測試輸出進(jìn)行后處理以便確定該測試輸出是否是一個(gè)最佳解。該示例性的系統(tǒng)還可以包括一個(gè)通信設(shè)備,用于從一個(gè)遠(yuǎn)端源接收該測試數(shù)據(jù)組和該訓(xùn)練數(shù)據(jù)組。在這樣一個(gè)情況中,處理器可以操作來在訓(xùn)練數(shù)據(jù)組的預(yù)處理之前把訓(xùn)練數(shù)據(jù)組儲(chǔ)存在存儲(chǔ)設(shè)備中以及在測試數(shù)據(jù)組的預(yù)處理之前把測試數(shù)據(jù)組儲(chǔ)存在存儲(chǔ)設(shè)備中。該示例性的系統(tǒng)還可以包括一個(gè)顯示設(shè)備,用于顯示被后處理的測試數(shù)據(jù)。該示例性系統(tǒng)的處理器還可以操作用于執(zhí)行如上所述的每個(gè)附加功能。該通信設(shè)備還可以操作來把計(jì)算導(dǎo)出的數(shù)字字母分類發(fā)送給一個(gè)遠(yuǎn)端源。
在一個(gè)示例性的實(shí)施例中,提供一種系統(tǒng)和方法,用于使用通常的多個(gè)學(xué)習(xí)機(jī)和特別是多個(gè)支持向量機(jī)來提升來自數(shù)據(jù)中的知識發(fā)現(xiàn)。學(xué)習(xí)機(jī)的訓(xùn)練數(shù)據(jù)被預(yù)處理以便加上數(shù)據(jù)的含意。預(yù)處理數(shù)據(jù)可以包括轉(zhuǎn)換數(shù)據(jù)點(diǎn)和/或擴(kuò)展數(shù)據(jù)點(diǎn)。通過把含意加給數(shù)據(jù),該學(xué)習(xí)機(jī)提供更強(qiáng)大的處理信息量。特別是涉及倒支持向量機(jī),被處理的信息量越大,則可以被導(dǎo)出的有關(guān)數(shù)據(jù)的歸納就越好。多個(gè)支持向量機(jī),每個(gè)都包括不同的內(nèi)核,用預(yù)處理的訓(xùn)練數(shù)據(jù)來訓(xùn)練并以相同的方式用被預(yù)處理的測試數(shù)據(jù)來測試。來自多個(gè)支持向量機(jī)的測試輸出被比較以便決定哪一測試輸出(如果有的話)表示一個(gè)最佳解。一個(gè)或多個(gè)內(nèi)核的選擇可以被調(diào)整并且一個(gè)或多個(gè)支持向量機(jī)可以被重新訓(xùn)練和重新測試。當(dāng)確定已經(jīng)獲得一個(gè)最佳解時(shí),實(shí)用數(shù)據(jù)被預(yù)處理并被輸入到包括了產(chǎn)生最佳解的內(nèi)核的支持向量機(jī)中。來自學(xué)習(xí)機(jī)中的實(shí)用輸出然后可以被后處理到一個(gè)計(jì)算導(dǎo)出的字母數(shù)字分類用于由人類或計(jì)算機(jī)自動(dòng)程序來解釋。
在另一個(gè)示例性的實(shí)施例中,提供一種系統(tǒng)和方法,用于對一個(gè)連續(xù)變量進(jìn)行最佳分類。表示一個(gè)連續(xù)變量的一個(gè)數(shù)據(jù)組包括數(shù)據(jù)點(diǎn)(其每一個(gè)包括來自該連續(xù)變量中的一個(gè)抽樣)和一個(gè)類別標(biāo)識符。根據(jù)數(shù)據(jù)組內(nèi)部的抽樣范圍和抽樣的精度級來確定數(shù)據(jù)組內(nèi)部的若干不同的類別標(biāo)識符以及若干候選者庫(candidate bins)。每個(gè)候選者庫表示一個(gè)抽樣子范圍。對于每個(gè)候選者庫,落在該候選者庫內(nèi)的數(shù)據(jù)點(diǎn)的熵被計(jì)算出。然后,對于具有被最小化的采集熵的候選者庫的每個(gè)序列,把抽樣范圍中的一個(gè)截止點(diǎn)定義為候選者庫序列中的最后一個(gè)候選者庫的邊界處。作為一個(gè)迭代處理,順序候選者庫的不同組合的采集熵可以被計(jì)算出。還可以調(diào)整被定義的截止點(diǎn)的數(shù)量以便確定截止點(diǎn)的最佳數(shù)量,這是以最小熵的計(jì)算為基礎(chǔ)的。正如所提及的,用于對一個(gè)連續(xù)變量進(jìn)行最佳分類的該示例性系統(tǒng)和方法可以被用于對要被輸入學(xué)習(xí)機(jī)的數(shù)據(jù)進(jìn)行預(yù)處理以及用于對學(xué)習(xí)機(jī)的輸出進(jìn)行后處理。
在另一示例性的實(shí)施例中,提供一種系統(tǒng)和方法,用于一個(gè)分布式的網(wǎng)絡(luò)環(huán)境中使用通常的一個(gè)學(xué)習(xí)機(jī)和特別是一個(gè)支持向量機(jī)來提升來自數(shù)據(jù)中的知識發(fā)現(xiàn)。顧客可以通過一個(gè)分布式的網(wǎng)絡(luò)從一個(gè)遠(yuǎn)端源發(fā)送訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)和實(shí)用數(shù)據(jù)到廠家的服務(wù)器。顧客也可以向服務(wù)器發(fā)送諸如用戶名、密碼和財(cái)務(wù)賬目標(biāo)識符之類的標(biāo)識信息。訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)和實(shí)用數(shù)據(jù)可以被儲(chǔ)存在一個(gè)存儲(chǔ)設(shè)備中。訓(xùn)練數(shù)據(jù)然后可以被預(yù)處理以便向其加上含意。預(yù)處理數(shù)據(jù)可以包括轉(zhuǎn)換數(shù)據(jù)點(diǎn)和/或擴(kuò)展數(shù)據(jù)點(diǎn)。通過把含意加給數(shù)據(jù),該學(xué)習(xí)機(jī)提供更強(qiáng)大的信息量用于處理。關(guān)于特別的支持向量機(jī),被處理的信息量越大,則可以被導(dǎo)出的有關(guān)數(shù)據(jù)的歸納就越好。因此用預(yù)處理的訓(xùn)練數(shù)據(jù)來訓(xùn)練并以相同的方式用被預(yù)處理的測試數(shù)據(jù)來測試該學(xué)習(xí)機(jī)。來自學(xué)習(xí)機(jī)的測試輸出被后處理以便確定從測試數(shù)據(jù)中發(fā)現(xiàn)的知識是否是理想的。后處理包括把測試輸出解釋為可以與測試數(shù)據(jù)相比較的一種格式。實(shí)用數(shù)據(jù)被預(yù)處理輸入訓(xùn)練的和測試的學(xué)習(xí)機(jī)中。來自學(xué)習(xí)機(jī)中的實(shí)用輸出然后可以被后處理到一個(gè)計(jì)算導(dǎo)出的字母數(shù)字分類用于由人類或計(jì)算機(jī)自動(dòng)程序來解釋。在通過分布式的網(wǎng)絡(luò)把字母數(shù)字分類傳送給顧客以前,為了從由財(cái)務(wù)賬目標(biāo)識符識別的顧客的財(cái)務(wù)賬目中收受資金,可以操作服務(wù)器來與財(cái)務(wù)機(jī)構(gòu)通信。
在另一示例性的實(shí)施例中,使用第一預(yù)處理訓(xùn)練數(shù)據(jù)組來訓(xùn)練一個(gè)或多個(gè)支持向量機(jī)并且使用第二預(yù)處理訓(xùn)練數(shù)據(jù)組來訓(xùn)練一個(gè)或多個(gè)第二支持向量機(jī)。然后,來自類似支持向量機(jī)中的最佳輸出可以被合并以便對于一個(gè)或多個(gè)附加支持向量機(jī)形成一個(gè)新的輸入數(shù)據(jù)。
圖2是一個(gè)流程圖,說明了利用一個(gè)支持向量機(jī)用于增加可以從數(shù)據(jù)中發(fā)現(xiàn)的知識之示例性的通用方法。
圖3是一個(gè)流程圖,說明了按照本發(fā)明的一個(gè)示例性實(shí)施例的一個(gè)示例性的最佳分類方法,其可以以獨(dú)立的配置形式或者會(huì)同用于預(yù)處理或后處理技術(shù)的一個(gè)學(xué)習(xí)機(jī)而被使用。
圖4說明了可以被輸入一個(gè)支持向量機(jī)的一個(gè)示例性的未被擴(kuò)展的數(shù)據(jù)組。
圖5說明了使用圖4的數(shù)據(jù)組通過一個(gè)支持向量機(jī)所產(chǎn)生的一個(gè)示例性的后處理輸出。
圖6說明了可以被輸入一個(gè)支持向量機(jī)的一個(gè)示例性的被擴(kuò)展數(shù)據(jù)組。
圖7說明了使用圖6的數(shù)據(jù)組通過一個(gè)支持向量機(jī)所產(chǎn)生的一個(gè)示例性的后處理輸出。
圖8說明了圖3最佳分類方法的一個(gè)獨(dú)立應(yīng)用的示例性輸入和輸出。
圖9是來自包括一個(gè)線性內(nèi)核的第一支持向量機(jī)和包括一個(gè)多項(xiàng)式內(nèi)核的第二支持向量機(jī)中的示例性后處理輸出的比較。
圖10是一個(gè)功能方框圖,說明了本發(fā)明的一個(gè)示例性實(shí)施例的一個(gè)示例性的操作環(huán)境。
圖11是一個(gè)功能方框圖,說明了本發(fā)明的一個(gè)替換實(shí)施例的一個(gè)替換的示例性操作環(huán)境。
圖12是一個(gè)功能方框圖,說明了用于實(shí)現(xiàn)本發(fā)明的另外一個(gè)替換實(shí)施例的示例性網(wǎng)絡(luò)操作環(huán)境。
圖13是一個(gè)功能方框圖,說明了多個(gè)支持向量機(jī)的一個(gè)等級體系。
本發(fā)明的第一方面想要通過在使用數(shù)據(jù)來訓(xùn)練一個(gè)學(xué)習(xí)機(jī)之前對數(shù)據(jù)進(jìn)行隨意地預(yù)處理和/或?qū)碜詫W(xué)習(xí)機(jī)的輸出進(jìn)行隨意地后處理從而提升知識發(fā)現(xiàn)。通常規(guī)定,對數(shù)據(jù)進(jìn)行預(yù)處理包括重新格式化或增加數(shù)據(jù)以便允許最有利地應(yīng)用該學(xué)習(xí)機(jī)。同樣地,后處理包括解釋一個(gè)學(xué)習(xí)機(jī)的輸出以便發(fā)現(xiàn)它有意義的特性。從輸出中確定的有意義的特性可能是問題或數(shù)據(jù)特性。后處理包括把輸出解釋為人類可理解的一種形式或者計(jì)算機(jī)可理解的形式。
在下文中將參考附圖描述本發(fā)明的示例性實(shí)施例,附圖中,相同數(shù)字表示各個(gè)圖各處的相同的元件。圖1是一個(gè)流程圖,說明了利用學(xué)習(xí)機(jī)用于提升知識發(fā)現(xiàn)的一種通用方法100。方法100以開始模塊101開始并前進(jìn)到步驟102,在此,一個(gè)特定的問題被形式化用于通過機(jī)器學(xué)習(xí)來進(jìn)行知識發(fā)現(xiàn)的應(yīng)用。特別重要的是學(xué)習(xí)機(jī)的期望輸出的一個(gè)正確的公式。例如,在預(yù)知單個(gè)資產(chǎn)凈值工具、或者一個(gè)市場指標(biāo)的未來的性能時(shí),如果預(yù)知的是預(yù)期未來的改變而不是預(yù)知未來的價(jià)格水平時(shí),則一個(gè)學(xué)習(xí)機(jī)可能獲得更好的性能。未來的價(jià)格的期望值稍后可以在一個(gè)后處理步驟中導(dǎo)出,稍后在此說明書中討論。
在問題形式化之后,步驟103為訓(xùn)練數(shù)據(jù)采集編址。訓(xùn)練數(shù)據(jù)包括已知特性的一組數(shù)據(jù)點(diǎn)??梢詮囊粋€(gè)或多個(gè)本地和/或遠(yuǎn)端源采集訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)的采集可以手動(dòng)地或者通過諸如已知電子數(shù)據(jù)傳送方法的自動(dòng)處理來實(shí)現(xiàn)。因此,可以在一個(gè)網(wǎng)絡(luò)計(jì)算機(jī)環(huán)境中執(zhí)行本發(fā)明的一個(gè)示例性實(shí)施例。用于執(zhí)行本發(fā)明各個(gè)實(shí)施例的示例性的操作環(huán)境將參照圖10-12來詳細(xì)描述。
接下來,在步驟104,隨意地預(yù)處理被采集的訓(xùn)練數(shù)據(jù)以便允許把學(xué)習(xí)機(jī)最有利地應(yīng)用到訓(xùn)練數(shù)據(jù)固有的知識提取中。在此預(yù)處理階段期間,通過訓(xùn)練數(shù)據(jù)記錄內(nèi)單獨(dú)的或者多個(gè)測量值的變換、組合或者操作可以隨意地?cái)U(kuò)展訓(xùn)練數(shù)據(jù)。正如在此處所使用的,擴(kuò)展的數(shù)據(jù)意指通過改變可用來確定每一輸入點(diǎn)的觀測值的數(shù)量來改變輸入數(shù)據(jù)的維數(shù)(作為替換,也可以被描述為增加或刪除數(shù)據(jù)庫表格內(nèi)的欄)。通過說明,一個(gè)數(shù)據(jù)點(diǎn)可以包括坐標(biāo)(1,4,9)。這個(gè)數(shù)據(jù)點(diǎn)的一個(gè)擴(kuò)展形式可以導(dǎo)致坐標(biāo)(1,1,4,2,9,3)。在這個(gè)例子中,可以看出加到被擴(kuò)展的數(shù)據(jù)點(diǎn)上的坐標(biāo)是以初始坐標(biāo)的平方根變換為基礎(chǔ)的。通過向該數(shù)據(jù)點(diǎn)增加維數(shù),此被擴(kuò)展的數(shù)據(jù)點(diǎn)提供一個(gè)不同的輸入數(shù)據(jù)表示,其對于一個(gè)學(xué)習(xí)機(jī)的知識發(fā)現(xiàn)有潛在的更大意義。數(shù)據(jù)擴(kuò)展在這種意義上講為學(xué)習(xí)機(jī)提供機(jī)會(huì)去發(fā)現(xiàn)沒有迅速顯現(xiàn)在未擴(kuò)展的訓(xùn)練數(shù)據(jù)中的知識。
對數(shù)據(jù)進(jìn)行擴(kuò)展可以包括把任何有意義的變換類型應(yīng)用到數(shù)據(jù)上并把那些變換加到原始數(shù)據(jù)上。用于確定一個(gè)變換是否有意義的標(biāo)準(zhǔn)可取決于輸入數(shù)據(jù)本身和/或從數(shù)據(jù)中搜索到的知識類型。數(shù)據(jù)變換的說明類型包括專家信息的加入;標(biāo)記;二進(jìn)制的轉(zhuǎn)換;正弦,余弦,正切,余切,以及其它三角法的變換;群集;換算;概率和統(tǒng)計(jì)分析;有效性測試;強(qiáng)度測試;搜索二維圖規(guī)則(2-D regularities);隱式馬可夫模型(Hidden Markov Modeling);等價(jià)關(guān)系的識別;偶然性表格的應(yīng)用;圖論原理的應(yīng)用;向量映射的創(chuàng)建;加法,減法,乘法,除法,多項(xiàng)式方程式及其它代數(shù)變換的應(yīng)用;比例性的識別;有差別的冪的判定;等等。在醫(yī)學(xué)的環(huán)境中,潛在有意義的變換包括與已知標(biāo)準(zhǔn)醫(yī)學(xué)的參考范圍的關(guān)聯(lián);生理學(xué)的切斷;生理學(xué)的組合;生物化學(xué)的組合;啟發(fā)式規(guī)則的應(yīng)用;診斷標(biāo)準(zhǔn)判定;臨床的加權(quán)系統(tǒng);診斷變換;臨床的變換;專家知識的應(yīng)用;標(biāo)記技術(shù);其他領(lǐng)域知識的應(yīng)用;貝葉斯定理的網(wǎng)絡(luò)知識;等等。對本領(lǐng)域的普通技術(shù)人員來說,這些和其它變換以及它們的組合都可出現(xiàn)。
本領(lǐng)域的技術(shù)人員也應(yīng)該承認(rèn)不把維數(shù)加到數(shù)據(jù)點(diǎn)中也可以執(zhí)行數(shù)據(jù)變換。例如一個(gè)數(shù)據(jù)點(diǎn)可以包括坐標(biāo)(A,B,C)。這個(gè)數(shù)據(jù)點(diǎn)的轉(zhuǎn)換形式結(jié)果為坐標(biāo)(1,2,3),在此,坐標(biāo)“1”具有與坐標(biāo)“A”的某些已知關(guān)系,坐標(biāo)“2”具有與坐標(biāo)“B”的某些已知關(guān)系,而坐標(biāo)“3”具有與坐標(biāo)“C”的某些已知關(guān)系。從字母到數(shù)目的變換可能是需要的,例如,如果字母不能被一個(gè)學(xué)習(xí)機(jī)理解時(shí)。即使對于最初為數(shù)字形式的數(shù)據(jù),不把維數(shù)加到數(shù)據(jù)點(diǎn)上的其它類型的變換也是可能的。此外,應(yīng)該理解,為了對其加上含意而對數(shù)據(jù)進(jìn)行預(yù)處理可以包括分析未完成的、被破壞的或者另外“臟的”數(shù)據(jù)。一個(gè)學(xué)習(xí)機(jī)不能以有意義的方式處理“臟的”數(shù)據(jù)。因此,一個(gè)預(yù)處理步驟可以包括清除一個(gè)數(shù)據(jù)組以便移去、修復(fù)或替換臟的數(shù)據(jù)點(diǎn)。
返回圖1,示例性的方法100繼續(xù)到步驟106,在此,使用預(yù)處理的數(shù)據(jù)來訓(xùn)練學(xué)習(xí)機(jī)。正如本領(lǐng)域所熟知的,通過把學(xué)習(xí)機(jī)的操作參數(shù)調(diào)整直到獲得一個(gè)理想的訓(xùn)練輸出來訓(xùn)練一個(gè)學(xué)習(xí)機(jī)??梢酝ㄟ^把訓(xùn)練輸出與訓(xùn)練數(shù)據(jù)的已知進(jìn)行比較來手動(dòng)地或自動(dòng)地實(shí)現(xiàn)一個(gè)訓(xùn)練輸出是否理想的判定。當(dāng)一個(gè)學(xué)習(xí)機(jī)的訓(xùn)練輸出在離訓(xùn)練數(shù)據(jù)的已知特性的一個(gè)預(yù)確定差錯(cuò)門限值之內(nèi)時(shí)認(rèn)為該學(xué)習(xí)機(jī)被訓(xùn)練了。在某些情形中,如果不需要,在步驟107中對學(xué)習(xí)機(jī)的訓(xùn)練輸出進(jìn)行后處理可能是理想的。正如所提及的,對學(xué)習(xí)機(jī)的輸出進(jìn)行后處理包括把該輸出解釋為一個(gè)有意義的形式。在一個(gè)回歸問題的環(huán)境中,例如,可能需要確定學(xué)習(xí)機(jī)輸出的范圍分類以便確定輸入數(shù)據(jù)點(diǎn)是否被正確分類。在模式識別問題的例子中,常常不需要對學(xué)習(xí)機(jī)的訓(xùn)練輸出進(jìn)行后處理。
在步驟108,在測試訓(xùn)練學(xué)習(xí)機(jī)的準(zhǔn)備時(shí)隨意地采集測試數(shù)據(jù)??梢詮囊粋€(gè)或多個(gè)本地和/或遠(yuǎn)端源采集測試數(shù)據(jù)。實(shí)際上,可以同時(shí)從同一源(組)中采集測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)。因此,在一個(gè)公用數(shù)據(jù)組之外可以分開測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)組并將其儲(chǔ)存在一個(gè)本地存儲(chǔ)媒體中作為學(xué)習(xí)機(jī)的不同輸入數(shù)據(jù)組而使用。無論測試數(shù)據(jù)如何采集,所使用的任何測試數(shù)據(jù)必須在步驟110與訓(xùn)練數(shù)據(jù)組相同的方式被預(yù)處理。對本領(lǐng)域技術(shù)人員來說應(yīng)該很明顯,只可以通過使用與訓(xùn)練數(shù)據(jù)相同格式的測試數(shù)據(jù)才可實(shí)現(xiàn)一個(gè)適當(dāng)?shù)膶W(xué)習(xí)測試。然后,在步驟112,使用預(yù)處理的測試數(shù)據(jù)來測試學(xué)習(xí)機(jī),如果需要的話。在步驟114中對學(xué)習(xí)機(jī)的測試輸出進(jìn)行隨意地后處理以便確定結(jié)果是否是理想的。同樣,后處理步驟包括把測試輸出解釋為一種有意義的形式。該有意義的形式可以是人類可理解的一種形式或者計(jì)算機(jī)可理解的形式。不管怎樣,測試輸出必須被后處理為可以與測試數(shù)據(jù)進(jìn)行比較的一種形式以便確定結(jié)果是否是理想的。后處理步驟的示例包括但是并不局限如下步驟最佳分類判定,換算技術(shù)(線性和非線性),變換(線性和非線性),以及概率估計(jì)。方法100在步驟116處結(jié)束。
圖2是一個(gè)流程圖,說明了用于提升知識的一個(gè)示例性的方法200,可以使用特種類型的學(xué)習(xí)機(jī)(通常所說的支持向量機(jī)(SVM))從數(shù)據(jù)中發(fā)現(xiàn)該知識。一個(gè)SVM執(zhí)行一個(gè)專門的算法,用于當(dāng)從一個(gè)有限的數(shù)據(jù)采集中估計(jì)一個(gè)多維函數(shù)時(shí)提供歸納。SVM在解決相關(guān)性估計(jì)問題中可能特別有用。更明確地,一個(gè)SVM可以被精確地使用來估計(jì)指示函數(shù)(例如,模式識別問題)和實(shí)值函數(shù)(例如,函數(shù)近似法問題,回歸估計(jì)問題,密度估計(jì)問題以及解決倒數(shù)問題)。SMV最初是被Vladimir N.Vapnik提出的。在他的標(biāo)題為“統(tǒng)計(jì)上的傾斜理論”(StatisticalLeaning Theory)(John Wiley & Sons,Inc.1998)的書中詳細(xì)地解釋了SVM基礎(chǔ)的概念,其在此處通過參考將其全部結(jié)合。因此,在此說明書各處假定了與SVM的相通以及與之一起使用的術(shù)語。
示例性的方法200從開始模塊201開始并前進(jìn)到步驟202,在此,一個(gè)問題被用公式表示,然后到步驟203,此時(shí),一個(gè)訓(xùn)練數(shù)據(jù)組被采集。正如參考圖1描述的一樣,可以通過人工的或自動(dòng)的處理從一個(gè)或多個(gè)本地和/或遠(yuǎn)端源采集訓(xùn)練數(shù)據(jù)。在步驟204,訓(xùn)練數(shù)據(jù)被隨意地預(yù)處理。同樣,對數(shù)據(jù)進(jìn)行預(yù)處理包括通過凈化數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)和/或擴(kuò)展數(shù)據(jù)來提升訓(xùn)練數(shù)據(jù)之內(nèi)的含意。本領(lǐng)域技術(shù)人員應(yīng)該理解,SVM能夠處理具有很大維數(shù)的輸入數(shù)據(jù)。實(shí)際上,輸入數(shù)據(jù)的維數(shù)越大,則一個(gè)SVM能夠計(jì)算的歸納越好。因此,雖然不擴(kuò)展訓(xùn)練數(shù)據(jù)就對數(shù)據(jù)變換進(jìn)行訓(xùn)練是可能的,但是在SVM的特性環(huán)境中最好通過把有意義的信息加到其上來擴(kuò)展訓(xùn)練數(shù)據(jù)。
在步驟206,為SVM選擇一個(gè)內(nèi)核。正如本領(lǐng)域已知的,不同的內(nèi)核將使SVM在輸入數(shù)據(jù)的一個(gè)給定組的輸出中產(chǎn)生不同的質(zhì)量水平。因此,一個(gè)恰當(dāng)?shù)膬?nèi)核的選擇對SVM輸出的期望質(zhì)量來說是很重要的。在本發(fā)明的一個(gè)實(shí)施例中,可以根據(jù)先前的性能知識來選擇一個(gè)內(nèi)核。正如本領(lǐng)域所熟知的,示例性的內(nèi)核包括多項(xiàng)式內(nèi)核,徑向準(zhǔn)則分類內(nèi)核,線性內(nèi)核,等等。在一個(gè)替換實(shí)施例中,可以創(chuàng)建一個(gè)自定義內(nèi)核,其對數(shù)據(jù)組的一個(gè)特定問題或類型來說是特定的。在另一實(shí)施例中,可以同時(shí)地訓(xùn)練并多個(gè)SVM,其每一個(gè)使用不同的內(nèi)核。利用各種可選擇的或加權(quán)的規(guī)格可以比較同時(shí)訓(xùn)練并測試的每個(gè)SVM的輸出質(zhì)量(參見步驟222)以便確定最理想的內(nèi)核。
接下來,在步驟208,把預(yù)處理的訓(xùn)練數(shù)據(jù)輸入SVM中。在步驟210,使用預(yù)處理的訓(xùn)練數(shù)據(jù)來訓(xùn)練SVM以便產(chǎn)生一個(gè)最佳超平面。作為選擇,然后可以在步驟211處對SVM的訓(xùn)練輸出進(jìn)行后處理。同樣,在這一點(diǎn)上訓(xùn)練輸出的后處理可能是理想的,甚至是必需的,以便正常地計(jì)算輸出的范圍或類別。在步驟212,類似于前面的數(shù)據(jù)采集說明來采集測試數(shù)據(jù)。以與上述的訓(xùn)練數(shù)據(jù)相同的方式來在步驟214對測試數(shù)據(jù)進(jìn)行預(yù)處理。然后,在步驟216,把預(yù)處理的測試數(shù)據(jù)輸入SVM處理以便確定本SVM是否按照一種理想的方式被訓(xùn)練。測試輸出在步驟218從SVM收到并在步驟220被隨意地后處理。
根據(jù)后處理的測試輸出,在步驟222確定通過SVM是否獲得一個(gè)最佳最小值。本領(lǐng)域技術(shù)人員應(yīng)該理解,一個(gè)SVM可以操作來確定具有一個(gè)全局最小差錯(cuò)的一個(gè)輸出??墒牵缭谏厦嫠峒暗?,對于一個(gè)給定數(shù)據(jù)組的SVM輸出結(jié)果相對于內(nèi)核的選擇通常將不同。因此,實(shí)際上對于一種給定的數(shù)據(jù)組,存在可以由一個(gè)SVM確定的多個(gè)全局最小值。正如在此處所使用的,術(shù)語“最佳最小值”或“最佳解”是指當(dāng)與SVM確定的其它全局最小值相比時(shí)為最佳的那個(gè)選定的全局最小值(例如,問題特性、預(yù)定標(biāo)準(zhǔn)的一個(gè)給定組的最佳解)。因此,在步驟222確定最佳最小值是否已經(jīng)被確定可以包括把SVM的輸出與一個(gè)歷史的或預(yù)定的值進(jìn)行比較。這樣一個(gè)預(yù)定值可取決于測試數(shù)據(jù)組。例如,在一個(gè)模式識別問題的環(huán)境中,在此,一個(gè)數(shù)據(jù)點(diǎn)被一個(gè)SVM分類為或者具有某一個(gè)特性或者不具有該特性,則50%的全局最小差錯(cuò)將不是最佳的。在這個(gè)例子中,50%的全局最小值幾乎等于通過拋硬幣來確定該數(shù)據(jù)點(diǎn)是否具有某一個(gè)特性而獲得的結(jié)果。作為另外一個(gè)例子,在同時(shí)訓(xùn)練并測試用不同內(nèi)核的多個(gè)SVM的情況中,可以把每個(gè)SVM的輸出與彼此SVM的輸出相比較從而決定特定內(nèi)核組的實(shí)際最佳解。可以手動(dòng)地或者通過一個(gè)自動(dòng)的比較處理來完成一個(gè)最佳解是否已經(jīng)被確定的一個(gè)判定。
如果確定訓(xùn)練的SVM沒有獲得最佳最小值,則本方法前進(jìn)到步驟224,在此調(diào)整內(nèi)核選擇。內(nèi)核選擇的調(diào)整可以包括選擇一個(gè)或多個(gè)新的內(nèi)核或者調(diào)整內(nèi)核參數(shù)。此外,在同時(shí)地訓(xùn)練并測試多個(gè)SVM的情況中,選定的內(nèi)核可以被替換或修改同時(shí)其它內(nèi)核可以被重新用于控制目的。在調(diào)整了內(nèi)核選擇之后,方法200從步驟208重復(fù),在此,把預(yù)處理的訓(xùn)練數(shù)據(jù)輸入SVM用于訓(xùn)練目的。當(dāng)確定在步驟222處已經(jīng)獲得了最佳最小值時(shí),該方法前進(jìn)到步驟226,在此與上述類似地采集實(shí)用數(shù)據(jù)。相對于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)為已知的期望的輸出特性相對于實(shí)用數(shù)據(jù)不是已知的。
在步驟228處以與訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)相同的方式對實(shí)用數(shù)據(jù)進(jìn)行預(yù)處理。在步驟230,把預(yù)處理的實(shí)用數(shù)據(jù)輸入SVM中用于處理。在步驟232接收SVM的實(shí)用輸出并在步驟234對其進(jìn)行后處理。在本發(fā)明的一個(gè)實(shí)施例中,后處理包括把SVM的輸出轉(zhuǎn)換為計(jì)算導(dǎo)出的字母數(shù)字分類,用于由人類或計(jì)算機(jī)解釋。最好,字母數(shù)字分類包括人類或計(jì)算機(jī)可輕易理解的單個(gè)數(shù)值。方法200在步驟236處結(jié)束。
圖3是一個(gè)流程圖,說明了按照本發(fā)明的一個(gè)示例性實(shí)施例的一個(gè)示例性的最佳分類方法300,其可以被用于對數(shù)據(jù)進(jìn)行預(yù)處理或?qū)碜詫W(xué)習(xí)機(jī)的輸出進(jìn)行后處理。另外,如在下面將描述的,示例性的最佳分類方法可以被使用作為一個(gè)獨(dú)立的分類技術(shù),獨(dú)立于學(xué)習(xí)機(jī)。示例性的最佳分類方法300從開始模塊301開始并前進(jìn)到步驟302,在此,一個(gè)輸入數(shù)據(jù)組被接收。輸入數(shù)據(jù)組包括來自一個(gè)連續(xù)變量的一個(gè)數(shù)據(jù)抽樣序列。數(shù)據(jù)抽樣落在兩個(gè)或多個(gè)分類類別之內(nèi)。接下來,在步驟304處,庫和分類跟蹤變量被初始化。正如本領(lǐng)域所熟知的,庫變量涉及分辨率而類別跟蹤變量涉及數(shù)據(jù)組內(nèi)部的分類數(shù)量??梢允謩?dòng)地或者通過諸如來自分析輸入數(shù)據(jù)組的一個(gè)計(jì)算機(jī)程序的一個(gè)自動(dòng)處理來完成確定用于把庫和分類跟蹤變量初始化的數(shù)值。在步驟306,每個(gè)庫的數(shù)據(jù)熵被計(jì)算出。熵是一個(gè)數(shù)學(xué)數(shù)值,其測量一個(gè)隨機(jī)分布的不確定度。在示例性的方法300中,熵用于測量輸入變量的等級以使獲得最大分類性能。
方法300在連續(xù)變量上產(chǎn)生一系列的“切割”,以致連續(xù)變量可以被分成離散類別。由示例性的方法300選擇的切割感覺上是最佳的,每個(gè)結(jié)果的離散類別的平均熵被最小化。在步驟308,判定是否所有的切割已經(jīng)被放置在包括該連續(xù)變量的輸入數(shù)據(jù)組內(nèi)。如果沒有把所有的切割放置好,則在步驟310為截止判定而測試順序的庫組合。從步驟310,示例性的方法300循環(huán)返回通過步驟306并返回到步驟308,在此再一次確定是否所有的切割已經(jīng)被放置在包括該連續(xù)變量的輸入數(shù)據(jù)組之內(nèi)。當(dāng)所有的切割已經(jīng)被放置好時(shí),則在步驟309估計(jì)整個(gè)系統(tǒng)的熵并將其與來自測試更多或更少的切割的早先結(jié)果進(jìn)行比較。如果不能斷定最小的熵狀態(tài)已經(jīng)被確定,那么必須估計(jì)其它可能的切割選擇并且該方法繼續(xù)到步驟311。從步驟311起,一個(gè)迄今未測試過的切割數(shù)量的選擇被選擇并從步驟304起重復(fù)上面的處理。當(dāng)由庫寬度確定的分辨率界限已經(jīng)被測試或者向一個(gè)最小解的收斂已經(jīng)被識別時(shí),則在步驟312輸出最佳的分類標(biāo)準(zhǔn)并且該示例性的最佳分類方法300在步驟314結(jié)束。
該最佳的分類方法300充分利用了動(dòng)態(tài)規(guī)劃技術(shù)。正如本領(lǐng)域所已知的,通過把一個(gè)算法認(rèn)真地結(jié)構(gòu)化,動(dòng)態(tài)規(guī)劃技術(shù)可用來顯著改良解決某一復(fù)雜問題的效率從而減少冗余計(jì)算。在最佳分類問題中,通過在連續(xù)變量數(shù)據(jù)中所有可能的切割來徹底搜索的直接方法將導(dǎo)致具有指數(shù)復(fù)雜性的一個(gè)算法并且將使得問題難處理,即使是中等大小的輸入。通過充分利用目標(biāo)函數(shù)的相加性、在此問題中平均熵,則該問題可以被分為一系列子問題。通過適當(dāng)?shù)赜霉奖硎窘鉀Q每個(gè)子問題的子結(jié)構(gòu)以及儲(chǔ)存該子問題的解,則可以識別并避免了大量的冗余計(jì)算。使用動(dòng)態(tài)規(guī)劃方法其結(jié)果是示例性的最佳分類方法300可以作為具有一個(gè)多項(xiàng)式復(fù)雜性的一種算法而被執(zhí)行,它可被用來解決大尺寸的問題。
正如在上面所提及的,示例性的最佳分類方法300可以被使用于對數(shù)據(jù)進(jìn)行預(yù)處理和/或?qū)W(xué)習(xí)機(jī)的輸出進(jìn)行后處理。例如,作為一個(gè)預(yù)處理變換步驟,示例性的最佳分類方法300可被用來從原始數(shù)據(jù)中提取分類信息。作為一種后處理技術(shù),示例性的最佳范圍分類方法可被用來確定客觀的基于數(shù)據(jù)的標(biāo)識器的最佳截止數(shù)值。很明顯,示例性的最佳分類方法300已經(jīng)應(yīng)用在模式識別、分類、回歸問題等等之中。示例性的最佳分類方法300還可以被使用作為一種獨(dú)立的分類技術(shù),與SVM和其它學(xué)習(xí)機(jī)相獨(dú)立。最佳分類方法300的一個(gè)示例性的獨(dú)立應(yīng)用將參考圖8進(jìn)行描述。
圖4說明了一種示例性的未擴(kuò)展數(shù)據(jù)組400,其可以作為支持向量機(jī)的輸入而被使用。這個(gè)數(shù)據(jù)組400被稱為“未擴(kuò)展的”,因?yàn)闆]有附加信息被附加到其上。正圖所示,未擴(kuò)展的數(shù)據(jù)組包括一個(gè)訓(xùn)練數(shù)據(jù)組402和一個(gè)測試數(shù)據(jù)組404。未擴(kuò)展的訓(xùn)練數(shù)據(jù)組402和未擴(kuò)展的測試數(shù)據(jù)組404包括諸如示例性的數(shù)據(jù)點(diǎn)406,與來自抽樣的內(nèi)科病人的歷史臨床數(shù)據(jù)有關(guān)。數(shù)據(jù)組400可被用來訓(xùn)練一個(gè)SVM以便確定一個(gè)乳癌病人是否將經(jīng)歷復(fù)發(fā)。
每一數(shù)據(jù)點(diǎn)包括五個(gè)輸入坐標(biāo)或維數(shù)和輸出分類,如圖406a-f所示,輸出分類表示為每個(gè)病人采集的醫(yī)學(xué)數(shù)據(jù)。具體地,第一坐標(biāo)406a表示“年齡”,第二坐標(biāo)406b表示“雌激素受體水平”,第三坐標(biāo)406c表示“荷爾蒙接收器水平”,第四坐標(biāo)406d表示“提取的正(癌)淋巴結(jié)”,輸出分類406f表示“復(fù)發(fā)分類”。數(shù)據(jù)400重要的已知特性是輸出分類406f(復(fù)發(fā)分類),在這個(gè)例子中,它表示被抽樣的內(nèi)科病人順利地響應(yīng)醫(yī)療處理而沒有癌復(fù)發(fā)(“-1”)或者消極地響應(yīng)醫(yī)療處理而具有癌復(fù)發(fā)(“1”)。此已知的特性將被用于學(xué)習(xí)同時(shí)處理SVM中的訓(xùn)練數(shù)據(jù),在把測試數(shù)據(jù)輸入SVM中之后將以一種可估計(jì)的形式被使用從而產(chǎn)生一個(gè)“盲的”測試,并且在當(dāng)前的內(nèi)科病人的實(shí)用數(shù)據(jù)中將明顯是未知的。
圖5說明了一個(gè)示例性的測試輸出502,其來自利用如圖4所示的未擴(kuò)展的訓(xùn)練數(shù)據(jù)402訓(xùn)練并且利用未擴(kuò)展的數(shù)據(jù)組404測試的一個(gè)SVM中。測試輸出502已經(jīng)被后處理以便可被人類或計(jì)算機(jī)理解。正如所指出的,測試輸出502說明總共24個(gè)抽樣(數(shù)據(jù)點(diǎn))被SVM檢查并且該SVM錯(cuò)誤地識別八個(gè)正抽樣中的四個(gè)(50%)并且錯(cuò)誤地識別十六個(gè)負(fù)抽樣中的6個(gè)(37.5%)。
圖6說明了一種示例性的擴(kuò)展數(shù)據(jù)組600,其可以被使用作為支持向量機(jī)的輸入。這個(gè)數(shù)據(jù)組600被稱為“擴(kuò)展的”,因?yàn)楦郊有畔⒁呀?jīng)被附加到其上。注意,除附加信息以外,該擴(kuò)展的數(shù)據(jù)組600與如圖4所示的未擴(kuò)展的數(shù)據(jù)組400相同。參考圖3描述的示例性的最佳范圍分類方法300已經(jīng)提供了提供給該擴(kuò)展數(shù)據(jù)組的該附加信息。如圖所示,擴(kuò)展的數(shù)據(jù)組包括一個(gè)訓(xùn)練數(shù)據(jù)組602和一個(gè)測試數(shù)據(jù)組604。擴(kuò)展的訓(xùn)練數(shù)據(jù)組602和擴(kuò)展的測試數(shù)據(jù)組604包括諸如示例性的數(shù)據(jù)點(diǎn)606,與來自抽樣的內(nèi)科病人的歷史臨床數(shù)據(jù)有關(guān)。同樣,數(shù)據(jù)組600可被用來訓(xùn)練一個(gè)SVM以便學(xué)會(huì)一個(gè)乳癌病人是否將經(jīng)歷復(fù)發(fā)。
通過示例性的最佳分類方法300的應(yīng)用,每個(gè)被擴(kuò)展的數(shù)據(jù)點(diǎn)數(shù)據(jù)點(diǎn)包括二十個(gè)坐標(biāo)(或維數(shù))606a1-3一直到606e1-3,和一個(gè)輸出分類606f,它們共同地表示每個(gè)病人的醫(yī)學(xué)數(shù)據(jù)及其分類變換。具體地,第一坐標(biāo)606a表示“年齡”,第二坐標(biāo)一直到第四坐標(biāo)606a1-606a3是組合來表示一個(gè)年齡類別的變量。例如,一個(gè)年齡范圍可以被分類為“青年”、“中年”和“老年”類別,針對數(shù)據(jù)中出現(xiàn)的各種年齡范圍。如圖所示,一串變量“0”(606a1)、“0”(606a2)、“1”(606a3)可用來表示某一個(gè)年齡值被分類為“老年”。同樣地,一串變量“0”(606a1)、“1”(606a2)、“0”(606a3)可用來表示某一個(gè)年齡值被分類為“中年”。同時(shí),一串變量“1”(606a1)、“0”(606a2)、“0”(606a3)可用來表示某一個(gè)年齡值被分類為“青年”。從圖6的一個(gè)檢查中可以看出使用示例性的方法300把“年齡”606a數(shù)值的范圍的最佳分類確定為31-33=“青年”,34=“中年”,以及35-49=“老年”。其它坐標(biāo),即坐標(biāo)606b“雌激素受體水平”、坐標(biāo)606c“荷爾蒙受體水平”、坐標(biāo)606d“提取的總的淋巴結(jié)”、以及坐標(biāo)606e“提取的正(癌)淋巴結(jié)”,每個(gè)都已經(jīng)以一種類似的方式被最佳分類。
圖7說明了一個(gè)示例性的擴(kuò)展的測試輸出702,其來自利用如圖6所示的擴(kuò)展的訓(xùn)練數(shù)據(jù)602訓(xùn)練并且利用擴(kuò)展的數(shù)據(jù)組604測試的一個(gè)SVM中。擴(kuò)展的測試輸出702已經(jīng)被后處理以便可被人類或計(jì)算機(jī)理解。正如所指出的,擴(kuò)展的測試輸出702說明總共24個(gè)抽樣(數(shù)據(jù)點(diǎn))被SVM檢查并且該SVM錯(cuò)誤地識別八個(gè)正抽樣中的四個(gè)(50%)并且錯(cuò)誤地識別十六個(gè)負(fù)抽樣中的四個(gè)(25%)。因此,通過把此擴(kuò)展的測試輸出702與圖5未擴(kuò)展的測試輸出502進(jìn)行比較可以看出數(shù)據(jù)點(diǎn)的擴(kuò)展得到改良的結(jié)果(即,一個(gè)較低的全局最小差錯(cuò)),特別是減少那些不必要地蒙受追蹤癌處理的病人的實(shí)例。
圖8說明了圖3中描述的最佳分類方法300的一個(gè)獨(dú)立應(yīng)用的示例性輸入和輸出。在圖8的例子中,輸入數(shù)據(jù)組801包括一個(gè)“正淋巴結(jié)數(shù)量”802和一個(gè)相應(yīng)的“復(fù)發(fā)分類”804。在這個(gè)例子中,最佳分類方法300已經(jīng)被應(yīng)用到輸入數(shù)據(jù)組801中以便定位癌復(fù)發(fā)處理判定的最佳截止點(diǎn),完全以后外科的一連串抽樣中采集的陽淋巴結(jié)數(shù)量為基礎(chǔ)。熟知的臨床標(biāo)準(zhǔn)用來規(guī)定處理具有至少三個(gè)正節(jié)點(diǎn)的任何病人。可是,最佳分類方法300證明以輸入數(shù)據(jù)801為基礎(chǔ),最佳截止806應(yīng)該在較高數(shù)值的5.5淋巴結(jié)處,它符合規(guī)定對具有至少六個(gè)正淋巴結(jié)的病人的追蹤處理的一條臨床規(guī)則。
如對比表808所示,現(xiàn)有技術(shù)接受的臨床截止點(diǎn)(>3.0)導(dǎo)致47%正確分類的復(fù)發(fā)和71%正確分類的非復(fù)發(fā)。因此,53%的復(fù)發(fā)被錯(cuò)誤地分類(進(jìn)一步處理沒有被錯(cuò)誤地推薦)并且29%的非復(fù)發(fā)被錯(cuò)誤地分類(進(jìn)一步處理被錯(cuò)誤地推薦)。相反,通過最佳分類方法300確定的截止點(diǎn)(>5.5)導(dǎo)致33%正確分類的復(fù)發(fā)和97%正確分類的非復(fù)發(fā)。因此,67%的復(fù)發(fā)被錯(cuò)誤地分類(進(jìn)一步處理沒有被錯(cuò)誤地推薦)并且3%的非復(fù)發(fā)被錯(cuò)誤地分類(進(jìn)一步處理被錯(cuò)誤地推薦)。
本示例所示,使用示例性的最佳分類方法300,可以達(dá)到對可以避免后外科的癌處理方式的那些病人進(jìn)行較高正確地識別的實(shí)例。即使由最佳分類方法300確定的截止點(diǎn)產(chǎn)生錯(cuò)誤分類復(fù)發(fā)的一個(gè)適度較高的百分比,它也產(chǎn)生錯(cuò)誤分類非復(fù)發(fā)的一個(gè)顯著較低的百分比。因此,考慮到交換,并且實(shí)現(xiàn)最優(yōu)化問題目的為避免不必要處理,由最佳分類方法300確定的截止點(diǎn)算術(shù)上優(yōu)于現(xiàn)有技術(shù)的那些臨床的截止點(diǎn)。這類信息非??赡芾迷谙虿∪颂峁┝硗獾亩床炝碓谠馐苤T如化學(xué)療法或者冒乳癌復(fù)發(fā)的危險(xiǎn)之間衡量選擇。
圖9是來自包括一個(gè)線性內(nèi)核的第一支持向量機(jī)和包括一個(gè)多項(xiàng)式內(nèi)核的第二支持向量機(jī)中的示例性后處理輸出一個(gè)比較。圖9證明了內(nèi)核選擇中的一個(gè)變化可以影響SVM輸出質(zhì)量的水平。如圖所示,包括一個(gè)線性點(diǎn)乘內(nèi)核的第一SVM902的后處理輸出表示一個(gè)給定的二十四個(gè)抽樣的測試組,八個(gè)正抽樣的六個(gè)被錯(cuò)誤地識別并且十六個(gè)負(fù)抽樣的三個(gè)被錯(cuò)誤地識別。通過對比,包括一個(gè)多項(xiàng)式內(nèi)核的第二SVM904的后處理輸出表示對于同一測試組,八個(gè)正抽樣的只有兩個(gè)被錯(cuò)誤地識別和十六個(gè)負(fù)抽樣的四個(gè)被識別。通過對比,多項(xiàng)式內(nèi)核產(chǎn)生與正抽樣識別有關(guān)的顯著改良的結(jié)果而產(chǎn)生與負(fù)抽樣識別有關(guān)的僅僅稍微更惡劣的結(jié)果。因此,對本領(lǐng)域的技術(shù)人員來說很明顯,多項(xiàng)式內(nèi)核的全局最小差錯(cuò)比這個(gè)數(shù)據(jù)組的線性內(nèi)核的全局最小差錯(cuò)更低。
圖10和下列討論想要來提供用于執(zhí)行本發(fā)明的一種適當(dāng)?shù)挠?jì)算環(huán)境的一個(gè)簡短而概括的說明。雖然如圖10所示的系統(tǒng)是一個(gè)傳統(tǒng)的個(gè)人計(jì)算機(jī)1000,但是本領(lǐng)域的技術(shù)人員將承認(rèn)也可以使用其它類型的計(jì)算機(jī)系統(tǒng)配置來執(zhí)行本發(fā)明。計(jì)算機(jī)1000包括一個(gè)中央處理器1022,一個(gè)系統(tǒng)存儲(chǔ)器1020,以及一個(gè)輸入輸出(“I/O”)總線1026。系統(tǒng)總線1021把中央處理器1022耦合到系統(tǒng)存儲(chǔ)器020。總線控制器1023控制I/O總線1026上和在中央處理器1022與各種內(nèi)部和外部I/O設(shè)備之間的數(shù)據(jù)流。已連接到I/O總線1026上的I/O設(shè)備可以使用一種直接存儲(chǔ)器存取(“DMA”)控制器1024來對系統(tǒng)存儲(chǔ)器1020直接存取。
I/O設(shè)備通過一組設(shè)備接口連接到I/O總線1026。設(shè)備接口可以包括硬件組件和軟件組件。例如,用于對可拆卸的媒體1050進(jìn)行讀寫的一個(gè)硬盤驅(qū)動(dòng)器1030和一個(gè)軟盤驅(qū)動(dòng)器1032可以通過磁盤驅(qū)動(dòng)器控制器1040連接到I/O總線1026??梢允褂靡环N小型的計(jì)算機(jī)系統(tǒng)接口(“SCSI”)1041來把用于對光媒體進(jìn)行讀寫的一個(gè)光盤驅(qū)動(dòng)器1034連接到I/O總線1026。可替代地,一個(gè)IDE(ATAPI)或EIDE接口可以與諸如可能為具有CD-ROM驅(qū)動(dòng)器的外殼之類的一個(gè)光盤驅(qū)動(dòng)器相關(guān)。驅(qū)動(dòng)器和它們相關(guān)的計(jì)算機(jī)可讀媒體為計(jì)算機(jī)1000提供非易失性儲(chǔ)存。除了上述的計(jì)算機(jī)可讀媒體之外,其它類型的計(jì)算機(jī)可讀媒體也可以被使用,例如ZIP驅(qū)動(dòng)器等等。
諸如監(jiān)視器之類的一個(gè)顯示設(shè)備1053通過諸如一個(gè)視頻適配器1042之類的另外一個(gè)接口連接到I/O總線1026。一個(gè)并行接口1043把諸如激光打印機(jī)1056之類的同步外圍設(shè)備連接到I/O總線1026。一個(gè)串行接口1044把通信設(shè)備連接到I/O總線1026。用戶可以通過串行接口1044或者通過使用諸如鍵盤1038、鼠標(biāo)1036或調(diào)制解調(diào)器1057之類的一個(gè)輸入設(shè)備來把命令和信息輸入計(jì)算機(jī)1000。其它外圍設(shè)備(未示出)也可以連接到計(jì)算機(jī)1000,例如音頻輸入輸出設(shè)備或圖像捕獲設(shè)備。
若干程序模塊可以被儲(chǔ)存在驅(qū)動(dòng)上以及系統(tǒng)存儲(chǔ)器1020中。系統(tǒng)存儲(chǔ)器1020可以包括隨機(jī)訪問存儲(chǔ)器(″RAM″)和只讀存儲(chǔ)器(″ROM″)。程序模塊利用I/O設(shè)備或者利用其它計(jì)算機(jī)來控制計(jì)算機(jī)1000如何起作用以及如何與用戶交互作用。程序模塊包括分程序、操作系統(tǒng)1065、應(yīng)用程序、數(shù)據(jù)結(jié)構(gòu)、以及其它軟件或固件組件。在一個(gè)說明實(shí)施例中,本發(fā)明可以包括一個(gè)或多個(gè)預(yù)處理程序模塊1075A,一個(gè)或多個(gè)后處理程序模塊1075B和/或一個(gè)或多個(gè)最佳分類程序模塊1077和一個(gè)或多個(gè)SVM程序模塊1070,儲(chǔ)存在驅(qū)動(dòng)上或計(jì)算機(jī)1000的系統(tǒng)存儲(chǔ)器1020中。明確地,預(yù)處理程序模塊1075A、后處理程序模塊1075B和SVM程序模塊1070可以包括計(jì)算機(jī)可執(zhí)行指令,用于對數(shù)據(jù)進(jìn)行預(yù)處理并對來自學(xué)習(xí)機(jī)的輸出進(jìn)行后處理并且執(zhí)行按照參考圖1和2描述的示例性方法的學(xué)習(xí)算法。此外,最佳分類程序模塊1077可以包括計(jì)算機(jī)可執(zhí)行指令,用于按照參考圖3描述的示例性方法對一個(gè)數(shù)據(jù)組進(jìn)行最佳分類。
使用對諸如遠(yuǎn)程計(jì)算機(jī)1060之類的一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)的邏輯連接,計(jì)算機(jī)1000就可以操作在一個(gè)網(wǎng)絡(luò)環(huán)境中。遠(yuǎn)程計(jì)算機(jī)1060可以是一個(gè)服務(wù)器,一個(gè)路由器,一個(gè)同等的設(shè)備或者其它公用網(wǎng)絡(luò)節(jié)點(diǎn),并且通常包括有關(guān)于計(jì)算機(jī)1000所描述的許多或者所有元件。在一個(gè)網(wǎng)絡(luò)環(huán)境中,程序模塊和數(shù)據(jù)可以被儲(chǔ)存在遠(yuǎn)程計(jì)算機(jī)1060上。圖10中描述的邏輯連接包括一個(gè)局域網(wǎng)(“LAN”)1054和一個(gè)廣域網(wǎng)(“WAN”)1055。在一個(gè)局域網(wǎng)環(huán)境中,諸如以太網(wǎng)卡之類的一個(gè)網(wǎng)絡(luò)接口1045可用于把計(jì)算機(jī)1000連接到遠(yuǎn)程計(jì)算機(jī)1060。在一個(gè)廣域網(wǎng)環(huán)境中,計(jì)算機(jī)1000可以使用諸如調(diào)制解調(diào)器1057之類的一個(gè)電信設(shè)備來建立一個(gè)連接。應(yīng)該理解,所示出的網(wǎng)絡(luò)連接是說明性的并且可以使用在計(jì)算機(jī)之間建立通信鏈路的其它設(shè)備。
圖11是一個(gè)功能方框圖,說明了實(shí)現(xiàn)本發(fā)明的一個(gè)替換的示例性操作環(huán)境。本發(fā)明可以在多個(gè)計(jì)算機(jī)系統(tǒng)的專門配置中實(shí)現(xiàn)。多個(gè)計(jì)算機(jī)系統(tǒng)的專門配置的一個(gè)例子在此被稱為BIOWulfTMSupport VectorProcessor(BSVP)(支持向量處理器)。BSVP把并行計(jì)算硬件技術(shù)中的最新進(jìn)步與模式識別、回歸估計(jì)以及密度估計(jì)中的最新數(shù)學(xué)進(jìn)步結(jié)合在一起。雖然這些技術(shù)的組合是唯一且新穎的實(shí)現(xiàn),但是該硬件結(jié)構(gòu)是以NASA Goddard Space Flight Center(太空總署Goddard太空航行中心)最早的Beowulf巨型計(jì)算機(jī)實(shí)現(xiàn)為基礎(chǔ)的。
BSVP提供加快SVM訓(xùn)練所必需的大型并行計(jì)算能力和對大規(guī)模數(shù)據(jù)組的估計(jì)。BSVP包括一個(gè)雙重并行硬件結(jié)構(gòu)和自定義并行軟件以便實(shí)現(xiàn)多線程和信息傳遞的有效應(yīng)用從而有效地識別實(shí)際應(yīng)用中的支持向量。硬件和軟件的最優(yōu)化使BSVP顯著優(yōu)于標(biāo)準(zhǔn)的SVM實(shí)現(xiàn)。此外,隨著商品計(jì)算技術(shù)的發(fā)展,通過BSVP在開放源軟件和標(biāo)準(zhǔn)化接口技術(shù)中的基礎(chǔ)可保證BSVP的升級性。未來的計(jì)算平臺(tái)和網(wǎng)絡(luò)技術(shù)可以被同化到BSVP中,因?yàn)樗鼈儗浖?shí)現(xiàn)成本無影響而變得有效。
如圖11所示,BSVP包括具有二十個(gè)處理節(jié)點(diǎn)1104a-t的一個(gè)Beowulf型超級計(jì)算群集和一個(gè)主節(jié)點(diǎn)1112。處理節(jié)點(diǎn)1104a-j通過交換機(jī)1102a互連,而處理節(jié)點(diǎn)1104k-t通過交換機(jī)1102b互連。主節(jié)點(diǎn)1112通過一個(gè)適當(dāng)?shù)囊蕴W(wǎng)電纜1114連接到網(wǎng)絡(luò)交換機(jī)1102a或1102b(示出了1102a)的其中之一上。同時(shí),交換機(jī)1102a和交換機(jī)1102b通過一個(gè)適當(dāng)?shù)囊蕴W(wǎng)電纜1114彼此連接以使所有的二十個(gè)處理節(jié)點(diǎn)1104a-t和主節(jié)點(diǎn)1112互相有效地通信。交換機(jī)1102a和1102b最好包括快速以太網(wǎng)互相連接。通過Beowulf巨型計(jì)算機(jī)的信息傳遞多個(gè)機(jī)器并行結(jié)構(gòu)的實(shí)現(xiàn)以及把一個(gè)高性能雙重處理器SMP計(jì)算機(jī)利用為主節(jié)點(diǎn)1112來實(shí)現(xiàn)BSVP的雙重并行結(jié)構(gòu)。
在這個(gè)示例性的結(jié)構(gòu)中,主節(jié)點(diǎn)1112包含無縫多元處理器SMP技術(shù)并且包括一個(gè)基于雙倍的450Mhz奔騰II Xeon的機(jī)器,具有18GB的提升型SCSI存儲(chǔ)器,256MB內(nèi)存,兩個(gè)100M比特/秒NIC,以及一個(gè)24GB DAT網(wǎng)絡(luò)備份磁帶設(shè)備。主節(jié)點(diǎn)1112在Linux下執(zhí)行NIS、MPL和/或PMV來管理BSVP的動(dòng)作。主節(jié)點(diǎn)1112還在BSVP和外部世界之間提供網(wǎng)關(guān)。同樣地,BSVP的內(nèi)部網(wǎng)絡(luò)與外部交互作用相孤立,這允許整個(gè)群集作為單個(gè)機(jī)器出現(xiàn)來起作用。
二十個(gè)處理節(jié)點(diǎn)1104a-t是相同配置的計(jì)算機(jī),包含150MHz奔騰處理器,32MB RAM,850MB HDD,1.44MB FDD以及一個(gè)快速以太網(wǎng)mb100Mb/sNIC。處理節(jié)點(diǎn)1104a-t互相互連并且通過TCP/IP通過NFS連接與主節(jié)點(diǎn)互連。除了BSVP計(jì)算之外,處理節(jié)點(diǎn)被配置來通過一個(gè)附加組的監(jiān)視器提供示范性能,每個(gè)節(jié)點(diǎn)的鍵盤和鼠標(biāo)通過KVM交換機(jī)1108a和1108b被路由到單個(gè)鍵盤設(shè)備和單個(gè)鼠標(biāo)設(shè)備。
軟件自定義和改進(jìn)允許BSVP上的動(dòng)作的最優(yōu)化。在部分SVM處理中的并行性以最有利的方式通過BSVP硬件提供的混合并行化而被利用。軟件實(shí)現(xiàn)了從原始數(shù)據(jù)到執(zhí)行解的完整周期支持。一個(gè)數(shù)據(jù)庫引擎提供對原始數(shù)據(jù)進(jìn)行預(yù)處理所需要的存儲(chǔ)器和適應(yīng)性。自定義開發(fā)分程序把SVM訓(xùn)練之前的數(shù)據(jù)預(yù)處理自動(dòng)化。多個(gè)變換和數(shù)據(jù)處理在數(shù)據(jù)庫環(huán)境內(nèi)完成以便產(chǎn)生候選訓(xùn)練數(shù)據(jù)。
BSVP的峰值理論處理性能為3.90GFLOPS?;谔湛偸餑oddard太空航行中心在它們的Beowulf型機(jī)器上執(zhí)行的基準(zhǔn)點(diǎn),預(yù)期的實(shí)際性能應(yīng)該大約為1.56GFLOPS。因此,使用此Beowulf型群集機(jī)器中的商品組件計(jì)算能力所達(dá)到的性能符合諸如Cray J932/8之類的巨型計(jì)算機(jī)的性能。另外研究和學(xué)院體系中的Beowulf測試表示在二十個(gè)節(jié)點(diǎn)Beowulf群集上,通常可以達(dá)到按18倍于單個(gè)處理器的一個(gè)順序的一個(gè)性能。例如,在單個(gè)奔騰處理器計(jì)算機(jī)上需要17分45秒時(shí)鐘時(shí)間的一個(gè)最優(yōu)化問題在具有20個(gè)節(jié)點(diǎn)的Beowulf上以59秒解決。因此,BSVP的高性能性質(zhì)能夠?qū)嶋H分析當(dāng)前認(rèn)為非常麻煩而不能被傳統(tǒng)計(jì)算機(jī)系統(tǒng)處理的數(shù)據(jù)組。
BSVP巨大的計(jì)算能力使得它特別適用于并行地執(zhí)行多個(gè)SVM從而解決涉及大數(shù)量輸入的現(xiàn)實(shí)問題。通常的SVM和特別的BSVP的有用性示例包括遺傳研究,特別是人類基因組計(jì)劃;管理維護(hù)效率的估計(jì);治療學(xué)的判斷和跟蹤;適當(dāng)?shù)闹委煂W(xué)篩余;配藥學(xué)的開發(fā)技術(shù);分子結(jié)構(gòu)的發(fā)現(xiàn);預(yù)測估計(jì);醫(yī)學(xué)信息學(xué);付款欺詐檢測;庫存控制;股票估計(jì)和預(yù)測;商品估計(jì)和預(yù)測;以及保險(xiǎn)概率估計(jì)。
本領(lǐng)域技術(shù)人員應(yīng)該理解,上述的BSVP結(jié)構(gòu)實(shí)際上是說明性的而不是意欲限制本發(fā)明的范圍。例如,二十個(gè)處理節(jié)點(diǎn)的選擇是以熟知的Beowulf結(jié)構(gòu)為基礎(chǔ)的??墒牵迷鰷p二十個(gè)處理節(jié)點(diǎn)可以交替地執(zhí)行該BSVP。此外,上述具體的硬件和軟件組件僅僅是作為例子。正如所提及的,本發(fā)明的BSVP實(shí)施例被配置來與替換的和/或未來的硬件和軟件組件兼容。
圖12是一個(gè)功能方框圖,說明了用于實(shí)現(xiàn)本發(fā)明的另外一個(gè)替換實(shí)施例的示例性網(wǎng)絡(luò)操作環(huán)境。在這個(gè)示例性的網(wǎng)絡(luò)操作環(huán)境中,顧客1202或其它實(shí)體可以通過諸如互聯(lián)網(wǎng)1204之類的一個(gè)分布式計(jì)算機(jī)網(wǎng)路發(fā)送數(shù)據(jù)給廠家1212。本領(lǐng)域技術(shù)人員應(yīng)該理解,顧客1202可以從包括或與一個(gè)通信設(shè)備和一個(gè)數(shù)據(jù)存儲(chǔ)設(shè)備通信的任何類型的計(jì)算機(jī)或?qū)嶒?yàn)室儀器來發(fā)送數(shù)據(jù)。從顧客1202發(fā)送的數(shù)據(jù)可以是由學(xué)習(xí)機(jī)處理的訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)和/或?qū)嵱脭?shù)據(jù)。由顧客發(fā)送的數(shù)據(jù)在廠家的Web服務(wù)器1206處被接收,Web服務(wù)器1206可以通過一個(gè)內(nèi)部網(wǎng)絡(luò)1214a-b把該數(shù)據(jù)發(fā)送給一個(gè)或多個(gè)學(xué)習(xí)機(jī)。正如先前描述的,學(xué)習(xí)機(jī)可以包括SVMs、BSVPs1100、神經(jīng)網(wǎng)絡(luò)、其它學(xué)習(xí)機(jī)或它們的組合。優(yōu)選地,Web服務(wù)器1206通過一個(gè)防火墻1208或其它安全系統(tǒng)與學(xué)習(xí)機(jī)(組)相孤立。廠家1212也可以通過互聯(lián)網(wǎng)1204或任何專用或所要求的通信鏈路來與一個(gè)或多個(gè)財(cái)務(wù)體系1210通信。Web服務(wù)器1206或其它通信設(shè)備可以處理與該一個(gè)或多個(gè)財(cái)務(wù)體系的通信。財(cái)務(wù)機(jī)構(gòu)(組)可以包括銀行、互聯(lián)網(wǎng)銀行、票據(jù)交換所、貸款或自動(dòng)提款卡公司等等。
在操作時(shí),廠家可以通過主機(jī)在web服務(wù)器1206或者與該web服務(wù)器1206通信的另外一個(gè)服務(wù)器處的一個(gè)web站點(diǎn)來提供學(xué)習(xí)機(jī)處理業(yè)務(wù)。顧客1202可以發(fā)送數(shù)據(jù)給Web服務(wù)器1206以便由學(xué)習(xí)機(jī)進(jìn)行處理。顧客1202還可以發(fā)送諸如用戶名、密碼和/或財(cái)務(wù)賬目標(biāo)識符之類的識別信息給web服務(wù)器。響應(yīng)于接收數(shù)據(jù)和識別信息,Web服務(wù)器1206可以在一個(gè)財(cái)務(wù)機(jī)構(gòu)1210處從顧客1202保存或授權(quán)的一個(gè)財(cái)務(wù)賬目中電子地取回一個(gè)預(yù)確定數(shù)量的資金。另外,Web服務(wù)器可以發(fā)送顧客的數(shù)據(jù)到BSVP1100或其它學(xué)習(xí)機(jī)。當(dāng)BSVP1100已經(jīng)完成數(shù)據(jù)的處理和輸出的后處理時(shí),后處理的輸出被返回到web服務(wù)器1206。如前所述,來自學(xué)習(xí)機(jī)的輸出可以被后處理以便產(chǎn)生單值或多值的、計(jì)算導(dǎo)出的字母數(shù)字分類,用于人類或自動(dòng)的解釋。Web服務(wù)器1206然后可以確保在通過互聯(lián)網(wǎng)1204把后處理的輸出發(fā)送回到顧客1202之前已經(jīng)保證了來自顧客的付款。
SVMs可用來解決多種多樣的現(xiàn)實(shí)問題。例如,SVMs可在分析賬目和存貨數(shù)據(jù)、股票和商品市場數(shù)據(jù)、保險(xiǎn)數(shù)據(jù)、醫(yī)學(xué)數(shù)據(jù)等等方面具有實(shí)用性。同樣地,如上所述的網(wǎng)絡(luò)環(huán)境在許多工業(yè)和市場部分中具有廣泛的實(shí)用性。在存貨數(shù)據(jù)分析環(huán)境中,例如,顧客可能是一個(gè)零售商。該零售商可以以預(yù)確定次數(shù)提供存貨和核查數(shù)據(jù)給Web服務(wù)器1206。該存貨和核查數(shù)據(jù)可以由BSVP和/或一個(gè)或多個(gè)其它學(xué)習(xí)機(jī)來處理以便估計(jì)零售商的存貨需求。同樣地,在醫(yī)學(xué)數(shù)據(jù)分析的環(huán)境中,顧客可能是一個(gè)醫(yī)學(xué)實(shí)驗(yàn)室并且可以把從病人身上采集實(shí)用數(shù)據(jù)發(fā)送給Web服務(wù)器1206同時(shí)該病人在該醫(yī)學(xué)實(shí)驗(yàn)室中。通過用BSVP或其它學(xué)習(xí)機(jī)處理該醫(yī)學(xué)數(shù)據(jù)所產(chǎn)生的輸出可以被發(fā)送回到這家醫(yī)學(xué)實(shí)驗(yàn)室并且呈遞給該病人。
在另一實(shí)施例中,本發(fā)明想要配置多個(gè)支持向量機(jī)來并行或串行地層次處理多個(gè)數(shù)據(jù)組。具體地,一個(gè)或多個(gè)第一級支持向量機(jī)可以被訓(xùn)練并測試來處理第一類型的數(shù)據(jù)而一個(gè)或多個(gè)第一級支持向量機(jī)可以被訓(xùn)練并測試來處理第二類型的數(shù)據(jù)。另外類型的數(shù)據(jù)也同樣可以由其它第一級支持向量機(jī)處理。來自一些或所有第一級支持向量機(jī)的輸出可以按照一種邏輯方式被合并使得為一個(gè)或多個(gè)第二級支持向量機(jī)產(chǎn)生一個(gè)輸入數(shù)據(jù)組。按照類似的形式,來自多個(gè)第二級支持向量機(jī)的輸出可以按照一種邏輯方式被合并使得為一個(gè)或多個(gè)第三級支持向量機(jī)產(chǎn)生一個(gè)輸入數(shù)據(jù)。支持向量機(jī)的分層結(jié)構(gòu)可以被擴(kuò)展為適當(dāng)?shù)脑S多級。按照這種方式,較低分級的支持向量機(jī)可用來把要被輸入到較高分級的支持向量機(jī)中的數(shù)據(jù)進(jìn)行預(yù)處理。同時(shí),較高分級的支持向量機(jī)可用來把較低分級的支持向量機(jī)的輸出數(shù)據(jù)進(jìn)行后處理。
分層結(jié)構(gòu)中的每個(gè)支持向量機(jī)或支持向量機(jī)的每一分級可以被配置不同的內(nèi)核。例如,用于處理第一類型數(shù)據(jù)的支持向量機(jī)可能被配置第一類型的內(nèi)核,而用于處理第二類型數(shù)據(jù)的支持向量機(jī)可以被配置第二類型的內(nèi)核。另外,在同一或不同的分級中的多個(gè)支持向量機(jī)可以被配置來利用不同的內(nèi)核處理同一類型的數(shù)據(jù)。
圖13被提出來通過示例說明支持向量機(jī)的一種分級系統(tǒng)。如圖所示,一個(gè)或多個(gè)第一級支持向量機(jī)1302A1和1302A2可以被訓(xùn)練并測試來處理第一類型的輸入數(shù)據(jù)1304A,例如和內(nèi)科病人的抽樣有關(guān)的乳房透視數(shù)據(jù)。這些支持向量機(jī)的一個(gè)或多個(gè)可以包括不同的內(nèi)核(示出為內(nèi)核1和內(nèi)核2)。同樣,一個(gè)或多個(gè)另外的第一級支持向量機(jī)1302B1和1302B2可以被訓(xùn)練并測試來處理第二類型的輸入數(shù)據(jù)1304B,例如相同或不同的內(nèi)科病人抽樣的基因數(shù)據(jù)。同樣,該另外的支持向量機(jī)的一個(gè)或多個(gè)可以包括不同的內(nèi)核(示出為內(nèi)核1和內(nèi)核3)。來自每一類似的第一級支持向量機(jī)的輸出可以彼此相比較(即,輸出A1 1306A與輸出A2 1306B相比較;輸出B1 1306C與輸出B2 1306D相比較)以便確定最佳輸出(1308A和1308B)。然后,來自兩個(gè)類型的第一級支持向量機(jī)1308A和1308B的最佳輸出可以被合并以便形成一個(gè)新的多維輸入數(shù)據(jù)組1310,例如與乳房透視和基因數(shù)據(jù)有關(guān)。新的數(shù)據(jù)組然后可以由一個(gè)或多個(gè)適當(dāng)訓(xùn)練并測試的第二級支持向量機(jī)1312A和1312B處理。來自第二級支持向量機(jī)1312A和1312B的結(jié)果輸出1314A和1314B可以進(jìn)行比較以便確定一個(gè)最佳輸出1316。最佳輸出1316可以識別乳房透視和基因數(shù)據(jù)點(diǎn)之間的因果關(guān)系。對本領(lǐng)域普通技術(shù)人員來說應(yīng)該很明顯,所期望的支持向量機(jī)的分層結(jié)構(gòu)可以應(yīng)用在任意領(lǐng)域或者期望通過學(xué)習(xí)機(jī)分析數(shù)據(jù)的工業(yè)中。
使用多個(gè)支持向量機(jī)的多個(gè)數(shù)據(jù)組的分級處理可以被使用為一種方法,用于對從其它支持向量機(jī)或?qū)W習(xí)機(jī)中輸入或輸出的數(shù)據(jù)進(jìn)行預(yù)處理或后處理。另外,可以對輸入數(shù)據(jù)和/或如上所述的支持向量機(jī)分級結(jié)構(gòu)的輸出執(zhí)行數(shù)據(jù)的預(yù)處理或后處理。
對本發(fā)明所屬領(lǐng)域的普通技術(shù)人員來說,本發(fā)明的替換實(shí)施例將變得顯而易見。這樣的替換實(shí)施例被認(rèn)為是包含在本發(fā)明的精神和范圍內(nèi)。因此,本發(fā)明的范圍通過附加的權(quán)利要求來描述并且由前述的說明書支持。
權(quán)利要求
1.一種利用多個(gè)支持向量機(jī)來提升知識發(fā)現(xiàn)的方法,包括對第一訓(xùn)練數(shù)據(jù)組和第二訓(xùn)練數(shù)據(jù)組進(jìn)行預(yù)處理以便向多個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)的每一個(gè)增加維數(shù);利用第一預(yù)處理訓(xùn)練數(shù)據(jù)組訓(xùn)練一個(gè)或多個(gè)第一支持向量機(jī),第一支持向量機(jī)的每一個(gè)都包括不同的內(nèi)核;利用第二預(yù)處理訓(xùn)練數(shù)據(jù)組訓(xùn)練一個(gè)或多個(gè)第二支持向量機(jī),第二支持向量機(jī)的每一個(gè)都包括不同的內(nèi)核;以與第一訓(xùn)練數(shù)據(jù)組相同的方式對第一測試數(shù)據(jù)組進(jìn)行預(yù)處理并且以與第二訓(xùn)練數(shù)據(jù)組相同的方式對第二測試數(shù)據(jù)組進(jìn)行預(yù)處理;利用第一預(yù)處理測試數(shù)據(jù)組測試每一個(gè)第一訓(xùn)練支持向量機(jī)并且利用第二預(yù)處理測試數(shù)據(jù)組測試每一個(gè)第二訓(xùn)練支持向量機(jī);響應(yīng)于從每一個(gè)第一訓(xùn)練支持向量機(jī)接收第一測試輸出,把每一個(gè)第一測試輸出互相進(jìn)行比較以便確定第一測試輸出的哪一個(gè)是第一最佳解,如果有最佳解的話;響應(yīng)于從每一個(gè)第二訓(xùn)練支持向量機(jī)接收第二測試輸出,把每一個(gè)第二測試輸出互相進(jìn)行比較以便確定第二測試輸出的哪一個(gè)是第二最佳解,如果有最佳解的話;把第一最佳解與第二最佳解合并以便創(chuàng)建一個(gè)新的輸入數(shù)據(jù)組從而輸入到一個(gè)或多個(gè)附加的支持向量機(jī)中。
2.一種計(jì)算機(jī)可讀媒體,其具有儲(chǔ)存在其上面的計(jì)算機(jī)可執(zhí)行指令,用于執(zhí)行如權(quán)利要求1所述的方法。
3.如權(quán)利要求1所述的方法,其中,對第一訓(xùn)練數(shù)據(jù)組和第二訓(xùn)練數(shù)據(jù)組進(jìn)行預(yù)處理還包括確定至少訓(xùn)練數(shù)據(jù)點(diǎn)中的一個(gè)是臟的;以及響應(yīng)于確定訓(xùn)練數(shù)據(jù)點(diǎn)是臟的,對臟的訓(xùn)練數(shù)據(jù)點(diǎn)進(jìn)行凈化。
4.如權(quán)利要求3所述的方法,其中對臟的訓(xùn)練數(shù)據(jù)點(diǎn)進(jìn)行凈化包括刪除、修復(fù)或更換該數(shù)據(jù)點(diǎn)。
5.如權(quán)利要求1所述的方法,其中,每一訓(xùn)練數(shù)據(jù)點(diǎn)包括具有一個(gè)或多個(gè)初始坐標(biāo)的一個(gè)向量;而且,對訓(xùn)練數(shù)據(jù)組進(jìn)行預(yù)處理包括把一個(gè)或多個(gè)新的坐標(biāo)加到該向量。
6.一種計(jì)算機(jī)可讀媒體,其具有儲(chǔ)存在其上面的計(jì)算機(jī)可執(zhí)行指令,用于執(zhí)行如權(quán)利要求7所述的方法。
7.如權(quán)利要求5所述的方法,其中,通過把變換應(yīng)用到一個(gè)或多個(gè)初始坐標(biāo)上來導(dǎo)出加到向量上的一個(gè)或多個(gè)新的坐標(biāo)。
8.如權(quán)利要求7所述的方法,其中,該變換是以專家知識為基礎(chǔ)的。
9.如權(quán)利要求7所述的方法,其中,該變換是計(jì)算導(dǎo)出的。
10.如權(quán)利要求3和7所述的方法,其中,訓(xùn)練數(shù)據(jù)組包括一個(gè)連續(xù)變量;而且變換包括對訓(xùn)練數(shù)據(jù)組的連續(xù)變量進(jìn)行最佳分類。
11.一種計(jì)算機(jī)可讀媒體,其具有儲(chǔ)存在其上面的計(jì)算機(jī)可執(zhí)行指令,用于執(zhí)行如權(quán)利要求10所述的方法。
12.如權(quán)利要求1所述的方法,其中,把每一個(gè)第一測試輸出互相進(jìn)行比較以及把每一個(gè)第二測試輸出互相進(jìn)行比較包括通過把每一個(gè)測試輸出解釋為一種公共的格式來對每一個(gè)測試輸出進(jìn)行后處理;把每一個(gè)第一后處理的測試輸出互相進(jìn)行比較以便確定哪一個(gè)第一測試輸出表示一個(gè)第一最低的全局最小差錯(cuò);和把每一個(gè)第二后處理的測試輸出互相進(jìn)行比較以便確定哪一個(gè)第二測試輸出表示一個(gè)第二最低的全局最小差錯(cuò)。
13.一種計(jì)算機(jī)可讀媒體,其具有儲(chǔ)存在其上面的計(jì)算機(jī)可執(zhí)行指令,用于執(zhí)行如權(quán)利要求12所述的方法。
14.如權(quán)利要求1所述的方法,其中,從數(shù)據(jù)中發(fā)現(xiàn)的知識涉及一個(gè)回歸或密度估計(jì);其中,每一個(gè)支持向量機(jī)產(chǎn)生包括一個(gè)連續(xù)變量的一個(gè)訓(xùn)練輸出;以及該方法還包括如下步驟通過對訓(xùn)練輸出進(jìn)行最佳分類來對每一個(gè)訓(xùn)練輸出進(jìn)行后處理從而導(dǎo)出連續(xù)變量中的截止點(diǎn)。
15.如權(quán)利要求1所述的方法,其中,包括如下步驟響應(yīng)于把每一個(gè)測試輸出互相進(jìn)行比較,確定沒有測試輸出是最佳解;調(diào)整多個(gè)支持向量機(jī)中的一個(gè)或多個(gè)之不同的內(nèi)核;和響應(yīng)于調(diào)整不同的內(nèi)核的選擇,重新訓(xùn)練并重新測試多個(gè)支持向量機(jī)的每一個(gè)。
16.一種計(jì)算機(jī)可讀媒體,其具有儲(chǔ)存在其上面的計(jì)算機(jī)可執(zhí)行指令,用于執(zhí)行如權(quán)利要求15所述的方法。
17.如權(quán)利要求15所述的方法,其中,調(diào)整不同的內(nèi)核是以先前的性能或歷史數(shù)據(jù)為基礎(chǔ)完成的,并且依賴于從數(shù)據(jù)中發(fā)現(xiàn)的知識的性質(zhì)或者數(shù)據(jù)的性質(zhì)。
全文摘要
一種系統(tǒng)和方法,用于使用通常的多個(gè)學(xué)習(xí)機(jī)特別是多個(gè)支持向量機(jī)來提升來自數(shù)據(jù)中的知識發(fā)現(xiàn)。通過把含意加給數(shù)據(jù),該學(xué)習(xí)機(jī)提供更強(qiáng)大的信息量用于處理。特別是支持向量機(jī),被處理的信息量越大,則可以被導(dǎo)出的有關(guān)數(shù)據(jù)的歸納就越好。多個(gè)支持向量機(jī)用預(yù)先處理的訓(xùn)練數(shù)據(jù)來訓(xùn)練并以相同的方式用被預(yù)先處理的測試數(shù)據(jù)來測試。來自多個(gè)支持向量機(jī)的測試輸出被比較以便決定哪一測試輸出表示一個(gè)最佳解。一個(gè)或多個(gè)內(nèi)核的選擇可以被調(diào)整并且一個(gè)或多個(gè)支持向量機(jī)可以被重新訓(xùn)練和重新測試?;诓煌斎霐?shù)據(jù)組的最佳解可以被合并以便形成一個(gè)新的輸入數(shù)據(jù)組從而輸入到一個(gè)或多個(gè)附加的支持向量機(jī)中。
文檔編號G06F15/18GK1358288SQ00808062
公開日2002年7月10日 申請日期2000年5月24日 優(yōu)先權(quán)日1999年5月25日
發(fā)明者斯蒂芬·D·巴恩希爾 申請人:巴恩希爾科技公司