用于數(shù)據(jù)點(diǎn)的多項(xiàng)式的集群的制作方法【專利說(shuō)明】【
背景技術(shù):
】[0001]在各種數(shù)據(jù)分類技術(shù)中,在訓(xùn)練階段中處理歐幾里得空間中的標(biāo)記數(shù)據(jù)點(diǎn)的集合,以確定將空間劃分為各種類。標(biāo)記點(diǎn)可代表諸如掃描的文件的非數(shù)值對(duì)象的特征。一旦類得以確定,可基于在訓(xùn)練階段期間構(gòu)建的分類模型來(lái)分類新的點(diǎn)集合??蓪?duì)訓(xùn)練進(jìn)行監(jiān)督或不對(duì)訓(xùn)練進(jìn)行監(jiān)督?!靖綀D說(shuō)明】[0002]現(xiàn)在將參照附圖以詳細(xì)描述各種例示性的原理,附圖中:[0003]圖1示出了各種類的示例;[0004]圖2示出了根據(jù)一種實(shí)施方式的系統(tǒng)的示例;[0005]圖3示出了根據(jù)一種實(shí)施方式的系統(tǒng)的另一示例;[000?]圖4不出了根據(jù)一種實(shí)施方式的系統(tǒng)的又一不例;[0007]圖5示出了根據(jù)例示性示例的方法;[0008]圖6示出了根據(jù)各種實(shí)施方式的多個(gè)數(shù)據(jù)點(diǎn)以及這些數(shù)據(jù)點(diǎn)中的一個(gè)點(diǎn)的鄰域(neighborhood)的不例;[0009]圖7示出了根據(jù)例示性示例的另一方法;[0010]圖8示出了根據(jù)例示性示例的、實(shí)施圖7示出的方法的一部分的方法;[0011]圖9示出了根據(jù)例示性示例的另一方法;[0012]圖10示出了根據(jù)例示性示例的、實(shí)施圖9示出的方法的一部分的方法?!揪唧w實(shí)施方式】[0013]根據(jù)各種實(shí)施方式,從非數(shù)值數(shù)據(jù)中提取數(shù)字以使得計(jì)算裝置可進(jìn)一步分析所提取的數(shù)值數(shù)據(jù)并/或?qū)?shù)據(jù)執(zhí)行期望類型的操作。所提取的數(shù)值數(shù)據(jù)可被稱為“數(shù)據(jù)點(diǎn)”或“坐標(biāo)”。一種用于分析從非數(shù)值數(shù)據(jù)中提取的數(shù)值數(shù)據(jù)的技術(shù)包括:確定感興趣的每個(gè)類的多項(xiàng)式的唯一集合,然后在數(shù)據(jù)點(diǎn)的一個(gè)集合上對(duì)多項(xiàng)式求值。對(duì)于給定的數(shù)據(jù)點(diǎn)集合,類中的一個(gè)的多項(xiàng)式可求值為O或近似為O。此類多項(xiàng)式被稱為“近零(approximateIy-zero)多項(xiàng)式”。該數(shù)據(jù)點(diǎn)則被認(rèn)為屬于與那些特定多項(xiàng)式對(duì)應(yīng)的類。[0014]在此,對(duì)于確定多項(xiàng)式是否求值為O包括確定多項(xiàng)式是否求值為近似為0(例如,在公差參數(shù)以內(nèi))進(jìn)行所有參考。[0015]可對(duì)許多類型的非數(shù)值數(shù)據(jù)(也被稱為數(shù)據(jù)特征)進(jìn)行測(cè)量。例如,在字母數(shù)字字符識(shí)別的情況下,可對(duì)掃描文件中遇到的每個(gè)字母數(shù)字字符進(jìn)行多種不同的測(cè)量。此類測(cè)量的示例包括構(gòu)成字符的線條的平均斜度、字符的最寬部分的測(cè)量、字符的最高部分的測(cè)量等。目標(biāo)是確定每個(gè)可能的字母數(shù)字字符的合適的多項(xiàng)式集合。由此,大寫(xiě)字母A具有多項(xiàng)式的唯一集合,B具有其自己的多項(xiàng)式的唯一集合,以此類推。每個(gè)多項(xiàng)式具有次數(shù)n(n可為1、2、3等等),并且可使用測(cè)量值中的一些或全部作為輸出。[0016]圖1例示了三個(gè)類的示例-類A、類B和類C。多項(xiàng)式的唯一集合已被確定為對(duì)應(yīng)于每個(gè)類。還示出了數(shù)據(jù)點(diǎn)。數(shù)據(jù)點(diǎn)可實(shí)際上包括多個(gè)數(shù)據(jù)值。目標(biāo)是確定數(shù)據(jù)點(diǎn)屬于哪個(gè)類。該確定是通過(guò)將數(shù)據(jù)點(diǎn)插入至每個(gè)類的多項(xiàng)式中并且確定哪個(gè)多項(xiàng)式集合求值為接近O而完成的。與求值為接近O的多項(xiàng)式集合對(duì)應(yīng)的類是被確定為數(shù)據(jù)點(diǎn)所對(duì)應(yīng)的類。[0017]圖1描繪的類可對(duì)應(yīng)于字母表中的字母。例如,對(duì)于字母A,如果將測(cè)量值(數(shù)據(jù)點(diǎn)或坐標(biāo))插入至字母A的多項(xiàng)式中,則該多項(xiàng)式求值為O或接近0,而其他字母的多項(xiàng)式求值為不是O或不近似于O。因此,系統(tǒng)遇到文件中的字符,進(jìn)行各種測(cè)量,將那些數(shù)據(jù)點(diǎn)(或其中的至少一些)插入至各種字母的每個(gè)多項(xiàng)式中,并且確定哪個(gè)字符的多項(xiàng)式求值為O。與那個(gè)多項(xiàng)式對(duì)應(yīng)的字符是系統(tǒng)已遇到的字符。[0018]然而,分析的部分是確定哪些多項(xiàng)式用于每個(gè)字母數(shù)字字符。被稱為近似消逝理想(AV1-ApproximateVanishingIdeal)的一類技術(shù)可用于確定用于每個(gè)類的多項(xiàng)式。詞語(yǔ)“消逝”指的是這樣的事實(shí):對(duì)于正確的輸入坐標(biāo)集合,多項(xiàng)式求值為O。“近似”意味著,為了分類的目的,只需要多項(xiàng)式求值為近似于O。然而,許多這些技術(shù)是不穩(wěn)定的。缺少穩(wěn)定性意味著多項(xiàng)式在面對(duì)噪聲時(shí)無(wú)法良好地運(yùn)行。例如,即使已對(duì)字母A進(jìn)行了測(cè)量,如果字母A存在一些變形或者字母周?chē)嬖诙嘤嘞袼?,則(一個(gè)或多個(gè))字母A的多項(xiàng)式可能根本不會(huì)消逝至O。一些AVI技術(shù)是基于旋轉(zhuǎn)技術(shù)的,旋轉(zhuǎn)技術(shù)較快,但固有地不穩(wěn)定。[0019]下文中討論的實(shí)施方式涉及穩(wěn)定近似消逝理想(SAV1:StableApproximateVanishingIdeal)技術(shù),正如其名字所暗示的,該技術(shù)在面對(duì)輸入數(shù)據(jù)中的噪聲時(shí)是穩(wěn)定的。在此描述的技術(shù)還能夠?qū)υ诙啻夭⒓?un1n)上的數(shù)據(jù)點(diǎn)進(jìn)行建模,S卩,通常不可分割并且因此難以劃分為單獨(dú)的訓(xùn)練數(shù)據(jù)集合的與多個(gè)類對(duì)應(yīng)的數(shù)據(jù)點(diǎn)。[0020]圖2例示了一種系統(tǒng),其包括各種引擎:鄰域確定引擎102、投影引擎104、減法引擎106、奇異值分解(SVD)引擎108、聚類引擎100以及劃分引擎112。在一些示例中(例如,,如下文中討論的圖4中的示例),每個(gè)引擎102-112(以及在此由圖3公開(kāi)的額外的引擎)可實(shí)施為執(zhí)行軟件的處理器。以下討論由各種引擎執(zhí)行的功能。[0021]圖3示出了系統(tǒng)的另一示例,其具有與圖2中系統(tǒng)相同的引擎中的一些引擎,但也包括額外的引擎。除了引擎102-112之外,圖3的系統(tǒng)還包括初始化引擎114和多項(xiàng)式重復(fù)移除引擎116。[0022]圖4例示了聯(lián)接至非暫時(shí)性存儲(chǔ)裝置130的處理器120。非暫時(shí)性存儲(chǔ)裝置130可實(shí)施為易失性存儲(chǔ)器(例如,隨機(jī)存取存儲(chǔ)器)、非易失性存儲(chǔ)器(例如,硬盤(pán)驅(qū)動(dòng)、光盤(pán)存儲(chǔ)、固態(tài)存儲(chǔ)等等)或者各種類型的易失性和/或非易失性存儲(chǔ)的組合。[0023]圖4所示的非暫時(shí)性存儲(chǔ)裝置130包括在功能上對(duì)應(yīng)于圖2和3中的引擎中的每個(gè)的軟件模塊。軟件模塊包括初始化模塊132、多項(xiàng)式重復(fù)移除模塊134、鄰域確定模塊136、投影模塊138、減法模塊140、SVD模塊142、聚類模塊144和劃分模塊146。圖2中的每個(gè)引擎可實(shí)施為執(zhí)行圖3中的對(duì)應(yīng)軟件模塊的處理器120。[0024]在此,使得各種引擎102-116之間以及軟件模塊132-146之間存在差異以易于解釋說(shuō)明。然而,在一些實(shí)施方式中,引擎/模塊中的兩個(gè)或更多個(gè)的功能可組合在一起成為單個(gè)引擎/模塊。進(jìn)一步地,在此描述的歸屬于每個(gè)引擎102-116的功能(當(dāng)由處理器120運(yùn)行時(shí))可應(yīng)用于與每個(gè)此類引擎對(duì)應(yīng)的軟件模塊,并且在此描述的由給定模塊執(zhí)行的功能(當(dāng)由處理器運(yùn)行時(shí))同樣也可應(yīng)用于對(duì)應(yīng)的引擎。[0025]現(xiàn)在將參照?qǐng)D5的流程圖描述由圖2的各種引擎102-112執(zhí)行的功能。圖5的方法基于對(duì)應(yīng)于各種類的輸入數(shù)據(jù)點(diǎn),針對(duì)多個(gè)類中的每個(gè)類確定近零多項(xiàng)式。然而,輸入數(shù)據(jù)點(diǎn)無(wú)法容易地劃分為對(duì)應(yīng)于各種類的組,因此完全通過(guò)圖5的方法處理。[0026]圖5的方法處理多個(gè)數(shù)據(jù)點(diǎn)。數(shù)據(jù)點(diǎn)包括多個(gè)數(shù)據(jù)點(diǎn)子集,每個(gè)數(shù)據(jù)點(diǎn)子集的特征在于獨(dú)立的類(例如,圖1中的類A-C)。圖5的方法涉及“候選”多項(xiàng)式。候選多項(xiàng)式是這樣一種多項(xiàng)式:按照?qǐng)D5的方法對(duì)該多項(xiàng)式進(jìn)行求值,以確定對(duì)于數(shù)據(jù)點(diǎn)子集,該多項(xiàng)式是否求值為O。候選多項(xiàng)式代表這樣的多項(xiàng)式:該多項(xiàng)式將在圖5的示例性方法中被處理,以確定多項(xiàng)式中的哪個(gè)多項(xiàng)式(如果存在的話)在數(shù)據(jù)點(diǎn)的子集上的求值為0(例如,低于閾值)。將在數(shù)據(jù)點(diǎn)的子集上的求值小于閾值的那些候選多項(xiàng)式選為用于將未來(lái)數(shù)據(jù)點(diǎn)分類至特定類的多項(xiàng)式。[0027]多項(xiàng)式為多個(gè)單項(xiàng)式之和,并且每個(gè)單項(xiàng)式具有特定次數(shù)(單項(xiàng)式2X~3是三次單項(xiàng)式)。多項(xiàng)式的次數(shù)是包括多項(xiàng)式的任一組分單項(xiàng)式的最大次數(shù)??墒紫葘?duì)I次多項(xiàng)式執(zhí)行圖5中的操作202和204,然后,在繼續(xù)進(jìn)行操作206和208之前,對(duì)更高次多項(xiàng)式重復(fù)(例如,2次等等)操作202和204。[0028]在202處,該方法包括:對(duì)于多個(gè)數(shù)據(jù)點(diǎn)中的每個(gè)數(shù)據(jù)點(diǎn),確定每個(gè)此類數(shù)據(jù)點(diǎn)附近的數(shù)據(jù)點(diǎn)鄰域(neighborhoodofdatapoints),并且可由鄰域確定引擎102執(zhí)行。特定數(shù)據(jù)點(diǎn)附近的數(shù)據(jù)點(diǎn)鄰域是“接近”該數(shù)據(jù)點(diǎn)的數(shù)據(jù)點(diǎn),例如,在距離該數(shù)據(jù)點(diǎn)預(yù)定閾值距離內(nèi)的點(diǎn)。閾值距離可由用戶指定。[0029]圖6示出了多個(gè)數(shù)據(jù)點(diǎn)的示例。在數(shù)據(jù)點(diǎn)20當(dāng)前第1頁(yè)1 2 3