国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      面向大規(guī)模高維空間數(shù)據(jù)的分布式索引方法

      文檔序號(hào):10725045閱讀:511來源:國(guó)知局
      面向大規(guī)模高維空間數(shù)據(jù)的分布式索引方法
      【專利摘要】本發(fā)明公開了一種面向大規(guī)模高維空間數(shù)據(jù)的分布式索引方法,所述的方法包括以下步驟:步驟一、在度量空間中按照邊緣選取法選取劃分優(yōu)勢(shì)點(diǎn)N;步驟二、根據(jù)度量空間中選取的優(yōu)勢(shì)點(diǎn),對(duì)度量空間進(jìn)行劃分成2n個(gè)次空間;步驟三、空間劃分好后,根據(jù)劃分的空間結(jié)構(gòu),在主引導(dǎo)主機(jī)構(gòu)造主空間索引樹;步驟四、將每個(gè)次空間分配到對(duì)應(yīng)的2n個(gè)從節(jié)點(diǎn)上,并在從節(jié)點(diǎn)機(jī)器上構(gòu)建多優(yōu)勢(shì)點(diǎn)樹;步驟五、當(dāng)有新的度量空間中的對(duì)象插入分布式多優(yōu)勢(shì)樹索引結(jié)構(gòu)時(shí),插入請(qǐng)求首先發(fā)送到主引導(dǎo)主機(jī)。本發(fā)明提出的分布式多優(yōu)勢(shì)點(diǎn)樹模型具有良好的性能表現(xiàn),與分布式多優(yōu)勢(shì)點(diǎn)樹(1,2)模型比多優(yōu)勢(shì)點(diǎn)樹時(shí)間消耗減少約一半。
      【專利說明】
      面向大規(guī)模高維空間數(shù)據(jù)的分布式索引方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種面向大規(guī)模高維空間數(shù)據(jù)的分布式索 引方法。
      【背景技術(shù)】
      [0002] 隨著無線通信技術(shù)和移動(dòng)終端技術(shù)的飛速發(fā)展,移動(dòng)互聯(lián)網(wǎng)應(yīng)運(yùn)而生并迅猛發(fā) 展。隨之而來的是數(shù)據(jù)量急速膨脹,這對(duì)傳統(tǒng)數(shù)據(jù)處理方法帶來嚴(yán)峻的挑戰(zhàn)。在度量空間 中,如何進(jìn)行高維向量的相似性檢索問題一直是數(shù)據(jù)處理與檢索領(lǐng)域中的熱點(diǎn)。在地理信 息系統(tǒng)、圖像檢索、多媒體數(shù)據(jù)庫(kù)、模式識(shí)別、超大規(guī)模集成電路、生物基因數(shù)據(jù)庫(kù)等眾多領(lǐng) 域都有廣泛的應(yīng)用。中將音樂旋律提取高維特征,然后用戶哼唱歌曲的旋律同樣提取出特 征到已有數(shù)據(jù)庫(kù)中進(jìn)行相似性匹配,最終根據(jù)相似性程度返回一個(gè)音樂列表。此外,谷歌以 圖搜圖系統(tǒng)也是另一種高維信息相似性檢索的典型應(yīng)用。
      [0003] 常見的高維信息索引方法都試圖使查詢達(dá)到近乎線性的增長(zhǎng),以應(yīng)對(duì)數(shù)據(jù)膨脹。 伴隨著移動(dòng)互聯(lián)網(wǎng)信息時(shí)代的到來,且數(shù)據(jù)記錄采集設(shè)備的不斷普及,各種社會(huì)記錄、多媒 體、科學(xué)計(jì)算等數(shù)據(jù)爆炸性增長(zhǎng),使得這一問題變得更加尖銳?,F(xiàn)有高維索引結(jié)構(gòu)主要分為 兩種方法:基于哈希的索引和樹結(jié)構(gòu)索引?;诠5乃饕Y(jié)構(gòu),利用哈希表和哈希函數(shù)將 存儲(chǔ)位置與它的關(guān)鍵字之間建立一個(gè)確定關(guān)系。這是一種近似最近鄰查詢方案,無法返回 完全精確的結(jié)果,除此之外,基于哈希的方法占用內(nèi)存空間開銷非常之大,尤其是數(shù)據(jù)量爆 炸式增長(zhǎng)的情況。當(dāng)無法提供足夠的內(nèi)存空間用于索引時(shí),系統(tǒng)將頻繁置換出較少使用的 頁(yè)塊到硬盤,導(dǎo)致性能下降。極端情況下,基于哈希的索引時(shí)間效率會(huì)下降到接近線性查找 程度,這種情況下基于哈希索引結(jié)構(gòu)無法應(yīng)對(duì)大規(guī)模數(shù)據(jù)場(chǎng)景。樹結(jié)構(gòu)的索引是將度量空 間按照一定的算法進(jìn)行劃分,常見的樹結(jié)構(gòu)有k維樹、R樹、度量空間樹、優(yōu)勢(shì)點(diǎn)樹和多優(yōu)勢(shì) 點(diǎn)等。K維樹每個(gè)節(jié)點(diǎn)維度都為k的二叉樹,所有非葉子節(jié)點(diǎn)都可以看作是一個(gè)超平面,將高 維空間分成兩部分。K維樹的缺點(diǎn)是鄰接表過大,占用存儲(chǔ)空間較多,而分割面中間值的選 擇對(duì)于查詢性能影響很大。同時(shí),隨維度增加,劃分粒度較小時(shí),效率下降嚴(yán)重。R樹是一種 和二叉樹相似的平衡樹,樹中每個(gè)節(jié)點(diǎn)可以看作一個(gè)k維矩形。R樹適合于范圍查詢,但由于 超矩形相互重疊,不能保證唯一的搜索路徑,會(huì)導(dǎo)致整棵樹的性能退化。為了修正R樹缺點(diǎn), Sell is提出R+樹、Beckmann提出的R*樹等。盡管對(duì)R樹進(jìn)行改進(jìn),當(dāng)維數(shù)增加到20以上時(shí),性 能也開始下降。Bozkaya等提出優(yōu)勢(shì)點(diǎn)樹索引結(jié)構(gòu),優(yōu)勢(shì)點(diǎn)樹利用度量空間三角不等式性質(zhì) 進(jìn)行數(shù)據(jù)空間過濾,將查詢剪枝,從而達(dá)到高效檢索效果。多優(yōu)勢(shì)點(diǎn)樹是基于優(yōu)勢(shì)點(diǎn)樹的改 進(jìn),對(duì)于之前的K樹、R樹和優(yōu)勢(shì)點(diǎn)樹都有一個(gè)共同的缺點(diǎn)是每個(gè)節(jié)點(diǎn)扇出太少,以至于樹層 次過高,查詢效率降低。多優(yōu)勢(shì)點(diǎn)使用多個(gè)分割點(diǎn)進(jìn)行分區(qū),并在每個(gè)節(jié)點(diǎn)保存與之相對(duì)應(yīng) 的分區(qū)節(jié)點(diǎn)距離信息,用于有效過濾查詢,從而提高檢索性能。通過合理的選擇分區(qū)支點(diǎn), 多優(yōu)勢(shì)點(diǎn)的性能要表現(xiàn)要好于其他空間索引樹結(jié)構(gòu)。除了進(jìn)行空間劃分與映射之外,還有 通過共享最近鄰搜索方法、充分利用硬件加速、壓縮數(shù)據(jù)來減少訪問次數(shù)等方法。通過特征 選擇和特征抽取可對(duì)數(shù)據(jù)進(jìn)行降維操作也是常見應(yīng)對(duì)高維數(shù)據(jù)的方法。
      [0004] 面對(duì)大規(guī)模海量高維數(shù)據(jù)的查詢檢索,傳統(tǒng)空間劃分和映射方法、信息降維、信息 壓縮等方法已變得不再高效。僅僅在一種數(shù)據(jù)結(jié)構(gòu)上進(jìn)行結(jié)構(gòu)優(yōu)化或?qū)Ω呔S信息進(jìn)行降 維、壓縮都只能暫時(shí)的緩解問題。隨著數(shù)據(jù)量的增加和維度膨脹,這些優(yōu)化都會(huì)顯得杯水 車薪。如何進(jìn)行分布式并行度量空間索引,國(guó)內(nèi)外學(xué)者鮮有研究。

      【發(fā)明內(nèi)容】

      [0005] 本發(fā)明克服了現(xiàn)有技術(shù)的不足,提供一種面向大規(guī)模高維空間數(shù)據(jù)的分布式索引 方法。
      [0006] 將多臺(tái)機(jī)器進(jìn)行整合,并行的進(jìn)行分布式索引,極大的提高的索引性能。此外,還 可通過增加次空間劃分?jǐn)?shù)目來應(yīng)對(duì)數(shù)據(jù)膨脹問題。實(shí)驗(yàn)也表明分布式多優(yōu)勢(shì)點(diǎn)樹D-MVP模 型可以有效的解決大規(guī)模高維空間索引難題,為分布式度量空間索引提供了很有價(jià)值的借 鑒意義。
      [0007] 為解決上述的技術(shù)問題,本發(fā)明采用以下技術(shù)方案:
      [0008] -種面向大規(guī)模高維空間數(shù)據(jù)的分布式索引方法,所述的方法包括以下步驟:
      [0009] 步驟一、在度量空間中按照邊緣選取法選取劃分優(yōu)勢(shì)點(diǎn)N;
      [0010] 步驟二、根據(jù)度量空間中選取的優(yōu)勢(shì)點(diǎn),對(duì)度量空間進(jìn)行劃分成2n個(gè)次空間;
      [0011] 步驟三、空間劃分好后,根據(jù)劃分的空間結(jié)構(gòu),在主引導(dǎo)主機(jī)構(gòu)造主空間索引樹;
      [0012] 步驟四、將每個(gè)次空間分配到對(duì)應(yīng)的2n個(gè)從節(jié)點(diǎn)上,并在從節(jié)點(diǎn)機(jī)器上構(gòu)建多優(yōu) 勢(shì)點(diǎn)樹;
      [0013] 步驟五、當(dāng)有新的度量空間中的對(duì)象插入分布式多優(yōu)勢(shì)樹索引結(jié)構(gòu)時(shí),插入請(qǐng)求 首先發(fā)送到主引導(dǎo)主機(jī);主引導(dǎo)主機(jī)根據(jù)建立的主空間索引樹判斷需要插入到哪臺(tái)從節(jié)點(diǎn) 機(jī)器上;然后將插入請(qǐng)求發(fā)送至相應(yīng)的從節(jié)點(diǎn)主機(jī);所述從節(jié)點(diǎn)主機(jī)收到請(qǐng)求后,將新的度 量空間對(duì)象插入到自身的空間索引樹上。
      [0014] 更進(jìn)一步的技術(shù)方案是還包括步驟六、當(dāng)有用戶的檢索請(qǐng)求時(shí):
      [0015] 首先將檢索指令發(fā)送到主引導(dǎo)主機(jī);主引導(dǎo)主機(jī)根據(jù)自身構(gòu)建的主空間劃分索引 樹進(jìn)行檢索;直至查詢節(jié)點(diǎn)為葉節(jié)點(diǎn)為止;最后返回從節(jié)點(diǎn)主機(jī)信息集合到用戶;用戶請(qǐng)求 所述從節(jié)點(diǎn)主機(jī),從節(jié)點(diǎn)主機(jī)得到請(qǐng)求,按照多優(yōu)勢(shì)樹檢索算法進(jìn)行檢索;最終返回用戶檢 索結(jié)果集合。
      [0016] 更進(jìn)一步的技術(shù)方案是所述主引導(dǎo)主機(jī)根據(jù)自身構(gòu)建的主空間劃分索引樹進(jìn)行 檢索步驟包括:若查詢請(qǐng)求中的度量空間對(duì)象與根節(jié)點(diǎn)對(duì)象的距離加上檢索請(qǐng)求中的距離 之和大于等于根節(jié)點(diǎn)的空間劃分半徑,則遞歸查詢右子樹;
      [0017] 若查詢請(qǐng)求中的度量空間對(duì)象與根節(jié)點(diǎn)對(duì)象的距離減去檢索請(qǐng)求中的距離之差 小于等于根節(jié)點(diǎn)的空間劃分半徑,則遞歸查詢左子樹。
      [0018] 更進(jìn)一步的技術(shù)方案是所述分布式多優(yōu)勢(shì)點(diǎn)樹采用D_MVP(Mn,Sn)表示1個(gè)主引導(dǎo) 主機(jī),S n個(gè)從節(jié)點(diǎn)的模型。
      [0019] 與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例的有益效果之一是:本發(fā)明基于多優(yōu)勢(shì)點(diǎn)樹結(jié)構(gòu) 提出高可擴(kuò)展的面向大規(guī)模高維空間數(shù)據(jù)的分布式索引模型分布式多優(yōu)勢(shì)點(diǎn)樹:首先將高 維空間進(jìn)行基本淺層次劃分,上層已劃分索引結(jié)構(gòu)存放在主服務(wù)器(本發(fā)明稱為主引導(dǎo)主 機(jī)),分割后的分區(qū)分布部署到各個(gè)分布式機(jī)器(本發(fā)明稱為從節(jié)點(diǎn))。以樹形結(jié)構(gòu)對(duì)整個(gè)分 布式系統(tǒng)中的機(jī)器進(jìn)行管理,對(duì)于用戶的插入與查詢操作由主引導(dǎo)主機(jī)進(jìn)行導(dǎo)引,主引導(dǎo) 主機(jī)根據(jù)區(qū)域劃分算法指定需要到哪些從節(jié)點(diǎn)上進(jìn)行查詢或插入到哪臺(tái)從節(jié)點(diǎn)。
      [0020] 在大規(guī)模高維空間數(shù)據(jù)上實(shí)驗(yàn)表明,本發(fā)明提出的分布式多優(yōu)勢(shì)點(diǎn)樹模型具有良 好的性能表現(xiàn),與分布式多優(yōu)勢(shì)點(diǎn)樹(1,2)模型比多優(yōu)勢(shì)點(diǎn)樹時(shí)間消耗減少約一半。在大規(guī) 模數(shù)據(jù)和高并發(fā)情況下,插入和查詢操作都有明顯提升,同時(shí)面對(duì)數(shù)據(jù)容量的爆炸性增長(zhǎng) 也可以做到良好的高可擴(kuò)展性。通過調(diào)整空間劃分?jǐn)?shù)目,即可方便的應(yīng)對(duì)數(shù)據(jù)增長(zhǎng)。這也 為大規(guī)模高維分布式空間信息檢索研究提供了有價(jià)值的借鑒意義。
      【附圖說明】
      [0021] 圖1為本發(fā)明一個(gè)實(shí)施例中繪圖檢索原圖。
      [0022] 圖2為本發(fā)明一個(gè)實(shí)施例中繪圖檢索用戶繪草圖。
      [0023] 圖3為本發(fā)明一個(gè)實(shí)施例中MVP空間劃分圖。
      [0024]圖4為本發(fā)明一個(gè)實(shí)施例中一種索引樹的空間劃分不意圖。
      [0025]圖5為本發(fā)明一個(gè)實(shí)施例中一種索引樹的空間劃分不意圖。
      [0026] 圖6為本發(fā)明一個(gè)實(shí)施例中一種索引樹的空間劃分不意圖。
      [0027] 圖7為本發(fā)明一個(gè)實(shí)施例中D-MVP空間劃分圖。
      [0028] 圖8為本發(fā)明一個(gè)實(shí)施例中D-MVP空間劃分圖。
      [0029] 圖9為本發(fā)明一個(gè)實(shí)施例中D-MVP模型框架示意圖。
      [0030] 圖10為本發(fā)明一個(gè)實(shí)施例中中心法切割中心點(diǎn)選擇策略示意圖。
      [0031 ]圖11為本發(fā)明一個(gè)實(shí)施例中邊緣法切割中心點(diǎn)選擇策略示意圖。
      [0032] 圖12為本發(fā)明一個(gè)實(shí)施例中外部法切割中心點(diǎn)選擇策略示意圖。
      [0033] 圖13為本發(fā)明一個(gè)實(shí)施例中局部熱點(diǎn)負(fù)載均衡示意圖。
      [0034] 圖14為本發(fā)明一個(gè)實(shí)施例中局部熱點(diǎn)負(fù)載均衡示意圖。
      [0035] 圖15為本發(fā)明一個(gè)實(shí)施例中度量空間劃分2個(gè)區(qū)域后的區(qū)域著色圖。
      [0036] 圖16為本發(fā)明一個(gè)實(shí)施例中度量空間劃分4個(gè)區(qū)域后的區(qū)域著色圖。
      [0037] 圖17為本發(fā)明一個(gè)實(shí)施例中度量空間劃分8個(gè)區(qū)域后的區(qū)域著色圖。
      [0038]圖18為本發(fā)明一個(gè)實(shí)施例中64維數(shù)據(jù)進(jìn)行的MVP-Tree與D-MVP(1,2)最近鄰查詢 耗時(shí)圖。
      [0039]圖19為本發(fā)明一個(gè)實(shí)施例中128維數(shù)據(jù)進(jìn)行的MVP-Tree與D-MVP(1,2)最近鄰查詢 耗時(shí)圖。
      [0040] 圖20為本發(fā)明一個(gè)實(shí)施例中D-MVP (1,2)和D-MVP (1,4)最近鄰查詢時(shí)間耗時(shí)圖。
      【具體實(shí)施方式】
      [0041] 本說明書中公開的所有特征,或公開的所有方法或過程中的步驟,除了互相排斥 的特征和/或步驟以外,均可以以任何方式組合。
      [0042] 本說明書(包括任何附加權(quán)利要求、摘要和附圖)中公開的任一特征,除非特別敘 述,均可被其他等效或具有類似目的的替代特征加以替換。即,除非特別敘述,每個(gè)特征只 是一系列等效或類似特征中的一個(gè)例子而已。
      [0043]下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行詳細(xì)描述。
      [0044] 首先公開相關(guān)概念與問題定義
      [0045] 本發(fā)明主要對(duì)系統(tǒng)模型中的一些基本概念進(jìn)行定義說明,其中包括度量空間定 義、最近鄰查詢與多優(yōu)勢(shì)點(diǎn)樹構(gòu)造與查詢算法。
      [0046] 在數(shù)學(xué)中,度量空間是指一個(gè)集合,該集合內(nèi)的元素間距離可定義。度量空間的定 義如下:
      [0047]定義1.(度量空間)設(shè)X是一個(gè)集合,X集合上的度量函數(shù)d:XXX-R,其中x,y,ze X:
      [0048] (1)正定性:d(x,y)彡 0且d(x,y)=0 當(dāng)且僅當(dāng) x = y;
      [0049] (2)對(duì)稱性:d(X,y)=d(y,x);
      [0050] (3)滿足三角不等式:d(x,y)+d(y,z)彡d(x,z)。
      [00511則稱(X,d)為度量空間。
      [0052]在相同X集合上,可通過指定不同的度量函數(shù)d,來代表不同度量空間。本發(fā)明使用 度量函數(shù)為歐幾里得距離。設(shè)歐幾里得度量函數(shù)d: Rn X Rn-R可表示為:
      [0054] 其中,
      [0055] X - (XI,X2,· · ·,Xn),y - (yi,y2,· · ·,yn),x,yGX〇
      [0056] 本發(fā)明將文本、圖片、視頻等可進(jìn)行特征提取的事物稱為對(duì)象。在表示對(duì)象時(shí),會(huì) 提取該對(duì)象特征點(diǎn)。特征點(diǎn)的數(shù)量根據(jù)用戶需求和對(duì)象特征復(fù)雜程度而定,少則兩三個(gè),多 至成百上千。特征值一般采用向量形式表示,因而特征值的運(yùn)算可以想象成高維空間中的 運(yùn)算。提取出特征值向量集合即是上文中提到的空間集合X。為能夠表征對(duì)象更多信息,常 提取盡可能多的信息,因而所造成的結(jié)果是維度增加,這樣最終導(dǎo)致"維度災(zāi)難"。
      [0057]近鄰查詢是指給定查詢項(xiàng),從度量空間(X,d)中找出與之距離最近的k個(gè)對(duì)象。 [0058] 定義2.最近鄰查詢?cè)O(shè)對(duì)象特征值集合...,Xn}和度量函數(shù)do,則度量空 間為(X,d)。給定查詢對(duì)象特征向量Y和距離r,返回所有與Y距離小于r的對(duì)象集合{Xiltex 且cKXnyKrhr通常代表相似程度或容限系數(shù)。
      [0059] 在某些繪圖檢索數(shù)據(jù)庫(kù)中,用戶繪出圖畫,到數(shù)據(jù)庫(kù)中去檢索與之類似的圖像。假 如想要查找圖1梵高的《烏鴉群飛的麥田》,用戶知道畫的上部為深藍(lán)色天空,下部為黃色麥 田,因而繪出如圖2所示的草圖用于查找,數(shù)據(jù)庫(kù)則會(huì)根據(jù)圖片特征值的相似性,按照相似 性大小排序返回一個(gè)圖片集合。
      [0060] 本發(fā)明構(gòu)造了分布式多優(yōu)勢(shì)點(diǎn)樹高維空間檢索模型,在實(shí)驗(yàn)部分使用最近鄰查詢 來驗(yàn)證模型的有效性,實(shí)驗(yàn)結(jié)果表明分布式多優(yōu)勢(shì)點(diǎn)樹模型對(duì)于高維索引,尤其是大規(guī)模 高維數(shù)據(jù)性能較于其他傳統(tǒng)模型有很大提升,并具有高可擴(kuò)展性。
      [0061] 分布式多優(yōu)勢(shì)點(diǎn)樹模型從節(jié)點(diǎn)中度量空間索引結(jié)構(gòu)使用多優(yōu)勢(shì)點(diǎn)樹創(chuàng)建,故在此 著重介紹多優(yōu)勢(shì)點(diǎn)樹的構(gòu)造與檢索。
      [0062] 常見的度量空間索引樹包含K維樹、R樹、優(yōu)勢(shì)點(diǎn)樹和多優(yōu)勢(shì)點(diǎn)樹等。本發(fā)明僅對(duì)這 四種具有代表性的樹進(jìn)行簡(jiǎn)單介紹,并著重說明多優(yōu)勢(shì)點(diǎn)樹的構(gòu)造與檢索。
      [0063] K維樹是一棵二叉樹,每個(gè)節(jié)點(diǎn)代表一個(gè)高維空間范圍。通過空間集合中點(diǎn)所在的 超平面對(duì)空間進(jìn)行劃分,以二維空間為例,分解后的空間如圖3所示。K維樹缺點(diǎn)較為明顯, 其對(duì)數(shù)據(jù)點(diǎn)的插入順序十分敏感,數(shù)據(jù)遍布整棵樹節(jié)點(diǎn)上,對(duì)于一些場(chǎng)景實(shí)用性不強(qiáng),并很 難找到較為均衡的切割平面。R樹采用最小邊界矩陣方法對(duì)空間進(jìn)行劃分。二維空間劃分結(jié) 果如圖4所示。R樹及其變種最嚴(yán)重的問題是不同點(diǎn)所對(duì)應(yīng)的矩陣邊界有大量的重疊,當(dāng)維 數(shù)增加的時(shí)候,這種情況變得愈加嚴(yán)重。在進(jìn)行檢索時(shí)要訪問多個(gè)節(jié)點(diǎn)子樹,使性能降低。 優(yōu)勢(shì)點(diǎn)樹利用球形劃分方法對(duì)度量空間劃分,劃分過程借助度量空間中目標(biāo)點(diǎn)集與優(yōu)勢(shì)點(diǎn) 之間的距離進(jìn)行,對(duì)二維空間劃分結(jié)果如圖5所示。
      [0064] 多優(yōu)勢(shì)點(diǎn)樹是基于優(yōu)勢(shì)點(diǎn)樹的改進(jìn)。由于優(yōu)勢(shì)點(diǎn)樹扇出太小,致使樹高度太高,隨 著分區(qū)劃分?jǐn)?shù)量增加,檢索性能也隨之下降。多優(yōu)勢(shì)點(diǎn)樹通過增加優(yōu)勢(shì)點(diǎn)數(shù)目和節(jié)點(diǎn)輸出 能力來提高性能。多優(yōu)勢(shì)點(diǎn)樹同時(shí)在節(jié)點(diǎn)中保存了其與優(yōu)勢(shì)點(diǎn)的距離,以避免查詢時(shí)進(jìn)行 多次運(yùn)算。多優(yōu)勢(shì)點(diǎn)樹的性能較于其他檢索結(jié)構(gòu)性能更好,因而本發(fā)明選取多優(yōu)勢(shì)點(diǎn)樹作 為從節(jié)點(diǎn)空間索引樹的基本結(jié)構(gòu)。算法1為多優(yōu)勢(shì)點(diǎn)樹創(chuàng)建過程,算法2為優(yōu)勢(shì)點(diǎn)樹檢索過 程。多優(yōu)勢(shì)點(diǎn)樹通過選擇兩個(gè)節(jié)點(diǎn)進(jìn)行空間劃分,每個(gè)節(jié)點(diǎn)保存兩層劃分結(jié)構(gòu),從而降低樹 高度。在二維空間上的劃分實(shí)例如圖5所示。多優(yōu)勢(shì)點(diǎn)樹的構(gòu)造算法如表1所示。
      [0065] 表 1
      [0066]
      [0067] 1如果|X| =0,返回空樹
      [0068] 2如果 |X| 彡k+2,則
      [0069] 2.1從X中隨機(jī)選擇Xvl作為第一個(gè)優(yōu)勢(shì)點(diǎn),并從中刪除;
      [0070] 2.2計(jì)算所有Xi e X的距離d(Xi,Χν1),并存入數(shù)組D!;
      [0071] 2.3從X中選擇距離Xvl最遠(yuǎn)的Χν2作為第二個(gè)vantage point,并將其從X中刪除;
      [0072] 2.4計(jì)算所有乂#父的距離(1(\上2),并存入數(shù)組02;
      [0073] 2.5退出。
      [0074] 3如果 |X|>k+2,則
      [0075] 3.1從X中隨機(jī)選擇Xvl作為第一個(gè)優(yōu)勢(shì)點(diǎn),并從中刪除;
      [0076] 3.2 計(jì)算所有 XiGX 的距離 d(Xi,Xvl),如果 level 彡 ρ,則 Xi,PATH[level]=d(Xi, Xvl);
      [0077] 3.3按照與Xv^距離將X進(jìn)行排序,Mi為距離中值,然后按照中值對(duì)X分割,分別用 ΧΧι和ΧΧ2表示;
      [0078] 3.4從乂乂2隨機(jī)選取乂^作為第二個(gè)優(yōu)勢(shì)點(diǎn),并將其從乂乂2中刪除;
      [0079] 3.5計(jì)算(1(父」;2),其中父盧父父1或父盧父父2。如果16代1彡 ?,則父」,?厶1'!1[16¥61+1]=(1 (Xj,Xv2);
      [0080] 3.6令M2[l]為{d(Xj,Xv2) IXjeXXihifeD]為{d(Xj,Xv2) |XjeXX2};
      [0081 ] 3 · 7利用M2 [ 1 ]對(duì)乂乂丨進(jìn)行劃分,利用M2 [ 2 ]對(duì)XX2進(jìn)行劃分。使1 e ve 1: = 1 eve 1+2,遞 歸創(chuàng)建MVP-Tree。多優(yōu)勢(shì)點(diǎn)樹的近鄰查詢算法如表2所示。
      [0084] 本發(fā)明從模型框架、空間劃分、插入與檢索機(jī)制、擴(kuò)展性等幾方面對(duì)分布式多優(yōu)勢(shì) 點(diǎn)樹進(jìn)行介紹,并探討模型構(gòu)思過程中所遇問題與解決方案的選擇。
      [0085] 分布式多優(yōu)勢(shì)點(diǎn)樹模型同樣是借助于樹結(jié)構(gòu)將度量空間進(jìn)行劃分,如圖10所示。 對(duì)空間索引樹進(jìn)行水平切割,上層淺層次劃分空間本發(fā)明稱之為"主空間",下部劃分出的 空間本發(fā)明稱之為"次空間"。圖10中將度量空間劃分成為8個(gè)次空間,在實(shí)際應(yīng)用中可以根 據(jù)現(xiàn)實(shí)需求進(jìn)行調(diào)整。對(duì)索引樹的切割平面越靠近根節(jié)點(diǎn),劃分出的次空間數(shù)目越少,則每 個(gè)次空間就越大,分布式機(jī)器負(fù)載就越重。主空間保存在主引導(dǎo)主機(jī)中,主引導(dǎo)主機(jī)負(fù)責(zé)對(duì) 用戶提交的插入與查詢操作進(jìn)行導(dǎo)引,并對(duì)整個(gè)系統(tǒng)進(jìn)行監(jiān)控與負(fù)載均衡。劃分好的次空 間分別放置于分布式從機(jī)器集群上,分布式從機(jī)器會(huì)對(duì)分配到的空間構(gòu)建多優(yōu)勢(shì)點(diǎn)樹索 弓丨,用于其所管轄空間的對(duì)象插入與查詢。圖11是以圓形向外擴(kuò)展的索引樹,中間陰影部分 保存在主引導(dǎo)主機(jī)中作為基本索引。四周擴(kuò)散的8種顏色代表八個(gè)次空間,是存儲(chǔ)在分布式 從機(jī)器上的多優(yōu)勢(shì)點(diǎn)樹索引。
      [0086]分布式多優(yōu)勢(shì)點(diǎn)樹模型度量空間索引模型框架如圖13和14所示,用戶的請(qǐng)求首先 發(fā)送到主引導(dǎo)主機(jī)(圖13和14中實(shí)際為主引導(dǎo)集群,內(nèi)包含多個(gè)主引導(dǎo)主機(jī)),然后主引導(dǎo) 主機(jī)根據(jù)自身存儲(chǔ)的索引結(jié)構(gòu)進(jìn)行相應(yīng)操作。在插入操作時(shí),主引導(dǎo)主機(jī)將按照度量空間 劃分原則將點(diǎn)插入相應(yīng)的分布式從節(jié)點(diǎn)。當(dāng)用戶請(qǐng)求檢索操作時(shí),主引導(dǎo)主機(jī)根據(jù)查詢算 法返回給用戶相應(yīng)的從查詢接口,由用戶向相應(yīng)的從節(jié)點(diǎn)尋求檢索結(jié)果,以減輕主引導(dǎo)主 機(jī)負(fù)擔(dān)。
      [0087]具體的,如圖6至20所示,本實(shí)施例面向大規(guī)模高維空間數(shù)據(jù)的分布式索引方法, 包括以下步驟:
      [0088] (1)在度量空間中按照邊緣選取法選取一定的劃分優(yōu)勢(shì)點(diǎn)N;
      [0089] (2)根據(jù)度量空間中選取的優(yōu)勢(shì)點(diǎn),對(duì)度量空間進(jìn)行劃分成2n個(gè)次空間;
      [0090] (3)空間劃分好后,根據(jù)劃分的空間結(jié)構(gòu)在主引導(dǎo)主機(jī)構(gòu)造主空間索引樹;
      [0091] (4)將每個(gè)次空間分配到對(duì)應(yīng)的2n個(gè)從節(jié)點(diǎn)上,并在從節(jié)點(diǎn)機(jī)器上構(gòu)建多優(yōu)勢(shì)點(diǎn) 樹;優(yōu)選的,多優(yōu)勢(shì)點(diǎn)樹D-MVP (Mn,Sn)表示1個(gè)主引導(dǎo)主機(jī),SA從節(jié)點(diǎn)的模型,主引導(dǎo)主機(jī) 數(shù)目和從節(jié)點(diǎn)數(shù)目根據(jù)數(shù)據(jù)量進(jìn)行擴(kuò)充或縮減。
      [0092] (5)當(dāng)有新的度量空間中的對(duì)象插入分布式多優(yōu)勢(shì)樹索引結(jié)構(gòu)時(shí),插入請(qǐng)求會(huì)首 先發(fā)送到主引導(dǎo)主機(jī);主引導(dǎo)主機(jī)會(huì)根據(jù)建立的主空間索引樹來判斷需要插入到哪臺(tái)從節(jié) 點(diǎn)機(jī)器上;然后將插入請(qǐng)求發(fā)送至相應(yīng)的從節(jié)點(diǎn)主機(jī);從節(jié)點(diǎn)主機(jī)收到請(qǐng)求后,將新的度量 空間對(duì)象插入到自身的空間索引樹上;
      [0093] (6)當(dāng)有用戶的檢索請(qǐng)求時(shí);首先將檢索指令發(fā)送到主引導(dǎo)主機(jī);主引導(dǎo)主機(jī)根據(jù) 自身構(gòu)建的主空間劃分索引樹進(jìn)行檢索;若查詢請(qǐng)求中的度量空間對(duì)象與根節(jié)點(diǎn)對(duì)象的距 離加上檢索請(qǐng)求中的距離之和大于等于根節(jié)點(diǎn)的空間劃分半徑,則遞歸查詢右子樹;若查 詢請(qǐng)求中的度量空間對(duì)象與根節(jié)點(diǎn)對(duì)象的距離減去檢索請(qǐng)求中的距離之差小于等于根節(jié) 點(diǎn)的空間劃分半徑,則遞歸查詢左子樹;直至查詢節(jié)點(diǎn)為葉節(jié)點(diǎn)為止;此葉節(jié)點(diǎn)即從節(jié)點(diǎn)主 機(jī)信息,最后返回從節(jié)點(diǎn)主機(jī)信息集合到用戶;用戶最終會(huì)去請(qǐng)求這些從節(jié)點(diǎn)主機(jī),從節(jié)點(diǎn) 主機(jī)得到請(qǐng)求,按照多優(yōu)勢(shì)樹檢索算法進(jìn)行檢索;最終返回用戶檢索結(jié)果集合。
      [0094] 進(jìn)一步的,本發(fā)明主空間劃分策略并非采用的多優(yōu)勢(shì)點(diǎn)樹方法,而是采用較其更 為簡(jiǎn)單的策略。首先在整個(gè)度量空間中確定一個(gè)中心切割點(diǎn)和距離半徑,將度量空間劃分 為兩塊。然后分別遞歸確定切割點(diǎn)和劃分半徑對(duì)已劃分好的度量空間再次分割,直至達(dá)到 指定的次空間數(shù)目。
      [0095] 主空間劃分將決定著分布式機(jī)器負(fù)載是否均衡。主空間劃分的層次也將決定著次 空間的數(shù)量。若數(shù)據(jù)規(guī)模極大,則可劃分更多的次空間以便使負(fù)載均衡到更多分布式從機(jī) 器上。
      [0096] 本發(fā)明主空間切割采用的是靜態(tài)切割方法,即預(yù)先選取好切割中心點(diǎn)。度量空間 將被靜態(tài)的劃分成指定數(shù)量的次空間。因而切割中心點(diǎn)的選取將影響到空間劃分的均衡性 問題。最簡(jiǎn)單的切割中心點(diǎn)的選取為隨機(jī)選取,但有學(xué)者認(rèn)為謹(jǐn)慎的選擇切割中心點(diǎn)將產(chǎn) 生更好的檢索性能,這樣代價(jià)會(huì)很高,而且與具體數(shù)據(jù)在度量空間的分布有關(guān)。常見的分割 策略如圖15至17所示,以二維空間歐幾里得距離為例。若度量空間里的點(diǎn)均勻分布,則應(yīng)將 切割中心點(diǎn)選擇在靠近度量空間的角落位置,如圖15所示。與從中心選擇相比,降低了出現(xiàn) 在度量空間的邊界,可增加檢索效率。若切割點(diǎn)可從度量空間外選擇,也將產(chǎn)生良好的效 果。若距離一定遠(yuǎn),用超平面切割出的兩個(gè)度量空間可以看作趨于相同,如圖17所示。除切 割中心點(diǎn)的選擇外,切割半徑也將對(duì)模型的性能產(chǎn)生影響。半徑的選擇與切割中心點(diǎn)的選 擇策略相關(guān),如果空間中點(diǎn)均勻分布,盡可能將空間等大小劃分,則負(fù)載也較為均衡。
      [0097] 當(dāng)用戶需要插入一個(gè)新的對(duì)象時(shí),插入請(qǐng)求會(huì)發(fā)送到主引導(dǎo)主機(jī)。主引導(dǎo)主機(jī)根 據(jù)空間劃分結(jié)果,通過查詢索引樹求出其所落在的次空間區(qū)域,然后將插入信息傳送到相 應(yīng)的從節(jié)點(diǎn)。從節(jié)點(diǎn)收到請(qǐng)求后將節(jié)點(diǎn)插入到其自身空間索引樹中。
      [0098] 空間劃分后的另外一個(gè)重要問題是如何處理用戶的近鄰檢索請(qǐng)求。當(dāng)用戶請(qǐng)求檢 索時(shí),首先將檢索指令發(fā)送到主引導(dǎo)主機(jī)。主引導(dǎo)主機(jī)根據(jù)自身構(gòu)建的主空間劃分索引樹 按照算法3進(jìn)行計(jì)算,返回需要檢索的從機(jī)器接口信息。然后客戶端封裝好的接口函數(shù)會(huì)自 動(dòng)根據(jù)主引導(dǎo)主機(jī)返回從信息去請(qǐng)求數(shù)據(jù)。從節(jié)點(diǎn)收到請(qǐng)求后,按照算法2檢索查詢節(jié)點(diǎn)的 近鄰集合。算法3返回的從數(shù)目并不一定只有一個(gè),當(dāng)查詢對(duì)象Y位于度量空間劃分超平面 附近時(shí),則需要從多個(gè)從節(jié)點(diǎn)上尋找近鄰。主空間索引算法如表3所示。
      [0099] 表 3
      [0100]
      [0101] 分布式多優(yōu)勢(shì)點(diǎn)樹模型的高可擴(kuò)展性主要表現(xiàn)為三部分:面對(duì)大規(guī)模數(shù)據(jù)擴(kuò)展、 面對(duì)高并發(fā)操作和局部熱點(diǎn)問題。
      [0102] 在數(shù)據(jù)量急速膨脹,當(dāng)前機(jī)器集群整體負(fù)載過重,無法及時(shí)有效的提供服務(wù)時(shí), 可通過增加主空間劃分層次數(shù)目來解決。劃分層次變大,劃分出的次空間數(shù)目也將變多,增 加分布式Slave節(jié)點(diǎn)來均衡負(fù)載,將大規(guī)模數(shù)據(jù)分散到更多的集群上。
      [0103] 由于主空間劃分為靜態(tài)劃分,所以主引導(dǎo)主機(jī)中創(chuàng)建的索引在運(yùn)行過程中不會(huì)輕 易改變,除非需要重新對(duì)度量空間進(jìn)行劃分。在面對(duì)高并發(fā)操作時(shí),主引導(dǎo)主機(jī)要處理所有 用戶的查詢與插入請(qǐng)求,必然面臨著請(qǐng)求耗時(shí)過長(zhǎng),甚至資源耗盡的情況。因而可以將主引 導(dǎo)主機(jī)進(jìn)行復(fù)制,如圖13和14所示??蛻舳苏?qǐng)求接口可采用多種方案選擇主引導(dǎo)主機(jī),如隨 機(jī)、輪詢、最輕負(fù)載等方案?,F(xiàn)實(shí)世界中,數(shù)據(jù)的分布并不均勻,由于某些特殊場(chǎng)景,局部熱 點(diǎn)訪問也可能經(jīng)常發(fā)生,這將導(dǎo)致各從機(jī)器負(fù)載不均衡問題。對(duì)于這種情況,分布式多優(yōu)勢(shì) 點(diǎn)樹模型可以很方便的對(duì)Slave機(jī)器進(jìn)行合并與拆分。如圖18和19所示,圖18左側(cè)深色為負(fù) 載過重的從節(jié)點(diǎn),為減輕其負(fù)載,將主空間最左分支再進(jìn)行二次劃分,變?yōu)閮蓧K新的次空 間,如圖19所示。從節(jié)點(diǎn)合并有兩種策略。擁有共同父親的從節(jié)點(diǎn)和上升合并到成一個(gè)從節(jié) 點(diǎn)。若沒有共同父親,則可將兩個(gè)甚至多個(gè)從機(jī)器上的多優(yōu)勢(shì)點(diǎn)樹放置于一臺(tái)機(jī)器上。
      [0104] 為說明分布式多優(yōu)勢(shì)點(diǎn)樹模型的有效性,本實(shí)施例實(shí)驗(yàn)將分布式多優(yōu)勢(shì)點(diǎn)樹模型 與多優(yōu)勢(shì)點(diǎn)樹算法比較,并通過調(diào)節(jié)分布式多優(yōu)勢(shì)點(diǎn)樹參數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)。分布式多優(yōu)勢(shì) 點(diǎn)樹模型可通過調(diào)整主引導(dǎo)主機(jī)數(shù)目和從節(jié)點(diǎn)數(shù)目來應(yīng)對(duì)不同的應(yīng)用場(chǎng)景。實(shí)驗(yàn)中距離度 量采用的歐幾里得距離進(jìn)行計(jì)算,實(shí)驗(yàn)具體細(xì)節(jié)將在本節(jié)中進(jìn)行說明。
      [0105] 本發(fā)明分布式多優(yōu)勢(shì)點(diǎn)樹D-MVP (Mn,Sn)表示Mn個(gè)主引導(dǎo)主機(jī),Sn個(gè)從節(jié)點(diǎn)的模型。 機(jī)器的軟硬件環(huán)境如表4所示,實(shí)驗(yàn)將根據(jù)M4PS n的值選取表4中數(shù)臺(tái)機(jī)器進(jìn)行。
      [0106] 表4.實(shí)驗(yàn)軟硬件環(huán)境
      [0108] 本發(fā)明實(shí)驗(yàn)中采用了人工數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。人工數(shù)據(jù)集根據(jù)實(shí)驗(yàn)需要隨機(jī)生成不 同維度,不同數(shù)量的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),以驗(yàn)證模型的有效性。本發(fā)明分別在64維和128維向量 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),每個(gè)維度取值為〇~9之間的隨機(jī)數(shù)。
      [0109] 由于多優(yōu)勢(shì)點(diǎn)樹索引結(jié)構(gòu)的性能較于優(yōu)勢(shì)點(diǎn)樹、R樹、K維樹要好,故本發(fā)明從機(jī)器 采用多優(yōu)勢(shì)點(diǎn)樹結(jié)構(gòu)。實(shí)驗(yàn)中僅將不同參數(shù)的分布式多優(yōu)勢(shì)點(diǎn)樹模型與多優(yōu)勢(shì)點(diǎn)樹進(jìn)行比 較,另外分布式多優(yōu)勢(shì)點(diǎn)樹模型的可擴(kuò)展性,分布式從機(jī)器上的索引樹可以用任何一種樹 形結(jié)構(gòu)進(jìn)行代替。
      [0110] 面對(duì)大規(guī)模數(shù)據(jù),通過調(diào)整主空間分區(qū)數(shù)目可以對(duì)數(shù)據(jù)進(jìn)行均衡負(fù)載。分布式多 優(yōu)勢(shì)點(diǎn)樹模型可以非常容易的增加從節(jié)點(diǎn)數(shù)目,從而分擔(dān)負(fù)載。圖15至17顯示的是對(duì)度量 空間采用邊緣劃分后,索引樹上節(jié)點(diǎn)在不同次空間的著色圖。15、16、17分別顯示的是將度 量空間分成2個(gè)次空間、4個(gè)次空間、8個(gè)次空間。圖中不同顏色代表不同的次空間,這些點(diǎn)被 分配到相應(yīng)的從節(jié)點(diǎn)機(jī)器上。圖15至17中間深色的點(diǎn)代表對(duì)度量空間進(jìn)行劃分的切割中心 點(diǎn)。切割中心點(diǎn)構(gòu)成的索引樹被保存在主引導(dǎo)主機(jī)上。通過合理的選擇度量切割半徑,可以 將度量空間中的點(diǎn)較為均勻的分布到從節(jié)點(diǎn)上。
      [0111] 本發(fā)明分別通過64維和128維的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。圖18是基于64維數(shù)據(jù)進(jìn)行的近鄰 檢索查詢耗時(shí)圖,其中橫坐標(biāo)第一行為數(shù)據(jù)規(guī)模,第二行和第三行為實(shí)際的時(shí)間消耗值,縱 坐標(biāo)為消耗時(shí)間,單位為s。從實(shí)驗(yàn)結(jié)果圖可知,在數(shù)據(jù)規(guī)模較小時(shí),分布式多優(yōu)勢(shì)點(diǎn)樹模型 并未體現(xiàn)出其優(yōu)勢(shì)。尤其是在數(shù)據(jù)量為100時(shí),分布式多優(yōu)勢(shì)點(diǎn)樹模型所消耗時(shí)間較之于多 優(yōu)勢(shì)點(diǎn)樹大0.001s,這是由于分布式多優(yōu)勢(shì)點(diǎn)樹模型需要進(jìn)行主引導(dǎo)主機(jī)需要首先從本 地索引結(jié)構(gòu)中返回需要被檢索的從機(jī)器接口信息,然后發(fā)送至客戶端。隨著數(shù)據(jù)量的增加, 分布式多優(yōu)勢(shì)點(diǎn)樹模型的優(yōu)勢(shì)逐漸凸顯。當(dāng)數(shù)據(jù)量達(dá)到500000之后,分布式多優(yōu)勢(shì)點(diǎn)樹模 型耗時(shí)是多優(yōu)勢(shì)點(diǎn)樹一半左右,而且增長(zhǎng)較為平滑,查詢性能表現(xiàn)更好。從節(jié)點(diǎn)中多優(yōu)勢(shì)點(diǎn) 樹高度增加,數(shù)據(jù)量急速膨脹,這使得從主引導(dǎo)主機(jī)檢索從機(jī)器接口信息的時(shí)間越來越顯 得微不足道。當(dāng)數(shù)據(jù)從64維變?yōu)?28維時(shí),如圖19所示,分布式多優(yōu)勢(shì)點(diǎn)樹依然顯示出良好 的性能。
      [0112] 當(dāng)數(shù)據(jù)規(guī)模過大,可增加對(duì)度量空間的劃分來均衡負(fù)載,圖20展示的是在數(shù)據(jù)維 度相同,不同度量空間分割數(shù)量對(duì)于性能的影響。從圖中可以看出,小規(guī)模數(shù)據(jù)量時(shí),增加 Slave節(jié)點(diǎn)數(shù)目效果并不明顯。隨著數(shù)據(jù)量的膨脹分布式多優(yōu)勢(shì)點(diǎn)樹(1,4)的性能要比分布 式多優(yōu)勢(shì)點(diǎn)樹(1,2)時(shí)間消耗少近一半,由此可見通過簡(jiǎn)單的增加度量空間劃分?jǐn)?shù)量可以 非常有效的提尚檢索性能。
      [0113] 在本說明書中所談到的"一個(gè)實(shí)施例"、"另一個(gè)實(shí)施例"、"實(shí)施例"等,指的是結(jié)合 該實(shí)施例描述的具體特征、結(jié)構(gòu)或者特點(diǎn)包括在本申請(qǐng)概括性描述的至少一個(gè)實(shí)施例中。 在說明書中多個(gè)地方出現(xiàn)同種表述不是一定指的是同一個(gè)實(shí)施例。進(jìn)一步來說,結(jié)合任一 個(gè)實(shí)施例描述一個(gè)具體特征、結(jié)構(gòu)或者特點(diǎn)時(shí),所要主張的是結(jié)合其他實(shí)施例來實(shí)現(xiàn)這種 特征、結(jié)構(gòu)或者特點(diǎn)也落在本發(fā)明的范圍內(nèi)。
      [0114] 盡管這里參照發(fā)明的多個(gè)解釋性實(shí)施例對(duì)本發(fā)明進(jìn)行了描述,但是,應(yīng)該理解,本 領(lǐng)域技術(shù)人員可以設(shè)計(jì)出很多其他的修改和實(shí)施方式,這些修改和實(shí)施方式將落在本申請(qǐng) 公開的原則范圍和精神之內(nèi)。更具體地說,在本申請(qǐng)公開權(quán)利要求的范圍內(nèi),可以對(duì)主題組 合布局的組成部件和/或布局進(jìn)行多種變型和改進(jìn)。除了對(duì)組成部件和/或布局進(jìn)行的變型 和改進(jìn)外,對(duì)于本領(lǐng)域技術(shù)人員來說,其他的用途也將是明顯的。
      【主權(quán)項(xiàng)】
      1. 一種面向大規(guī)模高維空間數(shù)據(jù)的分布式索引方法,其特征在于:所述的方法包括以 下步驟: 步驟一、在度量空間中按照邊緣選取法選取劃分優(yōu)勢(shì)點(diǎn)N; 步驟二、根據(jù)度量空間中選取的優(yōu)勢(shì)點(diǎn),對(duì)度量空間進(jìn)行劃分成2n個(gè)次空間; 步驟三、空間劃分好后,根據(jù)劃分的空間結(jié)構(gòu),在主引導(dǎo)主機(jī)構(gòu)造主空間索引樹; 步驟四、將每個(gè)次空間分配到對(duì)應(yīng)的2n個(gè)從節(jié)點(diǎn)上,并在從節(jié)點(diǎn)機(jī)器上構(gòu)建多優(yōu)勢(shì)點(diǎn) 樹; 步驟五、當(dāng)有新的度量空間中的對(duì)象插入分布式多優(yōu)勢(shì)樹索引結(jié)構(gòu)時(shí),插入請(qǐng)求首先 發(fā)送到主引導(dǎo)主機(jī);主引導(dǎo)主機(jī)根據(jù)建立的主空間索引樹判斷需要插入到哪臺(tái)從節(jié)點(diǎn)機(jī)器 上;然后將插入請(qǐng)求發(fā)送至相應(yīng)的從節(jié)點(diǎn)主機(jī); 所述從節(jié)點(diǎn)主機(jī)收到請(qǐng)求后,將新的度量空間對(duì)象插入到自身的空間索引樹上。2. 根據(jù)權(quán)利要求1所述的面向大規(guī)模高維空間數(shù)據(jù)的分布式索引方法,其特征在于還 包括步驟六、當(dāng)有用戶的檢索請(qǐng)求時(shí): 首先將檢索指令發(fā)送到主引導(dǎo)主機(jī);主引導(dǎo)主機(jī)根據(jù)自身構(gòu)建的主空間劃分索引樹進(jìn) 行檢索;直至查詢節(jié)點(diǎn)為葉節(jié)點(diǎn)為止;最后返回從節(jié)點(diǎn)主機(jī)信息集合到用戶;用戶請(qǐng)求所述 從節(jié)點(diǎn)主機(jī),從節(jié)點(diǎn)主機(jī)得到請(qǐng)求,按照多優(yōu)勢(shì)樹檢索算法進(jìn)行檢索;最終返回用戶檢索結(jié) 果集合。3. 根據(jù)權(quán)利要求2所述的面向大規(guī)模高維空間數(shù)據(jù)的分布式索引方法,其特征在于所 述的主引導(dǎo)主機(jī)根據(jù)自身構(gòu)建的主空間劃分索引樹進(jìn)行檢索步驟包括:若查詢請(qǐng)求中的度 量空間對(duì)象與根節(jié)點(diǎn)對(duì)象的距離加上檢索請(qǐng)求中的距離之和大于等于根節(jié)點(diǎn)的空間劃分 半徑,則遞歸查詢右子樹; 若查詢請(qǐng)求中的度量空間對(duì)象與根節(jié)點(diǎn)對(duì)象的距離減去檢索請(qǐng)求中的距離之差小于 等于根節(jié)點(diǎn)的空間劃分半徑,則遞歸查詢左子樹。4. 根據(jù)權(quán)利要求1所述的面向大規(guī)模高維空間數(shù)據(jù)的分布式索引方法,其特征在于所 述的分布式多優(yōu)勢(shì)點(diǎn)樹采用D-MVP (Mn,Sn)表示Mn個(gè)主引導(dǎo)主機(jī),Sn個(gè)從節(jié)點(diǎn)的模型。
      【文檔編號(hào)】G06F17/30GK106095920SQ201610406826
      【公開日】2016年11月9日
      【申請(qǐng)日】2016年6月7日
      【發(fā)明人】李川, 王昂
      【申請(qǐng)人】四川大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1