国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法、介質(zhì)及產(chǎn)品與流程

      文檔序號:39608290發(fā)布日期:2024-10-11 13:17閱讀:14來源:國知局
      向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法、介質(zhì)及產(chǎn)品與流程

      本發(fā)明涉及數(shù)據(jù)庫,特別是涉及一種向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法、介質(zhì)及產(chǎn)品。


      背景技術(shù):

      1、隨著大規(guī)模數(shù)據(jù)爆炸增長,文本、圖片或者音頻等經(jīng)過模型能得到隱形表示實體特征的特征向量,通過將實體量化后可以實現(xiàn)更高效的處理,從而實現(xiàn)后續(xù)再進行向量的查詢操作,已成為當(dāng)下對非結(jié)構(gòu)化數(shù)據(jù)處理的主流趨勢。相比傳統(tǒng)對非結(jié)構(gòu)化數(shù)據(jù)分析的方法,通過嵌入技術(shù)對其進行量化然后進一步進行處理的方法更加高效。與之相對應(yīng)的是向量數(shù)據(jù)庫的應(yīng)運而生,作為一個數(shù)據(jù)庫,它首先需要具備數(shù)據(jù)持久化存儲功能,而作為特殊的存儲向量的數(shù)據(jù)庫,用戶可以將非結(jié)構(gòu)化的文本通過嵌入技術(shù)轉(zhuǎn)換后的向量存儲入數(shù)據(jù)庫中,從而實現(xiàn)支持對向量的長期存儲,以便后續(xù)查詢操作。

      2、除了持久化存儲外,向量數(shù)據(jù)庫還需要具備查詢top?k最近鄰k個向量的功能。在進行最近鄰k個向量計算時,一般的策略為將向量數(shù)據(jù)庫中每個向量與待查詢向量之間進行距離計算,向量索引構(gòu)建策略為對全部向量構(gòu)建n個聚類,每個向量歸屬于其中一個類,每個類都有一個聚類中心,類與類之間距離最遠(yuǎn),而聚類中的每個向量距離所屬類中的聚類中心距離最近。查詢策略為返回與待查詢向量最相似的k個結(jié)果。為了實現(xiàn)這種聚類功能,首先需要對已有向量進行聚類處理,最常見的聚類策略為隨機初始化聚類中心,然后將所有的向量歸屬到離其距離最近的聚類中心所在類,更新聚類中心,迭代直至聚類中心不再改變?yōu)橹埂?/p>

      3、在對向量列建立索引時,最先需要隨機初始化n個聚類中心,而聚類中心的初始化在建立索引時起著重要的作用,它決定了聚類算法是否能夠收斂到全局最小值。如果大部分或者全部的簇中心被初始化到同一個簇中,聚類算法很可能無法達到最佳的聚類結(jié)果。

      4、在索引建立完畢后,每個向量都已分配給了相應(yīng)的聚類中心,在進行最近鄰向量查詢時只會去最近似的類中進行查詢。如若待查詢向量位于聚類邊緣部分,會存在如下問題:若其最近的其他數(shù)據(jù)點包含在相鄰類中,因為在查詢的時候只會查詢待查詢向量與聚類中心距離最近的類中全部向量,并不會搜索到近鄰類的正確向量,故會出現(xiàn)遺漏問題,從而導(dǎo)致查詢出現(xiàn)錯誤。


      技術(shù)實現(xiàn)思路

      1、本發(fā)明的一個目的是要提供一種能夠解決上述任一問題的向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法、介質(zhì)及產(chǎn)品。

      2、本發(fā)明一個進一步的目的是實現(xiàn)向量數(shù)據(jù)庫插入向量數(shù)據(jù)、對向量字段建立索引與查詢最近鄰向量的完整流程。

      3、本發(fā)明另一個進一步的目的是通過一種智能的初始化方法來選擇初始的聚類中心,以更好地避免陷入局部最優(yōu)解的問題。

      4、本發(fā)明另一個進一步的目的是通過設(shè)置查詢聚類數(shù)目的方法減少邊緣問題所帶來的誤差。

      5、特別地,本發(fā)明提供了一種向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法,包括:在向量數(shù)據(jù)庫中建立表格,表格包含固定維度的向量字段;向表格插入相同維度的向量數(shù)據(jù)作為向量樣本;對向量字段建立索引;以及利用索引對待查詢向量的最近鄰向量進行近似查詢。

      6、可選地,對向量字段建立索引的步驟包括:初始化n個聚類中心;計算聚類中心以外的所有向量樣本與每個聚類中心之間的第一距離,將每個向量樣本分配到最近的聚類中心所屬的類中;重新計算每個類的聚類中心;判斷聚類中心是否發(fā)生變化;以及若否,確定聚類完成。

      7、可選地,在聚類中心發(fā)生變化的情況下,返回執(zhí)行計算聚類中心以外的所有向量樣本與每個聚類中心之間的第一距離的步驟。

      8、可選地,初始化n個聚類中心的步驟包括:隨機選擇一個向量樣本作為第一個聚類中心;計算第一個聚類中心以外的所有向量樣本與第一個聚類中心的第二距離,選擇第二距離最大的向量樣本作為下一個聚類中心;計算聚類中心以外的所有向量樣本到與之最近的聚類中心的第三距離,選擇第三距離最大的向量樣本作為下一個聚類中心;判斷是否已選出n個聚類中心;以及若是,確定初始化完成。

      9、可選地,在未選出n個聚類中心得情況下,返回執(zhí)行計算聚類中心以外的所有向量樣本到與之最近的聚類中心的第三距離的步驟。

      10、可選地,利用索引對待查詢向量的最近鄰向量進行近似查詢的步驟包括:設(shè)置待查詢的聚類數(shù)目m,其中聚類數(shù)目m為1到n之間的正整數(shù);計算待查詢向量與每一個聚類中心的第四距離,根據(jù)第四距離的大小對類進行排序;以及計算待查詢向量與第四距離最小的m個類中每一個向量樣本的第五距離,根據(jù)第五距離的大小對m個類中的向量樣本進行排序,返回第五距離最小的k個向量樣本作為結(jié)果。

      11、可選地,第一距離包括歐氏距離、余弦距離、負(fù)內(nèi)積距離或用戶自定義的距離。

      12、可選地,重新計算每個類的聚類中心的步驟包括:取每個類中所有向量樣本的平均值作為新的聚類中心。

      13、根據(jù)本發(fā)明的另一個方面,還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述任一項的向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法。

      14、根據(jù)本發(fā)明的又一個方面,還提供了一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)上述任一項的向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法。

      15、本發(fā)明的向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法,在向量數(shù)據(jù)庫中建立表格,表格包含固定維度的向量字段;向表格插入相同維度的向量數(shù)據(jù)作為向量樣本;對向量字段建立索引;以及利用索引對待查詢向量的最近鄰向量進行近似查詢,能夠?qū)崿F(xiàn)向量數(shù)據(jù)庫插入向量數(shù)據(jù)、對向量字段建立索引與查詢最近鄰向量的完整流程。

      16、進一步地,本發(fā)明的向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法,隨機選擇一個向量樣本作為第一個聚類中心;計算第一個聚類中心以外的所有向量樣本與第一個聚類中心的第二距離,選擇第二距離最大的向量樣本作為下一個聚類中心;計算聚類中心以外的所有向量樣本到與之最近的聚類中心的第三距離,選擇第三距離最大的向量樣本作為下一個聚類中心;判斷是否已選出n個聚類中心;以及若是,確定初始化完成,通過一種智能的初始化方法來選擇初始的聚類中心,以更好地避免陷入局部最優(yōu)解的問題。

      17、進一步地,本發(fā)明的向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法,利用索引對待查詢向量的最近鄰向量進行近似查詢的步驟包括:設(shè)置待查詢的聚類數(shù)目m,其中聚類數(shù)目m為1到n之間的正整數(shù);計算待查詢向量與每一個聚類中心的第四距離,根據(jù)第四距離的大小對類進行排序;以及計算待查詢向量與第四距離最小的m個類中每一個向量樣本的第五距離,根據(jù)第五距離的大小對m個類中的向量樣本進行排序,返回第五距離最小的k個向量樣本作為結(jié)果,通過設(shè)置查詢聚類數(shù)目的方法減少邊緣問題所帶來的誤差,在精確度與查詢時間之間進行平衡,從而加快查詢速度。

      18、根據(jù)下文結(jié)合附圖對本發(fā)明具體實施例的詳細(xì)描述,本領(lǐng)域技術(shù)人員將會更加明了本發(fā)明的上述以及其他目的、優(yōu)點和特征。



      技術(shù)特征:

      1.一種向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法,包括:

      2.根據(jù)權(quán)利要求1所述的方法,其中對所述向量字段建立索引的步驟包括:

      3.根據(jù)權(quán)利要求2所述的方法,其中,

      4.根據(jù)權(quán)利要求2所述的方法,其中初始化n個聚類中心的步驟包括:

      5.根據(jù)權(quán)利要求4所述的方法,其中,

      6.根據(jù)權(quán)利要求2所述的方法,其中利用所述索引對待查詢向量的最近鄰向量進行近似查詢的步驟包括:

      7.根據(jù)權(quán)利要求2所述的方法,其中,

      8.根據(jù)權(quán)利要求2所述的方法,其中重新計算每個所述類的聚類中心的步驟包括:

      9.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至8任一項所述的向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法。

      10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至8中任一項所述的向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法。


      技術(shù)總結(jié)
      本發(fā)明提供了一種向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法、介質(zhì)及產(chǎn)品。其中,向量數(shù)據(jù)庫的索引構(gòu)建和檢索方法包括:在向量數(shù)據(jù)庫中建立表格,表格包含固定維度的向量字段;向表格插入相同維度的向量數(shù)據(jù)作為向量樣本;對向量字段建立索引;以及利用索引對待查詢向量的最近鄰向量進行近似查詢,能夠?qū)崿F(xiàn)向量數(shù)據(jù)庫插入向量數(shù)據(jù)、對向量字段建立索引與查詢最近鄰向量的完整流程;通過一種智能的初始化方法來選擇初始的聚類中心,以更好地避免陷入局部最優(yōu)解的問題;通過設(shè)置查詢聚類數(shù)目的方法減少邊緣問題所帶來的誤差,在精確度與查詢時間之間進行平衡,從而加快查詢速度。

      技術(shù)研發(fā)人員:韋丹妮,王建華
      受保護的技術(shù)使用者:中電科金倉(北京)科技股份有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/10/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1