近鄰搜索方法與系統(tǒng)的制作方法

文檔序號：6397783閱讀：254來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：近鄰搜索方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域，特別是涉及一種近鄰搜索方法與系統(tǒng)。
背景技術(shù)：
隨著信息技術(shù)的迅速發(fā)展，數(shù)據(jù)采集能力的提高導(dǎo)致各領(lǐng)域數(shù)據(jù)量和維度都呈指數(shù)級增長。然而，數(shù)據(jù)量和數(shù)據(jù)維度的迅速增長讓搜索變得異常困難。例如，對于一張輸入的圖片，當(dāng)我們需要在海量圖片庫中查找與這張圖片相同或相似的圖片時，我們不僅要找得準(zhǔn)，還要找得快。在這個例子中，我們可以將圖像抽象成數(shù)據(jù)點，數(shù)據(jù)點之間的相似程度通常可以用歐式距離來衡量，近鄰搜索就是指找到與查詢數(shù)據(jù)點在這種相似性度量下的相似數(shù)據(jù)點。如果將查詢數(shù)據(jù)點與數(shù)據(jù)庫中的所有點一個一個進行比較，雖然可以保證檢索精度，但是對于海量高維數(shù)據(jù)就會變得非常慢。傳統(tǒng)的基于樹結(jié)構(gòu)的近鄰搜索技術(shù)如果要得到比較高的準(zhǔn)確率，其會隨著數(shù)據(jù)維度的的增高，檢索速度迅速下降。

發(fā)明內(nèi)容
基于上述情況，本發(fā)明提出了一種近鄰搜索方法與系統(tǒng)，以提高近鄰搜索的速度，同時保證準(zhǔn)確率。一種近鄰搜索方法，包括線下學(xué)習(xí)和線上搜索，所述線下學(xué)習(xí)包括如下步驟隨機均勻選取數(shù)據(jù)集中的預(yù)定數(shù)目的數(shù)據(jù)點作為錨點，通過計算數(shù)據(jù)點與所述錨點之間的距離得到核矩陣，并中心化該核矩陣；學(xué)習(xí)預(yù)定數(shù)目的二進制位的投影和閾值，每一個二進制位的學(xué)習(xí)包括計算密度和均衡互補信息，使用中心化后的核矩陣及所述密度和均衡互補信息學(xué)習(xí)出投影和閾值，目標(biāo)函數(shù)是最小化哈希超平面兩側(cè)小區(qū)域內(nèi)數(shù)據(jù)點的個數(shù)，并保證桶是近似均衡的；通過中心化后的核矩陣，以及學(xué)習(xí)出的預(yù)定數(shù)目的二進制位的投影和閾值，將數(shù)據(jù)集中的數(shù)據(jù)點轉(zhuǎn)換成二進制串，將相同二進制串的數(shù)據(jù)點放置到對應(yīng)的桶中，建立哈希表;所述線上搜索包括如下步驟對于每個查詢數(shù)據(jù)點使用相同的所述錨點和核矩陣的均值得到查詢數(shù)據(jù)點中心化后的核矩陣。使用查詢數(shù)據(jù)點中心化后的核矩陣，以及學(xué)習(xí)出的投影和閾值，將每個查詢數(shù)據(jù)點轉(zhuǎn)換成二進制串。根據(jù)查詢數(shù)據(jù)點轉(zhuǎn)換的二進制串，在所述哈希表的對應(yīng)桶中查找出預(yù)定數(shù)目的數(shù)據(jù)點，作為查詢數(shù)據(jù)點的近鄰。一種近鄰搜索系統(tǒng)，包括線下學(xué)習(xí)單元和線上搜索單元，所述線下學(xué)習(xí)單元包括
訓(xùn)練點核矩陣確定模塊，用于隨機均勻選取數(shù)據(jù)集中的預(yù)定數(shù)目的數(shù)據(jù)點作為錨點，通過計算數(shù)據(jù)點與所述錨點之間的距離得到核矩陣，并中心化該核矩陣；投影和閾值學(xué)習(xí)模塊，用于學(xué)習(xí)預(yù)定數(shù)目的二進制位的投影和閾值，每一個二進制位的學(xué)習(xí)包括計算密度和均衡互補信息，使用中心化后的核矩陣及所述密度和均衡互補信息學(xué)習(xí)出投影和閾值，目標(biāo)函數(shù)是最小化哈希超平面兩側(cè)小區(qū)域內(nèi)數(shù)據(jù)點的個數(shù)，并保證桶是近似均衡的；哈希表建立模塊，用于通過中心化后的核矩陣，以及學(xué)習(xí) 出的預(yù)定數(shù)目的二進制位的投影和閾值，將數(shù)據(jù)集中的數(shù)據(jù)點轉(zhuǎn)換成二進制串，將相同二進制串的數(shù)據(jù)點放置到對應(yīng)的桶中，建立哈希表；所述線上搜索單元包括查詢點核矩陣確定模塊，用于對于每個查詢數(shù)據(jù)點使用相同的所述錨點和核矩陣的均值得到查詢數(shù)據(jù)點中心化后的核矩陣。二進制串轉(zhuǎn)換模塊，用于使用查詢數(shù)據(jù)點中心化后的核矩陣，以及學(xué)習(xí)出的投影和閾值，將每個查詢數(shù)據(jù)點轉(zhuǎn)換成二進制串。哈希桶查找模塊，用于根據(jù)查詢數(shù)據(jù)點轉(zhuǎn)換的二進制串，在所述哈希表的對應(yīng)桶中查找出預(yù)定數(shù)目的數(shù)據(jù)點，作為查詢數(shù)據(jù)點的近鄰。本發(fā)明近鄰搜索方法與系統(tǒng)，通過最小化哈希超平面兩側(cè)小區(qū)域內(nèi)數(shù)據(jù)點個數(shù)的學(xué)習(xí)函數(shù)，使哈希超平面穿過數(shù)據(jù)的稀疏區(qū)域，從而保證近鄰搜索的高準(zhǔn)確率，通過近似均衡桶條件，給學(xué)習(xí)函數(shù)加上近似均衡桶正則項，使哈希超平面對數(shù)據(jù)點劃分得更均衡，從而保證近鄰搜索的高搜索速度。無論是對于少量還是海量數(shù)據(jù)，本方法與系統(tǒng)都能進行高準(zhǔn)確率和高速度的近鄰搜索。

圖1為本發(fā)明近鄰搜索方法的流程示意圖；圖2為本發(fā)明近鄰搜索方法線下學(xué)習(xí)的流程示意圖；圖3為本發(fā)明近鄰搜索方法線上搜索的流程示意圖；圖4為本發(fā)明近鄰搜索系統(tǒng)的結(jié)構(gòu)示意圖；圖5為本發(fā)明近鄰搜索系統(tǒng)其中一個實施例的流程示意圖。
具體實施例方式本發(fā)明是一種基于哈希算法的近鄰搜索方法與系統(tǒng)，通過將數(shù)據(jù)轉(zhuǎn)換成短位數(shù)的二進制串，然后建立哈希表來達到高效搜索的目的。由于無論是多少維度的數(shù)據(jù)，最后都被轉(zhuǎn)換成一個短位數(shù)的二進制串(例如0110是一個4位的二進制串)，所以基于哈希算法的近鄰搜索對維度不敏感，能快速檢索高維數(shù)據(jù)。下面結(jié)合附圖與實施例詳細解釋本發(fā)明。本發(fā)明近鄰搜索方法，如圖1所示，包括線下學(xué)習(xí)和線上搜索兩步。線下學(xué)習(xí)過程如圖1所示步驟S101、隨機均勻選取訓(xùn)練數(shù)據(jù)集中的若干數(shù)據(jù)點作為錨點，通過計算訓(xùn)練數(shù)據(jù)點與這些錨點之間的距離得到核矩陣，并中心化核矩陣。訓(xùn)練數(shù)據(jù)集，以下簡稱數(shù)據(jù)集，是由η個維度為d的數(shù)據(jù)點構(gòu)成。例如，可以將一個32*32的灰度圖像的所有像素連起來變成一個1024維的向量，這個向量就是一個1024維的數(shù)據(jù)點；或者也可以對一張圖片抽取一個d維的特征，這個特征就是一個d維的數(shù)據(jù)點。隨機均勻選取錨點的目的在于使所選取的錨點不會分布在數(shù)據(jù)空間中某個集中的區(qū)域，也就是說錨點是均勻分布在整個數(shù)據(jù)空間中的。假設(shè)數(shù)據(jù)集X由η個d維的數(shù)據(jù)點構(gòu)成X = [x1；…，xn] e Rdxn,通過隨機均勻選取出m個數(shù)據(jù)點A1，…，Am作為錨點，我們計算核矩陣K :
Zk(Xi^1)…I^(X1An)'
K = I … 丨 j，k ( ·，·)是核函數(shù)，這里選擇高斯核函數(shù)
Vk(xn A1) ·*· k(xn,Am)J k(x, y) = - x-y 2/2。2，m=300, σ是隨機選取3000個點的點對距離的平均值。然后
_ Zk(XllA1)-^1 …Κχ1,Δ1τ1)-μηι\ Zk(X1)xX
中心化核矩陣得至ij R=… = _L，
K: Vk(xn,— \ii ··· k(xn,Διη)—\imJ \k(xn)^J
μ =^EJLik(XpAi)0步驟S102、學(xué)習(xí)若干二進制位的投影和閾值，對于每一個二進制位的學(xué)習(xí)包括首先計算密度和均衡互補信息，然后使用中心化后的核矩陣和這兩種互補信息學(xué)習(xí)出投影和閾值，其目標(biāo)函數(shù)是最小化哈希超平面兩側(cè)小區(qū)域內(nèi)數(shù)據(jù)點的個數(shù)，并同時保證桶是近似均衡的。假設(shè)需要學(xué)習(xí)c個哈希函數(shù)來將數(shù)據(jù)點轉(zhuǎn)換成c位二進制串，那么對于第k個哈希函數(shù).sgn(fk(x)) = sgn(p^k(x) — bk)就需要學(xué)習(xí)出投影Pk和閾
值 bk 來讓目標(biāo)函數(shù) ΣΓ=1 ^iiSgn (ε - fk(Xi)sgn(ik(Xi))) + ||<_八|丨2 最小，其中4 = 1+ IjtiH(E-1fj(Xi)I)稱為密度互補信息，H(x)是單位階躍函數(shù)，
Vk 二 [sgr^fkCxJ),…，sgn(fk(xn))]T, Vk^1 = [1，V1，…，vk_J 稱為均衡互補信息，
sgn(x)是符號函數(shù)，α和ε是算法輸入的參數(shù),這里選擇α = O.1, ε = O. Ols ( ε是所有點到一個均分超平面的距離的平均值)。步驟S103、通過中心化后的核矩陣，以及學(xué)習(xí)出的若干二進制位的投影和閾值，將訓(xùn)練數(shù)據(jù)點轉(zhuǎn)換成二進制串，將相同二進制串的數(shù)據(jù)點放置到對應(yīng)的桶中，建立哈希表。使用c個哈希函數(shù)將每個d維的數(shù)據(jù)點X變成一個c位二進制串，第k個哈希函
數(shù)將數(shù)據(jù)點X變成第k位O或者I的過程是1(1 + sgn(fk(x)))。將所有數(shù)據(jù)點按照這種
方式都轉(zhuǎn)換成二進制串，將相同二進制串的數(shù)據(jù)點放到一個桶中(桶的索引就是該二進制串)，從而建立哈希表。至此，線下學(xué)習(xí)已建立了哈希表，使用以上線下學(xué)習(xí)的結(jié)果進行線上搜索即可保證近鄰搜索的高準(zhǔn)確率和高速度，但為了進一步提高準(zhǔn)確率和速度，還可以如圖2所示，包括以下步驟
所述步驟S104、對數(shù)據(jù)集中所有的點(η個點)計算它們兩兩之間的距離，對每個數(shù)據(jù)點按照它與其它數(shù)據(jù)點的距離從小到大排序，就得到該數(shù)據(jù)點對應(yīng)其它數(shù)據(jù)點的一個序列。對每個數(shù)據(jù)點都取它們對應(yīng)序列中的前k個點，這樣就得到一張nXk的近似最近鄰到準(zhǔn)確最近鄰的對應(yīng)表，這里k=50。所述步驟S105、對數(shù)據(jù)集進行主成分分析(PCA)，得到PCA降維矩陣(dXd'的矩陣)，將數(shù)據(jù)集乘以這個矩陣得到了數(shù)據(jù)集降維后的信息(nXd'的矩陣)，這里d'在不同數(shù)據(jù)集上取值需要調(diào)整，在GIST-1M上是40，在SIFT-1M上是32。線上搜索過程如圖1所示步驟S201、對于每個查詢數(shù)據(jù)點使用相同的錨點得到中心化后的核矩陣。對d維的查詢數(shù)據(jù)點X使用相同的錨點A1,…，Ani和相同的核矩陣均值μ 1；…
，μ m，得到 X 的核矩陣k(x)T = (k(x, A1) — μ1 …k(x,Am)-pm)。步驟S202、使用中心化后的核矩陣，以及學(xué)習(xí)出的投影和閾值，將每個查詢數(shù)據(jù)點轉(zhuǎn)換成二進制串。使用線下學(xué)習(xí)出的c個哈希函數(shù)和X的核矩陣 ^5_Τ，將X變成c位二進制串，第
k個哈希函數(shù)將數(shù)據(jù)點X變成第k位O或者I的過程是:^(1 + Sgn(fk(x)))。步驟S203、對于每個查詢數(shù)據(jù)點乘以線下·學(xué)習(xí)出的PCA降維矩陣，得到查詢數(shù)據(jù)點降維后的信息(一個查詢數(shù)據(jù)點對應(yīng)一個d'維的向量)。根據(jù)步驟S202得到的二進制串，在哈希表中找到漢明半徑為r的所有桶(漢明半徑為r表示桶的索引與步驟S202得到的二進制串允許最多有r位不同，這里r=2)，取出這些桶中的數(shù)據(jù)點。從桶中取出的數(shù)據(jù)點即可作為查詢數(shù)據(jù)點的近鄰，此時的近鄰并沒有排序，為了對近鄰進行排序并進一步提高搜索的準(zhǔn)確率和速度，線上搜索還可以如圖3所示，包括以下步驟步驟S204、對于每個查詢數(shù)據(jù)點乘以線下學(xué)習(xí)出的PCA降維矩陣，得到查詢數(shù)據(jù)點降維后的信息(一個查詢數(shù)據(jù)點對應(yīng)一個d'維的向量)。步驟S205、使用查詢點和這些數(shù)據(jù)點降維后的信息進行距離計算并按距離從小到大排序，然后取前Hl1個數(shù)據(jù)點進行原始維度的距離計算，再次按距離從小到大排序后取前m2個點。對這m2個點查詢近似最近鄰到準(zhǔn)確最近鄰的對應(yīng)表,每個點取m3個候選點，去掉重復(fù)的點后得到了新的候選數(shù)據(jù)點集合，優(yōu)選地，Hi1 = 100, m2 = 10, m3 = 50。步驟S206、使用查詢點和新的候選數(shù)據(jù)點降維后的信息進行距離計算并按距離從小到大排序，然后取前Hl4個數(shù)據(jù)點使用原始維度的距離計算并排序，最終得到查詢點的近鄰，優(yōu)選地，m4 = 100。表I和表2分別為本方法使用32位哈希在GIST-1M數(shù)據(jù)集和SIFT-1M數(shù)據(jù)集上與Flann kdtree (目前基于樹結(jié)構(gòu)的方法中最主流的一種方法,這里取參數(shù)nChecks=256)的搜索準(zhǔn)確率和搜索時間的對比。GIST-1M是384維100萬數(shù)據(jù)量的數(shù)據(jù)集，SIFT-1M是128維100萬數(shù)據(jù)量的數(shù)據(jù)集。表I和表2都展示了 1000個查詢點的平均搜索準(zhǔn)確率(表中Inn準(zhǔn)確率表示找到最近鄰的準(zhǔn)確率，50nn準(zhǔn)確率表示找到前50個近鄰的準(zhǔn)確率)和總的搜索時間。表I和表2表明本方法在兩種不同的數(shù)據(jù)集上都比Flann kdtree的準(zhǔn)確率
高，同時搜索時間少。
權(quán)利要求
1.一種近鄰搜索方法，其特征在于，包括線下學(xué)習(xí)和線上搜索，所述線下學(xué)習(xí)包括如下步驟隨機均勻選取數(shù)據(jù)集中的預(yù)定數(shù)目的數(shù)據(jù)點作為錨點，通過計算數(shù)據(jù)點與所述錨點之間的距離得到核矩陣，并中心化該核矩陣；學(xué)習(xí)預(yù)定數(shù)目的二進制位的投影和閾值，每一個二進制位的學(xué)習(xí)包括計算密度和均衡互補信息，使用中心化后的核矩陣及所述密度和均衡互補信息學(xué)習(xí)出投影和閾值，目標(biāo)函數(shù)是最小化哈希超平面兩側(cè)小區(qū)域內(nèi)數(shù)據(jù)點的個數(shù)，并保證桶是近似均衡的；通過中心化后的核矩陣，以及學(xué)習(xí)出的預(yù)定數(shù)目的二進制位的投影和閾值，將數(shù)據(jù)集中的數(shù)據(jù)點轉(zhuǎn)換成二進制串，將相同二進制串的數(shù)據(jù)點放置到對應(yīng)的桶中，建立哈希表；所述線上搜索包括如下步驟對于每個查詢數(shù)據(jù)點使用相同的所述錨點和核矩陣的均值得到查詢數(shù)據(jù)點中心化后的核矩陣。使用查詢數(shù)據(jù)點中心化后的核矩陣，以及學(xué)習(xí)出的投影和閾值，將每個查詢數(shù)據(jù)點轉(zhuǎn)換成~■進制串。根據(jù)查詢數(shù)據(jù)點轉(zhuǎn)換的二進制串，在所述哈希表的對應(yīng)桶中查找出預(yù)定數(shù)目的數(shù)據(jù)點，作為查詢數(shù)據(jù)點的近鄰。
2.根據(jù)權(quán)利要求1所述的近鄰搜索方法，其特征在于，所述線下學(xué)習(xí)還包括以下步驟對數(shù)據(jù)集中所有數(shù)據(jù)點進行距離計算并排序，確定每個數(shù)據(jù)點前預(yù)定個準(zhǔn)確最近鄰，建立近似最近鄰到準(zhǔn)確最近鄰的對應(yīng)表，所述距離計算并排序的過程為計算數(shù)據(jù)點兩兩之間的距離，對每個數(shù)據(jù)點按照其與其它數(shù)據(jù)點的距離從小到大排序；對數(shù)據(jù)集進行主成分分析，得到PCA降維矩陣，并使用該矩陣對數(shù)據(jù)集進行降維，得到數(shù)據(jù)集降維后的信息，所述線上搜索還包括以下步驟對每個查詢數(shù)據(jù)點使用所述PCA降維矩陣進行降維，得到查詢數(shù)據(jù)點降維后的信息；對查詢數(shù)據(jù)點降維后的信息及在所述哈希表的對應(yīng)桶中查找出的預(yù)定數(shù)目的數(shù)據(jù)點降維后的信息進行所述距離計算并排序，對前Hi1個數(shù)據(jù)點按照原始維度再次進行所述距離計算并排序，取前m2個數(shù)據(jù)點并查詢近似最近鄰到準(zhǔn)確最近鄰的所述對應(yīng)表，每個數(shù)據(jù)點取m3個候選點，去掉重復(fù)的數(shù)據(jù)點，得到候選數(shù)據(jù)點集合；對查詢數(shù)據(jù)點和所述候選數(shù)據(jù)點集合中的候選數(shù)據(jù)點降維后的信息進行所述距離計算并排序，取前m4個數(shù)據(jù)點按照原始維度再次進行所述距離計算并排序，得到查詢數(shù)據(jù)點最終的近鄰。
3.根據(jù)權(quán)利要求2所述的近鄰搜索方法，其特征在于，In1取100，m2取100，m3取100， m4 取 100。
4.根據(jù)權(quán)利要求1或2或3所述的近鄰搜索方法，其特征在于，所述哈希表的對應(yīng)桶為所述哈希表中漢明半徑為2的所有桶。
5.一種近鄰搜索系統(tǒng)，其特征在于，包括線下學(xué)習(xí)單元和線上搜索單元，所述線下學(xué)習(xí)單元包括訓(xùn)練點核矩陣確定模塊，用于隨機均勻選取數(shù)據(jù)集中的預(yù)定數(shù)目的數(shù)據(jù)點作為錨點，通過計算數(shù)據(jù)點與所述錨點之間的距離得到核矩陣，并中心化該核矩陣；投影和閾值學(xué)習(xí)模塊，用于學(xué)習(xí)預(yù)定數(shù)目的二進制位的投影和閾值，每一個二進制位的學(xué)習(xí)包括計算密度和均衡互補信息，使用中心化后的核矩陣及所述密度和均衡互補信息學(xué)習(xí)出投影和閾值，目標(biāo)函數(shù)是最小化哈希超平面兩側(cè)小區(qū)域內(nèi)數(shù)據(jù)點的個數(shù)，并保證桶是近似均衡的；哈希表建立模塊，用于通過中心化后的核矩陣，以及學(xué)習(xí)出的預(yù)定數(shù)目的二進制位的投影和閾值，將數(shù)據(jù)集中的數(shù)據(jù)點轉(zhuǎn)換成二進制串，將相同二進制串的數(shù)據(jù)點放置到對應(yīng)的桶中，建立哈希表；所述線上搜索單元包括查詢點核矩陣確定模塊，用于對于每個查詢數(shù)據(jù)點使用相同的所述錨點和核矩陣的均值得到查詢數(shù)據(jù)點中心化后的核矩陣。二進制串轉(zhuǎn)換模塊，用于使用查詢數(shù)據(jù)點中心化后的核矩陣，以及學(xué)習(xí)出的投影和閾值，將每個查詢數(shù)據(jù)點轉(zhuǎn)換成二進制串。哈希桶查找模塊，用于根據(jù)查詢數(shù)據(jù)點轉(zhuǎn)換的二進制串，在所述哈希表的對應(yīng)桶中查找出預(yù)定數(shù)目的數(shù)據(jù)點，作為查詢數(shù)據(jù)點的近鄰。
6.根據(jù)權(quán)利要求5所述的近鄰搜索系統(tǒng)，其特征在于，所述線下學(xué)習(xí)單元還包括對應(yīng)表建立模塊，用于對數(shù)據(jù)集中所有數(shù)據(jù)點進行距離計算并排序，確定每個數(shù)據(jù)點前預(yù)定個準(zhǔn)確最近鄰，建立近似最近鄰到準(zhǔn)確最近鄰的對應(yīng)表，所述距離計算并排序的過程為計算數(shù)據(jù)點兩兩之間的距離，對每個數(shù)據(jù)點按照其與其它數(shù)據(jù)點的距離從小到大排序;降維矩陣確定模塊，用于對數(shù)據(jù)集進行主成分分析，得到PCA降維矩陣，并使用該矩陣對數(shù)據(jù)集進行降維，得到數(shù)據(jù)集降維后的信息，所述線上搜索單元還包括查詢點降維模塊，用于對每個查詢數(shù)據(jù)點使用所述PCA降維矩陣進行降維，得到查詢數(shù)據(jù)點降維后的信息；候選數(shù)據(jù)點確定模塊，用于對查詢數(shù)據(jù)點降維后的信息及在所述哈希表的對應(yīng)桶中查找出的預(yù)定數(shù)目的數(shù)據(jù)點降維后的信息進行所述距離計算并排序，對前Hi1個數(shù)據(jù)點按照原始維度再次進行所述距離計算并排序，取前Hl2個數(shù)據(jù)點并查詢近似最近鄰到準(zhǔn)確最近鄰的所述對應(yīng)表，每個數(shù)據(jù)點取m3個候選點,去掉重復(fù)的數(shù)據(jù)點,得到候選數(shù)據(jù)點集合；近鄰確定模塊，用于對查詢數(shù)據(jù)點和所述候選數(shù)據(jù)點集合中的候選數(shù)據(jù)點降維后的信息進行所述距離計算并排序，取前m4個數(shù)據(jù)點按照原始維度再次進行所述距離計算并排序，得到查詢數(shù)據(jù)點最終的近鄰。
7.根據(jù)權(quán)利要求6所述的近鄰搜索系統(tǒng)，其特征在于，In1取100，m2取100，m3取100， m4 取 100。
8.根據(jù)權(quán)利要求5或6或7所述的近鄰搜索系統(tǒng)，其特征在于，所述哈希表的對應(yīng)桶為所述哈希表中漢明半徑為2的所有桶。
全文摘要
本發(fā)明公開了一種近鄰搜索方法與系統(tǒng)，包括線下學(xué)習(xí)和線上搜索兩部分，通過最小化哈希超平面兩側(cè)小區(qū)域內(nèi)數(shù)據(jù)點個數(shù)的學(xué)習(xí)函數(shù)，使哈希超平面穿過數(shù)據(jù)的稀疏區(qū)域，從而保證近鄰搜索的高準(zhǔn)確率，通過近似均衡桶條件，給學(xué)習(xí)函數(shù)加上近似均衡桶正則項，使哈希超平面對數(shù)據(jù)點劃分得更均衡，從而保證近鄰搜索的高搜索速度。無論是對于少量還是海量數(shù)據(jù)，本方法與系統(tǒng)都能進行高準(zhǔn)確率和高速度的近鄰搜索。
文檔編號G06F17/30GK103020321SQ20131001140
公開日2013年4月3日申請日期2013年1月11日優(yōu)先權(quán)日2013年1月11日
發(fā)明者鐘海蘭申請人:廣東搜網(wǎng)絡(luò)科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鐘海蘭
技術(shù)所有人：廣東圖圖搜網(wǎng)絡(luò)科技有限公司
我是此專利的發(fā)明人

上一篇：一種保密性征詢設(shè)備的制作方法
上一篇：典型飛行器視景仿真系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

k近鄰方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

近鄰搜索方法與系統(tǒng)的制作方法