一種基于minhash的集合相似度計(jì)算方法和系統(tǒng)與流程

文檔序號(hào)：11917453閱讀：424來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)處理技術(shù)領(lǐng)域，特別涉及一種基于minhash的集合相似度計(jì)算方法和系統(tǒng)。

背景技術(shù)：

給定兩個(gè)集合A、B，Jaccard相似度是一種廣泛用來描述集合之間的相似度的算法，其公式表示如下：

對(duì)N個(gè)集合計(jì)算兩兩之間的相似度，需要計(jì)算N(N-1)/2次，復(fù)雜度為O(n²)。單次Jaccard相似度的計(jì)算速度則會(huì)比較關(guān)鍵，特別是如果集合比較大，計(jì)算Jaccard相似度則會(huì)相對(duì)比較耗時(shí)，對(duì)計(jì)算資源也會(huì)有更大的壓力，比如，根據(jù)兩個(gè)節(jié)目之間的觀眾來計(jì)算節(jié)目之間的相似度，每個(gè)節(jié)目可能都會(huì)有百萬量級(jí)的觀眾，此時(shí)Jaccard相似度的計(jì)算就會(huì)比較費(fèi)時(shí)。

最小哈希(minhash)算法則是一種用來近似計(jì)算集合間的Jaccard相似度的方法，它首先對(duì)每個(gè)集合計(jì)算minhash簽名(或者minhash指紋)，相當(dāng)于是對(duì)集合的降維，最后可以基于minash簽名來近似計(jì)算jaccard相似度。

minash算法的工作原理大致如下。例如：五個(gè)元素{a,b,c,d,e}的整體，有四個(gè)集合S1＝{a,d},S2＝{c},S3＝{b,d,e},S4＝{a,c,d}分別取部分元素組成集合，這四個(gè)集合用矩陣表示如下：

其中，每行代表一個(gè)元素，每列代表一個(gè)集合，集合中有該元素為1，沒有該元素則為0。

如果對(duì)上述矩陣的行排列隨機(jī)打散重新排列，如，重排后的行序列為：b、e、a、d、c，將這個(gè)隨機(jī)排列的過程定義為一個(gè)minhash函數(shù)(映射)，可記為h(x)，重新排列后的矩陣如下：

根據(jù)重新排列后的陣列來計(jì)算各集合對(duì)應(yīng)的minhash值，每個(gè)集合對(duì)該函數(shù)的minhash值為重新排列之后的第一個(gè)非0的行，即h(S1)＝a,h(S2)＝c,h(S3)＝b,h(S4)＝d。

minhash值和Jaccard相似度有著重要的聯(lián)系：兩個(gè)集合的隨機(jī)的一個(gè)行排列的minhash值相等的概率與兩個(gè)集合的Jaccard相似度相等，因而可以通過對(duì)行排列進(jìn)行多次隨機(jī)排列來來近似計(jì)算Jaccard相似度。

假設(shè)生成n組minhash函數(shù)，H＝{h1,h2,...,hn}，對(duì)于每個(gè)函數(shù)hi，集合A的minhash值為hi(A)，對(duì)集合A的這一組minhash的值形成了該集合的minhash簽名，對(duì)于集合A,B，相似度的計(jì)算公式為:

其中，minhashsim(A，B)為結(jié)合A、B的相似度，q為A、B兩集合的minhash值相等的個(gè)數(shù)。通過minhash來近似計(jì)算Jaccard相似度的方式可以讓大大加快集合相似度的計(jì)算速度，且minhash函數(shù)越多就會(huì)越接近jaccard相似度。

然而，在實(shí)際操作中發(fā)現(xiàn)，minhash的函數(shù)的生成過程是對(duì)行進(jìn)行隨機(jī)重新排列的過程，如果行數(shù)(整體元素?cái)?shù)量)比較多，則計(jì)算過程會(huì)比較復(fù)雜，與此同時(shí)，這種重新的排列需要的計(jì)算時(shí)間也會(huì)越長，即minhash簽名過程耗時(shí)較長。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一，提出了一種基于minhash的集合相似度計(jì)算方法和系統(tǒng)。

為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種基于minhash的集合相似度計(jì)算方法，包括：

利用哈希函數(shù)將集合中的各元素映射為具有m個(gè)比特位長度的第一哈希值，其中，m為整數(shù)；

建立2^k個(gè)類組，每個(gè)類組對(duì)應(yīng)一個(gè)標(biāo)簽，該標(biāo)簽為具有k個(gè)比特位長度的第二哈希值，不同類組對(duì)應(yīng)的標(biāo)簽不同，其中，k為整數(shù)，且k小于m；

對(duì)于任意一個(gè)集合，將該集合中的各元素對(duì)應(yīng)的第一哈希值分配至與其前k個(gè)比特位相同的標(biāo)簽所對(duì)應(yīng)的類組中；

根據(jù)分配結(jié)果確定該集合對(duì)應(yīng)于每個(gè)類組的最小哈希值，其中，若該類組中存在至少一個(gè)第一哈希值，則將該類組中最小的一個(gè)第一哈希值的后m-k個(gè)比特位的值作為該集合對(duì)應(yīng)于該類組的最小哈希值，若該類組中不存在第一哈希值，則該集合對(duì)應(yīng)于該類組的最小哈希值記為NULL；

將該集合對(duì)應(yīng)于每個(gè)類組的最小哈希值構(gòu)成數(shù)組，所述數(shù)組作為該集合的最小哈希簽名；

根據(jù)任意兩個(gè)集合的最小哈希簽名計(jì)算該兩個(gè)集合的相似度。

可選地，所述兩個(gè)集合分別為第一集合A和第二集合B；

第一集合的最小哈希簽名記為H(A)

H(A)＝{h₁(A)，h₂(A)，……，h_n(A)}

第二集合的最小哈希簽名記為H(B)

H(B)＝{h₁(B)，h₂(B)，……，h_n(B)}

其中，h_i(A)為第一集合對(duì)應(yīng)第i個(gè)類組的最小哈希值，i為大于等于1且小于等于n的整數(shù)，n取值等于2^k；

計(jì)算兩個(gè)集合的相似度的步驟具體包括：

根據(jù)第一集合的最小哈希簽名H(A)和第二集合的最小哈希簽名H(B)，統(tǒng)計(jì)第一集合的最小哈希簽名H(A)中滿足h_i(A)等于h_i(B)且h_i(A)不等于NULL的h_i(A)的數(shù)量，記為s；

根據(jù)第一集合的最小哈希簽名H(A)和第二集合的最小哈希簽名H(B)，統(tǒng)計(jì)第一集合的最小哈希簽名H(A)中滿足h_i(A)等于h_i(B)且h_i(A)等于NULL的h_i(A)的數(shù)量，記為p；

根據(jù)如下公式:

計(jì)算第一集合A和第二集合B的相似度minhashsim(A，B)。

可選地，所述利用哈希函數(shù)將集合中的各元素映射為具有m個(gè)比特位長度的第一哈希值的步驟之后還包括：

對(duì)于任意一個(gè)集合，將該集合中各元素對(duì)應(yīng)的所述第一哈希值按照由小至大或由大至小的順序進(jìn)行排序。

為實(shí)現(xiàn)上述目的，本發(fā)明還提供了一種基于minhash的集合相似度計(jì)算系統(tǒng)，包括：

哈希映射模塊，用于利用哈希函數(shù)將集合中的各元素映射為具有m個(gè)比特位長度的第一哈希值，其中，m為整數(shù)；

類組建立模塊，用于建立2^k個(gè)類組，每個(gè)類組對(duì)應(yīng)一個(gè)標(biāo)簽，該標(biāo)簽為具有k個(gè)比特位長度的第二哈希值，不同類組對(duì)應(yīng)的標(biāo)簽不同，其中，k為整數(shù)，且k小于m；

分配模塊，用于對(duì)于任意一個(gè)集合，將該集合中的各元素對(duì)應(yīng)的第一哈希值分配至與其前k個(gè)比特位相同的標(biāo)簽所對(duì)應(yīng)的類組中；

最小哈希值確定模塊，用于根據(jù)分配結(jié)果確定該集合對(duì)應(yīng)于每個(gè)類組的最小哈希值，其中，若該類組中存在至少一個(gè)第一哈希值，則將該類組中最小的一個(gè)第一哈希值的后m-k個(gè)比特位的值作為該集合對(duì)應(yīng)于該類組的最小哈希值，若該類組中不存在第一哈希值，則該集合對(duì)應(yīng)于該類組的最小哈希值記為NULL；

最小哈希簽名生成模塊，用于將該集合對(duì)應(yīng)于每個(gè)類組的最小哈希值構(gòu)成數(shù)組，所述數(shù)組作為該集合的最小哈希簽名；

相似度計(jì)算模塊，用于根據(jù)任意兩個(gè)集合的最小哈希簽名計(jì)算該兩個(gè)集合的相似度。

可選地，所述兩個(gè)集合分別為第一集合A和第二集合B；

第一集合的最小哈希簽名記為H(A)

H(A)＝{h₁(A)，h₂(A)，……，h_n(A)}

第二集合的最小哈希簽名記為H(A)

H(B)＝{h₁(B)，h₂(B)，……，h_n(B)}

其中，h_i(A)為第一集合對(duì)應(yīng)第i個(gè)類組的最小哈希值，i為大于等于1且小于等于n的整數(shù)，n取值等于2^k；

所述相似度計(jì)算模塊包括：

第一統(tǒng)計(jì)單元，用于根據(jù)第一集合的最小哈希簽名H(A)和第二集合的最小哈希簽名H(B)，統(tǒng)計(jì)第一集合的最小哈希簽名H(A)中滿足h_i(A)等于h_i(B)且h_i(A)不等于NULL的h_i(A)的數(shù)量，記為s；

第二統(tǒng)計(jì)單元，用于根據(jù)第一集合的最小哈希簽名H(A)和第二集合的最小哈希簽名H(B)，統(tǒng)計(jì)第一集合的最小哈希簽名H(A)中滿足h_i(A)等于h_i(B)且h_i(A)等于NULL的h_i(A)的數(shù)量，記為p；

計(jì)算單元，用于根據(jù)如下公式:

計(jì)算第一集合A和第二集合B的相似度minhashsim(A，B)。

可選地，還包括：排序模塊，用于在哈希映射模塊完成哈希映射后，對(duì)于任意一個(gè)集合，將該集合中各元素對(duì)應(yīng)的所述第一哈希值按照由小至大或由大至小的順序進(jìn)行排序。

本發(fā)明具有以下有益效果：

本發(fā)明提供了一種基于minhash的集合相似度計(jì)算方法和系統(tǒng)，包括：利用哈希函數(shù)將集合中的各元素映射為具有m個(gè)比特位長度的第一哈希值，建立2^k個(gè)類組，每個(gè)類組對(duì)應(yīng)一個(gè)標(biāo)簽，該標(biāo)簽為具有k個(gè)比特位長度的第二哈希值，不同類組對(duì)應(yīng)的標(biāo)簽不同；對(duì)于任意一個(gè)集合，將該集合中的各元素對(duì)應(yīng)的第一哈希值分配至與其前k個(gè)比特位相同的標(biāo)簽所對(duì)應(yīng)的類組中；根據(jù)分配結(jié)果確定該集合對(duì)應(yīng)于每個(gè)類組的最小哈希值，其中，若該類組中存在至少一個(gè)第一哈希值，則將該類組中最小的一個(gè)第一哈希值的后m-k個(gè)比特位的值作為該集合對(duì)應(yīng)于該類組的最小哈希值，若該類組中不存在第一哈希值，則該集合對(duì)應(yīng)于該類組的最小哈希值記為NULL；將該集合對(duì)應(yīng)于每個(gè)類組的最小哈希值構(gòu)成數(shù)組，數(shù)組作為該集合的最小哈希簽名；根據(jù)任意兩個(gè)集合的最小哈希簽名計(jì)算該兩個(gè)集合的相似度。本發(fā)明的技術(shù)方案可大大提升最小哈希簽名速度，從而使得集合相似度計(jì)算的速度大大提升。

附圖說明

圖1為本發(fā)明實(shí)施例一提供的一種基于minhash的集合相似度計(jì)算方法的流程圖；

圖2為本發(fā)明實(shí)施例二提供的一種基于minhash的集合相似度計(jì)算系統(tǒng)的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明的技術(shù)方案，下面結(jié)合附圖對(duì)本發(fā)明提供的一種基于minhash的集合相似度計(jì)算方法和系統(tǒng)進(jìn)行詳細(xì)描述。

圖1為本發(fā)明實(shí)施例一提供的一種基于minhash的集合相似度計(jì)算方法的流程圖，如圖1所示，該集合相似度計(jì)算方法包括：

步驟S1、利用哈希函數(shù)將集合中的各元素映射為具有m個(gè)比特位長度的第一哈希值。

在步驟S1中，將通過哈希函數(shù)將集合中的各元素映射為具有固定長度的第一哈希值，其中，第一哈希值的比特位數(shù)大于等于64，即m≥64。

步驟S2、建立2^k個(gè)類組，每個(gè)類組對(duì)應(yīng)一個(gè)標(biāo)簽。

在步驟S2中，建立2^k個(gè)類組，且為每個(gè)類組設(shè)置一個(gè)對(duì)應(yīng)標(biāo)簽，該標(biāo)簽為具有k個(gè)比特位長度的第二哈希值，其中，k為整數(shù)，且k小于m，不同類組對(duì)應(yīng)的標(biāo)簽不同，該2^k個(gè)標(biāo)簽可表示如下：

[000...000]

[000...001]

......

[111...110]

[111...111]

步驟S3、對(duì)于任意一個(gè)集合，將該集合中的各元素對(duì)應(yīng)的第一哈希值分配至與其前k個(gè)比特位相同的標(biāo)簽所對(duì)應(yīng)的類組中。

在步驟S3中，針對(duì)某一個(gè)集合，根據(jù)該集合中的各元素對(duì)應(yīng)的第一哈希值的前k個(gè)比特位，將各第一哈希值分配至與其前k個(gè)比特位相同的標(biāo)簽所對(duì)應(yīng)的類組中。

步驟S4、根據(jù)分配結(jié)果確定該集合對(duì)應(yīng)于每個(gè)類組的最小哈希值。

在步驟S4中，針對(duì)已經(jīng)完成分配的某個(gè)集合，對(duì)于2^k個(gè)類組,若該類組中存在至少一個(gè)第一哈希值，則將該類組中的各第一哈希值(假定第一哈希值為無符號(hào)數(shù))進(jìn)行比較(或?qū)⒏鞯谝还Ｖ档暮髆-k個(gè)比特位的值進(jìn)行比較)，確定出該類組中最小的一個(gè)第一哈希值，并將該最小的一個(gè)第一哈希值的后m-k個(gè)比特位的值作為該集合對(duì)應(yīng)于該類組的最小哈希值；若該類組中不存在第一哈希值，則該集合對(duì)應(yīng)于該類組的最小哈希值記為NULL(表示為空)。

步驟S5、將該集合對(duì)應(yīng)于每個(gè)類組的最小哈希值構(gòu)成數(shù)組，數(shù)組作為該集合的最小哈希簽名。

在步驟S5中，根據(jù)步驟S4得到的集合對(duì)應(yīng)于每個(gè)類組的最小哈希值，構(gòu)成一個(gè)數(shù)組，該數(shù)字為對(duì)應(yīng)的集合的最小哈希簽名。

在本發(fā)明中，通過上述步驟S1到步驟S5即可完成對(duì)集合的最小哈希簽名。在實(shí)際應(yīng)用中發(fā)現(xiàn)，本發(fā)明中的最小哈希簽名的計(jì)算速度極快，經(jīng)測(cè)試，比現(xiàn)有技術(shù)中的最小哈希簽名的計(jì)算速度要快100倍以上。

步驟S6、根據(jù)任意兩個(gè)集合的最小哈希簽名計(jì)算該兩個(gè)集合的相似度。

在步驟S6中，若兩個(gè)集合分別為第一集合A和第二集合B，第一集合的最小哈希簽名記為H(A)；

H(A)＝{h₁(A)，h₂(A)，……，h_n(A)}

第二集合的最小哈希簽名記為H(B)

H(B)＝{h₁(B)，h₂(B)，……，h_n(B)}

其中，h_i(A)為第一集合對(duì)應(yīng)第i個(gè)類組的最小哈希值，i為大于等于1且小于等于n的整數(shù)，n取值等于2^k。

步驟S6具體包括：

步驟S601、根據(jù)第一集合的最小哈希簽名H(A)和第二集合的最小哈希簽名H(B)，統(tǒng)計(jì)第一集合的最小哈希簽名H(A)中滿足h_i(A)等于h_i(B)且h_i(A)不等于NULL的h_i(A)的數(shù)量，記為s。

在步驟S601中，統(tǒng)計(jì)第一集合的最小哈希簽名H(A)中同時(shí)滿足如下兩個(gè)條件(1、(2的h_i(A)的數(shù)量s。

需要說明的是，在步驟S6中，也可以統(tǒng)計(jì)第二集合的最小哈希簽名H(B)中滿足h_i(B)等于h_i(A)且h_i(B)不等于NULL的h_i(B)的數(shù)量。

步驟S602、根據(jù)第一集合的最小哈希簽名H(A)和第二集合的最小哈希簽名H(B)，統(tǒng)計(jì)第一集合的最小哈希簽名H(A)中滿足h_i(A)等于h_i(B)且h_i(A)等于NULL的h_i(A)的數(shù)量，記為p。

在步驟S602中，統(tǒng)計(jì)第一集合的最小哈希簽名H(A)中同時(shí)滿足如下兩個(gè)條件(3、(4的h_i(A)的數(shù)量s。

需要說明的是，在步驟S6中，也可以統(tǒng)計(jì)第二集合的最小哈希簽名H(B)中滿足h_i(B)等于h_i(A)且h_i(B)等于NULL的h_i(B)的數(shù)量。

步驟S603、根據(jù)如下公式:

計(jì)算第一集合A和第二集合B的相似度minhashsim(A，B)。

在步驟S603中，n-p表示最小哈希簽名的真實(shí)維度，即：如果某個(gè)類組，兩個(gè)集合(第一集合和第二集合)在該類組下都沒有任何可分配的元素(第一哈希值)，則該類組相對(duì)于兩個(gè)集合無效，兩個(gè)集合無需針對(duì)該類組進(jìn)行比較。

本實(shí)施例中，可選地，在步驟S1和步驟S3之間還包括：步驟S1'。

步驟S1'、對(duì)于任意一個(gè)集合，將該集合中各元素對(duì)應(yīng)的第一哈希值按照由小至大或由大至小的順序進(jìn)行排序。

在本發(fā)明中，通過在步驟S3之前對(duì)集合中各元素對(duì)應(yīng)的第一哈希值進(jìn)行排序，可有效提升步驟S3中對(duì)第一哈希值的分配速度。此外，通過將集合中各元素對(duì)應(yīng)的第一哈希值進(jìn)行排序，還可保證處于相同類組中的第一哈希值是連續(xù)的，從而可有效提升步驟S4中確定類組中最小的一個(gè)第一哈希值的速度。

本發(fā)明實(shí)施例一提供了一種基于minhash的集合相似度計(jì)算方法，可大大提升最小哈希簽名速度，從而使得集合相似度計(jì)算的速度大大提升。

實(shí)施例二

圖2為本發(fā)明實(shí)施例二提供的一種基于minhash的集合相似度計(jì)算系統(tǒng)的結(jié)構(gòu)示意圖，如圖2所示，該集合相似度計(jì)算系統(tǒng)用于實(shí)現(xiàn)上述實(shí)施例一中的集合相似度計(jì)算方法，該集合相似度計(jì)算系統(tǒng)包括：哈希映射模塊1、類組建立模塊2、分配模塊3、最小哈希值確定模塊4、最小哈希簽名生成模塊5、相似度計(jì)算模塊6。

其中，哈希映射模塊1用于利用哈希函數(shù)將集合中的各元素映射為具有m個(gè)比特位長度的第一哈希值，其中，m為整數(shù)。

類組建立模塊2用于建立2^k個(gè)類組，每個(gè)類組對(duì)應(yīng)一個(gè)標(biāo)簽，該標(biāo)簽為具有k個(gè)比特位長度的第二哈希值，不同類組對(duì)應(yīng)的標(biāo)簽不同，其中，k為整數(shù)，且k小于m。

分配模塊3用于對(duì)于任意一個(gè)集合，將該集合中的各元素對(duì)應(yīng)的第一哈希值分配至與其前k個(gè)比特位相同的標(biāo)簽所對(duì)應(yīng)的類組中。

最小哈希值確定模塊4用于根據(jù)分配結(jié)果確定該集合對(duì)應(yīng)于每個(gè)類組的最小哈希值，其中，若該類組中存在至少一個(gè)第一哈希值，則將該類組中最小的一個(gè)第一哈希值的后m-k個(gè)比特位的值作為該集合對(duì)應(yīng)于該類組的最小哈希值，若該類組中不存在第一哈希值，則該集合對(duì)應(yīng)于該類組的最小哈希值記為NULL。

最小哈希簽名生成模塊5用于將該集合對(duì)應(yīng)于每個(gè)類組的最小哈希值構(gòu)成數(shù)組，數(shù)組作為該集合的最小哈希簽名。

相似度計(jì)算模塊6用于根據(jù)任意兩個(gè)集合的最小哈希簽名計(jì)算該兩個(gè)集合的相似度。

需要說明的是，對(duì)于本實(shí)施例中的哈希映射模塊1用于執(zhí)行上述實(shí)施例一中的步驟S1，本實(shí)施例中的類組建立模塊2用于執(zhí)行上述實(shí)施例一中的步驟S2，本實(shí)施例中的分配模塊3用于執(zhí)行上述實(shí)施例一中的步驟S3，本實(shí)施例中的最小哈希值確定模塊4用于執(zhí)行上述實(shí)施例一中的步驟S4，本實(shí)施例中的最小哈希簽名生成模塊5用于執(zhí)行上述實(shí)施例一中的步驟S5，本實(shí)施例中的相似度計(jì)算模塊6用于執(zhí)行上述實(shí)施例一中的步驟S6。對(duì)于各模塊的具體工作過程，可參見上述實(shí)施例一中相應(yīng)內(nèi)容，此處不再贅述。

可選地，兩個(gè)集合分別為第一集合A和第二集合B；

第一集合的最小哈希簽名記為H(A)

H(A)＝{h₁(A)，h₂(A)，……，h_n(A)}

第二集合的最小哈希簽名記為H(B)

H(B)＝{h₁(B)，h₂(B)，……，h_n(B)}

其中，h_i(A)為第一集合對(duì)應(yīng)第i個(gè)類組的最小哈希值，i為大于等于1且小于等于n的整數(shù)，n取值等于2^k。

相似度計(jì)算模塊包括6：第一統(tǒng)計(jì)單元601、第二統(tǒng)計(jì)單元602和計(jì)算單元603。

其中，第一統(tǒng)計(jì)單元601用于根據(jù)第一集合的最小哈希簽名H(A)和第二集合的最小哈希簽名H(B)，統(tǒng)計(jì)第一集合的最小哈希簽名H(A)中滿足h_i(A)等于h_i(B)且h_i(A)不等于NULL的h_i(A)的數(shù)量，記為s。

第二統(tǒng)計(jì)單元602用于根據(jù)第一集合的最小哈希簽名H(A)和第二集合的最小哈希簽名H(B)，統(tǒng)計(jì)第一集合的最小哈希簽名H(A)中滿足h_i(A)等于h_i(B)且h_i(A)等于NULL的h_i(A)的數(shù)量，記為p。

計(jì)算單元603用于根據(jù)如下公式:

計(jì)算第一集合A和第二集合B的相似度minhashsim(A，B)。

需要說明的是，對(duì)于本實(shí)施例中的第一統(tǒng)計(jì)單元601用于執(zhí)行上述實(shí)施例一中的步驟S601，本實(shí)施例中的第二統(tǒng)計(jì)單元602用于執(zhí)行上述實(shí)施例一中的步驟S602，本實(shí)施例中的計(jì)算單元603用于執(zhí)行上述實(shí)施例一中的步驟S603。對(duì)于各單元的具體工作過程，可參見上述實(shí)施例一中相應(yīng)內(nèi)容，此處不再贅述。

可選地，該集合相似度計(jì)算系統(tǒng)還包括：排序模塊7，排序模塊7用于在哈希映射模塊1完成哈希映射后，對(duì)于任意一個(gè)集合，將該集合中各元素對(duì)應(yīng)的第一哈希值按照由小至大或由大至小的順序進(jìn)行排序。

本實(shí)施例中的排序模塊用于執(zhí)行上述實(shí)施例一中的步驟S1'，具體內(nèi)容可參見上述實(shí)施例一中的描述。

本發(fā)明實(shí)施例二提供了一種基于minhash的集合相似度計(jì)算系統(tǒng)，可大大提升最小哈希簽名速度，從而使得集合相似度計(jì)算的速度大大提升。

可以理解的是，以上實(shí)施方式僅僅是為了說明本發(fā)明的原理而采用的示例性實(shí)施方式，然而本發(fā)明并不局限于此。對(duì)于本領(lǐng)域內(nèi)的普通技術(shù)人員而言，在不脫離本發(fā)明的精神和實(shí)質(zhì)的情況下，可以做出各種變型和改進(jìn)，這些變型和改進(jìn)也視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李鵬;陸承恩
技術(shù)所有人：北京酷云互動(dòng)科技有限公司
我是此專利的發(fā)明人

上一篇：一種沙灘傘傘桿伸縮插裝置的制作方法
上一篇：一種基于云端智能服務(wù)器的無人車的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

相似度計(jì)算方法相關(guān)技術(shù)

計(jì)算相似度的方法相關(guān)技術(shù)

計(jì)算用戶相似度的方法相關(guān)技術(shù)

文本相似度計(jì)算方法相關(guān)技術(shù)

相似性計(jì)算方法相關(guān)技術(shù)

圖像相似度計(jì)算方法相關(guān)技術(shù)

句子相似度計(jì)算方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于minhash的集合相似度計(jì)算方法和系統(tǒng)與流程