一種網(wǎng)絡(luò)搜索詞的聚類方法和聚類裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種網(wǎng)絡(luò)搜索詞的聚類方法和聚類裝置,所述方法包括:對(duì)相同URL的網(wǎng)絡(luò)搜索詞,根據(jù)URL抓取網(wǎng)頁(yè)相關(guān)內(nèi)容,生成短文本信息;對(duì)短文本信息提取關(guān)鍵詞,并根據(jù)關(guān)鍵詞獲取每條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量;判斷任兩個(gè)關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量;當(dāng)存在相似的兩個(gè)關(guān)鍵詞向量時(shí),對(duì)相似的兩個(gè)關(guān)鍵詞向量進(jìn)行合并,生成一個(gè)新的關(guān)鍵詞向量代替所述相似的兩個(gè)關(guān)鍵詞向量,并繼續(xù)判斷任兩個(gè)關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量;當(dāng)不存在相似的關(guān)鍵詞向量時(shí),從互不相似的各關(guān)鍵詞向量中提取網(wǎng)絡(luò)搜索詞,將從同一個(gè)關(guān)鍵詞向量中提取到的網(wǎng)絡(luò)搜索詞劃分為同一聚類。本發(fā)明能夠取得提升聚類速度和精度的有益效果。
【專利說(shuō)明】一種網(wǎng)絡(luò)搜索詞的聚類方法和聚類裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)分析【技術(shù)領(lǐng)域】,特別涉及一種網(wǎng)絡(luò)搜索詞的聚類方法和聚類裝置。
【背景技術(shù)】
[0002]聚類分析是數(shù)據(jù)分析中的一種重要技術(shù),在網(wǎng)站信息分類問(wèn)題、網(wǎng)頁(yè)的點(diǎn)擊行為關(guān)聯(lián)性問(wèn)題及用戶搜索詞(query)分類問(wèn)題等多個(gè)領(lǐng)域得到廣泛的關(guān)注和研究。它可以將看似無(wú)序的對(duì)象進(jìn)行分組、歸類,以達(dá)到更好地理解研究對(duì)象的目的。
[0003]現(xiàn)有方案在對(duì)用戶搜索詞進(jìn)行聚類時(shí),根據(jù)用戶共同點(diǎn)擊的URL (Un i formResource Locator,統(tǒng)一資源定位符)進(jìn)行聚類分析,將具有相同URL的用戶搜索詞劃分為同一類。
[0004]然而,單純依靠共同點(diǎn)擊的URL進(jìn)行聚類是片面的、不準(zhǔn)確的,例如,僅依賴用戶共同點(diǎn)擊的URL得到的聚類結(jié)果中會(huì)出現(xiàn)長(zhǎng)尾現(xiàn)象,也就是說(shuō),只有少數(shù)20%的高頻搜索詞,才會(huì)對(duì)應(yīng)相同的URL,而其他80%的搜索詞沒(méi)有共同的URL。再如,一些搜索詞雖然沒(méi)有共同的URL,但是卻應(yīng)該聚到一起,如“金融”和“股票”。
【發(fā)明內(nèi)容】
[0005]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種網(wǎng)絡(luò)搜索詞的聚類方法和相應(yīng)的聚類裝置。
[0006]依據(jù)本發(fā)明的一個(gè)方面,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)搜索詞的聚類方法,包括:
[0007]從搜索日志中提取出需要進(jìn)行聚類的網(wǎng)絡(luò)搜索詞;
[0008]對(duì)相同統(tǒng)一資源定位符URL的網(wǎng)絡(luò)搜索詞,根據(jù)所述URL抓取網(wǎng)頁(yè)相關(guān)內(nèi)容,生成短文本信息;
[0009]對(duì)所述短文本信息提取關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞獲取每條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量;
[0010]判斷任兩個(gè)所述關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量;
[0011]當(dāng)存在相似的兩個(gè)關(guān)鍵詞向量時(shí),對(duì)相似的兩個(gè)關(guān)鍵詞向量進(jìn)行合并,生成一個(gè)新的關(guān)鍵詞向量代替所述相似的兩個(gè)關(guān)鍵詞向量,并繼續(xù)判斷任兩個(gè)關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量;
[0012]當(dāng)不存在相似的關(guān)鍵詞向量時(shí),從互不相似的各關(guān)鍵詞向量中提取網(wǎng)絡(luò)搜索詞,將從同一個(gè)關(guān)鍵詞向量中提取到的網(wǎng)絡(luò)搜索詞劃分為同一聚類。
[0013]可選地,所述對(duì)相同統(tǒng)一資源定位符URL的網(wǎng)絡(luò)搜索詞,根據(jù)所述URL抓取網(wǎng)頁(yè)相關(guān)內(nèi)容,生成短文本信息包括:
[0014]將對(duì)應(yīng)于相同URL的網(wǎng)絡(luò)搜索詞設(shè)置在短文本信息中,其中,當(dāng)對(duì)應(yīng)于相同URL的網(wǎng)絡(luò)搜索詞中存在多個(gè)相同的網(wǎng)絡(luò)搜索詞時(shí),從相同的網(wǎng)絡(luò)查詢?cè)~中選取一個(gè)網(wǎng)絡(luò)查詢?cè)~設(shè)置在所述短文本信息中;
[0015]從具有所述URL的網(wǎng)頁(yè)中抓取屬性標(biāo)簽中關(guān)鍵詞屬性和/或描述屬性對(duì)應(yīng)的屬性值,將所述屬性值設(shè)置在在所述短文本信息中。
[0016]可選地,在對(duì)所述短文本信息提取關(guān)鍵詞之前,所述方法還包括:
[0017]剔除所述短文本信息中的停用詞,并對(duì)剔除停用詞后的短文本信息中的詞項(xiàng)進(jìn)行詞性分析,得到各詞項(xiàng)的詞性。
[0018]其中,對(duì)所述短文本信息提取關(guān)鍵詞包括:
[0019]將預(yù)定詞性的詞項(xiàng)選取為所述關(guān)鍵詞,所述詞性包括名詞、形容詞、副詞和動(dòng)詞。
[0020]可選地,所述根據(jù)所述關(guān)鍵詞得到每條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量包括:
[0021]利用關(guān)鍵詞在關(guān)鍵詞向量中的詞頻值,計(jì)算所述關(guān)鍵詞在每條短文本信息中的權(quán)重值;
[0022]根據(jù)所述關(guān)鍵詞和關(guān)鍵詞在本條短文本信息中的權(quán)重值,得到本條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量。
[0023]并且,所述判斷任兩個(gè)所述關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量包括:
[0024]根據(jù)兩個(gè)關(guān)鍵詞向量中各關(guān)鍵詞的權(quán)重值,計(jì)算兩個(gè)關(guān)鍵詞向量之間的余弦相似度,當(dāng)計(jì)算出的余弦相似度大于預(yù)定閥值時(shí),判斷所述兩個(gè)關(guān)鍵詞向量為相似的關(guān)鍵詞向量,當(dāng)計(jì)算出的余弦相似度不大于預(yù)定閥值時(shí),判斷所述兩個(gè)關(guān)鍵詞向量不是相似的關(guān)鍵詞向量。
[0025]其中,所述計(jì)算兩個(gè)關(guān)鍵詞向量之間的余弦相似度包括:
[0026]對(duì)第一關(guān)鍵詞向量中的第一關(guān)鍵詞,在設(shè)置的詞項(xiàng)倒排索引表中查詢?cè)摰谝魂P(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量,當(dāng)對(duì)應(yīng)的關(guān)鍵詞向量包括第二關(guān)鍵詞向量時(shí),獲知所述第一關(guān)鍵詞為同時(shí)存在于第一關(guān)鍵詞向量和第二關(guān)鍵詞向量中的共同關(guān)鍵詞;
[0027]利用所述共同關(guān)鍵詞在第一關(guān)鍵詞向量中的第一權(quán)重值、所述共同關(guān)鍵詞在第二關(guān)鍵詞向量中的第二權(quán)重值、第一關(guān)鍵詞向量的模長(zhǎng)和第二關(guān)鍵詞向量的模長(zhǎng)計(jì)算所述第一關(guān)鍵詞向量和第二關(guān)鍵詞向量的余弦相似度;
[0028]上述詞項(xiàng)倒排索引表包括記錄詞項(xiàng)的詞典表、記錄詞項(xiàng)與關(guān)鍵詞向量編號(hào)對(duì)應(yīng)關(guān)系的向量索引表和詞項(xiàng)信息表,所述詞項(xiàng)信息表記錄關(guān)鍵詞向量中的關(guān)鍵詞、關(guān)鍵詞的權(quán)重值、關(guān)鍵詞向量的模長(zhǎng)和關(guān)鍵詞向量對(duì)應(yīng)的短文本信息。
[0029]可選地,所述方法還包括建立關(guān)鍵詞向量和短文本信息的對(duì)應(yīng)關(guān)系:
[0030]將所述對(duì)應(yīng)關(guān)系和向量合并關(guān)系記錄在向量正排索引表中,其中,所述對(duì)應(yīng)關(guān)系指示向量編號(hào)與文本編號(hào)的對(duì)應(yīng)關(guān)系,每個(gè)關(guān)鍵詞向量設(shè)置有向量編號(hào),每個(gè)短文本信息設(shè)置有文本編號(hào),所述向量合并關(guān)系指示向量編號(hào)與發(fā)生合并的關(guān)鍵詞向量的對(duì)應(yīng)關(guān)系;
[0031]所述向量正排索引表包括記錄向量編號(hào)的向量索引表、記錄向量編號(hào)與關(guān)鍵詞向量的對(duì)應(yīng)關(guān)系的向量?jī)?nèi)容索引表和詞項(xiàng)信息表,所述詞項(xiàng)信息表記錄關(guān)鍵詞向量中的關(guān)鍵詞、關(guān)鍵詞的權(quán)重值、關(guān)鍵詞向量的模長(zhǎng)和關(guān)鍵詞向量對(duì)應(yīng)的短文本信息。
[0032]可選地,所述對(duì)相似的兩個(gè)關(guān)鍵詞向量進(jìn)行合并,生成一個(gè)新的關(guān)鍵詞向量包括:
[0033]利用相似的兩個(gè)關(guān)鍵詞向量中的關(guān)鍵詞生成新的關(guān)鍵詞向量中的關(guān)鍵詞;
[0034]當(dāng)關(guān)鍵詞為相似的兩個(gè)關(guān)鍵詞向量的共同關(guān)鍵詞時(shí),由所述共同關(guān)鍵詞在兩個(gè)關(guān)鍵詞向量中的權(quán)重值的平均值,得到該共同關(guān)鍵詞在新的關(guān)鍵詞向量中的權(quán)重值;
[0035]當(dāng)關(guān)鍵詞不是相似的兩個(gè)關(guān)鍵詞向量的共同關(guān)鍵詞時(shí),將該關(guān)鍵詞在原關(guān)鍵詞向量中的權(quán)重值作為該關(guān)鍵詞在新的關(guān)鍵詞向量中的權(quán)重值;以及,
[0036]將新的關(guān)鍵詞向量的向量編號(hào)設(shè)置為所述相似的兩個(gè)關(guān)鍵詞向量的向量編號(hào)中較大的向量編號(hào)。
[0037]根據(jù)本發(fā)明的另一方面,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)搜索詞的聚類裝置,包括:
[0038]網(wǎng)絡(luò)搜索詞提取單元,適于從搜索日志中提取出需要進(jìn)行聚類的網(wǎng)絡(luò)搜索詞;
[0039]短文本信息生成單元,適于對(duì)相同統(tǒng)一資源定位符URL的網(wǎng)絡(luò)搜索詞,根據(jù)所述URL抓取網(wǎng)頁(yè)相關(guān)內(nèi)容,生成短文本信息;
[0040]關(guān)鍵詞向量獲取單元,適于對(duì)所述短文本信息提取關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞獲取每條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量;
[0041]判斷單元,適于判斷任兩個(gè)所述關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量;
[0042]聚類單元,適于當(dāng)存在相似的兩個(gè)關(guān)鍵詞向量時(shí),對(duì)相似的兩個(gè)關(guān)鍵詞向量進(jìn)行合并,生成一個(gè)新的關(guān)鍵詞向量代替所述相似的兩個(gè)關(guān)鍵詞向量,并繼續(xù)判斷任兩個(gè)關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量;
[0043]提取劃分單元,適于當(dāng)不存在相似的關(guān)鍵詞向量時(shí),從互不相似的各關(guān)鍵詞向量中提取網(wǎng)絡(luò)搜索詞,將從同一個(gè)關(guān)鍵詞向量中提取到的網(wǎng)絡(luò)搜索詞劃分為同一聚類。
[0044]可選地,所述短文本信息生成單元,適于將對(duì)應(yīng)于相同URL的網(wǎng)絡(luò)搜索詞設(shè)置在短文本信息中,其中,當(dāng)對(duì)應(yīng)于相同URL的網(wǎng)絡(luò)搜索詞中存在多個(gè)相同的網(wǎng)絡(luò)搜索詞時(shí),從相同的網(wǎng)絡(luò)查詢?cè)~中選取一個(gè)網(wǎng)絡(luò)查詢?cè)~設(shè)置在所述短文本信息中;從具有所述URL的網(wǎng)頁(yè)中抓取屬性標(biāo)簽中關(guān)鍵詞屬性和/或描述屬性對(duì)應(yīng)的屬性值,將所述屬性值設(shè)置在在所述短文本信息中。
[0045]可選地,所述關(guān)鍵詞向量獲取單元,適于在對(duì)所述短文本信息提取關(guān)鍵詞之前,剔除所述短文本信息中的停用詞,并對(duì)剔除停用詞后的短文本信息中的詞項(xiàng)進(jìn)行詞性分析,得到各詞項(xiàng)的詞性。
[0046]可選地,所述關(guān)鍵詞向量獲取單元,還適于將預(yù)定詞性的詞項(xiàng)選取為所述關(guān)鍵詞,所述詞性包括名詞、形容詞、副詞和動(dòng)詞。
[0047]可選地,所述關(guān)鍵詞向量獲取單元,適于利用關(guān)鍵詞在關(guān)鍵詞向量中的詞頻值,計(jì)算所述關(guān)鍵詞在每條短文本信息中的權(quán)重值;根據(jù)所述關(guān)鍵詞和關(guān)鍵詞在本條短文本信息中的權(quán)重值,得到本條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量。
[0048]可選地,所述判斷單元,適于根據(jù)兩個(gè)關(guān)鍵詞向量中各關(guān)鍵詞的權(quán)重值,計(jì)算兩個(gè)關(guān)鍵詞向量之間的余弦相似度,當(dāng)計(jì)算出的余弦相似度大于預(yù)定閥值時(shí),判斷所述兩個(gè)關(guān)鍵詞向量為相似的關(guān)鍵詞向量,當(dāng)計(jì)算出的余弦相似度不大于預(yù)定閥值時(shí),判斷所述兩個(gè)關(guān)鍵詞向量不是相似的關(guān)鍵詞向量。
[0049]可選地,所述判斷單元,還適于對(duì)第一關(guān)鍵詞向量中的第一關(guān)鍵詞,在設(shè)置的詞項(xiàng)倒排索引表中查詢?cè)摰谝魂P(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量,當(dāng)對(duì)應(yīng)的關(guān)鍵詞向量包括第二關(guān)鍵詞向量時(shí),獲知所述第一關(guān)鍵詞為同時(shí)存在于第一關(guān)鍵詞向量和第二關(guān)鍵詞向量中的共同關(guān)鍵詞;利用所述共同關(guān)鍵詞在第一關(guān)鍵詞向量中的第一權(quán)重值、所述共同關(guān)鍵詞在第二關(guān)鍵詞向量中的第二權(quán)重值、第一關(guān)鍵詞向量的模長(zhǎng)和第二關(guān)鍵詞向量的模長(zhǎng)計(jì)算所述第一關(guān)鍵詞向量和第二關(guān)鍵詞向量的余弦相似度;其中,所述詞項(xiàng)倒排索引表包括記錄詞項(xiàng)的詞典表、記錄詞項(xiàng)與關(guān)鍵詞向量編號(hào)對(duì)應(yīng)關(guān)系的向量索引表和詞項(xiàng)信息表,所述詞項(xiàng)信息表記錄關(guān)鍵詞向量中的關(guān)鍵詞、關(guān)鍵詞的權(quán)重值、關(guān)鍵詞向量的模長(zhǎng)和關(guān)鍵詞向量對(duì)應(yīng)的短文本信息。
[0050]可選地,所述裝置還包括對(duì)應(yīng)關(guān)系建立單元,所述對(duì)應(yīng)關(guān)系建立單元適于將所述對(duì)應(yīng)關(guān)系和向量合并關(guān)系記錄在向量正排索引表中,其中,所述對(duì)應(yīng)關(guān)系指示向量編號(hào)與文本編號(hào)的對(duì)應(yīng)關(guān)系,每個(gè)關(guān)鍵詞向量設(shè)置有向量編號(hào),每個(gè)短文本信息設(shè)置有文本編號(hào),所述向量合并關(guān)系指示向量編號(hào)與發(fā)生合并的關(guān)鍵詞向量的對(duì)應(yīng)關(guān)系;所述向量正排索引表包括記錄向量編號(hào)的向量索引表、記錄向量編號(hào)與關(guān)鍵詞向量的對(duì)應(yīng)關(guān)系的向量?jī)?nèi)容索引表和詞項(xiàng)信息表,所述詞項(xiàng)信息表記錄關(guān)鍵詞向量中的關(guān)鍵詞、關(guān)鍵詞的權(quán)重值、關(guān)鍵詞向量的模長(zhǎng)和關(guān)鍵詞向量對(duì)應(yīng)的短文本信息。
[0051]可選地,所述聚類單元,適于利用相似的兩個(gè)關(guān)鍵詞向量中的關(guān)鍵詞生成新的關(guān)鍵詞向量中的關(guān)鍵詞;當(dāng)關(guān)鍵詞為相似的兩個(gè)關(guān)鍵詞向量的共同關(guān)鍵詞時(shí),由所述共同關(guān)鍵詞在兩個(gè)關(guān)鍵詞向量中的權(quán)重值的平均值,得到該共同關(guān)鍵詞在新的關(guān)鍵詞向量中的權(quán)重值;當(dāng)關(guān)鍵詞不是相似的兩個(gè)關(guān)鍵詞向量的共同關(guān)鍵詞時(shí),將該關(guān)鍵詞在原關(guān)鍵詞向量中的權(quán)重值作為該關(guān)鍵詞在新的關(guān)鍵詞向量中的權(quán)重值;以及,將新的關(guān)鍵詞向量的向量編號(hào)設(shè)置為所述相似的兩個(gè)關(guān)鍵詞向量的向量編號(hào)中較大的向量編號(hào)。
[0052]根據(jù)本發(fā)明的網(wǎng)絡(luò)搜索詞的聚類方法和聚類裝置,通過(guò)利用用戶點(diǎn)擊url對(duì)應(yīng)的網(wǎng)頁(yè)信息,將網(wǎng)絡(luò)搜索詞的信息進(jìn)行補(bǔ)全,形成短文本,從而增加網(wǎng)絡(luò)搜索詞的識(shí)別度;通過(guò)在傳統(tǒng)的向量表述方法中,引入詞性分析來(lái)提取關(guān)鍵詞向量,從而減少了向量空間的維數(shù),節(jié)省了內(nèi)存占用空間;通過(guò)對(duì)相似的兩個(gè)關(guān)鍵詞向量進(jìn)行合并,生成一個(gè)新的關(guān)鍵詞向量代替相似的兩個(gè)關(guān)鍵詞向量,從而減少了網(wǎng)絡(luò)搜索詞的聚類類別,本發(fā)明能夠取得提升聚類速度和精度的有益效果,更加精確的獲取用戶感興趣的搜索內(nèi)容。
[0053]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說(shuō)明】
[0054]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0055]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例提供的一種網(wǎng)絡(luò)搜索詞的聚類方法的流程圖;
[0056]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例提供的詞項(xiàng)倒排索引表TIIT基本機(jī)制結(jié)構(gòu)示意圖;
[0057]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例提供的向量正排索引表VFIT基本機(jī)制結(jié)構(gòu)示意圖;以及
[0058]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例提供的一種網(wǎng)絡(luò)搜索詞的聚類裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0059]下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0060]如圖1所示,根據(jù)本發(fā)明一個(gè)實(shí)施例提供的一種網(wǎng)絡(luò)搜索詞的聚類方法,該方法包括如下步驟:
[0061]S11,從搜索日志中提取出需要進(jìn)行聚類的網(wǎng)絡(luò)搜索詞。
[0062]例如,對(duì)原始的搜索引擎點(diǎn)擊日志進(jìn)行分析,可以得到需要進(jìn)行聚類的網(wǎng)絡(luò)搜索詞query的短文本信息。
[0063]S12,對(duì)相同URL的網(wǎng)絡(luò)搜索詞,根據(jù)所述URL抓取網(wǎng)頁(yè)相關(guān)內(nèi)容,生成短文本信肩、O
[0064]該步驟的一個(gè)具體實(shí)施例是:將對(duì)應(yīng)于相同URL的網(wǎng)絡(luò)搜索詞設(shè)置在短文本信息中,其中,當(dāng)對(duì)應(yīng)于相同URL的網(wǎng)絡(luò)搜索詞中存在多個(gè)相同的網(wǎng)絡(luò)搜索詞時(shí),對(duì)這些相同的網(wǎng)絡(luò)搜索詞中進(jìn)行合并去重,從相同的網(wǎng)絡(luò)查詢?cè)~中選取一個(gè)網(wǎng)絡(luò)查詢?cè)~設(shè)置在所述短文本信息中;從具有所述URL的網(wǎng)頁(yè)中抓取元標(biāo)簽中關(guān)鍵詞屬性和/或描述屬性對(duì)應(yīng)的屬性值,將所述屬性值設(shè)置在在所述短文本信息中。
[0065]由于query的短文本信息長(zhǎng)度較短、表達(dá)內(nèi)容豐富、組合比較靈活,所以單純依靠query進(jìn)行短文本聚類無(wú)法完成。通過(guò)分析可知,用戶對(duì)搜索結(jié)果滿意或者比較符合他搜索的意愿的時(shí)候才會(huì)進(jìn)行點(diǎn)擊,所以用戶的這個(gè)行為在一定程度上給我們提供了更多的關(guān)于搜索詞的信息,因此,我們可以首先得到每個(gè)query對(duì)應(yīng)的url,對(duì)這些url進(jìn)行分析,發(fā)現(xiàn)url相同對(duì)應(yīng)的query或相同或相似,所以將這些url進(jìn)行一次數(shù)據(jù)預(yù)處理,將相同url對(duì)應(yīng)的query進(jìn)行合并去重,形成一些〈url, query〉對(duì);然后,我們根據(jù)每一個(gè)<url, query〉對(duì)中的url進(jìn)行網(wǎng)頁(yè)抓取,為了減少存儲(chǔ)空間,我們?cè)谧ト〉耐瑫r(shí)進(jìn)行網(wǎng)頁(yè)解析,找到網(wǎng)頁(yè)中<meta> (元)標(biāo)簽,查找name (名字)屬性值為keywords (關(guān)鍵字)參數(shù)和descript1n (網(wǎng)站內(nèi)容描述)參數(shù),并獲得這些參數(shù)相應(yīng)的content屬性的值,將這些信息與query合并組成短文本信息。
[0066]meta是html語(yǔ)言head區(qū)的一個(gè)輔助性標(biāo)簽。meta標(biāo)簽共有兩個(gè)屬性,它們分別是http-equiv屬性和name屬性,不同的屬性又有不同的參數(shù)值,這些不同的參數(shù)值就實(shí)現(xiàn)了不同的網(wǎng)頁(yè)功能。其中name屬性主要用于描述網(wǎng)頁(yè),與之對(duì)應(yīng)的屬性值為content,content中的內(nèi)容主要是便于搜索引擎機(jī)器人查找信息和分類信息用的。在name屬性中包括用來(lái)告訴搜索引擎你網(wǎng)頁(yè)的關(guān)鍵字是什么的參數(shù)Keywords和用來(lái)告訴搜索引擎你的網(wǎng)站主要內(nèi)容的參數(shù)descript1n。
[0067]S13,對(duì)所述短文本信息提取關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞獲取每條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量。
[0068]該步驟具體方法是:首先將預(yù)定詞性的詞項(xiàng)選取為關(guān)鍵詞,所述詞性包括名詞、形容詞、副詞和動(dòng)詞;接著利用關(guān)鍵詞在關(guān)鍵詞向量中的詞頻(Term Frequency, TF)值,計(jì)算所述關(guān)鍵詞在每條短文本信息中的權(quán)重值;然后根據(jù)所述關(guān)鍵詞和關(guān)鍵詞在本條短文本信息中的權(quán)重值,得到本條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量。
[0069]需要說(shuō)明的是,上述步驟S12形成的這些短文本信息盡管包含了 query對(duì)應(yīng)的完備信息,然而目前的自然語(yǔ)言處理技術(shù)無(wú)法完全處理這些文本信息。因此,在對(duì)短文本建立詞頻向量之前需要?jiǎng)h除短文本中對(duì)應(yīng)的停用詞,如中文的“的”、“了”、英文的“a”、“is”等。由于本方案提出的方法需要對(duì)詞項(xiàng)進(jìn)行語(yǔ)義分析,除了刪除停用詞外還需要進(jìn)行關(guān)鍵詞的選取,這些關(guān)鍵詞就是最能表征文本含義的實(shí)詞,即該詞項(xiàng)的詞性是名詞、動(dòng)詞、形容詞和副詞等。
[0070]文本預(yù)處理后,需要對(duì)每篇短文本的詞項(xiàng)進(jìn)行TF值的計(jì)算,將短文本中的各個(gè)詞項(xiàng)的TF值表示成一個(gè)向量,以此來(lái)計(jì)算文本間的相似度。由于這個(gè)文本向量是高維的,所以我們可以從每篇短文本中挑選關(guān)鍵詞,以此來(lái)表征文本,從而最大可能地減少短文本向量的維度。具體做法是:選取每篇短文本中的動(dòng)詞、名詞、形容詞和副詞作為關(guān)鍵詞項(xiàng),如果設(shè)關(guān)鍵詞項(xiàng)個(gè)數(shù)占整個(gè)短文本百分比為P,這樣一篇短文本向量的維度可以下降1-p,這可以提高本方案的效率。
[0071 ] S14,判斷任兩個(gè)所述關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量。
[0072]得到了每篇短文本的關(guān)鍵詞向量之后,接下來(lái)需要考慮如何計(jì)算兩篇短文本之間的相似度。由于關(guān)鍵詞項(xiàng)代表了一篇文本中最重要的信息,因此文本的相似度就可以用關(guān)鍵詞項(xiàng)向量間的相似度來(lái)描述。
[0073]判斷任兩個(gè)關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量的具體方法可以是:根據(jù)兩個(gè)關(guān)鍵詞向量中各關(guān)鍵詞的權(quán)重值,計(jì)算兩個(gè)關(guān)鍵詞向量之間的余弦相似度,當(dāng)計(jì)算出的余弦相似度大于預(yù)定閥值時(shí),判斷所述兩個(gè)關(guān)鍵詞向量為相似的關(guān)鍵詞向量,當(dāng)計(jì)算出的余弦相似度不大于預(yù)定閥值時(shí),判斷所述兩個(gè)關(guān)鍵詞向量不是相似的關(guān)鍵詞向量。
[0074]其中,計(jì)算兩個(gè)關(guān)鍵詞向量之間的余弦相似度包括:
[0075]對(duì)第一關(guān)鍵詞向量中的第一關(guān)鍵詞,在設(shè)置的詞項(xiàng)倒排索引表(Term InvertedIndex Table, TUT)中查詢?cè)摰谝魂P(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量,當(dāng)對(duì)應(yīng)的關(guān)鍵詞向量包括第二關(guān)鍵詞向量時(shí),獲知所述第一關(guān)鍵詞為同時(shí)存在于第一關(guān)鍵詞向量和第二關(guān)鍵詞向量中的共同關(guān)鍵詞;
[0076]利用所述共同關(guān)鍵詞在第一關(guān)鍵詞向量中的第一權(quán)重值、所述共同關(guān)鍵詞在第二關(guān)鍵詞向量中的第二權(quán)重值、第一關(guān)鍵詞向量的模長(zhǎng)和第二關(guān)鍵詞向量的模長(zhǎng)計(jì)算所述第一關(guān)鍵詞向量和第二關(guān)鍵詞向量的余弦相似度;
[0077]上述詞項(xiàng)倒排索引表包括記錄詞項(xiàng)的詞典表、記錄詞項(xiàng)與關(guān)鍵詞向量編號(hào)對(duì)應(yīng)關(guān)系的向量索引表和詞項(xiàng)信息表,所述詞項(xiàng)信息表記錄關(guān)鍵詞向量中的關(guān)鍵詞、關(guān)鍵詞的權(quán)重值、關(guān)鍵詞向量的模長(zhǎng)和關(guān)鍵詞向量對(duì)應(yīng)的短文本信息。
[0078]下面是計(jì)算兩個(gè)關(guān)鍵詞向量之間的余弦相似度的具體說(shuō)明:
[0079]設(shè)ty tj是兩個(gè)不同的短文本關(guān)鍵詞向量,Pi和Pj分別對(duì)應(yīng)關(guān)鍵詞在i文本和j文本中的占比。其中,h= (wn, Wi2,…,win) , tj = (Wj1, Wj2, "^wjm),相似度定義為:
[0080]Sim (tj, tj) = wf X CosSim (tj, tj) (I)
[0081]其中wf表示關(guān)鍵詞向量\和之間相似度的加權(quán)因子,這里我們定義wJ =-4PrPi,CosSim Ui, tj)表示關(guān)鍵詞向量h和t」之間的余弦相似度。
[0082]具體的余弦相似度計(jì)算公式由式⑵給出:
【權(quán)利要求】
1.一種網(wǎng)絡(luò)搜索詞的聚類方法,包括: 從搜索日志中提取出需要進(jìn)行聚類的網(wǎng)絡(luò)搜索詞; 對(duì)相同統(tǒng)一資源定位符URL的網(wǎng)絡(luò)搜索詞,根據(jù)所述URL抓取網(wǎng)頁(yè)相關(guān)內(nèi)容,生成短文本信息; 對(duì)所述短文本信息提取關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞獲取每條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量; 判斷任兩個(gè)所述關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量; 當(dāng)存在相似的兩個(gè)關(guān)鍵詞向量時(shí),對(duì)相似的兩個(gè)關(guān)鍵詞向量進(jìn)行合并,生成一個(gè)新的關(guān)鍵詞向量代替所述相似的兩個(gè)關(guān)鍵詞向量,并繼續(xù)判斷任兩個(gè)關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量; 當(dāng)不存在相似的關(guān)鍵詞向量時(shí),從互不相似的各關(guān)鍵詞向量中提取網(wǎng)絡(luò)搜索詞,將從同一個(gè)關(guān)鍵詞向量中提取到的網(wǎng)絡(luò)搜索詞劃分為同一聚類。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)相同統(tǒng)一資源定位符URL的網(wǎng)絡(luò)搜索詞,根據(jù)所述URL抓取網(wǎng)頁(yè)相關(guān)內(nèi)容,生成短文本信息包括: 將對(duì)應(yīng)于相同URL的網(wǎng)絡(luò)搜索詞設(shè)置在短文本信息中,其中,當(dāng)對(duì)應(yīng)于相同URL的網(wǎng)絡(luò)搜索詞中存在多個(gè)相同的網(wǎng)絡(luò)搜索詞時(shí),從相同的網(wǎng)絡(luò)查詢?cè)~中選取一個(gè)網(wǎng)絡(luò)查詢?cè)~設(shè)置在所述短文本信息中; 從具有所述URL的網(wǎng)頁(yè)中抓取屬性標(biāo)簽中關(guān)鍵詞屬性和/或描述屬性對(duì)應(yīng)的屬性值,將所述屬性值設(shè)置在在所述短文本信息中。
3.根據(jù)權(quán)利要求1所述的方法,其中,在對(duì)所述短文本信息提取關(guān)鍵詞之前,所述方法還包括: 剔除所述短文本信息中的停用詞,并對(duì)剔除停用詞后的短文本信息中的詞項(xiàng)進(jìn)行詞性分析,得到各詞項(xiàng)的詞性。
4.根據(jù)權(quán)利要求3所述的方法,其中,對(duì)所述短文本信息提取關(guān)鍵詞包括: 將預(yù)定詞性的詞項(xiàng)選取為所述關(guān)鍵詞,所述詞性包括名詞、形容詞、副詞和動(dòng)詞。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)所述關(guān)鍵詞得到每條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量包括: 利用關(guān)鍵詞在關(guān)鍵詞向量中的詞頻值,計(jì)算所述關(guān)鍵詞在每條短文本信息中的權(quán)重值; 根據(jù)所述關(guān)鍵詞和關(guān)鍵詞在本條短文本信息中的權(quán)重值,得到本條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述判斷任兩個(gè)所述關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量包括: 根據(jù)兩個(gè)關(guān)鍵詞向量中各關(guān)鍵詞的權(quán)重值,計(jì)算兩個(gè)關(guān)鍵詞向量之間的余弦相似度,當(dāng)計(jì)算出的余弦相似度大于預(yù)定閥值時(shí),判斷所述兩個(gè)關(guān)鍵詞向量為相似的關(guān)鍵詞向量,當(dāng)計(jì)算出的余弦相似度不大于預(yù)定閥值時(shí),判斷所述兩個(gè)關(guān)鍵詞向量不是相似的關(guān)鍵詞向量。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述計(jì)算兩個(gè)關(guān)鍵詞向量之間的余弦相似度包括: 對(duì)第一關(guān)鍵詞向量中的第一關(guān)鍵詞,在設(shè)置的詞項(xiàng)倒排索引表中查詢?cè)摰谝魂P(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量,當(dāng)對(duì)應(yīng)的關(guān)鍵詞向量包括第二關(guān)鍵詞向量時(shí),獲知所述第一關(guān)鍵詞為同時(shí)存在于第一關(guān)鍵詞向量和第二關(guān)鍵詞向量中的共同關(guān)鍵詞; 利用所述共同關(guān)鍵詞在第一關(guān)鍵詞向量中的第一權(quán)重值、所述共同關(guān)鍵詞在第二關(guān)鍵詞向量中的第二權(quán)重值、第一關(guān)鍵詞向量的模長(zhǎng)和第二關(guān)鍵詞向量的模長(zhǎng)計(jì)算所述第一關(guān)鍵詞向量和第二關(guān)鍵詞向量的余弦相似度; 其中,所述詞項(xiàng)倒排索引表包括記錄詞項(xiàng)的詞典表、記錄詞項(xiàng)與關(guān)鍵詞向量編號(hào)對(duì)應(yīng)關(guān)系的向量索引表和詞項(xiàng)信息表,所述詞項(xiàng)信息表記錄關(guān)鍵詞向量中的關(guān)鍵詞、關(guān)鍵詞的權(quán)重值、關(guān)鍵詞向量的模長(zhǎng)和關(guān)鍵詞向量對(duì)應(yīng)的短文本信息。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括建立關(guān)鍵詞向量和短文本信息的對(duì)應(yīng)關(guān)系: 將所述對(duì)應(yīng)關(guān)系和向量合并關(guān)系記錄在向量正排索引表中,其中,所述對(duì)應(yīng)關(guān)系指示向量編號(hào)與文本編號(hào)的對(duì)應(yīng)關(guān)系,每個(gè)關(guān)鍵詞向量設(shè)置有向量編號(hào),每個(gè)短文本信息設(shè)置有文本編號(hào),所述向量合并關(guān)系指示向量編號(hào)與發(fā)生合并的關(guān)鍵詞向量的對(duì)應(yīng)關(guān)系; 所述向量正排索引表包括記錄向量編號(hào)的向量索引表、記錄向量編號(hào)與關(guān)鍵詞向量的對(duì)應(yīng)關(guān)系的向量?jī)?nèi)容索引表和詞項(xiàng)信息表,所述詞項(xiàng)信息表記錄關(guān)鍵詞向量中的關(guān)鍵詞、關(guān)鍵詞的權(quán)重值、關(guān)鍵詞向量的模長(zhǎng)和關(guān)鍵詞向量對(duì)應(yīng)的短文本信息。
9.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)相似的兩個(gè)關(guān)鍵詞向量進(jìn)行合并,生成一個(gè)新的關(guān)鍵詞向量包括: 利用相似的兩個(gè)關(guān)鍵詞向量中的關(guān)鍵詞生成新的關(guān)鍵詞向量中的關(guān)鍵詞; 當(dāng)關(guān)鍵詞為相似的兩個(gè)關(guān)鍵詞向量的共同關(guān)鍵詞時(shí),由所述共同關(guān)鍵詞在兩個(gè)關(guān)鍵詞向量中的權(quán)重值的平均值,得到該共同關(guān)鍵詞在新的關(guān)鍵詞向量中的權(quán)重值; 當(dāng)關(guān)鍵詞不是相似的兩個(gè)關(guān)鍵詞向量的共同關(guān)鍵詞時(shí),將該關(guān)鍵詞在原關(guān)鍵詞向量中的權(quán)重值作為該關(guān)鍵詞在新的關(guān)鍵詞向量中的權(quán)重值;以及, 將新的關(guān)鍵詞向量的向量編號(hào)設(shè)置為所述相似的兩個(gè)關(guān)鍵詞向量的向量編號(hào)中較大的向量編號(hào)。
10.一種網(wǎng)絡(luò)搜索詞的聚類裝置,包括: 網(wǎng)絡(luò)搜索詞提取單元,適于從搜索日志中提取出需要進(jìn)行聚類的網(wǎng)絡(luò)搜索詞; 短文本信息生成單元,適于對(duì)相同統(tǒng)一資源定位符URL的網(wǎng)絡(luò)搜索詞,根據(jù)所述URL抓取網(wǎng)頁(yè)相關(guān)內(nèi)容,生成短文本信息; 關(guān)鍵詞向量獲取單元,適于對(duì)所述短文本信息提取關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞獲取每條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量; 判斷單元,適于判斷任兩個(gè)所述關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量; 聚類單元,適于當(dāng)存在相似的兩個(gè)關(guān)鍵詞向量時(shí),對(duì)相似的兩個(gè)關(guān)鍵詞向量進(jìn)行合并,生成一個(gè)新的關(guān)鍵詞向量代替所述相似的兩個(gè)關(guān)鍵詞向量,并繼續(xù)判斷任兩個(gè)關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量; 提取劃分單元,適于當(dāng)不存在相似的關(guān)鍵詞向量時(shí),從互不相似的各關(guān)鍵詞向量中提取網(wǎng)絡(luò)搜索詞,將從同一個(gè)關(guān)鍵詞向量中提取到的網(wǎng)絡(luò)搜索詞劃分為同一聚類。
【文檔編號(hào)】G06F17/27GK104199833SQ201410377357
【公開(kāi)日】2014年12月10日 申請(qǐng)日期:2014年8月1日 優(yōu)先權(quán)日:2014年8月1日
【發(fā)明者】孫鵬飛 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司