專利名稱:商品匹配方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種商品匹配方法及系統(tǒng),特別是涉及一種能自動(dòng)識(shí)別不同網(wǎng)站的同種商品的商品匹配方法及系統(tǒng)。
背景技術(shù):
在電子商務(wù)蓬勃發(fā)展的今天,商品信息的比較、分析顯得尤為重要。然而,各個(gè)網(wǎng)站對(duì)同一個(gè)商品的描述往往是不統(tǒng)一的,比如同樣一只牙膏,A網(wǎng)站描述成“黑人牙膏潔白護(hù)齒家庭裝500g”,B網(wǎng)站描述成“特價(jià)熱銷黑人牙膏全家裝500克”,這給電腦識(shí)別和比較帶來(lái)了困難,因?yàn)殡娔X是不了解語(yǔ)意的。由于商品描述不盡相同,用戶在搜索某一商品時(shí)往往會(huì)無(wú)法搜全所要的商品,這從某種程度上給用戶帶來(lái)了一定的困擾。因此,期望能找到一種能消除商品描述上的誤差、讓電腦通過(guò)一定的方法識(shí)別語(yǔ)意、并且能應(yīng)用于自動(dòng)識(shí)別不同網(wǎng)站的同種商品的商品匹配方法及系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是為了克服現(xiàn)有技術(shù)中各個(gè)網(wǎng)站對(duì)同一個(gè)商品的描述往往是不統(tǒng)一的、相同商品不同表述會(huì)給用戶帶來(lái)困擾的缺陷,提供一種能消除商品描述上的誤差、讓電腦通過(guò)一定的方法識(shí)別語(yǔ)意、并且能應(yīng)用于自動(dòng)識(shí)別不同網(wǎng)站的同種商品的商品匹配方法及系統(tǒng)。本發(fā)明是通過(guò)下述技術(shù)方案來(lái)解決上述技術(shù)問(wèn)題的一種商品匹配方法,其特點(diǎn)在于,其包括以下步驟先針對(duì)每件商品根據(jù)商品的商品描述確定商品類別,并根據(jù)商品類別調(diào)用與該商品類別相應(yīng)的詞庫(kù);將商品描述分為至少兩個(gè)要素并為每個(gè)要素分配要素權(quán)值,其中以Pi來(lái)表示第i 個(gè)要素的要素權(quán)值,以η表示要素的個(gè)數(shù),所有要素的要素權(quán)值之和為1 ;要素權(quán)值的分配, 跟商品類別有關(guān),例如若商品是書(shū)籍類的,那么ISBN碼(International Standard Book Number,國(guó)際標(biāo)準(zhǔn)書(shū)號(hào))要素的要素權(quán)值是最高的,作者要素、出版社要素的要素權(quán)值就相對(duì)可以低一些;若商品是數(shù)碼產(chǎn)品的,那么品牌要素、型號(hào)要素的要素權(quán)值比較高,顏色要素、產(chǎn)地要素等要素的要素權(quán)值可以低一些;利用該詞庫(kù)并按照每個(gè)要素將商品描述切詞成至少一個(gè)要素關(guān)鍵詞,以及格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式;再針對(duì)每?jī)杉唐窞槊總€(gè)要素建立分組映射,該分組映射為該兩件商品的同一要素的要素關(guān)鍵詞的集合;比如切詞后A商品的品牌要素是“n0kia、諾基亞”,B商品的品牌要素是“諾基亞”, 那么“nokia、諾基亞”跟“諾基亞”就是該品牌要素的分組映射;計(jì)算每個(gè)分組映射的相似度,該相似度表示該分組映射中相同的要素關(guān)鍵詞占所有要素關(guān)鍵詞的比例,其中以Fi來(lái)表示第i個(gè)要素的分組映射的相似度;計(jì)算該兩件商品的匹配分值,該EESB分乃xf ;將該匹配分值與一閾值比較,若該匹配分值大于等于該閾值,則該兩件商品相匹配,確定該兩件商品為同一商品;若該匹配分值小于該閾值,則該兩件商品不相匹配,確定該兩件商品為不同商品。針對(duì)不同的商品類別,閾值是不一樣的;有時(shí)即使是同一商品類另|J,當(dāng)調(diào)用的詞庫(kù)變化后,閾值也可能隨之變化。優(yōu)選地,當(dāng)?shù)趇個(gè)要素的分組映射的相似度Fi為0時(shí),將該第i個(gè)要素的要素權(quán)值Pi轉(zhuǎn)移至其他要素的要素權(quán)值上。也就是說(shuō),該分組映射中的兩件商品的所有要素關(guān)鍵詞都不同,即該分組映射中不存在相同的要素關(guān)鍵詞,這種情況下,該要素的要素權(quán)值將轉(zhuǎn)移分配至其他要素的要素權(quán)值,例如按一定比例轉(zhuǎn)移至其他要素的要素權(quán)值。優(yōu)選地,采用一同義詞詞庫(kù)統(tǒng)一同義詞的方式、采用統(tǒng)一大小寫的方式和采用替換半全角字符的方式中的一種或多種來(lái)格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式。例如,可以先構(gòu)建一同義詞庫(kù),該同義詞詞庫(kù)包括簡(jiǎn)稱、術(shù)語(yǔ)、學(xué)名、全稱、拼音、 英文等都會(huì)收錄到同義詞庫(kù),之后利用該同義詞詞庫(kù)統(tǒng)一要素關(guān)鍵詞,將相同含義的要素關(guān)鍵詞統(tǒng)一用語(yǔ),方便后續(xù)的比較。對(duì)于一些用于表示商品型號(hào)、單位的外語(yǔ)字符、數(shù)字等, 采用格式化的方式來(lái)減少以不同方式撰寫的外語(yǔ)字符對(duì)之后要素關(guān)鍵詞比較的影響,如 N908、Π908、N九零八,會(huì)被格式化成n908,以方便后續(xù)的比較。優(yōu)選地,該詞庫(kù)為品牌詞庫(kù)、商品通用名稱詞庫(kù)、單位詞庫(kù)、屬性詞庫(kù)、型號(hào)詞庫(kù)和常規(guī)詞詞庫(kù)中的一種或多種。優(yōu)選地,該利用該詞庫(kù)并按照每個(gè)要素將商品描述切詞成至少一個(gè)要素關(guān)鍵詞的步驟之前還包括以下步驟采用常規(guī)詞詞庫(kù)切除商品描述中的介詞和/或助詞。優(yōu)選地,該至少兩個(gè)要素選自以下要素品牌要素、商品通用名稱要素、單位要素、 屬性要素和型號(hào)要素。本發(fā)明還提供一種商品匹配系統(tǒng),其特點(diǎn)在于,其包括根據(jù)商品的商品描述確定商品類別的商品類別識(shí)別模塊;根據(jù)商品類別調(diào)用與該商品類別相應(yīng)的詞庫(kù)的詞庫(kù)調(diào)用模塊;將商品描述分為至少兩個(gè)要素并為每個(gè)要素分配要素權(quán)值的要素形成模塊,其中以Pi來(lái)表示第i個(gè)要素的要素權(quán)值,以η表示要素的個(gè)數(shù),所有要素的要素權(quán)值之和為1 ; 要素權(quán)值的分配,跟商品類別有關(guān),例如若商品是書(shū)籍類的,那么ISBN碼要素的要素權(quán)值是最高的,作者要素、出版社要素的要素權(quán)值就相對(duì)可以低一些;若商品是數(shù)碼產(chǎn)品的,那么品牌要素、型號(hào)要素的要素權(quán)值比較高,顏色要素、產(chǎn)地要素等要素的要素權(quán)值可以低一些;利用該詞庫(kù)并按照每個(gè)要素將商品描述切詞成至少一個(gè)要素關(guān)鍵詞、以及格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式的切詞模塊;以及,一針對(duì)每?jī)杉唐返淖酉到y(tǒng),其中該子系統(tǒng)還包括為每個(gè)要素建立分組映射的分組映射建立模塊,該分組映射為該兩件商品的同一要素的要素關(guān)鍵詞的集合;比如切詞后A商品的品牌要素是“n0kia、諾基亞”,B商品的品牌要素是“諾基亞”,那么“nokia、諾基亞”跟“諾基亞”就是該品牌要素的分組映射;
計(jì)算每個(gè)分組映射的相似度的相似度計(jì)算模塊,該相似度表示該分組映射中相同的要素關(guān)鍵詞占所有要素關(guān)鍵詞的比例,其中以Fi來(lái)表示第i個(gè)要素的分組映射的相似度;計(jì)算該兩件商品的匹配分值的匹配分值計(jì)算模塊,該匹配分值=I^x廠‘
/=1將該匹配分值與一閾值比較的比較模塊,其中,若該匹配分值大于等于該閾值,則該兩件商品相匹配,確定該兩件商品為同一商品;若該匹配分值小于該閾值,則該兩件商品不相匹配,確定該兩件商品為不同商品。針對(duì)不同的商品類別,閾值是不一樣的;有時(shí)即使是同一商品類別,當(dāng)調(diào)用的詞庫(kù)變化后,閾值也可能隨之變化。另外,該閾值可在系統(tǒng)運(yùn)行一段時(shí)間后,由系統(tǒng)學(xué)習(xí)來(lái)自動(dòng)設(shè)置。優(yōu)選地,該子系統(tǒng)還包括一要素權(quán)值轉(zhuǎn)移模塊,用于當(dāng)?shù)趇個(gè)要素的分組映射的相似度Fi為0時(shí),將該第i個(gè)要素的要素權(quán)值Pi轉(zhuǎn)移至其他要素的要素權(quán)值上。也就是說(shuō), 該分組映射中的兩件商品的所有要素關(guān)鍵詞都不同,即該分組映射中不存在相同的要素關(guān)鍵詞,這種情況下,該要素的要素權(quán)值將轉(zhuǎn)移分配至其他要素的要素權(quán)值,例如按一定比例轉(zhuǎn)移至其他要素的要素權(quán)值。優(yōu)選地,該切詞模塊還用于采用一同義詞詞庫(kù)統(tǒng)一同義詞的方式、采用統(tǒng)一大小寫的方式和采用替換半全角字符的方式中的一種或多種來(lái)格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式。例如,可以先構(gòu)建一同義詞庫(kù),該同義詞詞庫(kù)包括簡(jiǎn)稱、術(shù)語(yǔ)、 學(xué)名、全稱、拼音、英文等都會(huì)收錄到同義詞庫(kù),之后利用該同義詞詞庫(kù)統(tǒng)一要素關(guān)鍵詞,將相同含義的要素關(guān)鍵詞統(tǒng)一用語(yǔ),方便后續(xù)的比較。對(duì)于一些用于表示商品型號(hào)、單位的外語(yǔ)字符、數(shù)字等,采用格式化的方式來(lái)減少以不同方式撰寫的外語(yǔ)字符對(duì)之后要素關(guān)鍵詞比較的影響,如N908、n908、N九零八,會(huì)被格式化成n908,以方便后續(xù)的比較。優(yōu)選地,該詞庫(kù)為品牌詞庫(kù)、商品通用名稱詞庫(kù)、單位詞庫(kù)、屬性詞庫(kù)、型號(hào)詞庫(kù)和常規(guī)詞詞庫(kù)中的一種或多種。優(yōu)選地,該切詞模塊還用于采用常規(guī)詞詞庫(kù)切除商品描述中的介詞和/或助詞。優(yōu)選地,該至少兩個(gè)要素選自以下要素品牌要素、商品通用名稱要素、單位要素、 屬性要素和型號(hào)要素。本發(fā)明的積極進(jìn)步效果在于本發(fā)明提供的商品匹配方法及系統(tǒng),消除了不同網(wǎng)站的同種商品在商品描述上的誤差,得以自動(dòng)識(shí)別不同網(wǎng)站的同種商品,在用戶瀏覽、搜索某一商品時(shí)為用戶提供了極大的便利,有效提高了搜索的查全率。
圖1為本發(fā)明的一實(shí)施例的商品匹配方法的流程圖。圖2為本發(fā)明的一實(shí)施例的商品匹配系統(tǒng)的結(jié)構(gòu)框圖。圖3為本發(fā)明的一實(shí)施例的商品匹配方法中的切詞匹配示意圖。
具體實(shí)施例方式下面結(jié)合附圖給出本發(fā)明較佳實(shí)施例,以詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案。
參 考圖1,介紹本發(fā)明的一實(shí)施例的商品匹配方法。步驟101,先針對(duì)每件商品而言根據(jù)商品的商品描述確定商品類別,并根據(jù)商品類別調(diào)用與該商品類別相應(yīng)的詞庫(kù)。例如品牌詞庫(kù)、商品通用名稱詞庫(kù)、單位詞庫(kù)、屬性詞庫(kù)、型號(hào)詞庫(kù)和常規(guī)詞詞庫(kù)。步驟102,將商品描述分為至少兩個(gè)要素。例如品牌要素、商品通用名稱要素、單位要素、屬性要素和型號(hào)要素。步驟103,為每個(gè)要素分配要素權(quán)值,其中以Pi來(lái)表示第i個(gè)要素的要素權(quán)值,以 η表示要素的個(gè)數(shù),所有要素的要素權(quán)值之和為1 ;步驟104,利用該詞庫(kù)并按照每個(gè)要素將商品描述切詞成至少一個(gè)要素關(guān)鍵詞,以及格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式。其中,在利用該詞庫(kù)并按照每個(gè)要素將商品描述切詞成至少一個(gè)要素關(guān)鍵詞之前可以先采用常規(guī)詞詞庫(kù)切除商品描述中的介詞和/或助詞,這樣有助于切詞的準(zhǔn)確性。具體來(lái)說(shuō),采用一同義詞詞庫(kù)統(tǒng)一同義詞的方式、采用統(tǒng)一大小寫的方式和采用替換半全角字符的方式中的一種或多種來(lái)格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式。步驟105,再針對(duì)每?jī)杉唐窞槊總€(gè)要素建立分組映射,該分組映射為該兩件商品的同一要素的要素關(guān)鍵詞的集合。步驟106,計(jì)算每個(gè)分組映射的相似度,該相似度表示該分組映射中相同的要素關(guān)鍵詞占所有要素關(guān)鍵詞的比例,其中以Fi來(lái)表示第i個(gè)要素的分組映射的相似度。特別地, 當(dāng)?shù)趇個(gè)要素的分組映射的相似度Fi為0時(shí),將該第i個(gè)要素的要素權(quán)值Pi轉(zhuǎn)移至其他要素的要素權(quán)值上。步驟107,計(jì)算該兩件商品的匹配分值,貞廠。
/=1步驟108,將該匹配分值與一閾值比較,若該匹配分值大于等于該閾值,則進(jìn)入步驟109 ;若該匹配分值小于該閾值,則進(jìn)入步驟110。步驟109,該兩件商品相匹配,確定該兩件商品為同一商品。步驟110,該兩件商品不相匹配,確定該兩件商品為不同商品。參考圖2,介紹本發(fā)明的一實(shí)施例的商品匹配系統(tǒng)。如圖2所示,該商品匹配系統(tǒng),包括根據(jù)商品的商品描述確定商品類別的商品類別識(shí)別模塊1 ;根據(jù)商品類別調(diào)用與該商品類別相應(yīng)的詞庫(kù)的詞庫(kù)調(diào)用模塊2,其中,該詞庫(kù)為品牌詞庫(kù)、商品通用名稱詞庫(kù)、單位詞庫(kù)、屬性詞庫(kù)、型號(hào)詞庫(kù)和常規(guī)詞詞庫(kù);將商品描述分為至少兩個(gè)要素并為每個(gè)要素分配要素權(quán)值的要素形成模塊3,例如,品牌要素、商品通用名稱要素、單位要素、屬性要素和型號(hào)要素,其中以Pi來(lái)表示第i個(gè)要素的要素權(quán)值,以η表示要素的個(gè)數(shù),所有要素的要素權(quán)值之和為1 ;利用該詞庫(kù)并按照每個(gè)要素將商品描述切詞成至少一個(gè)要素關(guān)鍵詞、以及格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式的切詞模塊4 ;以及,一針對(duì)每?jī)杉唐返淖酉到y(tǒng)5,其中該子系統(tǒng)5還包括為每個(gè)要素建立分組映射的分組映射建立模塊51,該分組映射為該兩件商品的同一要素的要素關(guān)鍵詞的集合;計(jì)算每個(gè)分組映射的相似度的相似度計(jì)算模塊52,該相似度表示該分組映射中相同的要素關(guān)鍵詞占所有要素關(guān)鍵詞的比例,其中以Fi來(lái)表示第i個(gè)要素的分組映射的相似度;計(jì)算該 兩件商品的匹配分值的匹配分值計(jì)算模塊53,貞砠=I^xf ;將該匹配分值與一閾值比較的比較模塊54,其中,若該匹配分值大于等于該閾值, 則該兩件商品相匹配,確定該兩件商品為同一商品;若該匹配分值小于該閾值,則該兩件商品不相匹配,確定該兩件商品為不同商品。另外,該子系統(tǒng)5還包括一要素權(quán)值轉(zhuǎn)移模塊55,用于當(dāng)?shù)趇個(gè)要素的分組映射的相似度Fi為0時(shí),將該第i個(gè)要素的要素權(quán)值Pi轉(zhuǎn)移至其他要素的要素權(quán)值上。其中,該切詞模塊4還用于采用一同義詞詞庫(kù)統(tǒng)一同義詞的方式、采用統(tǒng)一大小寫的方式和采用替換半全角字符的方式中的一種或多種來(lái)格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式。另外,該切詞模塊4還用于采用常規(guī)詞詞庫(kù)切除商品描述中的介詞和/或助詞。接下來(lái),參考圖3,舉一應(yīng)用實(shí)例,進(jìn)一步介紹本發(fā)明的商品匹配方法。如圖3所示,以兩件用不同商品描述的商品為例,簡(jiǎn)述商品匹配方法中切詞和匹配的步驟,其中,兩件商品的商品描述分別為海爾洗衣機(jī)XQS50-Z9288FM超低價(jià)5公斤雙動(dòng)力洗衣機(jī),以及海爾洗衣機(jī)XQS50-Z9288FM。首先,進(jìn)行切詞的步驟將一個(gè)商品描述分成7個(gè)要素并切詞成要素關(guān)鍵詞(一般來(lái)說(shuō),品牌要素必須存在),這7個(gè)要素分別為要素1 品牌要素,如“諾基亞” “夏新”(按商品類別劃分,比如大家電有大家電的商品品牌關(guān)鍵詞集合,手機(jī)也有自己的品牌關(guān)鍵詞集合);要素2 商品通用名稱要素,如“洗衣粉” “空調(diào)”這樣的通用名稱;要素3 單位要素,如“20ml” “30kg,,;要素4 表示不同商品類別的商品屬性的屬性要素如大家電有“立柜”、“掛壁式”、“冷暖”、“雙開(kāi)”(冰箱的屬性詞);(一般屬性是按商品類別劃分的)要素5 表示商品通用屬性的屬性要素如商品顏色“紅色” “銀黑”之類的;要素6 型號(hào)要素,一般以字符和數(shù)字以及一些連接符組成的連續(xù)字符串表示;要素7 剩下的用通用切詞方法切詞后得到的關(guān)鍵詞。切詞需要詞庫(kù),這里的詞庫(kù)是按照分組進(jìn)行分類的如大家電的品牌有“夏新” “長(zhǎng)虹” “飛利浦”等。按要素進(jìn)行切詞的需要按照一定的順序,如要素6的切詞需要放在要素3和要素1 之后,因?yàn)槿绻?在要素1和要素3之前進(jìn)行切詞,則會(huì)導(dǎo)致一部分的英文的品牌或者商品單位描述進(jìn)入要素6,導(dǎo)致不同要素的切詞混淆而導(dǎo)致最終匹配結(jié)果的不準(zhǔn)確。同時(shí), 需要一個(gè)按商品類別和要素劃分類別同義詞表,如手機(jī)的品牌同義詞有Znokia”對(duì)應(yīng)“諾基亞”,“聯(lián)想”對(duì)應(yīng)“Lenovo”。大家電的通用名同義詞有“冰柜”與“電冰柜”同義,“陳列柜”與“展示柜”同義。通用的單位關(guān)鍵詞同義詞有單位“毫升”與“ml”同義,這樣能統(tǒng)一相同含義的要素關(guān)鍵詞以利于后續(xù)的匹配。接下來(lái)進(jìn)行匹配的步驟切詞是匹配的基礎(chǔ),在切詞之后會(huì)得到7個(gè)要素,并且為兩件商品的每個(gè)要素的建立分組映射,每個(gè)分組映射包含兩件商品的該要素的所有要素關(guān)鍵詞,在判斷兩個(gè)商品描述是否匹配的過(guò)程中,計(jì)算每個(gè)分組映射的相似度Fi,即兩件商品的該要素的相同的要素關(guān)鍵詞占該分組映射所有要素關(guān)鍵詞的比例。 計(jì)算匹配分值^jPi+F^^+F^Ps+F^PjFdPs+FdPe+F^Pr將匹配分值與閾值比較以得出結(jié)果,這里要素總數(shù)η = 7。不同的商品類別,其要素的分組映射在匹配過(guò)程中的作用是不同的,所以需要根據(jù)不同的商品類別設(shè)置不同的要素的要素權(quán)值。前期主要靠人工設(shè)置這些要素權(quán)值,后期希望設(shè)計(jì)一套機(jī)器學(xué)習(xí)的方法自動(dòng)地設(shè)置這些要素權(quán)值。當(dāng)然,并不是任何情況都是按照這樣的匹配分值進(jìn)行匹配率的計(jì)算的,比如對(duì)于某些商品分類,如果分組1的Fi為1的情況下(表示是品牌匹配),分組6的Fi值也為1, 則不需要考慮其他分組的匹配情況,可以直接認(rèn)為商品是匹配的。最后,參考圖3,參照上述的要素1-7,簡(jiǎn)述一下切詞和建立分組映射的過(guò)程。要素1的分組映射“海爾”、“海爾”;要素2的分組映射“洗衣機(jī)”、“洗衣機(jī)”;要素3的分組映射“5公斤”、無(wú);要素6 的分組映射“XQS50-Z9288FM”、“XQS50-Z9288FM,,;要素7的分組映射“超低價(jià)、雙動(dòng)力”、無(wú)。雖然以上描述了本發(fā)明的具體實(shí)施方式
,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說(shuō)明,本發(fā)明的保護(hù)范圍是由所附權(quán)利要求書(shū)限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下,可以對(duì)這些實(shí)施方式做出多種變更或修改,但這些變更和修改均落入本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種商品匹配方法,其特征在于,其包括以下步驟 先針對(duì)每件商品根據(jù)商品的商品描述確定商品類別,并根據(jù)商品類別調(diào)用與該商品類別相應(yīng)的詞庫(kù); 將商品描述分為至少兩個(gè)要素并為每個(gè)要素分配要素權(quán)值,其中以Pi來(lái)表示第i個(gè)要素的要素權(quán)值,以η表示要素的個(gè)數(shù),所有要素的要素權(quán)值之和為1 ;利用該詞庫(kù)并按照每個(gè)要素將商品描述切詞成至少一個(gè)要素關(guān)鍵詞,以及格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式; 再針對(duì)每?jī)杉唐窞槊總€(gè)要素建立分組映射,該分組映射為該兩件商品的同一要素的要素關(guān)鍵詞的集合;計(jì)算每個(gè)分組映射的相似度,該相似度表示該分組映射中相同的要素關(guān)鍵詞占所有要素關(guān)鍵詞的比例,其中以Fi來(lái)表示第i個(gè)要素的分組映射的相似度;計(jì)算該兩件商品的匹配分值,該匹配分值;/=1將該匹配分值與一閾值比較,若該匹配分值大于等于該閾值,則該兩件商品相匹配,確定該兩件商品為同一商品;若該匹配分值小于該閾值,則該兩件商品不相匹配,確定該兩件商品為不同商品。
2.如權(quán)利要求1所述的商品匹配方法,其特征在于,當(dāng)?shù)趇個(gè)要素的分組映射的相似度 Fi為O時(shí),將該第i個(gè)要素的要素權(quán)值Pi轉(zhuǎn)移至其他要素的要素權(quán)值上。
3.如權(quán)利要求1所述的商品匹配方法,其特征在于,采用一同義詞詞庫(kù)統(tǒng)一同義詞的方式、采用統(tǒng)一大小寫的方式和采用替換半全角字符的方式中的一種或多種來(lái)格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式。
4.如權(quán)利要求1-3中任意一項(xiàng)所述的商品匹配方法,其特征在于,該詞庫(kù)為品牌詞庫(kù)、 商品通用名稱詞庫(kù)、單位詞庫(kù)、屬性詞庫(kù)、型號(hào)詞庫(kù)和常規(guī)詞詞庫(kù)中的一種或多種。
5.如權(quán)利要求4所述的商品匹配方法,其特征在于,該利用該詞庫(kù)并按照每個(gè)要素將商品描述切詞成至少一個(gè)要素關(guān)鍵詞的步驟之前還包括以下步驟采用常規(guī)詞詞庫(kù)切除商品描述中的介詞和/或助詞。
6.如權(quán)利要求4所述的商品匹配方法,其特征在于,該至少兩個(gè)要素選自以下要素品牌要素、商品通用名稱要素、單位要素、屬性要素和型號(hào)要素。
7.—種商品匹配系統(tǒng),其特征在于,其包括根據(jù)商品的商品描述確定商品類別的商品類別識(shí)別模塊; 根據(jù)商品類別調(diào)用與該商品類別相應(yīng)的詞庫(kù)的詞庫(kù)調(diào)用模塊; 將商品描述分為至少兩個(gè)要素并為每個(gè)要素分配要素權(quán)值的要素形成模塊,其中以Pi 來(lái)表示第i個(gè)要素的要素權(quán)值,以η表示要素的個(gè)數(shù),所有要素的要素權(quán)值之和為1 ;利用該詞庫(kù)并按照每個(gè)要素將商品描述切詞成至少一個(gè)要素關(guān)鍵詞、以及格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式的切詞模塊;以及, 一針對(duì)每?jī)杉唐返淖酉到y(tǒng),其中該子系統(tǒng)還包括為每個(gè)要素建立分組映射的分組映射建立模塊,該分組映射為該兩件商品的同一要素的要素關(guān)鍵詞的集合;計(jì)算每個(gè)分組映射的相似度的相似度計(jì)算模塊,該相似度表示該分組映射中相同的要素關(guān)鍵詞占所有要素關(guān)鍵詞的比例,其中以Fi來(lái)表示第i個(gè)要素的分組映射的相似度;計(jì)算該兩件商品的匹配分值的匹配分值計(jì)算模塊
8.如權(quán)利要求7所述的商品匹配系統(tǒng),其特征在于,該子系統(tǒng)還包括一要素權(quán)值轉(zhuǎn)移模塊,用于當(dāng)?shù)趇個(gè)要素的分組映射的相似度Fi為O時(shí),將該第i個(gè)要素的要素權(quán)值Pi轉(zhuǎn)移至其他要素的要素權(quán)值上。
9.如權(quán)利要求7所述的商品匹配系統(tǒng),其特征在于,該切詞模塊還用于采用一同義詞詞庫(kù)統(tǒng)一同義詞的方式、采用統(tǒng)一大小寫的方式和采用替換半全角字符的方式中的一種或多種來(lái)格式化該至少一個(gè)要素關(guān)鍵詞以統(tǒng)一要素關(guān)鍵詞的格式。
10.如權(quán)利要求7-9中任意一項(xiàng)所述的商品匹配系統(tǒng),其特征在于,該詞庫(kù)為品牌詞庫(kù)、商品通用名稱詞庫(kù)、單位詞庫(kù)、屬性詞庫(kù)、型號(hào)詞庫(kù)和常規(guī)詞詞庫(kù)中的一種或多種。
11.如權(quán)利要求10所述的商品匹配系統(tǒng),其特征在于,該切詞模塊還用于采用常規(guī)詞詞庫(kù)切除商品描述中的介詞和/或助詞。
12.如權(quán)利要求10所述的商品匹配系統(tǒng),其特征在于,該至少兩個(gè)要素選自以下要素 品牌要素、商品通用名稱要素、單位要素、屬性要素和型號(hào)要素。
全文摘要
本發(fā)明公開(kāi)了一種商品匹配方法,包括確定商品類別并調(diào)用與商品類別相應(yīng)的詞庫(kù);將商品描述分為至少兩個(gè)要素并為每個(gè)要素分配要素權(quán)值;利用詞庫(kù)并按照每個(gè)要素將商品描述切詞成至少一個(gè)要素關(guān)鍵詞;針對(duì)每?jī)杉唐窞槊總€(gè)要素建立分組映射;計(jì)算每個(gè)分組映射的相似度;計(jì)算該兩件商品的匹配分值,該匹配分值=;將該匹配分值與一閾值比較,若該匹配分值大于等于該閾值,則確定該兩件商品為同一商品;若該匹配分值小于該閾值,則確定該兩件商品為不同商品。本發(fā)明還公開(kāi)了一種商品匹配系統(tǒng)。本發(fā)明提供的商品匹配方法及系統(tǒng),消除了不同網(wǎng)站的同種商品在商品描述上的誤差,得以自動(dòng)識(shí)別不同網(wǎng)站的同種商品。
文檔編號(hào)G06Q30/00GK102332137SQ20111028871
公開(kāi)日2012年1月25日 申請(qǐng)日期2011年9月23日 優(yōu)先權(quán)日2011年9月23日
發(fā)明者黃哲鏗 申請(qǐng)人:紐海信息技術(shù)(上海)有限公司