国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種商戶名稱搜索方法和裝置與流程

      文檔序號(hào):11729323閱讀:302來(lái)源:國(guó)知局
      一種商戶名稱搜索方法和裝置與流程
      本發(fā)明實(shí)施例涉及數(shù)據(jù)業(yè)務(wù)領(lǐng)域的搜索及匹配領(lǐng)域,尤其涉及一種商戶名稱搜索方法和裝置。
      背景技術(shù)
      :在現(xiàn)有的模糊搜索技術(shù)當(dāng)中,主要是針對(duì)一段文字進(jìn)行相關(guān)搜索匹配,采用的方法是全文檢索方法。全文檢索方法是指計(jì)算機(jī)索引程序通過(guò)掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,然后根據(jù)詞頻或搜索頻率確定查找到的詞在文章中的重要性,并對(duì)查找到的詞根據(jù)重要性進(jìn)行加權(quán)評(píng)級(jí)確定文章與用戶查詢文字的相似度,最后根據(jù)相似度進(jìn)行匹配并將結(jié)果反饋給用戶。由于該技術(shù)在計(jì)算相似度時(shí)受詞頻或搜索頻率的影響,一般來(lái)說(shuō)一個(gè)詞的詞頻或搜索頻率越高,該詞的類別區(qū)分能力就越差,從而重要程度就越低。若待搜索商戶名稱與搜索庫(kù)中的商戶名稱相似度極高,唯一區(qū)別的詞又為重要程度低的詞,那么使用現(xiàn)有技術(shù)中的方法容易將該兩個(gè)商戶名稱匹配為同一個(gè)商戶名稱,從而影響商戶名稱匹配的精度。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供一種商戶名稱搜索方法和裝置,用于解決現(xiàn)有技術(shù)中搜索方法的精度受詞頻或搜索頻率的影響的問(wèn)題。本發(fā)明實(shí)施例提供了一種商戶名稱搜索方法,包括:對(duì)待搜索商戶名稱進(jìn)行分詞;針對(duì)每個(gè)分詞,根據(jù)所述分詞的詞義確定所述分詞作為各要素的詞義概率;根據(jù)所述分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率確定所述分詞的要素屬性;根據(jù)各分詞的要素屬性,從搜索庫(kù)中查找所述待搜索商戶名稱的匹配商戶名稱,所述匹配商戶名稱與所述待搜索商戶名稱的相似度大于設(shè)定閾值??蛇x地,所述針對(duì)每個(gè)分詞,根據(jù)所述分詞的詞義確定所述分詞作為各要素的詞義概率;根據(jù)所述分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率確定所述分詞的要素屬性,包括:針對(duì)所述待搜索商戶名稱中的第一個(gè)分詞,確定所述第一個(gè)分詞作為各要素的詞義概率;根據(jù)所述第一個(gè)分詞作為各要素的詞義概率和所述各要素作為商戶名稱中第一個(gè)詞的位置概率,確定所述第一個(gè)分詞的要素屬性;針對(duì)所述待搜索商戶名稱中的第i個(gè)分詞,確定所述第i個(gè)分詞作為各要素的詞義概率;根據(jù)各要素之間的狀態(tài)轉(zhuǎn)移概率和第i-1個(gè)分詞的要素屬性,確定所述各要素作為商戶名稱中第i個(gè)詞的位置概率;根據(jù)所述第i個(gè)分詞作為各要素的詞義概率和所述各要素作為商戶名稱中第i個(gè)詞的位置概率,確定所述第i個(gè)分詞的要素屬性,i大于等于2。可選地,所述根據(jù)所述分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率確定所述分詞的要素屬性符合下述公式(1):y=argmax(p(xn=j(luò))*pj)………………………………………(1)其中,y為分詞的要素屬性,pj為各要素在商戶名稱中的位置概率,p(xn=j(luò))為分詞作為各要素的詞義概率,xn為商戶名稱中第n個(gè)分詞,j表示各要素??蛇x地,所述根據(jù)各分詞的要素屬性,從搜索庫(kù)中查找所述待搜索商戶名稱的匹配商戶名稱,包括:針對(duì)所述搜索庫(kù)中任意一個(gè)比對(duì)商戶名稱,按照要素比對(duì)的方式,確定所述待搜索商戶名稱和所述比對(duì)商戶名稱的各要素的相似度;按照預(yù)設(shè)的要素優(yōu)先級(jí)依次判斷所述各要素的相似度是否大于相似度閾值;將滿足所述各要素相似度均大于所述相似度閾值的比對(duì)商戶名稱確定為相似商戶名稱;根據(jù)各要素的相似度及各要素權(quán)重確定各相似商戶名稱與所述待搜索商戶名稱的相似度;將相似度大于所述設(shè)定閾值的相似商戶名稱確定為所述待搜索商戶名稱的匹配商戶名稱??蛇x地,所述將相似度大于所述設(shè)定閾值的相似商戶名稱確定為所述待搜索商戶名稱的匹配商戶名稱,包括:若相似度大于所述設(shè)定閾值的相似商戶名稱有多個(gè),則根據(jù)所述要素優(yōu)先級(jí),將所述多個(gè)相似商戶名稱中同一要素的相似度最高的相似商戶名稱確定為所述待搜索商戶名稱的匹配商戶名稱??蛇x地,所述根據(jù)所述分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率,確定所述分詞的要素屬性之后,從搜索庫(kù)中查找所述待搜索商戶名稱的匹配商戶名稱之前,還包括:根據(jù)預(yù)設(shè)規(guī)則調(diào)整所述待搜索商戶名稱中各分詞的要素屬性。可選地,所述要素屬性包括行政區(qū)劃要素、字號(hào)要素、行業(yè)特點(diǎn)要素;所述根據(jù)預(yù)設(shè)規(guī)則調(diào)整所述待搜索商戶名稱中各分詞的要素屬性,包括:在連續(xù)的行政區(qū)劃詞之間沒(méi)有層級(jí)關(guān)系時(shí),將所述連續(xù)的行政區(qū)劃詞中最后一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,所述行政區(qū)劃詞為行政區(qū)劃要素對(duì)應(yīng)的分詞;或在所述待搜索商戶名稱中沒(méi)有字號(hào)詞時(shí),將多個(gè)行政區(qū)劃詞中最后一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,所述字號(hào)詞為字號(hào)要素對(duì)應(yīng)的分詞;或在所述待搜索商戶名稱中沒(méi)有行政區(qū)劃詞和字號(hào)詞時(shí),將多個(gè)行業(yè)特點(diǎn)詞中第一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,所述行業(yè)特點(diǎn)詞為行業(yè)特點(diǎn)要素對(duì)應(yīng)的分詞;或在所述待搜索商戶名稱中存在多個(gè)連續(xù)的字號(hào)詞時(shí),將所述多個(gè)連續(xù)的字號(hào)詞進(jìn)行合并為一個(gè)字號(hào)詞。相應(yīng)地,本發(fā)明實(shí)施例還提供了一種商戶名稱搜索裝置,包括:分詞模塊,用于對(duì)待搜索商戶名稱進(jìn)行分詞;處理模塊,用于針對(duì)每個(gè)分詞,根據(jù)所述分詞的詞義確定所述分詞作為各要素的詞義概率;根據(jù)所述分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率確定所述分詞的要素屬性;匹配模塊,用于根據(jù)各分詞的要素屬性,從搜索庫(kù)中查找所述待搜索商戶名稱的匹配商戶名稱,所述匹配商戶名稱與所述待搜索商戶名稱的相似度大于設(shè)定閾值??蛇x地,所述處理模塊具體用于:針對(duì)所述待搜索商戶名稱中的第一個(gè)分詞,確定所述第一個(gè)分詞作為各要素的詞義概率;根據(jù)所述第一個(gè)分詞作為各要素的詞義概率和所述各要素作為商戶名稱中第一個(gè)詞的位置概率,確定所述第一個(gè)分詞的要素屬性;針對(duì)所述待搜索商戶名稱中的第i個(gè)分詞,確定所述第i個(gè)分詞作為各要素的詞義概率;根據(jù)各要素之間的狀態(tài)轉(zhuǎn)移概率和第i-1個(gè)分詞的要素屬性,確定所述各要素作為商戶名稱中第i個(gè)詞的位置概率;根據(jù)所述第i個(gè)分詞作為各要素的詞義概率和所述各要素作為商戶名稱中第i個(gè)詞的位置概率,確定所述第i個(gè)分詞的要素屬性,i大于等于2。可選地,所述處理模塊具體用于:根據(jù)下述公式(1)確定所述分詞的要素屬性:y=argmax(p(xn=j(luò))*pj)………………………………………(1)其中,y為分詞的要素屬性,pj為各要素在商戶名稱中的位置概率,p(xn=j(luò))為分詞作為各要素的詞義概率,xn為商戶名稱中第n個(gè)分詞,j表示各要素??蛇x地,所述匹配模塊具體用于:針對(duì)所述搜索庫(kù)中任意一個(gè)比對(duì)商戶名稱,按照要素比對(duì)的方式,確定所述待搜索商戶名稱和所述比對(duì)商戶名稱的各要素的相似度;按照預(yù)設(shè)的要素優(yōu)先級(jí)依次判斷所述各要素的相似度是否大于相似度閾值;將滿足所述各要素相似度均大于所述相似度閾值的比對(duì)商戶名稱確定為相似商戶名稱;根據(jù)各要素的相似度及各要素權(quán)重確定各相似商戶名稱與所述待搜索商戶名稱的相似度;將相似度大于所述設(shè)定閾值的相似商戶名稱確定為所述待搜索商戶名稱的匹配商戶名稱。可選地,所述匹配模塊具體用于:若相似度大于所述設(shè)定閾值的相似商戶名稱有多個(gè),則根據(jù)所述要素優(yōu)先級(jí),將所述多個(gè)相似商戶名稱中同一要素的相似度最高的相似商戶名稱確定為所述待搜索商戶名稱的匹配商戶名稱??蛇x地,所述處理模塊還用于:所述根據(jù)所述分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率確定所述分詞的要素屬性之后,從搜索庫(kù)中查找所述待搜索商戶名稱的匹配商戶名稱之前,還包括:根據(jù)預(yù)設(shè)規(guī)則調(diào)整所述待搜索商戶名稱中各分詞的要素屬性??蛇x地,所述處理模塊具體用于:所述要素屬性包括行政區(qū)劃要素、字號(hào)要素、行業(yè)特點(diǎn)要素;在連續(xù)的行政區(qū)劃詞之間沒(méi)有層級(jí)關(guān)系時(shí),將所述連續(xù)的行政區(qū)劃詞中最后一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,所述行政區(qū)劃詞為行政區(qū)劃要素對(duì)應(yīng)的分詞;或在所述待搜索商戶名稱中沒(méi)有字號(hào)詞時(shí),將多個(gè)行政區(qū)劃詞中最后一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,所述字號(hào)詞為字號(hào)要素對(duì)應(yīng)的分詞;或在所述待搜索商戶名稱中沒(méi)有行政區(qū)劃詞和字號(hào)詞時(shí),將多個(gè)行業(yè)特點(diǎn)詞中第一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,所述行業(yè)特點(diǎn)詞為行業(yè)特點(diǎn)要素對(duì)應(yīng)的分詞;或在所述待搜索商戶名稱中存在多個(gè)連續(xù)的字號(hào)詞時(shí),將所述多個(gè)連續(xù)的字號(hào)詞進(jìn)行合并為一個(gè)字號(hào)詞。本發(fā)明實(shí)施例表明,對(duì)待搜索商戶名稱進(jìn)行分詞,然后針對(duì)每個(gè)分詞,根據(jù)所述分詞的詞義確定所述分詞作為各要素的詞義概率。根據(jù)所述分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率確定所述分詞的要素屬性。最后根據(jù)各分詞的要素屬性,從搜索庫(kù)中查找所述待搜索商戶名稱的匹配商戶名稱,所述匹配商戶名稱與所述待搜索商戶名稱的相似度大于設(shè)定閾值。本發(fā)明實(shí)施例中對(duì)待搜索商戶名稱進(jìn)行分詞后,根據(jù)各分詞的詞義和位置確定各分詞的要素屬性,然后根據(jù)各分詞的要素屬性查找與待搜索商戶名稱匹配的商戶名稱,相比傳統(tǒng)的關(guān)鍵字搜索匹配算法,基于要素查收的方法是根據(jù)要素屬性確定分詞的重要性,可以擺脫對(duì)詞頻或搜索頻率的依賴,從而有效解決了近似商戶名稱誤匹配的問(wèn)題。附圖說(shuō)明為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)要介紹。圖1為本發(fā)明實(shí)施例提供的一種商戶名稱搜索方法的流程示意圖;圖2為本發(fā)明實(shí)施例提供的一種商戶名稱匹配方法的流程示意圖;圖3為本發(fā)明實(shí)施例提供的另一種商戶名稱搜索方法的流程示意圖;圖4為本發(fā)明實(shí)施例提供的一種商戶名稱搜索裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案及有益效果更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。圖1例性示出了本發(fā)明實(shí)施例提供的一種商戶名稱搜索方法的流程,該流程可以由商戶名稱搜索裝置執(zhí)行。如圖1所示,該流程的具體步驟包括:步驟s101,對(duì)待搜索商戶名稱進(jìn)行分詞。步驟s102,針對(duì)每個(gè)分詞,根據(jù)分詞的詞義確定分詞作為各要素的詞義概率。步驟s103,根據(jù)分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率確定分詞的要素屬性。步驟s104,根據(jù)各分詞的要素屬性從搜索庫(kù)中查找待搜索商戶名稱的匹配商戶名稱。具體地,在步驟s101中,按照現(xiàn)有技術(shù)中的任意分詞方法對(duì)待搜索商戶名稱進(jìn)行分詞,將待搜索商戶名稱分割為若干個(gè)單詞后形成分詞隊(duì)列,比如對(duì)待搜索商戶名稱“山東新東方英語(yǔ)培訓(xùn)學(xué)校”進(jìn)行分詞后得到的隊(duì)列為“山東、新東方、英語(yǔ)、培訓(xùn)、學(xué)?!保热鐚?duì)待搜索商戶名稱“天津盛和食品有限公司”進(jìn)行分詞后得到的隊(duì)列為“天津、盛、和、食品、有限公司”。在步驟s102中,通過(guò)分析搜索庫(kù)中各商戶名稱的結(jié)構(gòu)特點(diǎn)及分詞的詞義特點(diǎn)確定商戶名稱所包含的要素,商戶名稱中各分詞依據(jù)詞義的不同,作為各要素的詞義概率也不一樣。詞義概率可根據(jù)分詞的詞義與各要素的匹配程度確定,比如“山東新東方英語(yǔ)培訓(xùn)學(xué)?!边M(jìn)行分詞后得到的“山東、新東方、英語(yǔ)、培訓(xùn)、學(xué)?!标?duì)列中,根據(jù)詞義可初步判定“山東”為地區(qū)性詞語(yǔ),那么“山東”作為行政區(qū)劃要素的詞義概率大。根據(jù)詞義“英語(yǔ)”屬于一個(gè)標(biāo)識(shí)行業(yè)的詞語(yǔ),那么“英語(yǔ)”作為行業(yè)特點(diǎn)要素的詞義概率大。根據(jù)詞義“新東方”為一個(gè)品牌名稱,故“新東方”作為品牌要素的詞義概率大。在步驟s103中,位置概率為要素位于商戶名稱中各個(gè)位置的概率,根據(jù)商戶名稱的結(jié)構(gòu)以及搜索庫(kù)中各商戶名稱的要素分布確定各要素的位置概率。在確定分詞的要素屬性時(shí),首先需確定該分詞作為各要素的詞義概率和各要素在商戶名稱中的位置概率。然后針對(duì)同一要素,比如第一要素,根據(jù)該分詞作為第一要素的詞義概率和第一要素在該分詞位于商戶名稱中的位置概率確定第一要素的比重概率。比如以“山東”這個(gè)分詞及行政區(qū)劃要素為例,確定“山東”作為行政區(qū)劃要素的詞義概率;確定行政區(qū)劃要素位于商戶名稱第一位置(“山東”在商戶名稱“山東新東方英語(yǔ)培訓(xùn)學(xué)?!敝形挥诘谝晃恢?的位置概率;然后根據(jù)作為行政區(qū)劃要素的詞義概率及行政區(qū)劃要素位于商戶名稱第一位置的位置概率,確定“山東”作為行政區(qū)劃要素的比重概率,基于同樣的方法可以確定“山東”作為其他要素的比重概率,最后通過(guò)比較各要素的比重概率確定該分詞的要素屬性。本發(fā)明實(shí)施例中對(duì)待搜索商戶名稱進(jìn)行分詞后,根據(jù)各分詞的詞義和位置確定各分詞的要素屬性,然后根據(jù)各分詞的要素屬性查找與待搜索商戶名稱匹配的商戶名稱,相比傳統(tǒng)的關(guān)鍵字搜索匹配算法,基于要素查收的方法是根據(jù)要素屬性確定分詞的重要性,可以擺脫對(duì)詞頻或搜索頻率的依賴,從而有效解決了近似商戶名稱誤匹配的問(wèn)題。下面結(jié)合具體實(shí)施場(chǎng)景介紹確定分詞的要素屬性的方法。首先需要確定分詞作為各要素的詞義概率和各要素在商戶名稱中的位置概率,其中各要素的位置概率可以直接通過(guò)統(tǒng)計(jì)得到,也可以通過(guò)統(tǒng)計(jì)并結(jié)合要素位置之間的聯(lián)系得到。直接通過(guò)統(tǒng)計(jì)確定各要素的位置概率的方法具體為:由于商戶名稱有一定的結(jié)構(gòu)特征,通過(guò)統(tǒng)計(jì)多個(gè)商戶名稱中要素的位置分布,可以得出各要素位于商戶名稱中各個(gè)位置的概率。下面具體舉例說(shuō)明:商戶名稱中一般包括表示地區(qū)的詞,表示地區(qū)的詞根據(jù)詞義可劃分為行政區(qū)劃要素。比如“山東新東方英語(yǔ)培訓(xùn)學(xué)?!敝械摹吧綎|”,“天津盛和食品有限公司”中的“天津”。通過(guò)統(tǒng)計(jì)可以確定“山東”、“天津”這一類表示地區(qū)的詞位于商戶名稱中各個(gè)位置的概率,進(jìn)一步可將這一類詞位于商戶名稱中各個(gè)位置的概率確定為行政區(qū)劃要素在商戶名稱中的位置概率。采用同樣的方法可以確定出其它要素在商戶名稱中的位置概率。由于商戶名稱中各要素的位置之間存在聯(lián)系,只統(tǒng)計(jì)搜索庫(kù)中商戶名稱的要素位置分布得到的位置概率可能存在誤差。因此本發(fā)明實(shí)施例中還提供了另一種確定位置概率的方法,并根據(jù)該方法求出的位置概率確定分詞的要素屬性,具體為:首先確定待搜索商戶名稱中第一個(gè)分詞的要素屬性,具體為:確定第一個(gè)分詞作為各要素的詞義概率,然后根據(jù)第一個(gè)分詞作為各要素的詞義概率和各要素作為商戶名稱中第一個(gè)詞的位置概率確定第一個(gè)分詞的要素屬性。下面以具體實(shí)施例介紹確定第一個(gè)分詞的要素屬性的過(guò)程,設(shè)定待搜索商戶名稱為“山東新東方英語(yǔ)培訓(xùn)學(xué)校”,分詞后待搜索商戶名稱的第一個(gè)分詞為“山東”,通過(guò)統(tǒng)計(jì)確定的“山東”作為各要素的詞義概率和各要素作為商戶名稱中第一個(gè)詞的位置概率如表1所示,設(shè)定要素包括:行政區(qū)劃要素、字號(hào)要素、行業(yè)特點(diǎn)要素和組織形式要素:表1“山東”的詞義概率和各要素的位置概率表行政區(qū)劃要素字號(hào)要素行業(yè)特點(diǎn)要素組織形式要素詞義概率0.90.050.020.03位置概率0.70.20.10針對(duì)同一要素,比如行政區(qū)劃要素,根據(jù)該“山東”作為行政區(qū)劃要素的詞義概率和行政區(qū)劃要素在商戶名稱中的位置概率確定行政區(qū)劃要素的比重概率,具體求比重概率的方法可以是將詞義概率和位置概率加權(quán)求和,也可以將詞義概率和位置概率直接相乘,具體方法不做限定。基于同樣的方法可以確定字號(hào)要素、行業(yè)特點(diǎn)要素、組織形式要素的比重概率,最后通過(guò)比較各要素的比重概率確定該分詞的要素屬性。下面以根據(jù)詞義概率和位置概率直接相乘確定比重概率的方法為例說(shuō)明:根據(jù)下述公式(2)計(jì)算各要素的比重概率:p(j)=p(x1=j(luò))*pj………………………………………(2)其中p(j)為要素j的比重概率,pj為要素j在商戶名稱中的位置概率,p(x1=j(luò))為第一個(gè)分詞作為要素j的詞義概率,x1為商戶名稱中第一個(gè)分詞,j表示各要素。根據(jù)表1以及公式(2)可以得出行政區(qū)劃要素的比重概率p=0.9×0.7=0.63;字號(hào)要素的比重概率p=0.05×0.2=0.01;行業(yè)特點(diǎn)要素的比重概率p=0.02×0.1=0.02;組織形式要素的比重概率p=0.03×0=0。進(jìn)一步地,將要素的比重概率最大的要素作為“山東”的要素屬性,通過(guò)比較可確定行政區(qū)劃要素的比重概率最大,………………………………………(故可確定“山東”的要素屬性為行政區(qū)劃要素。由于待搜索商戶名稱中每個(gè)分詞的要素屬性與該分詞前一個(gè)分詞的要素屬性有關(guān),故在確定除第一個(gè)分詞之外其他分詞的要素屬性時(shí),采取的方法與確定第一分詞的要素屬性的方法不同,具體為:首先確定第i個(gè)分詞作為各要素的詞義概率,然后根據(jù)各要素之間的狀態(tài)轉(zhuǎn)移概率和第i-1個(gè)分詞的要素屬性確定各要素作為商戶名稱中第i個(gè)詞的位置概率。最后根據(jù)第i個(gè)分詞作為各要素的詞義概率和各要素作為商戶名稱中第i個(gè)詞的位置概率確定第i個(gè)分詞的要素屬性,i大于等于2。下面以具體實(shí)施例介紹確定第i個(gè)分詞的要素屬性的過(guò)程,以“山東新東方英語(yǔ)培訓(xùn)學(xué)?!敝小吧綎|”后一個(gè)詞“新東方”為例,其他的分詞可采用相同的方法。已知第一個(gè)分詞“山東”的要素屬性為行政區(qū)劃要素,設(shè)定各要素之間的狀態(tài)轉(zhuǎn)移概率如表2所示:表2各要素之間的狀態(tài)轉(zhuǎn)移概率表行政區(qū)劃要素字號(hào)要素行業(yè)特點(diǎn)要素組織形式要素行政區(qū)劃要素0.30.20.20字號(hào)要素0.600.10行業(yè)特點(diǎn)要素0.10.70.30組織形式要素00.10.51以行政區(qū)劃要素為起點(diǎn)查詢表2可知,行政區(qū)劃要素轉(zhuǎn)移到行政區(qū)劃要素的狀態(tài)轉(zhuǎn)移概率為0.3、行政區(qū)劃要素轉(zhuǎn)移到字號(hào)要素的狀態(tài)轉(zhuǎn)移概率為0.6、行政區(qū)劃要素轉(zhuǎn)移到行業(yè)特點(diǎn)要素的狀態(tài)轉(zhuǎn)移概率為0.1、行政區(qū)劃要素轉(zhuǎn)移到組織形式要素的狀態(tài)轉(zhuǎn)移概率為0。上述查詢的結(jié)果即為各要素作為商戶名稱中“山東”后一個(gè)詞的位置概率。通過(guò)統(tǒng)計(jì)確定的“新東方”作為各要素的詞義概率和查表得到的各要素作為商戶名稱中“山東”后一個(gè)詞的位置概率如表3所示:表3“新東方”的詞義概率和各要素的位置概率表行政區(qū)劃要素字號(hào)要素行業(yè)特點(diǎn)要素組織形式要素詞義概率00.80.10.1位置概率0.30.60.10根據(jù)公式(2)計(jì)算并比較后可以得出,“新東方”作為字號(hào)要素的詞義概率和字號(hào)要素作為商戶名稱中“山東”后一個(gè)詞的位置概率的乘積最大,故可確定“新東方”的要素屬性為字號(hào)要素。根據(jù)相同的方法可以依次確定出待搜索商戶名稱“山東新東方英語(yǔ)培訓(xùn)學(xué)校”中其它分詞的要素屬性。由于在確定各分詞的要素屬性時(shí),不僅考慮了各分詞的詞義概率,還綜合各要素在分詞中的位置以及各要素位置之間的聯(lián)系確定位置概率,根據(jù)詞義概率和位置概率確定各分詞的要素屬性,從而提高了要素提取的準(zhǔn)確性。本發(fā)明實(shí)施例中在確定各個(gè)分詞的要素屬性之后,根據(jù)預(yù)設(shè)規(guī)則調(diào)整待搜索商戶名稱中各分詞的要素屬性,具體包括以下幾種情況:情況一、在連續(xù)的行政區(qū)劃詞之間沒(méi)有層級(jí)關(guān)系時(shí),將連續(xù)的行政區(qū)劃詞中最后一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,其中行政區(qū)劃詞為行政區(qū)劃要素對(duì)應(yīng)的分詞。例如確定待搜索商戶名稱“天津盛和食品有限公司”中各分詞的要素屬性后得到連續(xù)的兩個(gè)行政區(qū)劃詞,分別為“天津”和“盛”,通過(guò)檢查確定了“天津”和“盛”之間層級(jí)關(guān)系,則將分詞“盛”的要素屬性調(diào)整為字號(hào)要素。情況二、在待搜索商戶名稱中沒(méi)有字號(hào)詞時(shí),將多個(gè)行政區(qū)劃詞中最后一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,字號(hào)詞為字號(hào)要素對(duì)應(yīng)的分詞。例如確定待搜索商戶名稱“天津盛和食品有限公司”中各分詞的要素屬性后得到多個(gè)行政區(qū)劃詞,分別為“天津”和“盛和”,通過(guò)檢查確定沒(méi)有字號(hào)詞,則將分詞“盛和”的要素屬性調(diào)整為字號(hào)要素。情況三、在待搜索商戶名稱中沒(méi)有行政區(qū)劃詞和字號(hào)詞時(shí),將多個(gè)行業(yè)特點(diǎn)詞中第一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,行業(yè)特點(diǎn)詞為行業(yè)特點(diǎn)要素對(duì)應(yīng)的分詞。例如確定待搜索商戶名稱“新東方英語(yǔ)培訓(xùn)學(xué)校”中各分詞的要素屬性后得到多個(gè)行業(yè)特點(diǎn)詞,分別為“新東方”、“英語(yǔ)”和“培訓(xùn)”,通過(guò)檢查確定沒(méi)有行政區(qū)劃詞和字號(hào)詞時(shí),則將分詞“新東方”的要素屬性調(diào)整為字號(hào)要素。情況四、在待搜索商戶名稱中存在多個(gè)連續(xù)的字號(hào)詞時(shí),將多個(gè)連續(xù)的字號(hào)詞進(jìn)行合并為一個(gè)字號(hào)詞。例如確定待搜索商戶名稱“天津盛和食品有限公司”中各分詞的要素屬性后得到連續(xù)的兩個(gè)字號(hào)詞,分別為“盛”和“和”,則將分詞“盛”和“和”合并為“盛和”作為一個(gè)字號(hào)詞。本發(fā)明實(shí)施例中,根據(jù)各個(gè)分詞的要素屬性的分布情況對(duì)分詞的要素屬性進(jìn)行適應(yīng)性調(diào)整,提高了分詞與要素之間的匹配程度。另外存在多個(gè)字號(hào)詞時(shí)將多個(gè)字號(hào)詞進(jìn)行合并也解決了傳統(tǒng)方法中要素切分過(guò)細(xì)帶來(lái)的匹配精度低的問(wèn)題。在調(diào)整好待搜索商戶名稱中各分詞的要素屬性之后,根據(jù)各分詞的要素屬性從搜索庫(kù)中查找待搜索商戶名稱的匹配商戶名稱具體包括以下步驟,如圖2所示:步驟s201,按照要素比對(duì)的方式確定待搜索商戶名稱和比對(duì)商戶名稱的各要素的相似度。步驟s202,按照預(yù)設(shè)的要素優(yōu)先級(jí)依次判斷所各要素的相似度是否大于相似度閾值。步驟s203,將滿足各要素相似度均大于相似度閾值的比對(duì)商戶名稱確定為相似商戶名稱。步驟s204,根據(jù)各要素的相似度及各要素權(quán)重確定各相似商戶名稱與待搜索商戶名稱的相似度。步驟s205,將相似度大于設(shè)定閾值的相似商戶名稱確定為待搜索商戶名稱的匹配商戶名稱。具體地,在步驟s201中,要素的相似度為待搜索商戶名稱和比對(duì)商戶名稱中分詞交集的長(zhǎng)度,比如待搜索商戶名稱中行業(yè)特點(diǎn)詞為“英語(yǔ)”和“培訓(xùn)”,比對(duì)商戶名稱中對(duì)應(yīng)的行業(yè)特點(diǎn)詞為“廚師”和“培訓(xùn)”,交集的詞為“培訓(xùn)”,交集長(zhǎng)度為1,則待搜索商戶名稱和比對(duì)商戶名稱中行業(yè)特點(diǎn)要素的相似度為1。同理可以得出其它要素的相似度。在步驟s202和步驟s203中,要素優(yōu)先級(jí)可根據(jù)具體情況設(shè)定,比如按照優(yōu)先級(jí)從高到低的順序分別為:字號(hào)要素、行業(yè)特點(diǎn)要素、行政區(qū)劃要素。按照預(yù)設(shè)的要素優(yōu)先級(jí)依次判斷各要素的相似度是否大于相似度閾值。比如設(shè)定相似度閾值為要素詞的一半,首先判斷字號(hào)要素的相似度是否大于字號(hào)詞的一半;若是,則繼續(xù)判斷行業(yè)要素的相似度是否大于行業(yè)特點(diǎn)詞的一半;若是,則繼續(xù)判讀行政區(qū)劃要素的相似度是否大于行政區(qū)劃詞的一半;若是,則將比對(duì)商戶名稱確定為相似商戶名稱,否則終止匹配。在步驟s204中,要素的權(quán)重根據(jù)要素的優(yōu)先級(jí)確定,比如字號(hào)要素優(yōu)先級(jí)最高,對(duì)應(yīng)權(quán)重也就越大,行政區(qū)劃要素優(yōu)先級(jí)最低,對(duì)應(yīng)的權(quán)重也就越小。根據(jù)各要素的相似度及各要素權(quán)重確定各相似商戶名稱與待搜索商戶名稱的相似度符合下述公式(3):相似度=字號(hào)要素的相似度*a1+行業(yè)特點(diǎn)要素的相似度*a2+行政區(qū)劃要素的相似度*a3………………………………………(3)其中a1為字號(hào)要素的權(quán)重,a2為行業(yè)特點(diǎn)要素的權(quán)重,a3為行政區(qū)劃要素的相似度。在步驟s205中,若相似度大于設(shè)定閾值的相似商戶名稱有多個(gè),則根據(jù)要素優(yōu)先級(jí)將多個(gè)相似商戶名稱中同一要素的相似度最高的相似商戶名稱確定為待搜索商戶名稱的匹配商戶名稱。具體為:根據(jù)相似度的大小將多個(gè)相似商戶名稱進(jìn)行排序,在確定多個(gè)相似度最大的相似商戶名稱時(shí),則需進(jìn)一步排序,包括以下兩種方法:方法一、根據(jù)要素的優(yōu)先級(jí)對(duì)多個(gè)相似度最大的相似商戶名稱進(jìn)一步進(jìn)行排序,比如首先根據(jù)字號(hào)要素的相似度進(jìn)行排序,若還是存在多個(gè)字號(hào)要素的相似度最大的相似商戶名稱時(shí),根據(jù)行業(yè)特點(diǎn)要素的相似度對(duì)多個(gè)字號(hào)要素的相似度最大的相似商戶名稱進(jìn)行排序,如果還不能確定一個(gè)相似的商戶名稱,則進(jìn)一步按照行政區(qū)劃要素的相似度進(jìn)行排序,最后同一要素的相似度最高的相似商戶名稱確定為待搜索商戶名稱的匹配商戶名稱。方法二、計(jì)算要素輔助的權(quán)重,要素的輔助權(quán)重為交集長(zhǎng)度與要素詞長(zhǎng)度的比值,比如待搜索商戶名稱中行業(yè)特點(diǎn)詞為“英語(yǔ)”和“培訓(xùn)”,比對(duì)商戶名稱中對(duì)應(yīng)的行業(yè)特點(diǎn)詞為“廚師”和“培訓(xùn)”,交集的詞為“培訓(xùn)”,交集長(zhǎng)度為1,行業(yè)特點(diǎn)詞長(zhǎng)度為2,則行業(yè)特點(diǎn)要素的輔助權(quán)重為0.5,依次計(jì)算其他要素的輔助權(quán)重之后,根據(jù)要素優(yōu)先級(jí)將多個(gè)相似度最大的商戶名稱中同一要素的輔助權(quán)重最高的相似商戶名稱確定為待搜索商戶名稱的匹配商戶名稱。確定出匹配商戶名稱后,可以將確定的一個(gè)或多個(gè)匹配商戶名稱輸出,也可以將相似商戶名稱按照相似度和要素相似度或要素輔助權(quán)重排序后輸出。本發(fā)明實(shí)施例中,根據(jù)商戶名稱固有的結(jié)構(gòu)特征提取要素,然后根據(jù)各要素對(duì)搜索商戶名稱的重要程度設(shè)置要素權(quán)重,故擺脫了對(duì)詞頻和搜索頻率的依賴,從而有效地解決了近似行業(yè)誤匹配的問(wèn)題。為了更好的解釋本發(fā)明實(shí)施例,下面通過(guò)具體的實(shí)施場(chǎng)景描述本發(fā)明實(shí)施例提供的一種商戶名稱搜索方法的流程。如圖3所示,用戶輸入待搜索商戶名稱后,對(duì)待搜索商戶名稱進(jìn)行搜索與匹配的過(guò)程分為兩個(gè)階段:階段一、對(duì)待搜索商戶名稱進(jìn)行要素提取,具體為:對(duì)待搜索商戶名稱進(jìn)行分詞和初步要素提取,確定各個(gè)分詞的要素屬性后,按照預(yù)設(shè)規(guī)則對(duì)各分詞的要素屬性進(jìn)行調(diào)整,例如字號(hào)詞合并以及行政區(qū)劃層級(jí)調(diào)整等。調(diào)整各分詞的要素屬性后確定待搜索商戶名稱包含的要素詞,具體包括以下幾種要素詞:行政區(qū)劃詞、字號(hào)詞、行業(yè)特點(diǎn)詞和組織形式詞。階段二、對(duì)提取要素后的待搜索商戶名稱進(jìn)行要素匹配,具體為:首先將待搜索商戶名稱中的字號(hào)詞與搜索庫(kù)中任意一個(gè)商戶名稱的字號(hào)詞進(jìn)行字號(hào)匹配,若待搜索商戶名稱中的字號(hào)詞與搜索庫(kù)中商戶名稱的字號(hào)詞的相似度滿足閾值,則基于同樣的方法進(jìn)行行業(yè)特點(diǎn)匹配;若行業(yè)特點(diǎn)匹配成功,則進(jìn)一步進(jìn)行行政區(qū)劃匹配;若行政區(qū)劃匹配成功,說(shuō)明搜索庫(kù)中該商戶名稱與待搜索商戶名稱匹配成功,否則匹配失敗?;谏鲜鐾瑯拥姆椒▽⒋阉魃虘裘Q與搜索庫(kù)中所有的商戶名稱進(jìn)行匹配后確定出搜索庫(kù)中所有匹配成功的商戶名稱。若搜索庫(kù)中沒(méi)有匹配成功的商戶名稱,則將滿足字號(hào)匹配和行業(yè)特點(diǎn)匹配的商戶名稱作為匹配成功的商戶名稱。若搜索庫(kù)中存在多個(gè)匹配成功的商戶名稱,則根據(jù)要素相似度和要素權(quán)重計(jì)算待搜索商戶名稱和搜索庫(kù)中商戶名稱之間的相似度,根據(jù)商戶名稱之間的相似度進(jìn)行排序后輸出搜索庫(kù)中多個(gè)匹配成功的商戶名稱。若商戶名稱之間的相似度相同時(shí),則將相似度相同的商戶名稱按照要素相似度進(jìn)一步排序后輸出。本發(fā)明實(shí)施例表明,對(duì)待搜索商戶名稱進(jìn)行分詞,然后針對(duì)每個(gè)分詞,根據(jù)所述分詞的詞義確定所述分詞作為各要素的詞義概率。根據(jù)所述分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率確定所述分詞的要素屬性。最后根據(jù)各分詞的要素屬性,從搜索庫(kù)中查找所述待搜索商戶名稱的匹配商戶名稱,所述匹配商戶名稱與所述待搜索商戶名稱的相似度大于設(shè)定閾值。本發(fā)明實(shí)施例中對(duì)待搜索商戶名稱進(jìn)行分詞后,根據(jù)各分詞的詞義和位置確定各分詞的要素屬性,然后根據(jù)各分詞的要素屬性查找與待搜索商戶名稱匹配的商戶名稱,相比傳統(tǒng)的關(guān)鍵字搜索匹配算法,基于要素查收的方法是根據(jù)要素屬性確定分詞的重要性,可以擺脫對(duì)詞頻或搜索頻率的依賴,從而有效解決了近似商戶名稱誤匹配的問(wèn)題?;谙嗤瑯?gòu)思,圖4示例性的示出了本發(fā)明實(shí)施例提供的一種商戶名稱搜索裝置的結(jié)構(gòu),該裝置可以執(zhí)行商戶名稱搜索的流程。如圖4所示,該裝置包括:分詞模塊401,用于對(duì)待搜索商戶名稱進(jìn)行分詞;處理模塊402,用于針對(duì)每個(gè)分詞,根據(jù)所述分詞的詞義確定所述分詞作為各要素的詞義概率;根據(jù)所述分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率確定所述分詞的要素屬性;匹配模塊403,用于根據(jù)各分詞的要素屬性,從搜索庫(kù)中查找所述待搜索商戶名稱的匹配商戶名稱,所述匹配商戶名稱與所述待搜索商戶名稱的相似度大于設(shè)定閾值??蛇x地,所述處理模塊402具體用于:針對(duì)所述待搜索商戶名稱中的第一個(gè)分詞,確定所述第一個(gè)分詞作為各要素的詞義概率;根據(jù)所述第一個(gè)分詞作為各要素的詞義概率和所述各要素作為商戶名稱中第一個(gè)詞的位置概率,確定所述第一個(gè)分詞的要素屬性;針對(duì)所述待搜索商戶名稱中的第i個(gè)分詞,確定所述第i個(gè)分詞作為各要素的詞義概率;根據(jù)各要素之間的狀態(tài)轉(zhuǎn)移概率和第i-1個(gè)分詞的要素屬性,確定所述各要素作為商戶名稱中第i個(gè)詞的位置概率;根據(jù)所述第i個(gè)分詞作為各要素的詞義概率和所述各要素作為商戶名稱中第i個(gè)詞的位置概率,確定所述第i個(gè)分詞的要素屬性,i大于等于2??蛇x地,所述處理模塊402具體用于:根據(jù)下述公式(1)確定所述分詞的要素屬性:y=argmax(p(xn=j(luò))*pj)………………………………………(1)其中,y為分詞的要素屬性,pj為各要素在商戶名稱中的位置概率,p(xn=j(luò))為分詞作為各要素的詞義概率,xn為商戶名稱中第n個(gè)分詞,j表示各要素??蛇x地,所述匹配模塊403具體用于:針對(duì)所述搜索庫(kù)中任意一個(gè)比對(duì)商戶名稱,按照要素比對(duì)的方式,確定所述待搜索商戶名稱和所述比對(duì)商戶名稱的各要素的相似度;按照預(yù)設(shè)的要素優(yōu)先級(jí)依次判斷所述各要素的相似度是否大于相似度閾值;將滿足所述各要素相似度均大于所述相似度閾值的比對(duì)商戶名稱確定為相似商戶名稱;根據(jù)各要素的相似度及各要素權(quán)重確定各相似商戶名稱與所述待搜索商戶名稱的相似度;將相似度大于所述設(shè)定閾值的相似商戶名稱確定為所述待搜索商戶名稱的匹配商戶名稱??蛇x地,所述匹配模塊403具體用于:若相似度大于所述設(shè)定閾值的相似商戶名稱有多個(gè),則根據(jù)所述要素優(yōu)先級(jí),將所述多個(gè)相似商戶名稱中同一要素的相似度最高的相似商戶名稱確定為所述待搜索商戶名稱的匹配商戶名稱??蛇x地,所述處理模塊402還用于:所述根據(jù)所述分詞作為各要素的詞義概率及各要素在商戶名稱中的位置概率確定所述分詞的要素屬性之后,從搜索庫(kù)中查找所述待搜索商戶名稱的匹配商戶名稱之前,還包括:根據(jù)預(yù)設(shè)規(guī)則調(diào)整所述待搜索商戶名稱中各分詞的要素屬性??蛇x地,所述處理模塊402具體用于:所述要素屬性包括行政區(qū)劃要素、字號(hào)要素、行業(yè)特點(diǎn)要素;在連續(xù)的行政區(qū)劃詞之間沒(méi)有層級(jí)關(guān)系時(shí),將所述連續(xù)的行政區(qū)劃詞中最后一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,所述行政區(qū)劃詞為行政區(qū)劃要素對(duì)應(yīng)的分詞;或在所述待搜索商戶名稱中沒(méi)有字號(hào)詞時(shí),將多個(gè)行政區(qū)劃詞中最后一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,所述字號(hào)詞為字號(hào)要素對(duì)應(yīng)的分詞;或在所述待搜索商戶名稱中沒(méi)有行政區(qū)劃詞和字號(hào)詞時(shí),將多個(gè)行業(yè)特點(diǎn)詞中第一個(gè)分詞的要素屬性調(diào)整為字號(hào)要素,所述行業(yè)特點(diǎn)詞為行業(yè)特點(diǎn)要素對(duì)應(yīng)的分詞;或在所述待搜索商戶名稱中存在多個(gè)連續(xù)的字號(hào)詞時(shí),將所述多個(gè)連續(xù)的字號(hào)詞進(jìn)行合并為一個(gè)字號(hào)詞。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。當(dāng)前第1頁(yè)12
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1