一種解析組織機(jī)構(gòu)名的方法和裝置的制造方法
【專利說明】
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種解析組織機(jī)構(gòu)名的方法和裝置。【【背景技術(shù)】】
[0002]隨著大數(shù)據(jù)時代的來臨,越來越多的企業(yè)面臨海量數(shù)據(jù)的利用,其中對于諸如電子商務(wù)、物流等類型企業(yè)累積了大量的組織機(jī)構(gòu)庫資源,但組織機(jī)構(gòu)庫中存在的海量數(shù)據(jù)因其來源的不同往往存在對同一組織機(jī)構(gòu)名的不同表達(dá),這就需要對組織機(jī)構(gòu)名進(jìn)行判重的處理,或者組織機(jī)構(gòu)庫中存在大量錯誤的組織機(jī)構(gòu)名,這就需要對組織機(jī)構(gòu)名進(jìn)行錯誤識別的處理,等等。但無論在對組織機(jī)構(gòu)名進(jìn)行判重和錯誤識別等處理,都需要對組織機(jī)構(gòu)名進(jìn)行拆分,拆分為地區(qū)部分和機(jī)構(gòu)名部分。
【
【發(fā)明內(nèi)容】
】
[0003]有鑒于此,本發(fā)明提供了一種解析組織機(jī)構(gòu)名的方法和裝置,以便于自動將組織機(jī)構(gòu)名拆分為地區(qū)部分和機(jī)構(gòu)名部分。
[0004]具體技術(shù)方案如下:
[0005]本發(fā)明提供了一種解析組織機(jī)構(gòu)名的方法,針對組織機(jī)構(gòu)名執(zhí)行:
[0006]S1、提取前NI個字符,所述NI為預(yù)設(shè)的正整數(shù);
[0007]S2、將當(dāng)前提取的字符與預(yù)先建立的地址MAP中的key進(jìn)行匹配,如果存在匹配的key,則執(zhí)行S3 ;如果不存在匹配的key,則執(zhí)行S4 ;
[0008]S3、記錄所述MAP中匹配到的key所對應(yīng)的value中的地區(qū)名稱,將該地區(qū)名稱從所述組織機(jī)構(gòu)名中刪除后,針對剩余的字符串轉(zhuǎn)至執(zhí)行所述SI ;
[0009]S4、將當(dāng)前已記錄的所述組織機(jī)構(gòu)名中的地區(qū)名稱構(gòu)成所述組織機(jī)構(gòu)名的地區(qū)部分,所述組織機(jī)構(gòu)名的其他部分作為機(jī)構(gòu)名部分;
[0010]其中,所述MAP中的key是從地址庫中地區(qū)名稱提取的前NI個字符,value包含對應(yīng)key所來源的地區(qū)名稱。
[0011]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,預(yù)先建立所述MAP的過程包括對地址庫中的各地區(qū)名稱分別執(zhí)行:
[0012]清除地區(qū)名稱中的地區(qū)公共關(guān)鍵詞;
[0013]提取剩余的字符的前NI個字符作為key,將該地區(qū)名稱包含在該key對應(yīng)的value 中 ο
[0014]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,預(yù)先建立所述MAP的過程包括對地址庫中的各地區(qū)名稱分別執(zhí)行:
[0015]清除地區(qū)名稱中的地區(qū)公共關(guān)鍵詞;
[0016]若該地區(qū)名稱中剩余的字符個數(shù)小于或等于所述NI,則直接將該剩余的字符作為key,將該地區(qū)名稱包含在該key對應(yīng)的value中;
[0017]若該地區(qū)名稱中剩余的字符個數(shù)大于所述NI,則提取該剩余的字符的前N2個字符作為key,將該地區(qū)名稱包含在該key對應(yīng)的value中,所述N2為預(yù)設(shè)的正整數(shù)且大于所述NI。
[0018]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,在所述SI中提取前NI個字符之前還包括:
[0019]提取前N2個字符,將當(dāng)前提取的字符與所述MAP中的key進(jìn)行匹配,如果存在匹配的key,則轉(zhuǎn)至執(zhí)行所述S3,如果不存在匹配的key,則繼續(xù)執(zhí)行所述提取前NI個字符。
[0020]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述NI為2,所述N2為3。
[0021]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,在所述S4中還包括:若所述地區(qū)部分中包含兩個以上的地區(qū)名稱,則按照記錄順序依次判斷相鄰兩個地區(qū)名稱是否符合正確的上下級關(guān)系,如果是,則確定所述地區(qū)部分正確。
[0022]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述MAP的value中還包含對應(yīng)key所來源的地區(qū)ID和上一級地區(qū)ID ;
[0023]所述按照記錄順序依次判斷相鄰兩個地區(qū)名稱是否符合正確的上下級關(guān)系包括:若所述相鄰兩個地區(qū)名稱中后記錄的地區(qū)名稱在value中的上一級地區(qū)ID與先記錄的地區(qū)名稱在value中的地區(qū)ID —致,則確定符合正確的上下級關(guān)系。
[0024]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,如果所述相鄰兩個地區(qū)名稱不符合正確的上下級關(guān)系,則若所述相鄰兩個地區(qū)名稱中后記錄的地區(qū)名稱不包含地區(qū)公共關(guān)鍵詞,則確定該后記錄的地區(qū)名稱不屬于地區(qū)部分,而屬于機(jī)構(gòu)名部分。
[0025]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,該方法進(jìn)一步包括:
[0026]將機(jī)構(gòu)名部分末尾的字符串與組織形式庫匹配,將匹配的字符串確定為組織形式部分,將機(jī)構(gòu)名部分中的其他字符串確定為商號經(jīng)營范圍部分。
[0027]本發(fā)明還提供了一種解析組織機(jī)構(gòu)名的裝置,該裝置包括:
[0028]提取單元,用于針對輸入的字符串提取前NI個字符,將所述NI個字符提供給匹配單元;所述NI為預(yù)設(shè)的正整數(shù),所述輸入的字符串初始為組織機(jī)構(gòu)名;
[0029]匹配單元,用于將所述提取單元提供的字符與預(yù)先建立的地址MAP中的key進(jìn)行匹配;
[0030]記錄單元,用于如果所述匹配單元匹配到key,則記錄所述MAP中匹配到的key所對應(yīng)的value中的地區(qū)名稱,將該地區(qū)名稱從所述組織機(jī)構(gòu)名中刪除后,將剩余的字符串輸入給所述提取單元;
[0031]確定單元,用于如果所述匹配單元未匹配到key,則將所述記錄單元當(dāng)前已記錄的所述組織機(jī)構(gòu)名中的地區(qū)名稱構(gòu)成所述組織機(jī)構(gòu)名的地區(qū)部分,所述組織機(jī)構(gòu)名的其他部分作為機(jī)構(gòu)名部分;
[0032]其中,所述MAP中的key是從地址庫中地區(qū)名稱提取的前NI個字符,value包含對應(yīng)key所來源的地區(qū)名稱。
[0033]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,該裝置還包括:第一 MAP建立單元,用于對地址庫中的各地區(qū)名稱分別執(zhí)行以下操作以建立所述MAP:
[0034]清除地區(qū)名稱中的地區(qū)公共關(guān)鍵詞;
[0035]提取剩余的字符的前NI個字符作為key,將該地區(qū)名稱包含在該key對應(yīng)的value 中 ο
[0036]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,該裝置還包括:第二 MAP建立單元,用于對地址庫中的各地區(qū)名稱分別執(zhí)行以下操作以建立所述MAP:
[0037]清除地區(qū)名稱中的地區(qū)公共關(guān)鍵詞;
[0038]若該地區(qū)名稱中剩余的字符個數(shù)小于或等于所述NI,則直接將該剩余的字符作為key,將該地區(qū)名稱包含在該key對應(yīng)的value中;
[0039]若該地區(qū)名稱中剩余的字符個數(shù)大于所述NI,則提取該剩余的字符的前N2個字符作為key,將該地區(qū)名稱包含在該key對應(yīng)的value中,所述N2為預(yù)設(shè)的正整數(shù)且大于所述NI。
[0040]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述提取單元具體包括:第一提取子單元、匹配子單元和第二提取子單元;
[0041]所述第一提取子單元,用于針對輸入的字符串提取前N2個字符,將所述N2個字符提供給所述匹配子單元,所述輸入的字符串初始為組織機(jī)構(gòu)名;
[0042]所述匹配子單元,用于將所述第一提取單元提供的字符與所述MAP中的key進(jìn)行匹配;
[0043]所述記錄單元,還用于如果所述匹配子單元匹配到key,則記錄所述MAP中匹配到的key所對應(yīng)的value中的地區(qū)名稱,將該地區(qū)名稱從所述組織機(jī)構(gòu)名中刪除后,將剩余的字符串輸入給所述第一提取子單元;
[0044]所述第二提取子單元,用于如果所述匹配子單元未匹配到key,則針對輸入所述第一提取子單元的字符串提取前NI個字符,將所述NI個字符提供給所述匹配單元。
[0045]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述NI為2,所述N2為3。
[0046]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,該裝置還包括:
[0047]正確性判斷單元,用于若所述地區(qū)部分中包含兩個以上的地區(qū)名稱,則按照記錄順序依次判斷相鄰兩個地區(qū)名稱是否符合正確的上下級關(guān)系,如果是,則確定所述地區(qū)部分正確。
[0048]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述MAP的value中還包含對應(yīng)key所來源的地區(qū)ID和上一級地區(qū)ID ;
[0049]所述正確性判斷單元在按照記錄順序依次判斷相鄰兩個地區(qū)名稱是否符合正確的上下級關(guān)系時,具體用于若所述相鄰兩個地區(qū)名稱中后記錄的地區(qū)名稱在value中的上一級地區(qū)ID與先記錄的地區(qū)名稱在value中的地區(qū)ID —致,則確定符合正確的上下級關(guān)系O
[0050]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述正確性判斷單元,還用于如果所述相鄰兩個地區(qū)名稱不符合正確的上下級關(guān)系,則若所述相鄰兩個地區(qū)名稱中后記錄的地區(qū)名稱不包含地區(qū)公共關(guān)鍵詞,則確定該后記錄的地區(qū)名稱不屬于地區(qū)部分,而屬于機(jī)構(gòu)名部分。
[0051]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述確定單元,還用于將機(jī)構(gòu)名部分末尾的字符串與組織形式庫匹配,將匹配的字符串確定為組織形式部分,將機(jī)構(gòu)名部分中的其他字符串確定為商號經(jīng)營范圍部分。
[0052]由以上技術(shù)方案可以看出,本發(fā)明通過將組織機(jī)構(gòu)名的字符從前至后進(jìn)行提取,與預(yù)先建立的MAP中的key進(jìn)行匹配并記錄MAP中匹配的key所對應(yīng)的value中的地區(qū)名稱,循環(huán)該匹配過程直至匹配不到任何key,最終利用已記錄的地區(qū)名稱構(gòu)成組織機(jī)構(gòu)名的地區(qū)部分,其他部分構(gòu)成機(jī)構(gòu)名部分,從而實(shí)現(xiàn)了自動將組織機(jī)構(gòu)名拆分為地區(qū)部分和機(jī)構(gòu)名部分。
【【附圖說明】】
[0053]圖1為本發(fā)明實(shí)施例一提供的建立MAP的流程圖;
[0054]圖2為本發(fā)明實(shí)施例二提供的解析組織機(jī)構(gòu)名的方法流程圖;
[0055]圖3為本發(fā)明實(shí)施例三提供的解析組織機(jī)構(gòu)名的裝置結(jié)構(gòu)圖;
[0056]圖4為本發(fā)明實(shí)施例四提供的解析組織機(jī)構(gòu)名的裝置結(jié)構(gòu)圖。
【【具體實(shí)施方式】】
[0057]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。
[0058]本發(fā)明中所涉及的組織機(jī)構(gòu)名可以包括但不限于:企業(yè)機(jī)構(gòu)名、行政機(jī)關(guān)名、社會團(tuán)體名等。其中企業(yè)機(jī)構(gòu)名諸如:浙江奉賢貿(mào)易有限公司、浙江省杭州市勝利五金廠等;行政機(jī)構(gòu)名諸如杭州地