一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)和方法

文檔序號(hào)：6374419閱讀：175來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及互聯(lián)網(wǎng)信息處理領(lǐng)域，特別涉及一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)和方法。
背景技術(shù)：
隨著互聯(lián)網(wǎng)的飛速發(fā)展，網(wǎng)絡(luò)信息的發(fā)布和傳播越來(lái)越快，網(wǎng)絡(luò)新詞也隨之層出不窮。根據(jù)中國(guó)語(yǔ)言文字工作委員會(huì)的專家所做的統(tǒng)計(jì)，自改革開放以來(lái)20年內(nèi)平均每年產(chǎn)生800多個(gè)新詞語(yǔ)，而近年來(lái)，網(wǎng)絡(luò)的發(fā)達(dá)早已使新詞的產(chǎn)生速度遠(yuǎn)遠(yuǎn)超過(guò)這一數(shù)字。新詞的產(chǎn)生導(dǎo)致進(jìn)行互聯(lián)網(wǎng)信息處理時(shí)，對(duì)詞語(yǔ)的切分、理解和信息檢索的能力大大下降。因此如何有效地發(fā)現(xiàn)新詞，是互聯(lián)網(wǎng)信息處理領(lǐng)域的一項(xiàng)重要工作。因此，這里所稱的“新詞”，不僅包含傳統(tǒng)語(yǔ)言學(xué)上的詞語(yǔ)，還包括互聯(lián)網(wǎng)上最新出現(xiàn)的廣為傳頌的短語(yǔ)。目前的新詞發(fā)現(xiàn)方法主要有基于統(tǒng)計(jì)和基于規(guī)則兩種方法?；诮y(tǒng)計(jì)的方法，首先利用統(tǒng)計(jì)模型，根據(jù)詞語(yǔ)的特征信息獲取候選串，再利用詞頻等信息過(guò)濾垃圾串，該方法依賴于語(yǔ)料庫(kù)的完善，并且傾向于識(shí)別較短或高頻的新詞，識(shí)別新短語(yǔ)及低頻詞的能力較差?；谝?guī)則的方法，一般是根據(jù)新詞的語(yǔ)言構(gòu)詞特征或構(gòu)詞模式特點(diǎn)建立規(guī)則庫(kù)、領(lǐng)域詞典或模式庫(kù)，然后通過(guò)模式匹配發(fā)現(xiàn)新詞，該方法需要專業(yè)領(lǐng)域知識(shí)及語(yǔ)言學(xué)基礎(chǔ)，可移植性和可擴(kuò)展性較差，更新速度較慢。新詞常常是對(duì)新事物或新事件的概述，在構(gòu)成方面沒(méi)有普遍統(tǒng)一的規(guī)律，常常不符合漢字的構(gòu)詞規(guī)則，并且新詞產(chǎn)生速度快，覆蓋范圍廣，語(yǔ)料收集工作較難同步。因此傳統(tǒng)的基于統(tǒng)計(jì)和基于規(guī)則進(jìn)行新詞識(shí)別的方法已無(wú)法滿足當(dāng)前快速、準(zhǔn)確發(fā)現(xiàn)新詞的需求。但是現(xiàn)有技術(shù)采用基于統(tǒng)計(jì)的方法，對(duì)語(yǔ)料庫(kù)的要求較高，容易產(chǎn)生垃圾串，且常常由于數(shù)據(jù)稀疏導(dǎo)致無(wú)法識(shí)別出低頻新詞；而基于規(guī)則的方法又依賴規(guī)則獲取的有效性和完備性，無(wú)法滿足新詞快速更新的需求。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的主要目的在于提供一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)和方法，以解決現(xiàn)有統(tǒng)計(jì)方法的語(yǔ)料庫(kù)難獲取和規(guī)則方法的不易擴(kuò)展等問(wèn)題，通過(guò)使用詞串共現(xiàn)率，輔以過(guò)濾策略，該新詞自動(dòng)查找系統(tǒng)和方法不需要構(gòu)建語(yǔ)料庫(kù)和特殊規(guī)則，能夠簡(jiǎn)便易行地從查詢?nèi)罩局凶詣?dòng)發(fā)現(xiàn)新詞。為達(dá)到上述目的，本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的
一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)，主要包括查詢?nèi)罩绢A(yù)處理模塊、新詞發(fā)現(xiàn)模塊和新詞生成模塊；其中
查詢?nèi)罩绢A(yù)處理模塊，用于根據(jù)設(shè)置的定時(shí)新詞發(fā)現(xiàn)的時(shí)間，定期的從查詢?nèi)罩局蝎@取定時(shí)間隔的這一段時(shí)間內(nèi)的查詢串及查詢頻次，并對(duì)查詢串進(jìn)行分詞處理，保存每個(gè)n-gram串及相應(yīng)的頻次；新詞發(fā)現(xiàn)模塊，根據(jù)所述查詢串的分詞結(jié)果，統(tǒng)計(jì)相同n-gram串的頻次；根據(jù)單個(gè)詞的頻次和n-gram串的頻次計(jì)算n-gram詞串的共現(xiàn)率,并選取共現(xiàn)率較高的詞串作為候選新詞集合；歸并候選新詞集合中相近頻次的父子串；
新詞生成模塊，對(duì)候選新詞集合應(yīng)用過(guò)濾和剪枝策略，去除候選新詞集合中的垃圾串，得到最終的新詞集合。將最終新詞集合導(dǎo)入分詞詞庫(kù)中，從而實(shí)現(xiàn)增量式新詞發(fā)現(xiàn)。其中所述過(guò)濾和剪枝策略包括基本語(yǔ)言學(xué)構(gòu)詞規(guī)則策略和成詞模式過(guò)濾策略。所述基本語(yǔ)言學(xué)構(gòu)詞規(guī)則策略，包括字?jǐn)?shù)過(guò)濾規(guī)則，純數(shù)字字母串和日期過(guò)濾規(guī)貝U，常見(jiàn)輔助詞過(guò)濾規(guī)則和常見(jiàn)查詢搭配詞過(guò)濾規(guī)則。所述成詞模式過(guò)濾策略，包括疊詞模式過(guò)濾和四字詞的2-2模式剪枝。

—種基于查詢?nèi)罩镜男略~自動(dòng)查找方法,該方法包括
A、查詢串的分詞處理步驟選取一段時(shí)間的查詢?nèi)罩?，使用查詢串及查詢頻次，刪除該查詢?nèi)罩局械钠渌畔ⅲ⑹褂梅衷~工具對(duì)查詢串進(jìn)行切分；
B、新詞發(fā)現(xiàn)的實(shí)現(xiàn)步驟，包括詞串頻率的統(tǒng)計(jì)、詞串共現(xiàn)率計(jì)算以及父子串歸并；
C、新詞過(guò)濾的步驟，包括對(duì)生成的候選新詞集合進(jìn)行過(guò)濾，去除垃圾串。其中步驟A所述使用分詞工具對(duì)查詢串進(jìn)行切分，對(duì)于一個(gè)查詢串，分詞切分時(shí)會(huì)返回多個(gè)粒度的結(jié)果；采用分詞的最大粒度結(jié)果，以保證詞串中任意詞的組合均不為已經(jīng)存在的詞。步驟A進(jìn)一步包括按照傳統(tǒng)語(yǔ)言學(xué)概念，將詞語(yǔ)根據(jù)成詞字?jǐn)?shù)分為單元詞、二元詞、三元詞、四元詞和多元詞，并通過(guò)擴(kuò)展該語(yǔ)言學(xué)概念，根據(jù)數(shù)據(jù)串進(jìn)行分詞處理后成詞的詞數(shù)，將所述詞串分為2-gram、3-gram、…、n-gram ;詞串中的每個(gè)詞稱為token,則n-gram 的格式為[token-1][空格][token-2]…[token-n]。其中詞串頻率統(tǒng)計(jì)，具體為統(tǒng)計(jì)1-gram、2-gram、3-gram、4-gram和5-gram的詞串的頻次，并將相同詞串的詞頻進(jìn)行累加，輸出為n-gram及其詞頻，表示為〈n-gram，t f (n-gram) >;其中，I -gram的詞是已存在的詞，不需進(jìn)入候選新詞集合,但在計(jì)算詞串共現(xiàn)率時(shí)需要使用，因此仍需統(tǒng)計(jì)該類詞串的詞頻并單獨(dú)保存起來(lái)；
詞串共現(xiàn)率計(jì)算，具體為使用詞串中所有詞共同出現(xiàn)的概率來(lái)表示其組合成詞的可能性，選取共現(xiàn)率較高的詞串作為候選新詞集合；所述共現(xiàn)率根據(jù)每個(gè)詞的詞頻和整個(gè)詞串的詞頻計(jì)算得到，以解決基于統(tǒng)計(jì)的方法中單純根據(jù)單個(gè)詞的詞頻篩選時(shí)，由于數(shù)據(jù)稀疏而導(dǎo)致的漏識(shí)別低頻新詞的問(wèn)題；
父子串歸并，具體為遍歷獲取到的所有n-gram串，如果兩個(gè)詞串存在父子包含關(guān)系，且兩者的查詢頻率相同或相近，則從候選新詞集合中刪除子串。步驟C所述新詞過(guò)濾策略，具體為根據(jù)語(yǔ)言學(xué)構(gòu)詞規(guī)則統(tǒng)計(jì)及成詞模式研究獲得垃圾串過(guò)濾規(guī)則，主要包括字?jǐn)?shù)過(guò)濾規(guī)則、純數(shù)字字母串和日期過(guò)濾規(guī)則、常見(jiàn)輔助詞過(guò)濾規(guī)則、常見(jiàn)查詢?cè)~過(guò)濾枝規(guī)則及疊詞模式過(guò)濾規(guī)則、2-2模式剪枝規(guī)則。本發(fā)明所提供的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)和方法，具有以下優(yōu)點(diǎn)
該發(fā)明使用詞串共現(xiàn)率，輔以過(guò)濾策略的基于查詢?nèi)罩镜男略~發(fā)現(xiàn)方法，解決了基于統(tǒng)計(jì)方法中由于語(yǔ)料庫(kù)導(dǎo)致的垃圾串多、低頻新詞無(wú)法識(shí)別的問(wèn)題，及基于規(guī)則方法中依賴規(guī)則定義而不易擴(kuò)展的問(wèn)題。本發(fā)明還采用了增量式的新詞發(fā)現(xiàn)技術(shù)，新詞一經(jīng)發(fā)現(xiàn)，可立即加入分詞詞庫(kù)中，能夠確保新詞不被重復(fù)發(fā)現(xiàn)。本發(fā)明的新詞自動(dòng)查找系統(tǒng)和方法，應(yīng)用于任意技術(shù)領(lǐng)域的查詢?nèi)罩緲颖緮?shù)據(jù)集中，尤其適用于分詞詞典擴(kuò)充及熱詞挖掘等方面的應(yīng)用。

圖I為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動(dòng)查找方法流程圖2為本發(fā)明所述的新詞發(fā)現(xiàn)過(guò)程示意圖3為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)示意圖。
具體實(shí)施例方式下面結(jié)合附圖及本發(fā)明的實(shí)施例對(duì)本發(fā)明的方法作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明的基本思想是針對(duì)統(tǒng)計(jì)方法的語(yǔ)料庫(kù)難獲取和規(guī)則方法的不易擴(kuò)展等問(wèn) 題，提出本發(fā)明的使用詞串共現(xiàn)率，輔以過(guò)濾策略的基于查詢?nèi)罩镜男略~自動(dòng)發(fā)現(xiàn)系統(tǒng)和方法。其目的在于，達(dá)到不需構(gòu)建語(yǔ)料庫(kù)和特殊規(guī)則，能夠簡(jiǎn)便易行地從查詢?nèi)罩局凶詣?dòng)發(fā)現(xiàn)新詞。本發(fā)明還實(shí)現(xiàn)了增量式新詞發(fā)現(xiàn)，新詞一經(jīng)發(fā)現(xiàn)，可立即加入分詞詞庫(kù)中，確保新詞不被重復(fù)發(fā)現(xiàn)。其適用于分詞詞典擴(kuò)充及熱詞挖掘等各方面應(yīng)用。新詞識(shí)別技術(shù)，通常分為基于字和基于詞兩種。一般來(lái)說(shuō)，基于字的新詞識(shí)別方法以單個(gè)字為基本元素，能獲取較高的召回率，而基于詞的新詞識(shí)別方法以每個(gè)詞為基本元素，具有較高的準(zhǔn)確率。隨著樣本集的增大，兩者的差距呈先大后小的趨勢(shì)，當(dāng)樣本集較為巨大時(shí)，差距可以忽略不計(jì)。然而，樣本數(shù)據(jù)集畢竟有限，因此本發(fā)明采用基于詞的方法，即先利用分詞工具對(duì)查詢串做分詞處理，再進(jìn)行新詞的識(shí)別。圖3為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)示意圖，如圖3所示，該基于查詢?nèi)罩镜男略~查找系統(tǒng)主要包括查詢?nèi)罩绢A(yù)處理模塊301、新詞發(fā)現(xiàn)模塊302和新詞生成模塊303。其中
所述查詢?nèi)罩绢A(yù)處理模塊301，用于根據(jù)設(shè)置的定時(shí)新詞發(fā)現(xiàn)的時(shí)間，定期的從查詢?nèi)罩局蝎@取定時(shí)間隔的這一段時(shí)間內(nèi)的查詢串及查詢頻次，并對(duì)查詢串進(jìn)行分詞處理，保存每個(gè)n-gram串及相應(yīng)的頻次。新詞發(fā)現(xiàn)模塊302，根據(jù)所述查詢串的分詞結(jié)果，統(tǒng)計(jì)相同n-gram串的頻次；根據(jù)單個(gè)詞的頻次和n-gram串的頻次計(jì)算n-gram詞串的共現(xiàn)率,并選取共現(xiàn)率較高的詞串作為候選新詞集合；歸并候選新詞集合中相近頻次的父子串。新詞生成模塊303，對(duì)候選新詞集合進(jìn)行過(guò)濾和剪枝，去除候選新詞集合中的垃圾串，得到最終的新詞集合。將最終新詞集合導(dǎo)入分詞詞庫(kù)中，實(shí)現(xiàn)增量式新詞發(fā)現(xiàn)?；谀乘阉饕娴牟樵?nèi)罩炯?，結(jié)合附圖3所示的查詢?nèi)罩绢A(yù)處理模塊301、新詞發(fā)現(xiàn)模塊302和新詞生成模塊303，對(duì)本發(fā)明的新詞自動(dòng)查找/發(fā)現(xiàn)方法作進(jìn)一步的詳細(xì)說(shuō)明。圖I為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動(dòng)發(fā)現(xiàn)方法流程圖，如圖I所示，該方法包括如下步驟
步驟101 :查詢串的分詞處理步驟。首先根據(jù)設(shè)置的定時(shí)新詞發(fā)現(xiàn)的時(shí)間，定期的從查詢?nèi)罩局蝎@取定時(shí)間隔的這一段時(shí)間內(nèi)的查詢串及查詢頻次。使用分詞工具對(duì)查詢串進(jìn)行切分，對(duì)于一個(gè)查詢串，分詞切分時(shí)會(huì)返回多個(gè)粒度的結(jié)果，本發(fā)明采用分詞的最大粒度結(jié)果，從而保證詞串中任意詞的組合都不是已經(jīng)存在的詞。按照傳統(tǒng)語(yǔ)言學(xué)概念，詞語(yǔ)根據(jù)成詞字?jǐn)?shù)分為單元詞、二元詞、三元詞、四元詞和多元詞等。本發(fā)明擴(kuò)展了該概念，根據(jù)數(shù)據(jù)串進(jìn)行分詞處理后成詞的詞數(shù)，將詞串分為2-gram、3-gram、…、n-gram。詞串中的每個(gè)詞稱為 token,則 n-gram 的格式為[token-1][空格][token-2]…[token-n]。步驟102 :新詞發(fā)現(xiàn)的具體實(shí)現(xiàn)步驟。如附圖2所示，所述新詞發(fā)現(xiàn)的具體實(shí)現(xiàn)過(guò)程，主要包括步驟201 步驟203。步驟201 :串頻統(tǒng)計(jì)的步驟。雖然從查詢?nèi)罩局蝎@取的查詢串是唯一的，但是其切分后的n-gram子串卻會(huì)有所重復(fù)。串頻統(tǒng)計(jì)階段，先統(tǒng)計(jì)1-gram、2-gram、3-gram、4-gram和5-gram的詞串的頻次，并將相同詞串的詞頻進(jìn)行累加，輸出為n-gram及其詞頻，表示為〈n-gram, tf (n-gram) >。其中1-gram的詞是已存在的詞,不需進(jìn)入候選新詞集合,但在計(jì)算詞串共現(xiàn)率時(shí)需要使用，因此仍需統(tǒng)計(jì)該類詞串的詞頻并單獨(dú)保存起來(lái)。其數(shù)據(jù)結(jié)構(gòu)采用stl的hash_map,實(shí)現(xiàn)快速地串頻統(tǒng)計(jì)。
步驟202 :詞串共現(xiàn)率計(jì)算的步驟；使用詞串中所有詞共同出現(xiàn)的概率來(lái)表示其組合成詞的可能性，選取共現(xiàn)率較高的詞串作為候選新詞集合。基于假設(shè)如果組成詞串的所有詞經(jīng)常同時(shí)出現(xiàn)，且該組合在這些詞的所有組合中出現(xiàn)的概率較高，則認(rèn)為這個(gè)詞串是一個(gè)新詞。共現(xiàn)率根據(jù)每個(gè)詞的詞頻和整個(gè)詞串的詞頻計(jì)算得到，不是單純使用詞頻閾值進(jìn)行新詞過(guò)濾，解決了基于統(tǒng)計(jì)的方法中由于數(shù)據(jù)稀疏導(dǎo)致的漏識(shí)別低頻新詞的問(wèn)題。所述詞串共現(xiàn)率計(jì)算公式如下
其中，n-gram為候選新詞串，tf (n-gram)是n-gram串在查詢?nèi)罩局械牟樵冾l次，tf (token-k)是第k個(gè)詞在查詢?nèi)罩局械牟樵冾l次。步驟203 :父子串歸并的步驟。根據(jù)n-gram串的定義，高階gram串會(huì)包含低階gram串，則稱聞階gram串為父串，低階gram串為子串。若兩者的頻次相同或相近，說(shuō)明低階gram串每次都是作為高階gram串的子串出現(xiàn)，從未或很少單獨(dú)出現(xiàn)，因此其無(wú)法單獨(dú)作為新詞，應(yīng)舍棄子串，保留父串。遍歷獲取到的所有n-gram串，如果兩個(gè)串存在父子包含關(guān)系，且兩者的出現(xiàn)頻率相同或相近，則從候選新詞集合中刪除子串。具體實(shí)現(xiàn)如下
步驟2031,遍歷n-gram集合,假設(shè)當(dāng)前n-gram的頻次是n,則輸出其每一個(gè)后綴，頻次也置為n,但為其置上特殊位,標(biāo)識(shí)其為衍生的n-gram。步驟2032,按字典序排序包含衍生n-gram的新候選n-gram集合。步驟2033,遍歷排序后的n-gram集合,讀取當(dāng)前行，如果當(dāng)前n-gram為衍生的n-gram,則從n-gram集合中刪除當(dāng)前詞串，讀取下一行詞串，假設(shè)待處理的n-gram為S。步驟2034，讀取s后續(xù)行對(duì)應(yīng)的詞串，直到第一個(gè)不是以s為前綴的n-gram結(jié)束；根據(jù)頻次比值，判斷以s為前綴的n-gram的頻次是否與s相同或相近；如果存在頻次相同或相近的父串，從初始n-gram集合中刪除S，否則保留S。步驟2035，轉(zhuǎn)步驟2033處理s的下一行詞串，直至處理完所有候選n-gram串。步驟103 :新詞過(guò)濾的步驟。該步驟對(duì)生成的候選新詞集合進(jìn)行過(guò)濾，去除垃圾串。過(guò)濾和剪枝策略分為基本語(yǔ)言學(xué)構(gòu)詞規(guī)則策略和成詞模式過(guò)濾策略。根據(jù)語(yǔ)言學(xué)構(gòu)詞規(guī)則，定義了以下幾種過(guò)濾規(guī)則
I)字?jǐn)?shù)過(guò)濾規(guī)則由于新詞一般都是概括性詞語(yǔ)，因此字?jǐn)?shù)不會(huì)過(guò)長(zhǎng)，根據(jù)統(tǒng)計(jì)得知，新詞一般均在10字以內(nèi)。因此，本發(fā)明過(guò)濾掉過(guò)長(zhǎng)的候選新詞串。2)純數(shù)字字母串和日期過(guò)濾規(guī)則一般不會(huì)出現(xiàn)單純由數(shù)字和字母組成的新詞或日期與漢字混合組成新詞的情況，如“56kv”或“2012年I月I日”，因此將純數(shù)字串或包含日期的詞串過(guò)濾掉。本發(fā)明定義了識(shí)別數(shù)字、字母和日期的正則表達(dá)式進(jìn)行過(guò)濾處理。3)常見(jiàn)輔助詞過(guò)濾規(guī)則有些常見(jiàn)輔助詞，如“的”、“了”、“是”等，雖然出現(xiàn)頻率較高，但是不應(yīng)作為新詞的詞首或詞尾。使用歷史查詢?nèi)罩緮?shù)據(jù)，統(tǒng)計(jì)獲得兩個(gè)詞庫(kù)詞首過(guò)濾詞庫(kù)和詞尾過(guò)濾詞庫(kù)。若當(dāng)前詞串的詞首或詞尾分別在這兩個(gè)詞庫(kù)中，則過(guò)濾掉當(dāng)前詞串。4)常見(jiàn)查詢搭配詞過(guò)濾規(guī)則有些常見(jiàn)查詢?cè)~，如“高清”、“全集”、“優(yōu)酷”等，雖然經(jīng)常與影視劇搭配使用，但是不應(yīng)為新詞的一部分，而將這些詞去除后的串常常為新詞。因此對(duì)包含這種類型詞的串，判斷刪除該類詞后的詞串是否存在于候選新詞集合中，若不存在，則將做刪除操作后的詞串添加到新詞集合中。詞語(yǔ)模式是指詞串中詞的組成方式，如“1-1-1模式”是指詞語(yǔ)由三個(gè)單字詞組成、 “2-1模式”是指詞語(yǔ)由一個(gè)兩字詞和一個(gè)單字詞組成。根據(jù)組成詞語(yǔ)的模式，即成詞模式過(guò)濾策略，分為如下幾類
I)疊詞模式過(guò)濾當(dāng)詞串為1-1…1-1模式時(shí)，由于共現(xiàn)率的計(jì)算方式，導(dǎo)致若詞串包含多個(gè)相同單字詞時(shí)，其共現(xiàn)率會(huì)較高，然而大部分情況下，由多個(gè)相同字重疊組成的串不應(yīng)作為詞語(yǔ)，因此過(guò)濾掉滿足這種條件的1-1…1-1模式串。2)四字詞的2-2模式剪枝當(dāng)四字詞由兩個(gè)二字詞組成，且其中一個(gè)二字詞為人稱代詞，如“我們”、“你們”等，應(yīng)舍棄該詞串。以上所述，僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)，其特征在于，主要包括查詢?nèi)罩绢A(yù)處理模塊、新詞發(fā)現(xiàn)模塊和新詞生成模塊；其中查詢?nèi)罩绢A(yù)處理模塊，用于根據(jù)設(shè)置的定時(shí)新詞發(fā)現(xiàn)的時(shí)間，定期的從查詢?nèi)罩局蝎@取定時(shí)間隔的這一段時(shí)間內(nèi)的查詢串及查詢頻次，并對(duì)查詢串進(jìn)行分詞處理，保存每個(gè)n-gram串及相應(yīng)的頻次；新詞發(fā)現(xiàn)模塊，根據(jù)所述查詢串的分詞結(jié)果，統(tǒng)計(jì)相同n-gram串的頻次；根據(jù)單個(gè)詞的頻次和n-gram串的頻次計(jì)算n-gram詞串的共現(xiàn)率,并選取共現(xiàn)率較高的詞串作為候選新詞集合；歸并候選新詞集合中相近頻次的父子串；新詞生成模塊，對(duì)候選新詞集合應(yīng)用過(guò)濾和剪枝策略，去除候選新詞集合中的垃圾串，得到最終的新詞集合。
2.將最終新詞集合導(dǎo)入分詞詞庫(kù)中，從而實(shí)現(xiàn)增量式新詞發(fā)現(xiàn)。
3.根據(jù)權(quán)利要求I所述的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)，其特征在于，所述過(guò)濾和剪枝策略包括基本語(yǔ)言學(xué)構(gòu)詞規(guī)則策略和成詞模式過(guò)濾策略。
4.根據(jù)權(quán)利要求2所述的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)，其特征在于，所述基本語(yǔ)言學(xué)構(gòu)詞規(guī)則策略，包括字?jǐn)?shù)過(guò)濾規(guī)則，純數(shù)字字母串和日期過(guò)濾規(guī)則，常見(jiàn)輔助詞過(guò)濾規(guī)則和常見(jiàn)查詢搭配詞過(guò)濾規(guī)則。
5.根據(jù)權(quán)利要求2所述的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)，其特征在于，所述成詞模式過(guò)濾策略，包括疊詞模式過(guò)濾和四字詞的2-2模式剪枝。
6.一種基于查詢?nèi)罩镜男略~自動(dòng)查找方法，其特征在于，該方法包括 A、查詢串的分詞處理步驟選取一段時(shí)間的查詢?nèi)罩?，使用查詢串及查詢頻次，刪除該查詢?nèi)罩局械钠渌畔ⅲ⑹褂梅衷~工具對(duì)查詢串進(jìn)行切分； B、新詞發(fā)現(xiàn)的實(shí)現(xiàn)步驟，包括詞串頻率的統(tǒng)計(jì)、詞串共現(xiàn)率計(jì)算以及父子串歸并； C、新詞過(guò)濾的步驟，包括對(duì)生成的候選新詞集合進(jìn)行過(guò)濾，去除垃圾串。
7.根據(jù)權(quán)利要求5所述的基于查詢?nèi)罩镜男略~自動(dòng)查找方法，其特征在于，步驟A所述使用分詞工具對(duì)查詢串進(jìn)行切分，對(duì)于一個(gè)查詢串，分詞切分時(shí)會(huì)返回多個(gè)粒度的結(jié)果；采用分詞的最大粒度結(jié)果，以保證詞串中任意詞的組合均不為已經(jīng)存在的詞。
8.根據(jù)權(quán)利要求6所述的基于查詢?nèi)罩镜男略~自動(dòng)查找方法，其特征在于，步驟A進(jìn)一步包括按照傳統(tǒng)語(yǔ)言學(xué)概念，將詞語(yǔ)根據(jù)成詞字?jǐn)?shù)分為單元詞、二元詞、三元詞、四元詞和多元詞，并通過(guò)擴(kuò)展該語(yǔ)言學(xué)概念，根據(jù)數(shù)據(jù)串進(jìn)行分詞處理后成詞的詞數(shù)，將所述詞串分為2-gram、3-gram、…、n-gram ;詞串中的每個(gè)詞稱為token,則n-gram的格式為[token-1][空格][token-2]…[token-n]。
9.根據(jù)權(quán)利要求5、6或7所述的基于查詢?nèi)罩镜男略~自動(dòng)查找方法，其特征在于詞串頻率統(tǒng)計(jì)，具體為統(tǒng)計(jì)1-gram、2-gram、3-gram、4-gram和5-gram的詞串的頻次，并將相同詞串的詞頻進(jìn)行累加，輸出為n-gram及其詞頻,表示為〈n-gram, tf (n-gram) > ;其中，1-gram的詞是已存在的詞，不需進(jìn)入候選新詞集合，但在計(jì)算詞串共現(xiàn)率時(shí)需要使用，因此仍需統(tǒng)計(jì)該類詞串的詞頻并單獨(dú)保存起來(lái)；詞串共現(xiàn)率計(jì)算，具體為使用詞串中所有詞共同出現(xiàn)的概率來(lái)表示其組合成詞的可能性，選取共現(xiàn)率較高的詞串作為候選新詞集合；所述共現(xiàn)率根據(jù)每個(gè)詞的詞頻和整個(gè)詞串的詞頻計(jì)算得到，以解決基于統(tǒng)計(jì)的方法中單純根據(jù)單個(gè)詞的詞頻篩選時(shí)，由于數(shù)據(jù)稀疏而導(dǎo)致的漏識(shí)別低頻新詞的問(wèn)題；父子串歸并，具體為遍歷獲取到的所有n-gram串，如果兩個(gè)詞串存在父子包含關(guān)系，且兩者的查詢頻率相同或相近，則從候選新詞集合中刪除子串。
10.根據(jù)權(quán)利要求5所述的基于查詢?nèi)罩镜男略~自動(dòng)查找方法，其特征在于，步驟C所述新詞過(guò)濾策略，具體為根據(jù)語(yǔ)言學(xué)構(gòu)詞規(guī)則統(tǒng)計(jì)及成詞模式研究獲得垃圾串過(guò)濾規(guī)則，主要包括字?jǐn)?shù)過(guò)濾規(guī)則、純數(shù)字字母串和日期過(guò)濾規(guī)則、常見(jiàn)輔助詞過(guò)濾規(guī)則、常見(jiàn)查詢?cè)~過(guò)濾枝規(guī)則及疊詞模式過(guò)濾規(guī)則、2-2模式剪枝規(guī)則。
全文摘要
本發(fā)明公開了一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)及方法，主要包括查詢?nèi)罩绢A(yù)處理模塊，用于根據(jù)設(shè)置的定時(shí)新詞發(fā)現(xiàn)的時(shí)間，定期從查詢?nèi)罩局蝎@取定時(shí)間隔的這一段時(shí)間內(nèi)的查詢串及查詢頻次等；新詞發(fā)現(xiàn)模塊，根據(jù)所述查詢串的分詞結(jié)果，統(tǒng)計(jì)相同n-gram串的頻次；計(jì)算n-gram詞串的共現(xiàn)率；歸并候選新詞集合中相近頻次的父子串；新詞生成模塊，對(duì)候選新詞集合應(yīng)用過(guò)濾和剪枝策略，去除候選新詞集合中的垃圾串，得到最終的新詞集合。采用本發(fā)明，解決現(xiàn)有統(tǒng)計(jì)方法的語(yǔ)料庫(kù)難獲取和規(guī)則方法的不易擴(kuò)展等問(wèn)題，通過(guò)使用詞串共現(xiàn)率，輔以過(guò)濾策略，能夠簡(jiǎn)便易行地從查詢?nèi)罩局凶詣?dòng)發(fā)現(xiàn)新詞，將最終新詞集合導(dǎo)入分詞詞庫(kù)中，從而實(shí)現(xiàn)增量式新詞發(fā)現(xiàn)。
文檔編號(hào)G06F17/30GK102831194SQ20121027490
公開日2012年12月19日申請(qǐng)日期2012年8月3日優(yōu)先權(quán)日2012年8月3日
發(fā)明者張愛(ài)琦, 崔世起, 楊青申請(qǐng)人:人民搜索網(wǎng)絡(luò)股份公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張愛(ài)琦;崔世起;楊青
技術(shù)所有人：人民搜索網(wǎng)絡(luò)股份公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日志查詢系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)和方法