專利名稱:一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息處理領(lǐng)域,特別涉及一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)和方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息的發(fā)布和傳播越來(lái)越快,網(wǎng)絡(luò)新詞也隨之層出不窮。根據(jù)中國(guó)語(yǔ)言文字工作委員會(huì)的專家所做的統(tǒng)計(jì),自改革開放以來(lái)20年內(nèi)平均每年產(chǎn)生800多個(gè)新詞語(yǔ),而近年來(lái),網(wǎng)絡(luò)的發(fā)達(dá)早已使新詞的產(chǎn)生速度遠(yuǎn)遠(yuǎn)超過(guò)這一數(shù)字。新詞的產(chǎn)生導(dǎo)致進(jìn)行互聯(lián)網(wǎng)信息處理時(shí),對(duì)詞語(yǔ)的切分、理解和信息檢索的能力大大下降。因此如何有效地發(fā)現(xiàn)新詞,是互聯(lián)網(wǎng)信息處理領(lǐng)域的一項(xiàng)重要工作。因此,這里所稱的“新詞”,不僅包含傳統(tǒng)語(yǔ)言學(xué)上的詞語(yǔ),還包括互聯(lián)網(wǎng)上最新出現(xiàn)的廣為傳頌的短語(yǔ)。目前的新詞發(fā)現(xiàn)方法主要有基于統(tǒng)計(jì)和基于規(guī)則兩種方法?;诮y(tǒng)計(jì)的方法,首 先利用統(tǒng)計(jì)模型,根據(jù)詞語(yǔ)的特征信息獲取候選串,再利用詞頻等信息過(guò)濾垃圾串,該方法依賴于語(yǔ)料庫(kù)的完善,并且傾向于識(shí)別較短或高頻的新詞,識(shí)別新短語(yǔ)及低頻詞的能力較差?;谝?guī)則的方法,一般是根據(jù)新詞的語(yǔ)言構(gòu)詞特征或構(gòu)詞模式特點(diǎn)建立規(guī)則庫(kù)、領(lǐng)域詞典或模式庫(kù),然后通過(guò)模式匹配發(fā)現(xiàn)新詞,該方法需要專業(yè)領(lǐng)域知識(shí)及語(yǔ)言學(xué)基礎(chǔ),可移植性和可擴(kuò)展性較差,更新速度較慢。新詞常常是對(duì)新事物或新事件的概述,在構(gòu)成方面沒(méi)有普遍統(tǒng)一的規(guī)律,常常不符合漢字的構(gòu)詞規(guī)則,并且新詞產(chǎn)生速度快,覆蓋范圍廣,語(yǔ)料收集工作較難同步。因此傳統(tǒng)的基于統(tǒng)計(jì)和基于規(guī)則進(jìn)行新詞識(shí)別的方法已無(wú)法滿足當(dāng)前快速、準(zhǔn)確發(fā)現(xiàn)新詞的需求。但是現(xiàn)有技術(shù)采用基于統(tǒng)計(jì)的方法,對(duì)語(yǔ)料庫(kù)的要求較高,容易產(chǎn)生垃圾串,且常常由于數(shù)據(jù)稀疏導(dǎo)致無(wú)法識(shí)別出低頻新詞;而基于規(guī)則的方法又依賴規(guī)則獲取的有效性和完備性,無(wú)法滿足新詞快速更新的需求。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)和方法,以解決現(xiàn)有統(tǒng)計(jì)方法的語(yǔ)料庫(kù)難獲取和規(guī)則方法的不易擴(kuò)展等問(wèn)題,通過(guò)使用詞串共現(xiàn)率,輔以過(guò)濾策略,該新詞自動(dòng)查找系統(tǒng)和方法不需要構(gòu)建語(yǔ)料庫(kù)和特殊規(guī)則,能夠簡(jiǎn)便易行地從查詢?nèi)罩局凶詣?dòng)發(fā)現(xiàn)新詞。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的
一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng),主要包括查詢?nèi)罩绢A(yù)處理模塊、新詞發(fā)現(xiàn)模塊和新詞生成模塊;其中
查詢?nèi)罩绢A(yù)處理模塊,用于根據(jù)設(shè)置的定時(shí)新詞發(fā)現(xiàn)的時(shí)間,定期的從查詢?nèi)罩局蝎@取定時(shí)間隔的這一段時(shí)間內(nèi)的查詢串及查詢頻次,并對(duì)查詢串進(jìn)行分詞處理,保存每個(gè)n-gram串及相應(yīng)的頻次;新詞發(fā)現(xiàn)模塊,根據(jù)所述查詢串的分詞結(jié)果,統(tǒng)計(jì)相同n-gram串的頻次;根據(jù)單個(gè)詞的頻次和n-gram串的頻次計(jì)算n-gram詞串的共現(xiàn)率,并選取共現(xiàn)率較高的詞串作為候選新詞集合;歸并候選新詞集合中相近頻次的父子串;
新詞生成模塊,對(duì)候選新詞集合應(yīng)用過(guò)濾和剪枝策略,去除候選新詞集合中的垃圾串,得到最終的新詞集合。將最終新詞集合導(dǎo)入分詞詞庫(kù)中,從而實(shí)現(xiàn)增量式新詞發(fā)現(xiàn)。其中所述過(guò)濾和剪枝策略包括基本語(yǔ)言學(xué)構(gòu)詞規(guī)則策略和成詞模式過(guò)濾策略。所述基本語(yǔ)言學(xué)構(gòu)詞規(guī)則策略,包括字?jǐn)?shù)過(guò)濾規(guī)則,純數(shù)字字母串和日期過(guò)濾規(guī)貝U,常見(jiàn)輔助詞過(guò)濾規(guī)則和常見(jiàn)查詢搭配詞過(guò)濾規(guī)則。所述成詞模式過(guò)濾策略,包括疊詞模式過(guò)濾和四字詞的2-2模式剪枝。
—種基于查詢?nèi)罩镜男略~自動(dòng)查找方法,該方法包括
A、查詢串的分詞處理步驟選取一段時(shí)間的查詢?nèi)罩?,使用查詢串及查詢頻次,刪除該查詢?nèi)罩局械钠渌畔ⅲ⑹褂梅衷~工具對(duì)查詢串進(jìn)行切分;
B、新詞發(fā)現(xiàn)的實(shí)現(xiàn)步驟,包括詞串頻率的統(tǒng)計(jì)、詞串共現(xiàn)率計(jì)算以及父子串歸并;
C、新詞過(guò)濾的步驟,包括對(duì)生成的候選新詞集合進(jìn)行過(guò)濾,去除垃圾串。其中步驟A所述使用分詞工具對(duì)查詢串進(jìn)行切分,對(duì)于一個(gè)查詢串,分詞切分時(shí)會(huì)返回多個(gè)粒度的結(jié)果;采用分詞的最大粒度結(jié)果,以保證詞串中任意詞的組合均不為已經(jīng)存在的詞。步驟A進(jìn)一步包括按照傳統(tǒng)語(yǔ)言學(xué)概念,將詞語(yǔ)根據(jù)成詞字?jǐn)?shù)分為單元詞、二元詞、三元詞、四元詞和多元詞,并通過(guò)擴(kuò)展該語(yǔ)言學(xué)概念,根據(jù)數(shù)據(jù)串進(jìn)行分詞處理后成詞的詞數(shù),將所述詞串分為2-gram、3-gram、…、n-gram ;詞串中的每個(gè)詞稱為token,則n-gram 的格式為[token-1][空格][token-2]…[token-n]。其中詞串頻率統(tǒng)計(jì),具體為統(tǒng)計(jì)1-gram、2-gram、3-gram、4-gram和5-gram的詞串的頻次,并將相同詞串的詞頻進(jìn)行累加,輸出為n-gram及其詞頻,表示為〈n-gram,t f (n-gram) >;其中,I -gram的詞是已存在的詞,不需進(jìn)入候選新詞集合,但在計(jì)算詞串共現(xiàn)率時(shí)需要使用,因此仍需統(tǒng)計(jì)該類詞串的詞頻并單獨(dú)保存起來(lái);
詞串共現(xiàn)率計(jì)算,具體為使用詞串中所有詞共同出現(xiàn)的概率來(lái)表示其組合成詞的可能性,選取共現(xiàn)率較高的詞串作為候選新詞集合;所述共現(xiàn)率根據(jù)每個(gè)詞的詞頻和整個(gè)詞串的詞頻計(jì)算得到,以解決基于統(tǒng)計(jì)的方法中單純根據(jù)單個(gè)詞的詞頻篩選時(shí),由于數(shù)據(jù)稀疏而導(dǎo)致的漏識(shí)別低頻新詞的問(wèn)題;
父子串歸并,具體為遍歷獲取到的所有n-gram串,如果兩個(gè)詞串存在父子包含關(guān)系,且兩者的查詢頻率相同或相近,則從候選新詞集合中刪除子串。步驟C所述新詞過(guò)濾策略,具體為根據(jù)語(yǔ)言學(xué)構(gòu)詞規(guī)則統(tǒng)計(jì)及成詞模式研究獲得垃圾串過(guò)濾規(guī)則,主要包括字?jǐn)?shù)過(guò)濾規(guī)則、純數(shù)字字母串和日期過(guò)濾規(guī)則、常見(jiàn)輔助詞過(guò)濾規(guī)則、常見(jiàn)查詢?cè)~過(guò)濾枝規(guī)則及疊詞模式過(guò)濾規(guī)則、2-2模式剪枝規(guī)則。本發(fā)明所提供的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)和方法,具有以下優(yōu)點(diǎn)
該發(fā)明使用詞串共現(xiàn)率,輔以過(guò)濾策略的基于查詢?nèi)罩镜男略~發(fā)現(xiàn)方法,解決了基于統(tǒng)計(jì)方法中由于語(yǔ)料庫(kù)導(dǎo)致的垃圾串多、低頻新詞無(wú)法識(shí)別的問(wèn)題,及基于規(guī)則方法中依賴規(guī)則定義而不易擴(kuò)展的問(wèn)題。本發(fā)明還采用了增量式的新詞發(fā)現(xiàn)技術(shù),新詞一經(jīng)發(fā)現(xiàn),可立即加入分詞詞庫(kù)中,能夠確保新詞不被重復(fù)發(fā)現(xiàn)。本發(fā)明的新詞自動(dòng)查找系統(tǒng)和方法,應(yīng)用于任意技術(shù)領(lǐng)域的查詢?nèi)罩緲颖緮?shù)據(jù)集中,尤其適用于分詞詞典擴(kuò)充及熱詞挖掘等方面的應(yīng)用。
圖I為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動(dòng)查找方法流程 圖2為本發(fā)明所述的新詞發(fā)現(xiàn)過(guò)程示意 圖3為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)示意圖。
具體實(shí)施例方式下面結(jié)合附圖及本發(fā)明的實(shí)施例對(duì)本發(fā)明的方法作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明的基本思想是針對(duì)統(tǒng)計(jì)方法的語(yǔ)料庫(kù)難獲取和規(guī)則方法的不易擴(kuò)展等問(wèn) 題,提出本發(fā)明的使用詞串共現(xiàn)率,輔以過(guò)濾策略的基于查詢?nèi)罩镜男略~自動(dòng)發(fā)現(xiàn)系統(tǒng)和方法。其目的在于,達(dá)到不需構(gòu)建語(yǔ)料庫(kù)和特殊規(guī)則,能夠簡(jiǎn)便易行地從查詢?nèi)罩局凶詣?dòng)發(fā)現(xiàn)新詞。本發(fā)明還實(shí)現(xiàn)了增量式新詞發(fā)現(xiàn),新詞一經(jīng)發(fā)現(xiàn),可立即加入分詞詞庫(kù)中,確保新詞不被重復(fù)發(fā)現(xiàn)。其適用于分詞詞典擴(kuò)充及熱詞挖掘等各方面應(yīng)用。新詞識(shí)別技術(shù),通常分為基于字和基于詞兩種。一般來(lái)說(shuō),基于字的新詞識(shí)別方法以單個(gè)字為基本元素,能獲取較高的召回率,而基于詞的新詞識(shí)別方法以每個(gè)詞為基本元素,具有較高的準(zhǔn)確率。隨著樣本集的增大,兩者的差距呈先大后小的趨勢(shì),當(dāng)樣本集較為巨大時(shí),差距可以忽略不計(jì)。然而,樣本數(shù)據(jù)集畢竟有限,因此本發(fā)明采用基于詞的方法,即先利用分詞工具對(duì)查詢串做分詞處理,再進(jìn)行新詞的識(shí)別。圖3為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)示意圖,如圖3所示,該基于查詢?nèi)罩镜男略~查找系統(tǒng)主要包括查詢?nèi)罩绢A(yù)處理模塊301、新詞發(fā)現(xiàn)模塊302和新詞生成模塊303。其中
所述查詢?nèi)罩绢A(yù)處理模塊301,用于根據(jù)設(shè)置的定時(shí)新詞發(fā)現(xiàn)的時(shí)間,定期的從查詢?nèi)罩局蝎@取定時(shí)間隔的這一段時(shí)間內(nèi)的查詢串及查詢頻次,并對(duì)查詢串進(jìn)行分詞處理,保存每個(gè)n-gram串及相應(yīng)的頻次。新詞發(fā)現(xiàn)模塊302,根據(jù)所述查詢串的分詞結(jié)果,統(tǒng)計(jì)相同n-gram串的頻次;根據(jù)單個(gè)詞的頻次和n-gram串的頻次計(jì)算n-gram詞串的共現(xiàn)率,并選取共現(xiàn)率較高的詞串作為候選新詞集合;歸并候選新詞集合中相近頻次的父子串。新詞生成模塊303,對(duì)候選新詞集合進(jìn)行過(guò)濾和剪枝,去除候選新詞集合中的垃圾串,得到最終的新詞集合。將最終新詞集合導(dǎo)入分詞詞庫(kù)中,實(shí)現(xiàn)增量式新詞發(fā)現(xiàn)?;谀乘阉饕娴牟樵?nèi)罩炯?,結(jié)合附圖3所示的查詢?nèi)罩绢A(yù)處理模塊301、新詞發(fā)現(xiàn)模塊302和新詞生成模塊303,對(duì)本發(fā)明的新詞自動(dòng)查找/發(fā)現(xiàn)方法作進(jìn)一步的詳細(xì)說(shuō)明。圖I為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動(dòng)發(fā)現(xiàn)方法流程圖,如圖I所示,該方法包括如下步驟
步驟101 :查詢串的分詞處理步驟。首先根據(jù)設(shè)置的定時(shí)新詞發(fā)現(xiàn)的時(shí)間,定期的從查詢?nèi)罩局蝎@取定時(shí)間隔的這一段時(shí)間內(nèi)的查詢串及查詢頻次。使用分詞工具對(duì)查詢串進(jìn)行切分,對(duì)于一個(gè)查詢串,分詞切分時(shí)會(huì)返回多個(gè)粒度的結(jié)果,本發(fā)明采用分詞的最大粒度結(jié)果,從而保證詞串中任意詞的組合都不是已經(jīng)存在的詞。按照傳統(tǒng)語(yǔ)言學(xué)概念,詞語(yǔ)根據(jù)成詞字?jǐn)?shù)分為單元詞、二元詞、三元詞、四元詞和多元詞等。本發(fā)明擴(kuò)展了該概念,根據(jù)數(shù)據(jù)串進(jìn)行分詞處理后成詞的詞數(shù),將詞串分為2-gram、3-gram、…、n-gram。詞串中的每個(gè)詞稱為 token,則 n-gram 的格式為[token-1][空格][token-2]…[token-n]。步驟102 :新詞發(fā)現(xiàn)的具體實(shí)現(xiàn)步驟。如附圖2所示,所述新詞發(fā)現(xiàn)的具體實(shí)現(xiàn)過(guò)程,主要包括步驟201 步驟203。步驟201 :串頻統(tǒng)計(jì)的步驟。雖然從查詢?nèi)罩局蝎@取的查詢串是唯一的,但是其切分后的n-gram子串卻會(huì)有所重復(fù)。串頻統(tǒng)計(jì)階段,先統(tǒng)計(jì)1-gram、2-gram、3-gram、4-gram和5-gram的詞串的頻次,并將相同詞串的詞頻進(jìn)行累加,輸出為n-gram及其詞頻,表示為〈n-gram, tf (n-gram) >。其中1-gram的詞是已存在的詞,不需進(jìn)入候選新詞集合,但在計(jì)算詞串共現(xiàn)率時(shí)需要使用,因此仍需統(tǒng)計(jì)該類詞串的詞頻并單獨(dú)保存起來(lái)。其數(shù)據(jù)結(jié)構(gòu)采用stl的hash_map,實(shí)現(xiàn)快速地串頻統(tǒng)計(jì)。
步驟202 :詞串共現(xiàn)率計(jì)算的步驟;使用詞串中所有詞共同出現(xiàn)的概率來(lái)表示其組合成詞的可能性,選取共現(xiàn)率較高的詞串作為候選新詞集合。基于假設(shè)如果組成詞串的所有詞經(jīng)常同時(shí)出現(xiàn),且該組合在這些詞的所有組合中出現(xiàn)的概率較高,則認(rèn)為這個(gè)詞串是一個(gè)新詞。共現(xiàn)率根據(jù)每個(gè)詞的詞頻和整個(gè)詞串的詞頻計(jì)算得到,不是單純使用詞頻閾值進(jìn)行新詞過(guò)濾,解決了基于統(tǒng)計(jì)的方法中由于數(shù)據(jù)稀疏導(dǎo)致的漏識(shí)別低頻新詞的問(wèn)題。所述詞串共現(xiàn)率計(jì)算公式如下
其中,n-gram為候選新詞串,tf (n-gram)是n-gram串在查詢?nèi)罩局械牟樵冾l次,tf (token-k)是第k個(gè)詞在查詢?nèi)罩局械牟樵冾l次。步驟203 :父子串歸并的步驟。根據(jù)n-gram串的定義,高階gram串會(huì)包含低階gram串,則稱聞階gram串為父串,低階gram串為子串。若兩者的頻次相同或相近,說(shuō)明低階gram串每次都是作為高階gram串的子串出現(xiàn),從未或很少單獨(dú)出現(xiàn),因此其無(wú)法單獨(dú)作為新詞,應(yīng)舍棄子串,保留父串。遍歷獲取到的所有n-gram串,如果兩個(gè)串存在父子包含關(guān)系,且兩者的出現(xiàn)頻率相同或相近,則從候選新詞集合中刪除子串。具體實(shí)現(xiàn)如下
步驟2031,遍歷n-gram集合,假設(shè)當(dāng)前n-gram的頻次是n,則輸出其每一個(gè)后綴,頻次也置為n,但為其置上特殊位,標(biāo)識(shí)其為衍生的n-gram。步驟2032,按字典序排序包含衍生n-gram的新候選n-gram集合。步驟2033,遍歷排序后的n-gram集合,讀取當(dāng)前行,如果當(dāng)前n-gram為衍生的n-gram,則從n-gram集合中刪除當(dāng)前詞串,讀取下一行詞串,假設(shè)待處理的n-gram為S。步驟2034,讀取s后續(xù)行對(duì)應(yīng)的詞串,直到第一個(gè)不是以s為前綴的n-gram結(jié)束;根據(jù)頻次比值,判斷以s為前綴的n-gram的頻次是否與s相同或相近;如果存在頻次相同或相近的父串,從初始n-gram集合中刪除S,否則保留S。步驟2035,轉(zhuǎn)步驟2033處理s的下一行詞串,直至處理完所有候選n-gram串。步驟103 :新詞過(guò)濾的步驟。該步驟對(duì)生成的候選新詞集合進(jìn)行過(guò)濾,去除垃圾串。過(guò)濾和剪枝策略分為基本語(yǔ)言學(xué)構(gòu)詞規(guī)則策略和成詞模式過(guò)濾策略。根據(jù)語(yǔ)言學(xué)構(gòu)詞規(guī)則,定義了以下幾種過(guò)濾規(guī)則
I)字?jǐn)?shù)過(guò)濾規(guī)則由于新詞一般都是概括性詞語(yǔ),因此字?jǐn)?shù)不會(huì)過(guò)長(zhǎng),根據(jù)統(tǒng)計(jì)得知,新詞一般均在10字以內(nèi)。因此,本發(fā)明過(guò)濾掉過(guò)長(zhǎng)的候選新詞串。2)純數(shù)字字母串和日期過(guò)濾規(guī)則一般不會(huì)出現(xiàn)單純由數(shù)字和字母組成的新詞或日期與漢字混合組成新詞的情況,如“56kv”或“2012年I月I日”,因此將純數(shù)字串或包含日期的詞串過(guò)濾掉。本發(fā)明定義了識(shí)別數(shù)字、字母和日期的正則表達(dá)式進(jìn)行過(guò)濾處理。3)常見(jiàn)輔助詞過(guò)濾規(guī)則有些常見(jiàn)輔助詞,如“的”、“了”、“是”等,雖然出現(xiàn)頻率較高,但是不應(yīng)作為新詞的詞首或詞尾。使用歷史查詢?nèi)罩緮?shù)據(jù),統(tǒng)計(jì)獲得兩個(gè)詞庫(kù)詞首過(guò)濾詞庫(kù)和詞尾過(guò)濾詞庫(kù)。若當(dāng)前詞串的詞首或詞尾分別在這兩個(gè)詞庫(kù)中,則過(guò)濾掉當(dāng)前詞串。4)常見(jiàn)查詢搭配詞過(guò)濾規(guī)則有些常見(jiàn)查詢?cè)~,如“高清”、“全集”、“優(yōu)酷”等,雖然經(jīng)常與影視劇搭配使用,但是不應(yīng)為新詞的一部分,而將這些詞去除后的串常常為新詞。因此對(duì)包含這種類型詞的串,判斷刪除該類詞后的詞串是否存在于候選新詞集合中,若不存在,則將做刪除操作后的詞串添加到新詞集合中。詞語(yǔ)模式是指詞串中詞的組成方式,如“1-1-1模式”是指詞語(yǔ)由三個(gè)單字詞組成、 “2-1模式”是指詞語(yǔ)由一個(gè)兩字詞和一個(gè)單字詞組成。根據(jù)組成詞語(yǔ)的模式,即成詞模式過(guò)濾策略,分為如下幾類
I)疊詞模式過(guò)濾當(dāng)詞串為1-1…1-1模式時(shí),由于共現(xiàn)率的計(jì)算方式,導(dǎo)致若詞串包含多個(gè)相同單字詞時(shí),其共現(xiàn)率會(huì)較高,然而大部分情況下,由多個(gè)相同字重疊組成的串不應(yīng)作為詞語(yǔ),因此過(guò)濾掉滿足這種條件的1-1…1-1模式串。2)四字詞的2-2模式剪枝當(dāng)四字詞由兩個(gè)二字詞組成,且其中一個(gè)二字詞為人稱代詞,如“我們”、“你們”等,應(yīng)舍棄該詞串。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng),其特征在于,主要包括查詢?nèi)罩绢A(yù)處理模塊、新詞發(fā)現(xiàn)模塊和新詞生成模塊;其中 查詢?nèi)罩绢A(yù)處理模塊,用于根據(jù)設(shè)置的定時(shí)新詞發(fā)現(xiàn)的時(shí)間,定期的從查詢?nèi)罩局蝎@取定時(shí)間隔的這一段時(shí)間內(nèi)的查詢串及查詢頻次,并對(duì)查詢串進(jìn)行分詞處理,保存每個(gè)n-gram串及相應(yīng)的頻次; 新詞發(fā)現(xiàn)模塊,根據(jù)所述查詢串的分詞結(jié)果,統(tǒng)計(jì)相同n-gram串的頻次;根據(jù)單個(gè)詞的頻次和n-gram串的頻次計(jì)算n-gram詞串的共現(xiàn)率,并選取共現(xiàn)率較高的詞串作為候選新詞集合;歸并候選新詞集合中相近頻次的父子串; 新詞生成模塊,對(duì)候選新詞集合應(yīng)用過(guò)濾和剪枝策略,去除候選新詞集合中的垃圾串,得到最終的新詞集合。
2.將最終新詞集合導(dǎo)入分詞詞庫(kù)中,從而實(shí)現(xiàn)增量式新詞發(fā)現(xiàn)。
3.根據(jù)權(quán)利要求I所述的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng),其特征在于,所述過(guò)濾和剪枝策略包括基本語(yǔ)言學(xué)構(gòu)詞規(guī)則策略和成詞模式過(guò)濾策略。
4.根據(jù)權(quán)利要求2所述的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng),其特征在于,所述基本語(yǔ)言學(xué)構(gòu)詞規(guī)則策略,包括字?jǐn)?shù)過(guò)濾規(guī)則,純數(shù)字字母串和日期過(guò)濾規(guī)則,常見(jiàn)輔助詞過(guò)濾規(guī)則和常見(jiàn)查詢搭配詞過(guò)濾規(guī)則。
5.根據(jù)權(quán)利要求2所述的基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng),其特征在于,所述成詞模式過(guò)濾策略,包括疊詞模式過(guò)濾和四字詞的2-2模式剪枝。
6.一種基于查詢?nèi)罩镜男略~自動(dòng)查找方法,其特征在于,該方法包括 A、查詢串的分詞處理步驟選取一段時(shí)間的查詢?nèi)罩?,使用查詢串及查詢頻次,刪除該查詢?nèi)罩局械钠渌畔ⅲ⑹褂梅衷~工具對(duì)查詢串進(jìn)行切分; B、新詞發(fā)現(xiàn)的實(shí)現(xiàn)步驟,包括詞串頻率的統(tǒng)計(jì)、詞串共現(xiàn)率計(jì)算以及父子串歸并; C、新詞過(guò)濾的步驟,包括對(duì)生成的候選新詞集合進(jìn)行過(guò)濾,去除垃圾串。
7.根據(jù)權(quán)利要求5所述的基于查詢?nèi)罩镜男略~自動(dòng)查找方法,其特征在于,步驟A所述使用分詞工具對(duì)查詢串進(jìn)行切分,對(duì)于一個(gè)查詢串,分詞切分時(shí)會(huì)返回多個(gè)粒度的結(jié)果;采用分詞的最大粒度結(jié)果,以保證詞串中任意詞的組合均不為已經(jīng)存在的詞。
8.根據(jù)權(quán)利要求6所述的基于查詢?nèi)罩镜男略~自動(dòng)查找方法,其特征在于,步驟A進(jìn)一步包括按照傳統(tǒng)語(yǔ)言學(xué)概念,將詞語(yǔ)根據(jù)成詞字?jǐn)?shù)分為單元詞、二元詞、三元詞、四元詞和多元詞,并通過(guò)擴(kuò)展該語(yǔ)言學(xué)概念,根據(jù)數(shù)據(jù)串進(jìn)行分詞處理后成詞的詞數(shù),將所述詞串分為2-gram、3-gram、…、n-gram ;詞串中的每個(gè)詞稱為token,則n-gram的格式為[token-1][空格][token-2]…[token-n]。
9.根據(jù)權(quán)利要求5、6或7所述的基于查詢?nèi)罩镜男略~自動(dòng)查找方法,其特征在于 詞串頻率統(tǒng)計(jì),具體為統(tǒng)計(jì)1-gram、2-gram、3-gram、4-gram和5-gram的詞串的頻次,并將相同詞串的詞頻進(jìn)行累加,輸出為n-gram及其詞頻,表示為〈n-gram, tf (n-gram) > ;其中,1-gram的詞是已存在的詞,不需進(jìn)入候選新詞集合,但在計(jì)算詞串共現(xiàn)率時(shí)需要使用,因此仍需統(tǒng)計(jì)該類詞串的詞頻并單獨(dú)保存起來(lái); 詞串共現(xiàn)率計(jì)算,具體為使用詞串中所有詞共同出現(xiàn)的概率來(lái)表示其組合成詞的可能性,選取共現(xiàn)率較高的詞串作為候選新詞集合;所述共現(xiàn)率根據(jù)每個(gè)詞的詞頻和整個(gè)詞串的詞頻計(jì)算得到,以解決基于統(tǒng)計(jì)的方法中單純根據(jù)單個(gè)詞的詞頻篩選時(shí),由于數(shù)據(jù)稀疏而導(dǎo)致的漏識(shí)別低頻新詞的問(wèn)題; 父子串歸并,具體為遍歷獲取到的所有n-gram串,如果兩個(gè)詞串存在父子包含關(guān)系,且兩者的查詢頻率相同或相近,則從候選新詞集合中刪除子串。
10.根據(jù)權(quán)利要求5所述的基于查詢?nèi)罩镜男略~自動(dòng)查找方法,其特征在于,步驟C所述新詞過(guò)濾策略,具體為根據(jù)語(yǔ)言學(xué)構(gòu)詞規(guī)則統(tǒng)計(jì)及成詞模式研究獲得垃圾串過(guò)濾規(guī)則,主要包括字?jǐn)?shù)過(guò)濾規(guī)則、純數(shù)字字母串和日期過(guò)濾規(guī)則、常見(jiàn)輔助詞過(guò)濾規(guī)則、常見(jiàn)查詢?cè)~過(guò)濾枝規(guī)則及疊詞模式過(guò)濾規(guī)則、2-2模式剪枝規(guī)則。
全文摘要
本發(fā)明公開了一種基于查詢?nèi)罩镜男略~自動(dòng)查找系統(tǒng)及方法,主要包括查詢?nèi)罩绢A(yù)處理模塊,用于根據(jù)設(shè)置的定時(shí)新詞發(fā)現(xiàn)的時(shí)間,定期從查詢?nèi)罩局蝎@取定時(shí)間隔的這一段時(shí)間內(nèi)的查詢串及查詢頻次等;新詞發(fā)現(xiàn)模塊,根據(jù)所述查詢串的分詞結(jié)果,統(tǒng)計(jì)相同n-gram串的頻次;計(jì)算n-gram詞串的共現(xiàn)率;歸并候選新詞集合中相近頻次的父子串;新詞生成模塊,對(duì)候選新詞集合應(yīng)用過(guò)濾和剪枝策略,去除候選新詞集合中的垃圾串,得到最終的新詞集合。采用本發(fā)明,解決現(xiàn)有統(tǒng)計(jì)方法的語(yǔ)料庫(kù)難獲取和規(guī)則方法的不易擴(kuò)展等問(wèn)題,通過(guò)使用詞串共現(xiàn)率,輔以過(guò)濾策略,能夠簡(jiǎn)便易行地從查詢?nèi)罩局凶詣?dòng)發(fā)現(xiàn)新詞,將最終新詞集合導(dǎo)入分詞詞庫(kù)中,從而實(shí)現(xiàn)增量式新詞發(fā)現(xiàn)。
文檔編號(hào)G06F17/30GK102831194SQ20121027490
公開日2012年12月19日 申請(qǐng)日期2012年8月3日 優(yōu)先權(quán)日2012年8月3日
發(fā)明者張愛(ài)琦, 崔世起, 楊青 申請(qǐng)人:人民搜索網(wǎng)絡(luò)股份公司