專利名稱:一種新詞發(fā)現方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及一種文本信息處理領域,特別是一種利用搜索引擎來輔助發(fā)現 語料中新詞的方法和系統(tǒng)。
背景技術:
在自然語言處理或計算語言學中,新詞是指以前從來沒有出現過的詞匯, 或者是以前出現過的詞匯的新用法。新詞一般在詞典中沒有收錄,因此也有不 少人把新詞等同于未登錄詞。隨著時代的進步和經濟的發(fā)展,在人們日常生活的各方各面都不斷涌現出 大量的新詞,尤其是隨著互聯網在中國的日益普及,大量網絡新詞層出不窮, 日常生活中產生的新詞也得以更快的傳播。據報道,我國每年至少出現漢語新詞或新用法iooo個以上。新詞出現的速度不斷加快,新詞出現的領域不斷增多,而使用傳統(tǒng)的人工方法搜集新詞語并編篡詞典的方法,既耗時又耗力,而 且很難保證不遺漏新詞。人們迫切需要使用自動檢測方法快速輸出若干候選新 詞供人工篩選,從而減輕工作量。在每個學科和領域都有相應的領域術語,收 集和整理這些領域術語對各領域的學術研究和交流也具有重要的意義。然而領域專家一般不是詞典編篡專家,領域專家一般很難勝任領域術語的編篡工作; 而詞典編篡專家一般也不是特定領域的技術專家,所以詞典編篡專家也很難單 獨編寫各領域的領域詞典。人們在編篡領域詞典的時候也迫切希望通過計算機 處理相關的領域語料,自動挖掘該領域的候選術語集合,在此基礎上進行人工編篡c現有一種利用搜索引擎的用戶搜索日志來發(fā)現新詞的方法,在大量用戶提 交的搜索關鍵詞中統(tǒng)計各關鍵詞的出現頻次,如果大于某個預先設定的閾值, 則作為新詞輸出,該方法能夠比較準確、實時地發(fā)現互聯網的新詞。但是其很 難用于特定領域的術語抽取和領域詞典編篡,而且該方法所需要的搜索日志一 般只有商用搜索引擎公司可以獲得, 一般用戶根本無法使用該方法。
也有學者提出了 "有意義串"的概念,有意義串一般認為是具有特定語義, 能夠獨立使用的語言單位,其很大一部分就是新詞?,F有技術一般通過考查字符串的穩(wěn)定性、獨立性和完整性三個方面來判斷 字符串是否是有意義串。有意義串的穩(wěn)定性是指一個有意義串應該具有一定的 使用頻次,不是偶爾出現的字符串;有意義串的獨立性是指有意義串應該使用 靈活,可以在很多語用環(huán)境中出現;有意義串的完整性是指有意義串應具有完整的語義?,F有技術中,判斷一個字符串是否是有意義的, 一般也可以從穩(wěn)定性、獨 立性和完整性三個方面考査。首先統(tǒng)計字符串在語料中的出現頻次,如果字符串的出現頻次大于一定閾值, 一般認為字符串是穩(wěn)定的;再統(tǒng)計字符串在語料 中所有出現位置左側和右側不同的字符或詞語的數量,如果左右兩側不同的字 符或詞語數量大于一定閾值,則認為字符串是獨立的;然后判斷字符串A是 否是完整的,即當且僅當不存在任何字符串B,字符串A是B的子串,且字 符串B的出現頻次也大于預先設定的閾值。但是,基于字符串的穩(wěn)定性、獨立性和完整性三個方面判斷字符串是否為 有意義串或新詞的方法,很難設定一個合適的閾值。閾值太小,新詞發(fā)現的準 確率很低,很多沒有意義的垃圾串有可能輸出;閾值太大,語料中部分有意義 串或新詞將不能輸出。基于字符串的穩(wěn)定性、獨立性和完整性的方法也只能識 別大規(guī)模語料中出現頻次比較高的那部分新詞,對于部分具有明確語義,能夠 獨立使用的新詞,很可能由于在語料中的使用頻次不是很高而不能輸出。發(fā)明內容本發(fā)明所要解決的技術問題在于提供一種新詞發(fā)現方法和系統(tǒng),既能夠有 效發(fā)現語料中的高頻新詞,又能有效發(fā)現語料中出現頻次較低的新詞。為了解決上述問題,本發(fā)明提供了一種新詞發(fā)現方法,其特點在于,包括 以下步驟步驟A,獲取語料中出現頻次大于第一預設閾值的所有字符串; 歩驟B,確定符合預先設定規(guī)則的字符串;步驟C,對剩余的字符串,計算每個字符串在語料中所有位置的左右側不 同字符或詞語的數量;
步驟D,將所述剩余的字符串左右側不同字符或詞語數均大于第二預設閾 值的字符串,作為新詞輸出;步驟E,將剩下的字符串作為查詢關鍵詞,到搜索引擎中進行搜索,統(tǒng)計 返回的搜索結果數量、以及搜索結果記錄;步驟F,根據返回的搜索結果數量和搜索結果記錄與預設閾值比較結果, 判斷并確定最終新詞。優(yōu)選的,所述的新詞發(fā)現方法,所述步驟A中,所述獲取字符串是使用 重復串發(fā)現方法獲取語料中出現頻次大于第一預設閾值的所有字符串。優(yōu)選的,所述的新詞發(fā)現方法,所述重復串發(fā)現方法為基于后綴樹索引的 重復串發(fā)現方法、基于后綴數組的重復串發(fā)現方法、基于N元遞增的重復串 發(fā)現方法、以及基于Apriori的重復串發(fā)現方法中的一種。優(yōu)選的,所述的新詞發(fā)現方法,確定符合預先設定規(guī)則的字符串,所述步 驟B中,所述預先設定規(guī)則為去掉以特定字符開始的字符串;和/或去掉以特定字符結束的字符串。優(yōu)選的,所述的新詞發(fā)現方法,所述步驟E中,所述在搜索引擎中進行搜 索,統(tǒng)計返回的搜索結果數量、以及搜索結果記錄,包括如下步驟在搜索引擎中進行精確搜索,或進行精確搜索和模糊搜索,統(tǒng)計返回的精 確搜索結果數量、模糊搜索結果數量、以及精確搜索前多條結果記錄。優(yōu)選的,所述的新詞發(fā)現方法,所述歩驟E中,返回的搜索結果數量和搜 索結果記錄與預設閾值的比較結果,具體為返回的精確搜索結果數大于第三預設閾值;和/或精確搜索結果數與模糊搜索結果數的比值大于第四預設閾值;和/或字符串在精確搜索前多條結果記錄中的左右側不同字符或詞語數量 均大于第五預設閾值。優(yōu)選的,所述的新詞發(fā)現方法,通過將剩下的字符串作為查詢關鍵詞直接 輸入到搜索框查詢,分別到搜索引擎進行精確搜索和模糊搜索,獲得返回的精 確搜索結果數量和模糊搜索結果數量。優(yōu)選的,所述的新詞發(fā)現方法,所述步驟F中,所述判斷并確定最終新詞, 包括以下步驟中的一個或一個以上的組合 步驟Fl,如果精確搜索結果數量大于所述第三預設閾值,則將該字符串 作為最終新詞輸出;步驟F2,如果精確搜索結果數與模糊搜索結果數的比值大于所述第四預 設閾值,則將該字符串作為最終新詞輸出;步驟F3,如果在精確搜索前多條結果記錄中該字符串左右側不同的字符 或詞語數量均大于所述第五預設閾值,則將該字符串作為最終新詞輸出。為實現本發(fā)明目的還提供一種新詞發(fā)現系統(tǒng),包括獲取模塊,過濾模塊, 搜索模塊和判斷模塊,其中所述獲取模塊,用于獲取語料中出現頻次大于第一預設閥值的所有字符串;所述過濾模塊,用于確定符合預先設定規(guī)則的字符串集合,并對符合預先 設定規(guī)則的字符串,計算每個字符串在語料中所有位置的左右側不同字符或詞 語的數量,將左右側不同字符或詞語數大于第二預設閾值的字符串作為新詞輸 出;所述搜索模塊,用于將剩下的字符串作為査詢關鍵詞,在搜索引擎中進行 搜索,統(tǒng)計返回的搜索結果數量、以及搜索結果記錄;所述判斷模塊,用于根據返回的搜索結果數量和搜索結果記錄與預設閾值 的比較結果,判斷并確定最終新詞。所述搜索模塊中的搜索是指精確搜索,或者精確搜索和模糊搜索;所述搜 索模塊中的搜索結果數量,是指精確搜索結果數量、模糊搜索結果數量;所述 搜索模塊中的搜索結果記錄,是指精確搜索前多條結果記錄。所述判斷模塊中返回的搜索結果數量和搜索結果記錄與預設閾值的比較 結果,是指返回的精確搜索結果數大于第三預設閾值;和/或精確搜索結果數與模糊搜索結果數的比值大于第四預設閾值; 和/或字符串在返回的精確搜索前多條結果記錄中的左右側不同字符或詞 語數量均大于第五預設閾值。本發(fā)明所述方法與現有技術相比,具有以下優(yōu)點1、采用計算機自動處理,獲取語料中的新詞,可以大大縮減人工收集和 整理新詞的時間;
2、 如果語料為特定領域的語料,則可以實現領域術語的挖掘并實現領域 詞典的自動生成,縮減領域專家和詞典編篡專家的工作量;3、 不僅可以發(fā)現大規(guī)模語料的新詞,也可以發(fā)現小規(guī)模語料的新詞;既 可以發(fā)現語料中出現頻次較高的新詞,也可以發(fā)現語料中頻次較低的新詞。
圖1是本發(fā)明新詞發(fā)現方法過程的流程圖; 圖2是本發(fā)明新詞發(fā)現系統(tǒng)示意圖。
具體實施方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實 施例,對本發(fā)明的一種新詞發(fā)現方法和系統(tǒng)進行進一步詳細說明。應當理解, 此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明的核心思想在于,當一個字符串在語料中的出現頻次較低時,已有 的方法無法有效判斷該字符串是否為新詞;或者當語料規(guī)模不足夠大時,可能 語料中有很多新詞由于頻次不是很高而不能有效識別,而本發(fā)明到搜索引擎分 別精確搜索和/或模糊搜索低頻字符串,這相當于使用了搜索引擎索引了的龐 大的數據庫作為語料,無疑擴展了語料的規(guī)模,從而能夠發(fā)現一部分原始語料 中頻次較低的新詞。例如,在《西游記》 一書中,"鐵扇公主" 一詞只在孫行者三調芭蕉扇時 出現,而在其它章節(jié)沒有出現,在《西游記》全書中總共才出現6次,使用已 有方法幾乎都不可能發(fā)現這個新詞。而在百度中精確搜索可以找到251,000篇 與"鐵扇公主"相關的網頁,通過對精確搜索返回結果數量和精確搜索返回結 果記錄左右側不同字符數量的統(tǒng)計都可以識別"鐵扇公主"為新詞。本發(fā)明利用搜索引擎發(fā)現新詞的方法包括以下步驟步驟Sl,獲取語料中出現頻次大于第一預設閾值的所有字符串。步驟S2,確定符合預先設定規(guī)則的字符串。所述預先設定的規(guī)則可以是 去掉以特定字符開始的字符串;和/或去掉以特定字符結束的字符串。步驟S3,計算每個字符串在語料中所有位置的左右側不同字符或詞語的 數量。
例如,假設字符串"禽流感"在如下五個句子出現 鐘南1//透露禽流感病毒滯未剪顯變異。 廣東的鵬禽流慼形勢遭緩。7 A感染禽流感事伴。 發(fā)現一宗禽流感疑似病樹。 領布5條禁令你控禽流感。 則"禽流感"左側的字符分別為{露,控,染,宗,控},右側的字符為{病, 形,事,疑,EOS},因此左側不同的字符有為{露,控、染,宗},右側不同的字符為{病,形,事,疑,EOS},其中EOS表示句子結束。通過這種方法 即可計算出每個字符串在語料中所有位置的左右側不同字符或詞語的數量。步驟S4,若字符串左右側不同字符或詞語數均大于第二預設閾值,則將 該字符串作為新詞輸出。步驟S5,將剩下的字符串作為查詢關鍵詞,到搜索引擎中進行精確搜索, 或進行精確搜索和模糊搜索,并由此統(tǒng)計返回的精確搜索結果數量、模糊搜索 結果數量、以及精確搜索的前多條結果記錄;步驟S6,若返回的精確搜索結果數大于第三預設閾值,和/或精確搜索結 果數與模糊搜索結果數的比值大于第四預設閾值,和/或字符串在精確搜索前 多條返回結果記錄中的左右側不同字符或詞語數量均大于第五預設閾值,則將 該字符串作為新詞輸出。在本發(fā)明中,利用搜索引擎進行精確搜索和模糊搜索,根據精確搜索返回 結果數、模糊搜索返回結果數、以及精確搜索前多條結果記錄等,判斷剩下的 字符串(即頻次較低的字符串)是否為新詞,例如,通過如下幾個步驟中的其 中 一個或任意幾個步驟來輔助判斷剩下的字符串是否為新詞(1) 如果精確搜索結果數量大于第三預設閾值,則將該字符串作為 新詞輸出。(2) 如果精確搜索結果數與模糊搜索結果數的比值大于第四預設閾 值,則將該字符串作為新詞輸出。(3) 如果在前多條精確搜索結果記錄中該字符串左右側不同的字符 或詞語數量均大于第五預設閾值,則將該字符串作為最終新詞 輸出。 例如,如果在剩下的字符串中有"足球寶貝",在比較常用的搜索引擎如百度中精確搜索"足球寶貝"可以返回4,440,000個返回結果,模糊搜索"足 球寶貝"可以返回4,450,000個返回結果,可以看出在一般網頁中若既出現"足 球" 一詞,又出現"寶貝" 一詞,則很可能是"足球"和"寶貝"連續(xù)出現且 "足球"在"寶貝"之前,字符串"足球寶貝"很可能是一個新詞。再例如,在百度中精確搜索"火速桌面搜索"返回2,690個結果,而模糊 搜索"火速桌面搜索"返回250,000個結果。獲取精確搜索"火速桌面搜索" 的前100條結果記錄,"火速桌面搜索"左右側不同的字符數分別為124和 97,若左右側不同字符數閾值為90,則"火速桌面搜索"應作為新詞輸出。本發(fā)明中所述的所有閥值可以分別通過預先設定而得到,也可以通過語料 訓練而得到。語料訓練方法是一種現有技術,如通過隱馬爾可夫模型(Hidden Markov Model, HMM)對訓練語料進行訓練的方法。其不是本發(fā)明的發(fā)明點,因此, 在本發(fā)明中不再一一詳細描述。下面結合圖1對本發(fā)明的具體實施方式
進行詳細說明。步驟101,獲取語料中所有出現頻次大于預設閾值的字符串??梢允褂酶鞣N重復串發(fā)現方法,或者是基于后綴樹索引的重復串發(fā)現方法;或者是基于后綴數組的重復串發(fā)現方法;或者是基于N元遞增的重復串發(fā)現方法;或者是基于Apriori的重復串發(fā)現方法等,來獲取語料中所有出現頻次大于預設閥值的字符串。重復串發(fā)現方法可以基于字符發(fā)現頻次大于閾值的若干個連續(xù)的字符,也可以先對語料進行分詞,發(fā)現頻次大于閾值的若干個連續(xù)的詞語。步驟102,確定符合預先設定規(guī)則的字符串,對步驟101中產生的字符串按照預先設定的規(guī)則進行過濾,過濾掉一些不能為新詞的字符串,過濾掉以特定字符開始或結束的字符串,例如以"們"開始的字符串或以"的"結束的字符串很多都不能為新詞,可以過濾掉。步驟103,統(tǒng)計字符串左側右側不同的字符(或詞語)的數量,如果左側或右側不同的字符(或詞語)的數量大于一預先設定的閾值,則將字符串作為新詞輸出。步驟104,將剩下的字符串作為出現關鍵詞到搜索引擎(如Google)做精 確搜索和模糊搜索,獲取精確搜索和模糊搜索的返回結果數,若精確搜索返回 結果數大于一閾值,或精確搜索返回結果數與模糊搜索返回結果數之比大于一 閾值,則將該字符串作為新詞輸出。步驟105,獲取精確搜索的前多條搜索記錄。步驟106,統(tǒng)計在精確搜索前多條記錄中字符串左側和右側的不同字符 (或詞語),如果左右兩側不同字符(或詞語)的數量均大于一定閾值,則將 字符串作為新詞輸出。相應于本發(fā)明的新詞發(fā)現方法,本發(fā)明還提供一種新詞發(fā)現系統(tǒng),其包括 獲取模塊,過濾模塊,搜索模塊和判斷模塊,其中所述獲取模塊,用于獲取語料中所有出現頻次大于第一預設閥值的字符串;所述過濾模塊,用于確定符合預先設定規(guī)則的字符串集合,過濾掉不符合預先設定規(guī)則的字符串;并對符合預先設定規(guī)則的字符串,計算每個字符串在語料中所有位置的左右側不同字符或詞語的數量,若字符串左右側不同字符或詞語數大于第二預設閾值,則將字符串作為新詞輸出;所述搜索模塊,用于將剩下的字符串作為査詢關鍵詞,在搜索引擎中進行 搜索,統(tǒng)計返回的搜索結果數量、以及搜索結果記錄;所述判斷模塊,用于根據返回的搜索結果數量和搜索結果記錄與預設閾值 的比較結果,判斷并確定最終新詞。搜索模塊在搜索引擎中進行精確搜索,或進行精確搜索和模糊搜索,統(tǒng)計 返回的精確搜索結果數量、模糊搜索結果數量、以及返回的精確搜索前多條結 果記錄。判斷模塊中將返回的搜索結果數量和搜索結果記錄與預設閾值的比較結 果,是指返回的精確搜索結果數大于第三預設閾值;和/或精確搜索結果數 與模糊搜索結果數的比值大于第四預設閾值;和/或字符串在精確搜索返回的 前多條結果記錄中的左右側不同字符或詞語數量均大于第五預設閾值。判斷模塊判斷并確定最終新詞,是指以下過程中的一個或一個以上的組合.如果精確搜索結果數量大于所述第三預設閾值,則將該字符串作為最終新
詞輸出;如果精確搜索結果數與模糊搜索結果數的比值大于所述第四預設閾值,則 將該字符串作為最終新詞輸出;如果精確搜索前多條結果記錄中該字符串左右側不同的字符或詞語數量 均大于所述第五預設閾值,則將該字符串作為最終新詞輸出。本發(fā)明中的一種新詞發(fā)現系統(tǒng),以與本發(fā)明的一種新詞發(fā)現方法相同的過 程進行工作,因此,在本發(fā)明實施例中,不再一一進行重復詳細描述。本發(fā)明所述的新詞發(fā)現方法和系統(tǒng)采用計算機自動處理,獲取語料中的新 詞,可以大大縮減人工收集和整理新詞的時間,如果語料為特定領域的語料, 則可以實現領域術語的挖掘并實現領域詞典的自動生成,縮減領域專家和詞典編篡專家的工作量;而且,其不僅可以發(fā)現大規(guī)模語料的新詞,也可以發(fā)現小 規(guī)模語料的新詞;既可以發(fā)現語料中出現頻次較高的新詞,也可以發(fā)現語料中 頻次較低的新詞。當然,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質的情 況下,熟悉本領域的技術人員當可根據本發(fā)明作出各種相應的改變和變型,但 這些相應的改變和變形都應屬于本發(fā)明所附的權利要求的保護范圍。
權利要求
1、一種新詞發(fā)現方法,其特征在于,包括以下步驟步驟A,獲取語料中出現頻次大于第一預設閾值的所有字符串;步驟B,確定符合預先設定規(guī)則的字符串;步驟C,對剩余的字符串,計算每個字符串在語料中所有位置的左右側不同字符或詞語的數量;步驟D,將所述剩余的字符串中左右側不同字符或詞語數大于第二預設閾值的字符串,作為新詞輸出;步驟E,將剩下的字符串作為查詢關鍵詞,在搜索引擎中進行搜索,統(tǒng)計返回的搜索結果數量、以及搜索結果記錄;步驟F,根據返回的搜索結果數量和搜索結果記錄與預設閾值的比較結果,判斷并確定最終新詞。
2、 根據權利要求1所述的新詞發(fā)現方法,其特征在于,所述步驟A中, 所述獲取字符串是使用重復串發(fā)現方法獲取語料中出現頻次大于第一預設閾 值的所有字符串。
3、 根據權利要求2所述的新詞發(fā)現方法,其特征在于,所述重復串發(fā)現 方法為基于后綴樹索引的重復串發(fā)現方法、基于后綴數組的重復串發(fā)現方法、 基于N元遞增的重復串發(fā)現方法、以及基于Apriori的重復串發(fā)現方法中的一 種。
4、 根據權利要求1所述的新詞發(fā)現方法,其特征在于,所述歩驟B中, 所述預先設定規(guī)則為去掉以特定字符開始的字符串;和/或 去掉以特定字符結束的字符串。
5、 根據權利要求1所述的新詞發(fā)現方法,其特征在于,所述步驟E中, 所述在搜索引擎中進行搜索,統(tǒng)計返回的搜索結果數量、以及搜索結果記錄, 包括如下步驟在搜索引擎中進行精確搜索,或進行精確搜索和模糊搜索,統(tǒng)計返回的精 確搜索結果數量、模糊搜索結果數量、以及精確搜索前多條結果記錄。
6、 根據權利要求5所述的新詞發(fā)現方法,其特征在于,所述步驟E中,返回的搜索結果數量和搜索結果記錄與預設閾值的比較結果,具體為 返回的精確搜索結果數大于第三預設閾值;和/或精確搜索結果數與模糊搜索結果數的比值大于第四預設閾值; 和/或字符串在精確搜索前多條結果記錄中的左右側不同字符或詞語數量 均大于第五預設閾值。
7、 根據權利要求6所述的新詞發(fā)現方法,其特征在于,所述歩驟F中, 所述判斷并確定最終新詞,包括以下步驟中的一個或一個以上的組合步驟Fl,如果精確搜索結果數量大于所述第三預設閾值,則將該字符串 作為最終新詞輸出;步驟F2,如果精確搜索結果數與模糊搜索結果數的比值大于所述第四預 設閾值,則將該字符串作為最終新詞輸出;步驟F3,如果在精確搜索前多條結果記錄中該字符串左右側不同的字符 或詞語數量均大于所述第五預設閾值,則將該字符串作為最終新詞輸出。
8、 一種新詞發(fā)現系統(tǒng),其特征在于,包括獲取模塊,過濾模塊,搜索模 塊和判斷模塊,其中所述獲取模塊,用于獲取語料中出現頻次大于第一預設閥值的所有字符串;所述過濾模塊,用于確定符合預先設定規(guī)則的字符串集合,并對符合預先 設定規(guī)則的字符串,計算每個字符串在語料中所有位置的左右側不同字符或詞 語的數量,將左右側不同字符或詞語數大于第二預設閾值的字符串作為新詞輸 出;所述搜索模塊,用于將剩下的字符串作為查詢關鍵詞,在搜索引擎中進行 搜索,統(tǒng)計返回的搜索結果數量、以及搜索結果記錄;所述判斷模塊,用于根據返回的搜索結果數量和搜索結果記錄與預設閾值 的比較結果,判斷并確定最終新詞。
9、 根據權利要求8所述的新詞發(fā)現系統(tǒng),其特征在于,所述搜索模塊中 的搜索是指精確搜索,或者精確搜索和模糊搜索;所述搜索模塊中的搜索結果 數量,是指精確搜索結果數量、模糊搜索結果數量;所述搜索模塊中的搜索結 果記錄,是指精確搜索前多條結果記錄。
10、 根據權利要求9所述的新詞發(fā)現系統(tǒng),其特征在于,所述判斷模塊中 返回的搜索結果數量和搜索結果記錄與預設閾值的比較結果,是指 返回的精確搜索結果數大于第三預設閾值;和/或精確搜索結果數與模糊搜索結果數的比值大于第四預設閾值;和/或字符串在返回的精確搜索前多條結果記錄中的左右側不同字符或詞 語數量均大于第五預設閾值。
全文摘要
本發(fā)明公開了一種發(fā)現新詞的方法,包括以下步驟查找語料中所有出現頻次大于一定閾值的字符串;統(tǒng)計每一個字符串在語料中所有出現位置的左側和右側各有多少個不同的字符或詞語;若字符串左右側不同字符或詞語數量均大于某個預先設定的閾值,則將該字符串作為新詞輸出;否則在搜索引擎網站對字符串進行精確搜索和模糊搜索,若精確搜索返回結果數量大于一定閾值,和/或精確搜索和模糊搜索返回的結果數量之比大于一定閾值,和/或精確搜索返回結果網頁中字符串的左右側字符或詞語種類數大于一定閾值,則將該字符串作為新詞輸出。本發(fā)明既能夠發(fā)現在語料中出現頻次較高的新詞,也能夠發(fā)現在語料中出現頻次較低的新詞,同時新詞發(fā)現的準確率較高。
文檔編號G06F17/30GK101131705SQ200710175229
公開日2008年2月27日 申請日期2007年9月27日 優(yōu)先權日2007年9月27日
發(fā)明者黃玉蘭, 龔才春 申請人:中國科學院計算技術研究所