文本的標(biāo)識(shí)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)信息技術(shù)領(lǐng)域,特別是涉及文本的標(biāo)識(shí)方法及文本的標(biāo)識(shí)裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們借助網(wǎng)絡(luò)傳播平臺(tái)可以獲取到大量資訊。很多資訊以文本的形式提供給人們。
[0003]為了存儲(chǔ)和標(biāo)識(shí)海量文本,已開發(fā)出許多文本的標(biāo)識(shí)手段。例如,人們熟知的通過TFIDF算法獲取文本的特征向量,然后再通過最小哈希(hash)算法對(duì)向量信息進(jìn)行壓縮,獲得文本的特征指紋,由此大可以大大節(jié)約文本的空間。
[0004]但是,如果兩個(gè)文本相似,特征向量中需要取樣足夠多的元素,才能確保兩個(gè)文本的特征指紋不同,但這樣就會(huì)造成標(biāo)識(shí)文本的空間較大。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了一種文本的標(biāo)識(shí)方法和標(biāo)識(shí)裝置,能夠通過多個(gè)特征指紋來標(biāo)識(shí)文本。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提供了一種文本的標(biāo)識(shí)方法,包括:
[0007]選取待標(biāo)識(shí)的第一文本;
[0008]根據(jù)多個(gè)標(biāo)桿文本,分別確定第一文本的多個(gè)特征指紋;
[0009]根據(jù)所述多個(gè)特征指紋,標(biāo)識(shí)所述第一文本。
[0010]可選地,通過以下方式獲得特征指紋:
[0011]獲取所述第一文本的第一特征向量;
[0012]根據(jù)所述標(biāo)桿文本,確定所述第一文本的第一特征向量中各元素的權(quán)重;
[0013]根據(jù)所述權(quán)重,獲得所述第一文本的特征指紋。
[0014]可選地,所述根據(jù)權(quán)重獲得第一文本的特征指紋,包括:
[0015]根據(jù)所述權(quán)重,在所述第一特征向量的基礎(chǔ)上,建立所述第一文本的第二特征向量;
[0016]根據(jù)所述第二特征向量,生成所述第一文本的特征指紋。
[0017]可選地,所述根據(jù)第二特征向量生成第一文本的特征指紋,包括:
[0018]根據(jù)所述第二特征向量,基于所述第一文本與所述標(biāo)桿文本之間的距離,生成所述第一文本的特征指紋。
[0019]可選地,通過最小哈希運(yùn)算,確定所述第一文本與所述標(biāo)桿文本之間的距離。
[0020]可選地,所述第二特征向量中的各元素的數(shù)量滿足各元素的權(quán)重之間的倍數(shù)關(guān)系O
[0021 ]可選地,所述獲取第一文本的第一特征向量,包括:
[0022]根據(jù)字詞序列中字詞出現(xiàn)頻率由高到低的順序排列字詞,并由前至后取出預(yù)設(shè)數(shù)量的字詞作為所述第一文本的第一特征向量。
[0023]可選地,將所述第一文本進(jìn)行分詞處理,再進(jìn)行去無用信息處理后形成排序前的字詞序列。
[0024]可選地,所述特征向量從以下的一個(gè)或多個(gè)中提取:文本標(biāo)題,文本摘要,文本正文。
[0025]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種文本的標(biāo)識(shí)裝置,包括:
[0026]選取模塊,用于選取待標(biāo)識(shí)的第一文本;
[0027]確定模塊,用于根據(jù)多個(gè)標(biāo)桿文本,分別確定第一文本的多個(gè)特征指紋;
[0028]標(biāo)識(shí)模塊,用于根據(jù)所述多個(gè)特征指紋,標(biāo)識(shí)所述第一文本。
[0029]可選地,所述確定模塊通過以下方式獲得特征指紋:
[0030]獲取所述第一文本的第一特征向量;
[0031]根據(jù)所述標(biāo)桿文本,確定所述第一文本的第一特征向量中各元素的權(quán)重;
[0032]根據(jù)所述權(quán)重,獲得所述第一文本的特征指紋。
[0033]進(jìn)一步,所述確定模塊通過以下方式獲得第一文本的特征指紋:
[0034]根據(jù)所述權(quán)重,在所述第一特征向量的基礎(chǔ)上,建立所述第一文本的第二特征向量;
[0035]根據(jù)所述第二特征向量,生成所述第一文本的特征指紋。
[0036]可選地,所述確定模塊通過以下方式生成第一文本的特征指紋:
[0037]根據(jù)所述第二特征向量,基于所述第一文本與所述標(biāo)桿文本之間的距離,生成所述第一文本的特征指紋。
[0038]可選地,通過最小哈希運(yùn)算,確定所述第一文本與所述標(biāo)桿文本之間的距離。
[0039]可選地,所述第二特征向量中的各元素的數(shù)量滿足各元素的權(quán)重之間的倍數(shù)關(guān)系O
[0040]可選地,所述獲取模塊用于根據(jù)字詞序列中字詞出現(xiàn)頻率由高到低的順序排列字詞,并由前至后取出預(yù)設(shè)數(shù)量的字詞作為所述第一文本的第一特征向量。
[0041]可選地,所述獲取模塊用于將所述第一文本進(jìn)行分詞處理,再進(jìn)行去無用信息處理后形成排序前的字詞序列。
[0042]綜上所述,根據(jù)本發(fā)明實(shí)施例的文本的標(biāo)識(shí)方法及標(biāo)識(shí)裝置通過依據(jù)多個(gè)標(biāo)桿文本為待標(biāo)識(shí)的文本生產(chǎn)多個(gè)特征指紋來標(biāo)識(shí),從而增加了該文本的可識(shí)別性,大大壓縮了文本的空間大小。
[0043]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0044]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0045]圖1是根據(jù)本發(fā)明實(shí)施例的文本的標(biāo)識(shí)方法的步驟流程圖;
[0046]圖2是根據(jù)本發(fā)明實(shí)施例的獲得特征指紋的步驟流程圖;
[0047]圖3是根據(jù)本發(fā)明實(shí)施例的文本的標(biāo)識(shí)裝置的結(jié)構(gòu)示意圖;
【具體實(shí)施方式】
[0048]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0049]參照?qǐng)D1,示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的文本的標(biāo)識(shí)方法的流程圖。如圖所示,該方法包括如下步驟:
[0050]11,選取待標(biāo)識(shí)的第一文本。
[0051]在確定了待標(biāo)識(shí)的第一文本之后,就可以獲取其第一特征向量。
[0052]一般而言,對(duì)第一文本首先進(jìn)行分詞處理,獲得多個(gè)字詞。經(jīng)過分詞處理后的字詞,還可能包括了無用信息。通常,根據(jù)這些字詞在文本中出現(xiàn)的頻率以由高到低的順序進(jìn)行排列,再將排在前面的預(yù)設(shè)數(shù)量的字詞作為該第一文本的第一特征向量。
[0053]進(jìn)一步地,可以將文本中出現(xiàn)的無用信息去除,比如“的”、“地”、“得”等。無用信息可以將之分為標(biāo)點(diǎn)符號(hào),與結(jié)構(gòu)助詞虛詞等在漢語(yǔ)中無意義的詞匯。這次字詞在文本中出現(xiàn)的頻率高,但卻往往沒有實(shí)際意義,因此生產(chǎn)特征向量時(shí)需要忽略這些字詞。即,將所述第一文本進(jìn)行分詞處理,再進(jìn)行去無用信息處理后形成排序前的字詞序列。
[0054]可選的,可以將去無用信息處理后得到的字詞作為新聞的特征向量?;蛘咛崛∪o用信息處理后得到的字詞中具有代表性的字詞構(gòu)成新聞的特征向量。
[0055]例如,對(duì)于一篇新聞報(bào)道網(wǎng)頁(yè),經(jīng)過分詞以及去無用信息處理后,獲得一個(gè)字詞序列S= (SI, S2, S3......,SN),其中S1、s2、s3等表示經(jīng)過分詞以及去無用信息處理后的字詞。
[0056]字詞序列S中可能會(huì)出現(xiàn)相同的字詞,因此可對(duì)字詞序列中的字詞進(jìn)行相關(guān)詞頻統(tǒng)計(jì),再進(jìn)一步按照字詞出現(xiàn)次數(shù)由高到低的順序進(jìn)行排列,由前至后取出預(yù)設(shè)數(shù)量的字符作為該新聞文本的特征向量。
[0057]可以理解,特征向量中元素的來源可以從以下的一個(gè)或多個(gè)中提取:文本標(biāo)題,文本摘要,文本正文。
[0058]12,根據(jù)多個(gè)標(biāo)桿文本,分別確定第一文本的多個(gè)特征指紋。
[0059]將第一文本分別針對(duì)每個(gè)標(biāo)桿文本獲得一個(gè)特征指紋,共有幾個(gè)標(biāo)桿文件,就能獲得幾個(gè)特征指紋。
[0060]其中,第一文本根據(jù)標(biāo)桿文件獲得特征指紋的步驟如下:
[0061]S121,獲取所述第一文本的第一特征向量;
[0062]S122,根據(jù)所述標(biāo)桿文本,確定所述第一文本的第一特征向量中各元素的權(quán)重;
[0063]在本發(fā)明的實(shí)施例中,權(quán)重的可以采用以下方法確定:
[0064]字詞頻率TF表示某一字詞Ti在某一文檔Dj中出現(xiàn)的頻率,Ti出現(xiàn)的頻率越高,TFi越高,說明這個(gè)字詞對(duì)于整個(gè)文檔越重要,例如,對(duì)于一篇談?wù)撔∩醯奈臋nDj,文檔里“小升初”出現(xiàn)的頻率TFi比較高。
[0065]也就是說,根據(jù)特征向量中的每個(gè)字詞的字詞頻率,確定特征向量中每一個(gè)元素的權(quán)重。
[0066]在本發(fā)明的又一實(shí)施例中,權(quán)重的可以采用以下方法確定:
[0067]文檔頻率DF表示包含了某一字詞Ti的文檔的個(gè)數(shù),對(duì)于某一字詞Ti,包含該字詞Ti的文檔越多,S卩DFi越大,Ti用于區(qū)分不同的文檔的作用越小,屬于非焦點(diǎn)詞。
[0068]逆文檔頻率IDF,與文檔頻率DF呈反比關(guān)系。例如但不限于,對(duì)某一字詞而言,可以設(shè)定IDFi = log(N/DFi),其中N為文檔總數(shù)。若某一字詞僅僅出現(xiàn)在一篇文獻(xiàn)中,S卩DFi為1,則IDFi為1gN,此時(shí)該字詞對(duì)于文檔之間的區(qū)分作用最大。
[0069]也就是說,根據(jù)特征向量中的每個(gè)字詞的逆文檔頻率,確定特征向量中每一個(gè)元素的權(quán)重。
[0070]在本發(fā)明的另一實(shí)施例中,權(quán)重的可以采用以下方法確定:
[0071]根據(jù)特征向量中的每個(gè)字詞的字詞頻率以及逆文檔頻率,確定特征向量中每一個(gè)元素的權(quán)重值。例如但不限于,可以將IF與IDF的乘積作為參數(shù),確定特征向量中每一個(gè)元素的權(quán)重。
[0072]在本發(fā)明的一【具體實(shí)施方式】中,權(quán)重的可以采用以下方法確定:
[0073]字詞出現(xiàn)在標(biāo)題,文本摘要,文本正文等不同的位置,其重要程度不同,對(duì)文本的代表作用也是不同的。因此,可以根據(jù)特征向量中每一個(gè)元素在文本中所處的位置確定元素的權(quán)重,所述位置可以包括但不限于文本標(biāo)題,文本摘要,文本正文。
[0074]在本發(fā)明的實(shí)施例中,權(quán)重的可以采用以下方法確定:
[0075]根據(jù)字詞在文本中的位置,以及字詞頻率和/或逆文檔頻率確定特征向量中每一個(gè)元素的權(quán)重。
[