文本的標(biāo)識(shí)方法及裝置的制造方法

文檔序號(hào)：9865652閱讀：299來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

文本的標(biāo)識(shí)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)信息技術(shù)領(lǐng)域，特別是涉及文本的標(biāo)識(shí)方法及文本的標(biāo)識(shí)裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，人們借助網(wǎng)絡(luò)傳播平臺(tái)可以獲取到大量資訊。很多資訊以文本的形式提供給人們。
[0003]為了存儲(chǔ)和標(biāo)識(shí)海量文本，已開發(fā)出許多文本的標(biāo)識(shí)手段。例如，人們熟知的通過TFIDF算法獲取文本的特征向量，然后再通過最小哈希(hash)算法對(duì)向量信息進(jìn)行壓縮，獲得文本的特征指紋，由此大可以大大節(jié)約文本的空間。
[0004]但是，如果兩個(gè)文本相似，特征向量中需要取樣足夠多的元素，才能確保兩個(gè)文本的特征指紋不同，但這樣就會(huì)造成標(biāo)識(shí)文本的空間較大。

【發(fā)明內(nèi)容】

[0005]鑒于上述問題，提出了一種文本的標(biāo)識(shí)方法和標(biāo)識(shí)裝置，能夠通過多個(gè)特征指紋來標(biāo)識(shí)文本。
[0006]根據(jù)本發(fā)明的一個(gè)方面，提供了一種文本的標(biāo)識(shí)方法，包括:
[0007]選取待標(biāo)識(shí)的第一文本；
[0008]根據(jù)多個(gè)標(biāo)桿文本，分別確定第一文本的多個(gè)特征指紋；
[0009]根據(jù)所述多個(gè)特征指紋，標(biāo)識(shí)所述第一文本。
[0010]可選地，通過以下方式獲得特征指紋:
[0011]獲取所述第一文本的第一特征向量；
[0012]根據(jù)所述標(biāo)桿文本，確定所述第一文本的第一特征向量中各元素的權(quán)重；
[0013]根據(jù)所述權(quán)重，獲得所述第一文本的特征指紋。
[0014]可選地，所述根據(jù)權(quán)重獲得第一文本的特征指紋，包括:
[0015]根據(jù)所述權(quán)重，在所述第一特征向量的基礎(chǔ)上，建立所述第一文本的第二特征向量；
[0016]根據(jù)所述第二特征向量，生成所述第一文本的特征指紋。
[0017]可選地，所述根據(jù)第二特征向量生成第一文本的特征指紋，包括:
[0018]根據(jù)所述第二特征向量，基于所述第一文本與所述標(biāo)桿文本之間的距離，生成所述第一文本的特征指紋。
[0019]可選地，通過最小哈希運(yùn)算，確定所述第一文本與所述標(biāo)桿文本之間的距離。
[0020]可選地，所述第二特征向量中的各元素的數(shù)量滿足各元素的權(quán)重之間的倍數(shù)關(guān)系O
[0021 ]可選地，所述獲取第一文本的第一特征向量，包括:
[0022]根據(jù)字詞序列中字詞出現(xiàn)頻率由高到低的順序排列字詞，并由前至后取出預(yù)設(shè)數(shù)量的字詞作為所述第一文本的第一特征向量。
[0023]可選地，將所述第一文本進(jìn)行分詞處理，再進(jìn)行去無用信息處理后形成排序前的字詞序列。
[0024]可選地，所述特征向量從以下的一個(gè)或多個(gè)中提取:文本標(biāo)題，文本摘要，文本正文。
[0025]根據(jù)本發(fā)明的另一個(gè)方面，提供了一種文本的標(biāo)識(shí)裝置，包括:
[0026]選取模塊，用于選取待標(biāo)識(shí)的第一文本；
[0027]確定模塊，用于根據(jù)多個(gè)標(biāo)桿文本，分別確定第一文本的多個(gè)特征指紋；
[0028]標(biāo)識(shí)模塊，用于根據(jù)所述多個(gè)特征指紋，標(biāo)識(shí)所述第一文本。
[0029]可選地，所述確定模塊通過以下方式獲得特征指紋:
[0030]獲取所述第一文本的第一特征向量；
[0031]根據(jù)所述標(biāo)桿文本，確定所述第一文本的第一特征向量中各元素的權(quán)重；
[0032]根據(jù)所述權(quán)重，獲得所述第一文本的特征指紋。
[0033]進(jìn)一步，所述確定模塊通過以下方式獲得第一文本的特征指紋:
[0034]根據(jù)所述權(quán)重，在所述第一特征向量的基礎(chǔ)上，建立所述第一文本的第二特征向量；
[0035]根據(jù)所述第二特征向量，生成所述第一文本的特征指紋。
[0036]可選地，所述確定模塊通過以下方式生成第一文本的特征指紋:
[0037]根據(jù)所述第二特征向量，基于所述第一文本與所述標(biāo)桿文本之間的距離，生成所述第一文本的特征指紋。
[0038]可選地，通過最小哈希運(yùn)算，確定所述第一文本與所述標(biāo)桿文本之間的距離。
[0039]可選地，所述第二特征向量中的各元素的數(shù)量滿足各元素的權(quán)重之間的倍數(shù)關(guān)系O
[0040]可選地，所述獲取模塊用于根據(jù)字詞序列中字詞出現(xiàn)頻率由高到低的順序排列字詞，并由前至后取出預(yù)設(shè)數(shù)量的字詞作為所述第一文本的第一特征向量。
[0041]可選地，所述獲取模塊用于將所述第一文本進(jìn)行分詞處理，再進(jìn)行去無用信息處理后形成排序前的字詞序列。
[0042]綜上所述，根據(jù)本發(fā)明實(shí)施例的文本的標(biāo)識(shí)方法及標(biāo)識(shí)裝置通過依據(jù)多個(gè)標(biāo)桿文本為待標(biāo)識(shí)的文本生產(chǎn)多個(gè)特征指紋來標(biāo)識(shí)，從而增加了該文本的可識(shí)別性，大大壓縮了文本的空間大小。
[0043]上述說明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說明書的內(nèi)容予以實(shí)施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂，以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0044]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述，各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的，而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中，用相同的參考符號(hào)表示相同的部件。在附圖中:
[0045]圖1是根據(jù)本發(fā)明實(shí)施例的文本的標(biāo)識(shí)方法的步驟流程圖；
[0046]圖2是根據(jù)本發(fā)明實(shí)施例的獲得特征指紋的步驟流程圖；
[0047]圖3是根據(jù)本發(fā)明實(shí)施例的文本的標(biāo)識(shí)裝置的結(jié)構(gòu)示意圖；
【具體實(shí)施方式】
[0048]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例，然而應(yīng)當(dāng)理解，可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反，提供這些實(shí)施例是為了能夠更透徹地理解本公開，并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0049]參照?qǐng)D1，示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的文本的標(biāo)識(shí)方法的流程圖。如圖所示，該方法包括如下步驟:
[0050]11，選取待標(biāo)識(shí)的第一文本。
[0051]在確定了待標(biāo)識(shí)的第一文本之后，就可以獲取其第一特征向量。
[0052]一般而言，對(duì)第一文本首先進(jìn)行分詞處理，獲得多個(gè)字詞。經(jīng)過分詞處理后的字詞，還可能包括了無用信息。通常，根據(jù)這些字詞在文本中出現(xiàn)的頻率以由高到低的順序進(jìn)行排列，再將排在前面的預(yù)設(shè)數(shù)量的字詞作為該第一文本的第一特征向量。
[0053]進(jìn)一步地，可以將文本中出現(xiàn)的無用信息去除，比如“的”、“地”、“得”等。無用信息可以將之分為標(biāo)點(diǎn)符號(hào)，與結(jié)構(gòu)助詞虛詞等在漢語(yǔ)中無意義的詞匯。這次字詞在文本中出現(xiàn)的頻率高，但卻往往沒有實(shí)際意義，因此生產(chǎn)特征向量時(shí)需要忽略這些字詞。即，將所述第一文本進(jìn)行分詞處理，再進(jìn)行去無用信息處理后形成排序前的字詞序列。
[0054]可選的，可以將去無用信息處理后得到的字詞作為新聞的特征向量?；蛘咛崛∪o用信息處理后得到的字詞中具有代表性的字詞構(gòu)成新聞的特征向量。
[0055]例如，對(duì)于一篇新聞報(bào)道網(wǎng)頁(yè)，經(jīng)過分詞以及去無用信息處理后，獲得一個(gè)字詞序列S= (SI, S2, S3......,SN)，其中S1、s2、s3等表示經(jīng)過分詞以及去無用信息處理后的字詞。
[0056]字詞序列S中可能會(huì)出現(xiàn)相同的字詞，因此可對(duì)字詞序列中的字詞進(jìn)行相關(guān)詞頻統(tǒng)計(jì)，再進(jìn)一步按照字詞出現(xiàn)次數(shù)由高到低的順序進(jìn)行排列，由前至后取出預(yù)設(shè)數(shù)量的字符作為該新聞文本的特征向量。
[0057]可以理解，特征向量中元素的來源可以從以下的一個(gè)或多個(gè)中提取:文本標(biāo)題，文本摘要，文本正文。
[0058]12，根據(jù)多個(gè)標(biāo)桿文本，分別確定第一文本的多個(gè)特征指紋。
[0059]將第一文本分別針對(duì)每個(gè)標(biāo)桿文本獲得一個(gè)特征指紋，共有幾個(gè)標(biāo)桿文件，就能獲得幾個(gè)特征指紋。
[0060]其中，第一文本根據(jù)標(biāo)桿文件獲得特征指紋的步驟如下:
[0061]S121，獲取所述第一文本的第一特征向量；
[0062]S122，根據(jù)所述標(biāo)桿文本，確定所述第一文本的第一特征向量中各元素的權(quán)重；
[0063]在本發(fā)明的實(shí)施例中，權(quán)重的可以采用以下方法確定:
[0064]字詞頻率TF表示某一字詞Ti在某一文檔Dj中出現(xiàn)的頻率，Ti出現(xiàn)的頻率越高，TFi越高，說明這個(gè)字詞對(duì)于整個(gè)文檔越重要，例如，對(duì)于一篇談?wù)撔∩醯奈臋nDj，文檔里“小升初”出現(xiàn)的頻率TFi比較高。
[0065]也就是說，根據(jù)特征向量中的每個(gè)字詞的字詞頻率，確定特征向量中每一個(gè)元素的權(quán)重。
[0066]在本發(fā)明的又一實(shí)施例中，權(quán)重的可以采用以下方法確定:
[0067]文檔頻率DF表示包含了某一字詞Ti的文檔的個(gè)數(shù)，對(duì)于某一字詞Ti，包含該字詞Ti的文檔越多，S卩DFi越大，Ti用于區(qū)分不同的文檔的作用越小，屬于非焦點(diǎn)詞。
[0068]逆文檔頻率IDF，與文檔頻率DF呈反比關(guān)系。例如但不限于，對(duì)某一字詞而言，可以設(shè)定IDFi = log(N/DFi)，其中N為文檔總數(shù)。若某一字詞僅僅出現(xiàn)在一篇文獻(xiàn)中，S卩DFi為1，則IDFi為1gN，此時(shí)該字詞對(duì)于文檔之間的區(qū)分作用最大。
[0069]也就是說，根據(jù)特征向量中的每個(gè)字詞的逆文檔頻率，確定特征向量中每一個(gè)元素的權(quán)重。
[0070]在本發(fā)明的另一實(shí)施例中，權(quán)重的可以采用以下方法確定:
[0071]根據(jù)特征向量中的每個(gè)字詞的字詞頻率以及逆文檔頻率，確定特征向量中每一個(gè)元素的權(quán)重值。例如但不限于，可以將IF與IDF的乘積作為參數(shù)，確定特征向量中每一個(gè)元素的權(quán)重。
[0072]在本發(fā)明的一【具體實(shí)施方式】中，權(quán)重的可以采用以下方法確定:
[0073]字詞出現(xiàn)在標(biāo)題，文本摘要，文本正文等不同的位置，其重要程度不同，對(duì)文本的代表作用也是不同的。因此，可以根據(jù)特征向量中每一個(gè)元素在文本中所處的位置確定元素的權(quán)重，所述位置可以包括但不限于文本標(biāo)題，文本摘要，文本正文。
[0074]在本發(fā)明的實(shí)施例中，權(quán)重的可以采用以下方法確定:
[0075]根據(jù)字詞在文本中的位置，以及字詞頻率和/或逆文檔頻率確定特征向量中每一個(gè)元素的權(quán)重。
[

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張伸正;魏少俊;陳培軍;
技術(shù)所有人：北京奇虎科技有限公司;奇智軟件（北京）有限公司;
我是此專利的發(fā)明人

上一篇：基于評(píng)論確定新聞推薦權(quán)重的方法及裝置的制造方法
上一篇：鏈接生成方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

超文本標(biāo)識(shí)語(yǔ)言相關(guān)技術(shù)

防錯(cuò)裝置標(biāo)識(shí)牌相關(guān)技術(shù)

洗手消毒方法標(biāo)識(shí)相關(guān)技術(shù)

網(wǎng)線標(biāo)簽標(biāo)識(shí)方法相關(guān)技術(shù)

電力金具標(biāo)識(shí)方法相關(guān)技術(shù)

電阻標(biāo)識(shí)方法相關(guān)技術(shù)

鋼板型號(hào)標(biāo)識(shí)方法相關(guān)技術(shù)

電阻的色環(huán)標(biāo)識(shí)方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

文本的標(biāo)識(shí)方法及裝置的制造方法