一種數(shù)據(jù)篩選的方法

文檔序號：6635057閱讀：183來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種數(shù)據(jù)篩選的方法
【專利摘要】本發(fā)明提供了一種數(shù)據(jù)篩選的方法，包括：從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞，所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個；將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配，根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分；從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞，將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配，根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分；其中，所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量；將兩次匹配后，各次匹配度高的多個數(shù)據(jù)項的作為一個集合，并對集合內(nèi)的數(shù)據(jù)項聚類分析。本發(fā)明提高了定位關(guān)注度高的作為網(wǎng)絡(luò)事件的數(shù)據(jù)項的速度。
【專利說明】一種數(shù)據(jù)篩選的方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機領(lǐng)域，具體而言，涉及一種數(shù)據(jù)篩選的方法。

【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，帶動了信息傳播的速度，使得網(wǎng)絡(luò)輿情信息的發(fā)展非常迅猛，不論是國內(nèi)還是國際的重大事件，都能很快形成輿論信息。各種各樣的新聞資訊類網(wǎng)站在互聯(lián)網(wǎng)也十分活躍，有自己撰寫輿情信息發(fā)表的，也有轉(zhuǎn)載其他網(wǎng)站輿情信息的，同一事件的輿情信息在網(wǎng)絡(luò)中被迅速傳播，進而產(chǎn)生很大的輿論壓力。為了監(jiān)測網(wǎng)絡(luò)事件的發(fā)展，迫切需要一種輿情信息轉(zhuǎn)載或重復(fù)的分析方法，來統(tǒng)計分析某事件被網(wǎng)絡(luò)轉(zhuǎn)載或重復(fù)的次數(shù)，為網(wǎng)絡(luò)輿情監(jiān)測服務(wù)。
[0003]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，各種各樣的新聞資訊類網(wǎng)站在互聯(lián)網(wǎng)十分活躍，為了監(jiān)測網(wǎng)絡(luò)事件的發(fā)展，需要快速的找出當(dāng)前網(wǎng)絡(luò)中關(guān)注度最高的事件。

【發(fā)明內(nèi)容】

[0004]本發(fā)明旨在提供一種數(shù)據(jù)篩選的方法，以解決上述找出當(dāng)前網(wǎng)絡(luò)中關(guān)注度最高的事件的效率較低的問題。
[0005]在本發(fā)明的實施例中，提供了一種數(shù)據(jù)篩選的方法，包括:從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞，所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個；
[0006]將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配，根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分；
[0007]從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞，將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配，根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分；
[0008]其中，所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量；
[0009]將兩次匹配后，各次匹配度高的多個數(shù)據(jù)項的作為一個集合，并對集合內(nèi)的數(shù)據(jù)項聚類分析。
[0010]優(yōu)選地，所述首次匹配之前，還包括:將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容進行模糊匹配，在所述多個數(shù)據(jù)項中，去除部分數(shù)據(jù)項；
[0011]采用模糊匹配后的多個數(shù)據(jù)項執(zhí)行后續(xù)的步驟。
[0012]優(yōu)選地，所述多個數(shù)據(jù)項的第一內(nèi)容為每個數(shù)據(jù)項的第一內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合；所述多個數(shù)據(jù)項的第二個內(nèi)容為每個數(shù)據(jù)項的第二內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合。
[0013]優(yōu)選地，還包括:所述數(shù)據(jù)項為輿情內(nèi)容，包括:作為第一內(nèi)容的標題和作為第二內(nèi)容的正文。
[0014]優(yōu)選地，所述首次匹配過程中，將匹配度不小于80%的數(shù)據(jù)項作為匹配程度高的數(shù)據(jù)項，將匹配度小于80%的數(shù)據(jù)項作為匹配程度低的數(shù)據(jù)項。
[0015]優(yōu)選地，所述與第二內(nèi)容進行逐個匹配過程中，將匹配度不小于60%的數(shù)據(jù)項作為一部分，將匹配度小于60%的數(shù)據(jù)項作為另一部分。
[0016]優(yōu)選地，還包括:將所述匹配度不小于80%的數(shù)據(jù)項和匹配度不小于60%的數(shù)據(jù)項作為一個集合，進行所述聚類分析。
[0017]優(yōu)選地，所述聚類分析包括:
[0018]統(tǒng)計集合中的高頻詞匯、同時分析詞匯的中的事件、地區(qū)和開始時間；
[0019]還包括:統(tǒng)計聚類分析中數(shù)據(jù)項的數(shù)量、并記錄賦予ID保存。
[0020]優(yōu)選地，重復(fù)執(zhí)行數(shù)據(jù)篩選的過程，找到每個地區(qū)經(jīng)過聚類分析后，數(shù)據(jù)項數(shù)量最高的事件。
[0021]通過上述的過程，采用每個數(shù)據(jù)項中較小的數(shù)據(jù)量先進行分析匹配，從而找出匹配度高的可以認為是同一事件的數(shù)據(jù)項，對于匹配度低的數(shù)據(jù)項，再通過較大的數(shù)據(jù)量進行匹配分析，從而快速確定是否為同一事件的數(shù)據(jù)項。采用上述步驟，可以通過電子設(shè)備快速篩選出匹配度較高的同一事件的數(shù)據(jù)項，從而提高了定位關(guān)注度高的作為網(wǎng)絡(luò)事件的數(shù)據(jù)項的速度。

【專利附圖】

【附圖說明】
[0022]此處所說明的附圖用來提供對本發(fā)明的進一步理解，構(gòu)成本申請的一部分，本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0023]圖1示出了實施例一的流程圖；
[0024]圖2示出了實施例二的流程圖。

【具體實施方式】
[0025]下面將參考附圖并結(jié)合實施例，來詳細說明本發(fā)明。
[0026]參見圖1，本發(fā)明的實施例包括:
[0027]Sll:從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞，所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個；
[0028]S12:將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配，根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分；
[0029]S13:從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞，將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配，根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分；
[0030]其中，所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量；
[0031]S14:將兩次匹配后，各次匹配度高的多個數(shù)據(jù)項的作為一個集合，并對集合內(nèi)的數(shù)據(jù)項聚類分析。
[0032]通過上述的過程，采用每個數(shù)據(jù)項中較小的數(shù)據(jù)量先進行分析匹配，從而找出匹配度高的可以認為是同一事件的數(shù)據(jù)項，對于匹配度低的數(shù)據(jù)項，再通過較大的數(shù)據(jù)量進行匹配分析，從而確定是否為同一事件的數(shù)據(jù)項。
[0033]采用上述步驟，可以通過電子設(shè)備快速篩選出匹配度較高的同一事件的數(shù)據(jù)項，從而提高了定位關(guān)注度高的作為網(wǎng)絡(luò)事件的數(shù)據(jù)項的速度。
[0034]在本申請中，所述數(shù)據(jù)項為輿情內(nèi)容，也稱為輿情信息，包括:作為第一內(nèi)容的標題和作為第二內(nèi)容的正文。
[0035]優(yōu)選地，上述步驟中，可以從各個新聞資訊類網(wǎng)站抓取輿情信息保存到數(shù)據(jù)庫；每一個輿情作為一個數(shù)據(jù)項。
[0036]抓取輿情信息包括:標題、正文、采集點、數(shù)據(jù)來源待定、發(fā)布時間等。
[0037]其中，實施例中的第一內(nèi)容，包括輿情信息中的標題；實施例中所指的第二內(nèi)容，包括實施例中的正文。
[0038]篩選第一關(guān)鍵詞的過程包括:
[0039]1、從數(shù)據(jù)庫中讀取一則輿情信息，名稱為輿情信息一，即實施例中的第一數(shù)據(jù)項；
[0040]2、對該輿情信息的標題做分詞處理，獲取標題的分詞列表，名稱為分詞列表A ;作為第一內(nèi)容的第一關(guān)鍵詞。同時去除分詞列表A中的高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等)。
[0041]得到第一關(guān)鍵詞后，即可執(zhí)行實施例中的首次匹配的過程；當(dāng)然，也可以對輿情信息一的內(nèi)容，即實施例中第一數(shù)據(jù)項的第二內(nèi)容，同時做分詞處理。作為分詞列表B，即多個第二關(guān)鍵詞；同時去除分詞列表B中的高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等)。
[0042]得到分詞列表A后，可執(zhí)行實施例中的首次匹配的過程。
[0043]優(yōu)選地，在首次匹配之前，還包括:將篩選的多個第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容進行模糊匹配，在所述多個數(shù)據(jù)項中，去除部分數(shù)據(jù)項；采用模糊匹配后的多個數(shù)據(jù)項執(zhí)行后續(xù)的步驟。
[0044]經(jīng)過上述模糊匹配后，可篩選出一部分輿情信息，縮小后續(xù)進行匹配的匹配范圍。在實施例中，采用如下的技術(shù)方案。
[0045]例如:3、然后用去除高頻詞匯的分詞列表A去數(shù)據(jù)庫模糊匹配，查詢得出一個輿情信息的列表，名稱為輿情信息列表一；
[0046]循環(huán)遍歷輿情信息列表一，依次對輿情信息列表一的每一則輿情信息，名稱為輿情一，即實施例中的S12的多個數(shù)據(jù)項的第一內(nèi)容，做如下首次匹配分析:
[0047]I)、對輿情一的標題做分詞處理，獲取分詞列表，去除高頻詞匯，名稱為分詞列表C ;即S12中的多個數(shù)據(jù)項的第一內(nèi)容；
[0048]2)、分詞列表A與分詞列表C進行配置，統(tǒng)計兩個列表中的重復(fù)詞匯，重復(fù)詞匯在80%以上，則認為兩則輿情信息在講述一個事件，保存兩則輿情信息的ID編號；即將匹配度不小于80%的數(shù)據(jù)項作為匹配程度高的數(shù)據(jù)項，將匹配度小于80%的數(shù)據(jù)項作為匹配程度低的數(shù)據(jù)項。
[0049]如果兩則輿情信息的標題詞匯匹配不在80%以上，則做以下正文分析。
[0050]4、對輿情一的正文做分詞處理，獲取分詞列表，去除高頻詞匯，名稱為分詞列表D ；即S13中的匹配程度低的數(shù)據(jù)項的第二內(nèi)容。
[0051]分詞列表B與分詞列表D進行匹配，統(tǒng)計兩個列表中的重復(fù)詞匯，重復(fù)詞匯在60%以上，則認為兩則輿情信息在講述一個事件，保存兩則輿情信息的ID編號。
[0052]5、所述匹配度不小于80%的數(shù)據(jù)項和匹配度不小于60%的數(shù)據(jù)項作為一個集合，進行所述聚類分析。
[0053]在S12中，所述多個數(shù)據(jù)項的第一內(nèi)容為每個數(shù)據(jù)項的第一內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合；
[0054]在S13中，所述多個數(shù)據(jù)項的第二個內(nèi)容為每個數(shù)據(jù)項的第二內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合。
[0055]所述聚類分析包括:
[0056]統(tǒng)計集合中的高頻詞匯、同時分析詞匯的中的事件、地區(qū)和開始時間；
[0057]還包括:統(tǒng)計聚類分析中數(shù)據(jù)項的數(shù)量、并記錄賦予ID保存。
[0058]重復(fù)執(zhí)行數(shù)據(jù)篩選的過程，找到每個地區(qū)經(jīng)過聚類分析后，數(shù)據(jù)項數(shù)量最高的事件。
[0059]優(yōu)選地，聚類分析可采用以下實施例的方式:
[0060]I)統(tǒng)計重復(fù)度合格的輿情信息ID編號
[0061]統(tǒng)計這一事件的重復(fù)度數(shù)量(即重復(fù)度合格的輿情信息條數(shù))。
[0062]2)基于中文分詞的事件關(guān)鍵詞分析
[0063]統(tǒng)計這一事件下各個輿情信息標題的詞匯頻率；
[0064]基于標題分析中對輿情信息標題的分詞列表，統(tǒng)計詞匯頻率
[0065]將詞匯頻率最高的前5個詞，作為該事件的關(guān)鍵詞。
[0066]3)分析事件的開始時間
[0067]統(tǒng)計這一事件下各個輿情信息中最早的發(fā)布時間。
[0068]4)基于中文分詞的事件所屬地區(qū)分析
[0069]統(tǒng)計這一事件下各個輿情信息的標題和正文中地區(qū)詞匯出現(xiàn)的頻率；
[0070]基于標題分析和正文分析中的標題分詞列表和正文分詞，統(tǒng)計地區(qū)詞匯頻率；
[0071]將詞匯頻率最高的地區(qū)詞匯，作為該事件的所屬地區(qū)。
[0072]5)保存事件
[0073]在數(shù)據(jù)庫中保存該事件，包括事件的關(guān)鍵詞、開始時間、重復(fù)度數(shù)量、輿情信息ID編號列表等。
[0074]在進行地區(qū)匹配、關(guān)鍵詞匹配之前，還需要事先建立用于聚類分析以及關(guān)鍵詞匹配的詞庫。
[0075]1.收集中文詞庫
[0076]a)收集中文詞庫；
[0077]b)將中文詞庫保存為UTF-8+B0M格式的文本信息；
[0078]c)加載中文詞庫。
[0079]2.收集高頻詞匯
[0080]a)收集高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等)；
[0081]b)將高頻詞匯列表保存到數(shù)據(jù)庫。
[0082]3.收集地區(qū)詞庫
[0083]a)收集國家名稱及所屬國家的地區(qū)詞庫；地名？北京上海湖北
[0084]b)將地區(qū)詞庫保存為UTF-8+B0M格式的文本信息；
[0085]c)加載地區(qū)詞庫。
[0086]通過上述步驟，本發(fā)明的實施例可以實現(xiàn)以下效果:
[0087]1、分析統(tǒng)計出輿情信息轉(zhuǎn)載和重復(fù)的次數(shù)。
[0088]分析和統(tǒng)計出輿情信息轉(zhuǎn)載和重復(fù)的次數(shù)，為網(wǎng)絡(luò)輿情監(jiān)測服務(wù)，防止反面事件的迅速擴散提供幫助。
[0089]2、為輿情監(jiān)測等其他系統(tǒng)提供輿情信息轉(zhuǎn)載和重復(fù)的數(shù)據(jù)。
[0090]3、為輿情信息進行自動聚類，并做事件保存，有利于政府、企業(yè)等相關(guān)部門對事件進行管理和監(jiān)控，防止事件擴大化。
[0091]在本發(fā)明的實施例中，除了上述實施例一的方案之外，還可以采用實施例二的方案，具體參見以下步驟:
[0092][001a]建立中文詞庫
[0093][001b]將中文詞庫保存為UTF-8+B0M格式的文本信息
[0094][001c]加載中文詞庫
[0095][002a]收集高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等)
[0096][002b]將高頻詞匯保存到數(shù)據(jù)庫
[0097][003a]建立地區(qū)詞庫
[0098][003b]將地區(qū)詞庫保存為UTF-8+B0M格式的文本信息
[0099][003c]加載地區(qū)詞庫
[0100][004a]從各個新聞資訊類網(wǎng)站抓取輿情信息保存到數(shù)據(jù)庫
[0101][004b]抓取輿情信息包括:標題、正文、采集點、數(shù)據(jù)來源、發(fā)布時間等
[0102][005a]標題分析:
[0103][005b]從數(shù)據(jù)庫中讀取一則輿情信息，名稱為輿情信息一
[0104][005c]對該輿情信息的標題做分詞處理，獲取標題的分詞列表，名稱為分詞列表A
[0105][OOSd]去除分詞列表A中的高頻詞匯
[0106][005e]對該輿情信息的正文做分詞處理,獲取正文的分詞列表，名稱為分詞列表B
[0107][005f]去除分詞列表B中的高頻詞匯
[0108][005g]然后用去除高頻詞匯的分詞列表A去數(shù)據(jù)庫模糊匹配，查詢得出一個輿情信息的列表，名稱為輿情信息列表一
[0109][005h]循環(huán)遍歷輿情信息列表一，依次對輿情信息列表一的每一則輿情信息，名稱為輿情一，做如下分析:
[0110][005?]對輿情一的標題做分詞處理，獲取分詞列表，去除高頻詞匯，名稱為分詞列表C
[0111][005j]分詞列表A與分詞列表C進行配置，統(tǒng)計兩個列表中的重復(fù)詞匯，重復(fù)詞匯在80%以上，則認為兩則輿情信息在講述一個事件，保存兩則輿情信息的ID編號
[0112][005k]如果兩則輿情信息的標題詞匯匹配不在80%以上，則做以下正文分析
[0113][006a]正文分析:
[0114][006b]對輿情一的標題做分詞處理，獲取分詞列表，去除高頻詞匯，名稱為分詞列表D
[0115][006c]分詞列表B與分詞列表D進行匹配，統(tǒng)計兩個列表中的重復(fù)詞匯，重復(fù)詞匯在60%以上，則認為兩則輿情信息在講述一個事件，保存兩則輿情信息的ID編號
[0116][007a]自動聚類:
[0117][007b]統(tǒng)計重復(fù)度合格的輿情信息ID編號的數(shù)量，做為該事件的重復(fù)度數(shù)量
[0118][007c]統(tǒng)計這一事件下各個輿情信息標題的詞匯頻率，將詞匯頻率最高的前5個詞，作為該事件的關(guān)鍵詞
[0119][007d]統(tǒng)計這一事件下各個輿情信息中最早的發(fā)布時間，做為該事件的開始時間
[0120][007e]統(tǒng)計這一事件下各個輿情信息的標題和正文中地區(qū)詞匯出現(xiàn)的頻率，將詞匯頻率最高的地區(qū)詞匯，作為該事件的所屬地區(qū)
[0121][007f]保存該事件，包括事件的關(guān)鍵詞、開始時間、重復(fù)度數(shù)量、輿情信息ID編號列表等
[0122][008a]對數(shù)據(jù)庫中沒有做基于中文分析重復(fù)度分析及自動聚類的輿情信息做分析
[0123]實施例二實現(xiàn)的效果與實施例一相同，都可以通過采用較少的作為標題的關(guān)鍵詞實現(xiàn)事件的比對分析，從而提高快速對事件的定位、統(tǒng)計，以確定網(wǎng)絡(luò)對事件的關(guān)注度，以及事件的發(fā)生日期等信息。
[0124]以上所述僅為本發(fā)明的優(yōu)選實施例而已，并不用于限制本發(fā)明，對于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種數(shù)據(jù)篩選的方法，其特征在于，包括: 從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞，所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個；將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配，根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分；從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞，將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配，根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分；其中，所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量；將兩次匹配后，各次匹配度高的多個數(shù)據(jù)項的作為一個集合，并對集合內(nèi)的數(shù)據(jù)項聚類分析。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述首次匹配之前，還包括: 將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容進行模糊匹配，在所述多個數(shù)據(jù)項中，去除部分數(shù)據(jù)項；采用模糊匹配后的多個數(shù)據(jù)項執(zhí)行后續(xù)的步驟。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述多個數(shù)據(jù)項的第一內(nèi)容為每個數(shù)據(jù)項的第一內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合；所述多個數(shù)據(jù)項的第二個內(nèi)容為每個數(shù)據(jù)項的第二內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，還包括:所述數(shù)據(jù)項為輿情內(nèi)容，包括:作為第一內(nèi)容的標題和作為第二內(nèi)容的正文。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述首次匹配過程中，將匹配度不小于80%的數(shù)據(jù)項作為匹配程度高的數(shù)據(jù)項，將匹配度小于80%的數(shù)據(jù)項作為匹配程度低的數(shù)據(jù)項。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述與第二內(nèi)容進行逐個匹配過程中，將匹配度不小于60%的數(shù)據(jù)項作為一部分，將匹配度小于60%的數(shù)據(jù)項作為另一部分。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，還包括:將所述匹配度不小于80%的數(shù)據(jù)項和匹配度不小于60%的數(shù)據(jù)項作為一個集合，進行所述聚類分析。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述聚類分析包括: 統(tǒng)計集合中的高頻詞匯、同時分析詞匯的中的事件、地區(qū)和開始時間；還包括:統(tǒng)計聚類分析中數(shù)據(jù)項的數(shù)量、并記錄賦予ID保存。
9.根據(jù)權(quán)利要求8所述的方法，其特征在于，重復(fù)執(zhí)行數(shù)據(jù)篩選的過程，找到每個地區(qū)經(jīng)過聚類分析后，數(shù)據(jù)項數(shù)量最高的事件。
【文檔編號】G06F17/30GK104376089SQ201410667074
【公開日】2015年2月25日申請日期:2014年11月20日優(yōu)先權(quán)日:2014年11月20日
【發(fā)明者】江潮, 賀建華, 張光凌申請人:武漢傳神信息技術(shù)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：江潮;賀建華;張光凌;
技術(shù)所有人：武漢傳神信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)篩選方法相關(guān)技術(shù)

excel數(shù)據(jù)篩選的方法相關(guān)技術(shù)

excel重復(fù)數(shù)據(jù)篩選相關(guān)技術(shù)

兩個表格相同數(shù)據(jù)篩選相關(guān)技術(shù)

如何復(fù)制篩選后的數(shù)據(jù)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種數(shù)據(jù)篩選的方法