一種數(shù)據(jù)篩選的方法
【專利摘要】本發(fā)明提供了一種數(shù)據(jù)篩選的方法,包括:從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞,所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個;將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配,根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分;從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞,將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配,根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分;其中,所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量;將兩次匹配后,各次匹配度高的多個數(shù)據(jù)項的作為一個集合,并對集合內(nèi)的數(shù)據(jù)項聚類分析。本發(fā)明提高了定位關(guān)注度高的作為網(wǎng)絡(luò)事件的數(shù)據(jù)項的速度。
【專利說明】一種數(shù)據(jù)篩選的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機領(lǐng)域,具體而言,涉及一種數(shù)據(jù)篩選的方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,帶動了信息傳播的速度,使得網(wǎng)絡(luò)輿情信息的發(fā)展非常迅猛,不論是國內(nèi)還是國際的重大事件,都能很快形成輿論信息。各種各樣的新聞資訊類網(wǎng)站在互聯(lián)網(wǎng)也十分活躍,有自己撰寫輿情信息發(fā)表的,也有轉(zhuǎn)載其他網(wǎng)站輿情信息的,同一事件的輿情信息在網(wǎng)絡(luò)中被迅速傳播,進而產(chǎn)生很大的輿論壓力。為了監(jiān)測網(wǎng)絡(luò)事件的發(fā)展,迫切需要一種輿情信息轉(zhuǎn)載或重復(fù)的分析方法,來統(tǒng)計分析某事件被網(wǎng)絡(luò)轉(zhuǎn)載或重復(fù)的次數(shù),為網(wǎng)絡(luò)輿情監(jiān)測服務(wù)。
[0003]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,各種各樣的新聞資訊類網(wǎng)站在互聯(lián)網(wǎng)十分活躍,為了監(jiān)測網(wǎng)絡(luò)事件的發(fā)展,需要快速的找出當(dāng)前網(wǎng)絡(luò)中關(guān)注度最高的事件。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在提供一種數(shù)據(jù)篩選的方法,以解決上述找出當(dāng)前網(wǎng)絡(luò)中關(guān)注度最高的事件的效率較低的問題。
[0005]在本發(fā)明的實施例中,提供了一種數(shù)據(jù)篩選的方法,包括:從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞,所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個;
[0006]將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配,根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分;
[0007]從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞,將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配,根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分;
[0008]其中,所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量;
[0009]將兩次匹配后,各次匹配度高的多個數(shù)據(jù)項的作為一個集合,并對集合內(nèi)的數(shù)據(jù)項聚類分析。
[0010]優(yōu)選地,所述首次匹配之前,還包括:將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容進行模糊匹配,在所述多個數(shù)據(jù)項中,去除部分數(shù)據(jù)項;
[0011]采用模糊匹配后的多個數(shù)據(jù)項執(zhí)行后續(xù)的步驟。
[0012]優(yōu)選地,所述多個數(shù)據(jù)項的第一內(nèi)容為每個數(shù)據(jù)項的第一內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合;所述多個數(shù)據(jù)項的第二個內(nèi)容為每個數(shù)據(jù)項的第二內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合。
[0013]優(yōu)選地,還包括:所述數(shù)據(jù)項為輿情內(nèi)容,包括:作為第一內(nèi)容的標題和作為第二內(nèi)容的正文。
[0014]優(yōu)選地,所述首次匹配過程中,將匹配度不小于80%的數(shù)據(jù)項作為匹配程度高的數(shù)據(jù)項,將匹配度小于80%的數(shù)據(jù)項作為匹配程度低的數(shù)據(jù)項。
[0015]優(yōu)選地,所述與第二內(nèi)容進行逐個匹配過程中,將匹配度不小于60%的數(shù)據(jù)項作為一部分,將匹配度小于60%的數(shù)據(jù)項作為另一部分。
[0016]優(yōu)選地,還包括:將所述匹配度不小于80%的數(shù)據(jù)項和匹配度不小于60%的數(shù)據(jù)項作為一個集合,進行所述聚類分析。
[0017]優(yōu)選地,所述聚類分析包括:
[0018]統(tǒng)計集合中的高頻詞匯、同時分析詞匯的中的事件、地區(qū)和開始時間;
[0019]還包括:統(tǒng)計聚類分析中數(shù)據(jù)項的數(shù)量、并記錄賦予ID保存。
[0020]優(yōu)選地,重復(fù)執(zhí)行數(shù)據(jù)篩選的過程,找到每個地區(qū)經(jīng)過聚類分析后,數(shù)據(jù)項數(shù)量最高的事件。
[0021]通過上述的過程,采用每個數(shù)據(jù)項中較小的數(shù)據(jù)量先進行分析匹配,從而找出匹配度高的可以認為是同一事件的數(shù)據(jù)項,對于匹配度低的數(shù)據(jù)項,再通過較大的數(shù)據(jù)量進行匹配分析,從而快速確定是否為同一事件的數(shù)據(jù)項。采用上述步驟,可以通過電子設(shè)備快速篩選出匹配度較高的同一事件的數(shù)據(jù)項,從而提高了定位關(guān)注度高的作為網(wǎng)絡(luò)事件的數(shù)據(jù)項的速度。
【專利附圖】
【附圖說明】
[0022]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0023]圖1示出了實施例一的流程圖;
[0024]圖2示出了實施例二的流程圖。
【具體實施方式】
[0025]下面將參考附圖并結(jié)合實施例,來詳細說明本發(fā)明。
[0026]參見圖1,本發(fā)明的實施例包括:
[0027]Sll:從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞,所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個;
[0028]S12:將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配,根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分;
[0029]S13:從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞,將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配,根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分;
[0030]其中,所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量;
[0031]S14:將兩次匹配后,各次匹配度高的多個數(shù)據(jù)項的作為一個集合,并對集合內(nèi)的數(shù)據(jù)項聚類分析。
[0032]通過上述的過程,采用每個數(shù)據(jù)項中較小的數(shù)據(jù)量先進行分析匹配,從而找出匹配度高的可以認為是同一事件的數(shù)據(jù)項,對于匹配度低的數(shù)據(jù)項,再通過較大的數(shù)據(jù)量進行匹配分析,從而確定是否為同一事件的數(shù)據(jù)項。
[0033]采用上述步驟,可以通過電子設(shè)備快速篩選出匹配度較高的同一事件的數(shù)據(jù)項,從而提高了定位關(guān)注度高的作為網(wǎng)絡(luò)事件的數(shù)據(jù)項的速度。
[0034]在本申請中,所述數(shù)據(jù)項為輿情內(nèi)容,也稱為輿情信息,包括:作為第一內(nèi)容的標題和作為第二內(nèi)容的正文。
[0035]優(yōu)選地,上述步驟中,可以從各個新聞資訊類網(wǎng)站抓取輿情信息保存到數(shù)據(jù)庫;每一個輿情作為一個數(shù)據(jù)項。
[0036]抓取輿情信息包括:標題、正文、采集點、數(shù)據(jù)來源待定、發(fā)布時間等。
[0037]其中,實施例中的第一內(nèi)容,包括輿情信息中的標題;實施例中所指的第二內(nèi)容,包括實施例中的正文。
[0038]篩選第一關(guān)鍵詞的過程包括:
[0039]1、從數(shù)據(jù)庫中讀取一則輿情信息,名稱為輿情信息一,即實施例中的第一數(shù)據(jù)項;
[0040]2、對該輿情信息的標題做分詞處理,獲取標題的分詞列表,名稱為分詞列表A ;作為第一內(nèi)容的第一關(guān)鍵詞。同時去除分詞列表A中的高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等)。
[0041]得到第一關(guān)鍵詞后,即可執(zhí)行實施例中的首次匹配的過程;當(dāng)然,也可以對輿情信息一的內(nèi)容,即實施例中第一數(shù)據(jù)項的第二內(nèi)容,同時做分詞處理。作為分詞列表B,即多個第二關(guān)鍵詞;同時去除分詞列表B中的高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等)。
[0042]得到分詞列表A后,可執(zhí)行實施例中的首次匹配的過程。
[0043]優(yōu)選地,在首次匹配之前,還包括:將篩選的多個第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容進行模糊匹配,在所述多個數(shù)據(jù)項中,去除部分數(shù)據(jù)項;采用模糊匹配后的多個數(shù)據(jù)項執(zhí)行后續(xù)的步驟。
[0044]經(jīng)過上述模糊匹配后,可篩選出一部分輿情信息,縮小后續(xù)進行匹配的匹配范圍。在實施例中,采用如下的技術(shù)方案。
[0045]例如:3、然后用去除高頻詞匯的分詞列表A去數(shù)據(jù)庫模糊匹配,查詢得出一個輿情信息的列表,名稱為輿情信息列表一;
[0046]循環(huán)遍歷輿情信息列表一,依次對輿情信息列表一的每一則輿情信息,名稱為輿情一,即實施例中的S12的多個數(shù)據(jù)項的第一內(nèi)容,做如下首次匹配分析:
[0047]I)、對輿情一的標題做分詞處理,獲取分詞列表,去除高頻詞匯,名稱為分詞列表C ;即S12中的多個數(shù)據(jù)項的第一內(nèi)容;
[0048]2)、分詞列表A與分詞列表C進行配置,統(tǒng)計兩個列表中的重復(fù)詞匯,重復(fù)詞匯在80%以上,則認為兩則輿情信息在講述一個事件,保存兩則輿情信息的ID編號;即將匹配度不小于80%的數(shù)據(jù)項作為匹配程度高的數(shù)據(jù)項,將匹配度小于80%的數(shù)據(jù)項作為匹配程度低的數(shù)據(jù)項。
[0049]如果兩則輿情信息的標題詞匯匹配不在80%以上,則做以下正文分析。
[0050]4、對輿情一的正文做分詞處理,獲取分詞列表,去除高頻詞匯,名稱為分詞列表D ;即S13中的匹配程度低的數(shù)據(jù)項的第二內(nèi)容。
[0051]分詞列表B與分詞列表D進行匹配,統(tǒng)計兩個列表中的重復(fù)詞匯,重復(fù)詞匯在60%以上,則認為兩則輿情信息在講述一個事件,保存兩則輿情信息的ID編號。
[0052]5、所述匹配度不小于80%的數(shù)據(jù)項和匹配度不小于60%的數(shù)據(jù)項作為一個集合,進行所述聚類分析。
[0053]在S12中,所述多個數(shù)據(jù)項的第一內(nèi)容為每個數(shù)據(jù)項的第一內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合;
[0054]在S13中,所述多個數(shù)據(jù)項的第二個內(nèi)容為每個數(shù)據(jù)項的第二內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合。
[0055]所述聚類分析包括:
[0056]統(tǒng)計集合中的高頻詞匯、同時分析詞匯的中的事件、地區(qū)和開始時間;
[0057]還包括:統(tǒng)計聚類分析中數(shù)據(jù)項的數(shù)量、并記錄賦予ID保存。
[0058]重復(fù)執(zhí)行數(shù)據(jù)篩選的過程,找到每個地區(qū)經(jīng)過聚類分析后,數(shù)據(jù)項數(shù)量最高的事件。
[0059]優(yōu)選地,聚類分析可采用以下實施例的方式:
[0060]I)統(tǒng)計重復(fù)度合格的輿情信息ID編號
[0061]統(tǒng)計這一事件的重復(fù)度數(shù)量(即重復(fù)度合格的輿情信息條數(shù))。
[0062]2)基于中文分詞的事件關(guān)鍵詞分析
[0063]統(tǒng)計這一事件下各個輿情信息標題的詞匯頻率;
[0064]基于標題分析中對輿情信息標題的分詞列表,統(tǒng)計詞匯頻率
[0065]將詞匯頻率最高的前5個詞,作為該事件的關(guān)鍵詞。
[0066]3)分析事件的開始時間
[0067]統(tǒng)計這一事件下各個輿情信息中最早的發(fā)布時間。
[0068]4)基于中文分詞的事件所屬地區(qū)分析
[0069]統(tǒng)計這一事件下各個輿情信息的標題和正文中地區(qū)詞匯出現(xiàn)的頻率;
[0070]基于標題分析和正文分析中的標題分詞列表和正文分詞,統(tǒng)計地區(qū)詞匯頻率;
[0071]將詞匯頻率最高的地區(qū)詞匯,作為該事件的所屬地區(qū)。
[0072]5)保存事件
[0073]在數(shù)據(jù)庫中保存該事件,包括事件的關(guān)鍵詞、開始時間、重復(fù)度數(shù)量、輿情信息ID編號列表等。
[0074]在進行地區(qū)匹配、關(guān)鍵詞匹配之前,還需要事先建立用于聚類分析以及關(guān)鍵詞匹配的詞庫。
[0075]1.收集中文詞庫
[0076]a)收集中文詞庫;
[0077]b)將中文詞庫保存為UTF-8+B0M格式的文本信息;
[0078]c)加載中文詞庫。
[0079]2.收集高頻詞匯
[0080]a)收集高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等);
[0081]b)將高頻詞匯列表保存到數(shù)據(jù)庫。
[0082]3.收集地區(qū)詞庫
[0083]a)收集國家名稱及所屬國家的地區(qū)詞庫;地名?北京上海湖北
[0084]b)將地區(qū)詞庫保存為UTF-8+B0M格式的文本信息;
[0085]c)加載地區(qū)詞庫。
[0086]通過上述步驟,本發(fā)明的實施例可以實現(xiàn)以下效果:
[0087]1、分析統(tǒng)計出輿情信息轉(zhuǎn)載和重復(fù)的次數(shù)。
[0088]分析和統(tǒng)計出輿情信息轉(zhuǎn)載和重復(fù)的次數(shù),為網(wǎng)絡(luò)輿情監(jiān)測服務(wù),防止反面事件的迅速擴散提供幫助。
[0089]2、為輿情監(jiān)測等其他系統(tǒng)提供輿情信息轉(zhuǎn)載和重復(fù)的數(shù)據(jù)。
[0090]3、為輿情信息進行自動聚類,并做事件保存,有利于政府、企業(yè)等相關(guān)部門對事件進行管理和監(jiān)控,防止事件擴大化。
[0091]在本發(fā)明的實施例中,除了上述實施例一的方案之外,還可以采用實施例二的方案,具體參見以下步驟:
[0092][001a]建立中文詞庫
[0093][001b]將中文詞庫保存為UTF-8+B0M格式的文本信息
[0094][001c]加載中文詞庫
[0095][002a]收集高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等)
[0096][002b]將高頻詞匯保存到數(shù)據(jù)庫
[0097][003a]建立地區(qū)詞庫
[0098][003b]將地區(qū)詞庫保存為UTF-8+B0M格式的文本信息
[0099][003c]加載地區(qū)詞庫
[0100][004a]從各個新聞資訊類網(wǎng)站抓取輿情信息保存到數(shù)據(jù)庫
[0101][004b]抓取輿情信息包括:標題、正文、采集點、數(shù)據(jù)來源、發(fā)布時間等
[0102][005a]標題分析:
[0103][005b]從數(shù)據(jù)庫中讀取一則輿情信息,名稱為輿情信息一
[0104][005c]對該輿情信息的標題做分詞處理,獲取標題的分詞列表,名稱為分詞列表A
[0105][OOSd]去除分詞列表A中的高頻詞匯
[0106][005e]對該輿情信息的正文做分詞處理,獲取正文的分詞列表,名稱為分詞列表B
[0107][005f]去除分詞列表B中的高頻詞匯
[0108][005g]然后用去除高頻詞匯的分詞列表A去數(shù)據(jù)庫模糊匹配,查詢得出一個輿情信息的列表,名稱為輿情信息列表一
[0109][005h]循環(huán)遍歷輿情信息列表一,依次對輿情信息列表一的每一則輿情信息,名稱為輿情一,做如下分析:
[0110][005?]對輿情一的標題做分詞處理,獲取分詞列表,去除高頻詞匯,名稱為分詞列表C
[0111][005j]分詞列表A與分詞列表C進行配置,統(tǒng)計兩個列表中的重復(fù)詞匯,重復(fù)詞匯在80%以上,則認為兩則輿情信息在講述一個事件,保存兩則輿情信息的ID編號
[0112][005k]如果兩則輿情信息的標題詞匯匹配不在80%以上,則做以下正文分析
[0113][006a]正文分析:
[0114][006b]對輿情一的標題做分詞處理,獲取分詞列表,去除高頻詞匯,名稱為分詞列表D
[0115][006c]分詞列表B與分詞列表D進行匹配,統(tǒng)計兩個列表中的重復(fù)詞匯,重復(fù)詞匯在60%以上,則認為兩則輿情信息在講述一個事件,保存兩則輿情信息的ID編號
[0116][007a]自動聚類:
[0117][007b]統(tǒng)計重復(fù)度合格的輿情信息ID編號的數(shù)量,做為該事件的重復(fù)度數(shù)量
[0118][007c]統(tǒng)計這一事件下各個輿情信息標題的詞匯頻率,將詞匯頻率最高的前5個詞,作為該事件的關(guān)鍵詞
[0119][007d]統(tǒng)計這一事件下各個輿情信息中最早的發(fā)布時間,做為該事件的開始時間
[0120][007e]統(tǒng)計這一事件下各個輿情信息的標題和正文中地區(qū)詞匯出現(xiàn)的頻率,將詞匯頻率最高的地區(qū)詞匯,作為該事件的所屬地區(qū)
[0121][007f]保存該事件,包括事件的關(guān)鍵詞、開始時間、重復(fù)度數(shù)量、輿情信息ID編號列表等
[0122][008a]對數(shù)據(jù)庫中沒有做基于中文分析重復(fù)度分析及自動聚類的輿情信息做分析
[0123]實施例二實現(xiàn)的效果與實施例一相同,都可以通過采用較少的作為標題的關(guān)鍵詞實現(xiàn)事件的比對分析,從而提高快速對事件的定位、統(tǒng)計,以確定網(wǎng)絡(luò)對事件的關(guān)注度,以及事件的發(fā)生日期等信息。
[0124]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種數(shù)據(jù)篩選的方法,其特征在于,包括: 從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞,所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個; 將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配,根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分; 從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞,將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配,根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分; 其中,所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量; 將兩次匹配后,各次匹配度高的多個數(shù)據(jù)項的作為一個集合,并對集合內(nèi)的數(shù)據(jù)項聚類分析。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述首次匹配之前,還包括: 將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容進行模糊匹配,在所述多個數(shù)據(jù)項中,去除部分數(shù)據(jù)項; 采用模糊匹配后的多個數(shù)據(jù)項執(zhí)行后續(xù)的步驟。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述多個數(shù)據(jù)項的第一內(nèi)容為每個數(shù)據(jù)項的第一內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合; 所述多個數(shù)據(jù)項的第二個內(nèi)容為每個數(shù)據(jù)項的第二內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括:所述數(shù)據(jù)項為輿情內(nèi)容,包括:作為第一內(nèi)容的標題和作為第二內(nèi)容的正文。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述首次匹配過程中,將匹配度不小于80%的數(shù)據(jù)項作為匹配程度高的數(shù)據(jù)項,將匹配度小于80%的數(shù)據(jù)項作為匹配程度低的數(shù)據(jù)項。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述與第二內(nèi)容進行逐個匹配過程中,將匹配度不小于60%的數(shù)據(jù)項作為一部分,將匹配度小于60%的數(shù)據(jù)項作為另一部分。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括:將所述匹配度不小于80%的數(shù)據(jù)項和匹配度不小于60%的數(shù)據(jù)項作為一個集合,進行所述聚類分析。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述聚類分析包括: 統(tǒng)計集合中的高頻詞匯、同時分析詞匯的中的事件、地區(qū)和開始時間; 還包括:統(tǒng)計聚類分析中數(shù)據(jù)項的數(shù)量、并記錄賦予ID保存。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,重復(fù)執(zhí)行數(shù)據(jù)篩選的過程,找到每個地區(qū)經(jīng)過聚類分析后,數(shù)據(jù)項數(shù)量最高的事件。
【文檔編號】G06F17/30GK104376089SQ201410667074
【公開日】2015年2月25日 申請日期:2014年11月20日 優(yōu)先權(quán)日:2014年11月20日
【發(fā)明者】江潮, 賀建華, 張光凌 申請人:武漢傳神信息技術(shù)有限公司