国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種數(shù)據(jù)篩選的方法

      文檔序號:6635057閱讀:183來源:國知局
      一種數(shù)據(jù)篩選的方法
      【專利摘要】本發(fā)明提供了一種數(shù)據(jù)篩選的方法,包括:從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞,所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個;將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配,根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分;從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞,將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配,根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分;其中,所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量;將兩次匹配后,各次匹配度高的多個數(shù)據(jù)項的作為一個集合,并對集合內(nèi)的數(shù)據(jù)項聚類分析。本發(fā)明提高了定位關(guān)注度高的作為網(wǎng)絡(luò)事件的數(shù)據(jù)項的速度。
      【專利說明】一種數(shù)據(jù)篩選的方法

      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及計算機領(lǐng)域,具體而言,涉及一種數(shù)據(jù)篩選的方法。

      【背景技術(shù)】
      [0002]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,帶動了信息傳播的速度,使得網(wǎng)絡(luò)輿情信息的發(fā)展非常迅猛,不論是國內(nèi)還是國際的重大事件,都能很快形成輿論信息。各種各樣的新聞資訊類網(wǎng)站在互聯(lián)網(wǎng)也十分活躍,有自己撰寫輿情信息發(fā)表的,也有轉(zhuǎn)載其他網(wǎng)站輿情信息的,同一事件的輿情信息在網(wǎng)絡(luò)中被迅速傳播,進而產(chǎn)生很大的輿論壓力。為了監(jiān)測網(wǎng)絡(luò)事件的發(fā)展,迫切需要一種輿情信息轉(zhuǎn)載或重復(fù)的分析方法,來統(tǒng)計分析某事件被網(wǎng)絡(luò)轉(zhuǎn)載或重復(fù)的次數(shù),為網(wǎng)絡(luò)輿情監(jiān)測服務(wù)。
      [0003]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,各種各樣的新聞資訊類網(wǎng)站在互聯(lián)網(wǎng)十分活躍,為了監(jiān)測網(wǎng)絡(luò)事件的發(fā)展,需要快速的找出當(dāng)前網(wǎng)絡(luò)中關(guān)注度最高的事件。


      【發(fā)明內(nèi)容】

      [0004]本發(fā)明旨在提供一種數(shù)據(jù)篩選的方法,以解決上述找出當(dāng)前網(wǎng)絡(luò)中關(guān)注度最高的事件的效率較低的問題。
      [0005]在本發(fā)明的實施例中,提供了一種數(shù)據(jù)篩選的方法,包括:從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞,所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個;
      [0006]將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配,根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分;
      [0007]從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞,將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配,根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分;
      [0008]其中,所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量;
      [0009]將兩次匹配后,各次匹配度高的多個數(shù)據(jù)項的作為一個集合,并對集合內(nèi)的數(shù)據(jù)項聚類分析。
      [0010]優(yōu)選地,所述首次匹配之前,還包括:將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容進行模糊匹配,在所述多個數(shù)據(jù)項中,去除部分數(shù)據(jù)項;
      [0011]采用模糊匹配后的多個數(shù)據(jù)項執(zhí)行后續(xù)的步驟。
      [0012]優(yōu)選地,所述多個數(shù)據(jù)項的第一內(nèi)容為每個數(shù)據(jù)項的第一內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合;所述多個數(shù)據(jù)項的第二個內(nèi)容為每個數(shù)據(jù)項的第二內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合。
      [0013]優(yōu)選地,還包括:所述數(shù)據(jù)項為輿情內(nèi)容,包括:作為第一內(nèi)容的標題和作為第二內(nèi)容的正文。
      [0014]優(yōu)選地,所述首次匹配過程中,將匹配度不小于80%的數(shù)據(jù)項作為匹配程度高的數(shù)據(jù)項,將匹配度小于80%的數(shù)據(jù)項作為匹配程度低的數(shù)據(jù)項。
      [0015]優(yōu)選地,所述與第二內(nèi)容進行逐個匹配過程中,將匹配度不小于60%的數(shù)據(jù)項作為一部分,將匹配度小于60%的數(shù)據(jù)項作為另一部分。
      [0016]優(yōu)選地,還包括:將所述匹配度不小于80%的數(shù)據(jù)項和匹配度不小于60%的數(shù)據(jù)項作為一個集合,進行所述聚類分析。
      [0017]優(yōu)選地,所述聚類分析包括:
      [0018]統(tǒng)計集合中的高頻詞匯、同時分析詞匯的中的事件、地區(qū)和開始時間;
      [0019]還包括:統(tǒng)計聚類分析中數(shù)據(jù)項的數(shù)量、并記錄賦予ID保存。
      [0020]優(yōu)選地,重復(fù)執(zhí)行數(shù)據(jù)篩選的過程,找到每個地區(qū)經(jīng)過聚類分析后,數(shù)據(jù)項數(shù)量最高的事件。
      [0021]通過上述的過程,采用每個數(shù)據(jù)項中較小的數(shù)據(jù)量先進行分析匹配,從而找出匹配度高的可以認為是同一事件的數(shù)據(jù)項,對于匹配度低的數(shù)據(jù)項,再通過較大的數(shù)據(jù)量進行匹配分析,從而快速確定是否為同一事件的數(shù)據(jù)項。采用上述步驟,可以通過電子設(shè)備快速篩選出匹配度較高的同一事件的數(shù)據(jù)項,從而提高了定位關(guān)注度高的作為網(wǎng)絡(luò)事件的數(shù)據(jù)項的速度。

      【專利附圖】

      【附圖說明】
      [0022]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
      [0023]圖1示出了實施例一的流程圖;
      [0024]圖2示出了實施例二的流程圖。

      【具體實施方式】
      [0025]下面將參考附圖并結(jié)合實施例,來詳細說明本發(fā)明。
      [0026]參見圖1,本發(fā)明的實施例包括:
      [0027]Sll:從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞,所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個;
      [0028]S12:將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配,根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分;
      [0029]S13:從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞,將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配,根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分;
      [0030]其中,所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量;
      [0031]S14:將兩次匹配后,各次匹配度高的多個數(shù)據(jù)項的作為一個集合,并對集合內(nèi)的數(shù)據(jù)項聚類分析。
      [0032]通過上述的過程,采用每個數(shù)據(jù)項中較小的數(shù)據(jù)量先進行分析匹配,從而找出匹配度高的可以認為是同一事件的數(shù)據(jù)項,對于匹配度低的數(shù)據(jù)項,再通過較大的數(shù)據(jù)量進行匹配分析,從而確定是否為同一事件的數(shù)據(jù)項。
      [0033]采用上述步驟,可以通過電子設(shè)備快速篩選出匹配度較高的同一事件的數(shù)據(jù)項,從而提高了定位關(guān)注度高的作為網(wǎng)絡(luò)事件的數(shù)據(jù)項的速度。
      [0034]在本申請中,所述數(shù)據(jù)項為輿情內(nèi)容,也稱為輿情信息,包括:作為第一內(nèi)容的標題和作為第二內(nèi)容的正文。
      [0035]優(yōu)選地,上述步驟中,可以從各個新聞資訊類網(wǎng)站抓取輿情信息保存到數(shù)據(jù)庫;每一個輿情作為一個數(shù)據(jù)項。
      [0036]抓取輿情信息包括:標題、正文、采集點、數(shù)據(jù)來源待定、發(fā)布時間等。
      [0037]其中,實施例中的第一內(nèi)容,包括輿情信息中的標題;實施例中所指的第二內(nèi)容,包括實施例中的正文。
      [0038]篩選第一關(guān)鍵詞的過程包括:
      [0039]1、從數(shù)據(jù)庫中讀取一則輿情信息,名稱為輿情信息一,即實施例中的第一數(shù)據(jù)項;
      [0040]2、對該輿情信息的標題做分詞處理,獲取標題的分詞列表,名稱為分詞列表A ;作為第一內(nèi)容的第一關(guān)鍵詞。同時去除分詞列表A中的高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等)。
      [0041]得到第一關(guān)鍵詞后,即可執(zhí)行實施例中的首次匹配的過程;當(dāng)然,也可以對輿情信息一的內(nèi)容,即實施例中第一數(shù)據(jù)項的第二內(nèi)容,同時做分詞處理。作為分詞列表B,即多個第二關(guān)鍵詞;同時去除分詞列表B中的高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等)。
      [0042]得到分詞列表A后,可執(zhí)行實施例中的首次匹配的過程。
      [0043]優(yōu)選地,在首次匹配之前,還包括:將篩選的多個第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容進行模糊匹配,在所述多個數(shù)據(jù)項中,去除部分數(shù)據(jù)項;采用模糊匹配后的多個數(shù)據(jù)項執(zhí)行后續(xù)的步驟。
      [0044]經(jīng)過上述模糊匹配后,可篩選出一部分輿情信息,縮小后續(xù)進行匹配的匹配范圍。在實施例中,采用如下的技術(shù)方案。
      [0045]例如:3、然后用去除高頻詞匯的分詞列表A去數(shù)據(jù)庫模糊匹配,查詢得出一個輿情信息的列表,名稱為輿情信息列表一;
      [0046]循環(huán)遍歷輿情信息列表一,依次對輿情信息列表一的每一則輿情信息,名稱為輿情一,即實施例中的S12的多個數(shù)據(jù)項的第一內(nèi)容,做如下首次匹配分析:
      [0047]I)、對輿情一的標題做分詞處理,獲取分詞列表,去除高頻詞匯,名稱為分詞列表C ;即S12中的多個數(shù)據(jù)項的第一內(nèi)容;
      [0048]2)、分詞列表A與分詞列表C進行配置,統(tǒng)計兩個列表中的重復(fù)詞匯,重復(fù)詞匯在80%以上,則認為兩則輿情信息在講述一個事件,保存兩則輿情信息的ID編號;即將匹配度不小于80%的數(shù)據(jù)項作為匹配程度高的數(shù)據(jù)項,將匹配度小于80%的數(shù)據(jù)項作為匹配程度低的數(shù)據(jù)項。
      [0049]如果兩則輿情信息的標題詞匯匹配不在80%以上,則做以下正文分析。
      [0050]4、對輿情一的正文做分詞處理,獲取分詞列表,去除高頻詞匯,名稱為分詞列表D ;即S13中的匹配程度低的數(shù)據(jù)項的第二內(nèi)容。
      [0051]分詞列表B與分詞列表D進行匹配,統(tǒng)計兩個列表中的重復(fù)詞匯,重復(fù)詞匯在60%以上,則認為兩則輿情信息在講述一個事件,保存兩則輿情信息的ID編號。
      [0052]5、所述匹配度不小于80%的數(shù)據(jù)項和匹配度不小于60%的數(shù)據(jù)項作為一個集合,進行所述聚類分析。
      [0053]在S12中,所述多個數(shù)據(jù)項的第一內(nèi)容為每個數(shù)據(jù)項的第一內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合;
      [0054]在S13中,所述多個數(shù)據(jù)項的第二個內(nèi)容為每個數(shù)據(jù)項的第二內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合。
      [0055]所述聚類分析包括:
      [0056]統(tǒng)計集合中的高頻詞匯、同時分析詞匯的中的事件、地區(qū)和開始時間;
      [0057]還包括:統(tǒng)計聚類分析中數(shù)據(jù)項的數(shù)量、并記錄賦予ID保存。
      [0058]重復(fù)執(zhí)行數(shù)據(jù)篩選的過程,找到每個地區(qū)經(jīng)過聚類分析后,數(shù)據(jù)項數(shù)量最高的事件。
      [0059]優(yōu)選地,聚類分析可采用以下實施例的方式:
      [0060]I)統(tǒng)計重復(fù)度合格的輿情信息ID編號
      [0061]統(tǒng)計這一事件的重復(fù)度數(shù)量(即重復(fù)度合格的輿情信息條數(shù))。
      [0062]2)基于中文分詞的事件關(guān)鍵詞分析
      [0063]統(tǒng)計這一事件下各個輿情信息標題的詞匯頻率;
      [0064]基于標題分析中對輿情信息標題的分詞列表,統(tǒng)計詞匯頻率
      [0065]將詞匯頻率最高的前5個詞,作為該事件的關(guān)鍵詞。
      [0066]3)分析事件的開始時間
      [0067]統(tǒng)計這一事件下各個輿情信息中最早的發(fā)布時間。
      [0068]4)基于中文分詞的事件所屬地區(qū)分析
      [0069]統(tǒng)計這一事件下各個輿情信息的標題和正文中地區(qū)詞匯出現(xiàn)的頻率;
      [0070]基于標題分析和正文分析中的標題分詞列表和正文分詞,統(tǒng)計地區(qū)詞匯頻率;
      [0071]將詞匯頻率最高的地區(qū)詞匯,作為該事件的所屬地區(qū)。
      [0072]5)保存事件
      [0073]在數(shù)據(jù)庫中保存該事件,包括事件的關(guān)鍵詞、開始時間、重復(fù)度數(shù)量、輿情信息ID編號列表等。
      [0074]在進行地區(qū)匹配、關(guān)鍵詞匹配之前,還需要事先建立用于聚類分析以及關(guān)鍵詞匹配的詞庫。
      [0075]1.收集中文詞庫
      [0076]a)收集中文詞庫;
      [0077]b)將中文詞庫保存為UTF-8+B0M格式的文本信息;
      [0078]c)加載中文詞庫。
      [0079]2.收集高頻詞匯
      [0080]a)收集高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等);
      [0081]b)將高頻詞匯列表保存到數(shù)據(jù)庫。
      [0082]3.收集地區(qū)詞庫
      [0083]a)收集國家名稱及所屬國家的地區(qū)詞庫;地名?北京上海湖北
      [0084]b)將地區(qū)詞庫保存為UTF-8+B0M格式的文本信息;
      [0085]c)加載地區(qū)詞庫。
      [0086]通過上述步驟,本發(fā)明的實施例可以實現(xiàn)以下效果:
      [0087]1、分析統(tǒng)計出輿情信息轉(zhuǎn)載和重復(fù)的次數(shù)。
      [0088]分析和統(tǒng)計出輿情信息轉(zhuǎn)載和重復(fù)的次數(shù),為網(wǎng)絡(luò)輿情監(jiān)測服務(wù),防止反面事件的迅速擴散提供幫助。
      [0089]2、為輿情監(jiān)測等其他系統(tǒng)提供輿情信息轉(zhuǎn)載和重復(fù)的數(shù)據(jù)。
      [0090]3、為輿情信息進行自動聚類,并做事件保存,有利于政府、企業(yè)等相關(guān)部門對事件進行管理和監(jiān)控,防止事件擴大化。
      [0091]在本發(fā)明的實施例中,除了上述實施例一的方案之外,還可以采用實施例二的方案,具體參見以下步驟:
      [0092][001a]建立中文詞庫
      [0093][001b]將中文詞庫保存為UTF-8+B0M格式的文本信息
      [0094][001c]加載中文詞庫
      [0095][002a]收集高頻詞匯(一類無意義的語氣嘆詞、副詞、介詞、連接詞、助詞等等)
      [0096][002b]將高頻詞匯保存到數(shù)據(jù)庫
      [0097][003a]建立地區(qū)詞庫
      [0098][003b]將地區(qū)詞庫保存為UTF-8+B0M格式的文本信息
      [0099][003c]加載地區(qū)詞庫
      [0100][004a]從各個新聞資訊類網(wǎng)站抓取輿情信息保存到數(shù)據(jù)庫
      [0101][004b]抓取輿情信息包括:標題、正文、采集點、數(shù)據(jù)來源、發(fā)布時間等
      [0102][005a]標題分析:
      [0103][005b]從數(shù)據(jù)庫中讀取一則輿情信息,名稱為輿情信息一
      [0104][005c]對該輿情信息的標題做分詞處理,獲取標題的分詞列表,名稱為分詞列表A
      [0105][OOSd]去除分詞列表A中的高頻詞匯
      [0106][005e]對該輿情信息的正文做分詞處理,獲取正文的分詞列表,名稱為分詞列表B
      [0107][005f]去除分詞列表B中的高頻詞匯
      [0108][005g]然后用去除高頻詞匯的分詞列表A去數(shù)據(jù)庫模糊匹配,查詢得出一個輿情信息的列表,名稱為輿情信息列表一
      [0109][005h]循環(huán)遍歷輿情信息列表一,依次對輿情信息列表一的每一則輿情信息,名稱為輿情一,做如下分析:
      [0110][005?]對輿情一的標題做分詞處理,獲取分詞列表,去除高頻詞匯,名稱為分詞列表C
      [0111][005j]分詞列表A與分詞列表C進行配置,統(tǒng)計兩個列表中的重復(fù)詞匯,重復(fù)詞匯在80%以上,則認為兩則輿情信息在講述一個事件,保存兩則輿情信息的ID編號
      [0112][005k]如果兩則輿情信息的標題詞匯匹配不在80%以上,則做以下正文分析
      [0113][006a]正文分析:
      [0114][006b]對輿情一的標題做分詞處理,獲取分詞列表,去除高頻詞匯,名稱為分詞列表D
      [0115][006c]分詞列表B與分詞列表D進行匹配,統(tǒng)計兩個列表中的重復(fù)詞匯,重復(fù)詞匯在60%以上,則認為兩則輿情信息在講述一個事件,保存兩則輿情信息的ID編號
      [0116][007a]自動聚類:
      [0117][007b]統(tǒng)計重復(fù)度合格的輿情信息ID編號的數(shù)量,做為該事件的重復(fù)度數(shù)量
      [0118][007c]統(tǒng)計這一事件下各個輿情信息標題的詞匯頻率,將詞匯頻率最高的前5個詞,作為該事件的關(guān)鍵詞
      [0119][007d]統(tǒng)計這一事件下各個輿情信息中最早的發(fā)布時間,做為該事件的開始時間
      [0120][007e]統(tǒng)計這一事件下各個輿情信息的標題和正文中地區(qū)詞匯出現(xiàn)的頻率,將詞匯頻率最高的地區(qū)詞匯,作為該事件的所屬地區(qū)
      [0121][007f]保存該事件,包括事件的關(guān)鍵詞、開始時間、重復(fù)度數(shù)量、輿情信息ID編號列表等
      [0122][008a]對數(shù)據(jù)庫中沒有做基于中文分析重復(fù)度分析及自動聚類的輿情信息做分析
      [0123]實施例二實現(xiàn)的效果與實施例一相同,都可以通過采用較少的作為標題的關(guān)鍵詞實現(xiàn)事件的比對分析,從而提高快速對事件的定位、統(tǒng)計,以確定網(wǎng)絡(luò)對事件的關(guān)注度,以及事件的發(fā)生日期等信息。
      [0124]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
      【權(quán)利要求】
      1.一種數(shù)據(jù)篩選的方法,其特征在于,包括: 從第一數(shù)據(jù)項的第一內(nèi)容中篩選多個第一關(guān)鍵詞,所述第一數(shù)據(jù)項為多個數(shù)據(jù)項中的一個; 將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容逐個進行首次匹配,根據(jù)匹配結(jié)果將所述多個數(shù)據(jù)項分成匹配程度高和低的兩部分; 從第一數(shù)據(jù)項的第二內(nèi)容中篩選多個第二關(guān)鍵詞,將篩選的第二關(guān)鍵詞與所述匹配程度低的數(shù)據(jù)項的第二內(nèi)容逐個進行匹配,根據(jù)匹配結(jié)果將所述匹配程度低的數(shù)據(jù)項多個數(shù)據(jù)項分成兩部分; 其中,所述第一內(nèi)容的數(shù)據(jù)量小于第二內(nèi)容的數(shù)據(jù)量; 將兩次匹配后,各次匹配度高的多個數(shù)據(jù)項的作為一個集合,并對集合內(nèi)的數(shù)據(jù)項聚類分析。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述首次匹配之前,還包括: 將篩選的第一關(guān)鍵詞與所述多個數(shù)據(jù)項的第一內(nèi)容進行模糊匹配,在所述多個數(shù)據(jù)項中,去除部分數(shù)據(jù)項; 采用模糊匹配后的多個數(shù)據(jù)項執(zhí)行后續(xù)的步驟。
      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述多個數(shù)據(jù)項的第一內(nèi)容為每個數(shù)據(jù)項的第一內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合; 所述多個數(shù)據(jù)項的第二個內(nèi)容為每個數(shù)據(jù)項的第二內(nèi)容進行關(guān)鍵詞篩選后的關(guān)鍵詞列表的集合。
      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括:所述數(shù)據(jù)項為輿情內(nèi)容,包括:作為第一內(nèi)容的標題和作為第二內(nèi)容的正文。
      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述首次匹配過程中,將匹配度不小于80%的數(shù)據(jù)項作為匹配程度高的數(shù)據(jù)項,將匹配度小于80%的數(shù)據(jù)項作為匹配程度低的數(shù)據(jù)項。
      6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述與第二內(nèi)容進行逐個匹配過程中,將匹配度不小于60%的數(shù)據(jù)項作為一部分,將匹配度小于60%的數(shù)據(jù)項作為另一部分。
      7.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括:將所述匹配度不小于80%的數(shù)據(jù)項和匹配度不小于60%的數(shù)據(jù)項作為一個集合,進行所述聚類分析。
      8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述聚類分析包括: 統(tǒng)計集合中的高頻詞匯、同時分析詞匯的中的事件、地區(qū)和開始時間; 還包括:統(tǒng)計聚類分析中數(shù)據(jù)項的數(shù)量、并記錄賦予ID保存。
      9.根據(jù)權(quán)利要求8所述的方法,其特征在于,重復(fù)執(zhí)行數(shù)據(jù)篩選的過程,找到每個地區(qū)經(jīng)過聚類分析后,數(shù)據(jù)項數(shù)量最高的事件。
      【文檔編號】G06F17/30GK104376089SQ201410667074
      【公開日】2015年2月25日 申請日期:2014年11月20日 優(yōu)先權(quán)日:2014年11月20日
      【發(fā)明者】江潮, 賀建華, 張光凌 申請人:武漢傳神信息技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1