一種針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法
【專利摘要】本發(fā)明公開(kāi)了一種針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法,首先從新聞網(wǎng)站或數(shù)據(jù)庫(kù)中獲取各種財(cái)經(jīng)新聞數(shù)據(jù)■’對(duì)于所獲取的每篇新聞數(shù)據(jù),采用分類技術(shù)識(shí)別其行業(yè)標(biāo)簽,采用改進(jìn)的主題模型抽取其主題信息,構(gòu)建行業(yè)間的上下游關(guān)系網(wǎng),并創(chuàng)建相應(yīng)的新聞知識(shí)庫(kù);基于所述新聞知識(shí)庫(kù)構(gòu)建相應(yīng)的知識(shí)子網(wǎng),所述知識(shí)子網(wǎng)為四層拓?fù)浣Y(jié)構(gòu),具體包括四種類型節(jié)點(diǎn):新聞、新聞簇、主題簇和主題,以及兩種類型關(guān)系:包含關(guān)系和相關(guān)關(guān)系;每篇新聞都會(huì)產(chǎn)生自己的知識(shí)子網(wǎng),且所述每篇新聞的知識(shí)子網(wǎng)會(huì)呈現(xiàn)在該新聞內(nèi)容的下方?;谒鶚?gòu)建的知識(shí)網(wǎng)絡(luò)可以保證各種新聞從抽取到展現(xiàn)的高度實(shí)時(shí)性,為用戶提供更好的體驗(yàn)。
【專利說(shuō)明】一種針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)信息處理【技術(shù)領(lǐng)域】,尤其涉及一種針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建 方法。
【背景技術(shù)】
[0002] 目前,我們處在一個(gè)信息爆炸的時(shí)代,財(cái)經(jīng)新聞作為一種主要的財(cái)經(jīng)信息推送方 式,無(wú)法避免數(shù)據(jù)量大、復(fù)雜、冗余等問(wèn)題。在此背景下,許多財(cái)經(jīng)新聞檢索平臺(tái)應(yīng)運(yùn)而生, 其中包括普通的搜索引擎,例如百度新聞和谷歌新聞等,也包括財(cái)經(jīng)門(mén)戶網(wǎng)站,例如新浪財(cái) 經(jīng)、中國(guó)經(jīng)濟(jì)網(wǎng)等。在這些平臺(tái)上,用戶可以使用關(guān)鍵詞搜索或者分類導(dǎo)航兩種方法尋找自 己感興趣的財(cái)經(jīng)新聞內(nèi)容,
[0003] 然而,對(duì)于財(cái)經(jīng)領(lǐng)域工作人員或者一些財(cái)經(jīng)愛(ài)好者來(lái)說(shuō),目前的這種獲取財(cái)經(jīng)信 息的方式仍顯繁瑣。如果用戶在閱讀完一篇講述合肥房地產(chǎn)價(jià)格下跌的新聞后想知道其發(fā) 生的原因以及其可能帶來(lái)的后果,那么他需要繼續(xù)使用前兩種方法搜索相關(guān)的新聞。這一 過(guò)程費(fèi)時(shí)又費(fèi)力。另外,研究表明,用戶輸入搜索框的關(guān)鍵詞很難正確地表述其真實(shí)的意 圖。雖然,目前大多數(shù)新聞網(wǎng)頁(yè)提供了拓展閱讀或相似新聞等模塊,但新聞內(nèi)容相似,信息 量有限,并不能滿足用戶的需求。他們希望在瀏覽完一篇新聞時(shí),可以更快速地找到與之相 關(guān)的其它新聞,從而幫助他們理清事件的前因后果,做出較為準(zhǔn)確的決策?,F(xiàn)有技術(shù)方案中 的信息檢索平臺(tái)并不能滿足用戶的這一需求,且學(xué)術(shù)研究上也沒(méi)有出現(xiàn)相應(yīng)的成果。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法,能夠保證財(cái)經(jīng)新聞 從抽取到展現(xiàn)的高度實(shí)時(shí)性,為用戶提供更好的體驗(yàn)。
[0005] -種針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法,所述方法包括:
[0006] 從新聞網(wǎng)站或數(shù)據(jù)庫(kù)中獲取財(cái)經(jīng)新聞數(shù)據(jù);
[0007] 采用分類技術(shù)識(shí)別所獲取的每篇財(cái)經(jīng)新聞數(shù)據(jù)的行業(yè)標(biāo)簽,采用改進(jìn)的主題模型 抽取每篇財(cái)經(jīng)新聞數(shù)據(jù)的主題信息,通過(guò)調(diào)研國(guó)家標(biāo)準(zhǔn)行業(yè)分類以及財(cái)經(jīng)領(lǐng)域行業(yè)分類特 點(diǎn),構(gòu)建財(cái)經(jīng)領(lǐng)域行業(yè)上下游關(guān)系網(wǎng),并在此基礎(chǔ)上,創(chuàng)建新聞知識(shí)庫(kù);
[0008] 基于所述新聞知識(shí)庫(kù)構(gòu)建相應(yīng)的知識(shí)子網(wǎng),所述知識(shí)子網(wǎng)為四層拓?fù)浣Y(jié)構(gòu),具體 包括四種類型節(jié)點(diǎn):新聞、新聞簇、主題簇和主題,以及兩種類型關(guān)系:包含關(guān)系和相關(guān)關(guān) 系;
[0009] 其中,每篇新聞都會(huì)產(chǎn)生自己的知識(shí)子網(wǎng),界面展現(xiàn)時(shí),所述每篇新聞的知識(shí)子網(wǎng) 會(huì)呈現(xiàn)在該新聞內(nèi)容的下方。
[0010] 由上述本發(fā)明提供的技術(shù)方案可以看出,基于所構(gòu)建的知識(shí)網(wǎng)絡(luò)可以保證各種新 聞從抽取到展現(xiàn)的高度實(shí)時(shí)性,為用戶提供更好的體驗(yàn)。
【專利附圖】
【附圖說(shuō)明】 toon] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用 的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本 領(lǐng)域的普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他 附圖。
[0012] 圖1為本發(fā)明實(shí)施例所提供針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法流程示意圖;
[0013] 圖2所示顯示本實(shí)施例所舉實(shí)例中以房地產(chǎn)為中心的上下游行業(yè)關(guān)系網(wǎng)。
【具體實(shí)施方式】
[0014] 下面結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整 地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒?發(fā)明的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施 例,都屬于本發(fā)明的保護(hù)范圍。
[0015] 知識(shí)網(wǎng)絡(luò)的概念首先是由一位心理學(xué)家E.加涅在1985年提出的,此后在信息管 理領(lǐng)域,許多學(xué)者就知識(shí)網(wǎng)絡(luò)研究了其定義、分類、結(jié)構(gòu)等方面的內(nèi)容。在計(jì)算機(jī)科學(xué)領(lǐng)域 內(nèi),研究主要集中在單個(gè)科學(xué)領(lǐng)域或多科學(xué)領(lǐng)域的知識(shí)圖譜上,包括知識(shí)網(wǎng)絡(luò)的構(gòu)建、可視 化、結(jié)構(gòu)分析等內(nèi)容。本發(fā)明實(shí)施例是通過(guò)構(gòu)建針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò),實(shí)現(xiàn)財(cái)經(jīng)信息之 間的關(guān)聯(lián),從而幫助用戶理清當(dāng)前新聞所述事情的前因后果。下面將結(jié)合附圖對(duì)本發(fā)明實(shí) 施例作進(jìn)一步地詳細(xì)描述,構(gòu)建知識(shí)網(wǎng)絡(luò)的過(guò)程可分為線上和線下兩大部分,其中線下工 作主要包括數(shù)據(jù)爬取、文本處理和知識(shí)庫(kù)創(chuàng)建,線上工作有知識(shí)子網(wǎng)構(gòu)建以及可視化等,如 圖1所示為本發(fā)明實(shí)施例所提供針對(duì)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法流程示意圖,所述構(gòu)建方法 包括:
[0016] 步驟11 :從新聞網(wǎng)站或數(shù)據(jù)庫(kù)中獲取財(cái)經(jīng)新聞數(shù)據(jù);
[0017] 在該步驟中,所獲取的數(shù)據(jù)信息主要包括財(cái)經(jīng)新聞數(shù)據(jù),本實(shí)施例中為了適時(shí)地 抓取最新的財(cái)經(jīng)新聞,設(shè)計(jì)了一個(gè)分布式爬蟲(chóng),可以定制爬取網(wǎng)站上某一類新聞,也可以廣 泛地爬取所有新聞。除了財(cái)經(jīng)新聞,我們還抓取了在線財(cái)經(jīng)詞典和行業(yè)關(guān)系體系。
[0018] 舉例來(lái)說(shuō),可以基于Nutch設(shè)計(jì)分布式網(wǎng)絡(luò)爬蟲(chóng),其中每個(gè)爬蟲(chóng)從互聯(lián)網(wǎng)上下載 網(wǎng)頁(yè),并把網(wǎng)頁(yè)保存在服務(wù)器的磁盤(pán),從中抽取URL并沿著這些URL的指向繼續(xù)爬行。為了 建立初始URL集,我們調(diào)研了國(guó)內(nèi)各大財(cái)經(jīng)新聞網(wǎng)站,并從中選擇了較為權(quán)威的十個(gè)作為 初始URL集。此外,我們還設(shè)計(jì)了個(gè)性化定制爬蟲(chóng),方便用戶爬取某一類別的財(cái)經(jīng)新聞。我 們從抓取的頁(yè)面中解析出新聞的標(biāo)題、創(chuàng)建時(shí)間和具體內(nèi)容等字段,具體格式如下表1所 示:
[0019] 表 1
[0020]
【權(quán)利要求】
1. 一種針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法,其特征在于,所述方法包括: 從新聞網(wǎng)站或數(shù)據(jù)庫(kù)中獲取財(cái)經(jīng)新聞數(shù)據(jù); 采用分類技術(shù)識(shí)別所獲取的每篇財(cái)經(jīng)新聞數(shù)據(jù)的行業(yè)標(biāo)簽,采用改進(jìn)的主題模型抽取 每篇財(cái)經(jīng)新聞數(shù)據(jù)的主題信息,通過(guò)調(diào)研國(guó)家標(biāo)準(zhǔn)行業(yè)分類以及財(cái)經(jīng)領(lǐng)域行業(yè)分類特點(diǎn), 構(gòu)建財(cái)經(jīng)領(lǐng)域行業(yè)上下游關(guān)系網(wǎng),并在此基礎(chǔ)上,創(chuàng)建新聞知識(shí)庫(kù); 基于所述新聞知識(shí)庫(kù)構(gòu)建相應(yīng)的知識(shí)子網(wǎng),所述知識(shí)子網(wǎng)為四層拓?fù)浣Y(jié)構(gòu),具體包括 四種類型節(jié)點(diǎn):新聞、新聞簇、主題簇和主題,以及兩種類型關(guān)系:包含關(guān)系和相關(guān)關(guān)系; 其中,每篇新聞都會(huì)產(chǎn)生自己的知識(shí)子網(wǎng),界面展現(xiàn)時(shí),所述每篇新聞的知識(shí)子網(wǎng)會(huì)呈 現(xiàn)在該新聞內(nèi)容的下方。
2. 根據(jù)權(quán)利要求1所述針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法,其特征在于,所述新聞簇 節(jié)點(diǎn)具體包括: 根據(jù)每篇新聞的標(biāo)識(shí)id提取top-3主題分布,并據(jù)此搜索與其主題相關(guān)的其它新聞, 計(jì)算各新聞間的主題相關(guān)性,將每篇新聞表示為主題的概率分布,計(jì)算余弦相似度,并根據(jù) 所述每篇新聞的行業(yè)標(biāo)簽,將相關(guān)新聞劃分到三大類:行業(yè)政策、宏觀經(jīng)濟(jì)和上下游行業(yè)。
3. 根據(jù)權(quán)利要求1所述針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法,其特征在于,所述主題簇 節(jié)點(diǎn)具體包括: 提取出所有新聞的top-3主題,將每一個(gè)主題表示為詞的概率分布,然后利用K均值將 所有主題聚類成若干簇,通過(guò)聚類,相似的主題被放在一塊,形成主題簇節(jié)點(diǎn)。
4. 根據(jù)權(quán)利要求1所述針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法,其特征在于, 在所構(gòu)建的新聞知識(shí)庫(kù)的基礎(chǔ)上,使用可視化庫(kù)D3. js實(shí)現(xiàn)知識(shí)網(wǎng)絡(luò)的可視化。
5. 根據(jù)權(quán)利要求2所述針對(duì)財(cái)經(jīng)新聞的知識(shí)網(wǎng)絡(luò)構(gòu)建方法,其特征在于, 所述主題與所述新聞之間的相關(guān)性采用所述新聞在該主題上的概率值來(lái)度量。
【文檔編號(hào)】G06F17/30GK104217038SQ201410526042
【公開(kāi)日】2014年12月17日 申請(qǐng)日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】陳恩紅, 周麗麗, 丁君美, 管亞亭, 楊鎰銘, 朱炎, 朱琛 申請(qǐng)人:中國(guó)科學(xué)技術(shù)大學(xué)