專利名稱:信息處理裝置以及處理方法
信息處理裝置以及處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息處理裝置以及處理方法,尤其涉及一種用于時(shí)間脈絡(luò)信息 處理裝置以及處理方法。
背景技術(shù):
某新聞發(fā)生后一段時(shí)間,各新聞?wù)军c(diǎn)會(huì)迅速發(fā)布出很多相關(guān)報(bào)道。當(dāng)這種資源 變化程度足夠大時(shí),我們稱此新聞為事件或者突發(fā)事件。此時(shí),用戶在各大搜索引擎進(jìn) 行該事件的相關(guān)檢索后,搜索引擎會(huì)在網(wǎng)頁上展示出一系列與該事件相關(guān)的新聞。展示 出的新聞會(huì)有不同的排序及排列方式,通常會(huì)按照時(shí)間順序?qū)⒃撌录故窘o用戶。關(guān)于 該事件或者突發(fā)事件的新聞通常很多,而且具有重復(fù)性,讓用戶眼花繚亂,對(duì)該事件沒 有一個(gè)清楚的了解。因此,需要提供事件的脈絡(luò)信息提供給用戶查詢。然而,并不是所 有的事件都需要提供脈絡(luò)信息,因?yàn)椴⒉皇撬械氖录季哂性谝欢〞r(shí)間內(nèi)的持續(xù)性。 需要對(duì)事件進(jìn)行判定是否屬于需要給出脈絡(luò)信息的事件,而且如何實(shí)現(xiàn)脈絡(luò)信息的分析 與計(jì)算,都是需要解決的問題。中國(guó)發(fā)明專利申請(qǐng)公開第CN101571853號(hào)揭示了通過多中心結(jié)構(gòu)建立相應(yīng)的話 題模型,更為準(zhǔn)確、全面的描述話題。通過話題多中心的建立和更新,展現(xiàn)話題內(nèi)容的 動(dòng)態(tài)演化發(fā)展過程,即話題的產(chǎn)生、發(fā)展、高潮直至消亡的全過程。該發(fā)明專利申請(qǐng)公 開采用向量空間模型形成新聞報(bào)道和話題模型;采用夾角余弦公式計(jì)算報(bào)道和話題的相 似度;采用向量分解方法建立話題的多個(gè)側(cè)面,并判斷話題內(nèi)容的演變。然而,該發(fā)明 專利申請(qǐng)公開并未揭示其具體的分析與計(jì)算方法,且對(duì)于何種情形下需要給出事件的脈 絡(luò)信息也沒有給出。另外,美國(guó)專利申請(qǐng)公開第2002/0152245A1號(hào)針對(duì)搜索的信息根 據(jù)時(shí)間和標(biāo)題進(jìn)行串聯(lián),然后根據(jù)用戶的查詢條件展示給用戶根據(jù)時(shí)間和標(biāo)題串聯(lián)的新 聞。該美國(guó)專利申請(qǐng)公開針對(duì)新聞進(jìn)行聚類,然后根據(jù)時(shí)間窗更新脈絡(luò)信息。然而,該 技術(shù)并未區(qū)分給出事件脈絡(luò)信息的情形和條件。然而上述兩個(gè)現(xiàn)有技術(shù),均是將收集到的新聞信息全部載入,然后根據(jù)時(shí)間和 標(biāo)題進(jìn)行串聯(lián),工作量很大,影響脈絡(luò)分析的時(shí)效性及脈絡(luò)分析結(jié)果的清晰性。容易造 成用戶的困擾,并浪費(fèi)用戶的時(shí)間。因此,需要針對(duì)以上技術(shù)缺陷給出解決方案。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種可以提供事件脈絡(luò)信息的信息處理裝置。本發(fā)明的又一個(gè)目的在于提供一種提供事件脈絡(luò)信息的信息處理方法。為實(shí)現(xiàn)上述目的,本發(fā)明的一個(gè)方面是關(guān)于一種信息處理裝置,其包括新聞簇信息載入模塊載入新聞簇信息;脈絡(luò)分析模塊分析所述新聞簇信息并產(chǎn)生脈絡(luò)信息;前端展示模塊展示所述脈絡(luò)信息。
作為本發(fā)明的進(jìn)一步改進(jìn),其還具有存儲(chǔ)器,用以存儲(chǔ)所述脈絡(luò)信息。作為本發(fā)明的進(jìn)一步改進(jìn),所述新聞簇信息載入模塊包括數(shù)據(jù)加載模塊加載一個(gè)周期內(nèi)收集到的所有新聞數(shù)據(jù);新聞聚類模塊文本聚類所述一個(gè)周期內(nèi)的新聞數(shù)據(jù)并分別歸類;計(jì)算焦點(diǎn)簇信息模塊計(jì)算焦點(diǎn)簇,并產(chǎn)生出若干個(gè)新聞簇。作為本發(fā)明的進(jìn)一步改進(jìn),所述數(shù)據(jù)加載模塊的周期為4天至7天之間。作為本發(fā)明的進(jìn)一步改進(jìn),所述脈絡(luò)分析模塊包括新聞數(shù)量分布計(jì)算模塊統(tǒng)計(jì)不同時(shí)間段內(nèi)新聞的數(shù)量分布;脈絡(luò)需求判定模塊利用時(shí)間窗和新聞簇的分類來過濾不需要出脈絡(luò)的新聞事 件,并避免產(chǎn)生低質(zhì)量的新聞簇產(chǎn)出脈絡(luò);脈絡(luò)數(shù)據(jù)生成模塊生成脈絡(luò)信息并返回信息處理裝置,以進(jìn)行保存。作為本發(fā)明的進(jìn)一步改進(jìn),所述脈絡(luò)分析模塊還包括配置信息加載模塊載入新聞聚類后產(chǎn)生的焦點(diǎn)簇配置信息。作為本發(fā)明的進(jìn)一步改進(jìn),所述脈絡(luò)分析模塊還包括相似新聞去重模塊單遍聚類新聞簇內(nèi)的高質(zhì)量新聞,并歸檔相似度很高的新 聞,以最早的那篇新聞為代表新聞,參加后一階段的時(shí)間片聚類。作為本發(fā)明的進(jìn)一步改進(jìn),所述脈絡(luò)分析模塊還包括時(shí)間片聚類模塊將所有的新聞按照時(shí)間排列,每篇新聞作為一個(gè)獨(dú)立的片 段,每次合并距離最近的兩個(gè)片段,直到片段的數(shù)量足夠少或者片段之間的距離都大于 一定的閾值時(shí)停止合并。作為本發(fā)明的進(jìn)一步改進(jìn),所述脈絡(luò)分析模塊還包括后處理模塊通過上述的時(shí)間片聚類算法,得到事件的若干個(gè)進(jìn)展以后,從每 個(gè)片段中,挑選出最具代表性的一篇新聞作為這個(gè)片段的代表新聞。作為本發(fā)明的進(jìn)一步改進(jìn),所述時(shí)間窗為1天,只有新聞簇的時(shí)間跨度大于24 小時(shí),才會(huì)出脈絡(luò)信息。作為本發(fā)明的進(jìn)一步改進(jìn),所述事件以專題新聞頁展示給用戶,其具有以時(shí)間 排序的最新報(bào)道列表及事件的脈絡(luò)信息。作為本發(fā)明的進(jìn)一步改進(jìn),所述最新報(bào)道列表位于專題新聞頁的左側(cè),時(shí)間的 脈絡(luò)信息位于位于該專題新聞頁的右側(cè)。作為本發(fā)明的進(jìn)一步改進(jìn),所述脈絡(luò)信息展示為時(shí)間軸。為實(shí)現(xiàn)上述目的,本發(fā)明又一個(gè)方面是關(guān)于一種信息處理方法,其包括步驟1)新聞簇信息加載載入新聞簇信息;2)計(jì)算脈絡(luò)信息分析所述新聞簇信息并產(chǎn)生脈絡(luò)信息;3)新聞事件展示展示所述脈絡(luò)信息。作為本發(fā)明的進(jìn)一步改進(jìn),其還包括步驟以通用數(shù)據(jù)的格式存儲(chǔ)所述脈絡(luò)信 肩、ο作為本發(fā)明的進(jìn)一步改進(jìn),所述新聞簇信息加載步驟包括1)加載數(shù)據(jù)加載一個(gè)周期內(nèi)收集到的所有新聞數(shù)據(jù);2)進(jìn)行新聞聚類文本聚類所述一個(gè)周期內(nèi)的新聞數(shù)據(jù)并分別歸類;
3)計(jì)算焦點(diǎn)簇信息計(jì)算焦點(diǎn)簇,并產(chǎn)生出若干個(gè)新聞簇。作為本發(fā)明的進(jìn)一步改進(jìn),所述加載數(shù)據(jù)的周期為4天至7天之間。作為本發(fā)明的進(jìn)一步改進(jìn),所述計(jì)算脈絡(luò)分析的步驟包括1)計(jì)算新聞數(shù)量分布統(tǒng)計(jì)不同時(shí)間段的新聞發(fā)布數(shù)量;2)判定脈絡(luò)需求利用時(shí)間窗和新聞簇的分類來過濾不需要出脈絡(luò)的新聞事 件,并避免產(chǎn)生低質(zhì)量的新聞簇產(chǎn)出脈絡(luò);3)生成脈絡(luò)數(shù)據(jù)生成脈絡(luò)信息并返回信息處理裝置,以進(jìn)行保存。作為本發(fā)明的進(jìn)一步改進(jìn),所述判定脈絡(luò)需求的步驟中,時(shí)間窗為1天,只有 新聞簇的時(shí)間跨度大于24小時(shí),才會(huì)出脈絡(luò)信息。作為本發(fā)明的進(jìn)一步改進(jìn),所述計(jì)算脈絡(luò)分析的步驟還包括加載配置信息載入新聞聚類后產(chǎn)生的焦點(diǎn)簇配置信息。作為本發(fā)明的進(jìn)一步改進(jìn),所述計(jì)算脈絡(luò)分析的步驟還包括相似新聞去重單遍聚類新聞簇內(nèi)的高質(zhì)量新聞,并歸檔相似度很高的新聞, 以最早的那篇新聞為代表新聞,參加后一階段的時(shí)間片聚類。作為本發(fā)明的進(jìn)一步改進(jìn),所述計(jì)算脈絡(luò)分析的步驟還包括時(shí)間片聚類將所有的新聞按照時(shí)間排列,每篇新聞作為一個(gè)獨(dú)立的片段,每 次合并距離最近的兩個(gè)片段,直到片段的數(shù)量足夠少或者片段之間的距離都大于一定的 閾值時(shí)停止合并。作為本發(fā)明的進(jìn)一步改進(jìn),所述時(shí)間片聚類步驟中,計(jì)算兩個(gè)片段中兩兩新聞 對(duì)的時(shí)間距離,然后求平均值以度量?jī)蓚€(gè)片段之間距離。作為本發(fā)明的進(jìn)一步改進(jìn),所述時(shí)間間距是采用新聞時(shí)間來計(jì)算,其中新聞時(shí) 間的統(tǒng)計(jì)是按照每半小時(shí)為一個(gè)小時(shí)間片,統(tǒng)計(jì)每個(gè)時(shí)間片內(nèi)的相同新聞簇的個(gè)數(shù),求 出各個(gè)時(shí)間片新聞數(shù)占所有時(shí)間片新聞數(shù)的比值,該比值用于重新分配24小時(shí)的時(shí)間長(zhǎng) 度,作為新聞時(shí)間。作為本發(fā)明的進(jìn)一步改進(jìn),所述計(jì)算脈絡(luò)分析的步驟還包括后處理通過上述的時(shí)間片聚類算法,得到事件的若干個(gè)進(jìn)展以后,從每個(gè)片 段中,挑選出最具代表性的一篇新聞作為這個(gè)片段的代表新聞。作為本發(fā)明的進(jìn)一步改進(jìn),所述后處理步驟中,如果有一個(gè)片段的新聞數(shù)量明 顯比相鄰的片段要少很多,那么這個(gè)片段要作為噪音被刪除掉。作為本發(fā)明的進(jìn)一步改進(jìn),所述后處理步驟中,對(duì)于選擇出來的內(nèi)容或者標(biāo)題 非常相近的脈絡(luò)新聞,會(huì)進(jìn)行去重,只保留時(shí)間更早的那篇新聞。作為本發(fā)明的進(jìn)一步改進(jìn),所述判定脈絡(luò)需求步驟,其包括1)發(fā)生事件;2)判斷時(shí)間跨度是否符合要求,如否,則判定為該事件無脈絡(luò)需求;3)如果時(shí)間跨度符合要求,則判斷事件是否有多個(gè)階段,如果無,則判定無脈 絡(luò)需求;4)如果事件有多個(gè)階段,則判斷各階段之間是否有邏輯順序,如果無,則判定 為一般脈絡(luò)需求;5)如果事件的各階段之間具有邏輯順序,則判定為強(qiáng)脈絡(luò)需求。
作為本發(fā)明的進(jìn)一步改進(jìn),所述事件的邏輯順序至少包括現(xiàn)象和本質(zhì)、態(tài)度和 行動(dòng),由淺至深、由主到次或者由此及彼之一。作為本發(fā)明的進(jìn)一步改進(jìn),所述強(qiáng)脈絡(luò)需求事件包括持續(xù)性事件及突發(fā)性事 件。作為本發(fā)明的進(jìn)一步改進(jìn),所述低質(zhì)量新聞簇是通過統(tǒng)計(jì)新聞簇中地區(qū)新聞的 地域個(gè)數(shù),如果地域分布比較散,那么判定為一個(gè)低質(zhì)量的新聞簇。作為本發(fā)明的進(jìn)一步改進(jìn),所述新聞簇內(nèi)可以出現(xiàn)的最多地域數(shù)目為3個(gè),高 于該值則認(rèn)為是低質(zhì)量新聞簇。作為本發(fā)明的進(jìn)一步改進(jìn),所述無法通過地域來過濾的低質(zhì)量新聞簇,則通過 對(duì)新聞簇內(nèi)新聞內(nèi)容的凝聚度來打分,對(duì)于打分較低的新聞簇,判定為低質(zhì)量新聞簇, 不給出新聞脈絡(luò)。作為本發(fā)明的進(jìn)一步改進(jìn),所述打分的方法是在新聞簇內(nèi),挑選轉(zhuǎn)載率最高 的N條新聞,計(jì)算N條新聞兩兩之間的文本距離,然后算平均值作為整個(gè)簇的內(nèi)容質(zhì)量 得分。作為本發(fā)明的進(jìn)一步改進(jìn),所述轉(zhuǎn)載率不低于3次。作為本發(fā)明的進(jìn)一步改進(jìn),所述事件以專題新聞頁展示給用戶,其具有以時(shí)間 排序的最新報(bào)道列表及事件的脈絡(luò)信息。作為本發(fā)明的進(jìn)一步改進(jìn),所述最新報(bào)道列表位于專題新聞頁的左側(cè),時(shí)間的 脈絡(luò)信息位于位于該專題新聞頁的右側(cè)。作為本發(fā)明的進(jìn)一步改進(jìn),所述脈絡(luò)信息展示位時(shí)間軸。本發(fā)明的有益效果是工作量較小、時(shí)效性較強(qiáng)、清晰度較高的給出新聞事件 的脈絡(luò)信息。
圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施方式一的信息處理裝置的示意框圖;圖2是圖1所示信息處理裝置的處理流程示意圖;圖3是根據(jù)本發(fā)明優(yōu)選實(shí)施方式二的信息處理裝置的示意框圖;圖4是圖3所示的信息處理裝置的處理流程示意圖;圖5是本發(fā)明信息處理裝置的新聞簇信息載入模塊的示意框圖;圖6是圖5所示的新聞簇信息載入模塊的處理流程示意圖;圖7是本發(fā)明信息處理裝置中脈絡(luò)分析模塊的示意框圖;圖8是本發(fā)明脈絡(luò)分析模塊的數(shù)據(jù)處理流程示意圖;圖9是本發(fā)明新聞事件脈絡(luò)需求判定流程示意圖;圖10是本發(fā)明信息處理裝置中事件脈絡(luò)信息展示示意圖片;圖11是本發(fā)明信息處理裝置中又一事件脈絡(luò)信息展示示意圖片。
具體實(shí)施方式持續(xù)一定時(shí)間的新聞事件會(huì)具有事件演化過程,脈絡(luò)信息是將該演化過程按照 時(shí)間序列呈現(xiàn)出來。理想情況下,用戶對(duì)事件完全不了解的情況下,能夠通過閱讀給出的脈絡(luò)信息,迅速了解整個(gè)事件的來龍去脈。并不是每個(gè)新聞事件都需要給出脈絡(luò)信息。只有特別的新聞簇,才具有出脈絡(luò) 的必要。新聞簇要滿足一定的時(shí)間窗長(zhǎng)度,以及話題本身具有階段型的發(fā)展趨勢(shì)才適合 用脈絡(luò)的形式來展現(xiàn)。時(shí)間窗長(zhǎng)度可以配置,于本發(fā)明優(yōu)選實(shí)施方式中,時(shí)間窗長(zhǎng)度要 求時(shí)間的相關(guān)報(bào)道持續(xù)一天以上。另外,在當(dāng)前瀏覽端的架構(gòu)下,還需要避免一些低質(zhì) 量的新聞簇出脈絡(luò)信息。因此,本發(fā)明信息處理裝置及其處理方法的思路是首先,對(duì)于本發(fā)明信息處理裝置產(chǎn)出的新聞簇,需要判定該新聞簇是否具有脈 絡(luò)需求,如果滿足脈絡(luò)需求,則進(jìn)行脈絡(luò)分析。對(duì)于有脈絡(luò)需求的新聞簇,需要利用機(jī)器挖掘算法,產(chǎn)出該新聞簇的脈絡(luò)信 息。具體的脈絡(luò)信息及展現(xiàn)形式,請(qǐng)參閱圖10,前端展示模塊的左側(cè)列出根據(jù)時(shí)間排序 的新聞事件的一系列最新報(bào)道,右側(cè)為該新聞事件的事件回顧,即脈絡(luò)信息。該展示位 置并不固定,可以根據(jù)需要調(diào)整脈絡(luò)信息的顯示位置。請(qǐng)參閱圖1,其示出了根據(jù)本發(fā)明優(yōu)選實(shí)施方式一的信息處理裝置的示意框圖, 其包括新聞簇信息載入模塊將焦點(diǎn)簇信息載入新聞處理裝置;脈絡(luò)分析模塊以上述周期內(nèi)產(chǎn)生的新聞簇為輸入,產(chǎn)生脈絡(luò)信息;存儲(chǔ)器將上述脈絡(luò)信息以通用數(shù)據(jù)的格式直接存儲(chǔ)到指定目錄;前端展示模塊根據(jù)用戶的搜索條件,展示事件的新聞列表及事件脈絡(luò)信息。請(qǐng)參閱圖5,新聞簇信息載入模塊包括數(shù)據(jù)加載模塊將一個(gè)周期內(nèi)收集到的所有新聞數(shù)據(jù)加載至本發(fā)明信息處理裝 置,于本發(fā)明較佳實(shí)施方式中,該周期為4天至7天;新聞聚類模塊將數(shù)據(jù)加載模塊加載的一個(gè)周期內(nèi)的新聞數(shù)據(jù)進(jìn)行文本聚類, 將周期內(nèi)的新聞數(shù)據(jù)分別歸類;計(jì)算焦點(diǎn)簇信息模塊根據(jù)歸類后的新聞,計(jì)算焦點(diǎn)簇,并產(chǎn)生出若干個(gè)新聞簇。由于本發(fā)明的信息處理裝置的脈絡(luò)分析模塊是內(nèi)嵌到信息處理裝置中,所以脈 絡(luò)分析用到的新聞事件的時(shí)間窗也受到新聞簇周期的限制,即為4天至7天。但是這樣 的優(yōu)點(diǎn)是能夠自然的將脈絡(luò)信息同新聞簇對(duì)應(yīng)起來,因?yàn)槎叩母轮芷谝恢?。?qǐng)參閱圖2,其示出了根據(jù)圖1的信息處理裝置的處理流程示意圖,其包括步 驟SlOlS102
脈絡(luò)信息;S103
指定目錄;S104
fn息O請(qǐng)參閱圖3,其示出了根據(jù)本發(fā)明優(yōu)選實(shí)施方式二的信息處理裝置的示意框圖,載入新聞簇信息;計(jì)算脈絡(luò)信息脈絡(luò)分析模塊以上述周期內(nèi)產(chǎn)生的新聞簇為輸入,產(chǎn)生 保存數(shù)據(jù)數(shù)據(jù)保存模塊將上述脈絡(luò)信息以通用數(shù)據(jù)的格式直接存儲(chǔ)到 前端展示由前端展示模塊展示用戶查詢條件下的事件結(jié)果列表及脈絡(luò)其包括新聞簇信息載入模塊將焦點(diǎn)簇信息載入新聞處理裝置;脈絡(luò)分析模塊以上述周期內(nèi)產(chǎn)生的新聞簇為輸入,產(chǎn)生脈絡(luò)信息;前端展示模塊根據(jù)用戶的搜索條件,展示事件的新聞列表及事件脈絡(luò)信息。其中,本發(fā)明信息處理裝置實(shí)時(shí)運(yùn)算,并由前端展示模塊進(jìn)行展示。請(qǐng)參閱圖4,其示出了根據(jù)圖3的信息處理裝置的處理流程示意圖,其包括步 驟SlOl 載入新聞簇信息;S102計(jì)算脈絡(luò)信息脈絡(luò)分析模塊以上述周期內(nèi)產(chǎn)生的新聞簇為輸入,產(chǎn)生 脈絡(luò)信息;S104前端展示由前端展示模塊展示用戶查詢條件下的事件結(jié)果列表及脈絡(luò) fn息ο與優(yōu)選實(shí)施方式一比較,優(yōu)選實(shí)施方式二采用實(shí)時(shí)運(yùn)算的方式,缺省存取器。圖6為根據(jù)圖5所示的新聞簇信息載入模塊的示意框圖的處理流程圖,其步驟如 下SlOll 加載數(shù)據(jù)利用數(shù)據(jù)加載模塊將一個(gè)周期內(nèi)收集到的所有新聞數(shù)據(jù)加 載至信息處理裝置。于本發(fā)明較佳實(shí)施方式中,該周期為4天至7天;S1012進(jìn)行新聞聚類新聞聚類模塊將數(shù)據(jù)加載模塊加載的一個(gè)周期內(nèi)的新 聞數(shù)據(jù)進(jìn)行文本聚類,將周期內(nèi)的新聞數(shù)據(jù)分別歸類;S1013計(jì)算焦點(diǎn)簇信息計(jì)算焦點(diǎn)簇信息模塊根據(jù)歸類后的新聞,計(jì)算焦點(diǎn) 簇,并產(chǎn)生出若干個(gè)新聞簇。請(qǐng)參閱圖7,本發(fā)明信息處理裝置中的脈絡(luò)分析模塊包括配置信息加載模塊配置信息為信息處理裝置中新聞聚類后產(chǎn)生的焦點(diǎn)簇信 息,配置信息加載模塊將上述配置信息載入脈絡(luò)分析模塊;新聞數(shù)量分布計(jì)算模塊一天有24個(gè)小時(shí),各個(gè)小時(shí)的新聞發(fā)布數(shù)量是有很大 差別的。通過統(tǒng)計(jì),新聞發(fā)布的高峰主要有兩個(gè)時(shí)間段,分別是在8:00 11:30,以及 14:00 16:00。新聞數(shù)量分布計(jì)算模塊統(tǒng)計(jì)不同時(shí)間段的新聞發(fā)布數(shù)量,對(duì)于后續(xù)的時(shí) 間片聚類是有幫助的。脈絡(luò)需求判定模塊利用時(shí)間窗和新聞簇的分類來過濾,同時(shí)避免一些低質(zhì)量 的新聞簇產(chǎn)出脈絡(luò)。時(shí)間窗的大小和分類的過濾設(shè)置,都可以通過配置文件來設(shè)定,當(dāng)前的時(shí)間窗 為1天,即只有新聞簇的時(shí)間跨度大于24小時(shí),才考慮出脈絡(luò)信息。于本發(fā)明優(yōu)選實(shí) 施方式中,在分類方面,共有國(guó)際、國(guó)內(nèi)、體育、娛樂、社會(huì)、財(cái)經(jīng)和互聯(lián)網(wǎng)等7個(gè)分 類具有出脈絡(luò)的需要。這7個(gè)需要出脈絡(luò)信息的分類具有類別代號(hào)1,2,3,4,5,6, 7。然而,其并不僅限于以上7個(gè)分類,其他分類同樣適用本發(fā)明的信息處理方法出具脈 絡(luò)信息。相似新聞去重模塊對(duì)新聞簇內(nèi)的高質(zhì)量新聞,進(jìn)行一次單遍聚類,如果碰到 相似度很高的新聞,則歸檔在一起,以最早的那篇新聞為代表新聞,參加后一階段的時(shí) 間片聚類。單遍聚類的合并閾值和質(zhì)心調(diào)整閾值,可以通過配置文件來設(shè)定。
時(shí)間片聚類模塊將所有的新聞按照時(shí)間排列,初始時(shí),每篇新聞作為一個(gè)獨(dú) 立的片段,每次合并距離最近的兩個(gè)片段,直到片段的數(shù)量足夠少或者片段之間的距離 都大于一定的閾值時(shí)停止合并。于本發(fā)明的優(yōu)選實(shí)施方式中,片段數(shù)量至少為3個(gè)時(shí)停 止合并,片段之間的距離大于5個(gè)小時(shí)的情形下停止合并。然而,本發(fā)明并不僅限于片 段數(shù)量為至少3個(gè)時(shí)停止合并,其還可以設(shè)置為其他片段數(shù)量,同樣可以實(shí)現(xiàn)本發(fā)明的 發(fā)明目的。同理,片段之間的距離也同樣不僅限于距離大于5個(gè)小時(shí)的情形下停止合 并,其還可以選擇其他時(shí)間距離,同樣可以實(shí)現(xiàn)本發(fā)明的發(fā)明目的。度量?jī)蓚€(gè)片段之間 距離的方法是計(jì)算兩個(gè)片段中兩兩新聞對(duì)的時(shí)間距離,然后求平均值。為了更符合新聞發(fā)布的時(shí)間規(guī)律,本發(fā)明信息處理方法采用“新聞時(shí)間”來代 替“自然時(shí)間”計(jì)算時(shí)間距離。后處理模塊通過上述的時(shí)間片聚類算法,得到事件的若干個(gè)進(jìn)展以后,從每 個(gè)片段中,挑選出最具代表性的一篇新聞作為這個(gè)片段的代表新聞。在這個(gè)過程中,還會(huì)對(duì)時(shí)間片劃分的結(jié)果進(jìn)行一定的修正工作。如果有一個(gè)片 段的新聞數(shù)量明顯比相鄰的片段要少很多,那么這個(gè)片段要作為噪音被刪除掉。同時(shí),對(duì)于選擇出來的內(nèi)容或者標(biāo)題非常相近的脈絡(luò)新聞,也會(huì)進(jìn)行去重,只 保留時(shí)間更早的那篇新聞。脈絡(luò)數(shù)據(jù)生成模塊生成脈絡(luò)信息并返回信息處理裝置,進(jìn)行保存。具體來講,脈絡(luò)信息生成的數(shù)據(jù)處理流程如圖8所示,其包括以下步驟S201 加載配置信息配置信息為信息處理裝置中新聞聚類后產(chǎn)生的焦點(diǎn)簇信 息,配置信息加載模塊將上述配置信息載入脈絡(luò)分析模塊。S202計(jì)算新聞數(shù)量在各個(gè)時(shí)間段的分布一天有24個(gè)小時(shí),各個(gè)小時(shí)的新 聞發(fā)布數(shù)量是有很大差別的。通過統(tǒng)計(jì),新聞發(fā)布的高峰主要有兩個(gè)時(shí)間段,分別是在 8:00 11:30,以及14:00 16:00。新聞數(shù)量分布計(jì)算模塊統(tǒng)計(jì)不同時(shí)間段的新聞發(fā)布 數(shù)量,對(duì)于后續(xù)的時(shí)間片聚類是有幫助的?!靶侣剷r(shí)間”是相對(duì)于“自然時(shí)間”來說的,一天24小時(shí),每個(gè)小時(shí)的跨度是 一樣的。但是對(duì)于新聞來說,由于新聞發(fā)布并不是在24小時(shí)內(nèi)均勻分布的,所以本發(fā)明 信息處理方法中在新聞發(fā)布高峰期間隔1個(gè)小時(shí),要比在新聞發(fā)布的低谷期間隔一個(gè) 小時(shí),造成的時(shí)間跨度更長(zhǎng)。統(tǒng)計(jì)的方法是新聞數(shù)量于各時(shí)間段分布計(jì)算模塊按照每半小時(shí)為一個(gè)小時(shí)間 片,統(tǒng)計(jì)每個(gè)時(shí)間段內(nèi)的相同新聞簇的個(gè)數(shù),求出各個(gè)時(shí)間段新聞數(shù)占所有時(shí)間片新聞 數(shù)的比值,這個(gè)比值可以用來重新分配24小時(shí)的時(shí)間長(zhǎng)度,作為“新聞時(shí)間”。最終的 結(jié)果可以是在0點(diǎn)至6點(diǎn)之間的1個(gè)小時(shí),在“新聞時(shí)間”中只有半個(gè)小時(shí),甚至更 少,而在9:00 11:00期間的一個(gè)小時(shí),相當(dāng)于2 3個(gè)小時(shí)。由于統(tǒng)計(jì)本身不怎么消耗資源,所以每個(gè)周期都會(huì)重新統(tǒng)計(jì)一次。S203脈絡(luò)需求判定并不是所有的新聞簇都適合出脈絡(luò)。影響新聞簇是否需要脈絡(luò)的因素有時(shí)間窗的大小以及話題是否具有階段性的 進(jìn)展模式。本發(fā)明信息處理方法是脈絡(luò)需求判定模塊利用時(shí)間窗和新聞簇的分類來過濾, 同時(shí)避免一些低質(zhì)量的新聞簇產(chǎn)出脈絡(luò)。
時(shí)間窗的大小和分類的過濾設(shè)置,都可以通過配置文件來設(shè)定,當(dāng)前的時(shí)間窗 為1天,即只有新聞簇的時(shí)間跨度大于24小時(shí),才考慮出脈絡(luò)信息。分類方面,國(guó)際、 國(guó)內(nèi)、體育、娛樂、社會(huì)、財(cái)經(jīng)和互聯(lián)網(wǎng)共7個(gè)分類具有出脈絡(luò)的需要,并分別具有脈 絡(luò)信息代號(hào)1-7。然而,其他分類同樣適用于本發(fā)明信息處理方法實(shí)現(xiàn)脈絡(luò)分析的需求。請(qǐng)參閱圖9,新聞事件的脈絡(luò)需求判定流程為S301 發(fā)生事件 A ;S302時(shí)間跨度是否符合要求,如否,則判定為該事件A無脈絡(luò)需求;于本發(fā)明實(shí)施方式中,時(shí)間跨度需要滿足大于24小時(shí);S303如果時(shí)間跨度符合要求,則判斷事件A是否有多個(gè)階段,如果無,則判 定無脈絡(luò)需求;S304如果事件A有多個(gè)階段,則判斷各階段之間是否有邏輯順序,如果無, 則判定為一般脈絡(luò)需求,如體育賽事新聞、娛樂新聞等事件;如是否有原因和結(jié)果、現(xiàn)象和本質(zhì)、態(tài)度和行動(dòng),由淺至深、由主到次或者由 此及彼等,都可以判斷為各階段之間具有邏輯順序;S305如果事件A的各階段之間具有邏輯順序,則判定為強(qiáng)脈絡(luò)需求。強(qiáng)脈絡(luò)需求事件包括持續(xù)性事件及突發(fā)性事件。持續(xù)性事件如獸獸門、局長(zhǎng)日 記門、喝開水死亡、躲貓貓、鄧玉嬌等。突發(fā)性事件如地震、事故、災(zāi)難等。低質(zhì)量新聞簇判定的方法是統(tǒng)計(jì)新聞簇中地區(qū)新聞的地域個(gè)數(shù),如果地域分布比較散,那么判定為一個(gè)低 質(zhì)量的新聞簇。這類低質(zhì)量新聞簇的代表就是一些講各地抗旱,各地學(xué)習(xí)科學(xué)發(fā)展觀等 新聞簇。于本發(fā)明信息處理方法中,新聞簇內(nèi)可以出現(xiàn)的最多地域數(shù)目為3個(gè),高于該 值則認(rèn)為是低質(zhì)量新聞簇。對(duì)于無法通過地域來過濾的新聞簇,通過對(duì)新聞簇內(nèi)新聞內(nèi)容的凝聚度來打 分,對(duì)于打分較低的新聞簇,也不給出新聞脈絡(luò)。打分的方法是在新聞簇內(nèi),挑選轉(zhuǎn) 載率最高的若干條新聞(最多抽N條,N可配置),計(jì)算N條新聞兩兩之間的文本距離, 然后算平均值作為整個(gè)簇的內(nèi)容質(zhì)量得分。通過數(shù)據(jù)分析,這種方法對(duì)于過濾那些由于 某個(gè)特征詞而聚集在一起的大雜燴新聞簇,比如“奧巴馬”等類型的新聞簇比較有效。 其中轉(zhuǎn)載率不低于3次。S204相似新聞去重在新聞報(bào)道中,會(huì)有很多相似的新聞在描述同一事件的 同一階段,但是他們的時(shí)間間隔卻可能較大,一個(gè)主要的原因是各方編輯的相應(yīng)速度不 一樣,描述方式也不一樣。為了不讓相似的新聞被劃分到不同的時(shí)間片中,作為不同的事件階段,需要把 相似度較高的新聞合并起來,這樣可以提升脈絡(luò)分析的質(zhì)量。相似新聞去重的實(shí)現(xiàn)方法是相似新聞去重模塊對(duì)新聞簇內(nèi)的高質(zhì)量新聞,進(jìn) 行一次單遍聚類,如果碰到相似度很高的新聞,則歸檔在一起,以最早的那篇新聞為代 表新聞,參加后一階段的時(shí)間片聚類。單遍聚類的合并閾值和質(zhì)心調(diào)整閾值,可以通過 配置文件來設(shè)定。于本發(fā)明中,優(yōu)選的實(shí)施方式為選取的高質(zhì)量新聞不低于8條,合并 閾值為0.55,質(zhì)心調(diào)整閾值為0.75。S205時(shí)間片聚類時(shí)間片聚類模塊使用媒體報(bào)道新聞事件的趨勢(shì)來擬合事件發(fā)展的趨勢(shì)。把每篇新聞都映射成在時(shí)間軸上的一個(gè)點(diǎn),那么一個(gè)新聞簇的新聞集合,就是 時(shí)間軸上的點(diǎn)的集合。如果新聞的發(fā)布時(shí)間同事件進(jìn)展發(fā)生的時(shí)間一致的話,將這些點(diǎn) 劃分成若干個(gè)片段獨(dú)立開來,每個(gè)獨(dú)立的片段就可以看作是一個(gè)事件發(fā)展的階段。當(dāng)然,這是一種理想的假設(shè),實(shí)際的情況應(yīng)該是描述同一個(gè)事件階段的新聞 報(bào)道,某個(gè)網(wǎng)站的報(bào)道可能晚上11點(diǎn)鐘就及時(shí)發(fā)出,而有一些站點(diǎn),可能要等到第二天 8點(diǎn)以后才能發(fā)出。而且不同的站點(diǎn)新聞滯后性都不一樣,所以時(shí)間片聚類的效果打了折 扣。但是通過觀察,可以透過時(shí)間片劃分的結(jié)果,提取出事件發(fā)展的重要的幾個(gè)階段。 同時(shí),還可以用相似新聞過濾的方法來削弱滯后性新聞帶來的負(fù)面影響。時(shí)間片聚類的算法是將所有的新聞按照時(shí)間排列,初始時(shí),每篇新聞作為一 個(gè)獨(dú)立的片段,每次合并距離最近的兩個(gè)片段,直到片段的數(shù)量足夠少或者片段之間的 距離都大于一定的閾值時(shí)停止合并。度量?jī)蓚€(gè)片段之間距離的方法是計(jì)算兩個(gè)片段中 兩兩新聞對(duì)的時(shí)間距離,然后求平均值。于本發(fā)明優(yōu)選實(shí)施方式中,單遍聚類的合并閾 值為0.55。于本發(fā)明的優(yōu)選實(shí)施方式中,片段數(shù)量至少為3個(gè)時(shí)停止合并,片段之間的 距離大于5個(gè)小時(shí)的情形下停止合并。為了更符合新聞發(fā)布的時(shí)間規(guī)律,本發(fā)明采用“新聞時(shí)間”來代替“自然時(shí) 間”計(jì)算時(shí)間距離。S206后處理通過上述的時(shí)間片聚類算法,得到事件的若干個(gè)進(jìn)展以后,后 處理模塊從每個(gè)片段中,挑選出最具代表性的一篇新聞作為這個(gè)片段的代表新聞。在這個(gè)過程中,還會(huì)對(duì)時(shí)間片劃分的結(jié)果進(jìn)行一定的修正工作。如果有一個(gè)片 段的新聞數(shù)量明顯比相鄰的片段要少很多,那么這個(gè)片段要作為噪音被刪除掉。同時(shí),對(duì)于選擇出來的內(nèi)容或者標(biāo)題非常相近的脈絡(luò)新聞,也會(huì)進(jìn)行去重,只 保留時(shí)間更早的那篇新聞。計(jì)算該新聞相似度時(shí),標(biāo)題相似的權(quán)重為2。S207生成脈絡(luò)數(shù)據(jù)脈絡(luò)數(shù)據(jù)生成模塊生成脈絡(luò)信息并返回信息處理裝置, 進(jìn)行保存。請(qǐng)參閱圖10及圖11,于本發(fā)明的最佳實(shí)施方式中,其示出了根據(jù)本發(fā)明信息處 理方法得到的事件脈絡(luò)信息,并以專題新聞頁的方式展現(xiàn)。該專題新聞頁包括位于左上 方該事件的熱門報(bào)道,位于熱門報(bào)道下方的對(duì)該事件的各方評(píng)論及位于左側(cè)最下方的帶 有圖片的新聞。新聞頁右側(cè)下方即為該新聞的事件回顧,即脈絡(luò)信息。該脈絡(luò)信息展示 位置可調(diào)整。同時(shí),脈絡(luò)信息的展示也并不限于圖10及圖11所呈現(xiàn)的展現(xiàn)形式,其具 體的應(yīng)用形式,可以有多種,比如展現(xiàn)成一個(gè)時(shí)間軸的樣式,用戶可以隨意移到想看的 時(shí)間點(diǎn)上,則展現(xiàn)這個(gè)時(shí)間點(diǎn)的進(jìn)展情況。特別需要指出的是,本發(fā)明具體實(shí)施方式
中僅以信息處理裝置以及處理方法作 為示例,在實(shí)際應(yīng)用中任何類型的信息處理裝置以及處理方法均適用本發(fā)明揭示的原 理。對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在本發(fā)明的教導(dǎo)下所作的針對(duì)本發(fā)明的等效變 化,仍應(yīng)包含在本發(fā)明權(quán)利要求所主張的范圍中。
權(quán)利要求
1.一種信息處理裝置,其特征在于其包括 新聞簇信息載入模塊載入新聞簇信息;脈絡(luò)分析模塊分析所述新聞簇信息并產(chǎn)生脈絡(luò)信息; 前端展示模塊展示所述脈絡(luò)信息。
2.如權(quán)利要求1所述的信息處理裝置,其特征在于,還具有存儲(chǔ)器,用以存儲(chǔ)所述脈絡(luò)信息。
3.如權(quán)利要求1所述的信息處理裝置,其特征在于,所述新聞簇信息載入模塊包括數(shù)據(jù)加載模塊加載一個(gè)周期內(nèi)收集到的所有新聞數(shù)據(jù); 新聞聚類模塊文本聚類所述一個(gè)周期內(nèi)的新聞數(shù)據(jù)并分別歸類; 計(jì)算焦點(diǎn)簇信息模塊計(jì)算焦點(diǎn)簇,并產(chǎn)生出若干個(gè)新聞簇。
4.如權(quán)利要求3所述的信息處理裝置,其特征在于,所述數(shù)據(jù)加載模塊的周期為4天 至7天之間。
5.如權(quán)利要求1或2所述的信息處理裝置,其特征在于,所述脈絡(luò)分析模塊包括 新聞數(shù)量分布計(jì)算模塊統(tǒng)計(jì)不同時(shí)間段內(nèi)新聞的數(shù)量分布;脈絡(luò)需求判定模塊過濾不需要出脈絡(luò)的新聞事件,并避免產(chǎn)生低質(zhì)量的新聞簇產(chǎn) 出脈絡(luò);脈絡(luò)數(shù)據(jù)生成模塊生成脈絡(luò)信息并返回信息處理裝置,以進(jìn)行保存。
6.如權(quán)利要求5所述的信息處理裝置,其特征在于,所述脈絡(luò)分析模塊還包括 配置信息加載模塊載入新聞聚類后產(chǎn)生的焦點(diǎn)簇配置信息。
7.如權(quán)利要求5所述的信息處理裝置,其特征在于,所述脈絡(luò)分析模塊還包括 相似新聞去重模塊單遍聚類新聞簇內(nèi)的高質(zhì)量新聞,并歸檔相似度很高的新聞,以最早的那篇新聞為代表新聞,參加后一階段的時(shí)間片聚類。
8.如權(quán)利要求5所述的信息處理裝置,其特征在于,所述脈絡(luò)分析模塊還包括 時(shí)間片聚類模塊將所有的新聞按照時(shí)間排列,每篇新聞作為一個(gè)獨(dú)立的片段,每次合并距離最近的兩個(gè)片段,直到片段的數(shù)量足夠少或者片段之間的距離都大于一定的 閾值時(shí)停止合并。
9.如權(quán)利要求8所述的信息處理裝置,其特征在于,所述脈絡(luò)分析模塊還包括 后處理模塊通過上述的時(shí)間片聚類算法,得到事件的若干個(gè)進(jìn)展以后,從每個(gè)片段中,挑選出最具代表性的一篇新聞作為這個(gè)片段的代表新聞。
10.如權(quán)利要求5所述的信息處理裝置,其特征在于,所述時(shí)間窗為1天,只有新聞 簇的時(shí)間跨度大于24小時(shí),才會(huì)出脈絡(luò)信息。
11.如權(quán)利要求1所述的信息處理裝置,其特征在于,所述事件以專題新聞頁展示給 用戶,其具有以時(shí)間排序的最新報(bào)道列表及事件的脈絡(luò)信息。
12.如權(quán)利要求11所述的信息處理裝置,其特征在于,所述最新報(bào)道列表位于專題新 聞頁的左側(cè),時(shí)間的脈絡(luò)信息位于位于該專題新聞頁的右側(cè)。
13.如權(quán)利要求11所述的信息處理裝置,其特征在于,所述脈絡(luò)信息展示為時(shí)間軸。
14.一種信息處理方法,其包括步驟 1)新聞簇信息加載載入新聞簇信息;2)計(jì)算脈絡(luò)信息分析所述新聞簇信息并產(chǎn)生脈絡(luò)信息;3)新聞事件展示展示所述脈絡(luò)信息。
15.如權(quán)利要求14所述的信息處理方法,其特征在于,還包括步驟以通用數(shù)據(jù)的 格式存儲(chǔ)所述脈絡(luò)信息。
16.如權(quán)利要求14或15所述的信息處理方法,其特征在于,所述新聞簇信息加載步 驟包括1)加載數(shù)據(jù)加載一個(gè)周期內(nèi)收集到的所有新聞數(shù)據(jù);2)進(jìn)行新聞聚類文本聚類所述一個(gè)周期內(nèi)的新聞數(shù)據(jù)并分別歸類;3)計(jì)算焦點(diǎn)簇信息計(jì)算焦點(diǎn)簇,并產(chǎn)生出若干個(gè)新聞簇。
17.如權(quán)利要求14所述的信息處理方法,其特征在于,所述加載數(shù)據(jù)的周期為4天至 7天之間。
18.如權(quán)利要求14所述的信息處理方法,其特征在于,所述計(jì)算脈絡(luò)分析的步驟包括1)計(jì)算新聞數(shù)量分布統(tǒng)計(jì)不同時(shí)間段的新聞發(fā)布數(shù)量;2)判定脈絡(luò)需求過濾不需要出脈絡(luò)的新聞事件,并避免產(chǎn)生低質(zhì)量的新聞簇產(chǎn)出 脈絡(luò);3)生成脈絡(luò)數(shù)據(jù)生成脈絡(luò)信息并返回信息處理裝置,以進(jìn)行保存。
19.如權(quán)利要求18所述的信息處理方法,其特征在于,所述判定脈絡(luò)需求的步驟中, 時(shí)間窗為1天,只有新聞簇的時(shí)間跨度大于24小時(shí),才會(huì)出脈絡(luò)信息。
20.如權(quán)利要求18所述的信息處理方法,其特征在于,所述計(jì)算脈絡(luò)分析的步驟還包括加載配置信息載入新聞聚類后產(chǎn)生的焦點(diǎn)簇配置信息。
21.如權(quán)利要求18所述的信息處理方法,其特征在于,所述計(jì)算脈絡(luò)分析的步驟還包括相似新聞去重單遍聚類新聞簇內(nèi)的高質(zhì)量新聞,并歸檔相似度很高的新聞,以最 早的那篇新聞為代表新聞,參加后一階段的時(shí)間片聚類。
22.如權(quán)利要求21所述的信息處理方法,其特征在于,所述計(jì)算脈絡(luò)分析的步驟還包括時(shí)間片聚類將所有的新聞按照時(shí)間排列,每篇新聞作為一個(gè)獨(dú)立的片段,每次合 并距離最近的兩個(gè)片段,直到片段的數(shù)量足夠少或者片段之間的距離都大于一定的閾值 時(shí)停止合并。
23.如權(quán)利要求22所述的信息處理方法,其特征在于,所述時(shí)間片聚類步驟中,計(jì)算 兩個(gè)片段中兩兩新聞對(duì)的時(shí)間距離,然后求平均值以度量?jī)蓚€(gè)片段之間距離。
24.如權(quán)利要求23所述的信息處理方法,其特征在于,所述時(shí)間間距是采用新聞時(shí)間 來計(jì)算,其中新聞時(shí)間的統(tǒng)計(jì)是按照每半小時(shí)為一個(gè)小時(shí)間片,統(tǒng)計(jì)每個(gè)時(shí)間片內(nèi)的相 同新聞簇的個(gè)數(shù),求出各個(gè)時(shí)間片新聞數(shù)占所有時(shí)間片新聞數(shù)的比值,該比值用于重新 分配24小時(shí)的時(shí)間長(zhǎng)度,作為新聞時(shí)間。
25.如權(quán)利要求21所述的信息處理方法,其特征在于,所述計(jì)算脈絡(luò)分析的步驟還包括后處理通過上述的時(shí)間片聚類算法,得到事件的若干個(gè)進(jìn)展以后,從每個(gè)片段 中,挑選出最具代表性的一篇新聞作為這個(gè)片段的代表新聞。
26.如權(quán)利要求25所述的信息處理方法,其特征在于,所述后處理步驟中,如果有一 個(gè)片段的新聞數(shù)量明顯比相鄰的片段要少很多,那么這個(gè)片段要作為噪音被刪除掉。
27.如權(quán)利要求25所述的信息處理方法,其特征在于,所述后處理步驟中,對(duì)于選擇 出來的內(nèi)容或者標(biāo)題非常相近的脈絡(luò)新聞,會(huì)進(jìn)行去重,只保留時(shí)間更早的那篇新聞。
28.如權(quán)利要求14所述的信息處理方法,其特征在于,所述判定脈絡(luò)需求步驟,其包括1)發(fā)生事件;2)判斷時(shí)間跨度是否符合要求,如否,則判定為該事件無脈絡(luò)需求;3)如果時(shí)間跨度符合要求,則判斷事件是否有多個(gè)階段,如果無,則判定無脈絡(luò)需求;4)如果事件有多個(gè)階段,則判斷各階段之間是否有邏輯順序,如果無,則判定為一 般脈絡(luò)需求;5)如果事件的各階段之間具有邏輯順序,則判定為強(qiáng)脈絡(luò)需求。
29.如權(quán)利要求28的信息處理方法,其特征在于,所述事件的邏輯順序至少包括現(xiàn)象 和本質(zhì)、態(tài)度和行動(dòng),由淺至深、由主到次或者由此及彼之一。
30.如權(quán)利要求28的信息處理方法,其特征在于,所述強(qiáng)脈絡(luò)需求事件包括持續(xù)性事 件及突發(fā)性事件。
31.如權(quán)利要求28的信息處理方法,其特征在于,所述低質(zhì)量新聞簇是通過統(tǒng)計(jì)新聞 簇中地區(qū)新聞的地域個(gè)數(shù),如果地域分布比較散,那么判定為一個(gè)低質(zhì)量的新聞簇。
32.如權(quán)利要求28的信息處理方法,其特征在于,所述新聞簇內(nèi)可以出現(xiàn)的最多地域 數(shù)目為3個(gè),高于該值則認(rèn)為是低質(zhì)量新聞簇。
33.如權(quán)利要求28的信息處理方法,其特征在于,所述無法通過地域來過濾的低質(zhì)量 新聞簇,則通過對(duì)新聞簇內(nèi)新聞內(nèi)容的凝聚度來打分,對(duì)于打分較低的新聞簇,判定為 低質(zhì)量新聞簇,不給出新聞脈絡(luò)。
34.如權(quán)利要求33的信息處理方法,其特征在于,所述打分的方法是在新聞簇 內(nèi),挑選轉(zhuǎn)載率最高的N條新聞,計(jì)算N條新聞兩兩之間的文本距離,然后算平均值作 為整個(gè)簇的內(nèi)容質(zhì)量得分。
35.如權(quán)利要求34的信息處理方法,其特征在于,所述轉(zhuǎn)載率不低于3次。
36.如權(quán)利要求14所述的信息處理方法,其特征在于,所述事件以專題新聞頁展示給 用戶,其具有以時(shí)間排序的最新報(bào)道列表及事件的脈絡(luò)信息。
37.如權(quán)利要求36所述的信息處理方法,其特征在于,所述最新報(bào)道列表位于專題新 聞頁的左側(cè),時(shí)間的脈絡(luò)信息位于位于該專題新聞頁的右側(cè)。
38.如權(quán)利要求36所述的信息處理方法,其特征在于,所述脈絡(luò)信息展示位時(shí)間軸。
全文摘要
本發(fā)明關(guān)于處理需要產(chǎn)生脈絡(luò)信息的新聞事件的一種信息處理裝置以及處理方法。信息處理裝置包括載入新聞簇信息的新聞簇信息載入模塊、分析所述新聞簇信息并產(chǎn)生脈絡(luò)信息的脈絡(luò)分析模塊及展示所述脈絡(luò)信息的前端展示模塊。本發(fā)明的信息處理裝置以及處理方法工作量較小、時(shí)效性較強(qiáng)、清晰度較高的給出新聞事件的脈絡(luò)信息。
文檔編號(hào)G06F17/27GK102012917SQ20101056062
公開日2011年4月13日 申請(qǐng)日期2010年11月26日 優(yōu)先權(quán)日2010年11月26日
發(fā)明者彭學(xué)政, 柳楊, 王凱 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司