国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索系統(tǒng)及方法

      文檔序號(hào):6437798閱讀:193來源:國知局
      專利名稱:融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索系統(tǒng)及方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及網(wǎng)絡(luò)新聞檢索領(lǐng)域,特別的,涉及一種融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索系統(tǒng)及方法。
      背景技術(shù)
      隨著信息技術(shù)的發(fā)展和網(wǎng)絡(luò)的全球化,在線新聞越來越多并且也越來越受歡迎, 日益變成了人們?nèi)粘I钪蝎@取信息的一種重要途徑。人們可以通過一些主要的網(wǎng)絡(luò)門戶網(wǎng)站如雅虎、MSN或者大型新聞網(wǎng)站如CNN、AOL和MSNBC獲取和瀏覽新聞。但是,現(xiàn)有技術(shù)中的新聞?wù)故痉椒ň哂腥舾刹蛔?。例如,現(xiàn)有的新聞?wù)故痉椒ㄈ狈σ缘乩頌榛A(chǔ)的組織。有研究表明用戶經(jīng)常優(yōu)先關(guān)注幾個(gè)特定地點(diǎn)的新聞,比如家鄉(xiāng)和工作地點(diǎn)。大部分的大型新聞網(wǎng)站可以根據(jù)相關(guān)的國家進(jìn)行組織新聞。用戶可以提交一個(gè)地點(diǎn)作為檢索詞檢索新聞。但是文檔中包含的地理名詞經(jīng)常存在噪聲,因而降低了檢索的性能。另外,現(xiàn)有的新聞?wù)故痉椒ú话娴囊曈X信息。圖1顯示了現(xiàn)有技術(shù)中一篇新聞文檔中包含圖片個(gè)數(shù)的分布情況。從圖1中可以看到,現(xiàn)有技術(shù)中大部分的新聞文檔沒有圖片或者包含很少的圖片。例如,僅有不到5%的新聞文檔包含超過一張的圖片。通常來說,圖片的表現(xiàn)效果勝過千言萬語,作為新聞文本的補(bǔ)充,新聞圖片能夠使用戶更快的獲取信息。但是,如圖1所示,現(xiàn)有的新聞文檔中包含的圖片數(shù)很少,因而遠(yuǎn)遠(yuǎn)不能滿足用戶獲取信息的全面需求。

      發(fā)明內(nèi)容
      本發(fā)明的目的是提供一種融合地理與視覺信息的網(wǎng)絡(luò)新聞檢索系統(tǒng)及方法。根據(jù)本發(fā)明的系統(tǒng)及方法,能夠?yàn)橛脩籼峁┗诘乩硇畔⒔M織的新聞,使用戶快速地瀏覽到所關(guān)心地區(qū)發(fā)明的新聞事件;進(jìn)而,本發(fā)明采用圖像信息對(duì)文本信息進(jìn)行補(bǔ)充,使用戶能夠快速地掌握新聞事件的內(nèi)容。根據(jù)本發(fā)明的一個(gè)方面,提供了一種融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索系統(tǒng),該系統(tǒng)包括數(shù)據(jù)預(yù)處理模塊,用于爬取新聞數(shù)據(jù)并進(jìn)行文本分析和信息數(shù)據(jù)提取,所述新聞數(shù)據(jù)包括人物,地點(diǎn)、時(shí)間和文本信息;地點(diǎn)相關(guān)性分析模塊,用于執(zhí)行新聞事件與新聞地點(diǎn)的相關(guān)性分析;新聞配圖模塊,用于為新聞選擇合適的圖像;檢索結(jié)果展示模塊, 用于基于檢索相關(guān)性排序展示檢索到的新聞。其中,所述數(shù)據(jù)預(yù)處理模塊包括新聞數(shù)據(jù)爬取模塊,用于從新聞網(wǎng)站上爬取新聞文檔和對(duì)應(yīng)的新聞圖像;文本分析模塊,用于提取出新聞數(shù)據(jù)的標(biāo)題、時(shí)間、網(wǎng)站、摘要和正文以及對(duì)應(yīng)的網(wǎng)址,提取出新聞圖像的網(wǎng)址和圖像對(duì)應(yīng)的文本信息;新聞實(shí)體提取模塊,從新聞數(shù)據(jù)中提取出人物,地點(diǎn)和時(shí)間。所述地點(diǎn)相關(guān)性分析模塊包括地理名詞過濾和擴(kuò)展模塊,用于獲取地理名詞的地理位置信息;基于矩陣分解的相關(guān)性分析模塊,用于利用一致性約束概率矩陣分解方法分析新聞地點(diǎn)和新聞事件之間的關(guān)系。所述新聞配圖模塊包括檢索詞生成模塊,用于從新聞數(shù)據(jù)中抽取一個(gè)或多個(gè)關(guān)鍵詞,將其組合成檢索詞并提交給圖像搜索引擎進(jìn)行圖像檢索;圖像排序和選擇模塊,用于對(duì)檢索到的圖像進(jìn)行排序和去重,并選擇能夠表達(dá)新聞文檔內(nèi)容的圖像。所述檢索結(jié)果展示模塊包括地圖視圖模塊,用于顯示所選擇的新聞在地圖上的分布位置;新聞事件列表模塊,用于按照預(yù)定的規(guī)則排序并顯示檢索到的新聞事件的列表。在地點(diǎn)相關(guān)性分析模塊中,所述一致性約束概率矩陣分解方法基于下述規(guī)則分析新聞地點(diǎn)和新聞事件之間的關(guān)系相似度較高的新聞事件很可能發(fā)生在同一個(gè)地方,以及相關(guān)性較高的多個(gè)地點(diǎn)與同一個(gè)新聞事件的關(guān)系是相近的。在新聞配圖模塊中,所述檢索詞生成模塊是從新聞數(shù)據(jù)的多個(gè)部分中提取檢索詞進(jìn)行圖像檢索;所述圖像排序和選擇模塊采用基于等級(jí)聚合的方法對(duì)檢索到的圖像進(jìn)行排序。在檢索結(jié)果展示模塊中,所述地圖視圖模塊響應(yīng)于用戶輸入的檢索詞或者點(diǎn)擊地圖上任何一個(gè)地點(diǎn),顯示出最相關(guān)新聞事件的標(biāo)題及對(duì)應(yīng)的圖像;所述預(yù)定的規(guī)則排序包括下述中的一種或多種新聞事件之間的相關(guān)性、新聞事件與檢索地點(diǎn)之間的相關(guān)性以及新聞發(fā)生的時(shí)間信息。根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索方法,該方法包括數(shù)據(jù)預(yù)處理步驟,用于爬取新聞數(shù)據(jù)并進(jìn)行文本分析和信息數(shù)據(jù)提取,所述新聞數(shù)據(jù)包括人物,地點(diǎn)、時(shí)間和文本信息;地點(diǎn)相關(guān)性分析步驟,用于執(zhí)行新聞事件與新聞地點(diǎn)的相關(guān)性分析;新聞配圖步驟,用于為新聞選擇合適的圖像;檢索結(jié)果展示步驟,用于基于檢索相關(guān)性排序展示檢索到的新聞。如上所述,本發(fā)明的系統(tǒng)及方法,提供了基于地理位置的新聞檢索,估計(jì)和細(xì)化了新聞文檔與地理位置之間的關(guān)系,在此過程中綜合考慮了新聞文檔與地點(diǎn)的初始關(guān)系,地點(diǎn)之間的關(guān)系以及新聞文檔之間的相似性。此外,通過提出給新聞文檔配圖的方法,使得使用戶能夠更直接和更快地獲取新聞。此外,還提出了支持新聞地理名詞的檢索模塊,以及通過點(diǎn)擊地圖上相應(yīng)地理位置進(jìn)行檢索的用戶檢索與瀏覽界面。根據(jù)本發(fā)明提出的一致性約束概率矩陣分解模型,能夠?qū)⒌攸c(diǎn)-事件關(guān)系,地點(diǎn)之間相關(guān)性和事件之間的相似性融合起來,估計(jì)和細(xì)化地點(diǎn)與事件之間的相關(guān)性,能夠去除噪聲和估計(jì)出潛在的關(guān)系。根據(jù)本發(fā)明提出的從文本中抽取檢索詞進(jìn)行網(wǎng)絡(luò)圖像檢索和圖像排序的方法,可以按照多種規(guī)則實(shí)現(xiàn)對(duì)新聞文檔的精確配圖。根據(jù)本發(fā)明提出的組合檢索詞的方法,能夠避免目前網(wǎng)絡(luò)搜索引擎不能夠處理復(fù)雜檢索的問題以及單個(gè)詞作為檢索不能表達(dá)文檔內(nèi)容的問題。此外,對(duì)于從網(wǎng)絡(luò)搜索引擎中得到的不同的圖像列表,本發(fā)明還提出了基于等級(jí)聚合的方法對(duì)這些圖像列表進(jìn)行融合排序的,從而選出最能表達(dá)新聞文檔內(nèi)容的圖像。根據(jù)本發(fā)明提出的新聞文檔排序方法,綜合考慮了新聞的時(shí)效性、重要性以及檢索相關(guān)性。該方法基于傳統(tǒng)的馬爾科夫隨機(jī)游走模型,將前面分析得到的新聞事件-新聞地點(diǎn)相關(guān)性與新聞文檔的時(shí)效性線性融合為該模型中的初始狀態(tài),并基于新聞文檔之間的相似性,實(shí)現(xiàn)新聞文檔集合的檢索相關(guān)性排序。本發(fā)明還提供便于用戶檢索和瀏覽新聞的交互界面。用戶可以通過提交檢索或者單擊地圖進(jìn)行檢索,同時(shí)為一個(gè)檢索結(jié)果提供了標(biāo)題、新聞圖片和內(nèi)容摘要,用戶可以快速生動(dòng)地獲取需要的信息。如果用戶想要了解更詳細(xì)的信息,可通過點(diǎn)擊界面的“更多”按鈕來獲取。綜上所述,本發(fā)明以新聞的發(fā)生地點(diǎn)名稱為搜索關(guān)鍵詞或者通過點(diǎn)擊地圖上感興趣的地理位置,提供給用戶一個(gè)更生動(dòng)、更富信息的新聞搜索結(jié)果,其結(jié)果展示界面包含兩部分其一,在真實(shí)地圖上按照事件所發(fā)生地理位置來展示與檢索地點(diǎn)最相關(guān)的新聞標(biāo)題和圖片信息;其二,具有新聞標(biāo)題、圖片和簡短說明的多模態(tài)檢索結(jié)果列表。


      圖1顯示了現(xiàn)有技術(shù)中一篇新聞文檔中包含圖片個(gè)數(shù)的分布情況;圖2顯示了本發(fā)明的網(wǎng)絡(luò)新聞檢索系統(tǒng)的示意圖;圖3是本發(fā)明提出的一致性約束概率矩陣分解模型圖;圖4顯示了本發(fā)明中一個(gè)新聞配圖的實(shí)例;圖5顯示了本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)新聞檢索和瀏覽界面;圖6是BM25排序模型、概率矩陣分解模型和一致性約束概率矩陣分解模型的檢索性能評(píng)價(jià)結(jié)果;圖7給出了變化參數(shù)在NDCG@50規(guī)則下的結(jié)果;圖8是本發(fā)明的新聞配圖方法與現(xiàn)有技術(shù)的性能比較結(jié)果;圖9顯示了本發(fā)明的檢索結(jié)果排序方法與現(xiàn)有技術(shù)的排序方法在檢索相關(guān)性上的比較結(jié)果;圖10顯示了本發(fā)明的檢索結(jié)果排序方法與現(xiàn)有技術(shù)的排序方法在時(shí)效性方面的比較結(jié)果。
      具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。雖然本發(fā)明的實(shí)例是基于英文新聞提供的,但是本發(fā)明的方法不受語言種類的限制。本發(fā)明提出了一個(gè)利用計(jì)算機(jī)的基于多媒體分析的新聞檢索系統(tǒng),綜合利用了地理信息和視覺信息。首先從文本中提取出新聞地點(diǎn)候選集,利用網(wǎng)絡(luò)信息進(jìn)行過濾和擴(kuò)展, 并獲取其地理位置信息(經(jīng)緯度)。通過本發(fā)明提出的基于一致性約束概率矩陣分解關(guān)系挖掘技術(shù)發(fā)現(xiàn)潛在的新聞地點(diǎn)與新聞事件之間的關(guān)系,綜合考慮了新聞地點(diǎn)之間的相關(guān)性,新聞事件的相似性和新聞地點(diǎn)-新聞事件之間的初始關(guān)系。然后為了使用戶快速生動(dòng)地獲取新聞,本發(fā)明提出了給新聞配圖的方法。雖然目前的新聞文檔中也包含了新聞圖片,但是對(duì)應(yīng)的新聞圖片太少了甚至一半以上的文檔還是沒有圖片的,如圖1所示。本發(fā)明提出的相關(guān)方法能夠給文檔提供多張具有表現(xiàn)力的圖片。對(duì)檢索結(jié)果,本發(fā)明提出了考慮時(shí)間信息的基于網(wǎng)頁排序的排序方法。設(shè)計(jì)了一個(gè)方便用戶的新聞檢索與瀏覽界面。
      圖2顯示了本發(fā)明的網(wǎng)絡(luò)新聞檢索系統(tǒng)的示意圖。如圖2所示,本發(fā)明的融合地理信息和視覺信息的新聞檢索系統(tǒng)包括數(shù)據(jù)預(yù)處理模塊、地點(diǎn)相關(guān)性分析模塊、新聞配圖模塊及檢索結(jié)果展示模塊。數(shù)據(jù)預(yù)處理模塊用于爬取新聞數(shù)據(jù)并進(jìn)行文本分析和信息數(shù)據(jù)提取,所述新聞數(shù)據(jù)包括人物,地點(diǎn)、時(shí)間和文本信息。所述數(shù)據(jù)預(yù)處理模塊包括新聞數(shù)據(jù)爬取模塊、文本分析模塊和新聞實(shí)體提取模塊等子模塊,其中新聞數(shù)據(jù)爬取模塊采用網(wǎng)絡(luò)爬蟲從新聞網(wǎng)站(例如,ABC、BBC、CNN及谷歌等新聞網(wǎng)站)上爬取新聞文檔和對(duì)應(yīng)的新聞圖像。文本分析模塊采用自然語言處理技術(shù)提取出新聞文檔的標(biāo)題、時(shí)間、網(wǎng)站、摘要和正文以及對(duì)應(yīng)的網(wǎng)址,提取出新聞圖像的網(wǎng)址和圖像對(duì)應(yīng)的文本信息。新聞實(shí)體提取模塊采用自然語言處理技術(shù)去除重復(fù)文檔和從新聞文檔中提取出人物,地點(diǎn)和時(shí)間。地點(diǎn)相關(guān)性分析模塊,用于執(zhí)行新聞事件與新聞地點(diǎn)的相關(guān)性分析。地點(diǎn)相關(guān)性分析模塊包括地理名詞過濾和擴(kuò)展模塊、基于矩陣分解的相關(guān)性分析模塊等子模塊,其中地理名詞過濾和擴(kuò)展模塊用于獲取地理名詞的地理位置信息(例如地理經(jīng)緯度)。基于矩陣分解的相關(guān)性分析模塊采用本發(fā)明的一致性約束概率矩陣分解方法分析新聞地點(diǎn)和新聞事件之間的關(guān)系。新聞配圖模塊用于為新聞選擇能夠說明新聞內(nèi)容的圖像。新聞配圖模塊包括檢索詞生成模塊、圖像排序和選擇模塊等子模塊,其中檢索詞生成模塊,用于從新聞數(shù)據(jù)中抽取一個(gè)或多個(gè)關(guān)鍵詞,將其組合成檢索詞并提交給圖像搜索引擎進(jìn)行圖像檢索,即從新聞文檔中抽取一個(gè)或多個(gè)關(guān)鍵詞,將其組合成長度不同的檢索詞,提交給圖像搜索引擎(例如谷歌)進(jìn)行圖像檢索。本實(shí)施例中,可以利用新聞數(shù)據(jù)的各個(gè)部分(標(biāo)題、摘要和正文等)的不同重要性,從新聞中提取檢索詞進(jìn)行網(wǎng)絡(luò)圖像檢索,從而解決目前圖像檢索引擎不能處理長檢索詞的問題以及單個(gè)檢索詞無法表達(dá)文檔內(nèi)容的問題。圖像排序和選擇模塊,用于對(duì)檢索到的圖像進(jìn)行排序和去重,并選擇合適的圖像。 該模塊執(zhí)行圖像排序和選擇即考慮圖像在返回列表中的位置以及與源文檔包含圖片的相似度,采用等級(jí)聚合方法學(xué)習(xí)不同長度的檢索詞對(duì)應(yīng)列表的權(quán)重,再利用這些權(quán)重對(duì)圖像進(jìn)行排序,并去除重復(fù)圖像,然后選擇能夠表達(dá)新聞內(nèi)容的圖像。檢索結(jié)果展示模塊用于基于檢索相關(guān)性排序展示檢索到的新聞。本發(fā)明提供了一個(gè)展示檢索結(jié)果的用戶界面。如圖2所示,檢索結(jié)果展示模塊包括地圖視圖模塊和新聞事件列表模塊等子模塊,其中地圖視圖模塊顯示所選擇的新聞在地圖上的分布位置。新聞事件列表模塊用于按照預(yù)定的規(guī)則排序并顯示檢索到的新聞事件的列表。如圖2所示,用戶可以在檢索框中輸入檢索詞進(jìn)行檢索,也可以瀏覽地圖點(diǎn)擊想要檢索的地點(diǎn)在地圖上對(duì)應(yīng)的位置,系統(tǒng)自動(dòng)返回相關(guān)結(jié)果。本發(fā)明的檢索結(jié)果展示模塊綜合考慮了新聞的時(shí)效性、與檢索的相關(guān)性以及新聞的重要性。如圖2所示,在地圖上展示了最相關(guān)新聞的標(biāo)題和前兩幅圖像。在右部分的列表中,每個(gè)新聞顯示了標(biāo)題、相關(guān)圖像和簡短摘要。更多的信息可通過點(diǎn)擊“更多”按鈕獲取。以上介紹了本發(fā)明的新聞檢索系統(tǒng)的結(jié)構(gòu)組成,如圖2所示,與該新聞檢索系統(tǒng)的各個(gè)模塊對(duì)應(yīng),本發(fā)明還提出了融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索方法,該方法包括下述步驟數(shù)據(jù)預(yù)處理步驟,用于爬取新聞數(shù)據(jù)并進(jìn)行文本分析和信息數(shù)據(jù)提取,所述新聞數(shù)據(jù)包括人物,地點(diǎn)、時(shí)間和文本信息;地點(diǎn)相關(guān)性分析步驟,用于執(zhí)行新聞事件與新聞地點(diǎn)的相關(guān)性分析;新聞配圖步驟,用于為新聞選擇合適的圖像;檢索結(jié)果展示步驟,用于基于檢索相關(guān)性排序展示檢索到的新聞。所述地點(diǎn)相關(guān)性分析步驟包括地理名詞過濾和擴(kuò)展步驟,用于獲取地理名詞的地理位置信息;基于矩陣分解的相關(guān)性分析步驟,用于利用一致性約束概率矩陣分解方法分析新聞地點(diǎn)和新聞事件之間的關(guān)系。優(yōu)選的,所述一致性約束概率矩陣分解方法基于下述規(guī)則分析新聞地點(diǎn)和新聞事件之間的關(guān)系相似度較高的新聞事件很可能發(fā)生在同一個(gè)地方,以及相關(guān)性較高的多個(gè)地點(diǎn)與同一個(gè)新聞事件的關(guān)系是相近的。所述新聞配圖步驟包括檢索詞生成步驟,用于從新聞數(shù)據(jù)中抽取一個(gè)或多個(gè)關(guān)鍵詞,將其組合成檢索詞并提交給圖像搜索引擎進(jìn)行圖像檢索;圖像排序和選擇步驟,用于對(duì)檢索到的圖像進(jìn)行排序和去重,并選擇合適的圖像。優(yōu)選的,所述檢索詞生成步驟從新聞數(shù)據(jù)的多個(gè)部分中提取檢索詞進(jìn)行圖像檢索;所述圖像排序和選擇步驟采用基于等級(jí)聚合的方法對(duì)檢索到的圖像進(jìn)行排序。所述檢索結(jié)果展示步驟包括地圖視圖步驟,用于顯示所選擇的新聞在地圖上的分布位置;新聞事件列表步驟,用于按照預(yù)定的規(guī)則排序并顯示檢索到的新聞事件的列表。其中,所述預(yù)定的規(guī)則排序包括下述中的一種或多種新聞事件之間的相關(guān)性、新聞事件與檢索地點(diǎn)之間的相關(guān)性以及新聞發(fā)生的時(shí)間信息。其中,所述地圖視圖步驟,響應(yīng)于用戶輸入的檢索詞或者點(diǎn)擊地圖上任何一個(gè)地點(diǎn),顯示出最相關(guān)新聞事件的標(biāo)題及對(duì)應(yīng)的圖像。如上所述,該新聞檢索系統(tǒng)采用了以下4個(gè)主要處理流程(1)基于一致性約束概率矩陣分解模型的地理位置相關(guān)性分析;( 新聞配圖;C3)檢索結(jié)果的排序;(4)檢索結(jié)果瀏覽界面。下面以英文檢索為例分別介紹上述子流程,主要包括新聞文檔定位流程和配圖流程,以及對(duì)用戶檢索結(jié)果的排序流程。但顯然,本發(fā)明不限制于此,而是可以合理的應(yīng)用于其他語言種類,例如中文等。<地理位置-新聞事件的相關(guān)性分析>該流程包括四個(gè)步驟⑴候選地名提?。?2)取出候選地名奇異性;⑶得到地名與文檔的初始關(guān)系;(4)是對(duì)地名與文檔的關(guān)系進(jìn)行細(xì)化分析。首先,根據(jù)利用自然語言處理技術(shù)從數(shù)據(jù)庫的新聞文檔中抽取出新聞地名,得到了候選地名列表;然后將利用已得到的列表提交到維基百科,如果返回的頁面中沒有地理信息則認(rèn)為這個(gè)候選地名是噪聲并去除。然后,對(duì)于不同的地方對(duì)應(yīng)同一個(gè)名字的情況,可以將過濾之后的列表再提交給地理信息系統(tǒng)(GeoNames)進(jìn)行擴(kuò)展并爬取對(duì)應(yīng)的地理信息(經(jīng)緯度)。隨后,統(tǒng)計(jì)各地名在數(shù)據(jù)庫新聞文檔中的出現(xiàn)頻率,從而得到初始的地名與文檔的關(guān)系。根據(jù)上述方法得到的地名與文檔的對(duì)應(yīng)關(guān)系是包含噪聲的,例如,一個(gè)關(guān)于名人婚禮的新聞會(huì)有婚禮舉行地點(diǎn)以及新娘和新郎的家鄉(xiāng)?;槎Y地點(diǎn)才是該新聞?wù)嬲牡攸c(diǎn), 也是最相關(guān)的,其他地點(diǎn)是不相關(guān)的。另外與新聞相關(guān)的地點(diǎn)可能沒有出現(xiàn)在文章中,比如關(guān)于北京奧運(yùn)會(huì)的新聞,介紹了相關(guān)的體育事件但沒提及北京,然而與此新聞最相關(guān)的地點(diǎn)是北京。因此,為了更好地挖掘新聞地點(diǎn)與新聞事件之間的關(guān)系(新聞事件與的新聞文檔是一一對(duì)應(yīng)關(guān)系,即認(rèn)為一個(gè)新聞文檔描述了一個(gè)新聞事件),本發(fā)明基于傳統(tǒng)的概率矩陣分角軍(Probabilistic Matrix Factorization,PMF)模型(參見Ruslan Salakhutdinov and Andriy Mnih. "Probabilistic Matrix Factorization”,NIPS 2008.)提出了一致性約束概率矩陣分角軍模型(Consistent Constraints Probabilistic Matrix Factorization, 簡寫為CCPMF),對(duì)新聞地點(diǎn)與新文檔的相關(guān)性進(jìn)行分析。相比傳統(tǒng)的PMF模型,本發(fā)明的 CCPMF模型引入了新聞文檔與地點(diǎn)之間的一致相關(guān)性作為優(yōu)化求解的約束條件(即相關(guān)的新聞文檔需要對(duì)應(yīng)相關(guān)的地點(diǎn),反之亦然),從而能夠更有效的分析二者之間的真實(shí)相關(guān)性。其中,地點(diǎn)相關(guān)性是利用搜索引擎(例如谷歌距離)計(jì)算各地名之間的統(tǒng)計(jì)共生相關(guān)性;新聞文檔之間的相關(guān)性是通過考慮新聞標(biāo)題、摘要和正文的不同重要性,進(jìn)行線性組合計(jì)算而得的文本相似性。下面詳細(xì)講述前述第四個(gè)步驟地名與文檔的關(guān)系細(xì)化分析。圖3是本發(fā)明提出的一致性約束概率矩陣分解模型圖。如圖3所示,考慮到非常相關(guān)的事件很有可能發(fā)生在同一個(gè)地點(diǎn)以及同一個(gè)新聞可能與非常相關(guān)的幾個(gè)地名相關(guān),本發(fā)明的一致性約束概率矩陣分解模型綜合考慮了地名之間的相關(guān)性、文檔之間的相似性以及地名與文檔的關(guān)系。假設(shè)具有M個(gè)地點(diǎn),N個(gè)事件。R G ·尤G 和S G兄 ‘分別表示地點(diǎn)-事件關(guān)系矩陣、地點(diǎn)之間的相關(guān)性矩陣和事件相似性矩陣。采用矩陣分解的思想挖掘潛在的高質(zhì)量特征空間,即采用PtE近似R,其中P e 和E e 'Eifx v表示潛在的H維地名和事件特征矩陣。R0 e Xa〃 是初始的地點(diǎn)-事件的0-1關(guān)系矩陣。在概率矩陣分解模型中,假設(shè)對(duì)地點(diǎn)-事件的關(guān)系估計(jì)誤差從均值為0、方差為(7 的高斯分布,則有
      λ; .V
      P(R.°|Ρ. Ε,σΙ ) = H [][Λ'( / ;'Ip/ a . 'TJ{ i],.'"
      —1J=I其中AXq/.rr2)表示均值為0、方差為σ 2的高斯分布函數(shù)。Pi和e」分別是矩陣P 和E的第i列和第j列。δ是標(biāo)識(shí)矩陣,如果i和j的關(guān)系大于零,則δ u = 1,否則δ u
      =O0另外,假設(shè)潛在特征空間和系數(shù)矩陣服從球形高斯分布,即
      M
      F(P|4) =1]-'^ '!°-^1)
      權(quán)利要求
      1.一種融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索系統(tǒng),該系統(tǒng)包括數(shù)據(jù)預(yù)處理模塊,用于爬取新聞數(shù)據(jù)并進(jìn)行文本分析和信息數(shù)據(jù)提取,所述新聞數(shù)據(jù)包括人物,地點(diǎn)、時(shí)間和文本信息;地點(diǎn)相關(guān)性分析模塊,用于執(zhí)行新聞事件與新聞地點(diǎn)的相關(guān)性分析; 新聞配圖模塊,用于為新聞選擇能夠說明新聞內(nèi)容的圖像; 檢索結(jié)果展示模塊,用于基于檢索相關(guān)性排序展示檢索到的新聞。
      2.根據(jù)權(quán)利要求1所述的系統(tǒng),所述數(shù)據(jù)預(yù)處理模塊包括新聞數(shù)據(jù)爬取模塊,用于從新聞網(wǎng)站上爬取新聞文檔和對(duì)應(yīng)的新聞圖像; 文本分析模塊,用于提取出新聞數(shù)據(jù)的標(biāo)題、時(shí)間、網(wǎng)站、摘要和正文以及對(duì)應(yīng)的網(wǎng)址, 提取出新聞圖像的網(wǎng)址和圖像對(duì)應(yīng)的文本信息;新聞實(shí)體提取模塊,從新聞數(shù)據(jù)中提取出人物,地點(diǎn)和時(shí)間。
      3.根據(jù)權(quán)利要求1所述的系統(tǒng),所述地點(diǎn)相關(guān)性分析模塊包括 地理名詞過濾和擴(kuò)展模塊,用于獲取地理名詞的地理位置信息;基于矩陣分解的相關(guān)性分析模塊,用于利用一致性約束概率矩陣分解方法分析新聞地點(diǎn)和新聞事件之間的關(guān)系。
      4.根據(jù)權(quán)利要求1所述的系統(tǒng),所述新聞配圖模塊包括檢索詞生成模塊,用于從新聞數(shù)據(jù)中抽取一個(gè)或多個(gè)關(guān)鍵詞,將其組合成檢索詞并提交給圖像搜索引擎進(jìn)行圖像檢索;圖像排序和選擇模塊,用于對(duì)檢索到的圖像進(jìn)行排序和去重,并選擇能夠說明新聞內(nèi)容的圖像。
      5.根據(jù)權(quán)利要求1所述的系統(tǒng),所述檢索結(jié)果展示模塊包括 地圖視圖模塊,用于顯示所選擇的新聞在地圖上的分布位置;新聞事件列表模塊,用于按照預(yù)定的規(guī)則排序并顯示檢索到的新聞事件的列表。
      6.根據(jù)權(quán)利要求3所述的系統(tǒng),所述一致性約束概率矩陣分解方法基于下述規(guī)則分析新聞地點(diǎn)和新聞事件之間的關(guān)系相似度較高的新聞事件很可能發(fā)生在同一個(gè)地方,以及相關(guān)性較高的多個(gè)地點(diǎn)與同一個(gè)新聞事件的關(guān)系是相近的。
      7.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述檢索詞生成模塊從新聞數(shù)據(jù)的多個(gè)部分中提取檢索詞進(jìn)行圖像檢索; 所述圖像排序和選擇模塊采用基于等級(jí)聚合的方法對(duì)檢索到的圖像進(jìn)行排序。
      8.根據(jù)權(quán)利要求5所述的系統(tǒng),其中所述預(yù)定的規(guī)則排序包括下述中的一種或多種 新聞事件之間的相關(guān)性、新聞事件與檢索地點(diǎn)之間的相關(guān)性以及新聞發(fā)生的時(shí)間信息。
      9.根據(jù)權(quán)利要求5所述的系統(tǒng),其中所述地圖視圖模塊,響應(yīng)于用戶輸入的檢索詞或者點(diǎn)擊地圖上任何一個(gè)地點(diǎn),顯示出最相關(guān)新聞事件的標(biāo)題及對(duì)應(yīng)的圖像。
      10.一種融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索方法,該方法包括數(shù)據(jù)預(yù)處理步驟,用于爬取新聞數(shù)據(jù)并進(jìn)行文本分析和信息數(shù)據(jù)提取,所述新聞數(shù)據(jù)包括人物,地點(diǎn)、時(shí)間和文本信息;地點(diǎn)相關(guān)性分析步驟,用于執(zhí)行新聞事件與新聞地點(diǎn)的相關(guān)性分析; 新聞配圖步驟,用于為新聞選擇能夠說明新聞內(nèi)容的圖像; 檢索結(jié)果展示步驟,用于基于檢索相關(guān)性排序展示檢索到的新聞。
      11.根據(jù)權(quán)利要求10所述的方法,所述數(shù)據(jù)預(yù)處理步驟包括新聞數(shù)據(jù)爬取步驟,用于從新聞網(wǎng)站上爬取新聞文檔和對(duì)應(yīng)的新聞圖像;文本分析步驟,用于提取出新聞數(shù)據(jù)的標(biāo)題、時(shí)間、網(wǎng)站、摘要和正文以及對(duì)應(yīng)的網(wǎng)址, 提取出新聞圖像的網(wǎng)址和圖像對(duì)應(yīng)的文本信息;新聞實(shí)體提取步驟,從新聞數(shù)據(jù)中提取出人物,地點(diǎn)和時(shí)間。
      12.根據(jù)權(quán)利要求10所述的方法,所述地點(diǎn)相關(guān)性分析步驟包括地理名詞過濾和擴(kuò)展步驟,用于獲取地理名詞的地理位置信息;基于矩陣分解的相關(guān)性分析步驟,用于利用一致性約束概率矩陣分解方法分析新聞地點(diǎn)和新聞事件之間的關(guān)系。
      13.根據(jù)權(quán)利要求10所述的方法,所述新聞配圖步驟包括檢索詞生成步驟,用于從新聞數(shù)據(jù)中抽取一個(gè)或多個(gè)關(guān)鍵詞,將其組合成檢索詞并提交給圖像搜索引擎進(jìn)行圖像檢索;圖像排序和選擇步驟,用于對(duì)檢索到的圖像進(jìn)行排序和去重,并選擇合適的圖像。
      14.根據(jù)權(quán)利要求10所述的方法,所述檢索結(jié)果展示步驟包括地圖視圖步驟,用于顯示所選擇的新聞在地圖上的分布位置;新聞事件列表步驟,用于按照預(yù)定的規(guī)則排序并顯示檢索到的新聞事件的列表。
      15.根據(jù)權(quán)利要求12所述的方法,所述一致性約束概率矩陣分解方法基于下述規(guī)則分析新聞地點(diǎn)和新聞事件之間的關(guān)系相似度較高的新聞事件很可能發(fā)生在同一個(gè)地方,以及相關(guān)性較高的多個(gè)地點(diǎn)與同一個(gè)新聞事件的關(guān)系是相近的。
      16.根據(jù)權(quán)利要求13所述的方法,其中所述檢索詞生成步驟從新聞數(shù)據(jù)的多個(gè)部分中提取檢索詞進(jìn)行圖像檢索;所述圖像排序和選擇步驟采用基于等級(jí)聚合的方法對(duì)檢索到的圖像進(jìn)行排序。
      17.根據(jù)權(quán)利要求14所述的方法,其中所述預(yù)定的規(guī)則包括下述中的一種或多種新聞事件之間的相關(guān)性、新聞事件與檢索地點(diǎn)之間的相關(guān)性以及新聞發(fā)生的時(shí)間信息。
      18.根據(jù)權(quán)利要求14所述的方法,其中所述地圖視圖步驟,響應(yīng)于用戶輸入的檢索詞或者點(diǎn)擊地圖上任何一個(gè)地點(diǎn),顯示出最相關(guān)新聞事件的標(biāo)題及對(duì)應(yīng)的圖像。
      全文摘要
      本發(fā)明提出了一種融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索系統(tǒng)及方法。該系統(tǒng)包括數(shù)據(jù)預(yù)處理模塊,用于爬取新聞數(shù)據(jù)并進(jìn)行文本分析和信息數(shù)據(jù)提取,所述新聞數(shù)據(jù)包括人物,地點(diǎn)、時(shí)間和文本信息;地點(diǎn)相關(guān)性分析模塊,用于執(zhí)行新聞事件與新聞地點(diǎn)的相關(guān)性分析;新聞配圖模塊,用于為新聞選擇合適的圖像;檢索結(jié)果展示模塊,用于基于檢索相關(guān)性排序展示檢索到的新聞。本發(fā)明的系統(tǒng)及方法綜合利用了地理位置信息和視覺信息對(duì)網(wǎng)絡(luò)新聞進(jìn)行描述與展示,為網(wǎng)絡(luò)用戶提供基于地理位置的多媒體新聞檢索,同時(shí)綜合了新聞地點(diǎn)-新聞事件的關(guān)系、新聞地點(diǎn)的相關(guān)性以及新聞事件之間的關(guān)系,從而提供給用戶一個(gè)更生動(dòng)、更富信息的新聞搜索結(jié)果。
      文檔編號(hào)G06F17/30GK102364473SQ20111035200
      公開日2012年2月29日 申請(qǐng)日期2011年11月9日 優(yōu)先權(quán)日2011年11月9日
      發(fā)明者劉靜, 盧漢清, 李澤超 申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1