互聯(lián)網(wǎng)案例信息提取方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種互聯(lián)網(wǎng)案例信息提取方法及裝置,涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,所述方法包括:抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁;根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容;從所述網(wǎng)頁內(nèi)容中提取案例信息。本發(fā)明通過抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁,根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容,從所述網(wǎng)頁內(nèi)容中提取案例信息,實現(xiàn)了從互聯(lián)網(wǎng)中提出案例信息,克服了無法收集互聯(lián)網(wǎng)上案例信息的問題。
【專利說明】
互聯(lián)網(wǎng)案例信息提取方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種互聯(lián)網(wǎng)案例信息提取方法及裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)已成為世界上最大的公開信息源。由全球范圍內(nèi)的各類各級機(jī)構(gòu)主體和各種自媒體所主動發(fā)布的信息,已經(jīng)成為重要的網(wǎng)絡(luò)信息資源。
[0003]互聯(lián)網(wǎng)上可以找到的信息中,有一類是類似于流感爆發(fā)的案例信息,比如“宣城市新增I例H7N9流感病例?;颊呃钅?,男,45歲,宣城市人,3月25日確診,發(fā)病前有活禽接觸史,病情危重,在宣城市某醫(yī)院治療,宣城市已啟動聯(lián)防聯(lián)控工作機(jī)制。”對于開展流行病學(xué)研究而言,這些具體的流感案例信息非常有價值,可以用于研究傳播特征,分析傳播規(guī)律,預(yù)測傳播趨勢等。
[0004]然而,收集整理互聯(lián)網(wǎng)上的這類信息非常困難。現(xiàn)有的技術(shù)方法并不能解決從互聯(lián)網(wǎng)頁中提出類似于流感爆發(fā)案例的詳細(xì)信息的難題。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種互聯(lián)網(wǎng)案例信息提取方法及裝置。
[0006]依據(jù)本發(fā)明的一個方面,提供了一種互聯(lián)網(wǎng)案例信息提取方法,所述方法包括:
[0007]抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁;
[0008]根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容;
[0009]從所述網(wǎng)頁內(nèi)容中提取案例信息。
[0010]可選地,所述抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁之前,所述方法還包括:
[0011]根據(jù)所述預(yù)設(shè)網(wǎng)站的頁面布局生成所述預(yù)設(shè)模板。
[0012]可選地,所述根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容之前,所述方法還包括:
[0013]根據(jù)網(wǎng)頁鏈接對抓取的目標(biāo)網(wǎng)頁進(jìn)行去重處理。
[0014]可選地,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡;
[0015]相應(yīng)地,所述從所述網(wǎng)頁內(nèi)容中提取案例信息之后,所述方法還包括:
[0016]依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進(jìn)tx去重處理。
[0017]可選地,所述依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進(jìn)行去重處理之前,所述方法還包括:
[0018]對所述案例地址進(jìn)行統(tǒng)一化處理,以使各案例地址包含相同地址級數(shù)。
[0019]依據(jù)本發(fā)明的另一個方面,提供了一種互聯(lián)網(wǎng)案例信息提取裝置,所述裝置包括:
[0020]網(wǎng)頁抓取單元,用于抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁;
[0021]內(nèi)容獲取單元,用于根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容;
[0022]信息提取單元,用于從所述網(wǎng)頁內(nèi)容中提取案例信息。
[0023]可選地,所述裝置還包括:
[0024]模板生成單元,用于根據(jù)所述預(yù)設(shè)網(wǎng)站的頁面布局生成所述預(yù)設(shè)模板。
[0025]可選地,所述裝置還包括:
[0026]網(wǎng)頁去除單元,用于根據(jù)網(wǎng)頁鏈接對抓取的目標(biāo)網(wǎng)頁進(jìn)行去重處理。
[0027]可選地,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡;
[0028]相應(yīng)地,所述裝置還包括:
[0029]案例去重單元,用于依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進(jìn)行去重處理。
[0030]可選地,所述裝置還包括:
[0031]統(tǒng)一處理單元,用于對所述案例地址進(jìn)行統(tǒng)一化處理,以使各案例地址包含相同地址級數(shù)。
[0032]本發(fā)明通過抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁,根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容,從所述網(wǎng)頁內(nèi)容中提取案例信息,實現(xiàn)了從互聯(lián)網(wǎng)中提出案例信息,克服了無法收集互聯(lián)網(wǎng)上案例信息的問題。
【附圖說明】
[0033]通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0034]圖1是本發(fā)明一種實施方式的互聯(lián)網(wǎng)案例信息提取方法的流程圖;
[0035]圖2是全球流感資訊網(wǎng)的網(wǎng)頁示意圖;
[0036]圖3是本發(fā)明一種實施方式的互聯(lián)網(wǎng)案例信息提取裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0037]下面結(jié)合附圖和實施例,對本發(fā)明的【具體實施方式】作進(jìn)一步詳細(xì)描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0038]圖1是本發(fā)明一種實施方式的互聯(lián)網(wǎng)案例信息提取方法的流程圖;參照圖1,所述方法包括:
[0039]SlOl:抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁;
[0040]需要說明的是,所述預(yù)設(shè)網(wǎng)站為一個或多個網(wǎng)站,其可由用戶選擇決定,也就是說,可由用戶先通過google、bing、百度等搜索引擎搜索含有案例信息的網(wǎng)站,最終定位到一個或多個具有高質(zhì)量案例信息的網(wǎng)站,并將定位到的網(wǎng)站作為預(yù)設(shè)網(wǎng)站,以案例為流感案例為例,可由用戶將“全球流感資訊網(wǎng)”作為預(yù)設(shè)網(wǎng)站,“全球流感資訊網(wǎng)”是由很多志愿者把全國各地的流感爆發(fā)的新聞報道收集起來而后匯總到這個網(wǎng)站上,供自己或者他人的后續(xù)參考或者研究的網(wǎng)站,其網(wǎng)址是http://www.flu.0rg.cn/scn/default.html,其內(nèi)容如圖2所示。
[0041]并且,所述預(yù)設(shè)網(wǎng)站也可為默認(rèn)網(wǎng)站,也就是說,默認(rèn)設(shè)置有一個網(wǎng)站,在抓取時,僅能抓取該網(wǎng)站中的各目標(biāo)網(wǎng)頁,而無法由用戶選取其他網(wǎng)站,以案例為流感案例為例,可直接將“全球流感資訊網(wǎng)”作為默認(rèn)網(wǎng)站。
[0042]S102:根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容;
[0043]可理解的是,為了從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容,本實施方式中,通過預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中網(wǎng)頁內(nèi)容的位置,并根據(jù)所述網(wǎng)頁內(nèi)容的位置從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容。
[0044]S103:從所述網(wǎng)頁內(nèi)容中提取案例信息。
[0045]需要說明的是,所述網(wǎng)頁內(nèi)容中通常包括但不限于標(biāo)題和相關(guān)段落,根據(jù)案例的常用詞語及其出現(xiàn)順序從所述標(biāo)題和相關(guān)段落中定位并提取案例信息。
[0046]本實施方式通過抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁,根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容,從所述網(wǎng)頁內(nèi)容中提取案例信息,實現(xiàn)了從互聯(lián)網(wǎng)中提出案例信息,克服了無法收集互聯(lián)網(wǎng)上案例信息的問題。
[0047]由于不同網(wǎng)站的頁面布局情況不同,針對不同網(wǎng)站需要分別生成預(yù)設(shè)模板,故而,在步驟SlOl之前還包括:
[0048]S100:根據(jù)所述預(yù)設(shè)網(wǎng)站的頁面布局生成所述預(yù)設(shè)模板;
[0049]也就是說,預(yù)先對預(yù)設(shè)網(wǎng)站的頁面不同區(qū)域分別進(jìn)行標(biāo)注,以生成所述預(yù)設(shè)模板,故而,所述預(yù)設(shè)模板可理解為對頁面不同區(qū)域的內(nèi)容標(biāo)注。
[0050]由于在對預(yù)設(shè)網(wǎng)站進(jìn)行目標(biāo)網(wǎng)頁抓取時,通常都是直接抓取預(yù)設(shè)網(wǎng)站中所有的目標(biāo)網(wǎng)頁,但這些目標(biāo)網(wǎng)頁可能在上一次抓取時已經(jīng)抓取過,若仍然對所有目標(biāo)網(wǎng)頁進(jìn)行案例信息提取,會導(dǎo)致資源浪費、案例信息重復(fù),為避免該問題,所述S102之前,所述方法還可包括:
[0051]根據(jù)網(wǎng)頁鏈接對抓取的目標(biāo)網(wǎng)頁進(jìn)行去重處理。
[0052]也就是說,本次抓取的目標(biāo)網(wǎng)頁(當(dāng)本次是第一次抓取時,則不存在上一次,無需進(jìn)行去重處理)和上一次抓取的目標(biāo)網(wǎng)頁可能存在重復(fù)的網(wǎng)頁,在上一次抓取了相同網(wǎng)頁的情況下,本次無需再次抓取,本實施方式中,將具有相同網(wǎng)頁鏈接的網(wǎng)頁作為重復(fù)的網(wǎng)頁。
[0053]在具體實現(xiàn)中,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡;
[0054]相應(yīng)地,由于不同網(wǎng)頁中可能存在對相同案例信息的介紹,導(dǎo)致案例信息可能存在重復(fù)的信息,為避免該問題,所述步驟S103之后,所述方法還包括:
[0055]S104:依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例f目息進(jìn)彳丁去重處理。
[0056]由于不同病人的案例確診日期通常不同,若案例確診日期不同,則認(rèn)定為不同病人,無需進(jìn)行去重;
[0057]在案例確診日期相同時,則需要進(jìn)行病人年齡比較,若病人年齡不同,則認(rèn)定為不同病人,無需進(jìn)行去重;
[0058]在病人年齡也相同時,則需要進(jìn)行案例地址比較,若案例地址不同,則認(rèn)定為不同病人,無需進(jìn)行去重;
[0059]在案例地址也相同時,則需要進(jìn)行病人名字比較,若病人名字不同,則認(rèn)定為不同病人,無需進(jìn)行去重。
[0060]當(dāng)然,在進(jìn)行病人名字比較時,可能會存在叫法不同,例如:有些網(wǎng)頁可能以全稱形式稱呼病人,也可能以簡稱形式(如:“姓”+“某”的稱呼方式,例:譚某等)稱呼病人,這樣可能會存在病人名字不同,但實際上為一個病人的情況,為避免該問題,本實施方式中,會通過病人名字中的“姓”來比較病人名字是否相同,也就是說,只要“姓”相同,即認(rèn)定為相同病人。
[0061]在進(jìn)行案例信息去重時,通常只保留相同病人的一個案例信息。
[0062]由于案例地址的表達(dá)方式可能存在不同,例如:海龍大廈,其可能會表達(dá)為:北京市海淀區(qū)中關(guān)村大街I號,也可能會表達(dá)為:北京市海淀區(qū)中關(guān)村大街和北四環(huán)交界處西南角,這兩種表達(dá)方式代表的是相同地址,為表明該問題,本實施方式中,步驟S104之前,所述方法還包括:
[0063]對所述案例地址進(jìn)行統(tǒng)一化處理,以使各案例地址包含相同地址級數(shù)。
[0064]對于海龍大廈,可將案例地址統(tǒng)一化處理為:北京市海淀區(qū),此時,無論案例地址采用哪種表達(dá)方式,均可識別為相同地址。
[0065]對于方法實施方式,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實施方式并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明實施方式,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施方式均屬于優(yōu)選實施方式,所涉及的動作并不一定是本發(fā)明實施方式所必須的。
[0066]圖3是本發(fā)明一種實施方式的互聯(lián)網(wǎng)案例信息提取裝置的結(jié)構(gòu)框圖;參照圖3,所述裝置包括:
[0067]網(wǎng)頁抓取單元301,用于抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁;
[0068]內(nèi)容獲取單元302,用于根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容;
[0069]信息提取單元303,用于從所述網(wǎng)頁內(nèi)容中提取案例信息。
[0070]在本發(fā)明的一種可選實施方式中,所述裝置還包括:
[0071]模板生成單元,用于根據(jù)所述預(yù)設(shè)網(wǎng)站的頁面布局生成所述預(yù)設(shè)模板。
[0072]在本發(fā)明的一種可選實施方式中,所述裝置還包括:
[0073]網(wǎng)頁去除單元,用于根據(jù)網(wǎng)頁鏈接對抓取的目標(biāo)網(wǎng)頁進(jìn)行去重處理。
[0074]在本發(fā)明的一種可選實施方式中,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡;
[0075]相應(yīng)地,所述裝置還包括:
[0076]案例去重單元,用于依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進(jìn)行去重處理。
[0077]在本發(fā)明的一種可選實施方式中,所述裝置還包括:
[0078]統(tǒng)一處理單元,用于對所述案例地址進(jìn)行統(tǒng)一化處理,以使各案例地址包含相同地址級數(shù)。
[0079]對于裝置實施方式而言,由于其與方法實施方式基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施方式的部分說明即可。
[0080]應(yīng)當(dāng)注意的是,在本發(fā)明的裝置的各個部件中,根據(jù)其要實現(xiàn)的功能而對其中的部件進(jìn)行了邏輯劃分,但是,本發(fā)明不受限于此,可以根據(jù)需要對各個部件進(jìn)行重新劃分或者組合。
[0081]本發(fā)明的各個部件實施方式可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本裝置中,PC通過實現(xiàn)因特網(wǎng)對設(shè)備或者裝置遠(yuǎn)程控制,精準(zhǔn)的控制設(shè)備或者裝置每個操作的步驟。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機(jī)程序和計算機(jī)程序產(chǎn)品)。這樣實現(xiàn)本發(fā)明的程序可以存儲在計算機(jī)可讀介質(zhì)上,并且程序產(chǎn)生的文件或文檔具有可統(tǒng)計性,產(chǎn)生數(shù)據(jù)報告和cpk報告等,能對功放進(jìn)行批量測試并統(tǒng)計。應(yīng)該注意的是上述實施方式對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施方式。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機(jī)來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0082]以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
【主權(quán)項】
1.一種互聯(lián)網(wǎng)案例信息提取方法,其特征在于,所述方法包括: 抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁; 根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容; 從所述網(wǎng)頁內(nèi)容中提取案例信息。2.如權(quán)利要求1所述的方法,其特征在于,所述抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁之前,所述方法還包括: 根據(jù)所述預(yù)設(shè)網(wǎng)站的頁面布局生成所述預(yù)設(shè)模板。3.如權(quán)利要求1?2中任一項所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容之前,所述方法還包括: 根據(jù)網(wǎng)頁鏈接對抓取的目標(biāo)網(wǎng)頁進(jìn)行去重處理。4.如權(quán)利要求1?2中任一項所述的方法,其特征在于,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡; 相應(yīng)地,所述從所述網(wǎng)頁內(nèi)容中提取案例信息之后,所述方法還包括: 依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進(jìn)行去重處理。5.如權(quán)利要求4所述的方法,其特征在于,所述依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進(jìn)行去重處理之前,所述方法還包括: 對所述案例地址進(jìn)行統(tǒng)一化處理,以使各案例地址包含相同地址級數(shù)。6.一種互聯(lián)網(wǎng)案例信息提取裝置,其特征在于,所述裝置包括: 網(wǎng)頁抓取單元,用于抓取預(yù)設(shè)網(wǎng)站中的各目標(biāo)網(wǎng)頁; 內(nèi)容獲取單元,用于根據(jù)預(yù)設(shè)模板從各目標(biāo)網(wǎng)頁中獲取網(wǎng)頁內(nèi)容; 信息提取單元,用于從所述網(wǎng)頁內(nèi)容中提取案例信息。7.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括: 模板生成單元,用于根據(jù)所述預(yù)設(shè)網(wǎng)站的頁面布局生成所述預(yù)設(shè)模板。8.如權(quán)利要求6?7中任一項所述的裝置,其特征在于,所述裝置還包括: 網(wǎng)頁去除單元,用于根據(jù)網(wǎng)頁鏈接對抓取的目標(biāo)網(wǎng)頁進(jìn)行去重處理。9.如權(quán)利要求6?7中任一項所述的裝置,其特征在于,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡; 相應(yīng)地,所述裝置還包括: 案例去重單元,用于依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進(jìn)行去重處理。10.如權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括: 統(tǒng)一處理單元,用于對所述案例地址進(jìn)行統(tǒng)一化處理,以使各案例地址包含相同地址級數(shù)。
【文檔編號】G06F19/00GK105930346SQ201610209857
【公開日】2016年9月7日
【申請日】2016年4月6日
【發(fā)明人】白玉琪, 陳文歡
【申請人】清華大學(xué)