專利名稱:信息提取方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及計算機信息處理技術(shù),并且尤其是涉及從諸如網(wǎng)頁、文檔等之
類的信息源中提取涉及特定主題的相關(guān)信息的技術(shù)。
背景技術(shù):
存在許多包含有大量信息的、用自然語言來表述內(nèi)容的網(wǎng)頁和文檔等信息源。目前已經(jīng)提出了很多信息提取技術(shù)用來從這些信息源中提取有用的信息,例如,涉及特定主題的評價信息等?,F(xiàn)有的信息提取系統(tǒng)包括知從文本中提取關(guān)鍵詞的系統(tǒng),提取固有名詞和數(shù)值等的系統(tǒng),以及提取意見和評判等的系統(tǒng)等。狹義的信息提取技術(shù)是指以特定領(lǐng)域的文本為對象,利用事先準備好的應(yīng)提取信息的模板(或者信息提取規(guī)則)來提取所期望的有用信息。 圖1的示意圖示出了一個典型的信息提取系統(tǒng)100的處理過程。如圖1所示,在信息提取系統(tǒng)100中,評價向量提取器110通過參考例如目標詞典、屬性詞典、評價詞典之類的資源1 資源n,從文檔等信息源中提取出關(guān)于各種主題的評價向量,然后評價信息合成器120對特定主題的評價向量進行聚合,從而得到關(guān)于該特定主題的評價信息。
關(guān)于信息提取方面的技術(shù),目前已發(fā)表了多篇的論文和/或提交了多篇專利申請。例如,可參見由松下電器產(chǎn)業(yè)株式會社申請的、發(fā)明名稱為"信息提取系統(tǒng)"、公開號為CN1942877A的中國專利申請;由微軟公司申請的、發(fā)明名稱為"學(xué)習(xí)并使用廣義串模式用于信息提取"、公開號為CN1627300A的中國專利申請;等等。以提取涉及特定主題的評價信息為例,從目前已經(jīng)公開的各種信息提取技術(shù)的文獻來看,已有的信息提取技術(shù)可以主
要分為以下兩種類型(l)基于最近匹配的評價信息提取方法,該種方法的基本流程是首
先對文檔進行分詞,然后從中查找到目標詞(例如,公司品牌名、產(chǎn)品名等)的位置,接著在
目標詞的附近搜尋距其最近的評價詞,并將這個評價詞認定為對該目標詞的評價;(2)基于完全語法分析的評價信息提取方法,該種方法的基本流程是首先對問文檔進行分詞,之后進行詞性標注和完全語法分析,然后從分析得到的語法樹中查找目標詞,并且按照語法樹中的依賴關(guān)系,找到與之對應(yīng)的評價詞。 已有的各種基于信息提取規(guī)則的信息提取方法雖然可以提取與特定主題有關(guān)的信息,但是,在從文檔等信息源中提取涉及各種主題的評價向量的過程中,往往需要手工構(gòu)造復(fù)雜的提取規(guī)則,以及/或者需要進行復(fù)雜的語法分析,以便對文檔等信息源進行準確的分詞處理。因此,已有的各種信息提取方法中普遍存在不能快速處理大規(guī)模文檔的問題。而且,實際上,在自然語言體系中,往往存在大量不符合語法規(guī)范的表述方式。因此,如何更好地且更快速地從自然語言體系的文檔等信息源中提取出更多的有用信息,仍然是急待解決的問題之一。
發(fā)明內(nèi)容
在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本
5理解。應(yīng)當理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。 為了至少部分地解決現(xiàn)有技術(shù)的上述問題,本發(fā)明的一個目的是提供一種改進的信息提取方法和/或裝置,其能夠從自然語言描述的信息源中提取出涉及特定主題的有用信息,而無需對信息源進行復(fù)雜的詞語劃分和/或語法分析。 本發(fā)明的另一目的是,提供一種改進的評價信息提取方法和/或裝置,其能夠從諸如網(wǎng)上評論等之類的信息源中提取出用戶對于某些特定品牌或者某些特定產(chǎn)品的評論信息,而無需對信息源進行復(fù)雜的詞語劃分和/或語法分析。 為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種用于從輸入的信息源中提取涉及特定主題的有用信息的信息提取方法,該信息提取方法包括以下步驟參考預(yù)先設(shè)定的涉及特定主題的第一資源,從所述信息源中查找并定位所有感興趣的各類目標語素;從所述信息源中選擇出所有包含所述找到的各類目標語素的語句;參考預(yù)先設(shè)定的涉及特定主題的第二資源,對所選擇出的所有語句中的各類目標語素依次進行匹配;參考預(yù)先設(shè)定的描述向量提取規(guī)則,基于所述匹配結(jié)果,從信息源中提取出涉及特定主題的描述向量;以及基于所述提取出的描述向量,生成涉及特定主題的全局性信息,即為所述要提取的涉及特定主題的有用信息。 根據(jù)本發(fā)明的另一個方面,還提供了一種用于從輸入的信息源中提取涉及特定主題的有用信息的信息提取裝置,該信息提取裝置包括資源和規(guī)則庫,用于存儲在執(zhí)行信息提取時要用到的、預(yù)先設(shè)定好的涉及特定主題的各種資源和規(guī)則;描述向量提取器,用于通過參考所述資源和規(guī)則庫中存儲的資源和規(guī)則,從輸入的信息源中提取出涉及某些特定主題的描述向量;以及信息生成器,用于基于所述描述向量提取器所提取出的描述向量,生成涉及特定主題的全局性信息,即為所述要提取的涉及特定主題的有用信息,其中,所述描述向量提取器進一步包括語素提取單元,用于通過參考存儲在所述資源和規(guī)則庫中的、涉及特定主題的第一資源,從所述信息源中查找并定位所有感興趣的各類目標語素;語句選擇單元,用于從所述信息源中選擇出所有包含所述找到的各類目標語素的語句;匹配單元,用于通過參考存儲在所述資源和規(guī)則庫中的、涉及特定主題的第二資源,對所述語句選擇單元所選擇出的所有語句中的各類目標語素依次進行匹配;以及描述向量生成單元,用于通過參考存儲在所述資源和規(guī)則庫中的描述向量提取規(guī)則,基于來自所述匹配單元的匹配結(jié)果,從信息源中提取出涉及特定主題的描述向量。 依據(jù)本發(fā)明的其它方面,還提供了相應(yīng)的計算機可讀存儲介質(zhì)和計算機程序產(chǎn)
PR o 本發(fā)明的一個優(yōu)點在于,在根據(jù)本發(fā)明原理的信息提取方法和/或信息提取裝置中,由于對用自然語言描述的各種信息源而言,基于簡單的匹配而不是基于復(fù)雜的提取規(guī)則或語法規(guī)則的信息提取技術(shù)往往能夠提取出更多的相關(guān)信息,因此能夠獲得更好的信息提取效果。 本發(fā)明的又一個優(yōu)點在于,在根據(jù)本發(fā)明原理的信息提取方法和/或信息提取裝置中,由于無需對信息源進行詞語劃分和/或語法分析,因此可以較為簡單和快速地從信息源中查找并定位所有感興趣的涉及特定主題的目標語素,并據(jù)此從信息源中提取出涉及特定主題的有用信息,因此,根據(jù)本發(fā)明原理的信息提取方法和/或信息提取裝置適合于從海量信息源中提取出有用信息。 本發(fā)明還有一個優(yōu)點在于,可以將根據(jù)本發(fā)明原理的信息提取方法和/或信息提取裝置用于從諸如網(wǎng)友評論等之類的信息源中提取出用戶對某些產(chǎn)品的評論意見,從而向相關(guān)的企業(yè)或者公司提供所收集的用戶評論意見,以便使企業(yè)或者公司可以及時地掌握用戶的喜好并據(jù)此迅速地做出反應(yīng),或者提供給產(chǎn)品的潛在用戶,以便用戶在購買前較為全面地掌握其他用戶對于該產(chǎn)品和/或類似產(chǎn)品的評論意見。 通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細說明,本發(fā)明的這些以及其他優(yōu)點將更加明顯。
本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所
有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的
詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本
發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。在附圖中 圖1示出了一個典型的信息提取系統(tǒng)100的處理過程的示意圖; 圖2示出了根據(jù)本發(fā)明的一個實施例、從文檔等信息源中提取有用信息的信息提
取方法200的示意性流程圖; 圖3示出了在根據(jù)本發(fā)明一個實施例的信息提取方法中用到的相關(guān)資源和匹配規(guī)則的例子; 圖4示出了在根據(jù)本發(fā)明一個實施例的信息提取方法中輸入的文本、從該文本中提取出的描述向量和據(jù)此得到的全局性評價信息的例子;以及 圖5示出了根據(jù)本發(fā)明的一個實施例、從文檔等信息源中提取有用信息的信息提取裝置500的示意性方框圖。 本領(lǐng)域技術(shù)人員應(yīng)當理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的,而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其他元件放大了,以便有助于提高對本發(fā)明實施例的理解。
具體實施例方式
在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。 在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細節(jié)。 下面結(jié)合圖2 圖4對根據(jù)本發(fā)明一個實施例、從諸如文檔之類的信息源中提取
7出有用信息的信息提取方法的處理過程進行描述。為了便于描述,下面以文檔作為信息源 的例子、以產(chǎn)品評價信息作為要提取的有用信息的例子來對根據(jù)本發(fā)明實施例的信息提取 方法的具體處理流程進行描述。然而,本領(lǐng)域技術(shù)人員應(yīng)當明白,根據(jù)本發(fā)明原理的信息提 取方法并不局限于在此結(jié)合附圖所描述的具體實施例。 圖2示出了根據(jù)本發(fā)明的一個實施例、從文檔等信息源中提取有用信息(例如,產(chǎn) 品評價信息)的信息提取方法200的示意性流程圖。 如圖2所示,在步驟S210中,通過參考預(yù)先設(shè)定的一個或多個資源、例如資源1 資源k,從信息源、例如文檔等中查找并定位所有感興趣的各類語素(為了便于描述,以下 將其稱為目標語素)。例如,資源1 資源k可以是諸如企業(yè)/品牌列表、產(chǎn)品列表、屬性列 表、修飾詞列表、評價詞列表等之類的、分別列出了各類目標語素的列表,而所述目標語素 可以是例如產(chǎn)品的品牌名稱、產(chǎn)品名稱、產(chǎn)品屬性、對產(chǎn)品的評價詞及有關(guān)的修飾詞(例如 副詞)等多類語素。 在圖3的上半部分中示出了在根據(jù)本發(fā)明一個實施例的信息提取方法中用到的 相關(guān)資源的例子,其中作為示例示出了品牌列表、產(chǎn)品列表、屬性列表、修飾詞列表和評價 詞列表五個資源的例子。其中,在品牌列表中,列出了市面上常見的各種產(chǎn)品的品牌名稱 或者企業(yè)名稱等,例如蘋果、寶馬、索尼等;在產(chǎn)品列表中,列出了各種產(chǎn)品的產(chǎn)品名稱或者 產(chǎn)品型號等,例如iPod、X5等;在屬性列表中,列出了各種產(chǎn)品所具有的產(chǎn)品屬性,例如,畫 面、照片質(zhì)量、色彩、外觀、大小等;在修飾詞列表中,列出了中文表述中常見的用于修飾評 價值的修飾詞(例如,副詞),例如,非常、很、不等,并且為每個修飾詞賦予了一個數(shù)值(在 下文中也可以被稱為修飾值),以比較直觀地反映出該修飾詞的修飾程度,例如,修飾詞"非 常"被賦予值"+2","不"被賦予值"-l","比較"被賦予值"+0.8",等等,其中數(shù)值的"+ "或 "-"符號表明對應(yīng)的修飾詞是正面肯定性的修飾還是負面否定性的修飾;在評價詞列表中, 列出了中文表述中常見的用于表明人們對產(chǎn)品的優(yōu)劣評價的評價詞,例如,差、清晰等,并 且與修飾詞列表中列出的修飾詞相類似地,每個評價詞也被賦予一個數(shù)值(在下文中也可 以被稱為評價值),以比較直觀地反映人們對于產(chǎn)品的評價,例如,"清晰"被賦予值"+l", "鮮艷"被賦予值"+l",等等。 返回參見圖2。在步驟S220中,從文檔中選擇出所有包含了在步驟S210中所找到 的目標語素的語句。 然后,在步驟S230中,通過參考預(yù)先設(shè)定的一個或多個資源、例如資源m 資源n, 對步驟S220中所選擇出的所有語句中的各類目標語素依次進行多層次匹配。在此,根據(jù)需 要,資源m 資源n可以包含以上所描述的、在查找并定位有用語素時參考的資源1 資源 k中的一個或者多個資源,并且還可以包含其他的資源,例如,品牌名稱與產(chǎn)品名稱的匹配 規(guī)則、產(chǎn)品名稱與產(chǎn)品屬性的匹配規(guī)則(以下統(tǒng)稱為匹配規(guī)則)等等。在該步驟中,通過參 考資源m 資源n,根據(jù)所選語句中所包含的各個有用語素之間的位置關(guān)系、語素屬性等對 語素進行多層次匹配。具體來說,視實際需要依次進行以下各級匹配中的一級或多級匹配 產(chǎn)品品牌(即,第一類語素,也可稱為第一級語素)與產(chǎn)品名稱(即,第二類語素,也可稱為 第二級語素)的匹配、產(chǎn)品名稱(或者必要時為第一、二級語素)與產(chǎn)品屬性(即,第三類語 素,也可稱為第三級語素)的匹配、產(chǎn)品屬性(或者必要時為第二、三級語素或者第一、二、 三級語素)與評價詞(即,第四類語素,也可稱為第四級語素)的匹配、評價詞(或者必要時為第三、四級語素、或者第二、三、四級語素、或者第一、二、三、四級語素)與修飾詞(即, 第五類語素,也可稱為第五級語素)的匹配,從而確定各個語素之間的匹配關(guān)系。雖然在此 描述了五類目標語素(其分別對應(yīng)于五級語素),但是顯然根據(jù)本發(fā)明原理的信息提取方 法并不僅僅局限于此。 在圖3的下半部分中示出了在根據(jù)本發(fā)明一個實施例的信息提取方法中用到的 匹配規(guī)則的例子。對于所選出的各個語句中,適用例如圖3中所示的匹配規(guī)則,可以得到相 應(yīng)的描述了目標語素之間的對應(yīng)關(guān)系的匹配結(jié)果。 接下來,如圖2所示,方法200的處理流程進行到步驟S240。在該步驟中,參考描 述向量的提取規(guī)則(例如,描述向量的定義),基于步驟S230中的多層次匹配結(jié)果,從文檔 中提取出描述向量。在此,描述向量是指生成所需有用信息所需要的描述性信息,用于描述 在步驟S220中所選擇的各個語句中所包含的各個語素之間在經(jīng)多層次匹配處理后確定的 相互關(guān)系。 例如,在此可以假設(shè)描述向量被定義如下〈企業(yè)/品牌名稱,產(chǎn)品名稱,產(chǎn)品屬
性,修飾詞,評價詞 >。這樣,例如,對于文檔中包含的下述語句"最近買了 A公司的FK3相
機,剛開始測試的時候覺得還行",參考如圖3所示的相關(guān)資源列表和匹配規(guī)則以及上述描
述向量定義,可以得到以下的描述向量〈A公司,F(xiàn)K3相機, 一, 一,還行>。 然后,如圖2所示,在步驟S250中,參考所需有用信息(在此為產(chǎn)品評價信息)的
定義,基于步驟S240中得到的描述向量,生成全局性信息(在此為全局性評價信息,也可以
簡稱為評價信息)。 在此,假設(shè)全局性評價信息被定義如下〈企業(yè)/品牌名稱,產(chǎn)品名稱,產(chǎn)品屬性, 全局評價值〉。這樣,對于步驟S240中得到的描述向量,可以參考例如圖3所示的相關(guān)資源 列表獲得描述向量中的修飾詞的修飾值和評價詞的評價值,然后綜合考慮這兩個數(shù)值以獲 得一個全局評價值(例如,可以通過將這兩個數(shù)值相乘得到的乘積作為全局評價值,但是 本發(fā)明并不僅僅局限于此)。該全局評價值從整體上反映了人們對所述企業(yè)/品牌的所述 產(chǎn)品在所述產(chǎn)品屬性方面的評價,它的絕對值越大,表明人們對它的優(yōu)劣評價程度越高。
然而,在現(xiàn)實的生活中,人們在發(fā)表對某一產(chǎn)品的評價意見時使用的用語和/或 表述方式往往可能存在著很大差異,這為目標語素的確定以及進而為評價信息的生成帶來 了一定的麻煩。鑒于此,在根據(jù)本發(fā)明的另一個實施例中,在從輸入的文檔中生成全局性評 價信息的過程中,可以對以上結(jié)合圖2所述的方法200進行改進,以便消除由于不規(guī)范或者 不統(tǒng)一的用語或表述而造成的不利影響。例如,可以在圖3所示出的相關(guān)資源(例如,品牌 列表、產(chǎn)品列表、屬性列表等)中列出對于某一規(guī)范性用語或表述的其他各種常見的替代 性用語或表述,例如,可以在品牌列表中同時列出蘋果和即ple,在產(chǎn)品列表中同時列出馬 自達6和馬6等,在屬性列表中同時列出色澤和色彩,等等。這樣,在參考相關(guān)資源從輸入 的文本等中查找并定位目標語素時,不僅可以找到使用規(guī)范性用語或表述來表示的語素, 而且可以找到使用非規(guī)范性用語或表述來表示的語素,從而可以避免遺漏某些感興趣的語 素。然后,可以在提取了描述向量之后和生成全局性評價信息之前用規(guī)范性表示的語素來 代替所提取出的描述向量中包含的非規(guī)范性表示的語素,從而可以最終得到規(guī)范性表示的 評價信息。 在根據(jù)本發(fā)明的一個實施例中,例如,對于在圖4的上部中所示出的輸入文本的例子,利用如圖2所示的信息處理方法200,參考圖3所示的相關(guān)資源和匹配規(guī)則,可以得
到如圖4的中部所示的描述向量(此時并未用規(guī)范性表示的語素來代替非規(guī)范性表示的語
素),并進而得到如圖4的下部所示的全局性評價信息。如圖所示,在下部所示的評價信息
中,已經(jīng)用規(guī)范性表示的"色彩"(屬于產(chǎn)品屬性)代替了非規(guī)范性表示的"色澤"。 在上文中以從輸入的文本中提取用戶的產(chǎn)品評價信息為例、結(jié)合圖2 圖4對根
據(jù)本發(fā)明實施例的信息提取方法的具體處理過程進行了說明,但是,本領(lǐng)域技術(shù)人員應(yīng)當
明白,根據(jù)本發(fā)明原理的信息提取方法不僅僅局限于提取產(chǎn)品評價信息,而且可以適用于
從諸如文檔、網(wǎng)頁等信息源中提取任何涉及相關(guān)主題的有用信息,只要預(yù)先定義好方法中
要用到的各種相關(guān)資源和/或規(guī)則、例如用于查找并定位目標語素的相關(guān)資源、用于確定
目標語素之間的匹配關(guān)系的匹配規(guī)則、用于提取描述向量的提取規(guī)則等即可。 而且,本領(lǐng)域技術(shù)人員完全可以取決于實際需要對根據(jù)本發(fā)明原理的、以上結(jié)合
附圖所描述的信息提取方法的某些具體處理步驟或過程進行適當?shù)男薷摹⒆兏蛘吒倪M,
例如,可以人工地或者自動地定期對上述信息提取方法中要用到的各種資源和/或規(guī)則
(例如,品牌列表等中列出的語素、評價詞列表等中列出的語素及賦予其的評價值等)等進
行更新或者修正等,在此為了說明書的簡明起見就不再一一列舉了。 圖5示出了根據(jù)本發(fā)明的一個實施例的信息提取裝置500的示意性方框圖。該信 息提取裝置500可以執(zhí)行以上結(jié)合圖2 圖4所描述的信息提取方法200,以便從輸入的信 息源中提取出所期望的涉及特定主題的有用信息。 在此,需要說明的是,為了簡單和清楚起見,圖5中僅僅示出信息提取裝置的與本 發(fā)明密切相關(guān)的組成部分,而并未示出其他與本發(fā)明關(guān)系不大或者毫不相關(guān)的組成部分, 而且以下的描述也僅涉及與本發(fā)明密切相關(guān)的那些組成部分。 如圖5所示,信息提取裝置500包括資源和規(guī)則庫510、描述向量提取器520和信 息生成器530。其中,所述資源和規(guī)則庫510用于存儲在執(zhí)行信息提取時可能會用到的、預(yù) 先設(shè)定好的各種資源和/或規(guī)則,例如,如圖3所示的諸如品牌列表、產(chǎn)品列表等的相關(guān)資 源,目標語素之間的匹配規(guī)則,描述向量的提取規(guī)則等等。 描述向量提取器520用于通過參考所述資源和規(guī)則庫510中存儲的資源和/或規(guī) 則,從輸入的信息源中提取出涉及某些特定主題的描述向量。如圖5所示,描述向量提取 器520進而包括語素提取單元522、語句選擇單元524、匹配單元526和描述向量生成單元 528。其中,語素提取單元522可以如以上結(jié)合圖2 圖4所描述的那樣,通過參考存儲在 所述資源和規(guī)則庫510中的一個或多個資源,從輸入的信息源(例如文檔等)中查找并定 位所有感興趣的各類目標語素。語句選擇單元524可以如以上結(jié)合圖2 圖4所描述的那 樣,從輸入的信息源中選擇出所有包含上述目標語素的語句。匹配單元526可以如以上結(jié) 合圖2 圖4所描述的那樣,通過參考存儲在所述資源和規(guī)則庫510中的一個或多個資源, 對所述語句選擇單元524所選擇出的所有語句中的各類目標語素依次進行多層次匹配,例 如,第一級語素(例如,產(chǎn)品品牌)與第二級語素(例如,產(chǎn)品名稱)的匹配、第二級語素與 第三級語素(例如,產(chǎn)品屬性)的匹配、第三級語素與第四級語素(例如,評價詞)的匹配、 等等。描述向量生成單元528可以如以上結(jié)合圖2 圖4所描述的那樣,參考描述向量的 提取規(guī)則(例如,描述向量的定義),并依據(jù)來自所述匹配單元526的多層次匹配結(jié)果,從信 息源中提取出涉及特定主題的描述向量。
10
所述信息生成器530可以如以上結(jié)合圖2 圖4所描述的那樣,基于所述描述向 量提取器520所提取出的描述向量而生成所需的涉及特定主題的有用信息。
通過閱讀以上結(jié)合圖2 圖4給出的根據(jù)本發(fā)明實施例的信息提取方法的具體處 理過程的詳細描述可知,上述各個裝置或單元的具體操作或處理過程是很清楚的,因此,為 了避免重復(fù),在此就不再對其進行詳述了 。 此外,正如上文所描述的那樣,可以根據(jù)需要對圖5所示的信息提取裝置進行適 當?shù)男薷幕蚋倪M。例如,可以在所述信息提取裝置500中添加以下模塊或單元語素修正 器,用于用規(guī)范性表示的語素來代替由所述描述向量提取器520所提取出的描述向量中包 含的非規(guī)范性表示的語素;以及/或者用于定期地對所述資源和規(guī)則庫510中存儲的各種 資源進行更新或者修正的單元;等等。當然,也可能存在其他的修改或改進之處,在此就不 一一列舉了。 如上所述,在根據(jù)本發(fā)明原理的信息提取方法和/或裝置中,可以針對所感興趣 的各種目標語素設(shè)定多種多樣符合需求的資源,例如,為某些目標語素、例如產(chǎn)品評價詞等 設(shè)定諸如以上所描述的評價值之類的數(shù)值,以直觀地反映出所述目標語素在某些方面的強 烈程度,并且在提取有用信息時考慮了諸如副詞等修飾詞的影響程度,因此,能夠更為準確 地從信息源中提取出有關(guān)的信息。 而且,通過以上的描述不難看出,根據(jù)本發(fā)明原理的信息提取技術(shù)通過簡單的多 層次匹配,能夠較為簡單和快速地從信息源中找出所期望的有用信息,而無需對信息源進 行詞語劃分和/或語法分析等,從而克服或者緩解了現(xiàn)有技術(shù)中存在的缺陷,并且能夠適 用于海量信息提取。 此外,顯然,根據(jù)本發(fā)明的上述方法的各個操作過程也可以以存儲在各種機器可 讀的存儲介質(zhì)中的計算機可執(zhí)行程序的方式實現(xiàn)。 而且,本發(fā)明的目的也可以通過下述方式實現(xiàn)將存儲有上述可執(zhí)行程序代碼的 存儲介質(zhì)直接或者間接地提供給系統(tǒng)或設(shè)備,并且該系統(tǒng)或設(shè)備中的計算機或者中央處理 單元(CPU)讀出并執(zhí)行上述程序代碼。 此時,只要該系統(tǒng)或者設(shè)備具有執(zhí)行程序的功能,則本發(fā)明的實施方式不局限于 程序,并且該程序也可以是任意的形式,例如,目標程序、解釋器執(zhí)行的程序或者提供給操 作系統(tǒng)的腳本程序等。 上述這些機器可讀存儲介質(zhì)包括但不限于各種存儲器和存儲單元,半導(dǎo)體設(shè)備, 磁盤單元例如光、磁和磁光盤,以及其它適于存儲信息的介質(zhì)等。 另外,客戶計算機通過連接到因特網(wǎng)上的相應(yīng)網(wǎng)站,并且將依據(jù)本發(fā)明的計算機 程序代碼下載和安裝到計算機中然后執(zhí)行該程序,也可以實現(xiàn)本發(fā)明。 最后,還需要說明的是,在本文中,諸如左和右、第一和第二等之類的關(guān)系術(shù)語僅 僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實 體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語"包括"、"包含"或者其任何其 他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不 僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、
物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句"包括一個......"限定的
要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
11
以上雖然結(jié)合附圖詳細描述了本發(fā)明的實施例,但是應(yīng)當明白,上面所描述的實 施方式只是用于說明本發(fā)明,而并不構(gòu)成對本發(fā)明的限制。對于本領(lǐng)域的技術(shù)人員來說,可 以對上述實施方式作出各種修改和變更而沒有背離本發(fā)明的實質(zhì)和范圍。因此,本發(fā)明的 范圍僅由所附的權(quán)利要求及其等效含義來限定。
權(quán)利要求
一種用于從輸入的信息源中提取涉及特定主題的有用信息的信息提取方法,包括以下步驟參考預(yù)先設(shè)定的涉及特定主題的第一資源,從所述信息源中查找并定位所有感興趣的各類目標語素;從所述信息源中選擇出所有包含所述找到的各類目標語素的語句;參考預(yù)先設(shè)定的涉及特定主題的第二資源,對所選擇出的所有語句中的各類目標語素依次進行匹配;參考預(yù)先設(shè)定的描述向量提取規(guī)則,基于所述匹配結(jié)果,從信息源中提取出涉及特定主題的描述向量;以及基于所述提取出的描述向量,生成涉及特定主題的全局性信息,該全局性信息即為所述要提取的涉及特定主題的有用信息。
2. 根據(jù)權(quán)利要求1所述的信息提取方法,其中,所述進行匹配的步驟進一步包括 對于所述選擇出的所有語句中的各類目標語素,參考所述第二資源,依次地進行以下各級匹配中的一級或多級匹配第一類語素與第二類語素間的匹配,第二類語素或第一、二 類語素與第三類語素間的匹配,第三類語素、或者第二、三類語素、或者第一、二、三類語素 與第四類語素間的匹配,依此類推,直至到最后一類語素的匹配。
3. 根據(jù)權(quán)利要求1或2所述的信息提取方法,其中,所述信息源是用戶對于各種產(chǎn)品的 評論信息,而所述涉及特定主題的有用信息是用戶對于特定品牌或特定產(chǎn)品的評論信息。
4. 根據(jù)權(quán)利要求3所述的信息提取方法,其中,所述感興趣的目標語素包括以下五類 語素產(chǎn)品品牌或企業(yè)名稱,產(chǎn)品名稱或型號,產(chǎn)品屬性,評價詞,及對評價詞的修飾詞。
5. 根據(jù)權(quán)利要求4所述的信息提取方法,其中,所述第一資源包括列出各種產(chǎn)品的產(chǎn)品品牌或企業(yè)名稱的品牌列表,列出各種產(chǎn)品 的產(chǎn)品名稱或型號的產(chǎn)品列表,列出各種產(chǎn)品的產(chǎn)品屬性的屬性列表,列出用戶對各種產(chǎn) 品的評價詞的評價詞列表,以及列出可用于對評價詞進行修飾的修飾詞列表,以及所述第二資源包括所述第一資源中的一個或多個資源,以及各類目標語素間的匹配規(guī)則。
6. 根據(jù)權(quán)利要求5所述的信息提取方法,其中,所述評價詞列表中列出的每個評價詞都被賦予有一個數(shù)值,該數(shù)值的正或負符號表示 用戶對產(chǎn)品的評價是正面還是負面的評價,其絕對值大小反映了用戶對產(chǎn)品的評價程度, 以及所述修飾詞列表中列出的每個修飾詞都被賦予有一個數(shù)值,該數(shù)值的正或負符號表示 修飾詞對評價詞是正面肯定性修飾還是負面否定性修飾,其絕對值大小反映了修飾詞對評 價詞的修飾程度。
7. 根據(jù)權(quán)利要求6所述的信息提取方法,其中,所述描述向量提取規(guī)則被定義如下〈企業(yè)/品牌名稱,產(chǎn)品名稱,產(chǎn)品屬性,修飾詞, 評價詞>。
8. 根據(jù)權(quán)利要求7所述的信息提取方法,其中,涉及特定主題的全局性信息被定義如下〈企業(yè)/品牌名稱,產(chǎn)品名稱,產(chǎn)品屬性,全局 評價值〉,以及所述生成特定主題的全局性信息的步驟進一步包括參考所述全局性信息的定義,基 于所述提取出的描述向量而生成所述全局性信息,其中所述全局評價值是通過綜合考慮所 述描述向量中的評價詞和修飾詞的相應(yīng)數(shù)值而確定的。
9. 根據(jù)權(quán)利要求8所述的信息提取方法,其中,在所述品牌列表、產(chǎn)品列表和/或?qū)傩粤斜碇?,除了列出有相?yīng)語素的規(guī)范性表示外, 還列出有相應(yīng)語素的非規(guī)范性表示,以及所述方法在所述生成全局性信息的步驟之前進一步包括步驟用規(guī)范性表示的語素來 代替所提取出的描述向量中的非規(guī)范性表示的語素。
10. 根據(jù)權(quán)利要求1或2所述的信息提取方法,進一步包括 定期地對所述資源和/或規(guī)則進行更新或者修正。
11. 一種用于從輸入的信息源中提取涉及特定主題的有用信息的信息提取裝置,包括資源和規(guī)則庫,用于存儲在執(zhí)行信息提取時要用到的、預(yù)先設(shè)定好的涉及特定主題的 各種資源和規(guī)則;描述向量提取器,用于通過參考所述資源和規(guī)則庫中存儲的資源和規(guī)則,從輸入的信 息源中提取出涉及某些特定主題的描述向量;以及信息生成器,用于基于所述描述向量提取器所提取出的描述向量,生成涉及特定主題 的全局性信息,該全局性信息即為所述要提取的涉及特定主題的有用信息,其中,所述描述向量提取器進一步包括語素提取單元,用于通過參考存儲在所述資源和規(guī)則庫中的、涉及特定主題的第一資 源,從所述信息源中查找并定位所有感興趣的各類目標語素;語句選擇單元,用于從所述信息源中選擇出所有包含所述找到的各類目標語素的語句;匹配單元,用于通過參考存儲在所述資源和規(guī)則庫中的、涉及特定主題的第二資源,對 所述語句選擇單元所選擇出的所有語句中的各類目標語素依次進行匹配;以及描述向量生成單元,用于通過參考存儲在所述資源和規(guī)則庫中的描述向量提取規(guī)則, 基于來自所述匹配單元的匹配結(jié)果,從信息源中提取出涉及特定主題的描述向量。
12. 根據(jù)權(quán)利要求11所述的信息提取裝置,其中,所述匹配單元被進一步配置為 對于所述選擇出的所有語句中的各類目標語素,通過參考所述第二資源,依次地進行以下各級匹配中的一級或多級匹配第一類語素與第二類語素間的匹配,第二類語素或第 一、二類語素與第三類語素間的匹配,第三類語素、或者第二、三類語素、或者第一、二、三類 語素與第四類語素間的匹配,依此類推,直至到最后一類語素的匹配。
13. 根據(jù)權(quán)利要求11或12所述的信息提取裝置,其中,所述信息源是用戶對于各種產(chǎn) 品的評論信息,而所述涉及特定主題的有用信息是用戶對于特定品牌或特定產(chǎn)品的評論信 息。
14. 根據(jù)權(quán)利要求13所述的信息提取裝置,其中,所述感興趣的目標語素包括以下五 類語素產(chǎn)品品牌或企業(yè)名稱,產(chǎn)品名稱或型號,產(chǎn)品屬性,評價詞,及對評價詞的修飾詞。
15. 根據(jù)權(quán)利要求14所述的信息提取裝置,其中,所述第一資源包括列出各種產(chǎn)品的產(chǎn)品品牌或企業(yè)名稱的品牌列表,列出各種產(chǎn)品的產(chǎn)品名稱或型號的產(chǎn)品列表,列出各種產(chǎn)品的產(chǎn)品屬性的屬性列表,列出用戶對各種產(chǎn) 品的評價詞的評價詞列表,以及列出可用于對評價詞進行修飾的修飾詞列表,以及所述第二資源包括所述第一資源中的一個或多個資源,以及各類目標語素間的匹配規(guī)則。
16. 根據(jù)權(quán)利要求15所述的信息提取裝置,其中,所述評價詞列表中列出的每個評價詞都被賦予有一個數(shù)值,該數(shù)值的正或負符號表示 用戶對產(chǎn)品的評價是正面還是負面的評價,其絕對值大小反映了用戶對產(chǎn)品的評價程度, 以及 所述修飾詞列表中列出的每個修飾詞都被賦予有一個數(shù)值,該數(shù)值的正或負符號表示 修飾詞對評價詞是正面肯定性修飾還是負面否定性修飾,其絕對值大小反映了修飾詞對評 價詞的修飾程度。
17. 根據(jù)權(quán)利要求16所述的信息提取裝置,其中,所述描述向量提取規(guī)則被定義如下〈企業(yè)/品牌名稱,產(chǎn)品名稱,產(chǎn)品屬性,修飾詞, 評價詞>。
18. 根據(jù)權(quán)利要求17所述的信息提取裝置,其中,涉及特定主題的全局性信息被定義如下〈企業(yè)/品牌名稱,產(chǎn)品名稱,產(chǎn)品屬性,全局 評價值〉,以及所述信息生成器被進一步配置為參考所述全局性信息的定義,基于所述提取出的描 述向量而生成所述全局性信息,其中所述全局評價值是通過綜合考慮所述描述向量中的評 價詞和修飾詞的相應(yīng)數(shù)值而確定的。
19. 根據(jù)權(quán)利要求18所述的信息提取裝置,其中,在所述品牌列表、產(chǎn)品列表和/或?qū)傩粤斜碇?,除了列出有相?yīng)語素的規(guī)范性表示外, 還列出有相應(yīng)語素的非規(guī)范性表示,所述信息提取裝置進一步包括語素修正器,用于用規(guī)范性表示的語素來代替所提取出 的描述向量中的非規(guī)范性表示的語素,以及所述信息生成器被進一步配置為基于所述語素修正器所提供的描述向量而生成所述 全局性信息。
20. 根據(jù)權(quán)利要求11或12所述的信息提取裝置,進一步包括用于定期地對所述資源和規(guī)則庫中存儲的資源和/或規(guī)則進行更新或者修正的單元。
全文摘要
公開了一種信息提取方法和裝置,用于從輸入的信息源中提取涉及特定主題的有用信息。該方法包括參考預(yù)先設(shè)定的第一資源,從信息源中查找并定位所有感興趣的各類目標語素;從信息源中選擇出所有包含所找到的各類目標語素的語句;參考預(yù)先設(shè)定的第二資源,對所選出的所有語句中的各類目標語素依次進行匹配;參考預(yù)先設(shè)定的描述向量提取規(guī)則,基于所述匹配結(jié)果,從信息源中提取出涉及特定主題的描述向量;以及基于所述描述向量,生成涉及特定主題的全局性信息,即為所述要提取的涉及特定主題的有用信息。在根據(jù)本發(fā)明的信息提取方法和裝置中,無需對信息源進行詞語劃分和/或語法分析,因此可以較為簡單和快速地從信息源中提取出所需的信息。
文檔編號G06F17/30GK101727451SQ20081017118
公開日2010年6月9日 申請日期2008年10月22日 優(yōu)先權(quán)日2008年10月22日
發(fā)明者于浩, 賈文杰 申請人:富士通株式會社