国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文檔標(biāo)記方法和裝置的制作方法

      文檔序號:6598414閱讀:146來源:國知局
      專利名稱:文檔標(biāo)記方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本申請總體上涉及信息處理,具體來說涉及文檔處理,更具體地,涉及一種文檔標(biāo)記方法和裝置。
      背景技術(shù)
      在互聯(lián)網(wǎng)時(shí)代,海量的網(wǎng)絡(luò)信息大大有助于人們了解各方面的信息,包括對各種受關(guān)注的實(shí)體,或者稱之為焦點(diǎn)實(shí)體(在申請中,“實(shí)體”包括作為物的對象,也包括作為事件的對象)的評價(jià)。對實(shí)體的評價(jià)例如有積極評價(jià)、消極評價(jià)等。對于評價(jià)是積極還是消極等的屬性,稱之為“情感極性”。獲取對實(shí)體的情感極性的技術(shù)稱之為情感分析技術(shù)。目前,已有很多進(jìn)行情感分析的技術(shù)。例如專利文獻(xiàn) 1 :US 20090193328,題為 Aspect-Based SentimentSummarization,提出了一種細(xì)粒度的情感分析方法,是對實(shí)體各個(gè)方面進(jìn)行情感摘要的一種方法。該方法針對文章中提到的各個(gè)實(shí)體特征方面進(jìn)行情感分類,再將同一特征方面下的評論進(jìn)行情感摘要。專利文獻(xiàn) 2 =US 20080154883,題為 System and Method for Evaluatingkntiment,其提出的方法通過計(jì)算主題相關(guān)的評論的情感分?jǐn)?shù),對網(wǎng)上用戶評價(jià)和觀點(diǎn)進(jìn)行情感評估。專禾0 文獻(xiàn) 3:US 20050125216,題為 Extracting and Grouping Opinionsfrom Text Documents,其提出的方法是按照主題相關(guān)性對同一類主題的評論進(jìn)行情感分析。專利文獻(xiàn) 4 :W0 2008083504,題為 Method and System forlnformation Discovery and Text Analysis,提出了在搜索關(guān)鍵字時(shí),自動(dòng)返回相關(guān)的情感摘要結(jié)果和圖表的方法。專利文獻(xiàn)5:US 20090048823,題為 System and Methods for OpinionMining,其提出的方法是對用戶評論中各種形式的特征的情感傾向進(jìn)行分析。其采用上下文的依存信息來關(guān)聯(lián)特征和情感詞,并分析這些特征關(guān)聯(lián)的情感詞的語義極向性。專利文獻(xiàn) 6 =US 20080133488,題為 Method and System for AnalyzingUser-Generated Content,其提出的系統(tǒng)主要用來分析用戶生成的內(nèi)容,其中包括抓取、抽取、分析、聚類、合成、摘要和展示等多個(gè)組件。此系統(tǒng)提供抓取用戶感興趣主題的相關(guān)內(nèi)容的功能;同時(shí),也提供對這些用戶生成內(nèi)容的情感分析功能;此外,還提供了對相關(guān)方面內(nèi)容的情感摘要功能。上述專利文獻(xiàn)1到專利文獻(xiàn)6均通過這里的引用而整體合并到本說明書中。然而,現(xiàn)有技術(shù)只能針對特定的內(nèi)容(關(guān)鍵詞、實(shí)體等)進(jìn)行情感分析,所獲得的對情感極性的認(rèn)識是零碎的,不利于人們對事物的全面認(rèn)識。尤其是,各個(gè)實(shí)體被割裂開來,對各個(gè)實(shí)體的評價(jià)是相互孤立的,無法體現(xiàn)各個(gè)實(shí)體之間的相互聯(lián)系;實(shí)體與抽取該實(shí)體的來源(例如文檔)也是孤立的。而事實(shí)上,實(shí)體與實(shí)體之間的聯(lián)系以及實(shí)體與其來源之間的聯(lián)系也是非常重要的信息。

      發(fā)明內(nèi)容
      在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。本申請的目的是提供一種能夠幫助人們了解對相關(guān)實(shí)體的評價(jià)的技術(shù)。更進(jìn)一步,是要提供一種將對相關(guān)實(shí)體的評價(jià)標(biāo)記在有關(guān)文檔上的技術(shù)。根據(jù)本申請所提供的一種實(shí)施例,提供了一種文檔標(biāo)記方法,包括獲取與基礎(chǔ)文檔相關(guān)的焦點(diǎn)實(shí)體;獲取對焦點(diǎn)實(shí)體的評論的情感極性;以及基于所述焦點(diǎn)實(shí)體及相應(yīng)的情感極性生成對所述基礎(chǔ)文檔的標(biāo)記。根據(jù)本申請所提供的另一種實(shí)施例,提供了一種文檔標(biāo)記裝置,包括焦點(diǎn)實(shí)體獲取裝置,被配置為獲取與基礎(chǔ)文檔相關(guān)的焦點(diǎn)實(shí)體;情感極性獲取裝置,被配置為獲取對焦點(diǎn)實(shí)體的評論的情感極性;以及標(biāo)記生成裝置,被配置為基于所述焦點(diǎn)實(shí)體及相應(yīng)的情感極性生成對所述基礎(chǔ)文檔的標(biāo)記。此外,本申請的實(shí)施例還提供了能夠在計(jì)算機(jī)上執(zhí)行以實(shí)現(xiàn)上述方法或者裝置的計(jì)算機(jī)程序產(chǎn)品,以及存儲(chǔ)有或者傳輸所述計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì)。按照上述實(shí)施例,能夠用對相關(guān)焦點(diǎn)實(shí)體的評價(jià)來對基礎(chǔ)文檔進(jìn)行標(biāo)記,進(jìn)而能夠方便人們了解對有關(guān)焦點(diǎn)實(shí)體的評價(jià)。尤其是,由于將來源于基礎(chǔ)文檔的焦點(diǎn)實(shí)體以及對焦點(diǎn)實(shí)體的評價(jià)標(biāo)記在基礎(chǔ)文檔上,能夠方便人們對該基礎(chǔ)文檔所反映的內(nèi)容(例如事件)的全面認(rèn)識和評價(jià),因?yàn)檫@種標(biāo)記方式充分反映了焦點(diǎn)實(shí)體與基礎(chǔ)文檔之間的聯(lián)系, 以及各焦點(diǎn)實(shí)體相互之間的聯(lián)系。


      參照下面結(jié)合附圖對本發(fā)明實(shí)施例的說明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。在附圖中,相同的或?qū)?yīng)的技術(shù)特征或部件將采用相同或?qū)?yīng)的附圖標(biāo)記來表示。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進(jìn)一步舉例說明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中圖1為能夠用于實(shí)現(xiàn)本發(fā)明的各實(shí)施例的網(wǎng)絡(luò)系統(tǒng)的例子的示意圖;圖2為能夠用于實(shí)現(xiàn)本發(fā)明的各實(shí)施例的計(jì)算設(shè)備的例子的示意圖;圖3為根據(jù)本發(fā)明的方法的一種實(shí)施方式的流程圖;圖4為根據(jù)本發(fā)明的方法的一種實(shí)施方式標(biāo)記的文檔的一個(gè)實(shí)例;圖5為根據(jù)本發(fā)明的方法的一種實(shí)施方式標(biāo)記的文檔的另一個(gè)實(shí)例;圖6為根據(jù)本發(fā)明的方法的另一種實(shí)施方式的流程圖;圖7為根據(jù)本發(fā)明的方法的另一種實(shí)施方式標(biāo)記的文檔的另一個(gè)實(shí)例;圖8為根據(jù)本發(fā)明的方法的再一種實(shí)施方式的流程圖;圖9為根據(jù)本發(fā)明的方法的再一種實(shí)施方式的流程圖;圖10為根據(jù)本發(fā)明的方法的再一種實(shí)施方式標(biāo)記的文檔 的另一個(gè)實(shí)例;
      圖11為根據(jù)本發(fā)明的裝置的一種實(shí)施方式的方框示意圖;圖12為根據(jù)本發(fā)明的裝置的另一種實(shí)施方式的方框示意圖;圖13為根據(jù)本發(fā)明的裝置的另一種實(shí)施方式的方框示意圖;圖14為根據(jù)本發(fā)明的裝置的另一種實(shí)施方式的方框示意圖。
      具體實(shí)施例方式在下文中將結(jié)合附圖對本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡明起見, 在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。首先看圖1,圖示了能夠用于實(shí)現(xiàn)本發(fā)明的各實(shí)施例的網(wǎng)絡(luò)系統(tǒng)的例子的示意圖。 如圖1所示,第一終端102、第二終端108通過網(wǎng)絡(luò)106通信連接到服務(wù)器104。用戶可以通過第一終端102和/或第二終端108通過網(wǎng)絡(luò)106向服務(wù)器104提供內(nèi)容,或者從服務(wù)器104檢索、瀏覽、下載內(nèi)容,并對內(nèi)容加以分析和處理。服務(wù)器104可以存儲(chǔ)用戶通過終端提供的內(nèi)容以及/或者服務(wù)提供商提供的內(nèi)容,托管各類網(wǎng)站,比如數(shù)據(jù)庫服務(wù)、新聞網(wǎng)站、BBS論壇、博客等等。例如,服務(wù)器104可以是一臺(tái)新聞網(wǎng)站服務(wù)器,用戶,例如第二終端 108的用戶可以通過網(wǎng)絡(luò)瀏覽該新聞網(wǎng)站的新聞并添加評論,或者可以在另外的網(wǎng)站例如 BBS論壇、博客上對有關(guān)新聞加以評論,而另外的用戶,例如第一終端102的用戶則能夠通過網(wǎng)絡(luò)查看所述新聞、評論等等。在實(shí)施了本發(fā)明有關(guān)實(shí)施例的終端例如第一終端102上, 用戶則能夠利用本發(fā)明的實(shí)施例對基礎(chǔ)文檔例如新聞文章進(jìn)行標(biāo)注,以方便其他讀者了解對感興趣的事物的評價(jià)。第一終端102、服務(wù)器104、第二終端108可以是相同或者不同的信息處理設(shè)備,可以是專用計(jì)算設(shè)備或者通用計(jì)算設(shè)備,其中安裝了相應(yīng)的操作系統(tǒng)和應(yīng)用軟件(和/或固件),使它們可以分別作為用戶終端或者服務(wù)器而運(yùn)行。另外,雖然圖1中為了簡明起見僅圖示了一個(gè)服務(wù)器和兩個(gè)用戶終端,但是顯然的是,網(wǎng)絡(luò)上存在多個(gè)用戶終端和服務(wù)器,并且網(wǎng)絡(luò)可以包括各種類型的網(wǎng)絡(luò),包括互聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)、局域網(wǎng)等等。圖2為能夠用于實(shí)現(xiàn)本發(fā)明的各實(shí)施例的計(jì)算設(shè)備200(例如作為圖1所示的第一終端10 的例子的示意圖。在圖2中,中央處理單元(CPU) 201根據(jù)只讀存儲(chǔ)器(ROM) 202中存儲(chǔ)的程序或從存儲(chǔ)部分208加載到隨機(jī)存取存儲(chǔ)器(RAM) 203的程序執(zhí)行各種處理。在RAM 203中,也根據(jù)需要存儲(chǔ)當(dāng)CPU 201執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU 201、ROM 202和RAM 203經(jīng)由總線204彼此連接。輸入/輸出接口 205也連接到總線204。
      6
      下述部件連接到輸入/輸出接口 205 輸入部分206,包括鍵盤、鼠標(biāo)等等;輸出部分207,包括顯示器,比如陰極射線管(CRT)顯示器、液晶顯示器(LCD)等等,和揚(yáng)聲器等等; 存儲(chǔ)部分208,包括硬盤等等;和通信部分209,包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等等。通信部分209經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器210也連接到輸入/輸出接口 205??刹鹦督橘|(zhì)211比如磁盤、 光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等根據(jù)需要被安裝在驅(qū)動(dòng)器210上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分208中??梢詮木W(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)211向計(jì)算設(shè)備中安裝程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖2所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)211??刹鹦督橘|(zhì)211的例子包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(⑶-ROM)和數(shù)字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘撸鎯?chǔ)介質(zhì)可以是 ROM 202、存儲(chǔ)部分208中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。第一實(shí)施方式圖3所示為根據(jù)本發(fā)明的方法的一種實(shí)施方式的流程圖。根據(jù)該實(shí)施方式,首先基于基礎(chǔ)文檔304獲取與基礎(chǔ)文檔304相關(guān)的焦點(diǎn)實(shí)體310 (步驟306)。然后針對所獲得的焦點(diǎn)實(shí)體310獲取對焦點(diǎn)實(shí)體310的評論的情感極性314 (步驟312)。在此基礎(chǔ)上,基于所述焦點(diǎn)實(shí)體310及相應(yīng)的情感極性314生成對所述基礎(chǔ)文檔的標(biāo)記(步驟316),從而方便人們了解對焦點(diǎn)實(shí)體310的評價(jià)情況。這里,基礎(chǔ)文檔304可以是任何格式的離線的或者在線的文檔,可以是一篇文檔, 也可以是多于一篇的文檔。在基礎(chǔ)文檔多于一篇時(shí),既可以獨(dú)立地針對每一篇基礎(chǔ)文檔各自的內(nèi)容實(shí)施本發(fā)明的各實(shí)施方式,也可以將各基礎(chǔ)文檔的內(nèi)容作為一個(gè)整體來實(shí)施本發(fā)明的各實(shí)施方式。焦點(diǎn)實(shí)體310的含義是指被關(guān)注的實(shí)體,隨不同用戶的需求和偏好,焦點(diǎn)實(shí)體其實(shí)可以是任何與基礎(chǔ)文檔304直接或者間接相關(guān)的實(shí)體,包括基礎(chǔ)文檔304所包含的實(shí)體,或者從基礎(chǔ)文檔304的內(nèi)容歸納出的實(shí)體,或者用戶閱讀基礎(chǔ)文檔304后想到的實(shí)體,或者是與基礎(chǔ)文檔304相關(guān)的其他文檔所包含的或者由之歸納出的實(shí)體,等等。另一方面,焦點(diǎn)實(shí)體310可以不僅僅是人(例如公眾人物、事件所涉及的人物等), 或者物(例如各種商品等),或者物的屬性(比如產(chǎn)品的某個(gè)功能),也可以是事件(例如社會(huì)突發(fā)事件、公眾關(guān)注的話題等),或者是某種觀點(diǎn),等等??傊?,焦點(diǎn)實(shí)體310可以是任何被關(guān)注的有形的或者無形的對象??梢酝ㄟ^各種方式來獲取焦點(diǎn)實(shí)體310。例如,可以由用戶基于基礎(chǔ)文檔304的顯示而手工從基礎(chǔ)文檔304中選取,或者由用戶手工基于基礎(chǔ)文檔歸納或者聯(lián)想,然后輸入執(zhí)行本實(shí)施方式的方法的計(jì)算設(shè)備等?;蛘撸梢詮耐獠康姆椒ɑ蛘咴O(shè)備來輸入焦點(diǎn)實(shí)體310,也就是說由外部過程或者設(shè)備準(zhǔn)備好焦點(diǎn)實(shí)體310之后提供給本實(shí)施方式所執(zhí)行的過程?;蛘撸部梢栽诒緦?shí)施方式的執(zhí)行過程中來實(shí)時(shí)獲取焦點(diǎn)實(shí)體310,此時(shí)獲取焦點(diǎn)實(shí)體的步驟306可以用任何現(xiàn)有的或者將來的用于從文檔中抽取對象的技術(shù)來實(shí)現(xiàn)。例如,在 Li Zhang,Yue Pan,Tong Zhang 的文章 Focused Named Entity Recognition usingMachine Learning, SIGIR' 04,July 25-29,2004,Sheffield, South Yorkshire, UK.中就公開了一種提取焦點(diǎn)實(shí)體的技術(shù)。該文獻(xiàn)的全文通過此處的引用全文合并到本申請中。在接下來的獲取情感極性的步驟312中,情感極性314是指與某一焦點(diǎn)實(shí)體相關(guān)的評論所體現(xiàn)出來的支持或不支持、贊成或者不贊成、贊揚(yáng)或者批評等情感。情感是人的主觀意識的活動(dòng),但是人已經(jīng)通過文字表達(dá)出來的情感可以成為語義分析、數(shù)據(jù)挖掘等的對象,即能夠通過信息處理技術(shù)來對文字(例如新聞報(bào)導(dǎo)、博客文章、BBS論壇帖子)所表達(dá)出來的情感的極性加以識別、分類和利用。一般而言,可以將情感極性314分為正極性(積極評價(jià))和負(fù)極性(消極評價(jià))。當(dāng)然,還可以包括中性評價(jià)。在必要時(shí),甚至可以包括更多的評價(jià)等級,例如非常好、好、中、差、非常差,等等。評價(jià)等級的多少并不影響技術(shù)的實(shí)質(zhì)。與焦點(diǎn)實(shí)體310的獲取類似,也可以通過各種方式來獲取情感極性314。例如,可以由用戶基于基礎(chǔ)文檔304或者相關(guān)文檔(例如評論)的顯示而人工總結(jié),然后輸入執(zhí)行本實(shí)施方式的方法的計(jì)算設(shè)備等?;蛘撸梢詮耐獠康姆椒ɑ蛘咴O(shè)備來輸入情感極性314, 也就是說由外部過程或者設(shè)備提取好情感極性314之后提供給本實(shí)施方式所執(zhí)行的過程。或者,也可以在本實(shí)施方式的執(zhí)行過程中來實(shí)時(shí)獲取情感極性314,此時(shí)獲取情感極性的步驟312可以用任何現(xiàn)有的或者將來的情感分析技術(shù)來實(shí)現(xiàn)。例如,在背景技術(shù)部分提到的專利文獻(xiàn)1到專利文獻(xiàn)6所公開的情感分析技術(shù)均可用于在本實(shí)施方式中針對所獲取的焦點(diǎn)實(shí)體來獲取對焦點(diǎn)實(shí)體的評論的情感極性。所獲取的情感極性可以具有各種表現(xiàn)形式。例如,對于一個(gè)焦點(diǎn)實(shí)體310,可以給出針對它的積極評價(jià)和消極評價(jià)的個(gè)數(shù),和/或積極評價(jià)、消極評價(jià)所占的比例?;蛘?,用積極評價(jià)、消極評價(jià)所占的比例投票,從而針對該焦點(diǎn)實(shí)體310得出是積極評價(jià)還是消極評價(jià)的最終投票結(jié)論。例如,如果在所有評論當(dāng)中積極評價(jià)的條數(shù)超過某個(gè)閾值例如50% (當(dāng)然也可以是其它比例),即認(rèn)為對該焦點(diǎn)實(shí)體310的評論的情感極性為正極性(或者積極評價(jià))。在隨后的標(biāo)記基礎(chǔ)文檔的步驟316中,可以用任何現(xiàn)有的或者將來的文檔編輯技術(shù)基于所述焦點(diǎn)實(shí)體310和相應(yīng)的情感極性314來生成對所述基礎(chǔ)文檔304的標(biāo)記,即,將所述焦點(diǎn)實(shí)體310以及情感極性314標(biāo)記在所述基礎(chǔ)文檔304中。標(biāo)記可以用文本實(shí)現(xiàn), 或者用圖案、圖表等實(shí)現(xiàn),或者用多媒體方式實(shí)現(xiàn)。圖4圖示了根據(jù)一種實(shí)施方式標(biāo)記的文檔的一個(gè)實(shí)例。如圖所示,文章“浙江臺(tái)州降下多年未見大雪”402為基礎(chǔ)文檔(圖中所示不一定是該文章的全文,而可能只是節(jié)選)。 抽取的焦點(diǎn)實(shí)體例如有“元旦大雪” 408,用深色條塊410和淺色條塊412來表示對各焦點(diǎn)實(shí)體的積極評價(jià)和消極評價(jià)及其大致數(shù)量。從經(jīng)過標(biāo)記后的該文檔402,就可以讓感興趣的人從“浙江臺(tái)州降下多年未見大雪”這一事件,來方便地了解例如對“元旦大雪”的評價(jià)。圖4所示為標(biāo)記的一種特定形式,當(dāng)然也可以使用不同于圖4所示的標(biāo)記形式。例如,可以直接列出各實(shí)體的名字而不用標(biāo)注“實(shí)體1”、“實(shí)體2”等,可以用餅圖、柱狀圖、統(tǒng)計(jì)圖表等取代所述深色、淺色條塊作為統(tǒng)計(jì)數(shù)據(jù),也可以直接用數(shù)字形式來表示統(tǒng)計(jì)數(shù)據(jù), 如圖5中附圖標(biāo)記506所示,表明有積極評價(jià)20條。又如,圖中所示的標(biāo)記集中在基礎(chǔ)文檔末尾,作為文檔的擴(kuò)展部分,但是也可以像文檔編輯通常所用的“氣球”那樣,將焦點(diǎn)實(shí)體在基礎(chǔ)文檔中出現(xiàn)的位置圈出來,并將情感極性標(biāo)注在從該位置引出的標(biāo)注框中(未圖示)。 當(dāng)然,也可以不標(biāo)記統(tǒng)計(jì)數(shù)據(jù),而僅僅標(biāo)記對焦點(diǎn)實(shí)體的最終投票結(jié)論(未圖示)。
      另外,由于對同一焦點(diǎn)實(shí)體的評論可能出現(xiàn)在文章中的不同位置,因此將此類評論集中起來無疑會(huì)更加方便閱讀者。因此,可以將與焦點(diǎn)實(shí)體相關(guān)的評論內(nèi)容包括在所述標(biāo)記當(dāng)中。例如,如圖5所示,分別列出了針對“元旦大雪”的積極的評價(jià)內(nèi)容502和消極的評價(jià)內(nèi)容504。顯然,有時(shí)候評論內(nèi)容比較長。因此,如圖6所示,可以利用任何現(xiàn)有的或者將來的技術(shù)獲取評論內(nèi)容的摘要614(步驟612),從而替代所述評論內(nèi)容本身,將評論內(nèi)容的摘要614包括在所述標(biāo)記當(dāng)中。抽取文章的全部或者部分內(nèi)容的摘要的技術(shù)有很多, 例如在 Lun-ffei Ku, Yu-TingLiang 以及 Hsin-Hsi Chen 的文章 Opinion Extraction, Summarization andTracking in News and Blog Corpora(American Association for Artificiallntelligence, 2006),以及在 Bing Liu、Minqing Hu 禾口 Junsheng Cheng 的文章 Opinion Observer :Analyzing and Comparing Opinions on the Web(WWW 2005, May 10-14, 2005, Chiba, Japan.)中,均涉及了抽取摘要的技術(shù)。這兩篇文獻(xiàn)均通過這里的引用整體合并到本申請中。發(fā)明人注意到,文檔中出現(xiàn)的某些焦點(diǎn)實(shí)體是同義的,或者有非常緊密的關(guān)聯(lián)。在這種情況下,就可以將同義或者緊密關(guān)聯(lián)的焦點(diǎn)實(shí)體合并起來,此時(shí),合并之前的焦點(diǎn)實(shí)體稱之為次級焦點(diǎn)實(shí)體。例如,如圖7所示,次級焦點(diǎn)實(shí)體“元旦大雪”和“寒潮”具有緊密關(guān)聯(lián),因此合并為焦點(diǎn)實(shí)體“實(shí)體1 元旦大雪、寒潮” 702 ;次級焦點(diǎn)實(shí)體“機(jī)場”和“航班”具有緊密關(guān)聯(lián),因此合并為焦點(diǎn)實(shí)體“實(shí)體3 機(jī)場、航班” 704。次級焦點(diǎn)實(shí)體的合并可以用多種方式實(shí)現(xiàn)。例如,可以在獲取焦點(diǎn)實(shí)體的步驟306 的基礎(chǔ)上,對相關(guān)聯(lián)的實(shí)體進(jìn)行人工合并?;蛘呖梢耘c獲取焦點(diǎn)實(shí)體的步驟306類似,由本發(fā)明的實(shí)施方式的外部的過程或者設(shè)備進(jìn)行合并,然后提供給本發(fā)明的實(shí)施方式所執(zhí)行的過程?;蛘咭部梢栽诒景l(fā)明的實(shí)施方式的過程內(nèi)部進(jìn)行合并,對此可以用任何現(xiàn)有或者將來的技術(shù)實(shí)現(xiàn)。在現(xiàn)有技術(shù)中,分析不同實(shí)體之間的關(guān)聯(lián)性的技術(shù)已廣泛存在。一般來說,相關(guān)聯(lián)的實(shí)體是指在語法或語義上相近的、屬于類似范疇的實(shí)體。有關(guān)的技術(shù)例如有1)實(shí)體別名的識別,如北京大學(xué)的別名為北大??刹捎枚叹嚯x內(nèi)共線的統(tǒng)計(jì)方法來識別別名。或者使用基于規(guī)則的方法來識別別名,例如,可將括號內(nèi)的名稱視為別名。短距離內(nèi)共線的統(tǒng)計(jì)方法的原理在于,句子或篇章內(nèi)相關(guān)聯(lián)的詞語多同時(shí)出現(xiàn)在上下文中, 因此可用上下文或共線等信息來對同一語義的詞語進(jìn)行聚類。短距離內(nèi)共線的統(tǒng)計(jì)方法也可以與基于規(guī)則的方法相結(jié)合來使用。2)近義詞或同義詞的擴(kuò)展,上位概念和下位概念的擴(kuò)展。例如,上位概念“自然災(zāi)害”對應(yīng)于下位概念“颶風(fēng)”、“海嘯”等。這種擴(kuò)展多采用詞表資源來進(jìn)行,也就是說在詞表中列舉了同義詞、近義詞,相對應(yīng)的上位概念、下位概念等等,從文檔中提取的焦點(diǎn)實(shí)體如果具有對應(yīng)關(guān)系則合并?;蛘咭部梢曰谝呀?jīng)提取的焦點(diǎn)實(shí)體直接使用詞表來搜索相對應(yīng)的其它實(shí)體,如果存在則列入合并的焦點(diǎn)實(shí)體中。3)進(jìn)行自動(dòng)聚類分析以識別語義關(guān)聯(lián)的實(shí)體。例如,Honglei Guo, Huijia Zhu, Zhili Guo, XiaoXun Zhang 禾口 Zhong Su 的論文 Product FeatureCategorization with Multilevel Latent Semantic Association(CIKM’ 09, November 2-6,2009, Hong Kong, China)就公開了采用話題模型來對具有語義相似性的實(shí)體進(jìn)行聚類。
      第二實(shí)施方式發(fā)明人注意到,基礎(chǔ)文檔所包含的信息往往是不全面的。例如,不足以讓讀者了解公眾對某一事物的全面評價(jià),或者某一事物對公眾帶來的全方位影響等等。尤其是,用通常的實(shí)體抽取技術(shù)只能抽取基礎(chǔ)文檔直接涉及的焦點(diǎn)實(shí)體,而不能獲得該基礎(chǔ)文檔沒有提到并且也不能從中歸納出來的其它事實(shí)上相關(guān)的實(shí)體,當(dāng)然因此也無法獲得對遺漏的實(shí)體的評價(jià)(情感極性),從而無法對基礎(chǔ)文檔所涉及的事物或者事件有全面的了解和評價(jià)。例如,假設(shè)圖4所示的例子的文檔內(nèi)容為全部基礎(chǔ)文檔的內(nèi)容,那么,從該基礎(chǔ)文檔則只能得知公眾對“元旦大雪”和“臺(tái)州”的極為有限的、正面的評價(jià),而無法得知與天氣息息相關(guān)的交通狀況等,從而,僅從對該基礎(chǔ)文檔的標(biāo)記就無法全面感知元旦大雪對社會(huì)造成的全面影響。因此,在本實(shí)施方式中,提出擴(kuò)展用以提取焦點(diǎn)實(shí)體和分析情感極性的文檔的范圍。具體地,如圖8所示,可以基于基礎(chǔ)文檔304獲取相關(guān)文檔804 (步驟80 ,然后從所述基礎(chǔ)文檔304以及相關(guān)文檔804獲取焦點(diǎn)實(shí)體310 (步驟306)。圖8中所示的其它步驟與結(jié)合第一實(shí)施方式所描述的步驟相同或者類似,因此采用相同的附圖標(biāo)記,并且在此省略其詳細(xì)描述。至于從基礎(chǔ)文檔304和相關(guān)文檔804獲取焦點(diǎn)實(shí)體306的步驟,其與第一實(shí)施方式中的獲取焦點(diǎn)實(shí)體306的步驟實(shí)質(zhì)上也是一樣的, 只不過處理對象增加了相關(guān)文檔804,因此在此也省略其詳細(xì)描述。另外,圖8中以虛線表示的步驟表示相應(yīng)步驟并非必須的,基于對第一實(shí)施方式的說明,所述步驟可以有也可以沒有??梢酝ㄟ^各種方式來獲取相關(guān)文檔804。例如,可以由用戶基于基礎(chǔ)文檔304的內(nèi)容來在網(wǎng)絡(luò)上或者數(shù)據(jù)庫中查找相關(guān)文章,然后輸入執(zhí)行本實(shí)施方式的方法的計(jì)算設(shè)備等。或者,可以從外部的方法或者設(shè)備來輸入相關(guān)文檔804,也就是說由外部過程或者設(shè)備準(zhǔn)備好相關(guān)文檔804之后提供給本實(shí)施方式所執(zhí)行的過程。例如,可以從外部提供一個(gè)文檔集合和一個(gè)基礎(chǔ)文檔,然后由本實(shí)施方式的過程抽取焦點(diǎn)實(shí)體、分析情感極性并標(biāo)記到所述基礎(chǔ)文檔304中?;蛘撸部梢栽诒緦?shí)施方式的執(zhí)行過程中來實(shí)時(shí)獲取相關(guān)文檔804,此時(shí)獲取相關(guān)文檔的步驟802可以用任何現(xiàn)有的或者將來的文檔搜索技術(shù)來實(shí)現(xiàn)。在本實(shí)施方式中,發(fā)明人提出利用文檔之間的鏈接關(guān)系來獲取相關(guān)文檔804。例如,在新聞網(wǎng)站上,往往有與該新聞主題相關(guān)聯(lián)的其它文章的鏈接;在博客或者BBS論壇上,有評論或者跟帖的鏈接等。可以將與基礎(chǔ)文檔804相鏈接的文檔作為相關(guān)文檔。進(jìn)一步,還可以將與相關(guān)文檔有鏈接關(guān)系的其它文檔也作為相關(guān)文檔。即,基礎(chǔ)文檔的相關(guān)文檔不僅可以包括直接相關(guān)的文檔,也可以包括間接相關(guān)的文檔。鏈接的層數(shù)可以根據(jù)實(shí)際應(yīng)用的需求而定,或者可以預(yù)定一定的層數(shù),例如但不限于3層。但是,有時(shí)候依靠鏈接關(guān)系獲取相關(guān)文檔并不準(zhǔn)確,或者不全面。因此,發(fā)明人又提出利用焦點(diǎn)實(shí)體304來獲取相關(guān)文檔804。例如,如圖9所示,在第一實(shí)施方式的基礎(chǔ)上, 增加了從基礎(chǔ)文檔304的焦點(diǎn)實(shí)體來獲取相關(guān)文檔804的步驟902,以及從相關(guān)文檔804 獲取焦點(diǎn)實(shí)體的步驟906。例如,可以利用從基礎(chǔ)文檔304獲取的焦點(diǎn)實(shí)體作為搜索關(guān)鍵詞,在網(wǎng)絡(luò)上或者數(shù)據(jù)庫中搜索包含該關(guān)鍵詞的文檔作為相關(guān)文檔804。當(dāng)然,為了提高效率,可以限制作為搜索關(guān)鍵詞的基礎(chǔ)文檔焦點(diǎn)實(shí)體的數(shù)量,并可以只將搜索結(jié)果中相關(guān)度較高的或者預(yù)定數(shù)量的命中文檔作為相關(guān)文檔,具體標(biāo)準(zhǔn)可以根據(jù)具體應(yīng)用合適地確定和調(diào)整。類似于用鏈接關(guān)系來獲取相關(guān)文檔,也可以再次用獲取的相關(guān)文檔中的焦點(diǎn)實(shí)體繼續(xù)搜索更多的相關(guān)文檔,循環(huán)的層數(shù)也可以根據(jù)實(shí)際應(yīng)用的需求而定。同樣,圖9中所示的其它步驟與結(jié)合第一實(shí)施方式所描述的步驟相同或者類似, 因此采用相同的附圖標(biāo)記,并且在此省略其詳細(xì)描述。同樣,圖9中以虛線表示的步驟表示相應(yīng)步驟并非必須的,基于對第一實(shí)施方式的說明,所述步驟可以有也可以沒有。在利用了相關(guān)文檔的情況下,如果在對基礎(chǔ)文檔的標(biāo)記中包含了評論內(nèi)容或者評論內(nèi)容的摘要(如第一實(shí)施方式所述),則在所述標(biāo)記中標(biāo)出所述焦點(diǎn)實(shí)體和/或評論的來源是很有用的,例如可以在每一條焦點(diǎn)實(shí)體和/或評論內(nèi)容的前面或者后面標(biāo)注來源(例如某某報(bào)紙,某某論壇,或者網(wǎng)絡(luò)地址)。如果同一來源有多條焦點(diǎn)實(shí)體和/或評論內(nèi)容,則可以按照來源對焦點(diǎn)實(shí)體和/或評論內(nèi)容分類并標(biāo)注來源,或者以來源和情感極性共同對評論內(nèi)容分類。除了用文字標(biāo)注來源之外,如圖10所示,還可以用鏈接1002的形式來標(biāo)注來源, 這樣讀者點(diǎn)擊相應(yīng)的鏈接即可跳至作為來源的相關(guān)文檔。鏈接點(diǎn)可以如圖10所示在相應(yīng)的焦點(diǎn)實(shí)體和/或評論內(nèi)容上,也可以在上述用文字標(biāo)注的來源(例如某某報(bào)紙,某某論壇,或者網(wǎng)絡(luò)地址)上?;蛘撸鰜碓纯梢允亲詣?dòng)彈出的形式,例如如圖10所示,當(dāng)鼠標(biāo)移至相應(yīng)焦點(diǎn)實(shí)體和/或評論內(nèi)容時(shí),就彈出相應(yīng)的來源1004,例如某某報(bào)紙,某某論壇,或者網(wǎng)絡(luò)地址等,可以是純文本的形式,也可以是可跳轉(zhuǎn)的鏈接的形式。第三實(shí)施方式相應(yīng)于第一實(shí)施方式,本申請還提供了一種文檔標(biāo)記裝置1100,下面對其結(jié)合附圖予以說明。該文檔標(biāo)記裝置1100與第一實(shí)施方式的方法基本上是一致的,因此下面的說明比較簡要,各部件的詳細(xì)實(shí)現(xiàn)方式和操作方式,可參見對第一實(shí)施方式的說明。如圖11所示,本實(shí)施方式的文檔標(biāo)記裝置1100包括焦點(diǎn)實(shí)體獲取裝置1102,被配置為獲取與基礎(chǔ)文檔相關(guān)的焦點(diǎn)實(shí)體;情感極性獲取裝置1106,被配置為獲取對焦點(diǎn)實(shí)體的評論的情感極性;以及標(biāo)記生成裝置1108,被配置為基于所述焦點(diǎn)實(shí)體及相應(yīng)的情感極性生成對所述基礎(chǔ)文檔的標(biāo)記。所述標(biāo)記可以包括焦點(diǎn)實(shí)體的標(biāo)識,以及相應(yīng)的情感極性。其中,所述情感極性獲取裝置1106可以被進(jìn)一步配置為獲取對焦點(diǎn)實(shí)體的情感極性的統(tǒng)計(jì)數(shù)據(jù),這樣,所述標(biāo)記就可以包括對相關(guān)焦點(diǎn)實(shí)體的情感極性的統(tǒng)計(jì)數(shù)據(jù)。替代地,或者附加地,所述標(biāo)記還可以包括與每一種情感極性相關(guān)的評論內(nèi)容。另外,如圖12所示,本實(shí)施方式的文檔標(biāo)記裝置1100還可以包括摘要獲取裝置 1210,其被配置為獲取與每一種情感極性相關(guān)的評論內(nèi)容的摘要。這樣,所述標(biāo)記就可以只包括所述評論內(nèi)容的摘要,而不是所述評論內(nèi)容的全文。另外,所述焦點(diǎn)實(shí)體獲取裝置1102還可以被進(jìn)一步配置為將多個(gè)次級焦點(diǎn)實(shí)體合并為一個(gè)焦點(diǎn)實(shí)體。這樣,可以將同義和/或緊密關(guān)聯(lián)的多個(gè)次級焦點(diǎn)實(shí)體合并為一個(gè)焦點(diǎn)實(shí)體,使得對文檔的情感極性標(biāo)記更為簡潔、準(zhǔn)確。需要注意的是,如第一實(shí)施方式所述,焦點(diǎn)實(shí)體的獲取、情感極性的獲取以及摘要的抽取均可以人工進(jìn)行,或者從外部輸入,或者由任何現(xiàn)有或者將來的技術(shù)實(shí)現(xiàn)。因此,焦點(diǎn)實(shí)體獲取裝置1102、情感極性獲取裝置1106、摘要獲取裝置1210均可以利用任何現(xiàn)有或
      11者將來的技術(shù)實(shí)現(xiàn),它們甚至可以只是用來輸入焦點(diǎn)實(shí)體、情感極性或者摘要的裝置。第四實(shí)施方式相應(yīng)于第二實(shí)施方式,本申請還提供了一種文檔標(biāo)記裝置1100,下面對其結(jié)合附圖予以說明。該文檔標(biāo)記裝置1100與第二實(shí)施方式的方法基本上是一致的,因此下面的說明比較簡要,各部件的詳細(xì)實(shí)現(xiàn)方式和操作方式,可參見對第二實(shí)施方式的說明。此外, 該實(shí)施方式是對第三實(shí)施方式的改進(jìn),因此已在第三實(shí)施方式中說明的部件也不再重復(fù)說明。類似于第二實(shí)施方式,圖13、14中以虛線表示的摘要獲取裝置1210并非必須的,基于對第一、三實(shí)施方式的說明,所述摘要獲取裝置1210可以有也可以沒有。具體來說,如圖13所示,在第三實(shí)施方式的文檔標(biāo)記裝置1100的基礎(chǔ)上,增加了相關(guān)文檔獲取裝置1310,其被配置為獲取與基礎(chǔ)文檔相關(guān)的相關(guān)文檔。相應(yīng)地,所述焦點(diǎn)實(shí)體獲取裝置1102被配置為獲取所述基礎(chǔ)文檔以及所述相關(guān)文檔中的焦點(diǎn)實(shí)體。這樣就可以擴(kuò)展文檔的范圍,使得能夠獲取更為全面的焦點(diǎn)實(shí)體和/或?qū)裹c(diǎn)實(shí)體的評價(jià)。相應(yīng)地,所述標(biāo)記還可以包括所述焦點(diǎn)實(shí)體的來源和/或所述評論內(nèi)容的來源。 所述來源可以為文字或者鏈接的形式。文字或者鏈接可以是彈出的形式。這樣,就可以很方便的獲知或者轉(zhuǎn)到焦點(diǎn)實(shí)體和/或評論內(nèi)容的來源文檔。所述相關(guān)文檔獲取裝置1310可以被配置為利用文檔的鏈接關(guān)系獲取所述相關(guān)文檔。鏈接的層數(shù)(深度)可以根據(jù)實(shí)際應(yīng)用的需求而定。另外,如圖14所示,所述相關(guān)文檔獲取裝置1310還可以被配置為基于所述焦點(diǎn)實(shí)體獲取裝置1102獲取的基礎(chǔ)文檔中的焦點(diǎn)實(shí)體,來獲取與所述基礎(chǔ)文檔中的焦點(diǎn)實(shí)體相關(guān)的其他文檔作為所述相關(guān)文檔。這樣,焦點(diǎn)實(shí)體獲取裝置1102進(jìn)一步從相關(guān)文檔獲取裝置1310所獲取的相關(guān)文檔獲取焦點(diǎn)實(shí)體。從而,文檔標(biāo)記裝置1100能夠擴(kuò)展文檔的范圍, 使得能夠獲取更為全面的焦點(diǎn)實(shí)體和/或?qū)裹c(diǎn)實(shí)體的評價(jià)。類似地,相關(guān)文檔獲取裝置 1310能夠再次依據(jù)焦點(diǎn)實(shí)體獲取裝置從相關(guān)文檔獲取的焦點(diǎn)實(shí)體來進(jìn)一步獲取更多的相關(guān)文檔交由焦點(diǎn)實(shí)體獲取裝置1102進(jìn)一步獲取更多的焦點(diǎn)實(shí)體。循環(huán)次數(shù)可以根據(jù)實(shí)際應(yīng)用合理確定。需要注意的是,如第二實(shí)施方式所述,焦點(diǎn)實(shí)體的獲取、情感極性的獲取、摘要的抽取以及相關(guān)文檔的獲取均可以人工進(jìn)行,或者從外部輸入,或者由任何現(xiàn)有或者將來的技術(shù)實(shí)現(xiàn)。因此,焦點(diǎn)實(shí)體獲取裝置1102、情感極性獲取裝置1106、摘要獲取裝置1210、相關(guān)文檔獲取裝置1310均可以利用任何現(xiàn)有或者將來的技術(shù)實(shí)現(xiàn),它們甚至可以只是用來輸入焦點(diǎn)實(shí)體、情感極性、摘要或者相關(guān)文檔的裝置。上面對本發(fā)明的一些實(shí)施方式進(jìn)行了詳細(xì)的描述。如本領(lǐng)域的普通技術(shù)人員所能理解的,本發(fā)明的方法和裝置的全部或者任何步驟或者部件,可以在任何計(jì)算設(shè)備(包括處理器、存儲(chǔ)介質(zhì)等)或者計(jì)算設(shè)備的網(wǎng)絡(luò)中,以硬件、固件、軟件或者它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在了解本發(fā)明的內(nèi)容的情況下運(yùn)用他們的基本編程技能就能實(shí)現(xiàn)的,因此不需在此具體說明。此外,顯而易見的是,在上面的說明中涉及到可能的外部操作的時(shí)候,無疑要使用與任何計(jì)算設(shè)備相連的任何顯示設(shè)備和任何輸入設(shè)備、相應(yīng)的接口和控制程序。總而言之, 計(jì)算機(jī)、計(jì)算機(jī)系統(tǒng)或者計(jì)算機(jī)網(wǎng)絡(luò)中的相關(guān)硬件、軟件和實(shí)現(xiàn)本發(fā)明的前述方法中的各種操作的硬件、固件、軟件或者它們的組合,即構(gòu)成本發(fā)明的設(shè)備及其各組成部件。
      因此,基于上述理解,本發(fā)明的目的還可以通過在任何信息處理設(shè)備上運(yùn)行一個(gè)程序或者一組程序來實(shí)現(xiàn)。所述信息處理設(shè)備可以是公知的通用設(shè)備。因此,本發(fā)明的目的也可以僅僅通過提供包含實(shí)現(xiàn)所述方法或者設(shè)備的程序代碼的程序產(chǎn)品來實(shí)現(xiàn)。也就是說,這樣的程序產(chǎn)品也構(gòu)成本發(fā)明,并且存儲(chǔ)有這樣的程序產(chǎn)品的存儲(chǔ)介質(zhì)也構(gòu)成本發(fā)明。 顯然,所述存儲(chǔ)介質(zhì)可以是本領(lǐng)域技術(shù)人員已知的,或者將來所開發(fā)出來的任何類型的存儲(chǔ)介質(zhì),包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等等。在本發(fā)明的設(shè)備和方法中,顯然,各部件或各步驟是可以分解、組合和/或分解后重新組合的。這些分解和/或重新組合應(yīng)視為本發(fā)明的等效方案。還需要指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時(shí)間順序執(zhí)行,但是并不需要一定按照時(shí)間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。另外,雖然上面是一個(gè)實(shí)施方式一個(gè)實(shí)施方式地進(jìn)行描述,但應(yīng)當(dāng)理解各個(gè)實(shí)施方式并不是孤立的。本領(lǐng)域技術(shù)人員在閱讀了本申請文件之后,顯然能夠理解,各實(shí)施方式所包含的各種技術(shù)特征在各種實(shí)施方式之間是可以任意組合的,只要它們之間沒有沖突即可。當(dāng)然,在同一實(shí)施方式中提及的所有技術(shù)特征相互之間也是可以任意組合的,只要它們相互之間沒有沖突即可。最后,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。此外,在沒有
      更多限制的情況下,由語句“包括一個(gè)......,,限定的要素,并不排除在包括所述要素的過
      程、方法、物品或者設(shè)備中還存在另外的相同要素。雖然已經(jīng)結(jié)合附圖詳細(xì)說明了本發(fā)明的實(shí)施方式及其優(yōu)點(diǎn),但是應(yīng)當(dāng)理解,上面所描述的實(shí)施方式只是用于說明本發(fā)明,而并不構(gòu)成對本發(fā)明的限制。對于本領(lǐng)域的技術(shù)人員來說,可以對上述實(shí)施方式作出各種修改和變更而不背離本發(fā)明的實(shí)質(zhì)和范圍。因此, 本發(fā)明的范圍僅由所附的權(quán)利要求及其等效含義來限定,在不超出由所附的權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下可以進(jìn)行各種改變、替代和變換。
      1權(quán)利要求
      1.一種文檔標(biāo)記方法,包括 獲取與基礎(chǔ)文檔相關(guān)的焦點(diǎn)實(shí)體; 獲取對焦點(diǎn)實(shí)體的評論的情感極性;以及基于所述焦點(diǎn)實(shí)體及相應(yīng)的情感極性生成對所述基礎(chǔ)文檔的標(biāo)記。
      2.如權(quán)利要求1所述的文檔標(biāo)記方法,其中,所述標(biāo)記包括焦點(diǎn)實(shí)體的標(biāo)識及其情感極性的統(tǒng)計(jì)數(shù)據(jù)。
      3.如權(quán)利要求2所述的文檔標(biāo)記方法,其中,所述標(biāo)記還包括與每一種情感極性相關(guān)的評論內(nèi)容。
      4.如權(quán)利要求2所述的文檔標(biāo)記方法,還包括 獲取與每一種情感極性相關(guān)的評論內(nèi)容的摘要; 其中,所述標(biāo)記還包括所述評論內(nèi)容的所述摘要。
      5.如權(quán)利要求2所述的方法,其中,所述焦點(diǎn)實(shí)體是多個(gè)次級焦點(diǎn)實(shí)體的合并。
      6.如權(quán)利要求1-5之一所述的方法,其中,所述獲取與基礎(chǔ)文檔相關(guān)的焦點(diǎn)實(shí)體的步驟包括獲取與基礎(chǔ)文檔相關(guān)的相關(guān)文檔;以及獲取所述基礎(chǔ)文檔以及所述相關(guān)文檔中的焦點(diǎn)實(shí)體。
      7.如權(quán)利要求6所述的方法,其中,所述標(biāo)記還包括所述焦點(diǎn)實(shí)體的來源和/或所述評論內(nèi)容的來源。
      8.如權(quán)利要求7所述的方法,其中,所述來源為鏈接的形式。
      9.如權(quán)利要求6所述的方法,其中,所述獲取與基礎(chǔ)文檔相關(guān)的相關(guān)文檔的步驟包括 利用文檔的鏈接關(guān)系獲取所述相關(guān)文檔。
      10.如權(quán)利要求6所述的方法,其中,所述獲取與基礎(chǔ)文檔相關(guān)的相關(guān)文檔的步驟包括獲取所述基礎(chǔ)文檔中的焦點(diǎn)實(shí)體;以及獲取與所述焦點(diǎn)實(shí)體相關(guān)的文檔作為所述相關(guān)文檔。
      11.一種文檔標(biāo)記裝置,包括焦點(diǎn)實(shí)體獲取裝置,被配置為獲取與基礎(chǔ)文檔相關(guān)的焦點(diǎn)實(shí)體; 情感極性獲取裝置,被配置為獲取對焦點(diǎn)實(shí)體的評論的情感極性;以及標(biāo)記生成裝置,被配置為基于所述焦點(diǎn)實(shí)體及相應(yīng)的情感極性生成對所述基礎(chǔ)文檔的標(biāo)記。
      12.如權(quán)利要求11所述的文檔標(biāo)記裝置,其中,所述情感極性獲取裝置被進(jìn)一步配置為獲取對焦點(diǎn)實(shí)體的情感極性的統(tǒng)計(jì)數(shù)據(jù),其中,所述標(biāo)記包括焦點(diǎn)實(shí)體的標(biāo)識及其情感極性的統(tǒng)計(jì)數(shù)據(jù)。
      13.如權(quán)利要求12所述的文檔標(biāo)記裝置,其中,所述標(biāo)記還包括與每一種情感極性相關(guān)的評論內(nèi)容。
      14.如權(quán)利要求12所述的文檔標(biāo)記裝置,還包括摘要獲取裝置,被配置為獲取與每一種情感極性相關(guān)的評論內(nèi)容的摘要; 其中,所述標(biāo)記還包括所述評論內(nèi)容的所述摘要。
      15.如權(quán)利要求12所述的裝置,其中,所述焦點(diǎn)實(shí)體獲取裝置被配置為將多個(gè)次級焦點(diǎn)實(shí)體合并為一個(gè)焦點(diǎn)實(shí)體。
      16.如權(quán)利要求11-15之一所述的裝置,還包括相關(guān)文檔獲取裝置,被配置為獲取與基礎(chǔ)文檔相關(guān)的相關(guān)文檔; 其中,所述焦點(diǎn)實(shí)體獲取裝置被配置為獲取所述基礎(chǔ)文檔以及所述相關(guān)文檔中的焦點(diǎn)實(shí)體。
      17.如權(quán)利要求16所述的裝置,其中,所述標(biāo)記還包括所述焦點(diǎn)實(shí)體的來源和/或所述評論內(nèi)容的來源。
      18.如權(quán)利要求17所述的裝置,其中,所述來源為鏈接的形式。
      19.如權(quán)利要求16所述的裝置,其中,所述相關(guān)文檔獲取裝置被配置為利用文檔的鏈接關(guān)系獲取所述相關(guān)文檔。
      20.如權(quán)利要求16所述的裝置,其中,所述相關(guān)文檔獲取裝置被配置為基于所述焦點(diǎn)實(shí)體獲取裝置獲取的基礎(chǔ)文檔中的焦點(diǎn)實(shí)體,來獲取與所述基礎(chǔ)文檔中的焦點(diǎn)實(shí)體相關(guān)的其他文檔作為所述相關(guān)文檔。
      全文摘要
      本申請涉及一種文檔標(biāo)記方法和裝置。根據(jù)所提供的實(shí)施例,獲取與基礎(chǔ)文檔相關(guān)的焦點(diǎn)實(shí)體,并獲取對焦點(diǎn)實(shí)體的評論的情感極性,然后基于所述焦點(diǎn)實(shí)體及相應(yīng)的情感極性生成對所述基礎(chǔ)文檔的標(biāo)記。所提供的實(shí)施例能夠用對相關(guān)焦點(diǎn)實(shí)體的評價(jià)來對基礎(chǔ)文檔進(jìn)行標(biāo)記,進(jìn)而能夠方便人們了解對有關(guān)實(shí)體的評價(jià)。
      文檔編號G06F17/24GK102163187SQ20101011222
      公開日2011年8月24日 申請日期2010年2月21日 優(yōu)先權(quán)日2010年2月21日
      發(fā)明者張小洵, 祝慧佳, 蘇中, 郭宏蕾, 郭志立 申請人:國際商業(yè)機(jī)器公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1