本申請涉及計算機技術領域,具體涉及計算機網(wǎng)絡技術領域,尤其涉及基于人工智能構(gòu)建評論圖譜的方法和裝置。
背景技術:
人工智能(artificialintelligence,簡稱ai)技術的快速發(fā)展為人們的日常工作和生活提供了便利。人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能越來越多地融入到應用中,結(jié)合人工智能的應用可以準確地確定出信息的種類,并按照不同用戶的需求將不同種類的信息推送給相應的用戶。
隨著人工智能的飛速發(fā)展,如何讓機器能擁有和人類一樣的智能,成了無數(shù)企業(yè)希望做到的事情。在這個背景下,我們希望機器能夠讀懂一篇文章,并且能夠給出有自己觀點的評論,或者給出互聯(lián)網(wǎng)用戶對這篇文章的一般觀點。
目前的機器評論,一般都是通過傳統(tǒng)的信息檢索技術,基于新聞關鍵詞索引出相關新聞的評論,并基于新聞與新聞的相關性以及新聞與評論的相關性,選出最相關的評論。
然而,目前的機器評論,人云亦云,給出的評論必須是用戶已經(jīng)在相同或者類似新聞中發(fā)表的評論,機器本身并不理解新聞的內(nèi)容和評論的內(nèi)容,并且由于檢索召回的依據(jù)是新聞和評論的相關性,普遍存在冷門新聞無法召回的問題,如果放開相關性限制,容易產(chǎn)出不相關的回復,并且嚴重依賴評論庫的時效性,質(zhì)量以及大小,因此影響面和召回率低。
技術實現(xiàn)要素:
本申請的目的在于提出一種改進的基于人工智能構(gòu)建評論圖譜的方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請實施例提供了一種基于人工智能構(gòu)建評論圖譜的方法,方法包括:基于網(wǎng)絡頁面中的評論數(shù)據(jù),確定評論文本;根據(jù)評論文本中的特征,識別評論文本中的評論主體和評論觀點;基于評論主體和評論觀點,生成包括評論主體、評論觀點和情感傾向的主體觀點對;基于新聞資訊,生成與主體觀點對相關聯(lián)的評論標簽;基于評論標簽和主體觀點對,生成評論圖譜。
在一些實施例中,基于評論主體和評論觀點,生成包括評論主體、評論觀點和情感傾向的主體觀點對包括:基于評論主體、評論觀點以及以下三項中的一項或多項:評論文本的篇章信息、共現(xiàn)信息以及實體類型,提取包括評論主體、評論觀點和情感傾向的主體觀點對。
在一些實施例中,基于新聞資訊,生成與主體觀點對相關聯(lián)的評論標簽包括:基于新聞資訊,確定新聞標簽;計算新聞標簽與評論文本的相關性;將相關性符合預設閾值的新聞標簽確定為與主體觀點對相關聯(lián)的評論標簽。
在一些實施例中,基于新聞資訊,確定新聞標簽包括:根據(jù)新聞資訊中詞語的預定特征,采用權重模型確定詞語的權重;基于詞語的權重和詞語之間的共現(xiàn)特征,確定新聞標簽。
在一些實施例中,權重模型根據(jù)以下步驟確定:獲取新聞資訊樣本;根據(jù)新聞資訊樣本中詞語的預定特征,采用支持向量機訓練權重模型。
在一些實施例中,基于新聞資訊,確定新聞標簽還包括:從新聞資訊中抽取事件,事件包括事件類型和事件元素;若事件元素中存在事件元素被選為新聞標簽,則將事件確定為新聞標簽。
在一些實施例中,計算新聞標簽與評論文本的相關性包括以下一項或多項:根據(jù)同義詞詞典,計算新聞標簽中的專名或短語與評論主體的相關性;基于預設的專名對應規(guī)則,計算新聞標簽中的專名與評論主體的相關性;基于文本深度表示模型,計算由新聞標簽中的詞語生成的向量與由評論主體生成的向量的相似度;基于文本深度表示模型,計算由事件的詞語生成的向量與由評論觀點生成向量的相似度;基于文本深度表示模型,計算由新聞標簽的詞語生成的向量與由評論文本中除主體和觀點之外的實義詞生成的向量的相似度。
在一些實施例中,基于評論標簽和評論內(nèi)容,生成評論圖譜包括:將評論標簽作為評論圖譜的標簽節(jié)點;將主體觀點對作為評論圖譜的評論節(jié)點;在標簽節(jié)點和對應標簽節(jié)點的評論節(jié)點之間建立連接關系。
在一些實施例中,基于評論標簽和評論內(nèi)容,生成評論圖譜還包括:在語義關聯(lián)的評論節(jié)點之間,建立連接關系;和/或在語義相同的標簽節(jié)點之間,建立連接關系。
在一些實施例中,在語義關聯(lián)的評論節(jié)點之間,建立連接關系包括:在語義相同和/或語義相反的評論節(jié)點之間,建立連接關系。
第二方面,本申請實施例提供了一種生成新聞評論的方法,方法包括:根據(jù)新聞資訊中詞語的預定特征,采用權重模型確定詞語的權重;基于詞語的權重和詞語之間的共現(xiàn)特征,確定新聞標簽;基于新聞標簽以及根據(jù)如上述的基于人工智能構(gòu)建評論圖譜的方法構(gòu)建的評論圖譜,確定評論圖譜中對應新聞標簽的主體觀點對;基于確定的主體觀點對,生成新聞評論。
第三方面,本申請實施例提供了一種基于人工智能構(gòu)建評論圖譜的裝置,裝置包括:評論文本確定單元,用于基于網(wǎng)絡頁面中的評論數(shù)據(jù),確定評論文本;主體觀點識別單元,用于根據(jù)評論文本中的特征,識別評論文本中的評論主體和評論觀點;主體觀點對生成單元,用于基于評論主體和評論觀點,生成包括評論主體、評論觀點和情感傾向的主體觀點對;評論標簽生成單元,用于基于新聞資訊,生成與主體觀點對相關聯(lián)的評論標簽;評論圖譜生成單元,用于基于評論標簽和主體觀點對,生成評論圖譜。
在一些實施例中,主體觀點對生成單元進一步用于:基于評論主體、評論觀點以及以下三項中的一項或多項:評論文本的篇章信息、共現(xiàn)信息以及實體類型,提取包括評論主體、評論觀點和情感傾向的主體觀點對。
在一些實施例中,評論標簽生成單元包括:新聞標簽確定單元,用于基于新聞資訊,確定新聞標簽;相關性計算單元,用于計算新聞標簽與評論文本的相關性;評論標簽確定單元,用于將相關性符合預設閾值的新聞標簽確定為與主體觀點對相關聯(lián)的評論標簽。
在一些實施例中,新聞標簽確定單元包括:詞語權重確定子單元,用于根據(jù)新聞資訊中詞語的預定特征,采用權重模型確定詞語的權重;新聞標簽確定子單元,用于基于詞語的權重和詞語之間的共現(xiàn)特征,確定新聞標簽。
在一些實施例中,詞語權重確定子單元中的權重模型根據(jù)以下步驟確定:獲取新聞資訊樣本;根據(jù)新聞資訊樣本中詞語的預定特征,采用支持向量機訓練權重模型。
在一些實施例中,新聞標簽確定單元還包括:新聞事件抽取子單元,用于從新聞資訊中抽取事件,事件包括事件類型和事件元素;新聞事件確定子單元,用于若事件元素中存在事件元素被選為新聞標簽,則將事件確定為新聞標簽。
在一些實施例中,相關性計算單元進一步用于以下一項或多項:根據(jù)同義詞詞典,計算新聞標簽中的專名或短語與評論主體的相關性;基于預設的專名對應規(guī)則,計算新聞標簽中的專名與評論主體的相關性;基于文本深度表示模型,計算由新聞標簽中的詞語生成的向量與由評論主體生成的向量的相似度;基于文本深度表示模型,計算由事件的詞語生成的向量與由評論觀點生成向量的相似度;基于文本深度表示模型,計算由新聞標簽的詞語生成的向量與由評論文本中除主體和觀點之外的實義詞生成的向量的相似度。
在一些實施例中,評論圖譜生成單元包括:標簽節(jié)點確定單元,用于將評論標簽作為評論圖譜的標簽節(jié)點;評論節(jié)點確定單元,用于將主體觀點對作為評論圖譜的評論節(jié)點;標簽評論連接單元,用于在標簽節(jié)點和對應標簽節(jié)點的評論節(jié)點之間建立連接關系。
在一些實施例中,評論圖譜生成單元還包括:關聯(lián)評論連接單元,用于在語義關聯(lián)的評論節(jié)點之間,建立連接關系;和/或同義標簽連接單元,用于在語義相同的標簽節(jié)點之間,建立連接關系。
在一些實施例中,關聯(lián)評論連接單元包括:語義評論連接單元,用于在語義相同和/或語義相反的評論節(jié)點之間,建立連接關系。
第四方面,本申請實施例提供了一種生成新聞評論的裝置,裝置包括:詞語權重確定單元,用于根據(jù)新聞資訊中詞語的預定特征,采用權重模型確定詞語的權重;新聞標簽確定單元,用于基于詞語的權重和詞語之間的共現(xiàn)特征,確定新聞標簽;主體觀點對確定單元,用于基于新聞標簽以及根據(jù)如上任意一項的基于人工智能構(gòu)建評論圖譜的裝置構(gòu)建的評論圖譜,確定評論圖譜中對應新聞標簽的主體觀點對;新聞評論生成單元,用于基于確定的主體觀點對,生成新聞評論。
第五方面,本申請實施例提供了一種設備,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序;當一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)如上任意一項基于人工智能構(gòu)建評論圖譜的方法。
第六方面,本申請實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如上任意一項基于人工智能構(gòu)建評論圖譜的方法。
本申請實施例提供的基于人工智能構(gòu)建評論圖譜的方法和裝置,首先基于網(wǎng)絡頁面中的評論數(shù)據(jù),確定評論文本;之后,根據(jù)評論文本中的特征,識別評論文本中的評論主體和評論觀點;之后,基于評論主體和評論觀點,生成包括評論主體、評論觀點和情感傾向的主體觀點對;之后,生成與主體觀點對相關聯(lián)的評論標簽;最后基于評論標簽和主體觀點對,生成評論圖譜。本實施例提供的評論圖譜,可以基于主體觀點對提供評論內(nèi)容以及評論情感,可以基于評論標簽提供評論內(nèi)容的應用環(huán)境,因此在對外提供評論時,提高了評論的針對性、精準性以及對評論情感的控制,并且由于構(gòu)建評論圖譜的來源豐富,覆蓋面廣,因此向外提供的評論也反映大多數(shù)評論意見,提升了評論圖譜的適用范圍。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是根據(jù)本申請的基于人工智能構(gòu)建評論圖譜的方法的一個實施例的示意性流程圖;
圖2是根據(jù)本申請的基于新聞資訊生成與主體觀點對相關聯(lián)的評論標簽的方法的一個實施例的示意性流程圖;
圖3a是根據(jù)本申請實施例的基于人工智能構(gòu)建評論圖譜的方法的一個應用場景的示例性流程圖;
圖3b根據(jù)圖3a中應用場景的示意性流程圖構(gòu)建的評論圖譜。
圖4是根據(jù)本申請的基于人工智能構(gòu)建評論圖譜的裝置的一個實施例的示例性結(jié)構(gòu)圖;
圖5是適于用來實現(xiàn)本申請實施例的終端設備或服務器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋相關發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關發(fā)明相關的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本申請。
圖1示出了根據(jù)本申請的基于人工智能構(gòu)建評論圖譜的方法的一個實施例的流程100。該基于人工智能構(gòu)建評論圖譜的方法包括:
在步驟110中,基于網(wǎng)絡頁面中的評論數(shù)據(jù),確定評論文本。
在本實施例中,網(wǎng)絡頁面是指互聯(lián)網(wǎng)網(wǎng)絡中所使用的頁面,例如微博頁面、論壇(bbs)頁面、互聯(lián)網(wǎng)網(wǎng)頁以及用戶原創(chuàng)內(nèi)容(ugc)等。從海量的互聯(lián)網(wǎng)網(wǎng)頁、微博以及ugc資源中,挖掘出有情感傾向的文本的具體流程如下:首先,利用網(wǎng)絡爬蟲,定向抓取評論類型網(wǎng)頁、新聞資訊評論、bbs及微博等潛在擁有評論數(shù)據(jù)的網(wǎng)站數(shù)據(jù),然后,對網(wǎng)頁內(nèi)容進行提取以及斷句,生成潛在的評論句,然后利用情感傾向性分析技術,選擇出有情感傾向的句子,即為挖掘的評論文本。
在步驟120中,根據(jù)評論文本中的特征,識別評論文本中的評論主體和評論觀點。
在本實施例中,網(wǎng)頁中挖掘的評論文本,大部分是網(wǎng)民的ugc評論,這些數(shù)據(jù)都是無結(jié)構(gòu)的數(shù)據(jù),也就是機器根本不知道這些句子的評論對象和評論觀點是什么,因此需要識別評論主體和識別評論觀點。
在識別評論主體和評論觀點時,可以采用現(xiàn)有技術或未來發(fā)展的技術中的語義識別技術,本申請對此不做限定。例如,可以基于隱馬爾可夫模型(hiddenmarkovmodel,hmm)、最大熵馬爾可夫模型(maximumentropymarkovmodel,memm)以及條件隨機場(conditionalrandomfield,crf)等模型來識別評論主體和評論觀點。
具體地,以crf為例,crf模型所用到的評論文本中的特征主要可以包括:詞特征、詞性特征、實體特征和句法特征。例如:評論文本“aa篇,蠻好看的!”,其中評論主體是“aa篇”,評論觀點是“蠻好看”;評論文本“我喜歡bbb”,評論主體是“bbb”,評論觀點是“我喜歡”。
在步驟130中,基于評論主體和評論觀點,生成包括評論主體、評論觀點和情感傾向的主體觀點對。
在本實施例中,基于步驟120中識別的評論主體和評論觀點,可以提取包括評論主體、評論觀點和情感傾向的主體觀點對。在此基礎上,還可以增加其它提取主體觀點對的約束條件,例如,可以基于評論主體、評論觀點以及以下三項中的一項或多項:評論文本的篇章信息、共現(xiàn)信息以及實體類型,提取包括評論主體、評論觀點和情感傾向的主體觀點對。這里的篇章信息是指篇幅信息和章節(jié)信息,實體類型是指具有共同要素的實體的集合。
在步驟140中,基于新聞資訊,生成與主體觀點對相關聯(lián)的評論標簽。
在本實施例中,評論標簽(tag)是約束評論的應用環(huán)境的詞的集合。例如:新聞“xxx工作室曬xxx床照,但網(wǎng)友卻發(fā)現(xiàn)了這個秘密”,其中評論:“支持xxx,從農(nóng)村一步步走到現(xiàn)在真不容易啊,而且不做作,有農(nóng)村那種清新淳樸,不像有的明星太做作了”生成的主體觀點對有:<xxx,支持,+>,<xxx,從農(nóng)村一步步走到現(xiàn)在真不容易,+>,<xxx,不做作,+>,<xxx,有農(nóng)村那種清新淳樸,+>,<xxx,不像有的明星太做作,+>?;谶@些觀點,我們可以生成很多的評論,例如:“支持xxx”,“支持xxx,從農(nóng)村一步步走到現(xiàn)在真不容易呀”,“xxx有農(nóng)村那種清新淳樸,不像有的明星太做作啦”。而這些觀點在什么時候可以用于評價xxx?這就是評論tag的主要作用。因此基于我們的tag標注,這些評論的tag都是“xxx”。因此只要是報道“xxx”的新聞都可以用這些評論來評價。例如新聞“網(wǎng)曝xxx、yyy假戲真做坐實戀情,xxx、yyy戀愛細節(jié)遭扒”,還例如“同樣是吃飯,ttt、xxx被夸真實、ggg卻招黑”。
在步驟150中,基于評論標簽和主體觀點對,生成評論圖譜。
在本實施例中,評論圖譜的構(gòu)建,主要是把評論的標簽以及主體觀點對,存儲成結(jié)構(gòu)化的形式。
在本實施例的一些可選實現(xiàn)方式中,基于評論標簽和評論內(nèi)容,生成評論圖譜包括:將評論標簽作為評論圖譜的標簽節(jié)點;將主體觀點對作為評論圖譜的評論節(jié)點;在標簽節(jié)點和對應標簽節(jié)點的評論節(jié)點之間建立連接關系。
在本實現(xiàn)方式中,可以連接標簽節(jié)點和評論節(jié)點,得到與評論標簽相關聯(lián)的主體觀點對。例如,對于標簽節(jié)點,主要存儲的是評論的tag,以及該tag的一些屬性,屬性可以是類型(包括:動作詞,人名,地名,書名,電影名等)。其中,評論tag是指的有實際意義的詞或者短語,例如專名,名詞,實義動詞等。如:“xxx”,“坐實戀情”,“yyy”等。評論節(jié)點存儲的是具體的評論內(nèi)容,包括:評論主體,評論觀點,以及評論的情感傾向,例如:<xxx,支持,+>,<yyy,帥慘了,+>。連接關系體現(xiàn)為評論圖譜中標簽節(jié)點和評論節(jié)點之間的邊。標簽節(jié)點到評論節(jié)點之間的邊主要是指對應的評論可以用來評價對應的標簽。例如:如果某個新聞的標簽包含yyy,我們就可以用<yyy,帥慘了,+>來做出評論,可以生成:yyy真是帥慘了。
進一步地,基于評論標簽和評論內(nèi)容,生成評論圖譜還可以包括:在語義關聯(lián)的評論節(jié)點之間,建立連接關系;和/或在語義相同的標簽節(jié)點之間,建立連接關系。
在這里,評論節(jié)點與評論節(jié)點之間的邊主要是描述評論節(jié)點與評論節(jié)點之間的關系,目前包括:同義關系可以替換使用,反義關系是評論相同屬性的相反的觀點。標簽節(jié)點與標簽節(jié)點之間的邊主要描述tag節(jié)點與tag節(jié)點之間的關系,目前主要有同義關系。
本申請的上述實施例提供的基于人工智能構(gòu)建評論圖譜的方法,構(gòu)建的評論圖譜所提供的服務,不再像其它的檢索類評論系統(tǒng)只能覆蓋一部分的新聞資訊,而是基于新聞資訊的特定的點就能產(chǎn)出評論,評論的覆蓋率更高,并且不再像其它的檢索類評論系統(tǒng)一味的照搬相似新聞的評論,并且不知道評論主體和評論內(nèi)容是什么,而是基于情感分析技術,文本理解技術等,做到了評論的理解和再生以及對評論點和評論情感的控制。
基于本申請的上述實施例,在一些可選的實現(xiàn)方式中,基于新聞資訊,生成與主體觀點對相關聯(lián)的評論標簽可以包括:基于新聞資訊,確定新聞標簽;計算新聞標簽與評論文本的相關性;將相關性符合預設閾值的新聞標簽確定為與主體觀點對相關聯(lián)的評論標簽。
在本實現(xiàn)方式中,首先,可以提取新聞中的關鍵詞,作為新聞標簽,用以表征新聞。這里的提取新聞中關鍵詞的方法,可以采用多種方法實現(xiàn),例如采用詞頻-逆向文件頻率方法(termfrequency-inversedocumentfrequency,tf-idf)、主題模型(topic-model)、詞語位置加權算法(textrank)或關鍵詞提取算法(rake)等來提取關鍵詞。
之后,可以計算新聞標簽與評論文本的相關性。計算相關性的方法可以采用現(xiàn)有技術或未來發(fā)展的技術中計算相關性的方法,本申請對此不做限定。例如,可以采用基于語義詞典(wordnet)的詞匯相似度算法、采用文本深度表示模型(word2vec)訓練得到詞匯向量計算相似度、采用文檔主題生成模型(lda)訓練得到詞匯向量計算相似度、采用利用新聞聚合器(googlenews)語料得到詞匯相似度模型以及采用預先確定的對應關系數(shù)據(jù)庫等來計算相關性。
進一步地,基于新聞資訊,確定新聞標簽可以包括:根據(jù)新聞資訊中詞語的預定特征,采用權重模型確定詞語的權重;基于詞語的權重和詞語之間的共現(xiàn)特征,確定新聞標簽。
在這里,預定特征可以為基于樣本確定的對于新聞標簽貢獻較大的特征。例如,預定特征可以包括以下一項或者多項:出現(xiàn)次數(shù)、出現(xiàn)位置、詞頻(tf)、逆向文件頻率(idf)、專名類別以及是否出現(xiàn)在標題上。
這里的權重模型,為用于確定某一指標在整體評價中的相對重要程度的模型,例如統(tǒng)計平均模型、變異系數(shù)模型、層次分析模型和客觀權重賦權模型critic(criteriaimportancethoughintercrieriacorrelation)等。
具體地,參考圖2,圖2示出了根據(jù)本申請的基于新聞資訊生成與主體觀點對相關聯(lián)的評論標簽的方法的一個實施例的示意性流程圖。
如圖2所示,該基于新聞資訊生成與主體觀點對相關聯(lián)的評論標簽的方法200包括:
在步驟210中,根據(jù)新聞資訊中詞語的預定特征,采用權重模型確定詞語的權重。
在本實施例中,新聞資訊中詞語的預定特征,可以為基于樣本確定的對于新聞標簽貢獻較大的特征。例如,預定特征可以包括以下一項或者多項:出現(xiàn)次數(shù)、出現(xiàn)位置、詞頻、逆向文件頻率、專名類別以及是否出現(xiàn)在標題上。
在本實施例的一些可選的實現(xiàn)方式中,權重模型根據(jù)以下步驟確定:獲取新聞資訊樣本;根據(jù)新聞資訊樣本中詞語的預定特征,采用支持向量機訓練權重模型。
在本實現(xiàn)方式中,在獲取新聞資訊樣本之后,可以利用詞語的上述預定特征,采用支持向量機(svm)訓練權重模型。
在步驟220中,基于詞語的權重和詞語之間的共現(xiàn)特征,確定新聞標簽。
在本實施例中,可以基于每個詞語的權重,以及詞語之間的共現(xiàn)特征(基于統(tǒng)計的每兩個詞語之間的共現(xiàn)概率,也可以使用語義相似性度量方法(google距離)),篩選出新聞tag,具體就是基于詞的共現(xiàn)數(shù)據(jù)對每個詞的權重進行微調(diào)。對于每個詞的最終打分,除了考慮這個詞的的svm打分,還考慮與這個詞共現(xiàn)的詞的重要性。
在本實施例的一些可選實現(xiàn)方式中,基于新聞資訊,確定新聞標簽還包括:從新聞資訊中抽取事件,事件包括事件類型和事件元素;若事件元素中存在事件元素被選為新聞標簽,則將事件確定為新聞標簽。
在本實現(xiàn)方式中,新聞資訊一般報道的都是特定事件,所謂事件,在自動內(nèi)容抽取(automaticcontentextraction,ace)評測會議中,“事件”被描述為一個動作的發(fā)生或狀態(tài)的變化(ace2005定義了8種事件類別以及33種子類別)。事件包括事件類型和事件元素。例如:新聞“網(wǎng)曝xxx、yyy假戲真做坐實戀情,xxx、yyy戀愛細節(jié)遭扒”,事件為:<坐實戀情,xxx,yyy,none,none>。
如果事件中的某一個元素被選為新聞標簽,則事件整體會作為新聞標簽存在。示例性地,對于新聞“不滿父親家舊房遭強拆,ss地一女子用扁擔砸毀挖掘機獲緩刑”,通過第一步的svm線性模型,會給出文章中每個詞一個分數(shù),例如“強拆:0.873”,“ss:0.371”,“扁擔:0.574”,“緩刑:0.699”,“挖掘機:0.811”,“行為:0.126”……;然后第二步會基于第一步的每個詞的打分,以及詞之間的共現(xiàn)特征(例如:“維權-強拆:0.016”,“被告人-緩刑:0.0078”)去篩選新聞標簽,本文經(jīng)過篩選的新聞標簽有:強拆,挖掘機,緩刑,扁擔,ss,女子,……(為了保證評論標簽的召回,新聞標簽是盡可能的高召回的);基于第二步生成的新聞標簽,對于提取的新聞事件,如果事件相關的詞匯不在新聞標簽中,會補充到新聞標簽中,例如事件:“<砸毀,女子,挖掘機>”,倘若“砸毀”不在新聞標簽中,則把它擴充到新聞標簽中。
在步驟230中,計算新聞標簽與評論文本的相關性。
在本實施例中,計算新聞標簽與評論文本的相關性時,可以采用任意用于計算相關性的方法來計算,例如,可以采用基于語義詞典(wordnet)的詞匯相似度算法、采用文本深度表示模型(word2vec)訓練得到詞匯向量計算相似度、采用文檔主題生成模型(lda)訓練得到詞匯向量計算相似度、利用新聞聚合器(googlenews)語料得到詞匯相似度模型以及預先確定的對應關系數(shù)據(jù)庫等來計算相關性。
在本實施例的一些可選的實現(xiàn)方式中,計算新聞標簽與評論文本的相關性可以包括以下一項或多項:根據(jù)同義詞詞典,計算新聞標簽中的專名或短語與評論主體的相關性;基于預設的專名對應規(guī)則,計算新聞標簽中的專名與評論主體的相關性;基于文本深度表示模型,計算由新聞標簽中的詞語生成的向量與由評論主體生成的向量的相似度;基于文本深度表示模型,計算由事件的詞語生成的向量與由評論觀點生成向量的相似度;基于文本深度表示模型,計算由新聞標簽的詞語生成的向量與由評論文本中除主體和觀點之外的實義詞生成的向量的相似度。
在本實現(xiàn)方式中,新聞tag就是評論tag的候選tag,計算新聞tag與評論文本的相關性,作為下一步評論tag抽取的一維重要特征。
示例性的,可以采用多策略的相關性計算方法,生成評論標簽的標注,包括:
對于評價主體,利用同義對齊找到新聞標簽中和評價主體一致的專名或者短語;同義對齊主要策略為:1)利用同義詞詞典直接匹配;2)基于規(guī)則對專名進行同義對齊,例如:我h->h哥,老h->h哥。因為如果“我h”和“h哥”同時出現(xiàn)在評論和新聞中,那么他們倆是一個實體的概率就非常的高;3)基于文本深度表示模型word2vec對于每一個詞生成一個向量,計算評論主體中的實義詞與新聞標簽的相似度,并設定一個閾值進行篩選。
對于評論文本中的觀點詞,我們會判定觀點是否和特定事件有關,如果相關則把整個事件作為新聞標簽。主要策略就是利用的word2vec計算該觀點詞與新聞標簽的詞之間的相似度,并設定一個閾值進行篩選。
對于評論文本中的除評論主體中的實義詞之外的普通的實義詞,主要策略就是利用的word2vec計算該實義詞與新聞標簽的詞之間的相似度,并設定一個閾值進行篩選。
在步驟240中,將相關性符合預設閾值的新聞標簽確定為與主體觀點對相關聯(lián)的評論標簽。
在本實施例中,在基于上述步驟230得到相關性之后,若相關性符合預設閾值,則可以認為該新聞標簽是與主體觀點對相關聯(lián)的評論標簽。
本申請上述實施例提供的基于新聞資訊生成與主體觀點對相關聯(lián)的評論標簽的方法,通過采用權重模型確定詞語的權重,基于詞語的權重和詞語之間的共現(xiàn)特征,確定新聞標簽,并計算新聞標簽與評論文本的相關性,將相關性符合預設閾值的新聞標簽確定為與主體觀點對相關聯(lián)的評論標簽,確定新聞標簽的準確度較高,且評論標簽與新聞標簽的相關性高,因此確定的評論標簽更為準確。
以下結(jié)合圖3a和圖3b,描述本申請實施例的基于人工智能構(gòu)建評論圖譜的方法的示例性應用場景。
如圖3a所示,圖3a示出了根據(jù)本申請實施例的基于人工智能構(gòu)建評論圖譜的方法的一個應用場景的示例性流程圖。
在圖3a中,首先,對于微博、論壇等社交媒體310、互聯(lián)網(wǎng)原創(chuàng)評論320以及互聯(lián)網(wǎng)網(wǎng)頁庫330,執(zhí)行步驟340;在步驟340中,挖掘與識別評論文本,之后執(zhí)行步驟350;在步驟350中,根據(jù)評論文本中的特征,識別評論主體和評論觀點,之后執(zhí)行步驟360;在步驟360中,基于識別的評論主體和評論觀點,生成包括評論主體、評論觀點和情感傾向的主體觀點對,之后執(zhí)行步驟370;在步驟370中,基于新聞資訊,生成對應主體觀點對的評論標簽,之后執(zhí)行步驟380;在步驟380中,基于主體觀點對和評論標簽,構(gòu)建評論圖譜。
如圖3b所示,圖3b示出了根據(jù)圖3a中應用場景的示意性流程圖構(gòu)建的評論圖譜。
在圖3b中,評論標簽包括評論標簽內(nèi)容,以及該標簽內(nèi)容的一些屬性,例如屬性是類型(包括:動作詞,人名,地名,書名,電影名,等),評論標簽內(nèi)容是指有實際意義的詞或者短語,例如專名,名詞,實義動詞等,例如圖3b中的:“xxx”,“x寶”“坐實戀情”,“yyy”,“y仔”。
主體觀點對包括:評論主體,評論觀點以及評論的情感傾向,例如圖3b中的:<xxx,支持,+>,<xxx,真美,+>,<xxx,好漂亮,+>,<xxx,清新淳樸,+>,<xxx,不做作,+>,<xxx和yyy,天生一對,+>,<娛記,就知道關注明星戀情,->,<yyy,不要zzz了嗎,+>,<yyy,帥慘了,+>。
在圖3b構(gòu)建的評論圖譜中,建立了評論標簽到評論節(jié)點的連接邊,包括:“xxx”至<xxx,支持,+>,“xxx”至<xxx,真美,+>,“xxx”至<xxx,好漂亮,+>,“xxx”至<xxx,清新淳樸,+>,“xxx”至<xxx,不做作,+>,“xxx”至<xxx和yyy,天生一對,+>這6個連接邊。
在圖3b構(gòu)建的評論圖譜中,還建立了評論節(jié)點與評論節(jié)點之間的連接邊,包括:<xxx,真美,+>至<xxx,好漂亮,+>這一同義關系的連接邊,同義關系即可以替換使用。
在圖3b構(gòu)建的評論圖譜中,還建立了評論標簽節(jié)點與評論標簽節(jié)點之間的連接邊,包括:“xxx”至“x寶”這一同義關系的連接邊,以及“yyy”至“y仔”這一同義關系的連接邊,同義關系即可以替換使用。
本申請的上述應用場景中提供的基于人工智能構(gòu)建評論圖譜的方法,在對外提供評論時,提高了評論的針對性、精準性以及對評論情感的控制,并且由于構(gòu)建評論圖譜的來源豐富,覆蓋面廣,因此向外提供的評論也反映大多數(shù)評論意見,提升了評論圖譜的適用范圍。
本申請實施例還提供了一種生成新聞評論的方法,方法包括:根據(jù)新聞資訊中詞語的預定特征,采用權重模型確定詞語的權重;基于詞語的權重和詞語之間的共現(xiàn)特征,確定新聞標簽;基于新聞標簽以及根據(jù)如上任意一項的基于人工智能構(gòu)建評論圖譜的方法構(gòu)建的評論圖譜,確定評論圖譜中對應新聞標簽的主體觀點對;基于確定的主體觀點對,生成新聞評論。
在本實施例中,在基于新聞標簽以及根據(jù)如上任意一項的基于人工智能構(gòu)建評論圖譜的方法構(gòu)建的評論圖譜,確定評論圖譜中對應新聞標簽的主體觀點對時,若評論圖譜中包括的評論標簽與本實施例中確定的新聞標簽相對應,則認為與該評論標簽對應的主體觀點對也與該新聞標簽相對應。
應當理解,生成新聞評論的方法的實施例中基于人工智能構(gòu)建評論圖譜的方法與圖1至圖3b所示的基于人工智能構(gòu)建評論圖譜的方法的實施例相對應,由此,上文針對圖1至圖3b中基于人工智能構(gòu)建評論圖譜的方法描述的操作和特征同樣適用于生成新聞評論的方法的實施例中基于人工智能構(gòu)建評論圖譜的方法,在此不再贅述。
本申請上述實施例提供的生成新聞評論的方法,提高了評論的針對性、精準性以及對評論情感的控制,并且由于構(gòu)建評論圖譜的來源豐富,覆蓋面廣,因此向外提供的評論也反映大多數(shù)評論意見,提升了評論圖譜的適用范圍。
進一步參考圖4,作為對上述方法的實現(xiàn),本申請實施例提供了一種基于人工智能構(gòu)建評論圖譜的裝置的一個實施例,該基于人工智能構(gòu)建評論圖譜的方法的實施例與圖1至圖3b所示的基于人工智能構(gòu)建評論圖譜的方法的實施例相對應,由此,上文針對圖1至圖3b中基于人工智能構(gòu)建評論圖譜的方法描述的操作和特征同樣適用于基于人工智能構(gòu)建評論圖譜的裝置400及其中包含的單元,在此不再贅述。
如圖4所示,該配置基于人工智能構(gòu)建評論圖譜的裝置400包括:裝置包括:評論文本確定單元410,用于基于網(wǎng)絡頁面中的評論數(shù)據(jù),確定評論文本;主體觀點識別單元420,用于根據(jù)評論文本中的特征,識別評論文本中的評論主體和評論觀點;主體觀點對生成單元430,用于基于評論主體和評論觀點,生成包括評論主體、評論觀點和情感傾向的主體觀點對;評論標簽生成單元440,用于基于新聞資訊,生成與主體觀點對相關聯(lián)的評論標簽;評論圖譜生成單元450,用于基于評論標簽和主體觀點對,生成評論圖譜。
在本實施例的一些可選實現(xiàn)方式中,主體觀點對生成單元進一步用于:基于評論主體、評論觀點以及以下三項中的一項或多項:評論文本的篇章信息、共現(xiàn)信息以及實體類型,提取包括評論主體、評論觀點和情感傾向的主體觀點對。
在本實施例的一些可選實現(xiàn)方式中(圖中未示出),評論標簽生成單元包括:新聞標簽確定單元,用于基于新聞資訊,確定新聞標簽;相關性計算單元,用于計算新聞標簽與評論文本的相關性;評論標簽確定單元,用于將相關性符合預設閾值的新聞標簽確定為與主體觀點對相關聯(lián)的評論標簽。
在本實施例的一些可選實現(xiàn)方式中(圖中未示出),新聞標簽確定單元包括:詞語權重確定子單元,用于根據(jù)新聞資訊中詞語的預定特征,采用權重模型確定詞語的權重;新聞標簽確定子單元,用于基于詞語的權重和詞語之間的共現(xiàn)特征,確定新聞標簽。
在本實施例的一些可選實現(xiàn)方式中,詞語權重確定子單元中的權重模型根據(jù)以下步驟確定:獲取新聞資訊樣本;根據(jù)新聞資訊樣本中詞語的預定特征,采用支持向量機訓練權重模型。
在本實施例的一些可選實現(xiàn)方式中(圖中未示出),新聞標簽確定單元還包括:新聞事件抽取子單元,用于從新聞資訊中抽取事件,事件包括事件類型和事件元素;新聞事件確定子單元,用于若事件元素中存在事件元素被選為新聞標簽,則將事件確定為新聞標簽。
在本實施例的一些可選實現(xiàn)方式中,相關性計算單元進一步用于以下一項或多項:根據(jù)同義詞詞典,計算新聞標簽中的專名或短語與評論主體的相關性;基于預設的專名對應規(guī)則,計算新聞標簽中的專名與評論主體的相關性;基于文本深度表示模型,計算由新聞標簽中的詞語生成的向量與由評論主體生成的向量的相似度;基于文本深度表示模型,計算由事件的詞語生成的向量與由評論觀點生成向量的相似度;基于文本深度表示模型,計算由新聞標簽的詞語生成的向量與由評論文本中除主體和觀點之外的實義詞生成的向量的相似度。
在本實施例的一些可選實現(xiàn)方式中(圖中未示出),評論圖譜生成單元包括:標簽節(jié)點確定單元,用于將評論標簽作為評論圖譜的標簽節(jié)點;評論節(jié)點確定單元,用于將主體觀點對作為評論圖譜的評論節(jié)點;標簽評論連接單元,用于在標簽節(jié)點和對應標簽節(jié)點的評論節(jié)點之間建立連接關系。
在本實施例的一些可選實現(xiàn)方式中(圖中未示出),評論圖譜生成單元還包括:關聯(lián)評論連接單元,用于在語義關聯(lián)的評論節(jié)點之間,建立連接關系;和/或同義標簽連接單元,用于在語義相同的標簽節(jié)點之間,建立連接關系。
在本實施例的一些可選實現(xiàn)方式中(圖中未示出),關聯(lián)評論連接單元包括:語義評論連接單元,用于在語義相同和/或語義相反的評論節(jié)點之間,建立連接關系。
本申請實施例還提供了一種生成新聞評論的裝置,裝置包括:裝置包括:詞語權重確定單元,用于根據(jù)新聞資訊中詞語的預定特征,采用權重模型確定詞語的權重;新聞標簽確定單元,用于基于詞語的權重和詞語之間的共現(xiàn)特征,確定新聞標簽;主體觀點對確定單元,用于基于新聞標簽以及根據(jù)如上任意一項的基于人工智能構(gòu)建評論圖譜的裝置構(gòu)建的評論圖譜,確定評論圖譜中對應新聞標簽的主體觀點對;新聞評論生成單元,用于基于確定的主體觀點對,生成新聞評論。
在本實施例中,應當理解,生成新聞評論的裝置中的新聞標簽確定單元,用于對當前需要進行評論的新聞資訊生成標簽;而基于人工智能構(gòu)建評論圖譜的裝置中的新聞標簽確定單元,用于對新聞資訊樣本中的新聞資訊生成標簽,兩者的所處理的新聞資訊的對象不同。另外,該生成新聞評論的裝置的實施例,與上述的生成新聞評論的裝置的實施例相對應,由此,上文針對生成新聞評論的方法描述的操作和特征同樣適用于生成新聞評論的裝置及其中包含的單元,在此不再贅述。
本申請還提供了一種設備的實施例,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序;當一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)如上任意一項的基于人工智能構(gòu)建評論圖譜的方法。
本申請還提供了一種計算機可讀存儲介質(zhì)的實施例,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如上任意一項的基于人工智能構(gòu)建評論圖譜的方法。
下面參考圖5,其示出了適于用來實現(xiàn)本申請實施例的終端設備或服務器的計算機系統(tǒng)500的結(jié)構(gòu)示意圖。圖5示出的終端設備僅僅是一個示例,不應對本申請實施例的功能和使用范圍帶來任何限制。
如圖5所示,計算機系統(tǒng)500包括中央處理單元(cpu)501,其可以根據(jù)存儲在只讀存儲器(rom)502中的程序或者從存儲部分508加載到隨機訪問存儲器(ram)503中的程序而執(zhí)行各種適當?shù)膭幼骱吞幚?。在ram503中,還存儲有系統(tǒng)500操作所需的各種程序和數(shù)據(jù)。cpu501、rom502以及ram503通過總線504彼此相連。輸入/輸出(i/o)接口505也連接至總線504。
以下部件連接至i/o接口505:包括鍵盤、鼠標等的輸入部分506;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分507;包括硬盤等的存儲部分508;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡接口卡的通信部分509。通信部分509經(jīng)由諸如因特網(wǎng)的網(wǎng)絡執(zhí)行通信處理。驅(qū)動器510也根據(jù)需要連接至i/o接口505??刹鹦督橘|(zhì)511,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據(jù)需要安裝在驅(qū)動器510上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分508。
特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質(zhì)上的計算機程序,所述計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分509從網(wǎng)絡上被下載和安裝,和/或從可拆卸介質(zhì)511被安裝。在該計算機程序被中央處理單元(cpu)501執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。
需要說明的是,本申請所述的計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請中,計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機可讀介質(zhì)上包含的程序代碼可以用任何適當?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個單元、程序段、或代碼的一部分,所述單元、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包括評論文本確定單元、主體觀點識別單元、主體觀點對生成單元、評論標簽生成單元和評論圖譜生成單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,評論文本確定單元還可以被描述為“基于網(wǎng)絡頁面中的評論數(shù)據(jù),確定評論文本的單元”。
作為另一方面,本申請還提供了一種非易失性計算機存儲介質(zhì),該非易失性計算機存儲介質(zhì)可以是上述實施例中所述裝置中所包含的非易失性計算機存儲介質(zhì);也可以是單獨存在,未裝配入終端中的非易失性計算機存儲介質(zhì)。上述非易失性計算機存儲介質(zhì)存儲有一個或者多個程序,當所述一個或者多個程序被一個設備執(zhí)行時,使得所述設備:基于網(wǎng)絡頁面中的評論數(shù)據(jù),確定評論文本;根據(jù)評論文本中的特征,識別評論文本中的評論主體和評論觀點;基于所述評論主體和所述評論觀點,生成包括所述評論主體、所述評論觀點和情感傾向的主體觀點對;基于新聞資訊,生成與主體觀點對相關聯(lián)的評論標簽;基于評論標簽和主體觀點對,生成評論圖譜。
以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人員應當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術特征的特定組合而成的技術方案,同時也應涵蓋在不脫離上述發(fā)明構(gòu)思的情況下,由上述技術特征或其等同特征進行任意組合而形成的其它技術方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術特征進行互相替換而形成的技術方案。