一種基于社交媒體計(jì)算的金融行為分析系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng),其特征在于,系統(tǒng)包括三大類模塊:爬蟲、數(shù)據(jù)庫及索引和分析器,爬蟲主要負(fù)責(zé)數(shù)據(jù)采集,數(shù)據(jù)庫分為兩部分,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),根據(jù)采集的數(shù)據(jù)信息,在建立索引時(shí),對(duì)每個(gè)用戶和每條微博設(shè)定一個(gè)全局ID,以此來對(duì)不同數(shù)據(jù)庫中的信息進(jìn)行對(duì)齊和檢索,分析器是系統(tǒng)的核心,包括6個(gè)子模塊,分別是:話題分析、實(shí)體識(shí)別、動(dòng)作識(shí)別、消息跟蹤、情感分析和社區(qū)聚類分析。本發(fā)明所述的一種基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng)能夠有效、準(zhǔn)確地收集到用戶信息,從而對(duì)用戶數(shù)據(jù)進(jìn)行較為完整的歸檔、整理,建立用戶信息庫,根據(jù)用戶的信息庫給用戶提供用戶關(guān)注的消息推送。
【專利說明】一種基于社交媒體計(jì)算的金融行為分析系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng),所屬計(jì)算機(jī)軟件應(yīng)用領(lǐng)域。
【背景技術(shù)】
[0002]隨著Web2.0的發(fā)展,越來越多的人們希望能夠在互聯(lián)網(wǎng)上自由的表達(dá)自己的觀點(diǎn)。這些觀點(diǎn)可以是發(fā)表或轉(zhuǎn)載一條消息或新聞,或者對(duì)某一條新聞的評(píng)論,也可以是自己的某種情緒的宣泄。傳統(tǒng)的討論版、BBS、博客漸漸無法滿足高速信息的沖擊。在此背景下,微博作為一種新型社交媒體,越來越多的吸引互聯(lián)網(wǎng)上的用戶的關(guān)注,形成了極大的使用粘性和覆蓋率。由此,這些海量具有時(shí)效性的數(shù)據(jù)帶來了巨大的機(jī)會(huì)和挑戰(zhàn)。
[0003]首先,大數(shù)據(jù)中蘊(yùn)含大機(jī)會(huì)。華爾街Derwent Capital Markets公司Paul Hawtin利用電腦程序分析全球3.4億Twitter賬戶留言,進(jìn)而判斷民眾情緒,依據(jù)分析結(jié)果決定如何處理手中數(shù)以百萬美元計(jì)的股票。此外,對(duì)沖基金依據(jù)購物網(wǎng)站顧客評(píng)論分析企業(yè)產(chǎn)品銷售狀況;銀行根據(jù)求職網(wǎng)站崗位數(shù)量推斷就業(yè)率;投資機(jī)構(gòu)搜集并分析上市企業(yè)聲明尋找破產(chǎn)原因。美國(guó)總統(tǒng)Obama的競(jìng)選團(tuán)隊(duì)也依據(jù)選情比較關(guān)鍵的各州選民的Twitter留言,實(shí)時(shí)分析選民對(duì)總統(tǒng)競(jìng)選人的喜好;研究人員也試圖通過機(jī)器學(xué)習(xí)的手段來預(yù)測(cè)Twitter上的某個(gè)用戶是民主黨還是共和黨派。Google與美國(guó)疾病控制和預(yù)防中心等機(jī)構(gòu)合作,依據(jù)網(wǎng)民搜索內(nèi)容分析全球范圍內(nèi)流感等病疫傳播狀況。聯(lián)合國(guó)機(jī)構(gòu)依據(jù)拉丁美洲超市發(fā)布在互聯(lián)網(wǎng)的促銷廣告,判斷通貨膨脹走勢(shì)等等?;ヂ?lián)網(wǎng)社交媒體中蘊(yùn)含著大量具有價(jià)值的信息和資源,能夠自動(dòng)從中識(shí)別發(fā)現(xiàn)這些資源將會(huì)帶來大量的新的產(chǎn)業(yè)和機(jī)會(huì)。
[0004]第二,海量數(shù)據(jù)以及由于微博的發(fā)表字?jǐn)?shù)限制和時(shí)效性,對(duì)數(shù)據(jù)分析和處理提出了很大的挑戰(zhàn)。Twitter,Facebook,Google和Bing每天都產(chǎn)生數(shù)百至數(shù)千Terabyte的數(shù)據(jù),如何有效的處理這些數(shù)據(jù)對(duì)數(shù)據(jù)分析提出了巨大的挑戰(zhàn)。大量的信息通過文本、圖像、聲音被記錄下來,因此有效的分析和翻譯并形成機(jī)器能夠讀懂的內(nèi)容成為了計(jì)算機(jī)科學(xué)家最關(guān)注的問題之一。特別的,互聯(lián)網(wǎng)中的信息有80%都來自于文本。因此,機(jī)器閱讀和理解越來越為人們所關(guān)注。例如,CMU機(jī)器學(xué)習(xí)系的創(chuàng)始人Tom Mitchell教授于2010年1月發(fā)起了一個(gè)機(jī)器閱讀的項(xiàng)目:Never ending language learning (NELL),其目的就在于從互聯(lián)網(wǎng)上大量的文本中自動(dòng)抽取有用的知識(shí)。
[0005]對(duì)于微博中發(fā)表的短文本,相對(duì)于傳統(tǒng)的長(zhǎng)文分析更加困難。短文本的寫法更加隨意和模糊。因此如何從短文本中抽取有用的信息和知識(shí),甚至用戶的情感、觀點(diǎn)則更為困難。同時(shí),更具有時(shí)效性,我們不能保存所有的信息。因此,必要的信息抽取和整合可以帶來更有效的存儲(chǔ)和檢索效率。
_6] 互聯(lián)網(wǎng)數(shù)據(jù)挖掘
[0007]在文本中,我們可以根據(jù)討論內(nèi)容的級(jí)別和模式,將其歸結(jié)為話題、實(shí)體、行動(dòng)和消息幾類。
[0008]話題是最上層的表達(dá)形式。新聞、博客和微博可以對(duì)某一個(gè)特定的事件進(jìn)行討論。如iphone的大賣、美國(guó)總統(tǒng)大選、方舟子和韓寒的熱議、三鹿奶粉三聚氰胺事件等等,都可以引發(fā)微博的討論、評(píng)論和轉(zhuǎn)載。對(duì)于這類問題,如果能夠及時(shí)從大量文本中找到大眾關(guān)注的問題并統(tǒng)計(jì)相關(guān)熱度,則可以幫助我們識(shí)別用戶的關(guān)注熱點(diǎn)。
[0009]實(shí)體是語言表達(dá)中的基本元素,常見的如人名、地名、公司名等等。在金融領(lǐng)域,我們還關(guān)心關(guān)鍵的時(shí)間、地點(diǎn)、股票名稱、漲幅百分比、債券利率、投入產(chǎn)出資金數(shù)量等等。對(duì)于某個(gè)特定的金融產(chǎn)品,我們關(guān)注其相關(guān)的人(如CE0,董事會(huì)成員,具有關(guān)鍵技術(shù)的人等)、產(chǎn)品、上下游產(chǎn)業(yè)相應(yīng)的公司等等。只有快速準(zhǔn)確的挖掘出實(shí)體,我們才能更加有效地進(jìn)行進(jìn)一步的分析,如相應(yīng)話題熱度和股票相關(guān)性、人們的情緒情感和某支股票的相關(guān)度等等。
[0010]行動(dòng)在此被定義為實(shí)體之間的關(guān)系。如“蘋果公司換CE0”,“某化工廠發(fā)生爆炸”,“日本海嘯”等等。行動(dòng)由三元組組成:它具有一個(gè)主體,如“蘋果公司”;具有一個(gè)目標(biāo),如“CEO” ;并用一個(gè)動(dòng)詞將兩個(gè)實(shí)體聯(lián)系起來。行動(dòng)既可以刻畫某個(gè)關(guān)鍵的事件,又可以刻畫互聯(lián)網(wǎng)上大眾的一種集體行為。比如,互聯(lián)網(wǎng)上有很多很多的人表達(dá)自己的意愿,像“我想買一個(gè)iphone”,“我想買一個(gè)ipad”,“我覺得一個(gè)朋友的手機(jī)很好看”等等。如果能夠把人們?cè)谙嚓P(guān)領(lǐng)域的意愿總結(jié)出來,則可以更加清晰地通過研究互聯(lián)網(wǎng)上的動(dòng)態(tài)來研究大眾的消費(fèi)和經(jīng)濟(jì)行為。
[0011]消息(Meme)在此被定義為“被不停轉(zhuǎn)載的一小段話”。在微博中,有大量的時(shí)效性新聞、評(píng)論、名人名言、哲理性的語言,甚至某個(gè)有趣的圖片或一段文字被不停地轉(zhuǎn)載。在本項(xiàng)目中,我們更加關(guān)心時(shí)效性的新聞和評(píng)論對(duì)經(jīng)濟(jì)數(shù)據(jù)的反應(yīng)以及反作用。因此,快速統(tǒng)計(jì)并有效地識(shí)別這些不停被轉(zhuǎn)載的新聞和評(píng)論將大大提高分析的效率和效果。
[0012]情感觀點(diǎn)的分類和識(shí)別
[0013]在社交媒體中,人們經(jīng)常會(huì)對(duì)某個(gè)事件表達(dá)自己的觀點(diǎn)。能夠正確識(shí)別這些觀點(diǎn)的傾向和情感,可以更好的分析社會(huì)網(wǎng)絡(luò)中人們的情緒偏向,以及對(duì)特定事件的集體響應(yīng)。比如,對(duì)三鹿奶粉三聚氰胺事件,大家經(jīng)常會(huì)使用“憤怒”,“道德淪喪”等等詞匯來描述;而對(duì)日本海嘯的消息則可能用“恐怖”,“同情”等詞來描述。另外對(duì)于公司可以用“有創(chuàng)意”,“贏家”,“看好”,“有風(fēng)險(xiǎn)”等詞來描述;而對(duì)某個(gè)公司的名人則用“有領(lǐng)導(dǎo)力”,“羨慕”,“學(xué)習(xí)”,“詐騙”,“困局”等詞來描述。這些詞并不完全是形容詞,但是他們?cè)诓煌瑢哟伪磉_(dá)了人們對(duì)特定的人或事件的情緒和傾向。因此,需要用更多的判別技術(shù)來判斷詞語所表達(dá)的含義。當(dāng)這些情感和觀點(diǎn)通過不同的人匯集到一起時(shí),則代表了市場(chǎng)或者社會(huì)輿論的整體傾向性。在社區(qū)媒體中,我們需要更多的在集體(population)層次上對(duì)這些情感進(jìn)行分析、判斷甚至預(yù)測(cè)。
[0014]微博中社區(qū)聚類分析
[0015]對(duì)于社交媒體的分析,除了要在文本層次上對(duì)其進(jìn)行話題、實(shí)體、消息、行為和他們相關(guān)的情感觀點(diǎn)進(jìn)行挖掘,還要在不同層面上對(duì)其進(jìn)行總結(jié)和歸納。其中一個(gè)重要的方面就是要對(duì)社交媒體中的社區(qū)(community)進(jìn)行分析。社區(qū)可以是在某個(gè)特定地理位置上的人群,也可以是具有相同工作性質(zhì)的人群,也可以是具有共同興趣話題的人群。對(duì)于微博這個(gè)新興的特定社交媒體,地理位置和相同的興趣的人群顯得更為重要。這些人群中的人會(huì)相互影響,他們的觀點(diǎn)也會(huì)帶有集群效應(yīng)。對(duì)不同地區(qū)或具有相同興趣愛好的人區(qū)別分析,將會(huì)提供更加細(xì)分的行為分析結(jié)果。對(duì)于具有相同興趣的的人群進(jìn)行分析,也可以精確地組織分析的結(jié)果。例如,在三聚氰胺事件發(fā)生的時(shí)間段內(nèi),對(duì)于共同關(guān)注這個(gè)事件的人群進(jìn)行分析,可以濾掉很多關(guān)于三聚氰胺的其他事件的噪音。另外,將關(guān)注這一事件的人平時(shí)關(guān)注的話題進(jìn)行剖析,可以更加詳細(xì)的分析是哪類人傾向于對(duì)這類事件進(jìn)行討論。
[0016]微博用戶行為分析的可行性分析
[0017]下面,我們先來簡(jiǎn)單介紹一下國(guó)內(nèi)股票市場(chǎng)的參與者和微博的參與者,進(jìn)而簡(jiǎn)要分析一下微博用戶金融行為分析的可行性。
[0018]?市場(chǎng)參與者
[0019]中國(guó)股票市場(chǎng)的參與者多為中小投資者。根據(jù)2002年的統(tǒng)計(jì),A股市場(chǎng)的投資者僅20%以下為機(jī)構(gòu)投資者,而B股的海外投資者的資產(chǎn)總量不到A股的2.5%。據(jù)2012年4月中國(guó)證券登記結(jié)算公司統(tǒng)計(jì)數(shù)據(jù)顯示最新的統(tǒng)計(jì),流通市值在10萬元以下的賬戶比例高達(dá)85%,而市值在50萬元以下的賬戶比例更是超過97%。相比之下,1996年到2002年數(shù)據(jù)顯示,日本和美國(guó)市場(chǎng)的 機(jī)構(gòu)投資者數(shù)量穩(wěn)定在開戶總數(shù)量的40%-50%。正是由于大量的散戶和中小投資者在市場(chǎng)中的比重過大,A股市場(chǎng)表現(xiàn)的更為波動(dòng)劇烈,一個(gè)或多個(gè)個(gè)體的行為對(duì)整個(gè)市場(chǎng)的影響相對(duì)較小,市場(chǎng)表現(xiàn)為集群的效應(yīng),大眾情緒也更偏向于非理性。
[0020]籲微博參與者
[0021]隨著互聯(lián)網(wǎng)的不斷發(fā)展和上網(wǎng)觀念日漸深入人心,越來越多的人選擇使用快捷方便的互聯(lián)網(wǎng)社區(qū)交換、分享信息和心情。微博在此大環(huán)境下應(yīng)運(yùn)而生。截止到2011年3月份,僅新浪和騰訊微博就各擁有1億以上的用戶。在這些用戶中,有大量的用戶希望表達(dá)自己的觀點(diǎn)。如圖1所示,有46.4%的用戶會(huì)非常愿意表達(dá)自己的觀點(diǎn)和情感,閱讀他人微博;有16.2%的用戶會(huì)跟蹤他人的微博,并參與討論;有16.4%的用戶不太跟蹤他人微博,但樂于對(duì)熱點(diǎn)問題進(jìn)行討論;還有21%的用戶并不發(fā)表文章,但會(huì)閱讀他人微博。可見,在微博上,用戶的活躍度是非常高的,有80%的用戶會(huì)或多或少參與討論,與其他人發(fā)生聯(lián)系。有統(tǒng)計(jì)顯示,89.4%的用戶愿意給自己的好友推薦朋友;有47%的用戶會(huì)轉(zhuǎn)發(fā)(Re-tweet)微博。在如此強(qiáng)大的用戶基礎(chǔ)上,可以說微博上的用戶行為時(shí)時(shí)刻刻反映著中國(guó)社會(huì)經(jīng)濟(jì)活動(dòng)的方方面面。
[0022]另據(jù)數(shù)據(jù)顯示,用戶所發(fā)微博中,有12.1%為實(shí)效新聞;有15.3%為有較好內(nèi)容信息;有26.8%為笑話和幽默信息;有27.4%為名人名言。在所有用戶中,1970年左右出生的用戶有38%關(guān)注金融相關(guān)的新聞;1980年左右出生的用戶有33.9%關(guān)注金融新聞;1990年出生的用戶有22.8%關(guān)注金融新聞??梢姡绾螐奈⒉┲杏行У赝诰蚪鹑谙嚓P(guān)的新聞和消息,將會(huì)產(chǎn)生非常大的經(jīng)濟(jì)和社會(huì)價(jià)值。
[0023]?市場(chǎng)有效性和行為金融學(xué)
[0024]新古典主義金融學(xué)奉行市場(chǎng)有效性假說。例如,認(rèn)為市場(chǎng)上的股票價(jià)格反映了其內(nèi)在價(jià)值,價(jià)格的波動(dòng)是完全隨機(jī)的。然而,后來興起的行為金融學(xué)則認(rèn)為,證券的市場(chǎng)價(jià)格并不只由證券內(nèi)在價(jià)值所決定,還在很大程度上受到投資者主體行為的影響,即投資者心理與行為對(duì)證券市場(chǎng)的價(jià)格決定及其變動(dòng)具有重大影響。行為金融學(xué)不僅懷疑并揭示了市場(chǎng)有效假設(shè)的局限性,并且強(qiáng)調(diào)市場(chǎng)的情緒對(duì)市場(chǎng)行為的影響。目前,越來越多的對(duì)沖基金使用計(jì)算機(jī)讀取新聞數(shù)據(jù)并進(jìn)行交易?;邶嫶蟮漠a(chǎn)業(yè)和需求,彭博社、道瓊斯和湯森路透等新聞機(jī)構(gòu)都已經(jīng)接受了用計(jì)算機(jī)軟件來獲取數(shù)據(jù)的想法,并已開始提供服務(wù),來幫助華爾街客戶自動(dòng)篩選新聞。
[0025]近年來,隨著社交媒體的日益發(fā)展,人們的行為和情緒以及對(duì)時(shí)效新聞的觀點(diǎn)看法越來越多并越來越快的反映在諸如Facebook、Twitter、ffeibo等社交媒體中。華爾街敏感的嗅覺也引導(dǎo)相應(yīng)的交易公司把目光轉(zhuǎn)向了社交媒體。據(jù)金融服務(wù)顧問公司Aite Group統(tǒng)計(jì)2009年有35%的專業(yè)交易公司專業(yè)性的使用社交媒體作為幫助其決策的手段之一。隨著市場(chǎng)的發(fā)展和演化,2011年使用社交媒體的公司比例增長(zhǎng)到46%。其中有19% (2009年為36%)的交易公司認(rèn)為社交媒體可以有效追蹤市場(chǎng)情緒;9% (2009年為21%)的交易公司宣稱他們使用了社交媒體幫助他們區(qū)分和其他公司的不同;另外,6% (2009年為16%)的公司稱社交媒體幫助他們提升了業(yè)績(jī)。雖然2011年數(shù)據(jù)顯示,使用社交媒體的交易公司中認(rèn)為能夠從中發(fā)現(xiàn)新的觀點(diǎn)或能提升公司業(yè)績(jī)的比例較2009年有所減少,但社交媒體中的信息已經(jīng)越來越為更多公司所了解和使用,進(jìn)而不構(gòu)成區(qū)分某個(gè)或某類專業(yè)交易公司的標(biāo)志之一。在此背景下,正確的提取和使用社交媒體也顯得更為的重要,同時(shí),也蘊(yùn)含著大量的產(chǎn)生經(jīng)濟(jì)效益的機(jī)會(huì)。
【發(fā)明內(nèi)容】
[0026]發(fā)明目的:本發(fā)明的目的是為了解決目前數(shù)據(jù)分析系統(tǒng)的不足,提供一種基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng)。
[0027]技術(shù)方案:本發(fā)明所述的基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng),其目的是這樣實(shí)現(xiàn)的,
[0028]一種基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng),系統(tǒng)主要由三大類模塊組成:爬蟲(Crawler)、數(shù)據(jù)庫及索引(Database/Indexer)、分析器(Analyzer)。
[0029]數(shù)據(jù)采集和處理
[0030]?爬蟲
[0031]爬蟲主要負(fù)責(zé)數(shù)據(jù)采集。數(shù)據(jù)源分為兩部分。第一部分為經(jīng)濟(jì)指標(biāo)和時(shí)間序列。經(jīng)濟(jì)指標(biāo)包括國(guó)家、地方和公司的財(cái)務(wù)數(shù)據(jù)。國(guó)家每月每季度都會(huì)公布關(guān)鍵經(jīng)濟(jì)數(shù)據(jù),這些經(jīng)濟(jì)數(shù)據(jù)可以用來配合人們的評(píng)論在分析社會(huì)經(jīng)濟(jì)行為。相關(guān)時(shí)間序列包括市場(chǎng)主要股票、商品、債券、匯率等金融指數(shù),具體公司的股價(jià)等。國(guó)外主要數(shù)據(jù)源為彭博社(Bloomberg)、道瓊斯(Dow Jones)和湯森路透(Thomson Reuters)等公司;國(guó)內(nèi)包括新浪財(cái)經(jīng)、大智慧和同花順等。
[0032]第二部分為微博數(shù)據(jù)。微博提供API方便用戶進(jìn)行定向抓取。為此,我們需要保持一個(gè)定向抓取列表,包括關(guān)鍵的用戶(及其好友),主要的上市公司,相關(guān)產(chǎn)品,以及經(jīng)濟(jì)活動(dòng)相關(guān)的關(guān)鍵詞等等。對(duì)于微博,還有一類重要的信息,就是用戶、標(biāo)簽(hashtag)和轉(zhuǎn)載之間的鏈接信息。因此,對(duì)于抓取下來的數(shù)據(jù),相關(guān)的鏈接和轉(zhuǎn)載也要包括進(jìn)來。
[0033]?數(shù)據(jù)庫及索引
[0034]數(shù)據(jù)庫分為兩部分,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括重要經(jīng)濟(jì)指標(biāo)、時(shí)間序列、財(cái)務(wù)報(bào)表等。這些數(shù)據(jù)使用MySQL存儲(chǔ)。非結(jié)構(gòu)化數(shù)據(jù)包括微博文本、以及標(biāo)注的話題、實(shí)體等等。這部分信息可以通過Lucene配合MySQL來實(shí)現(xiàn)索引。Lucene擅長(zhǎng)對(duì)文本簡(jiǎn)歷倒排表索引,可以讓我們很容易的檢索到那個(gè)微博發(fā)表了對(duì)某個(gè)關(guān)鍵詞的信息和評(píng)論。MySQL用來對(duì)標(biāo)注的話題、實(shí)體、行動(dòng)和消息進(jìn)行檢索。因此我們可以對(duì)具有相同ID的微博檢測(cè)各種域的信息。
[0035]話題:話題使用標(biāo)號(hào)來建立索引。對(duì)于整體微博數(shù)據(jù),我們給出固定的若干大類信息。對(duì)于每條微博數(shù)據(jù),我們標(biāo)注其類別信息。另外,微博可以屬于多類,因此對(duì)于話題域,我們需要建立一對(duì)多的映射。
[0036]實(shí)體:實(shí)體包括人名、地名、機(jī)構(gòu)名等以及一些常用語中的固定名詞短語。對(duì)于實(shí)體,我們需要標(biāo)注實(shí)體的類別和實(shí)體名稱,并記錄用戶ID和微博ID。
[0037]行動(dòng):對(duì)于行動(dòng),我們需要標(biāo)注三元組信息,即〈主體,動(dòng)作,目標(biāo) >,并記錄用戶ID和微博ID。
[0038]消息:如果是轉(zhuǎn)載的訊息,我們需要存儲(chǔ)其被轉(zhuǎn)載的用戶ID,微博ID等。
[0039]根據(jù)以上信息,在建立索引時(shí),我們對(duì)每個(gè)用戶和每條微博設(shè)定一個(gè)全局ID,以此來對(duì)不同數(shù)據(jù)庫中的信息進(jìn)行對(duì)齊和檢索。
[0040]?分析器
[0041]分析器是系統(tǒng)的核心,包括6個(gè)子模塊,分別是:話題分析、實(shí)體識(shí)別、動(dòng)作識(shí)別、消息跟蹤、情感分析和社區(qū)聚類分析。
[0042]話題分析是上層較為粗糙的語義分析。話題是多角度多層次的多標(biāo)簽的分類問題。我們可以將微博數(shù)據(jù)分類成經(jīng)濟(jì)、政治、體育、娛樂、教育等;也可以將新聞消息分為國(guó)內(nèi)或國(guó)外新聞。據(jù)此可以將與經(jīng)濟(jì)社會(huì)活動(dòng)相關(guān)的微博篩選出來。我們可以將經(jīng)濟(jì)類微博數(shù)據(jù)進(jìn)一步分類成宏觀經(jīng)濟(jì)分析評(píng)論、股票分析、公司評(píng)論等等。另外,我們還可以對(duì)某一個(gè)特定的話題進(jìn)行劃分,例如找出三聚氰胺事件、日本海嘯事件相關(guān)的微博等等。
[0043]實(shí)體分析和行動(dòng)分析是較為細(xì)的一種語義分析。我們對(duì)每條微博進(jìn)行實(shí)體和語義分析,檢測(cè)實(shí)體的同義詞以及動(dòng)作的聚類。在此基礎(chǔ)上我們可以給出相應(yīng)實(shí)體和動(dòng)作的的頻率組成的時(shí)間序列,這些時(shí)間序列構(gòu)成我們未來數(shù)據(jù)服務(wù)和專家系統(tǒng)的基礎(chǔ)。
[0044]對(duì)于不停轉(zhuǎn)載的消息,我們首先可以把消息轉(zhuǎn)載的次數(shù)組織成時(shí)間序列;其次,我們將不停轉(zhuǎn)載這個(gè)消息的用戶構(gòu)成的帶有時(shí)序的子圖存儲(chǔ)起來,便于未來分析互聯(lián)網(wǎng)中興趣的遷移和演化。
[0045]情感分析用來識(shí)別語言中的帶有情感的詞匯,我們可以把這個(gè)模塊輸出的結(jié)果和其他模塊組合起來,實(shí)現(xiàn)具有聚集意義的情感分析。
[0046]社區(qū)聚類分析提供用戶聚類。聚類可根據(jù)不同的語義和語境,也可以根據(jù)用戶之間的好友連接和轉(zhuǎn)載連接進(jìn)行分析。不同的聚類給予人們對(duì)數(shù)據(jù)認(rèn)識(shí)的不同側(cè)面。我們的聚類模塊將很容組裝和拆卸。
[0047]數(shù)據(jù)服務(wù)和專家系統(tǒng)
[0048]我們不僅提供上述數(shù)據(jù)抓取、分析的技術(shù),而且會(huì)基于這些分析出來的數(shù)據(jù)提供一些服務(wù)。我們的系統(tǒng)中的數(shù)據(jù)服務(wù)和專家系統(tǒng)為用戶提供了更為專業(yè)的知識(shí)和信息推送。我們?cè)诖嗽敿?xì)介紹這部分的具體功能。
[0049]?數(shù)據(jù)服務(wù)
[0050]數(shù)據(jù)服務(wù)包括以下幾個(gè)方面的內(nèi)容。
[0051]市場(chǎng)情緒指數(shù):我們通過對(duì)每天所有跟社會(huì)經(jīng)濟(jì)活動(dòng)相關(guān)的微博進(jìn)行情感分析,得到一個(gè)市場(chǎng)情緒指數(shù),并每天進(jìn)行公布,以提高影響力。
[0052]關(guān)鍵事件檢測(cè):對(duì)微博中關(guān)鍵事件,尤其是突發(fā)事件進(jìn)行檢測(cè),為用戶第一時(shí)間提供預(yù)警和提醒。
[0053]人物活躍度、關(guān)鍵人物挖掘:基于對(duì)話題和事件的挖掘?qū)ζ渲杏懻撝凶罨钴S的人進(jìn)行挖掘。通過發(fā)文統(tǒng)計(jì),文章被轉(zhuǎn)載和回復(fù)熱度等頻率的統(tǒng)計(jì)來給出熱點(diǎn)人物的排名。
[0054]用戶信息統(tǒng)計(jì)和預(yù)測(cè):年齡、性別、興趣、位置:對(duì)于在話題中出現(xiàn)的所有人進(jìn)行不同側(cè)面屬性的統(tǒng)計(jì)。有些信息我們可以通過開放平臺(tái)中的接口獲得,有些屬性我們可以通過每個(gè)用戶的發(fā)文內(nèi)容進(jìn)行挖掘和預(yù)測(cè)。
[0055]時(shí)間序列相關(guān)性分析:對(duì)于話題、實(shí)體、動(dòng)作和消息,以及他們相應(yīng)的情感指數(shù),我們都可以建立一個(gè)時(shí)間序列。這些時(shí)間序列和重要的經(jīng)濟(jì)指標(biāo)、股票及其指數(shù)之間可以挖掘出一些相關(guān)性。我們提供用戶指數(shù)或者某只股票最相關(guān)的文本時(shí)間序列以供分析。
[0056]網(wǎng)絡(luò)演化分析:對(duì)于不同話題,我們給出不同的網(wǎng)絡(luò)演化分析,例如網(wǎng)絡(luò)大小,結(jié)構(gòu)的統(tǒng)計(jì)特性等等。這些網(wǎng)絡(luò)演化結(jié)果也可以用來幫助用戶對(duì)互聯(lián)網(wǎng)的社會(huì)經(jīng)濟(jì)行為分析時(shí)有效獲取到有用的信息。
[0057]?專家系統(tǒng)
[0058]專家系統(tǒng)是集合了我們所有分析技術(shù)給出的一系列建議和解決方案。在此,我們給出三個(gè)具體的例子。
[0059]股市多空判斷:我們通過對(duì)歷史數(shù)據(jù)的統(tǒng)計(jì),可以得到那些關(guān)鍵的實(shí)體、行動(dòng)、消息以及他們相關(guān)的情感會(huì)和股市的運(yùn)動(dòng)產(chǎn)生相關(guān)性。比如,股票指數(shù)本身代表了市場(chǎng)的情緒,微博上人們發(fā)文的情緒在某種意義上也反映了大眾對(duì)市場(chǎng)的態(tài)度。因此如果很多人在微博上看多大市,那么股市有多大的概率上漲可以通過歷史數(shù)據(jù)計(jì)算出來,進(jìn)而可以給用戶一些投資建議。
[0060]盤后實(shí)事自動(dòng)分析:對(duì)于當(dāng)天收盤以后的結(jié)果進(jìn)行分析,通過挖掘歷史數(shù)據(jù),找到有可能影響當(dāng)天走勢(shì)的關(guān)鍵事件。例如“蘋果換CEO”以及人們對(duì)新CEO的評(píng)價(jià);又如“日本發(fā)生海嘯”以及相應(yīng)的情感指數(shù)等等,都可以作為總結(jié)當(dāng)天走勢(shì)的事件供用戶分析。
`[0061]網(wǎng)絡(luò)熱議分析:對(duì)于網(wǎng)絡(luò)熱議的話題進(jìn)行分析和預(yù)測(cè)。例如雙方爭(zhēng)論某個(gè)熱點(diǎn)問題,進(jìn)而判斷雙方的情感指數(shù)、哪方會(huì)贏的預(yù)測(cè)等等。例如:對(duì)“小米手機(jī)發(fā)布”事件進(jìn)行分析,預(yù)測(cè)雙方論點(diǎn)以及小米手機(jī)是否會(huì)成功。
[0062]有益效果:本發(fā)明所述的一種基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng)能夠有效、準(zhǔn)確地收集到用戶信息,從而對(duì)用戶數(shù)據(jù)進(jìn)行較為完整的歸檔、整理,建立用戶信息庫,根據(jù)用戶的信息庫給用戶提供用戶關(guān)注的消息推送。
【具體實(shí)施方式】
[0063]為了加深對(duì)本發(fā)明的理解,下面將結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳述,該實(shí)施例僅用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限定。
[0064]本發(fā)明所述的基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng),系統(tǒng)主要由三大類模塊組成:爬蟲(Crawler)、數(shù)據(jù)庫及索引(Database/Indexer)、分析器(Analyzer)。
[0065]數(shù)據(jù)采集和處理
[0066]?爬蟲
[0067]爬蟲主要負(fù)責(zé)數(shù)據(jù)采集。數(shù)據(jù)源分為兩部分。第一部分為經(jīng)濟(jì)指標(biāo)和時(shí)間序列。經(jīng)濟(jì)指標(biāo)包括國(guó)家、地方和公司的財(cái)務(wù)數(shù)據(jù)。國(guó)家每月每季度都會(huì)公布關(guān)鍵經(jīng)濟(jì)數(shù)據(jù),這些經(jīng)濟(jì)數(shù)據(jù)可以用來配合人們的評(píng)論在分析社會(huì)經(jīng)濟(jì)行為。相關(guān)時(shí)間序列包括市場(chǎng)主要股票、商品、債券、匯率等金融指數(shù),具體公司的股價(jià)等。國(guó)外主要數(shù)據(jù)源為彭博社(Bloomberg)、道瓊斯(Dow Jones)和湯森路透(Thomson Reuters)等公司;國(guó)內(nèi)包括新浪財(cái)經(jīng)、大智慧和同花順等。
[0068]第二部分為微博數(shù)據(jù)。微博提供API方便用戶進(jìn)行定向抓取。為此,我們需要保持一個(gè)定向抓取列表,包括關(guān)鍵的用戶(及其好友),主要的上市公司,相關(guān)產(chǎn)品,以及經(jīng)濟(jì)活動(dòng)相關(guān)的關(guān)鍵詞等等。對(duì)于微博,還有一類重要的信息,就是用戶、標(biāo)簽(hashtag)和轉(zhuǎn)載之間的鏈接信息。因此,對(duì)于抓取下來的數(shù)據(jù),相關(guān)的鏈接和轉(zhuǎn)載也要包括進(jìn)來。
[0069]?數(shù)據(jù)庫及索引
[0070]數(shù)據(jù)庫分為兩部分,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括重要經(jīng)濟(jì)指標(biāo)、時(shí)間序列、財(cái)務(wù)報(bào)表等。這些數(shù)據(jù)使用MySQL存儲(chǔ)。非結(jié)構(gòu)化數(shù)據(jù)包括微博文本、以及標(biāo)注的話題、實(shí)體等等。這部分信息可以通過Lucene配合MySQL來實(shí)現(xiàn)索引。Lucene擅長(zhǎng)對(duì)文本簡(jiǎn)歷倒排表索引,可以讓我們很容易的檢索到那個(gè)微博發(fā)表了對(duì)某個(gè)關(guān)鍵詞的信息和評(píng)論。MySQL用來對(duì)標(biāo)注的話題、實(shí)體、行動(dòng)和消息進(jìn)行檢索。因此我們可以對(duì)具有相同ID的微博檢測(cè)各種域的信息:
[0071]話題:話題使用標(biāo)號(hào)來建立索引。對(duì)于整體微博數(shù)據(jù),我們給出固定的若干大類信息。對(duì)于每條微博數(shù)據(jù),我們標(biāo)注其類別信息。另外,微博可以屬于多類,因此對(duì)于話題域,我們需要建立一對(duì)多的映射。
[0072]實(shí)體:實(shí)體包括 人名、地名、機(jī)構(gòu)名等以及一些常用語中的固定名詞短語。對(duì)于實(shí)體,我們需要標(biāo)注實(shí)體的類別和實(shí)體名稱,并記錄用戶ID和微博ID。
[0073]行動(dòng):對(duì)于行動(dòng),我們需要標(biāo)注三元組信息,即〈主體,動(dòng)作,目標(biāo) >,并記錄用戶ID和微博ID。
[0074]消息:如果是轉(zhuǎn)載的訊息,我們需要存儲(chǔ)其被轉(zhuǎn)載的用戶ID,微博ID等。
[0075]根據(jù)以上信息,在建立索引時(shí),我們對(duì)每個(gè)用戶和每條微博設(shè)定一個(gè)全局ID,以此來對(duì)不同數(shù)據(jù)庫中的信息進(jìn)行對(duì)齊和檢索。
[0076]?分析器
[0077]分析器是系統(tǒng)的核心,包括6個(gè)子模塊,分別是:話題分析、實(shí)體識(shí)別、動(dòng)作識(shí)別、消息跟蹤、情感分析和社區(qū)聚類分析。
[0078]話題分析是上層較為粗糙的語義分析。話題是多角度多層次的多標(biāo)簽的分類問題。我們可以將微博數(shù)據(jù)分類成經(jīng)濟(jì)、政治、體育、娛樂、教育等;也可以將新聞消息分為國(guó)內(nèi)或國(guó)外新聞。據(jù)此可以將與經(jīng)濟(jì)社會(huì)活動(dòng)相關(guān)的微博篩選出來。我們可以將經(jīng)濟(jì)類微博數(shù)據(jù)進(jìn)一步分類成宏觀經(jīng)濟(jì)分析評(píng)論、股票分析、公司評(píng)論等等。另外,我們還可以對(duì)某一個(gè)特定的話題進(jìn)行劃分,例如找出三聚氰胺事件、日本海嘯事件相關(guān)的微博等等。
[0079]實(shí)體分析和行動(dòng)分析是較為細(xì)的一種語義分析。我們對(duì)每條微博進(jìn)行實(shí)體和語義分析,檢測(cè)實(shí)體的同義詞以及動(dòng)作的聚類。在此基礎(chǔ)上我們可以給出相應(yīng)實(shí)體和動(dòng)作的的頻率組成的時(shí)間序列,這些時(shí)間序列構(gòu)成我們未來數(shù)據(jù)服務(wù)和專家系統(tǒng)的基礎(chǔ)。
[0080]對(duì)于不停轉(zhuǎn)載的消息,我們首先可以把消息轉(zhuǎn)載的次數(shù)組織成時(shí)間序列;其次,我們將不停轉(zhuǎn)載這個(gè)消息的用戶構(gòu)成的帶有時(shí)序的子圖存儲(chǔ)起來,便于未來分析互聯(lián)網(wǎng)中興趣的遷移和演化。
[0081]情感分析用來識(shí)別語言中的帶有情感的詞匯,我們可以把這個(gè)模塊輸出的結(jié)果和其他模塊組合起來,實(shí)現(xiàn)具有聚集意義的情感分析。[0082]社區(qū)聚類分析提供用戶聚類。聚類可根據(jù)不同的語義和語境,也可以根據(jù)用戶之間的好友連接和轉(zhuǎn)載連接進(jìn)行分析。不同的聚類給予人們對(duì)數(shù)據(jù)認(rèn)識(shí)的不同側(cè)面。我們的聚類模塊將很容組裝和拆卸。
[0083]數(shù)據(jù)服務(wù)和專家系統(tǒng)
[0084]我們不僅提供上述數(shù)據(jù)抓取、分析的技術(shù),而且會(huì)基于這些分析出來的數(shù)據(jù)提供一些服務(wù)。我們的系統(tǒng)中的數(shù)據(jù)服務(wù)和專家系統(tǒng)為用戶提供了更為專業(yè)的知識(shí)和信息推送。我們?cè)诖嗽敿?xì)介紹這部分的具體功能。
[0085]?數(shù)據(jù)服務(wù)
[0086]數(shù)據(jù)服務(wù)包括以下幾個(gè)方面的內(nèi)容。
[0087]市場(chǎng)情緒指數(shù):我們通過對(duì)每天所有跟社會(huì)經(jīng)濟(jì)活動(dòng)相關(guān)的微博進(jìn)行情感分析,得到一個(gè)市場(chǎng)情緒指數(shù),并每天進(jìn)行公布,以提高影響力。
[0088]關(guān)鍵事件檢測(cè):對(duì)微博中關(guān)鍵事件,尤其是突發(fā)事件進(jìn)行檢測(cè),為用戶第一時(shí)間提供預(yù)警和提醒。
[0089]人物活躍度、關(guān)鍵人物挖掘:基于對(duì)話題和事件的挖掘?qū)ζ渲杏懻撝凶罨钴S的人進(jìn)行挖掘。通過發(fā)文統(tǒng)計(jì),文章被轉(zhuǎn)載和回復(fù)熱度等頻率的統(tǒng)計(jì)來給出熱點(diǎn)人物的排名。
[0090]用戶信息統(tǒng)計(jì)和預(yù)測(cè):年齡、性別、興趣、位置:對(duì)于在話題中出現(xiàn)的所有人進(jìn)行不同側(cè)面屬性的統(tǒng)計(jì)。有些信息我們可以通過開放平臺(tái)中的接口獲得,有些屬性我們可以通過每個(gè)用戶的發(fā)文內(nèi)容進(jìn)行挖掘和預(yù)測(cè)。
[0091]時(shí)間序列相關(guān)性分析:對(duì)于話題、實(shí)體、動(dòng)作和消息,以及他們相應(yīng)的情感指數(shù),我們都可以建立一個(gè)時(shí)間序列。這些時(shí)間序列和重要的經(jīng)濟(jì)指標(biāo)、股票及其指數(shù)之間可以挖掘出一些相關(guān)性。我們提供用戶指數(shù)或者某只股票最相關(guān)的文本時(shí)間序列以供分析。
[0092]網(wǎng)絡(luò)演化分析:對(duì)于不同話題,我們給出不同的網(wǎng)絡(luò)演化分析,例如網(wǎng)絡(luò)大小,結(jié)構(gòu)的統(tǒng)計(jì)特性等等。這些網(wǎng)絡(luò)演化結(jié)果也可以用來幫助用戶對(duì)互聯(lián)網(wǎng)的社會(huì)經(jīng)濟(jì)行為分析時(shí)有效獲取到有用的信息。
[0093]?專家系統(tǒng)
[0094]專家系統(tǒng)是集合了我們所有分析技術(shù)給出的一系列建議和解決方案。在此,我們給出三個(gè)具體的例子。
[0095]股市多空判斷:我們通過對(duì)歷史數(shù)據(jù)的統(tǒng)計(jì),可以得到那些關(guān)鍵的實(shí)體、行動(dòng)、消息以及他們相關(guān)的情感會(huì)和股市的運(yùn)動(dòng)產(chǎn)生相關(guān)性。比如,股票指數(shù)本身代表了市場(chǎng)的情緒,微博上人們發(fā)文的情緒在某種意義上也反映了大眾對(duì)市場(chǎng)的態(tài)度。因此如果很多人在微博上看多大市,那么股市有多大的概率上漲可以通過歷史數(shù)據(jù)計(jì)算出來,進(jìn)而可以給用戶一些投資建議。
[0096]盤后實(shí)事自動(dòng)分析:對(duì)于當(dāng)天收盤以后的結(jié)果進(jìn)行分析,通過挖掘歷史數(shù)據(jù),找到有可能影響當(dāng)天走勢(shì)的關(guān)鍵事件。例如“蘋果換CEO”以及人們對(duì)新CEO的評(píng)價(jià);又如“日本發(fā)生海嘯”以及相應(yīng)的情感指數(shù)等等,都可以作為總結(jié)當(dāng)天走勢(shì)的事件供用戶分析。
[0097]網(wǎng)絡(luò)熱議分析:對(duì)于網(wǎng)絡(luò)熱議的話題進(jìn)行分析和預(yù)測(cè)。例如雙方爭(zhēng)論某個(gè)熱點(diǎn)問題,進(jìn)而判斷雙方的情感指數(shù)、哪方會(huì)贏的預(yù)測(cè)等等。例如:對(duì)“小米手機(jī)發(fā)布”事件進(jìn)行分析,預(yù)測(cè)雙方論點(diǎn)以及小米手機(jī)是否會(huì)成功。
[0098]下面介紹話題分析的兩大框架:分類和話題模型。文本的話題是具有某一類話題的文檔的集合,例如新聞中談?wù)撜?、軍事、?jīng)濟(jì)和娛樂的文章涉及的內(nèi)容會(huì)有很大的不同。如果已知需要的話題是哪幾類,則我們可以使用針對(duì)帶監(jiān)督信息的分類技術(shù)進(jìn)行判斷;如果給定的文本集合未指定話題的類別,則需要使用非監(jiān)督的聚類或者話題模型來進(jìn)行分析。
[0099]?話題分析
[0100]話題分類主要由六個(gè)模塊構(gòu)成:分別是話題訓(xùn)練模塊(Training)、模型模塊(Model)、文擋打分模塊(Document Ranking)、關(guān)鍵詞打分模塊(Keyword Ranking)、話題打分模塊(Topic Ranking)、用戶打分模塊(Author Ranking)。
[0101]話題訓(xùn)練模塊:話題訓(xùn)練模塊負(fù)責(zé)根據(jù)歷史或標(biāo)注數(shù)據(jù)對(duì)話題進(jìn)行分析。如果我們已知需要哪幾類話題,如政治、經(jīng)濟(jì)、軍事、娛樂等,那么我們需要訓(xùn)練一個(gè)多類分類器;如果我們未知話題的種類,則我們需要訓(xùn)練相應(yīng)的話題模型。
[0102]模型模塊:模型是根據(jù)訓(xùn)練模塊的輸出結(jié)果對(duì)新的數(shù)據(jù)進(jìn)行話題分類的模塊。不管使用分類器還是話題模型,我們都會(huì)得到一個(gè)把新來文本映射到我們能判斷的話題上的函數(shù)。根據(jù)這個(gè)函數(shù),我們可以對(duì)文本進(jìn)行標(biāo)注、輸送到下面的打分模塊中進(jìn)行打分標(biāo)注,并最后存儲(chǔ)在數(shù)據(jù)庫中。
[0103]文擋打分模塊:文檔打分是根據(jù)該文檔的流行程度(popularity ;如轉(zhuǎn)載率)以及在話題中的重要程度(importance ;如關(guān)鍵的人物發(fā)文、原始的文檔等)、典型程度進(jìn)行(typicality ;是否能代表某個(gè)話題)等進(jìn)行標(biāo)注的模塊。
[0104]關(guān)鍵詞打分模 塊:關(guān)鍵詞打分是對(duì)文檔中重要的關(guān)鍵詞進(jìn)行標(biāo)注。這個(gè)模塊會(huì)配合話題模型、實(shí)體識(shí)別、行動(dòng)識(shí)別和情感分析等其他模塊一起工作,找到有用的詞便于檢索、比較和分析。例如在實(shí)體 識(shí)別中,我們可以識(shí)別“福島”、“東京發(fā)電”等地名和公司名,但對(duì)“海嘯”我們沒有相應(yīng)的標(biāo)注。在關(guān)鍵詞打分模塊,我們還希望能夠標(biāo)注對(duì)識(shí)別事件、消息、話題最有幫助的詞匯。
[0105]話題打分模塊:話題打分分為兩個(gè)部分:第一部分是全局話題的打分一我們希望知道哪個(gè)話題最容易引起關(guān)注;第二部分是話題相對(duì)于某一個(gè)文本的打分一我們希望知道文本中哪個(gè)話題是最重要的。
[0106]用戶打分模塊:對(duì)于每個(gè)話題,我們希望知道最活躍的用戶是誰;對(duì)于每個(gè)文檔,我們希望知道評(píng)論最活躍的用戶是誰。用戶打分模塊配合其他模塊,對(duì)每個(gè)話題動(dòng)態(tài)的進(jìn)行用戶打分和標(biāo)注。
[0107]實(shí)體識(shí)別
[0108]實(shí)體分析是經(jīng)濟(jì)金融活動(dòng)分析的最重要組成部分。重要的人名、地名、公司名的識(shí)別都在實(shí)體分析模塊中實(shí)現(xiàn)。
[0109]實(shí)體識(shí)別主要包含以下幾個(gè)模塊:語法處理模塊(Chunking/POS Tagging)、實(shí)體識(shí)別訓(xùn)練器模塊(Training Named Entity Recognizer)、知識(shí)庫模塊(KnowledgeBase)、模型模塊(Model)、知識(shí)庫幫助模塊(Knowledge Base helper)、實(shí)體消歧模塊(EntityDisambiguation)、實(shí)體聚類模塊(Entity Clustering)、關(guān)系抽取幫助模塊(EntityRelation Extraction Helper)。
[0110]語法處理模塊:語法處理模塊包括中文分詞,詞性標(biāo)注。主要用來幫助實(shí)體識(shí)別訓(xùn)練模塊和模型模塊產(chǎn)生特征。實(shí)體基本上是名詞短語,有效地提取語法信息能夠幫助實(shí)體分類器更好進(jìn)行識(shí)別。
[0111]實(shí)體識(shí)別訓(xùn)練器模塊:訓(xùn)練模塊主要是根據(jù)已經(jīng)標(biāo)注好的訓(xùn)練數(shù)據(jù)來識(shí)別相應(yīng)的實(shí)體。實(shí)體類別可以是人名、地名、公司名,也可以是錢數(shù)、百分比、日期、股票名稱等。
[0112]知識(shí)庫模塊:知識(shí)庫模塊是實(shí)體分析中非常重要的一個(gè)環(huán)節(jié),因?yàn)槲覀冃枰哪承┬畔⒈仨毞浅?zhǔn)確。例如公司名稱、相應(yīng)的股東、總經(jīng)理、CEO、公司產(chǎn)品等等。這些信息必須通過構(gòu)建知識(shí)庫的方法從特定的網(wǎng)站解析出來、或者人手工標(biāo)注出來。只有這樣,我們才能更好的分析財(cái)經(jīng)新聞中相應(yīng)的事件。
[0113]模型模塊:模型模塊根據(jù)知識(shí)庫和實(shí)體識(shí)別分類器訓(xùn)練的結(jié)果,綜合起來實(shí)時(shí)標(biāo)注新來的微博數(shù)據(jù)。
[0114]知識(shí)庫幫助模塊:知識(shí)庫幫助模塊是根據(jù)模型的輸出、消岐和聚類模塊的輸出進(jìn)行總結(jié),將非常確定的實(shí)體信息放入知識(shí)庫中。
[0115]實(shí)體消歧模塊:實(shí)體會(huì)有歧義。例如蘋果可以是公司,也可以是水果。我們需要根據(jù)上下文語義對(duì)特定的實(shí)體進(jìn)行消岐。所用的知識(shí)包括知識(shí)庫、外部的數(shù)據(jù)源(如互聯(lián)網(wǎng)上的共現(xiàn)詞頻)等。
[0116]實(shí)體聚類模塊:實(shí)體聚類模塊幫助我們找到同義詞,例如微軟、微軟公司等。這些同義詞根據(jù)我們的打分,將非常確定的部分送入知識(shí)庫中進(jìn)行內(nèi)容的豐富。同時(shí),我們也可以根據(jù)同義詞進(jìn)行檢索,找到討論同樣實(shí)體的微博。
[0117]關(guān)系抽取幫助模塊:實(shí)體識(shí)別的輸出同樣可以作為關(guān)系抽取的特征,幫助關(guān)系抽取更準(zhǔn)確的找到關(guān)鍵實(shí)體所對(duì)應(yīng)的事件、行為。
[0118]關(guān)系和動(dòng)作抽取
[0119]關(guān)系抽取主要包括以下幾個(gè)模塊:語法處理模塊(Chunking/POS Tagging/Parsing)、關(guān)系識(shí)別訓(xùn)練器模塊(Training Relation Extractor)、模型模塊(Model)、關(guān)系消歧模塊(Relation Disambiguation)、關(guān)系聚類模塊(Relation Clustering)、實(shí)體識(shí)別中關(guān)系抽取幫助模塊(Entity Relation Extraction Helper)。
[0120]語法處理模塊:語法處理模塊包括分詞、詞性標(biāo)注以及語法樹分析。語法處理模塊為關(guān)系識(shí)別訓(xùn)練和模型模塊提供特征。由于關(guān)系抽取需要?jiǎng)釉~和相應(yīng)的主語賓語,因此需要語法樹分析。同時(shí),我們也可以嘗試不使用語法樹的方法。該方法在第3.3.2節(jié)中詳述。
[0121]關(guān)系識(shí)別訓(xùn)練器模塊:關(guān)系識(shí)別通過判斷詞性、動(dòng)詞左右兩邊的名詞短語以及相應(yīng)的知識(shí)庫(如百科)來進(jìn)行關(guān)系抽取。關(guān)系抽取屬于開放式信息抽取技術(shù),無法做到對(duì)某一個(gè)領(lǐng)域非常全面的覆蓋。為此,我們需要對(duì)金融和經(jīng)濟(jì)領(lǐng)域進(jìn)行特殊制定。根據(jù)我們的金融知識(shí)庫和識(shí)別的實(shí)體庫進(jìn)行不斷改進(jìn)和豐富。
[0122]模型模塊:模型模塊負(fù)責(zé)對(duì)新來的微博進(jìn)行識(shí)別。
[0123]關(guān)系消歧模塊:關(guān)系消岐模塊與實(shí)體消岐模塊類似,負(fù)責(zé)對(duì)其中的名詞短語和動(dòng)詞短語進(jìn)行消岐。
[0124]關(guān)系聚類模塊:關(guān)系聚類是對(duì)類似的關(guān)系進(jìn)行聚類分析,將同義或近義的關(guān)系組織在一起。例如〈日本,發(fā)生,海嘯 >、〈日本,被襲擊,海嘯〉和〈海嘯,襲擊,日本〉應(yīng)被聚在一起。實(shí)體識(shí)別中關(guān)系抽取幫助模塊:這個(gè)模塊是實(shí)體分析部分的輸出,在這里用于關(guān)系抽取的輸入特征。
[0125]情感分析[0126]情感分析主要包括以下幾個(gè)模塊:語法處理模塊(Chunking/POS Tagging)、半監(jiān)督關(guān)鍵詞標(biāo)注模塊(Training Sem1-supervised Word Annotation)、情感知識(shí)庫模塊(SentimentKnowledge Base)、模型模塊(Model)、總體時(shí)間相關(guān)情感標(biāo)注模塊(OverallTime-stampedSentiment)> 實(shí)體相關(guān)情感標(biāo)注模塊(Entity Associated Sentiment)、微博句子情感標(biāo)注模塊(Sentence Level Sentiment)、用戶情感標(biāo)注模塊(User LevelSentiment)。
[0127]語法處理模塊:語法處理模塊包括中文分詞,詞性標(biāo)注。主要用來為詞的情感標(biāo)注提供特征。
[0128]半監(jiān)督關(guān)鍵詞標(biāo)注模塊:我們根據(jù)已有的情感知識(shí)庫(如HowNet)以及大量的觀測(cè)到的樣本(如詞之間的共現(xiàn)頻率)可以進(jìn)行半監(jiān)督的情感標(biāo)注。這個(gè)標(biāo)注結(jié)果可以存到知識(shí)庫中。情感知識(shí)庫模塊:情感知識(shí)庫由兩部分組成。一部分為人標(biāo)注的情感詞匯、程度詞匯以及觀點(diǎn)詞匯等。第二類是由機(jī)器根據(jù)語義自動(dòng)標(biāo)注的詞匯。我們把兩部分知識(shí)組織成知識(shí)庫,供模型模塊使用。
[0129]模型模塊:模型模塊使用知識(shí)庫中的兩類詞匯進(jìn)行打分。打分機(jī)制有兩類。第一類根據(jù)人的經(jīng)驗(yàn),給出評(píng)分。第二類可根據(jù)數(shù)據(jù)進(jìn)行學(xué)習(xí)。例如我們可以根據(jù)股票指數(shù)的漲跌來學(xué)習(xí)哪類詞匯傾向于用來形容牛市、哪類詞匯用來形容熊市等。
[0130]總體時(shí)間相關(guān)情感標(biāo)注模塊:對(duì)于微博整體、不同社區(qū)、不同人群,我們可以給出一個(gè)隨著時(shí)間變化的情感指數(shù)。這個(gè)指數(shù)根據(jù)當(dāng)時(shí)人們的發(fā)文來加權(quán)平均。
[0131]實(shí)體相關(guān)情感標(biāo)注模塊:對(duì)于每個(gè)識(shí)別到的實(shí)體,我們也給出相應(yīng)的情感分?jǐn)?shù),以便未來查詢實(shí)體相關(guān)的情感和評(píng)論。如可以將對(duì)小米手機(jī)的討論熱度和評(píng)論好壞可以進(jìn)行對(duì)比。
[0132]微博句子情感標(biāo)注模塊:對(duì)每條微博進(jìn)行情感標(biāo)注。
[0133]用戶情感標(biāo)注模塊:對(duì)每個(gè)用戶不同時(shí)間進(jìn)行情感標(biāo)注。
[0134]社區(qū)分析
[0135]社區(qū)分析包括以下幾個(gè)模塊:特征提取模塊(Feature Extractor)、訓(xùn)練社區(qū)挖掘參數(shù)模塊(Training Community Mining Parameters)、用戶分析提供的社區(qū)挖掘幫助模塊(User Based Community Mining Helper)、模型模塊(Model)、社區(qū)演變分析模塊(Community Evolving Analyzer)、社區(qū)統(tǒng)計(jì)模塊(Community Statistics)、用戶預(yù)測(cè)幫助模塊(Community based User Prediction Helper)。
[0136]特征提取模塊:特征提取模塊為社區(qū)挖掘模塊提取每個(gè)用戶的特征,包括用戶發(fā)文文本、粉絲、關(guān)注、群、興趣標(biāo)簽等。
[0137]訓(xùn)練社區(qū)挖掘參數(shù)模塊:根據(jù)不同的社區(qū)挖掘需求,提出聚類模型,根據(jù)歷史或人工標(biāo)注的數(shù)據(jù)進(jìn)行參數(shù)調(diào)節(jié)。例如社區(qū)挖掘中不同的社區(qū)會(huì)有重疊的用戶,我們可以控制參數(shù)來調(diào)節(jié)在多大的程度上允許系統(tǒng)保持社區(qū)的重疊。
[0138]用戶分析提供的社區(qū)挖掘幫助模塊:用戶分析和用戶屬性預(yù)測(cè)提供了額外的特征供社區(qū)挖掘使用。例如預(yù)測(cè)用戶的年齡,預(yù)測(cè)用戶的興趣,可能的標(biāo)簽,預(yù)測(cè)是否為機(jī)器人用戶等。利用這些預(yù)測(cè)信息可以幫助社區(qū)挖掘更好的找到可能的聚團(tuán)。
[0139]模型模塊:模型具有可以自動(dòng)的將新用戶分類(如機(jī)器人過濾),把用戶推薦到最有可能的社區(qū)、群等功能。[0140]社區(qū)統(tǒng)計(jì)模塊:社區(qū)統(tǒng)計(jì)可以幫助我們從多個(gè)角度觀察社區(qū)的特點(diǎn),如大小、連接度、社區(qū)的共同興趣、社區(qū)對(duì)特定事件的情感、態(tài)度、觀點(diǎn)等。
[0141]社區(qū)演變分析模塊:社區(qū)的演變模塊配合社區(qū)統(tǒng)計(jì)模塊,可以幫我們找到特定社區(qū)的用戶個(gè)數(shù)的變化,用戶共同的興趣變化,以及用戶之間的連接(關(guān)注、粉絲)程度的變化,以及社區(qū)群體中微博情感和觀點(diǎn)的變化等。
[0142]用戶預(yù)測(cè)幫助模塊:社區(qū)分析的結(jié)果通過協(xié)同推薦的方法可以幫助我們預(yù)測(cè)某個(gè)特定的用戶屬性、對(duì)某個(gè)事件的反應(yīng)等等。
[0143]用戶屬性預(yù)測(cè)
[0144]用戶屬性預(yù)測(cè)包括以下幾個(gè)模塊:特征提取模塊(Feature Extractor)、訓(xùn)練用戶預(yù)測(cè)模型模塊(Training User Prediction)、社區(qū)挖掘輸出的用戶預(yù)測(cè)幫助模塊(Community based User Prediction Helper)、模型模塊(Model)、用戶統(tǒng)計(jì)模塊(UserStatistics)、廣告和推薦系統(tǒng)幫助模塊(Advertising/Recommendation Helper)、社區(qū)挖掘幫助模塊(User based Community Mining Helper)。
[0145]特征提取模塊:特征提取包括用戶的粉絲、關(guān)注、tag標(biāo)簽、發(fā)文內(nèi)容等。
[0146]訓(xùn)練用戶預(yù)測(cè)模型模塊:這個(gè)模塊根據(jù)特征提取和社區(qū)挖掘輸出的結(jié)果來預(yù)測(cè)用戶屬性如年齡段、工作性質(zhì)、當(dāng)天心情、如果買股票是買還是賣等。
[0147]社區(qū)挖掘輸出的用戶預(yù)測(cè)幫助模塊:這個(gè)模塊是社區(qū)分析的輸出結(jié)果,通過社區(qū)的協(xié)同推薦來給訓(xùn)練模型提供更多的特征。
[0148]模型模塊:模型模塊根據(jù)訓(xùn)練的結(jié)果綜合判斷用戶的屬性等。
[0149]用戶統(tǒng)計(jì)模塊:用戶統(tǒng)計(jì)模塊產(chǎn)生預(yù)測(cè)用戶信息在整體微博或某個(gè)社區(qū)中的統(tǒng)計(jì)特性。雖然個(gè)別用戶的預(yù)測(cè)有可能不夠準(zhǔn)確,但在集合級(jí)別可以看出更有意義的信息。
[0150]廣告和推薦系統(tǒng)幫助模塊:為推廣本項(xiàng)目,我們可以給特定的用戶群和社區(qū)推薦本項(xiàng)目的應(yīng)用。廣告和推薦系統(tǒng)模塊幫助我們選擇有可能使用我們項(xiàng)目的用戶。
[0151]社區(qū)挖掘幫助模塊:用戶預(yù)測(cè)模塊的輸出結(jié)果可以幫助社區(qū)挖掘更有效的找到社區(qū),本模塊為社區(qū)挖掘提供更多可能的特征。
[0152]時(shí)間序列分析
[0153]時(shí)間序列分析主要包括以下幾個(gè)模塊:時(shí)間序列分割(Segmentation)、峰值谷值檢測(cè)(Peak/Valley Detection)、相關(guān)性分析(Correlation)、協(xié)整及時(shí)間序列因果分析分析(Co-1ntegration/Lead-lag analysis)。
[0154]時(shí)間序列分割:時(shí)間序列分割模塊負(fù)責(zé)切分話題、實(shí)體、消息等或金融數(shù)據(jù)形成的時(shí)間序列,找到具有周期性或時(shí)效性的部分,供用戶分析。
[0155]峰值谷值檢測(cè):峰值谷值檢測(cè)負(fù)責(zé)找到時(shí)間序列的波峰波谷、關(guān)鍵事件的檢測(cè)分析等。
[0156]相關(guān)性分析:相關(guān)性分析模塊負(fù)責(zé)找到具有強(qiáng)相關(guān)性的時(shí)間序列,便于用戶檢索和分析。
[0157]協(xié)整及時(shí)間序列因果分析分析:協(xié)整是金融分析中常用的手段,用來分析兩個(gè)時(shí)間序列是否具有相關(guān)性。于相關(guān)分析不同,它允許兩個(gè)時(shí)間序列在某些位置有差別。另夕卜,協(xié)整分析是判斷時(shí)間序列因果分析的前一步。因果分析通常用來分析時(shí)間序列的Lead-lag,進(jìn)而發(fā)現(xiàn)那個(gè)序列領(lǐng)先于另外一個(gè)序列。[0158]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng),其特征在于,系統(tǒng)包括三大類模塊:爬蟲、數(shù)據(jù)庫及索引和分析器,爬蟲主要負(fù)責(zé)數(shù)據(jù)采集,數(shù)據(jù)庫分為兩部分,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),根據(jù)采集的數(shù)據(jù)信息,在建立索引時(shí),對(duì)每個(gè)用戶和每條微博設(shè)定一個(gè)全局ID,以此來對(duì)不同數(shù)據(jù)庫中的信息進(jìn)行對(duì)齊和檢索,分析器是系統(tǒng)的核心,包括6個(gè)子模塊,分別是:話題分析、實(shí)體識(shí)別、動(dòng)作識(shí)別、消息跟蹤、情感分析和社區(qū)聚類分析。
2.根據(jù)權(quán)利要求1所述的基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng),其特征在于,對(duì)具有相同ID的微博檢測(cè)各種域的信息: 話題:話題使用標(biāo)號(hào)來建立索引,對(duì)于整體微博數(shù)據(jù),我們給出固定的若干大類信息,對(duì)于每條微博數(shù)據(jù),我們標(biāo)注其類別信息,另外,微博可以屬于多類,因此對(duì)于話題域,我們需要建立一對(duì)多的映射; 實(shí)體:實(shí)體包括人名、地名、機(jī)構(gòu)名等以及一些常用語中的固定名詞短語,對(duì)于實(shí)體,我們需要標(biāo)注實(shí)體的類別和實(shí)體名稱,并記錄用戶ID和微博ID ; 行動(dòng):對(duì)于行動(dòng),我們需要標(biāo)注三元組信息,即主體,動(dòng)作,目標(biāo),并記錄用戶ID和微博ID ; 消息:如果是轉(zhuǎn)載的訊息,我們需要存儲(chǔ)其被轉(zhuǎn)載的用戶ID,微博ID等; 根據(jù)以上信息,在建立索引時(shí),對(duì)每個(gè)用戶和每條微博設(shè)定一個(gè)全局ID,以此來對(duì)不同數(shù)據(jù)庫中的信息進(jìn)行對(duì)齊和檢索。
3.根據(jù)權(quán)利要求1所述的基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng),其特征在于,所述系統(tǒng)還包括基于分析出來的數(shù)據(jù)提供的系統(tǒng)中的數(shù)據(jù)服務(wù)和專家系統(tǒng),用于為用戶提供了更為專業(yè)的知識(shí)和信息推送。
4.根據(jù)權(quán)利要求3所述的基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng),其特征在于,數(shù)據(jù)服務(wù)包括以下幾個(gè)方面的內(nèi)容: 市場(chǎng)情緒指數(shù):通過對(duì)每天所有跟社會(huì)經(jīng)濟(jì)活動(dòng)相關(guān)的微博進(jìn)行情感分析,得到一個(gè)市場(chǎng)情緒指數(shù),并每天進(jìn)行公布,以提聞?dòng)绊懥Γ? 關(guān)鍵事件檢測(cè):對(duì)微博中關(guān)鍵事件,尤其是突發(fā)事件進(jìn)行檢測(cè),為用戶第一時(shí)間提供預(yù)警和提醒; 人物活躍度、關(guān)鍵人物挖掘:基于對(duì)話題和事件的挖掘?qū)ζ渲杏懻撝凶罨钴S的人進(jìn)行挖掘,通過發(fā)文統(tǒng)計(jì),文章被轉(zhuǎn)載和回復(fù)熱度等頻率的統(tǒng)計(jì)來給出熱點(diǎn)人物的排名; 用戶信息統(tǒng)計(jì)和預(yù)測(cè):年齡、性別、興趣、位置:對(duì)于在話題中出現(xiàn)的所有人進(jìn)行不同側(cè)面屬性的統(tǒng)計(jì),有些信息我們可以通過開放平臺(tái)中的接口獲得,有些屬性我們可以通過每個(gè)用戶的發(fā)文內(nèi)容進(jìn)行挖掘和預(yù)測(cè); 時(shí)間序列相關(guān)性分析:對(duì)于話題、實(shí)體、動(dòng)作和消息,以及他們相應(yīng)的情感指數(shù),建立一個(gè)時(shí)間序列,這些時(shí)間序列和重要的經(jīng)濟(jì)指標(biāo)、股票及其指數(shù)之間可以挖掘出一些相關(guān)性,提供給用戶指數(shù)或者某只股票最相關(guān)的文本時(shí)間序列以供分析; 網(wǎng)絡(luò)演化分析:對(duì)于不同話題,給出不同的網(wǎng)絡(luò)演化分析,這些網(wǎng)絡(luò)演化結(jié)果也可以用來幫助用戶對(duì)互聯(lián)網(wǎng)的社會(huì)經(jīng)濟(jì)行為分析時(shí)有效獲取到有用的信息。
5.根據(jù)權(quán)利要求3所述的基于社交媒體的經(jīng)濟(jì)金融行為分析系統(tǒng),其特征在于,專家系統(tǒng)是集合了所有分析技術(shù)給出的一系列建議和解決方案,包括: 股市多空判斷:通過對(duì)歷史數(shù)據(jù)的統(tǒng)計(jì),得到那些關(guān)鍵的實(shí)體、行動(dòng)、消息以及他們相關(guān)的情感會(huì)和股市的運(yùn)動(dòng)產(chǎn)生相關(guān)性; 盤后實(shí)事自動(dòng)分析:對(duì)于當(dāng)天收盤以后的結(jié)果進(jìn)行分析,通過挖掘歷史數(shù)據(jù),找到有可能影響當(dāng)天走勢(shì)的關(guān)鍵事件; 網(wǎng)絡(luò)熱議分析:對(duì)于網(wǎng)絡(luò)熱議的話題進(jìn)行分析和預(yù) 測(cè)。
【文檔編號(hào)】G06F17/30GK103559207SQ201310469922
【公開日】2014年2月5日 申請(qǐng)日期:2013年10月10日 優(yōu)先權(quán)日:2013年10月10日
【發(fā)明者】秦謙, 宋陽秋, 常凱斯 申請(qǐng)人:江蘇名通信息科技有限公司