国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      微博消息檢索系統(tǒng)與方法

      文檔序號:6366302閱讀:226來源:國知局
      專利名稱:微博消息檢索系統(tǒng)與方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信息檢索,尤其涉及對微博消息的檢索。
      背景技術(shù)
      自2006年第一個微博Twitter誕生以來,微博服務一直保持可觀的增長態(tài)勢,其增長主要表現(xiàn)在如下兩個方面I)用戶的增長=Twitter用戶自2008年開始井噴,到2011年底達到全球約三億人的規(guī)模。境內(nèi)微博用戶數(shù)也顯著增長新浪微博推出兩年間,用戶數(shù)量實現(xiàn)從零到超過兩億的奇跡。騰訊微博借助其龐大的QQ用戶群體,其微博用戶在數(shù)量上甚至超過了新浪微博。2)影響力的增長由于用戶量激增,微博對世界的影響力之巨大,已經(jīng)超越同時 期任何一個互聯(lián)網(wǎng)服務。其開放的媒體特性,使得微博改變了世界的話語權(quán)分配體系;其強大的時效性,引來從政府、公司到民間所有人的重視,2011年政府各個部門、大公司紛紛開設官方微博就是例證。微博的一個重要服務是消息的實時檢索。由于前述微博用戶規(guī)模和影響力的擴大,微博消息的產(chǎn)生頻率急劇提升,至2011年底,新浪微博每日消息量達到兩億條的規(guī)模,Twitter的每日消息量也為億級別。海量數(shù)據(jù)對實時檢索的反應效率和準確率提出了挑戰(zhàn)。主流微博采取的應對方法為利用哈希標簽提示檢索系統(tǒng)將一條消息歸入某個話題。例如,Twitter使用“#中國”、新浪微博中使用“#中國#”來表示當前消息屬于題為“中國”的話題。然而,該種方法具有多種局限性首先,該哈希標簽需要消息發(fā)布者主動按照規(guī)定規(guī)則自行書寫,且各個微博服務的格式并不統(tǒng)一,因此符合某話題,但用戶并不知道如何打哈希標簽、或者不知道某個哈希標簽表示某個話題而打上了錯誤或影響較小的標簽,可能導致該條消息無法被檢索系統(tǒng)實時檢索并提供。其次,哈希標簽方式將話題局限為一個詞,無法保證搜索用戶全方位取得某個話題或事件相關(guān)的所有消息。例如,以“首都機場”標簽搜索,無法完全獲得當日北京大霧相關(guān)的所有信息,而這些信息很可能是搜索者所希望得到的。最后,除了微博消息(其是一種短文本信息)外,微博中還有用戶主體信息,如用戶的類型、屬性、偏好等。哈希標簽方式無法將微博用戶屬性信息應用到數(shù)據(jù)檢索服務中。

      發(fā)明內(nèi)容
      因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種微博消息檢索系統(tǒng),兼顧多個詞之間的關(guān)聯(lián)關(guān)系以及用戶屬性,改善了檢索效果和用戶體驗。本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的—方面,本發(fā)明提供了一種微博消息檢索系統(tǒng),該系統(tǒng)包括微博存儲模塊,用于保存最新發(fā)布的微博消息以及微博用戶信息;詞關(guān)聯(lián)關(guān)系模塊,用于定期地從微博存儲模塊獲取最新發(fā)布的微博消息,提取并保存每條消息中詞語間的關(guān)聯(lián)關(guān)系;檢索管理模塊,用于根據(jù)詞語間的關(guān)聯(lián)關(guān)系,將與檢索用戶輸入的查詢詞關(guān)聯(lián)的多個詞作為推薦詞列表返回給檢索用戶,以及用于根據(jù)檢索用戶構(gòu)建的話題來對微博存儲模塊進行檢索;所述話題是由檢索用戶通過建立推薦詞和查詢詞之間建立邏輯關(guān)系來構(gòu)建的。上述技術(shù)方案中,詞關(guān)聯(lián)關(guān)系模塊可以定期地從微博存儲模塊提取最新發(fā)布的微博消息,計算每條消息的摘要,提取并保存該摘要中的詞語間的關(guān)聯(lián)關(guān)系。上述技術(shù)方案中,所述檢索管理模塊可以將與所述查詢詞之間的連邊權(quán)值最高的前n個詞作為推薦詞列表提供給檢索用戶,所述兩個詞間的連邊權(quán)值是這兩個詞間的關(guān)聯(lián)關(guān)系出現(xiàn)的次數(shù)。上述技術(shù)方案中,所述邏輯關(guān)系可以包括“邏輯與”和/或“邏輯或”和/或“邏輯非”。檢索用戶可以從所述推薦詞列表中選擇0個或多個詞,在該組詞與所述查詢詞之間建立“邏輯或”或者“邏輯與”的關(guān)系,以形成一個話題。檢索用戶可以從所述推薦詞列表中選擇部分詞并分組,同組詞之間為“邏輯或”的關(guān)系,組與組之間是“邏輯與”和/或“邏輯非”的關(guān)系,從而形成一個話題。上述技術(shù)方案中,詞關(guān)聯(lián)關(guān)系模塊可以將微博消息作為短文本,根據(jù)對短文本長期積累形成一個專用于短文本的分詞詞典,經(jīng)分詞詞典過濾形成該短文本的摘要。上述技術(shù)方案中,詞關(guān)聯(lián)關(guān)系模塊可以將微博消息作為短文本,將一批發(fā)布時間相近、地理位置相近的短文本,利用文本聚類的方法將其分組,為每組消息打上相同的摘要。上述技術(shù)方案中,詞關(guān)聯(lián)關(guān)系模塊可以將對每條微博消息所計算的摘要作為該消息的屬性保存到微博存儲模塊。上述技術(shù)方案中,該系統(tǒng)還可以包括微博用戶屬性計算模塊,用于獲取微博用戶最近發(fā)布的m條微博消息的摘要,選擇在這些摘要中出現(xiàn)頻率最高的前k個詞作為該微博用戶的個人屬性標簽。上述技術(shù)方案中,微博用戶屬性計算模塊還可以用于定期更新微博用戶的個人屬性標簽。上述技術(shù)方案中,檢索管理模塊還可以用于將所構(gòu)建的話題作為檢索條件,對微博用戶的個人屬性標簽進行檢索,給檢索用戶推薦符合檢索條件的微博用戶和/或其發(fā)布的消息。又一個方面,本發(fā)明提供了一種微博消息檢索方法,該方法包括步驟I)由檢索管理模塊接收檢索用戶輸入的查詢詞;步驟2)由檢索管理模塊將與該查詢詞之間的連邊權(quán)值最高的前n個詞作為推薦詞列表返回給檢索用戶;步驟3)由檢索用戶基于推薦詞列表,通過建立推薦詞和查詢詞之間的邏輯關(guān)系來構(gòu)建話題;步驟4)由檢索管理模塊將所構(gòu)建的話題作為檢索條件,來對微博存儲模塊進行檢索,將符合該檢索條件的微博消息返回給檢索用戶。上述技術(shù)方案中,在步驟3)可以由檢索用戶從所述推薦詞列表中選擇0個或多個詞,在該組詞與所述查詢詞之間建立“邏輯或”或者“邏輯與”的關(guān)系,從而形成一個話題。上述技術(shù)方案中,在步驟3)可以由檢索用戶從所述推薦詞列表中選擇部分詞并分組,同組詞之間為“邏輯或”的關(guān)系,組與組之間是“邏輯與”和/或“邏輯非”的關(guān)系,從而形成一個話題。上述技術(shù)方案中,還可以包括步驟5)由檢索管理模塊將所構(gòu)建的話題作為檢索條件,來對微博用戶的個人屬性標簽進行檢索,將符合該檢索條件的微博用戶和/或其所發(fā)布的消息返回給檢索用戶。上述技術(shù)方案中,在步驟2)之前,還可以包括由檢索管理模塊將包含該查詢詞的微博消息返回給檢索用戶的步驟。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于
      將現(xiàn)有微博中基于一個關(guān)鍵詞的檢索擴展為基于由多個詞構(gòu)成的話題的檢索,能夠改善檢索效果,提高用戶體驗。而且,通過利用微博用戶的愛好與屬性,提供一種基于人的信息查詢手段,能夠在最大程度上向檢索用戶提供其所關(guān)心的話題消息數(shù)據(jù)。


      以下參照附圖對本發(fā)明實施例作進一步說明,其中圖I為根據(jù)本發(fā)明實施例的微博消息檢索系統(tǒng)的結(jié)構(gòu)示意圖;圖2為根據(jù)本發(fā)明實施例的微博消息檢索方法的流程圖。
      具體實施例方式為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖通過具體實施例對本發(fā)明進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。圖I所示的是根據(jù)本發(fā)明一個實施例的微博消息實施檢索系統(tǒng)的結(jié)構(gòu)示意圖。該系統(tǒng)包括檢索管理模塊100、詞關(guān)聯(lián)關(guān)系模塊200、微博用戶屬性模塊300和微博存儲模塊400。其中,檢索管理模塊100用于提供與檢索用戶交互的接口以及給檢索用戶提供檢索服務。詞關(guān)聯(lián)關(guān)系模塊200用于詞關(guān)聯(lián)關(guān)系模塊定期地從微博存儲模塊獲取最新發(fā)布的微博消息,提取并保存每條消息中詞語間的關(guān)聯(lián)關(guān)系(詞語間的關(guān)聯(lián)關(guān)系也可以稱為詞語關(guān)聯(lián)關(guān)系或詞關(guān)系)。微博用戶屬性模塊300用于提取微博用戶的消息,根據(jù)其消息的摘要,確定該微博用戶的個人屬性標簽,并將該標簽保存到微博存儲模塊中。微博存儲模塊400用于保存近期發(fā)布的微博消息,以及近期活躍的微博用戶信息。在本申請中,所述檢索用戶指使用本申請?zhí)峁┑奈⒉┫z索系統(tǒng)的用戶;而所述微博用戶指為微博服務的用戶,例如使用Twitter或新浪微博的用戶。更具體地,參考圖1,微博存儲模塊400包括微博消息存儲模塊401和微博用戶存儲模塊402。其中,微博消息存儲模塊401用于緩存最新發(fā)布的微博消息信息。微博用戶存儲模塊402用于緩存活躍或重要用戶的個人信息。在一個實施例中,可以使用Redis作為緩存數(shù)據(jù)存儲工具。Redis是一個可以基于內(nèi)存的Key-Value日志型數(shù)據(jù)庫,其讀寫和查詢效率比基于永久存儲的數(shù)據(jù)庫類型為高。在Redis數(shù)據(jù)庫中建立一個存儲集合(collection),用于存儲微博中的最近發(fā)布的消息(例如,5天內(nèi)發(fā)布的消息);在該存儲集合中每條記錄的value的形式不需要向關(guān)系數(shù)據(jù)庫中那樣嚴格一致。例如keyl對應的value可能是一張圖片,而在同一個存儲集合中key2對應的value可能是一段文字。另外,在Redis數(shù)據(jù)庫中建立另一個存儲集合,用于存儲符合一定條件的微博用戶的個人信息,例如可以存儲符合下列條件的微博用戶的個人信息歷史消息超過1,OOO條的微博用戶、日均發(fā)布消息超過5條的微博用戶、最近5天發(fā)布過消息的微博用戶。在其他實施例中,也可以采用本領(lǐng)域人員所知的其他存儲裝置,例如,從成本角度考慮,可以使用基于比內(nèi)存緩存更便宜的永久性存儲器的存儲工具,如MongoDB等。再例如,從方便數(shù)據(jù)處理的角度講,可以使用對SQL支持更好的關(guān)系型數(shù)據(jù)庫如Oracle、MySQL等。詞關(guān)聯(lián)關(guān)系模塊200包括最新消息提取管理模塊201、摘要計算模塊202、詞關(guān)系存儲模塊203。其中,最新消息提取管理模塊201用于定期地從微博存儲模塊400讀取最新發(fā)布的微博消息,并將其傳遞到摘要計算模塊202。
      摘要計算模塊202用于根據(jù)微博消息內(nèi)容計算該條消息的摘要。可以將微博消息看作是短文本,根據(jù)現(xiàn)有的文本摘要方法來抽取微博消息中的核心詞語,計算該微博消息的摘要,例如,在一個實施例中,摘要的計算方法為根據(jù)對短文本長期積累形成一個專門針對短文本的分詞詞典,經(jīng)分詞詞典過濾形成該短文本的摘要。在又一個實施例中,摘要的計算方法為將一批發(fā)布時間相近、地理位置相近的短文本,利用文本聚類的方法將其分組,為每組消息打上相同的摘要??梢姡稣鋵嵤且粋€詞的集合,其包含該條短文本的重要詞,且移除語氣詞等無意義的虛詞。因此,可以將摘要作為該消息的特征。在完成摘要計算后,摘要計算模塊202并將該摘要作為該條消息的屬性保存到微博存儲模塊400中,例如可以保存到在微博消息存儲模塊401中的該微博消息的特定字段中。詞關(guān)系存儲模塊203用于保存摘要中詞語間的關(guān)聯(lián)關(guān)系(簡稱為詞關(guān)系)。所述詞語間的關(guān)聯(lián)關(guān)系是指同時出現(xiàn)在同一微博消息或者同一個摘要中的兩個詞之間存在的關(guān)聯(lián)關(guān)系。例如,一條微博消息{我被困在首都機場了,北京大霧,估計今天晚上走不了了。},經(jīng)摘要計算,其摘要為{北京機場大霧},則形成三個詞語間的關(guān)聯(lián)關(guān)系{北京-機場}、{北京-大霧}、{機場-大霧}??梢允褂脭?shù)據(jù)庫來保存詞關(guān)系,該數(shù)據(jù)庫可以被稱為詞關(guān)系數(shù)據(jù)庫,在詞關(guān)系數(shù)據(jù)庫中還記錄兩個詞間的連邊權(quán)值,所述兩個詞間的連邊權(quán)值是這兩個詞間的關(guān)聯(lián)關(guān)系在詞關(guān)系數(shù)據(jù)庫中出現(xiàn)的次數(shù)。例如,若在詞關(guān)系數(shù)據(jù)庫中已存在詞關(guān)系{北京-機場},且其權(quán)值(即兩個詞之間的連邊權(quán)值)為230 (也就是這個詞關(guān)系在數(shù)據(jù)庫中已經(jīng)出現(xiàn)過230次),則加入本條記錄后該權(quán)值增加I。相比于現(xiàn)有基于哈希標簽的搜索,使用所述詞語間的關(guān)聯(lián)關(guān)系,能夠擴大搜索范圍,使檢索用戶能得到檢索詞以外的相關(guān)信息。例如,最新消息提取管理模塊201計算當前系統(tǒng)時間戳t2,并從微博存儲模塊400中取得已經(jīng)計算過摘要的消息的最大入庫時間戳tl ;然后,按任意規(guī)則分批提取入庫時間為(tl,t2)開區(qū)間內(nèi)的所有消息(即取得最近一段時間內(nèi)的緩存的未計算過摘要的新消息),并通過摘要計算模塊202計算每條消息的摘要并將計算結(jié)果寫入微博存儲模塊400。同時詞關(guān)系存儲模塊更新詞關(guān)系數(shù)據(jù)庫中與當前摘要相關(guān)的記錄,任意出現(xiàn)在同一個摘要中的兩個詞的連邊權(quán)值加I。在一個實施例中,詞關(guān)系存儲模塊203可以采用關(guān)系型數(shù)據(jù)庫MySQL來保存詞關(guān)系。在其他實施例中,也可以使用其他的關(guān)系型數(shù)據(jù)庫(例如,Oracle,SQLServer等)來保存詞關(guān)系。
      微博用戶屬性模塊300包括用戶消息提取管理模塊301和用戶屬性計算模塊302。其中用戶消息提取管理模塊301定期地從微博存儲模塊400中提取微博用戶所發(fā)消息及其摘要。用戶屬性計算模塊302根據(jù)該用戶所發(fā)消息的摘要集合,計算該用戶的個人屬性標簽(可以簡稱為屬性標簽或用戶標簽)。所述個人屬性標簽是指用以描述一個微博用戶的愛好、關(guān)注點等的一組詞。如通過分析一個用戶所發(fā)消息的摘要,從該用戶所發(fā)消息的摘要中選出現(xiàn)頻率最高的幾個詞來作為該用戶的標簽,例如可以將{演員做飯電影愛情}作為某個微博用戶的個人屬性標簽。又例如,用戶消息提取管理模塊301從微博存儲模塊400中,取出上次刷新時刻最早,且該時刻早于當前系統(tǒng)時刻5天的用戶的最近200條消息。統(tǒng)計所述200條消息的摘要中詞頻最高的20個詞,作為該用戶的個人屬性信息(S卩,該用戶的屬性標簽)。用戶的個人屬性信息不應包括語氣詞等虛詞信息,而應以人物、地點、時間、行為等實詞為主。檢索管理模塊100包括檢索用戶接口模塊101和檢索會話管理模塊102。其中,檢 索用戶接口模塊101用于接收檢索用戶的輸入、返回查詢結(jié)果,以及給檢索用戶提供基于推薦詞列表構(gòu)建話題的接口。檢索會話管理模塊102,用于基于檢索用戶輸入的查詢詞對詞關(guān)系存儲模塊203進行檢索以獲得推薦詞列表,基于由檢索用戶構(gòu)建的話題對微博存儲模塊400進行檢索、以及將檢索結(jié)果提供給檢索用戶接口模塊101以返回檢索結(jié)果。其中,推薦詞列表是由檢索會話管理模塊102查詢詞關(guān)系存儲模塊203獲得的多個與該查詢詞相關(guān)的推薦詞(例如,20個),以推薦給所述檢索用戶。在一個實施例中,可以取與檢索用戶輸入的詞最相關(guān)的20個詞作為推薦詞列表返回,也就是在詞關(guān)系數(shù)據(jù)中與查詢詞連邊權(quán)值最高的20個詞作為推薦詞列表。又一個實施例中也可以取與該查詢詞最相關(guān)的15個詞作為推薦詞列表返回;同時,從包含該查詢詞的返回的微博消息中選取最近50條消息,從這些消息的摘要中選擇出現(xiàn)頻率最高的5個詞作為前述推薦詞列表的補充。檢索用戶通過檢索用戶接口模塊101提供的接口選擇0個或多個推薦詞,通過設置所選擇的詞之間的邏輯關(guān)系(例如邏輯與、邏輯或、邏輯非)來構(gòu)建話題。在一個實施例中,可以從所述推薦詞列表中選擇0個或多個詞,該組詞與原查詢詞之間均為邏輯或(or)或者邏輯與(and)的關(guān)系,形成一個由多個詞組成的話題。又一個實施例為從所述推薦詞列表中選擇部分詞并分組,同組詞之間為邏輯或的關(guān)系,而組與組之間為邏輯與的關(guān)系,從而形成一個由多個詞組成的話題。在又一個實施例中,從所述推薦詞列表中選擇部分詞并分組,同組詞之間為邏輯或(or)的關(guān)系,而組與組之間可以為邏輯與(and)的關(guān)系組和/或邏輯非(not)的關(guān)系,從而形成由多個詞組成的話題,例如,(kj or k2 or k3) and(k4 ork5)not(k6 or k7),匕為推薦詞,從而組成包含邏輯與或非關(guān)系的話題。應指出與或非關(guān)系是可以隨機改變的,可以由用戶通過檢索用戶接口模塊進行自定義。例如,檢索用戶輸入“機場”,檢索會話管理模塊102向詞關(guān)系存儲模塊203檢索“機場”相對應的詞關(guān)系,將檢索結(jié)果作為對檢索用戶的推薦詞列表而返回給檢索用戶,例如{首都、北京、南苑、虹橋、浦東、新白云、大霧、能見度、暴雨、雷暴、延誤、取消、正點率}。然后,由檢索用戶通過檢索用戶接口模塊101從推薦詞列表中選擇部分詞來構(gòu)建例如Kk1or k2 or k3) and (k4 or k5) not (k6 or k7), Ici為推薦詞}這樣的以詞為中心的話題,如{(北京or首都or南苑)and(大霧or能見度)and(延誤or取消)not (暴雨or雷暴)}。檢索會話管理模塊102將該檢索用戶構(gòu)建的話題作為檢索條件對微博存儲模塊進行檢索,返回滿足以上檢索條件的所有消息??梢?,在本發(fā)明的實施例中,采用的是由檢索用戶來構(gòu)建話題,并基于所構(gòu)建的話題來檢索的機制。全自動的基于話題的檢索只見于如新聞、博客等長文本的檢索系統(tǒng)中,由于單個語料較長,用常用文檔摘要方法或高維度特征向量,可以較精確地描述兩個文檔之間的相似程度。而如微博客或手機短信等短文本,經(jīng)發(fā)明人在實際系統(tǒng)中的檢驗,發(fā)現(xiàn)以上方法并不適用,因此發(fā)明人采用了以詞為中心的,由用戶干預的話題機制,經(jīng)實踐檢驗其消息準確程度是可以保證的。而且利用由檢索用戶干預的話題機制進行檢索,其好處在于第一,使用所述詞語間的關(guān)聯(lián)關(guān)系,相比于現(xiàn)有基于哈希標簽的搜索,能夠擴大搜索范圍,使檢索用戶能得到檢索詞以外的相關(guān)信息;第二,能夠克服微博消息因為文本短小,全自動的話題推薦方法經(jīng)常離題萬里,不能滿足檢索用戶的需要的不足,為檢索用戶提供可以人工干預形成話題的較好方法。在又一個實施例中,檢索會話管理模塊102還可以將所構(gòu)建的話題作為檢索條件對微博用戶的個人屬性標簽進行檢索,返回滿足以上檢索條件的微博用戶所發(fā)布的消息。 從而也考慮了微博用戶的屬性,例如,上述的首都機場的例子,可以通過檢索微博用戶的屬性標簽,把與首都機場密切相關(guān)的微博用戶(例如,經(jīng)常發(fā)布與首都機場相關(guān)微博的用戶)和/或其發(fā)布的消息推薦給檢索用戶。這些用戶所發(fā)的消息也許不匹配前述話題規(guī)則,但可以作為該次檢索的有益外圍信息補充,從而在最大程度上向檢索用戶提供與其所關(guān)心的話題相關(guān)的消息。此外,提供了一種基于用戶信息的檢索手段,可以向檢索用戶提供與其所關(guān)心的話題密切相關(guān)的微博用戶,以使得檢索用戶可以關(guān)注這些微博用戶。例如,使用所構(gòu)建的話題去檢索微博用戶的屬性標簽,推薦完全符合該話題的微博用戶。或者推薦其屬性標簽中的詞中有超過m個詞語與所構(gòu)建的話題中的詞相同(不包括非關(guān)系的詞)的微博用戶。在本發(fā)明的又一個實施例中,還提供了一種基于上述系統(tǒng)的檢索方法。該方法包括以下步驟步驟I),接收由檢索用戶通過檢索用戶接口模塊101輸入的查詢詞。步驟2),由檢索會話管理模塊102從詞關(guān)系數(shù)據(jù)選擇多個與該查詢詞相關(guān)的推薦詞(例如,20個),并推薦給所述檢索用戶。在一個實施例中,可以取與檢索用戶輸入的詞最相關(guān)的20個詞作為推薦詞列表返回,也就是在詞關(guān)系數(shù)據(jù)中與查詢詞連邊權(quán)值最高的20個詞作為推薦詞列表。又一個實施例中也可以取與該查詢詞最相關(guān)的15個詞作為推薦詞列表返回;同時,從包含該查詢詞的返回的微博消息中選取最近50條消息,從這些消息的摘要中選擇出現(xiàn)頻率最高的5個詞作為前述推薦詞列表的補充。步驟3),由檢索用戶選擇0個或多個推薦詞,通過設置所選擇的詞之間的邏輯關(guān)系(例如邏輯與、邏輯或、邏輯非)來構(gòu)建話題。在一個實施例中,可以從所述推薦詞列表中選擇0個或多個詞,該組詞與原查詢詞之間均為邏輯或(or)和/或邏輯與(and)的關(guān)系,形成一個由多個詞組成的話題。又一個實施例為從所述推薦詞列表中選擇部分詞并分組,同組詞之間為邏輯或的關(guān)系,而組與組之間為邏輯與的關(guān)系,從而形成一個由多個詞組成的話題。在又一個實施例中,從所述推薦詞列表中選擇部分詞并分組,同組詞之間為邏輯或(or)的關(guān)系,而組與組之間可以為邏輯與(and)的關(guān)系組和/或邏輯非(not)的關(guān)系,從而形成由多個詞組成的話題,例如,(h or k2 or k3)and(k4 or k5)not (k6 or k7), Ici為推薦詞,從而組成包含邏輯與或非關(guān)系的話題。應指出與或非關(guān)系是可以隨機改變的,可以由用戶通過檢索用戶接口模塊進行自定義。步驟4),由檢索會話管理模塊102根據(jù)檢索用戶在步驟3)構(gòu)建的話題作為檢索條件,返回符合該檢索條件的微博消息給檢索用戶。在又一個實施例中,該方法還可以包括步驟5),由檢索會話管理模塊102根據(jù)所構(gòu)建的話題,結(jié)合微博用戶存儲模塊402中用戶的個人屬性標簽,推薦與該話題最相關(guān)的多個(例如,30個)微博用戶給檢索用戶,和/或提供所述微博用戶發(fā)布的消息給檢索用戶。例如,使用所構(gòu)建的話題規(guī)則去檢索微博用戶的個人屬性標簽,推薦完全符合規(guī)則的微博用戶和/或其發(fā)布的消息。又例如,將其屬性標簽中的詞中有超過m個詞語與所構(gòu)建的話題中的詞相同(不包括非關(guān)系的詞)的微博用戶和/或其發(fā)布的消息推薦給檢索用戶。圖2給出了根據(jù)本發(fā)明又一個實施例的微博檢索方法的流程圖。該方法與上述方法的不同之處在于接收檢索用戶輸入的查詢詞后,檢索管理模塊可以利用現(xiàn)有的檢索方法將包含該查詢詞的微博消息與推薦詞列表一起返回給檢索用戶。檢索用戶在這些微博消息的基礎上,如果還想進一步地查詢,則可以通過構(gòu)建話題來進行進一步的檢索,這樣可以給檢索用戶很大的靈活性,也可以改善用戶體驗。更具體地,該方法包括步驟S101)由檢索管理模塊接收檢索用戶輸入的查詢詞;步驟S102)由檢索管理模塊檢索并返回包含該查詢詞的微博消息;步驟S103)由檢索管理模塊選擇與該查詢詞存在關(guān)聯(lián)關(guān)系的多個詞作為推薦詞列表返回給檢索用戶;步驟S104)由檢索用戶基于推薦詞列表,通過建立推薦詞和查詢詞之間的邏輯關(guān)系來構(gòu)建話題;步驟S105)由檢索管理模塊獲取滿足該話題的微博消息,增量返回給檢索用戶;步驟S106)由檢索管理模塊根據(jù)所構(gòu)建的話題和微博用戶的個人屬性標簽,給檢索用戶推薦滿足該話題的微博用戶和/或其發(fā)布的消息。其中在步驟S103)還可以從所返回的包含該查詢詞的微博消息的摘要中,選擇出現(xiàn)次數(shù)最高的前r個詞作為所述推薦詞列表的補充。雖然本發(fā)明已經(jīng)通過優(yōu)選實施例進行了描述,然而本發(fā)明并非局限于這里所描述的實施例,在不脫離本發(fā)明范圍的情況下還包括所作出的各種改變以及變化。權(quán)利要求
      1.一種微博消息檢索系統(tǒng),該系統(tǒng)包括 微博存儲模塊,用于保存最新發(fā)布的微博消息以及微博用戶信息; 詞關(guān)聯(lián)關(guān)系模塊,用于定期地從微博存儲模塊獲取最新發(fā)布的微博消息,提取并保存每條消息中詞語間的關(guān)聯(lián)關(guān)系; 檢索管理模塊,用于根據(jù)詞語間的關(guān)聯(lián)關(guān)系,將與檢索用戶輸入的查詢詞關(guān)聯(lián)的多個詞作為推薦詞列表返回給檢索用戶,以及用于根據(jù)檢索用戶構(gòu)建的話題來對微博存儲模塊進行檢索;所述話題是由檢索用戶通過建立推薦詞和查詢詞之間建立邏輯關(guān)系來構(gòu)建的。
      2.根據(jù)權(quán)利要求I所述的系統(tǒng),其中,詞關(guān)聯(lián)關(guān)系模塊定期地從微博存儲模塊提取最新發(fā)布的微博消息,計算每條消息的摘要,提取并保存該摘要中的詞語間的關(guān)聯(lián)關(guān)系。
      3.根據(jù)權(quán)利要求I或2所述的系統(tǒng),所述檢索管理模塊將與所述查詢詞之間的連邊權(quán)值最高的前η個詞作為推薦詞列表提供給檢索用戶,所述兩個詞間的連邊權(quán)值是這兩個詞間的關(guān)聯(lián)關(guān)系出現(xiàn)的次數(shù)。
      4.根據(jù)權(quán)利要求I或2所述的系統(tǒng),其中所述邏輯關(guān)系包括“邏輯與”和/或“邏輯或”和/或“邏輯非”。
      5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中,檢索用戶從所述推薦詞列表中選擇O個或多個詞,在該組詞與所述查詢詞之間建立“邏輯或”或者“邏輯與”的關(guān)系,以形成ー個話題。
      6.根據(jù)權(quán)利要求4所述的系統(tǒng),其中檢索用戶從所述推薦詞列表中選擇部分詞并分組,同組詞之間為“邏輯或”的關(guān)系,組與組之間是“邏輯與”和/或“邏輯非”的關(guān)系,從而形成ー個話題。
      7.根據(jù)權(quán)利要求2所述的系統(tǒng),詞關(guān)聯(lián)關(guān)系模塊將微博消息作為短文本,根據(jù)對短文本長期積累形成ー個專用于短文本的分詞詞典,經(jīng)分詞詞典過濾形成該短文本的摘要。
      8.根據(jù)權(quán)利要求2所述的系統(tǒng),詞關(guān)聯(lián)關(guān)系模塊將微博消息作為短文本,將ー批發(fā)布時間相近、地理位置相近的短文本,利用文本聚類的方法將其分組,為每組消息打上相同的摘要。
      9.根據(jù)權(quán)利要求2所述的系統(tǒng),詞關(guān)聯(lián)關(guān)系模塊將對每條微博消息所計算的摘要作為該消息的屬性保存到微博存儲模塊。
      10.根據(jù)權(quán)利要求2、7、8或9所述的系統(tǒng),還包括微博用戶屬性計算模塊,用于獲取微博用戶最近發(fā)布的m條微博消息的摘要,選擇在這些摘要中出現(xiàn)頻率最高的前k個詞作為該微博用戶的個人屬性標簽。
      11.根據(jù)權(quán)利要求10所述的系統(tǒng),微博用戶屬性計算模塊還用于定期更新微博用戶的個人屬性標簽。
      12.根據(jù)權(quán)利要求10所述的系統(tǒng),檢索管理模塊還用于將所構(gòu)建的話題作為檢索條件,對微博用戶的個人屬性標簽進行檢索,給檢索用戶推薦符合檢索條件的微博用戶和/或其發(fā)布的消息。
      13.—種基于上述任ー權(quán)利要求所述的系統(tǒng)的微博檢索方法,該方法包括 步驟I)由檢索管理模塊接收檢索用戶輸入的查詢詞; 步驟2)由檢索管理模塊將與該查詢詞之間的連邊權(quán)值最高的前η個詞作為推薦詞列表返回給檢索用戶; 步驟3)由檢索用戶基于推薦詞列表,通過建立推薦詞和查詢詞之間的邏輯關(guān)系來構(gòu)建話題; 步驟4)由檢索管理模塊將所構(gòu)建的話題作為檢索條件,來對微博存儲模塊進行檢索,將符合該檢索條件的微博消息返回給檢索用戶。
      14.根據(jù)權(quán)利要求13所述的方法,其中步驟3)由檢索用戶從所述推薦詞列表中選擇O個或多個詞,在該組詞與所述查詢詞之間建立“邏輯或”或者“邏輯與”的關(guān)系,從而形成一個話題。
      15.根據(jù)權(quán)利要求13所述的方法,其中步驟3)由檢索用戶從所述推薦詞列表中選擇部分詞并分組,同組詞之間為“邏輯或”的關(guān)系,組與組之間是“邏輯與”和/或“邏輯非”的關(guān)系,從而形成ー個話題。
      16.根據(jù)權(quán)利要求13所述的方法,其中還包括步驟5)由檢索管理模塊將所構(gòu)建的話題作為檢索條件,來對微博用戶的個人屬性標簽進行檢索,將符合該檢索條件的微博用戶和/或其所發(fā)布的消息返回給檢索用戶。
      17.根據(jù)權(quán)利要求13所述的方法,其中在步驟2)之前,還包括由檢索管理模塊將包含該查詢詞的微博消息返回給檢索用戶的步驟。
      全文摘要
      本發(fā)明提供一種微博檢索方法,該系統(tǒng)定期獲取最新發(fā)布的微博消息,計算每條消息的摘要,并且提取該摘要中的詞語間的關(guān)聯(lián)關(guān)系,將其保存到詞關(guān)系數(shù)據(jù)庫中。在收到檢索用戶的查詢詞后,將與該查詢詞存在關(guān)聯(lián)關(guān)系的多個詞作為推薦詞列表返回給檢索用戶,檢索用戶通過在推薦詞和查詢詞之間建立邏輯關(guān)系來構(gòu)建話題,以及將所構(gòu)建的話題作為檢索條件,將符合該檢索條件的微博消息返回給檢索用戶。該系統(tǒng)基于由多個詞構(gòu)成的話題來進行檢索,能夠改善檢索效果,提高用戶體驗。而且,通過利用微博用戶的愛好與屬性,提供一種基于人的信息查詢手段,能夠在最大程度上向檢索用戶提供其所關(guān)心的話題消息數(shù)據(jù)。
      文檔編號G06F17/30GK102662986SQ20121006580
      公開日2012年9月12日 申請日期2012年1月13日 優(yōu)先權(quán)日2012年1月13日
      發(fā)明者房偉偉, 方濱興, 李一為, 李靜遠, 王元卓, 程學旗 申請人:中國科學院計算技術(shù)研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1