專利名稱:標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明公開涉及數(shù)據(jù)處理技術(shù),尤其是,涉及一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法及系統(tǒng)。
背景技術(shù):
物聯(lián)網(wǎng)(Internet of Things, 1T)被認(rèn)為是互聯(lián)網(wǎng)的下一次重要革命。所謂的物聯(lián)網(wǎng)就是把諸如感測(cè)設(shè)備之類的物體裝備到街道、公路、建筑、供水系統(tǒng)以及家用電器等各種真實(shí)物體上,通過互聯(lián)網(wǎng)聯(lián)接起來,進(jìn)而運(yùn)行特定的程序,達(dá)到遠(yuǎn)程控制或者實(shí)現(xiàn)物與物的直接通信。物聯(lián)網(wǎng)將連接對(duì)象的范圍從電子設(shè)備擴(kuò)展到真實(shí)世界中的各種各樣的物體,即通過裝備在各類物體上的射頻識(shí)別(RFID)、傳感器、二維碼等,經(jīng)過接口與無線網(wǎng)絡(luò)相連,實(shí)現(xiàn)人與物體的溝通和對(duì)話,也可以實(shí)現(xiàn)物體與物體互相間的溝通和對(duì)話。例如,在不遠(yuǎn)的將來,家用電器、醫(yī)院設(shè)備、甚至T恤衫都可以聯(lián)網(wǎng)和在網(wǎng)絡(luò)上被訪問,就像網(wǎng)頁(yè)和遠(yuǎn)程服務(wù)器一樣。結(jié)果,所有真實(shí)世界中的物體都可以通過聯(lián)網(wǎng)被監(jiān)控和操作,并且其行動(dòng)可以被編程以給人類提供方便。在物聯(lián)網(wǎng)中,給定一個(gè)事件,如何獲得記錄相關(guān)信息的傳感器是一個(gè)問題。例如,給定查詢“汽車追尾”,如何找到記錄這種事件的攝像頭。這種物聯(lián)網(wǎng)搜索對(duì)于物聯(lián)網(wǎng)來說,是非常重要的應(yīng)用。不同于當(dāng)前的WWW網(wǎng)絡(luò),構(gòu)建10T搜索引擎存在以下挑戰(zhàn):首先,真實(shí)世界中的物體具有指數(shù)量級(jí)的總數(shù)。互聯(lián)網(wǎng)對(duì)象將編碼50萬(wàn)億至100萬(wàn)億個(gè)物體。每個(gè)人都被1000到500個(gè)物體包圍著。對(duì)于當(dāng)前的搜索引擎,巨大的數(shù)據(jù)量是負(fù)擔(dān)不起的。而據(jù)統(tǒng)計(jì),在2008年谷歌公司的搜索引擎僅索引10億個(gè)網(wǎng)頁(yè)。其次,物聯(lián)網(wǎng)中的各種物體所獲得的原始數(shù)據(jù)可能具有圖像、視頻、音頻、數(shù)字?jǐn)?shù)據(jù)序列、小波等的格式,基本上沒有元數(shù)據(jù)可用于描述這些原始數(shù)據(jù)的語(yǔ)義,且計(jì)算機(jī)本身也不能理解這些數(shù)據(jù)文件的內(nèi)容。也就是,所獲得的原始數(shù)據(jù)難以傳遞人類的觀點(diǎn)和情感,而人類也難以理解這些原始數(shù)據(jù)。面對(duì)豐富的原始數(shù)據(jù),人們卻難以通過自然語(yǔ)言對(duì)相關(guān)信息進(jìn)行查詢、對(duì)原始數(shù)據(jù)之間的關(guān)聯(lián)性進(jìn)行挖掘等。目前存在對(duì)于原始數(shù)據(jù)進(jìn)行深層次處理的技術(shù),但是由于1T中的諸如傳感器之類的物體的總量巨大,所以使用諸如計(jì)算圖象技術(shù)的深層次處理來提取語(yǔ)義注釋在計(jì)算上是負(fù)擔(dān)不起的。此外,即使利用深層次處理,由于諸如查詢之類的應(yīng)用的靈活性,需要建立大量的模型來處理各種應(yīng)用。這種實(shí)現(xiàn)也是不可取的。圖1是示出了現(xiàn)有技術(shù)中實(shí)際應(yīng)用與物體產(chǎn)生的原始數(shù)據(jù)之間的問題的示意圖。如圖1所示,用戶使用人類語(yǔ)言在網(wǎng)絡(luò)上對(duì)傳感器數(shù)據(jù)進(jìn)行查詢。但是,即使存在大量的原始數(shù)據(jù)文件,由于用戶的自然語(yǔ)言查詢和傳感器的原始數(shù)據(jù)文件之間存在巨大的鴻溝,并且原始數(shù)據(jù)文件也幾乎沒有元數(shù)據(jù)來描述其語(yǔ)義,因此用戶不能得到期望的查詢結(jié)果。因此,如何將自然語(yǔ)言查詢與原始數(shù)據(jù)聯(lián)系起來以便于進(jìn)行數(shù)據(jù)的搜索和挖掘以及數(shù)據(jù)關(guān)聯(lián)性的挖掘等等是現(xiàn)有技術(shù)中存在的一個(gè)技術(shù)問題。因此,現(xiàn)有技術(shù)中需要標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)以便進(jìn)行進(jìn)一步數(shù)據(jù)處理的技術(shù)。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的上述問題中的至少一個(gè),而提出了本發(fā)明公開。根據(jù)本發(fā)明公開的一個(gè)方面的一個(gè)實(shí)施例提供了一種利用Web消息來給原始數(shù)據(jù)加標(biāo)記以使原始數(shù)據(jù)具有描述其語(yǔ)義的元數(shù)據(jù)從而幫助理解原始數(shù)據(jù)的內(nèi)容的技術(shù)方案。本發(fā)明的發(fā)明人注意到諸如博客和微博之類的Web消息正在被廣泛地應(yīng)用。本文中提及的“Web消息”是指具有廣泛性和相關(guān)性的網(wǎng)絡(luò)上傳遞的內(nèi)容。所謂的“廣泛性”是指Web消息的內(nèi)容多種多樣,涉及到現(xiàn)實(shí)世界中發(fā)生的各種事情以及人類的思想等等,以及Web消息的用戶可以使用諸如移動(dòng)終端或固定終端之類的各種設(shè)備在網(wǎng)絡(luò)上隨時(shí)發(fā)布Web消息。Web消息可以包括文本、文檔、圖標(biāo)、照片、音頻、視頻等等。所謂的“相關(guān)性”是指Web消息的內(nèi)容與所關(guān)心事件有關(guān),例如Web消息的發(fā)布時(shí)間與所關(guān)心事件的發(fā)生時(shí)間之差在預(yù)定范圍內(nèi)且都是關(guān)于相似的事件,則認(rèn)為Web消息與所關(guān)心事件具有相關(guān)性。此夕卜,對(duì)于本發(fā)明而言,Web消息是具有用戶在發(fā)送Web消息時(shí)的地址信息的Web消息。微博是Web消息的一個(gè)典型示例。微博是一種允許用戶及時(shí)更新的簡(jiǎn)短文本(通常少于140字)并可以公開發(fā)布的博客形式。微博服務(wù)包括諸如Twitter、Yahoo、Sina、Sohu> 163 等。微博最近日漸繁榮,并且已經(jīng)吸引了大量用戶。根據(jù)2010年4月的統(tǒng)計(jì)數(shù)據(jù),作為微博的代表性網(wǎng)站的Twitter具有100多萬(wàn)注冊(cè)用戶且每天還有30多萬(wàn)的新用戶。每天平均發(fā)布5千5百多萬(wàn)條Twitter微博,內(nèi)容無所不包。在所有這些Twitter微博中,超過37%是通過移動(dòng)設(shè)備發(fā)布的,并且其實(shí)際發(fā)布的位置也大部分可以被獲得。由于Web消息的普遍使用(換言之,具有相關(guān)性和廣泛性)和知道位置的特征,發(fā)明人設(shè)想了利用Web消息來豐富傳感器數(shù)據(jù)的語(yǔ)義。具體而言,本發(fā)明通過識(shí)別Web消息與傳感器之間的關(guān)系,然后分配相關(guān)的Web消息的至少一部分內(nèi)容作為標(biāo)簽以注釋傳感器數(shù)據(jù)的語(yǔ)義來填平了人類理解與物體獲得的原始數(shù)據(jù)之間的鴻溝,從而解決了現(xiàn)有技術(shù)中存在的問題。更進(jìn)一步地,可以利用這些語(yǔ)義標(biāo)記來支持對(duì)傳感器數(shù)據(jù)的搜索和挖掘功能以及其它對(duì)原始數(shù)據(jù)的應(yīng)用。本發(fā)明公開的實(shí)施例可以以包括方法或系統(tǒng)的多種方式實(shí)施。下面討論本發(fā)明公開的幾個(gè)實(shí)施例。作為一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法的方法,本發(fā)明公開的一個(gè)實(shí)施例至少包括:對(duì)獲得的Web消息進(jìn)行相關(guān)性檢測(cè)以獲得與各種事件相關(guān)的Web消息;獲取所述相關(guān)的Web消息所包含的地址信息;基于所獲得的地址信息確定與所述各種事件接近的物體;以及使用所述相關(guān)的Web消息的至少部分內(nèi)容作為元數(shù)據(jù),標(biāo)記由所確定的接近物體產(chǎn)生的原始數(shù)據(jù)。作為一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的系統(tǒng),本發(fā)明公開的一個(gè)實(shí)施例至少包括:用于對(duì)獲得的Web消息進(jìn)行相關(guān)性檢測(cè)以獲得與各種事件相關(guān)的Web消息的裝置;用于獲取所述相關(guān)的Web消息所包含的地址信息的裝置;用于基于所獲得的地址信息確定與所述各種事件接近的物體的裝置;以及用于使用所述相關(guān)的Web消息的至少部分內(nèi)容作為元數(shù)據(jù),標(biāo)記由所確定的接近物體產(chǎn)生的原始數(shù)據(jù)的裝置。
作為一種在物聯(lián)網(wǎng)中搜索物體的方法,本發(fā)明公開的一個(gè)實(shí)施例至少包括:使用自然語(yǔ)言輸入查詢項(xiàng);以及使用所述查詢項(xiàng),基于物聯(lián)網(wǎng)中的物體的元數(shù)據(jù),產(chǎn)生搜索結(jié)果;其中所述元數(shù)據(jù)是使用上述方法產(chǎn)生的。作為一種在物聯(lián)網(wǎng)中搜索物體的設(shè)備,本發(fā)明公開的一個(gè)實(shí)施例至少包括:用于使用自然語(yǔ)言輸入查詢項(xiàng)的裝置;以及用于使用所述查詢項(xiàng),基于物聯(lián)網(wǎng)中的物體的元數(shù)據(jù),產(chǎn)生搜索結(jié)果的裝置;其中所述元數(shù)據(jù)是使用上述系統(tǒng)產(chǎn)生的。作為一種網(wǎng)絡(luò)上使用的搜索引擎,本發(fā)明公開的一個(gè)實(shí)施例至少包括:用于接收用戶輸入的模塊;上述系統(tǒng);以及用于根據(jù)用戶輸入和由所述設(shè)備產(chǎn)生的信息來進(jìn)行檢索的模塊。
本說明中所參考的附圖只用于示例本發(fā)明的典型實(shí)施例,不應(yīng)該認(rèn)為是對(duì)本發(fā)明范圍的限制。圖1是示出了現(xiàn)有技術(shù)中實(shí)際應(yīng)用與物體產(chǎn)生的原始數(shù)據(jù)之間的問題的示意圖。圖2是示出了根據(jù)本發(fā)明公開的一個(gè)實(shí)施例的用于標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法的流程圖。圖3是示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的基于每一用戶所發(fā)的Web消息的地址信息使用曲線擬合所獲得的曲線的示意圖。圖4是示出了根據(jù)本發(fā)明公開的一個(gè)實(shí)施例的用于標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的系統(tǒng)的方框圖。圖5是示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例實(shí)現(xiàn)的搜索處理示例的流程圖。圖6是示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例實(shí)現(xiàn)的搜索引擎的方框圖。
具體實(shí)施例方式下列討論中,提供大量具體的細(xì)節(jié)以幫助徹底了解本發(fā)明。然而,很顯然對(duì)于本領(lǐng)域技術(shù)人員來說,即使沒有這些具體細(xì)節(jié),并不影響對(duì)本發(fā)明的理解。并且應(yīng)該認(rèn)識(shí)到,使用如下的任何具體術(shù)語(yǔ)僅僅是為了方便描述,因此,本發(fā)明不應(yīng)當(dāng)局限于只用在這樣的術(shù)語(yǔ)所表示和/或暗示的任何特定應(yīng)用中。根據(jù)本發(fā)明公開的一個(gè)實(shí)施例,提供了通過識(shí)別Web消息與物聯(lián)網(wǎng)中的物體之間的關(guān)系,然后分配相關(guān)的Web消息的至少一部分內(nèi)容作為標(biāo)簽以注釋相應(yīng)物體所產(chǎn)生的原始數(shù)據(jù)的語(yǔ)義來解決現(xiàn)有技術(shù)中存在的至少一個(gè)問題。更進(jìn)一步地,可以利用這些語(yǔ)義標(biāo)記來支持對(duì)傳感器數(shù)據(jù)的搜索和挖掘功能以及其它對(duì)原始數(shù)據(jù)的應(yīng)用,例如,使用自然語(yǔ)言來查詢?cè)紨?shù)據(jù)。值得注意的是,本文中的術(shù)語(yǔ)“物體”指的是能夠產(chǎn)生數(shù)據(jù)并將所產(chǎn)生的數(shù)據(jù)傳送給其它物體的任意器件、裝置、設(shè)備或系統(tǒng)。例如,物體可以是感測(cè)裝置,諸如射頻識(shí)別(RFID)、讀取器、二維碼、攝像頭、傳感器等,物體也可以是搭載有RFID、、讀取器、二維碼、攝像頭、傳感器等的獨(dú)立設(shè)備,諸如具有RFID的筆記本電腦、具有溫度傳感器的電冰箱、具有二維碼的T恤等。圖2示出了根據(jù)本發(fā)明公開的一個(gè)實(shí)施例的用于標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的處理200。在步驟202,處理200開始。在步驟204,對(duì)接收到的Web消息進(jìn)行相關(guān)性檢測(cè)以獲得與所關(guān)心事件相關(guān)的Web消息。步驟204可以通過多于一個(gè)過濾步驟來實(shí)現(xiàn)。根據(jù)本發(fā)明公開的一個(gè)實(shí)施例,可以包括兩個(gè)過濾步驟:(I)基于內(nèi)容的過濾:步驟204可以包括內(nèi)容過濾步驟以過濾出內(nèi)容上相關(guān)的所有Web消息并丟棄其它消息。由于要用與物體所記錄的事件有關(guān)的信息來標(biāo)記物體,所以基于內(nèi)容的過濾可以是根據(jù)默認(rèn)選項(xiàng)(諸如,最常見的用戶查詢選項(xiàng)列表、熱點(diǎn)事件的列表、交通事件的列表、最常用的關(guān)鍵詞列表等),從大量的Web消息中查找出內(nèi)容匹配的條目。這可以使用基于關(guān)鍵字匹配的倒排表技術(shù)來實(shí)現(xiàn)。(2)基于時(shí)間的過濾:步驟204可以包括時(shí)間過濾步驟以過濾出時(shí)間上相關(guān)的所有Web消息并丟棄其它消息?;跁r(shí)間的過濾可以包括以下兩個(gè)步驟:2.1基于發(fā)布時(shí)間的過濾:也就是,只保留出發(fā)布時(shí)間與所關(guān)心事件的發(fā)生時(shí)間相關(guān)的Web消息。時(shí)間過濾步驟是為了從接收到的Web消息中過濾出Web消息的發(fā)布時(shí)間與所關(guān)心的事件發(fā)生的時(shí)間在預(yù)定時(shí)間范圍內(nèi)的Web消息,并丟棄時(shí)間不相當(dāng)?shù)钠渌黈eb消息。例如,所關(guān)心事件的發(fā)生事件是當(dāng)天早晨8:00左右。時(shí)間過濾步驟只保留當(dāng)天7:30 8:30這個(gè)時(shí)間段內(nèi)發(fā)布的Web消息。存在時(shí)間范圍可能是由于發(fā)布Web消息的用戶可能是移動(dòng)的,在他看到事件的發(fā)生和他實(shí)際發(fā)布Web消息之間存在時(shí)間差;也可能是由于用戶看到事件后經(jīng)過一段時(shí)間才發(fā)布相關(guān)的Web消息;或者也可能是由于網(wǎng)絡(luò)擁塞、無線網(wǎng)絡(luò)不穩(wěn)定等等而導(dǎo)致的時(shí)間差。該預(yù)定時(shí)間可以是預(yù)設(shè)的,也可以由用戶/系統(tǒng)設(shè)置。2.2即時(shí)性過濾:在發(fā)布時(shí)間過濾的基礎(chǔ)上,再次使用即時(shí)性進(jìn)行過濾,從而只保留在規(guī)定的時(shí)間范圍內(nèi)所發(fā)布的描述現(xiàn)在情況的Web消息。例如,當(dāng)天早晨8:00之后發(fā)布的Web消息可能包括諸如“昨天發(fā)生的XX”之類的內(nèi)容。但是,這些內(nèi)容顯然不是發(fā)布的即時(shí)信息,而是過期信息,應(yīng)該過濾掉。而像“剛剛發(fā)生的XX”則屬于即時(shí)信息,應(yīng)該保留。即時(shí)性過濾步驟可以通過結(jié)合現(xiàn)有的分詞和分類技術(shù)來實(shí)現(xiàn)。根據(jù)本發(fā)明的一個(gè)方面,提出了一種結(jié)合了現(xiàn)有的分詞和分類處理的內(nèi)容過濾引擎。舉例而言,首先可以選取2,000條Web消息。人為地將這些Web消息分類為現(xiàn)在、過去、將來和其它。對(duì)于每個(gè)Web消息中的每一句子,首先將其分詞。例如,一個(gè)Web消息僅包括一句話“我現(xiàn)在在看電影?!?。經(jīng)過分詞,變?yōu)椤拔?現(xiàn)在/在/看/電影?!?。將每一個(gè)分詞作為特征,構(gòu)建基于機(jī)器學(xué)習(xí)算法的分類器。可以使用SVM(SupportVector Machine)算法,ME(Maximum Entropy)算法等等。這樣對(duì)于沒有進(jìn)行人工標(biāo)注的Web消息,可以使用這個(gè)分類器進(jìn)行自動(dòng)識(shí)別,將其標(biāo)注為現(xiàn)在、過去、將來和其它中的一類。只有標(biāo)注為現(xiàn)在的Web消息保留下來,其余的都刪除掉。但是,值得注意的是本發(fā)明不限于以上處理過程,而是本領(lǐng)域技術(shù)人員可以根據(jù)自己的需求,可以使用其它的分詞和分類技術(shù)。雖然以上以特定順序示出和描述了各個(gè)過濾步驟,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解本發(fā)明不限于該特定順序,而是可以根據(jù)需要以任意順序執(zhí)行基于內(nèi)容的過濾和基于時(shí)間的過濾。在步驟206,對(duì)Web消息進(jìn)行地址信息檢測(cè)以獲得包含地址信息的Web消息的地址信息,并且丟棄不包含地址信息的Web消息。需要說明的是,不是所有Web消息都包括地址信息,而是發(fā)布Web消息的用戶可以選擇是否公開其當(dāng)前的地址信息。如果用戶選擇公開其地址信息,則所發(fā)布的Web消息就包括地址信息,否則就不包括地址信息。地址信息通常是GPS地址數(shù)據(jù)的形式,但是通過使用第三方服務(wù),Web消息的地址信息也可能是文字描述的形式,諸如“XX街與YY街路口”??梢酝ㄟ^Web瀏覽器提供的API接口獲得用戶發(fā)布該消息時(shí)的地址信息。但是如果獲得的地址信息是文字描述,根據(jù)本發(fā)明公開的一個(gè)實(shí)施例,則需要將文字描述轉(zhuǎn)換成GPS地址數(shù)據(jù)。該轉(zhuǎn)換可以使用現(xiàn)有技術(shù)中的轉(zhuǎn)換工具,在此不作詳細(xì)描述。根據(jù)本發(fā)明的另一個(gè)實(shí)施例,可以從Web消息的內(nèi)容中過濾出地址信息,然后再將該地址信息轉(zhuǎn)換成GPS地址數(shù)據(jù)。例如,Web消息可能是“現(xiàn)在,崇文門大街到長(zhǎng)安街的路口發(fā)生了擁堵,車輛行駛緩慢?!???梢詮脑撓⒅刑崛〕龅刂沸畔ⅰ俺缥拈T大街到長(zhǎng)安街的路口”。結(jié)合已有的地圖信息,則可將該地址信息轉(zhuǎn)換成GPS地址數(shù)據(jù)。在步驟208,基于所獲得的Web消息的地址信息,檢測(cè)1T中與所關(guān)心事件接近的物體。對(duì)于本領(lǐng)域技術(shù)人員而言,1T中每個(gè)物體的位置(諸如,GPS地址數(shù)據(jù))都是已知的。可以通過Web消息的地址信息和物體的已知的位置信息來確定與所關(guān)心事件相關(guān)的物體。例如,確定二者之間的直線距離最小的物體為接近的物體。但是,如前所述,由于用戶可能是移動(dòng)的,也可能在看到事件之后一段時(shí)間才發(fā)送Web消息而這時(shí)其位置已經(jīng)發(fā)生改變等等,所以用戶在發(fā)送Web消息時(shí)所處的位置與可能記錄所關(guān)心事件的物體的位置可能存在差異。從而僅僅憑借一個(gè)或幾個(gè)Web消息的地址信息和物體的已知的位置信息可能難以確定與所關(guān)心事件接近度較高的物體。根據(jù)本發(fā)明公開的一個(gè)實(shí)施例,提出了使用現(xiàn)有的曲線擬合技術(shù)來從1T中的數(shù)量巨大的物體中確定出與所關(guān)心事件接近度較高的物體。根據(jù)本發(fā)明公開的一個(gè)實(shí)施例,接近性檢測(cè)步驟可以包括以下操作:第一步驟:從所獲得的Web消息中提取出從同一用戶發(fā)布的Web消息的地址信息。t匕如,發(fā)布相關(guān)消息的可能有100個(gè)用戶,從中提取出同一個(gè)用戶最近6個(gè)小時(shí)內(nèi)發(fā)布的Web消息的地址信息。第二步驟:針對(duì)每一個(gè)用戶,使用其所發(fā)布的Web消息的地址信息進(jìn)行曲線擬合,以獲得其位置曲線。圖3是示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的基于每一用戶所發(fā)的Web消息的地址信息使用曲線擬合所獲得的曲線的示意圖。如圖3所示,空心圓代表一條Web消息的一個(gè)地址信息,每一條曲線是基于來自同一用戶的Web消息的地址信息所擬合出來的曲線。在圖3中,實(shí)心圓代表1T中的物體。雖然圖3中僅僅示出了一個(gè)物體,但是本發(fā)明不限于此,如前所述,物體的數(shù)量可以多得多,本領(lǐng)域技術(shù)人員可以根據(jù)需要對(duì)其進(jìn)行選擇。第三步驟:基于物體的位置數(shù)據(jù)和各個(gè)曲線之間的距離關(guān)系,確定接近的物體。可以使用以下公式來確定物體的位置數(shù)據(jù)和各個(gè)曲線之間的距離關(guān)系:將物記為Χι,X2,...Xm,曲線表為 Di,D2 ...,DfsJjarg Hiini (maxj (distance (Xi, Dj)))其中distance(Xi,Dj)代表第i個(gè)物體到第j條擬合曲線的最短距離,其中,i代表第i個(gè)物體,其是從I到M之間的整數(shù)值,M是用戶根據(jù)需要所選取的接近物體的總數(shù);j代表第j個(gè)擬合曲線,其中j是從I到N之間的整數(shù)值,N是通過曲線擬合所獲得的曲線的總數(shù);Max代表取最大值的函數(shù),Min代表取最小值的函數(shù)。使用上述公式,選取物體到各個(gè)曲線的距離中的最大距離作為該物體的特征距離,然后選取所有物體中特征距離最小的物體作為與所關(guān)心事件最接近的物體。更進(jìn)一步地,可以按照該特征距離從小到大來對(duì)相應(yīng)的物體進(jìn)行排序,以表示各個(gè)物體與所關(guān)心事件的接進(jìn)度。例如,還以圖3為例,曲線擬合的結(jié)果是,基于用戶A的地址信息擬合出兩條曲線I和2,基于用戶B的地址信息擬合出一條曲線3。假設(shè)存在有多個(gè)物體。其中各個(gè)物體到
三條曲線的距離中的最大距離分別為5、3、5、6、9、8.......則選取具有最大距離的最小值
3的物體作為最接近物體,如圖3所示。這個(gè)方法的最大好處在于公式argmirii (max」(distance (Xi, Dj)))在現(xiàn)有技術(shù)中是簡(jiǎn)單的且已被標(biāo)準(zhǔn)化,并且可以容易地獲得實(shí)現(xiàn)其的工具。當(dāng)然,本發(fā)明不限于此,本領(lǐng)域技術(shù)人員也可以根據(jù)其需求使用其它距離公式??梢允褂美缙骄嚯x最小值,也就是,使用一個(gè)物體到各個(gè)曲線的距離的平均值作為其特征距離,并選取特征距離最小的物體作為最接近的物體。還可以使用例如最大距離的平方最小值,也就是,使用一個(gè)物體到各個(gè)曲線的距離中的最大距離的平方值作為其特征距離,并選取特征距離最小的物體作為最接近的物體。在步驟210,利用Web消息的至少一部分,對(duì)所確定的接近物體的原始數(shù)據(jù)進(jìn)行標(biāo)記。例如,一個(gè)用戶在2011年9月23日7時(shí)56分發(fā)布一條Web消息為“看到了四車追尾,太慘了!”,并且最接近的攝像頭為新街口西口的攝像頭。則可以用Web消息中的“追尾”和時(shí)間“2011/9/237:56”,來作為新街口西口的攝像頭所獲得的原始數(shù)據(jù)文件vsd.vso的元數(shù)據(jù),對(duì)其進(jìn)行標(biāo)記。更進(jìn)一步的,可以針對(duì)各個(gè)接近的攝像頭進(jìn)行排序,例如,生成包括如下內(nèi)容的Web頁(yè)面:追尾2011/9/23 7:56 新街口西口vsd.vso新街口西街東口 vsf.vso新街口西街西口 vsg.vso用戶可以點(diǎn)擊相應(yīng)的視頻文件觀看。也可以通過自然語(yǔ)言“追尾”、“2011年9月23日”等來進(jìn)行數(shù)據(jù)檢索。在步驟212,處理200結(jié)束。如前所述,Web消息的數(shù)量是指數(shù)級(jí)的。如果每一次執(zhí)行處理200,在步驟204開始是對(duì)網(wǎng)絡(luò)上的所有Web消息進(jìn)行處理的話,那么處理所需的時(shí)間和計(jì)算成本較大。根據(jù)本發(fā)明的一個(gè)實(shí)施例 ,在步驟202和步驟204之間可以包括一個(gè)預(yù)處理步驟。所述預(yù)處理步驟可以使用現(xiàn)有的索引技術(shù)來實(shí)時(shí)地索引網(wǎng)絡(luò)上發(fā)布的所有Web消息,然后在步驟204中基于索引取出與所關(guān)心事件在內(nèi)容上相關(guān)的Web消息。舉例而言,可以使用分詞技術(shù)對(duì)每一個(gè)Web消息實(shí)時(shí)地進(jìn)行分詞,根據(jù)預(yù)先建立的關(guān)鍵詞庫(kù),確定Web消息中是否出現(xiàn)至少一個(gè)關(guān)鍵詞,然后,建立出現(xiàn)某一關(guān)鍵詞的Web消息與關(guān)鍵詞庫(kù)中該關(guān)鍵詞之間的鏈接來進(jìn)行索引。還以Web消息為“汽車追尾”為例,將該消息分詞為“汽車/追尾/”。那么使用“汽車”,“追尾”作為索引詞,構(gòu)建倒排表,通過搜索“汽車”或者“追尾”,都可以得到這條消息。然后,在步驟204中使用該鏈接將與關(guān)鍵詞相關(guān)的Web消息快速地提取出來以供進(jìn)一步處理。此外,圖2中雖然使用了箭頭線來指示各個(gè)步驟,但是本發(fā)明不限于此,而是可以以其它順序執(zhí)行圖2中的各個(gè)步驟。例如,步驟204和206的執(zhí)行順序可以相反。圖4是示出了根據(jù)本發(fā)明公開的一個(gè)實(shí)施例的用于標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的系統(tǒng)400的方框圖。根據(jù)本發(fā)明的一個(gè)實(shí)施例的系統(tǒng)400包括Web消息搜索引擎401、相關(guān)性檢測(cè)器407、地址信息檢測(cè)器409、接近性檢測(cè)器411和標(biāo)記器411。相關(guān)性檢測(cè)器407包括內(nèi)容過濾器403和時(shí)間過濾器405。Web消息搜索引擎401是可選的,其不是實(shí)現(xiàn)本發(fā)明所必需的。Web消息搜索引擎401用于實(shí)時(shí)地索引網(wǎng)絡(luò)上發(fā)布的所有Web消息。相關(guān)性檢測(cè)器407用于檢測(cè)與各種事件相關(guān)的Web消息。內(nèi)容過濾器403用于過濾出內(nèi)容與各種事件相關(guān)的Web消息。時(shí)間過濾器405用于過濾出發(fā)布時(shí)間與各種事件的發(fā)生時(shí)間在預(yù)定范圍內(nèi)的Web消息,并且進(jìn)行即時(shí)行過濾以獲得在規(guī)定的時(shí)間范圍內(nèi)所發(fā)布的描述現(xiàn)在情況的Web消息。其它Web消息將被丟棄。 地址信息檢測(cè)器409接收來自相關(guān)性檢測(cè)器407的相關(guān)Web消息,并提取這些Web消息中的地址信息。地址信息可以是使用API從Web消息提取的,也可以是從Web消息的內(nèi)容中過濾出來的。地址信息可以具有GPS數(shù)據(jù)格式或文本格式。地址信息檢測(cè)器409可以包括一個(gè)轉(zhuǎn)換器(未不出),用于轉(zhuǎn)換所述地址信息的格式,例如從文本格式轉(zhuǎn)換成GPS數(shù)據(jù)格式。接近性檢測(cè)器411用于基于來自地址信息檢測(cè)器409的地址信息,確定與所發(fā)生的事件最接近的物體。具體的實(shí)施方式在上面已經(jīng)進(jìn)行了詳細(xì)描述,在此不再重復(fù)。標(biāo)記器413用于基于相應(yīng)的Web消息,來標(biāo)記來自所確定的最接近的物體的原始數(shù)據(jù)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,標(biāo)記的結(jié)果可以以網(wǎng)頁(yè)、文檔、文本等形式發(fā)布,以供進(jìn)一步的處理。例如,搜索引擎可以使用該標(biāo)記的結(jié)果進(jìn)行搜索,以便為使用自然語(yǔ)言進(jìn)行查詢的用戶快速地提供相關(guān)的查詢結(jié)果。圖5是示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例實(shí)現(xiàn)的搜索處理示例的流程圖。圖5示出的是本發(fā)明在查詢上的一個(gè)應(yīng)用。如圖5所示,用戶可以使用“追尾”來查詢所發(fā)生的追尾事件。內(nèi)容過濾器403找出與關(guān)鍵詞“追尾”鏈接的網(wǎng)頁(yè)并給出這些在內(nèi)容上與用戶的查詢條件有關(guān)的網(wǎng)頁(yè)。時(shí)間過濾器405過濾掉不在所需時(shí)間范圍內(nèi)的所有Web消息,并對(duì)剩余的Web消息進(jìn)行處理。時(shí)間過濾器405還基于Web消息的內(nèi)容進(jìn)行即時(shí)行過濾,以過濾掉與現(xiàn)在情況不相關(guān)的Web消息。例如,用戶需要的今天的追尾事件,因此,包括“昨天....追尾”或“很久以前....追尾”的Web消息不是所關(guān)心的,從而去除這些消息。地址信息檢測(cè)器409從剩余的Web消息中獲取其中的地址信息。如上所述,1T中的物體的位置信息是已知的,預(yù)存在數(shù)據(jù)庫(kù)中。接近性檢測(cè)器411檢測(cè)出與所關(guān)心的事件相關(guān)的物體。標(biāo)記器411使用Web消息的至少一部分來對(duì)各個(gè)物體進(jìn)行標(biāo)記以表明各個(gè)物體獲得的原始數(shù)據(jù)的語(yǔ)義。通過使用所述標(biāo)記,可以將自然語(yǔ)言的查詢與原始數(shù)據(jù)關(guān)聯(lián)起來,從而給用戶提供諸如:“返回的查詢結(jié)果:諸如正在或已經(jīng)監(jiān)控到“追尾”的攝像頭,用戶可以連接到該攝像頭并瀏覽其數(shù)據(jù)”。當(dāng)然,用戶還可以基于標(biāo)記對(duì)原始數(shù)據(jù)之間的關(guān)聯(lián)性進(jìn)行挖掘。例如,可以找出與一次追尾有關(guān)的所有攝像頭,以便獲得與該追尾的發(fā)生過程有關(guān)的數(shù)據(jù)。圖6是示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例實(shí)現(xiàn)的搜索引擎的方框圖。圖6示出的本發(fā)明的一個(gè)實(shí)現(xiàn)的具體例子。如圖6所示,搜索引擎包括了圖4所述的系統(tǒng)400。此外,搜索引擎用于接收用戶輸入的模塊601和用于根據(jù)用戶輸入和由系統(tǒng)400產(chǎn)生的信息來進(jìn)行檢索的模塊602。然后,所獲得檢索結(jié)果被返回給查詢用戶。以上對(duì)本發(fā)明的基本思想進(jìn)行了描述,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解:本發(fā)明提供了以下優(yōu)點(diǎn)中的一個(gè)或多個(gè):可以組合Web消息和1T以提供可理解的1T。-分配Web消息給相關(guān)“物體”-用元數(shù)據(jù)豐富物體的觀測(cè)一其以自然語(yǔ)言而不是以定量的數(shù)據(jù)、圖像、視頻等;-其傳遞情感觀點(diǎn)而不是中性數(shù)據(jù);—其反映不同人的不同觀點(diǎn)。用Web消息豐富“物體”-識(shí)別即時(shí)微博貼子與“物體”之間的關(guān)系-分配這些貼子作為標(biāo)簽給“物體”-支持對(duì)物體的搜索和挖掘功能一用戶可以用自然語(yǔ)言查詢來進(jìn)行搜索—檢索相關(guān)的微博貼子所屬技術(shù)領(lǐng)域的技術(shù)人員知道,本發(fā)明可以體現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可以具體實(shí)現(xiàn)為以下形式,即,可以是完全的硬件、完全的軟件(包括固件、駐留軟件、微代碼等)、或者本文一般稱為“電路”、“模塊”或“系統(tǒng)”的軟件部分與硬件部分的組合。此外,本發(fā)明還可以采取體現(xiàn)在任何有形的表達(dá)介質(zhì)(medium of expression)中的計(jì)算機(jī)程序產(chǎn)品的形式,該介質(zhì)中包含計(jì)算機(jī)可用的程序碼??梢允褂靡粋€(gè)或多個(gè)計(jì)算機(jī)可用的或計(jì)算機(jī)可讀的介質(zhì)的任何組合。計(jì)算機(jī)可用的或計(jì)算機(jī)可讀的介質(zhì)例如可以是一但不限于一電的、磁的、光的、電磁的、紅外線的、或半導(dǎo)體的系統(tǒng)、裝置、器件或傳播介質(zhì)。以下參照按照本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。要明白的是,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,使得通過計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令,產(chǎn)生實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。權(quán)利要求中的對(duì)應(yīng)結(jié)構(gòu)、材料、操作以及所有功能性限定的裝置(means)或步驟的等同替換,旨在包括任何用于與在權(quán)利要求中具體指出的其它單元相組合地執(zhí)行該功能的結(jié)構(gòu)、材料或操作。所給出的對(duì)本發(fā)明的描述其目的在于示意和描述,并非是窮盡性的,也并非是要把本發(fā)明限定到所表述的形式。對(duì)于所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不偏離本發(fā)明范圍和精神的情況下,顯然可以作出許多修改和變型。對(duì)實(shí)施例的選擇和說明,是為了最好地解釋本發(fā)明的原理和實(shí)際應(yīng)用,使所屬技術(shù)領(lǐng)域的普通技術(shù)人員能夠明了,本發(fā)明可以有適合所要的特定用途的具有各種改變的各種實(shí)施方式。
權(quán)利要求
1.一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法,包括: 對(duì)獲得的Web消息進(jìn)行相關(guān)性檢測(cè)以獲得與各種事件相關(guān)的Web消息; 獲取所述相關(guān)的Web消息所包含的地址信息; 基于所獲得的地址信息確定與所述各種事件接近的物體;以及使用所述相關(guān)的Web消息的至少部分內(nèi)容作為元數(shù)據(jù),標(biāo)記由所確定的接近物體產(chǎn)生的原始數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述基于所獲得的地址信息確定與所述各種事件接近的物體的步驟包括: 從所述相關(guān)的Web消息中獲取與同一用戶相關(guān)的地址信息; 基于所述所獲取的地址信息使用曲線擬合以生成擬合的曲線;以及 基于物聯(lián)網(wǎng)中的物體的位置信息和所擬合的曲線,確定所述物體的接近度。
3.根據(jù)權(quán)利要求2所述的方法,其中,按照各個(gè)物體的位置信息與所述所擬合的曲線的距離中的最小值、或按照各個(gè)物體的位置信息與所述所擬合的曲線的最大距離的最小值、或按照各個(gè)物體的位置信息與所述所擬合的曲線的平均距離的最小值、或按照各個(gè)物體的位置信息與所述所擬合的曲線的最大距離的平方值的最小值,來確定各個(gè)物體與所關(guān)心的事件的接近度。
4.根據(jù)權(quán)利要求1所述的方法,還包括: 對(duì)網(wǎng)絡(luò)上出現(xiàn)的Web消息實(shí)時(shí)地進(jìn)行索引;以及 從索引后的Web消息中檢索 出與所述各種事件中的所關(guān)心事件有關(guān)的所有Web消息。
5.根據(jù)權(quán)利要求1所述的方法,其中,使用所述相關(guān)的Web消息的發(fā)布時(shí)間和與所關(guān)心的事件有關(guān)的詞語(yǔ),產(chǎn)生用于標(biāo)記由接近的物體產(chǎn)生的原始數(shù)據(jù)的元數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的方法,其中,基于所述元數(shù)據(jù),來對(duì)使用自然語(yǔ)言進(jìn)行的查詢進(jìn)行響應(yīng)。
7.根據(jù)權(quán)利要求2所述的方法,還包括: 按照各個(gè)物體的接進(jìn)度,對(duì)所述各個(gè)物體進(jìn)行排序。
8.一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的系統(tǒng),包括: 用于對(duì)獲得的Web消息進(jìn)行相關(guān)性檢測(cè)以獲得與各種事件相關(guān)的Web消息的裝置; 用于獲取所述相關(guān)的Web消息所包含的地址信息的裝置; 用于基于所獲得的地址信息確定與所述各種事件接近的物體的裝置;以及用于使用所述相關(guān)的Web消息的至少部分內(nèi)容作為元數(shù)據(jù),標(biāo)記由所確定的接近物體產(chǎn)生的原始數(shù)據(jù)的裝置。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中,所述用于基于所獲得的地址信息確定與所述各種事件接近的物體的裝置包括: 用于從所述相關(guān)的Web消息中獲取與同一用戶相關(guān)的地址信息的裝置; 用于基于所述所獲取的地址信息使用曲線擬合以生成擬合的曲線的裝置;以及 用于基于物聯(lián)網(wǎng)中的物體的位置信息和所擬合的曲線,確定所述物體的接近度的裝置。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,按照各個(gè)物體的位置信息與所述所擬合的曲線的距離中的最小值、或按照各個(gè)物體的位置信息與所述所擬合的曲線的最大距離的最小值、或按照各個(gè)物體的位置信息與所述所擬合的曲線的平均距離的最小值、或按照各個(gè)物體的位置信息與所述所擬合的曲線的最大距離的平方值的最小值,來確定各個(gè)物體與所關(guān)心的事件的接近度。
11.根據(jù)權(quán)利要求8所述的系統(tǒng),還包括: 用于對(duì)網(wǎng)絡(luò)上出現(xiàn)的Web消息實(shí)時(shí)地進(jìn)行索引的裝置;以及 用于從索引后的Web消息中檢索出與所述各種事件中的所關(guān)心事件有關(guān)的所有Web消息的裝置。
12.根據(jù)權(quán)利要求8所述的系統(tǒng),其中,使用所述相關(guān)的Web消息的發(fā)布時(shí)間和與所關(guān)心的事件有關(guān)的詞語(yǔ),產(chǎn)生用于標(biāo)記由接近的物體產(chǎn)生的原始數(shù)據(jù)的元數(shù)據(jù)。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其中,基于所述元數(shù)據(jù),來對(duì)使用自然語(yǔ)言進(jìn)行的查詢進(jìn)行響應(yīng)。
14.根據(jù)權(quán)利要求9所述的系統(tǒng),還包括: 用于按照各個(gè)物體的接進(jìn)度,對(duì)所述各個(gè)物體進(jìn)行排序的裝置。
15.—種在物聯(lián)網(wǎng)中搜索物體的方法,包括: 使用自然語(yǔ)言輸入查詢項(xiàng);以及 使用所述查詢項(xiàng),基于物聯(lián)網(wǎng)中的物體的元數(shù)據(jù),產(chǎn)生搜索結(jié)果; 其中所述元數(shù)據(jù)是使用權(quán)利要 求1-7中任一項(xiàng)所述的方法產(chǎn)生的。
16.一種在物聯(lián)網(wǎng)中搜索物體的設(shè)備,包括: 用于使用自然語(yǔ)言輸入查詢項(xiàng)的裝置;以及 用于使用所述查詢項(xiàng),基于物聯(lián)網(wǎng)中的物體的元數(shù)據(jù),產(chǎn)生搜索結(jié)果的裝置; 其中所述元數(shù)據(jù)是使用權(quán)利要求8-14中任一項(xiàng)所述的設(shè)備產(chǎn)生的。
17.—種網(wǎng)絡(luò)上使用的搜索引擎,包括: 用于接收用戶輸入的模塊; 如權(quán)利要求8-14中任一項(xiàng)所述的設(shè)備;以及 用于根據(jù)用戶輸入和由所述設(shè)備產(chǎn)生的信息來進(jìn)行檢索的模塊。
全文摘要
本發(fā)明公開涉及標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法及系統(tǒng)。所述方法包括包括對(duì)獲得的Web消息進(jìn)行相關(guān)性檢測(cè)以獲得與各種事件相關(guān)的Web消息;獲取所述相關(guān)的Web消息所包含的地址信息;基于所獲得的地址信息確定與所述各種事件接近的物體;以及使用所述相關(guān)的Web消息的至少部分內(nèi)容作為元數(shù)據(jù),標(biāo)記由所確定的接近物體產(chǎn)生的原始數(shù)據(jù)。通過使用本發(fā)明,使得可以給人類難以理解的來自各種各樣物體的原始數(shù)據(jù)添加自然語(yǔ)言的元數(shù)據(jù),以便可以使用自然語(yǔ)言來進(jìn)行檢索和進(jìn)行數(shù)據(jù)挖掘。
文檔編號(hào)G06F17/30GK103092880SQ20111034715
公開日2013年5月8日 申請(qǐng)日期2011年10月31日 優(yōu)先權(quán)日2011年10月31日
發(fā)明者吳賢, 蔡柯柯, 張碩, 夏立軍, 姚劍, 張俐, 蘇中 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司