本發(fā)明的實施方式涉及信息分析系統(tǒng)、信息分析方法以及信息分析程序。
背景技術(shù):
近年來,隨著信息處理技術(shù)的高速化和低成本化以及因特網(wǎng)技術(shù)等網(wǎng)絡(luò)技術(shù)的普及等,在網(wǎng)絡(luò)上存儲有數(shù)量龐大的信息(電子數(shù)據(jù))。例如,在因特網(wǎng)上的布告欄(電子布告欄)上,按照時間順序匯總有使用者發(fā)表的發(fā)言。
在此,為了供使用者獲得期望的信息,而提出了推薦各種信息的信息推薦技術(shù)的方案。例如,有一種技術(shù),其根據(jù)布告欄而生成特征向量來分析特征。在該技術(shù)中,例如,當(dāng)使用者輸入了關(guān)鍵字時,向使用者提示具有與所輸入的關(guān)鍵字對應(yīng)的特征的布告欄。
現(xiàn)有技術(shù)文獻(xiàn)
專利文獻(xiàn)
專利文獻(xiàn)1:日本特開2010-231471號公報
技術(shù)實現(xiàn)要素:
發(fā)明要解決的課題
但是,在以往的技術(shù)中,存在難以根據(jù)發(fā)表在網(wǎng)絡(luò)上的信息而分析有益的發(fā)言的問題。例如,在根據(jù)布告欄而生成特征向量來分析特征的技術(shù)中,當(dāng)在布告欄上包含很多沒有意義的發(fā)言的情況下,導(dǎo)致有益的發(fā)言被埋沒在沒有意義的發(fā)言中。
因此,本發(fā)明的目的在于根據(jù)發(fā)表在網(wǎng)絡(luò)上的信息對有益的發(fā)言進(jìn)行分析。
用于解決課題的手段
實施方式的信息分析系統(tǒng)具有發(fā)言分析部、帖子分析部以及保存部。發(fā)言分析部針對作為發(fā)表在網(wǎng)絡(luò)上的發(fā)言的集合的帖子,按照該帖子所包含的每個發(fā)言,基于作為與該發(fā)言相關(guān)的數(shù)據(jù)的發(fā)言數(shù)據(jù),對該發(fā)言的重要度進(jìn)行分析。帖子分析部基于作為與所述帖子相關(guān)的數(shù)據(jù)的帖子數(shù)據(jù),分析該帖子屬于預(yù)先設(shè)定的多個類別中的哪個類別。保存部按照每個所述發(fā)言將該發(fā)言、該發(fā)言的重要度以及包含該發(fā)言的帖子的類別關(guān)聯(lián)起來保存于規(guī)定的存儲部中。
發(fā)明效果
根據(jù)本申請所公開的技術(shù)的一個方式,產(chǎn)生能夠根據(jù)發(fā)表在網(wǎng)絡(luò)上的信息對有益的發(fā)言進(jìn)行分析的效果。
附圖說明
圖1是示出第1實施方式的信息分析系統(tǒng)的結(jié)構(gòu)的一例的圖。
圖2是示出第1實施方式的帖子數(shù)據(jù)存儲部中存儲的帖子數(shù)據(jù)的一例的圖。
圖3是示出第1實施方式的信息分析系統(tǒng)中的處理的流程的流程圖。
圖4是用于說明第1實施方式的效果的圖。
圖5是示出第2實施方式的信息分析系統(tǒng)中的處理的流程的流程圖。
圖6是用于說明第2實施方式的效果的圖。
圖7是示出第3實施方式的信息分析系統(tǒng)中的處理的流程的流程圖。
圖8是用于說明第3實施方式的效果的圖。
圖9是示出執(zhí)行信息分析程序的計算機的圖。
具體實施方式
以下參照附圖,詳細(xì)地說明本發(fā)明的信息分析系統(tǒng)、信息分析方法以及信息分析程序的實施方式。此外,本發(fā)明不限定于以下的實施方式。
[第1實施方式]
在以下的實施方式中,按順序說明第1實施方式的信息分析系統(tǒng)的結(jié)構(gòu)、信息分析系統(tǒng)中的處理的流程,而在最后說明第1實施方式的效果。
[信息分析系統(tǒng)的結(jié)構(gòu)]
圖1是示出第1實施方式的信息分析系統(tǒng)100的結(jié)構(gòu)的一例的圖。如圖1所示,信息分析系統(tǒng)100具有通信處理部110、存儲部120、功能部130以及控制部140。另外,信息分析系統(tǒng)100與因特網(wǎng)連接。
通信處理部110控制與和網(wǎng)絡(luò)上的裝置之間交換各種信息相關(guān)的通信。例如,通信處理部110通過后述的收集部131的控制而訪問因特網(wǎng)上的各種電子布告欄(BBS:Bulletin Board System)站點。
如圖1所示,存儲部120具有帖子數(shù)據(jù)存儲部121和分析結(jié)果存儲部122。存儲部120例如是RAM(Random Access Memory:隨機存取存儲器)、閃存(Flash Memory)等半導(dǎo)體存儲器元件、或者硬盤、光盤等存儲裝置等。
帖子數(shù)據(jù)存儲部121存儲從因特網(wǎng)上的BBS站點收集的帖子數(shù)據(jù)。在此,帖子數(shù)據(jù)是與帖子(thread)相關(guān)的數(shù)據(jù),其中帖子是發(fā)表在網(wǎng)絡(luò)上的發(fā)言的集合。例如,帖子數(shù)據(jù)存儲部121存儲收集部131收集的帖子數(shù)據(jù)。另外,例如,由分析部132參照帖子數(shù)據(jù)存儲部121。
圖2是示出第1實施方式的帖子數(shù)據(jù)存儲部121中存儲的帖子數(shù)據(jù)的一例的圖。如圖2所示,例如帖子數(shù)據(jù)存儲部121中存儲的帖子數(shù)據(jù)10包含標(biāo)題11、發(fā)言12以及發(fā)言13。在此,標(biāo)題11是帖子的標(biāo)題。另外,發(fā)言12、13是BBS的使用者發(fā)表的發(fā)言。發(fā)言12、13包含發(fā)言順序、發(fā)言者姓名、發(fā)言時間和日期以及發(fā)言內(nèi)容。在圖2所示的例子中,示出了發(fā)言12的發(fā)言順序是“1”、發(fā)言者姓名是“A1”、發(fā)言時間和日期是“A2”、發(fā)言內(nèi)容是“A3”的情況。
分析結(jié)果存儲部122存儲分析結(jié)果。例如,分析結(jié)果存儲部122存儲后述的分析部132分析的分析結(jié)果。分析結(jié)果存儲部122中存儲的分析結(jié)果例如保存于后述的保存部133中。另外,按照使用者的請求,輸出分析結(jié)果存儲部122中存儲的分析結(jié)果。
返回圖1的說明。功能部130具有收集部131、分析部132以及保存部133。在此,功能部130是負(fù)責(zé)各處理之處,實際上作為軟件(的1個組件)或者中間件來實現(xiàn)。另外,控制部140對通信處理部110、存儲部120以及功能部130的動作進(jìn)行控制,且對信息分析系統(tǒng)100的動作進(jìn)行管理,實際上通過CPU(Central Processing Unit:中央處理單元)或MPU(Micro Processing Unit:微處理單元)等集成電路等來實現(xiàn)控制部140。
收集部131從發(fā)表在網(wǎng)絡(luò)上的信息中收集帖子數(shù)據(jù)。例如,收集部131對因特網(wǎng)上的BBS站點中進(jìn)行巡查,并從BBS站點收集帖子數(shù)據(jù)。而且,收集部131將所收集的帖子數(shù)據(jù)保存于帖子數(shù)據(jù)存儲部121中。
此外,收集部131在HTML(HyperText Markup Language:超文本標(biāo)記語言)標(biāo)簽或腳本、廣告等除了字符信息以外的信息包含于帖子中的情況下,將那些信息去除之后保存于帖子數(shù)據(jù)存儲部121中。另外,關(guān)于由收集部131巡查的巡查對象的站點,既可以預(yù)先指定為URL(Uniform Resource Locator:統(tǒng)一資源定位符)等列表,也可以每次進(jìn)行收集時進(jìn)行指定。
分析部132分析收集部131所收集的帖子數(shù)據(jù)。如圖1所示,分析部132具有發(fā)言剪切部132A、發(fā)言分析部132B以及帖子分析部132C。
發(fā)言剪切部132A從帖子數(shù)據(jù)中剪切帖子數(shù)據(jù)所包含的發(fā)言,而生成作為與發(fā)言相關(guān)的數(shù)據(jù)的發(fā)言數(shù)據(jù)。在此,所謂的發(fā)言數(shù)據(jù)例如是將“發(fā)言順序”、“發(fā)言者姓名”、“發(fā)言時間和日期”、“發(fā)言內(nèi)容”以及“附加信息”關(guān)聯(lián)起來而得到的數(shù)據(jù)?!鞍l(fā)言順序”、“發(fā)言者姓名”、“發(fā)言時間和日期”以及“發(fā)言內(nèi)容”是從帖子數(shù)據(jù)中提取出對應(yīng)之處而得到的數(shù)據(jù)。另外,“附加信息”是將“字符數(shù)”、“回復(fù)標(biāo)志”以及“回復(fù)數(shù)”關(guān)聯(lián)起來而得到的數(shù)據(jù)?!白址麛?shù)”與發(fā)言內(nèi)容的字符數(shù)對應(yīng)?!盎貜?fù)標(biāo)志”是表示該發(fā)言是否是對別的發(fā)言的回復(fù)的標(biāo)志。例如,在該發(fā)言的發(fā)言內(nèi)容是從“>(數(shù)字)”開始的情況下,被賦予表示該發(fā)言是回復(fù)的回復(fù)標(biāo)志“1”。另一方面,在不是從“>(數(shù)字)”開始的情況下,被賦予表示該發(fā)言不是回復(fù)的回復(fù)標(biāo)志“0”。此外,(數(shù)字)表示回復(fù)對象的發(fā)言順序?!盎貜?fù)數(shù)”表示對該發(fā)言回復(fù)的數(shù)量。例如,發(fā)言內(nèi)容從“>(數(shù)字)”開始的發(fā)言的數(shù)量與該數(shù)字的發(fā)言編號的回復(fù)數(shù)對應(yīng)。
例如,發(fā)言剪切部132A獲取帖子數(shù)據(jù)存儲部121中存儲的帖子數(shù)據(jù)。而且,發(fā)言剪切部132A分別剪切所獲取的帖子數(shù)據(jù)所包含的發(fā)言而分別生成發(fā)言數(shù)據(jù)。發(fā)言剪切部132A將所生成的各個發(fā)言數(shù)據(jù)送往發(fā)言分析部132B。另外,發(fā)言剪切部132A將所獲取的帖子數(shù)據(jù)送往帖子分析部132C。
作為一例,對發(fā)言剪切部132A獲取圖2所示的帖子數(shù)據(jù)10的情況進(jìn)行說明。發(fā)言剪切部132A從帖子數(shù)據(jù)10中剪切發(fā)言12的發(fā)言順序“1”、發(fā)言者姓名“A1”、發(fā)言時間和日期“A2”以及發(fā)言內(nèi)容“A3”。而且,發(fā)言剪切部132A對發(fā)言內(nèi)容“A3”的字符數(shù)“A4”進(jìn)行計數(shù)。另外,發(fā)言剪切部132A根據(jù)發(fā)言內(nèi)容“A3”是否從“>(數(shù)字)”開始來生成回復(fù)標(biāo)志“A5(A5是1或者0)”。另外,發(fā)言剪切部132A對帖子數(shù)據(jù)10所包含的發(fā)言中的從“>1”開始的發(fā)言的數(shù)量“A6”進(jìn)行計數(shù)。其結(jié)果為,發(fā)言剪切部132A生成將發(fā)言順序“1”、發(fā)言者姓名“A1”、發(fā)言時間和日期“A2”、發(fā)言內(nèi)容“A3”、字符數(shù)“A4”、回復(fù)標(biāo)志“A5”以及回復(fù)數(shù)“A6”關(guān)聯(lián)起來而得到的數(shù)據(jù)作為發(fā)言12的發(fā)言數(shù)據(jù)。這樣,發(fā)言剪切部132A針對帖子數(shù)據(jù)10所包含的所有的發(fā)言生成發(fā)言數(shù)據(jù)。
發(fā)言分析部132B基于發(fā)言數(shù)據(jù),按照每個發(fā)言對帖子所包含的發(fā)言的重要度進(jìn)行分析。例如,發(fā)言分析部132B使用用于根據(jù)發(fā)言數(shù)據(jù)計算發(fā)言的重要度(分?jǐn)?shù)(score))的機器學(xué)習(xí)引擎,根據(jù)發(fā)言剪切部132A所生成的發(fā)言數(shù)據(jù)對發(fā)言的重要度進(jìn)行分析。而且,發(fā)言分析部132B將發(fā)言的重要度作為分析結(jié)果送往保存部133。此外,在該情況下,在機器學(xué)習(xí)引擎中,預(yù)先學(xué)習(xí)重要的發(fā)言的特征向量和不重要的發(fā)言的特征向量。作為學(xué)習(xí)的方法,例如可舉出如下的方法:從代表性的BBS站點中選擇幾個帖子,通過人工將帖子所包含的發(fā)言分類成重要的發(fā)言和不重要的發(fā)言而進(jìn)行學(xué)習(xí)。
具體而言,發(fā)言分析部132B為了將發(fā)言數(shù)據(jù)施加到機器學(xué)習(xí)引擎而將各發(fā)言數(shù)據(jù)分別轉(zhuǎn)換成特征向量。在此,發(fā)言分析部132B例如分別將發(fā)言數(shù)據(jù)中的數(shù)值數(shù)據(jù)和字符串?dāng)?shù)據(jù)單獨地進(jìn)行轉(zhuǎn)換。例如,發(fā)言分析部132B將發(fā)言數(shù)據(jù)中的發(fā)言順序、發(fā)言時間和日期、字符數(shù)、回復(fù)標(biāo)志以及回復(fù)數(shù)等數(shù)值數(shù)據(jù)直接作為特征向量的值。此外,并不限于此,發(fā)言分析部132B也可以對數(shù)值數(shù)據(jù)實施某種數(shù)值運算處理而作為特征向量的值。
另外,發(fā)言分析部132B針對發(fā)言者姓名和發(fā)言內(nèi)容等字符串?dāng)?shù)據(jù)使用詞素解析、n-gram、或者分隔符轉(zhuǎn)換成特征向量。例如,發(fā)言分析部132B在使用了詞素解析的情況下,用詞類分割字符串?dāng)?shù)據(jù),并將它們轉(zhuǎn)換成特征向量。在這樣的詞素解析中,例如能夠使用開源代碼Mecab等庫。例如,發(fā)言分析部132B在字符串?dāng)?shù)據(jù)是“Twitter(注冊商標(biāo))の使い方が、まだ、よくわからん。”的情況下,使用詞素解析分割成“Twitter/の/使い方/が/、/まだ/、/よく/わから/ん/?!?。
另外,發(fā)言分析部132B在使用了n-gram的情況下,將字符串?dāng)?shù)據(jù)從開頭開始各錯開1個字符創(chuàng)建n個字符的組,并將它們轉(zhuǎn)換成特征向量。例如,發(fā)言分析部132B在字符串?dāng)?shù)據(jù)是“Twitterの使い方が、まだ、よくわからん?!钡那闆r下,使用n-gram(n=3)而分割成“Twi/wit/itt/tte/ter/erの/rの使/の使い/···”。
另外,發(fā)言分析部132B在使用了分隔符的情況下,用另行規(guī)定的分隔符(空格或逗號“,”等)分割字符串?dāng)?shù)據(jù),并將它們轉(zhuǎn)換成特征向量。例如,發(fā)言分析部132B在字符串?dāng)?shù)據(jù)是“Twitterの使い方が、まだ、よくわからん?!?,且分隔符是頓號“、”的情況下,使用分隔符分割成“Twitterの使い方が/まだ/よくわからん?!薄4送?,一般來說,在多數(shù)情況下,詞素解析應(yīng)用于日語的文章,空格分隔符應(yīng)用于英語。
而且,發(fā)言分析部132B將像這樣分割成要素的字符串?dāng)?shù)據(jù)轉(zhuǎn)換成特征向量。作為特征向量的轉(zhuǎn)換方法,例如有將各要素的出現(xiàn)次數(shù)直接作為特征向量的方式以及與次數(shù)無關(guān)地使出現(xiàn)的與否對應(yīng)于1或者0的方式等。只要它們是所使用的機器學(xué)習(xí)引擎的庫支持的方法,使用哪個方式都可以。
而且,發(fā)言分析部132B將從各發(fā)言數(shù)據(jù)轉(zhuǎn)換的各特征向量賦予給機器學(xué)習(xí)引擎,計算各發(fā)言的重要度。在此,關(guān)于所使用的機器學(xué)習(xí)引擎,不限制種類,例如可以使用開源代碼的Jubatus(注冊商標(biāo))等。而且,發(fā)言分析部132B對各發(fā)言數(shù)據(jù)賦予由機器學(xué)習(xí)引擎計算出的各發(fā)言的重要度,且分別將發(fā)言數(shù)據(jù)和發(fā)言的重要度結(jié)合起來送往保存部133。
此外,上述的發(fā)言分析部132B的處理僅是一例。例如,發(fā)言分析部132B為了提高機器學(xué)習(xí)引擎的分析的精度,也可以對所輸入的各發(fā)言數(shù)據(jù)進(jìn)行不需要的字符的除去、字符種類的統(tǒng)一以及特定組的單詞的置換等預(yù)處理。具體而言,作為不需要的字符的除去,發(fā)言分析部132B例如對字符串?dāng)?shù)據(jù)進(jìn)行多余的空格或成為語言處理的障礙的URL等的刪除。另外,例如,作為字符種類的統(tǒng)一,發(fā)言分析部132B對用于字符串?dāng)?shù)據(jù)的字符進(jìn)行英語大寫字符小寫字符或所謂的半角全角的統(tǒng)一。另外,例如,作為特定組的單詞的置換,發(fā)言分析部132B將“ガラケー”、“スマホ”、“スマートフォン”以及“ケータイ”這些單詞置換成“攜帯電話”這個單詞。另外,例如,作為特征向量的基的字符串?dāng)?shù)據(jù)既可以僅使用發(fā)言內(nèi)容,也可以如“發(fā)言者和發(fā)言內(nèi)容”那樣使用將幾個要素連結(jié)起來的字符串?dāng)?shù)據(jù)。
帖子分析部132C基于帖子數(shù)據(jù)來分析帖子屬于預(yù)先設(shè)定的多個類別(category)中的哪個類別。例如,帖子分析部132C使用用于根據(jù)帖子數(shù)據(jù)對帖子的類別進(jìn)行分析的機器學(xué)習(xí)引擎,根據(jù)從發(fā)言剪切部132A受理的帖子數(shù)據(jù)對帖子所屬的類別進(jìn)行分析。而且,帖子分析部132C作為分析結(jié)果將帖子所屬的類別送往保存部133。此外,在該情況下,在機器學(xué)習(xí)引擎中預(yù)先學(xué)習(xí)幾個帖子及其類別。作為學(xué)習(xí)的方法,例如可舉出如下的方法:從代表性的BBS站點中選擇幾個帖子,通過人工輸入帖子所屬的類別而進(jìn)行學(xué)習(xí)。
具體而言,帖子分析部132C為了將帖子數(shù)據(jù)施加到機器學(xué)習(xí)引擎而將帖子數(shù)據(jù)轉(zhuǎn)換成特征向量。在此,帖子分析部132C例如對帖子數(shù)據(jù)所包含的字符串?dāng)?shù)據(jù)(例如將標(biāo)題與各發(fā)言的發(fā)言內(nèi)容連結(jié)起來的字符串?dāng)?shù)據(jù))使用詞素解析、n-gram、或者分隔符而轉(zhuǎn)換成特征向量。此外,使用詞素解析、n-gram以及分隔符轉(zhuǎn)換成特征向量的處理的說明與上述的說明相同,因此省略。
而且,帖子分析部132C將從帖子數(shù)據(jù)轉(zhuǎn)換的特征向量賦予給機器學(xué)習(xí)引擎,決定帖子所屬的類別。在此,關(guān)于所使用的機器學(xué)習(xí)引擎,不限制種類,例如可以使用開源代碼的Jubatus等。而且,帖子分析部132C將由機器學(xué)習(xí)引擎決定的帖子的類別送往保存部133。
此外,上述的帖子分析部132C的處理僅是一例。例如,帖子分析部132C為了提高機器學(xué)習(xí)引擎的分析的精度,也可以對所輸入的各發(fā)言數(shù)據(jù)進(jìn)行不需要的字符的除去、字符種類的統(tǒng)一以及特定組的單詞的置換等預(yù)處理。另外,例如,帖子分析部132C除了標(biāo)題和各發(fā)言的發(fā)言內(nèi)容以外,也可以組合使用發(fā)言者等其他要素作為成為特征向量的基的字符串?dāng)?shù)據(jù)。另外,帖子分析部132C不限于字符串?dāng)?shù)據(jù),也可以使用發(fā)言數(shù)等數(shù)值數(shù)據(jù)求出特征向量。
保存部133按照每個發(fā)言將該發(fā)言、發(fā)言的重要度以及包含發(fā)言的帖子的類別關(guān)聯(lián)起來保存于分析結(jié)果存儲部122中。例如,保存部133按照每個發(fā)言從發(fā)言分析部132B受理發(fā)言數(shù)據(jù)及其重要度。另外,保存部133從帖子分析部132C受理帖子所屬的類別。而且,保存部133對從發(fā)言分析部132B受理的發(fā)言數(shù)據(jù)及其重要度的組賦予從帖子分析部132C受理的帖子的類別作為發(fā)言的類別,且保存于分析結(jié)果存儲部122中。
此外,對于由保存部133保存于分析結(jié)果存儲部122中的信息,例如將“類別”作為關(guān)鍵字進(jìn)行檢索,并按照“重要度”的分?jǐn)?shù)順序進(jìn)行排序而提示給使用者。另外,也可以僅提示特定的分?jǐn)?shù)(重要度)以上的數(shù)據(jù)。
[基于信息分析系統(tǒng)的處理]
圖3是示出第1實施方式的信息分析系統(tǒng)中的處理的流程的流程圖。
如圖3所示,信息分析系統(tǒng)100的收集部131從因特網(wǎng)上的BBS站點收集帖子數(shù)據(jù)(步驟S101)。收集部131將所收集的帖子數(shù)據(jù)保存于帖子數(shù)據(jù)存儲部121中。
接著,發(fā)言剪切部132A從帖子數(shù)據(jù)中剪切發(fā)言,而生成發(fā)言數(shù)據(jù)(步驟S102)。例如,發(fā)言剪切部132A獲取帖子數(shù)據(jù)存儲部121中存儲的帖子數(shù)據(jù),并分別剪切所獲取的帖子數(shù)據(jù)所包含的發(fā)言而分別生成發(fā)言數(shù)據(jù)。
而且,發(fā)言分析部132B按照每個發(fā)言對帖子所包含的發(fā)言的重要度進(jìn)行分析(步驟S103)。例如,發(fā)言分析部132B使用用于根據(jù)發(fā)言數(shù)據(jù)計算發(fā)言的重要度(分?jǐn)?shù))的機器學(xué)習(xí)引擎,根據(jù)發(fā)言剪切部132A所生成的發(fā)言數(shù)據(jù)對發(fā)言的重要度進(jìn)行分析。
而且,帖子分析部132C對帖子的類別進(jìn)行分析(步驟S104)。例如,帖子分析部132C使用用于根據(jù)帖子數(shù)據(jù)對帖子的類別進(jìn)行分析的機器學(xué)習(xí)引擎,根據(jù)從發(fā)言剪切部132A受理的帖子數(shù)據(jù)對帖子所屬的類別進(jìn)行分析。
而且,保存部133按照每個發(fā)言將發(fā)言數(shù)據(jù)、發(fā)言的重要度以及帖子的類別關(guān)聯(lián)起來保存于分析結(jié)果存儲部122中(步驟S105)。
此外,上述的處理步驟也可以未必按照上述的順序執(zhí)行。例如,步驟S103的處理和步驟S104的處理既可以按照上述順序的相反的順序來執(zhí)行,也可以作為并行處理來執(zhí)行。另外,例如,當(dāng)存在已收集的帖子數(shù)據(jù)的情況下,也可以不執(zhí)行步驟S101的處理。
[第1實施方式的效果]
如上所述,第1實施方式的信息分析系統(tǒng)100針對作為發(fā)表在網(wǎng)絡(luò)上的發(fā)言的集合的帖子,基于發(fā)言數(shù)據(jù)按照每個發(fā)言對帖子所包含的發(fā)言的重要度進(jìn)行分析。而且,信息分析系統(tǒng)100基于帖子數(shù)據(jù)來分析帖子屬于預(yù)先設(shè)定的多個類別中的哪個類別。而且,信息分析系統(tǒng)100按照每個發(fā)言將發(fā)言、發(fā)言的重要度以及包含發(fā)言的帖子的類別關(guān)聯(lián)起來保存于規(guī)定的存儲部中。因此,信息分析系統(tǒng)100能夠根據(jù)發(fā)表在網(wǎng)絡(luò)上的信息對有益的發(fā)言進(jìn)行分析。
圖4是用于說明第1實施方式的效果的圖。如圖4所示,例如在信息分析系統(tǒng)100中,收集部131從因特網(wǎng)上的BBS站點收集帖子數(shù)據(jù)(S10),且將所收集的帖子數(shù)據(jù)送往發(fā)言剪切部132A(S11)。接著,發(fā)言剪切部132A從帖子數(shù)據(jù)中剪切發(fā)言而生成發(fā)言數(shù)據(jù),且將所生成的發(fā)言數(shù)據(jù)送往發(fā)言分析部132B(S12)。而且,發(fā)言分析部132B按照每個發(fā)言對發(fā)言的重要度進(jìn)行分析,且將發(fā)言數(shù)據(jù)和重要度的組送往保存部133(S13)。接著,發(fā)言剪切部132A將帖子數(shù)據(jù)送往帖子分析部132C(S14)。而且,帖子分析部132C對帖子的類別進(jìn)行分析,且將所分析的類別送往保存部133(S15)。而且,保存部133按照每個發(fā)言將發(fā)言數(shù)據(jù)、重要度以及類別關(guān)聯(lián)起來保存于分析結(jié)果存儲部122中(S16)。這樣,信息分析系統(tǒng)100按照所收集的帖子數(shù)據(jù)所包含的每個發(fā)言將發(fā)言數(shù)據(jù)、重要度以及類別關(guān)聯(lián)起來進(jìn)行存儲。因此,例如即使在包含很多沒有意義的發(fā)言的情況下,信息分析系統(tǒng)100也能夠以可檢索的狀態(tài)來存儲分析結(jié)果,而不會使有益的發(fā)言埋沒在沒有意義的發(fā)言中。另外,信息分析系統(tǒng)100以帖子為單位來進(jìn)行類別的分析,由此,與以發(fā)言為單位進(jìn)行分析的情況相比,能夠增加分析對象的信息量,因此能夠高精度地分析發(fā)言所屬的類別。其結(jié)果為,在信息推薦技術(shù)中,與以帖子為單位進(jìn)行提取/推薦的情況相比,使用者能夠僅獲得除去了無意義的發(fā)言的真正有用的發(fā)言。
[第2實施方式]
在第1實施方式中,說明了信息分析系統(tǒng)100按照每個發(fā)言對重要度進(jìn)行分析的情況,但實施方式并不限于此。例如,也可以是信息分析系統(tǒng)100也對帖子的重要度進(jìn)行分析而整合發(fā)言的重要度與帖子的重要度的情況。因此,在第2實施方式中,說明信息分析系統(tǒng)100也對帖子的重要度進(jìn)行分析而整合發(fā)言的重要度與帖子的重要度的情況。此外,在以下的說明中,對與第1實施方式共同的結(jié)構(gòu)和處理省略說明。
使用圖1,對第2實施方式的信息分析系統(tǒng)100的結(jié)構(gòu)進(jìn)行說明。第2實施方式的信息分析系統(tǒng)100具有與圖1所示的信息分析系統(tǒng)100相同的結(jié)構(gòu),但帖子分析部132C和保存部133中的處理有一部分不同。
帖子分析部132C除了在第1實施方式中說明的處理之外,還基于帖子數(shù)據(jù)對帖子的重要度進(jìn)行分析。例如,帖子分析部132C使用用于從帖子數(shù)據(jù)中計算帖子的重要度的機器學(xué)習(xí)引擎,對帖子的重要度進(jìn)行分析。而且,帖子分析部132C,除了帖子所屬的類別之外還將帖子的重要度作為分析結(jié)果送往保存部133。此外,在該情況下,在機器學(xué)習(xí)引擎中,預(yù)先學(xué)習(xí)重要的帖子的特征向量和不重要的帖子的特征向量。作為學(xué)習(xí)的方法,例如可舉出如下的方法:從代表性的BBS站點中選擇幾個帖子,通過人工分類成重要的帖子和不重要的帖子而進(jìn)行學(xué)習(xí)。
具體而言,帖子分析部132C為了將帖子數(shù)據(jù)施加到機器學(xué)習(xí)引擎而將帖子數(shù)據(jù)轉(zhuǎn)換成特征向量。在此,帖子分析部132C例如對帖子數(shù)據(jù)所包含的字符串?dāng)?shù)據(jù)(例如將標(biāo)題與各發(fā)言的發(fā)言內(nèi)容連結(jié)起來的字符串?dāng)?shù)據(jù))使用詞素解析、n-gram、或者分隔符而轉(zhuǎn)換成特征向量。此外,使用詞素解析、n-gram以及分隔符轉(zhuǎn)換成特征向量的處理的說明與上述的說明相同,因此省略。
而且,帖子分析部132C將從帖子數(shù)據(jù)轉(zhuǎn)換的特征向量賦予給機器學(xué)習(xí)引擎,計算帖子的重要度。在此,關(guān)于所使用的機器學(xué)習(xí)引擎,不限制種類,例如可以使用開源代碼的Jubatus等。而且,帖子分析部132C將由機器學(xué)習(xí)引擎計算出的帖子的重要度送往保存部133。
此外,上述的帖子分析部132C的處理僅是一例。例如,帖子分析部132C不限于字符串?dāng)?shù)據(jù),也可以使用帖子中的發(fā)言數(shù)等數(shù)值數(shù)據(jù)求出特征向量。
保存部133基于發(fā)言的重要度和帖子的重要度而計算發(fā)言的綜合重要度。而且,保存部133按照每個發(fā)言將所計算出的綜合重要度、發(fā)言以及包含發(fā)言的帖子的類別關(guān)聯(lián)起來進(jìn)行保存。
例如,保存部133按照每個發(fā)言從發(fā)言分析部132B受理發(fā)言數(shù)據(jù)和發(fā)言的重要度。另外,保存部133從帖子分析部132C受理帖子所屬的類別和帖子的重要度。而且,保存部133基于從發(fā)言分析部132B受理的發(fā)言的重要度、從帖子分析部132C受理的帖子的重要度按照每個發(fā)言來計算綜合重要度。在此,綜合重要度的計算方法例如既可以是發(fā)言的重要度與帖子的重要度之和,也可以是積、平均以及其他算術(shù)運算的值。而且,保存部133將發(fā)言數(shù)據(jù)、綜合重要度以及類別關(guān)聯(lián)起來按照每個發(fā)言保存于分析結(jié)果存儲部122中。
圖5是示出第2實施方式的信息分析系統(tǒng)中的處理的流程的流程圖。此外,圖5所示的步驟S201~S203的處理與圖3的步驟S101~S103的處理相同,因此省略說明。
如圖5所示,信息分析系統(tǒng)100的帖子分析部132C對帖子的類別和帖子的重要度進(jìn)行分析(步驟S204)。例如,帖子分析部132C除了在第1實施方式中說明的處理之外,還使用用于根據(jù)帖子數(shù)據(jù)計算帖子的重要度的機器學(xué)習(xí)引擎,對帖子的重要度進(jìn)行分析。而且,帖子分析部132C除了帖子所屬的類別之外還將帖子的重要度作為分析結(jié)果送往保存部133。
而且,保存部133根據(jù)發(fā)言的重要度和帖子的重要度來計算發(fā)言的綜合重要度(步驟S205)。例如,保存部133計算發(fā)言的重要度與帖子的重要度之和、積、平均以及其他算術(shù)運算的值等作為綜合重要度。而且,保存部133將發(fā)言數(shù)據(jù)、發(fā)言的綜合重要度以及帖子的類別關(guān)聯(lián)起來按照每個發(fā)言保存于分析結(jié)果存儲部122中(步驟S206)。
此外,圖5所示的處理步驟也可以未必按照上述的順序執(zhí)行。例如,步驟S203的處理和步驟S204的處理既可以按照上述順序的相反的順序來執(zhí)行,也可以作為并行處理來執(zhí)行。
這樣,第2實施方式的信息分析系統(tǒng)100也對帖子的重要度進(jìn)行分析而整合發(fā)言的重要度與帖子的重要度。由此,信息分析系統(tǒng)100能夠在考慮了帖子的重要度的基礎(chǔ)上計算每個發(fā)言的重要度,因此能夠分析更有益的發(fā)言。
圖6是用于說明第2實施方式的效果的圖。如圖6所示,例如在信息分析系統(tǒng)100中,收集部131從因特網(wǎng)上的BBS站點收集帖子數(shù)據(jù)(S20),且將所收集的帖子數(shù)據(jù)送往發(fā)言剪切部132A(S21)。接著,發(fā)言剪切部132A從帖子數(shù)據(jù)中剪切發(fā)言而生成發(fā)言數(shù)據(jù),且將所生成的發(fā)言數(shù)據(jù)送往發(fā)言分析部132B(S22)。而且,發(fā)言分析部132B按照每個發(fā)言對發(fā)言的重要度進(jìn)行分析,且將發(fā)言數(shù)據(jù)和重要度的組送往保存部133(S23)。接著,發(fā)言剪切部132A將帖子數(shù)據(jù)送往帖子分析部132C(S24)。而且,帖子分析部132C對帖子的類別和帖子的重要度進(jìn)行分析,且將所分析的類別和帖子的重要度送往保存部133(S25)。而且,保存部133根據(jù)發(fā)言的重要度和帖子的重要度來計算發(fā)言的綜合重要度,將發(fā)言數(shù)據(jù)、發(fā)言的綜合重要度以及類別關(guān)聯(lián)起來按照每個發(fā)言保存于分析結(jié)果存儲部122中(S26)。由此,第2實施方式的信息分析系統(tǒng)100能夠分析更有益的發(fā)言。
[第3實施方式]
第1和第2實施方式中,說明了信息分析系統(tǒng)100對帖子的類別進(jìn)行分析的情況,但實施方式并不限于此。例如,也可以是信息分析系統(tǒng)100也分析對發(fā)言的內(nèi)容進(jìn)行了類別分類的發(fā)言類別而賦予至各個發(fā)言的情況。此外,所謂的發(fā)言類別例如包含“好意的”、“敵對的”、“贊賞”、“褻瀆”之類的推測發(fā)言者感情的內(nèi)容或“引用”、“建議”、“提問”、“回答”之類的推測發(fā)言的種類的內(nèi)容等。即,發(fā)言類別是表示發(fā)言的內(nèi)容屬于預(yù)先設(shè)定的多個類別中的哪個類別的信息。
因此,在第3實施方式中,說明信息分析系統(tǒng)100對發(fā)言類別進(jìn)行分析而賦予至各個發(fā)言的情況。此外,在以下的說明中,對與第2實施方式共同的結(jié)構(gòu)和處理省略說明。
使用圖1,對第3實施方式的信息分析系統(tǒng)100的結(jié)構(gòu)進(jìn)行說明。第3實施方式的信息分析系統(tǒng)100具有與第2實施方式的信息分析系統(tǒng)100同樣的結(jié)構(gòu),但發(fā)言分析部132B和保存部133中的處理有一部分不同。
發(fā)言分析部132B除了在第1實施方式中說明的處理之外,還基于發(fā)言數(shù)據(jù)按照每個發(fā)言對發(fā)言類別進(jìn)行分析。例如,發(fā)言分析部132B使用用于從發(fā)言數(shù)據(jù)中導(dǎo)出發(fā)言類別的機器學(xué)習(xí)引擎,對發(fā)言類別進(jìn)行分析。而且,發(fā)言分析部132B除了發(fā)言的重要度之外還將發(fā)言類別作為分析結(jié)果送往保存部133。此外,在該情況下,在機器學(xué)習(xí)引擎中預(yù)先學(xué)習(xí)幾個發(fā)言和發(fā)言類別的組。作為學(xué)習(xí)的方法,例如可舉出如下的方法:從代表性的BBS站點中選擇幾個帖子,通過人工將帖子所包含的發(fā)言分類成“好意的”、“敵對的”、“贊賞”、“褻瀆”、“引用”、“建議”、“提問”、“回答”之類的類別而進(jìn)行學(xué)習(xí)。
具體而言,發(fā)言分析部132B將在第1實施方式的處理中轉(zhuǎn)換的特征向量賦予給機器學(xué)習(xí)引擎,且按照每個發(fā)言計算發(fā)言類別。在此,關(guān)于所使用的機器學(xué)習(xí)引擎,不限制種類,例如可以使用開源代碼的Jubatus等。而且,發(fā)言分析部132B將由機器學(xué)習(xí)引擎計算出的帖子的重要度送往保存部133。
保存部133將每個發(fā)言的發(fā)言類別按照該發(fā)言關(guān)聯(lián)起來進(jìn)行保存。例如,保存部133將發(fā)言數(shù)據(jù)、綜合重要度、帖子的類別以及發(fā)言類別關(guān)聯(lián)起來按照每個發(fā)言保存于分析結(jié)果存儲部122中。
圖7是示出第3實施方式的信息分析系統(tǒng)中的處理的流程的流程圖。此外,圖7所示的步驟S301~S302的處理與圖3的步驟S101~S102的處理相同,因此省略說明。
如圖7所示,信息分析系統(tǒng)100的發(fā)言分析部132B對發(fā)言的重要度和發(fā)言類別進(jìn)行分析(步驟S303)。例如,發(fā)言分析部132B使用用于從發(fā)言數(shù)據(jù)中導(dǎo)出發(fā)言類別的機器學(xué)習(xí)引擎對發(fā)言類別進(jìn)行分析。而且,發(fā)言分析部132B除了發(fā)言的重要度之外還將發(fā)言類別作為分析結(jié)果送往保存部133。
接著,帖子分析部132C對帖子的類別和帖子的重要度進(jìn)行分析(步驟S304)。例如,發(fā)言分析部132B除了在第1實施方式中說明的處理之外,還使用用于根據(jù)帖子數(shù)據(jù)計算帖子的重要度的機器學(xué)習(xí)引擎,對帖子的重要度進(jìn)行分析。而且,發(fā)言分析部132B除了帖子所屬的類別之外還將帖子的重要度作為分析結(jié)果送往保存部133。
而且,保存部133根據(jù)發(fā)言的重要度和帖子的重要度來計算發(fā)言的綜合重要度(步驟S305)。例如,保存部133將發(fā)言的重要度與帖子的重要度之和、積、平均以及其他算術(shù)運算的值等作為綜合重要度進(jìn)行計算。而且,保存部133將發(fā)言數(shù)據(jù)、發(fā)言的綜合重要度、發(fā)言類別以及帖子的類別關(guān)聯(lián)起來按照每個發(fā)言保存于分析結(jié)果存儲部122中(步驟S306)。
此外,圖7所示的處理步驟也可以未必按照上述的順序執(zhí)行。例如,步驟S303的處理和步驟S304的處理既可以按照上述順序的相反的順序來執(zhí)行,也可以作為并行處理來執(zhí)行。
這樣,第3實施方式的信息分析系統(tǒng)100對發(fā)言類別進(jìn)行分析而賦予至各個發(fā)言。由此,信息分析系統(tǒng)100除了帖子的類別之外還基于每個發(fā)言的發(fā)言類別來進(jìn)行分析,因此能夠分析更有益的發(fā)言。
圖8是用于說明第3實施方式的效果的圖。如圖8所示,例如在信息分析系統(tǒng)100中,收集部131從因特網(wǎng)上的BBS站點收集帖子數(shù)據(jù)(S30),且將所收集的帖子數(shù)據(jù)送往發(fā)言剪切部132A(S31)。接著,發(fā)言剪切部132A從帖子數(shù)據(jù)中剪切發(fā)言而生成發(fā)言數(shù)據(jù),且將所生成的發(fā)言數(shù)據(jù)送往發(fā)言分析部132B(S32)。而且,發(fā)言分析部132B按照每個發(fā)言對發(fā)言的重要度和發(fā)言類別進(jìn)行分析,且將發(fā)言數(shù)據(jù)、發(fā)言的重要度以及發(fā)言類別的組送往保存部133(S33)。接著,發(fā)言剪切部132A將帖子數(shù)據(jù)送往帖子分析部132C(S34)。而且,帖子分析部132C對帖子的類別和帖子的重要度進(jìn)行分析,且將所分析的類別和帖子的重要度送往保存部133(S35)。而且,保存部133根據(jù)發(fā)言的重要度和帖子的重要度而計算發(fā)言的綜合重要度,且將發(fā)言數(shù)據(jù)、發(fā)言的綜合重要度、發(fā)言類別以及帖子的類別關(guān)聯(lián)起來按照每個發(fā)言保存于分析結(jié)果存儲部122中(S36)。由此,第3實施方式的信息分析系統(tǒng)100能夠分析更有益的發(fā)言。
此外,在第3實施方式中,說明了第2實施方式的信息分析系統(tǒng)100還對發(fā)言類別進(jìn)行分析而賦予至各個發(fā)言的情況,但并不限于此。例如,也可以是第1實施方式的信息分析系統(tǒng)100對發(fā)言類別進(jìn)行分析而賦予至各個發(fā)言的情況。即,在第3實施方式中,也可以不執(zhí)行計算帖子的重要度的處理。
[系統(tǒng)結(jié)構(gòu)等]
此外,圖示的各裝置的各結(jié)構(gòu)要素是功能概念性的,在物理上未必需要如圖示那樣構(gòu)成。即,各裝置的分散/整合的具體方式并不限于圖示的內(nèi)容,可根據(jù)各種負(fù)荷或使用狀況等,以任意的單位在功能上或者物理上分散/整合地構(gòu)成其全部或者一部分。例如,保存部133既可以與分析部132整合,也可以與發(fā)言分析部132B或者帖子分析部132C整合。而且,在各裝置所進(jìn)行的各處理功能其全部或者任意的一部分可通過CPU和由CPU解析執(zhí)行的程序來實現(xiàn),或者可作為基于布線邏輯的硬件來實現(xiàn)。
并且,在本實施例所說明的各處理中,也可以手動執(zhí)行作為自動執(zhí)行的處理來說明的處理的全部或者一部分,或者也可以通過公知的方法自動執(zhí)行作為手動執(zhí)行的處理來說明的處理的全部或者一部分。除此以外,對于在上述文檔中或者在附圖中所示出的處理步驟、控制步驟、具體的名稱以及包含各種數(shù)據(jù)或參數(shù)在內(nèi)的信息,除了特殊說明的情況以外能夠任意地變更。
[處理對象]
另外,在上述的第1實施方式~第3實施方式中,說明了作為處理對象分析BBS的帖子數(shù)據(jù)的情況,但實施方式并不限于此。例如,信息分析系統(tǒng)100將以帖子形式(連帶顯示針對規(guī)定的電子郵件的回復(fù)的形式)顯示電子郵件的對象或者SNS(Social Networking Service:社交網(wǎng)絡(luò)服務(wù))等中的對規(guī)定的發(fā)表進(jìn)行回復(fù)的一系列的發(fā)言都能夠作為處理對象。此外,在將電子郵件作為對象的情況下,在回復(fù)的判定或回復(fù)數(shù)的計數(shù)中,可著眼于電子郵件的“In-Reply-To”頭部進(jìn)行回復(fù)的判定或回復(fù)數(shù)的計數(shù),來取代著眼于發(fā)言開頭的“>(數(shù)字)”的方法。對于其他處理對象也同樣,能夠規(guī)定與處理對象對應(yīng)的回復(fù)的判定法或回復(fù)數(shù)的計數(shù)方法。
[程序]
另外,也可以創(chuàng)建以計算機可執(zhí)行的語言來描述了在上述實施方式中說明的信息分析系統(tǒng)100執(zhí)行的處理的程序。例如,也可以創(chuàng)建以計算機可執(zhí)行的語言來描述了第1實施方式的信息分析系統(tǒng)100執(zhí)行的處理的信息分析程序。在該情況下,通過由計算機執(zhí)行信息分析程序,能夠獲得與上述實施方式同樣的效果。此外,也可以將該信息分析程序記錄到計算機可讀取的記錄介質(zhì)中,通過使計算機讀入并執(zhí)行該記錄介質(zhì)中記錄的信息分析程序,實現(xiàn)與上述第1實施方式同樣的處理。下面對執(zhí)行實現(xiàn)與在圖1所示的信息分析系統(tǒng)100同樣的功能的信息分析程序的計算機的一例進(jìn)行說明。
圖9是示出執(zhí)行信息分析程序的計算機1000的圖。如圖9所例示,計算機1000例如具有存儲器1010、CPU 1020、硬盤驅(qū)動器接口1030、盤驅(qū)動器接口1040以及網(wǎng)絡(luò)接口1070,這些各部件通過總線1080連接。
如圖9所例示,存儲器1010包含ROM(Read Only Memory:只讀存儲器)1011和RAM(Random Access Memory)1012。ROM 1011例如存儲BIOS(Basic Input Output System:基本輸入輸出系統(tǒng))等引導(dǎo)程序。如圖9所例示,硬盤驅(qū)動器接口1030與硬盤驅(qū)動器1031連接。如圖9所例示,盤驅(qū)動器接口1040與盤驅(qū)動器1041連接。例如磁盤或光盤等可以裝卸的存儲介質(zhì)插入到盤驅(qū)動器中。
在此,如圖9所例示,硬盤驅(qū)動器1031例如存儲OS 1091、應(yīng)用程序1092、程序模塊1093以及程序數(shù)據(jù)1094。即,上述的任意程序作為描述有由計算機1000執(zhí)行的指令的程序模塊而存儲于例如硬盤驅(qū)動器1031中。
此外,在上述實施方式中說明的各種數(shù)據(jù)作為程序數(shù)據(jù)而存儲于例如存儲器1010或硬盤驅(qū)動器1031中。而且,CPU 1020根據(jù)需要將存儲器1010或硬盤驅(qū)動器1031中存儲的程序模塊1093或者程序數(shù)據(jù)1094讀出到RAM 1012而執(zhí)行各步驟。
此外,信息分析程序的程序模塊1093或程序數(shù)據(jù)1094不限于存儲于硬盤驅(qū)動器1031中的情況,例如也可以分別存儲于可裝卸的存儲介質(zhì)中而經(jīng)由盤驅(qū)動器等由CPU 1020讀出?;蛘?,信息分析程序的程序模塊1093或程序數(shù)據(jù)1094也可以分別存儲于經(jīng)由網(wǎng)絡(luò)(LAN(Local Area Network:局域網(wǎng))、WAN(Wide Area Network:廣域網(wǎng))等)連接的其他計算機中而經(jīng)由網(wǎng)絡(luò)接口1070由CPU 1020讀出。
對于這些實施方式或其變形而言,如同屬于本申請所公開的技術(shù)那樣同樣屬于權(quán)利要求書所記載的發(fā)明及其均等的范圍內(nèi)。
標(biāo)號說明
100:信息分析系統(tǒng);110:通信處理部;120:存儲部;121:帖子數(shù)據(jù)存儲部;122:分析結(jié)果存儲部;130:功能部;131:收集部;132:分析部;132A:發(fā)言剪切部;132B:發(fā)言分析部;132C:帖子分析部;133:保存部;140:控制部。