文檔分類系統(tǒng)、文檔分類方法及文檔分類程序的制作方法
【專利摘要】本發(fā)明提供一種文檔分類系統(tǒng),對(duì)訴訟中用于作為證據(jù)提交收集的數(shù)字化的文檔信息進(jìn)行分析,然后分類以容易地用于訴訟。文檔分類系統(tǒng)具有:抽取部,其從收集的文檔信息中抽取所規(guī)定數(shù)量的文檔;文檔顯示部,其將所述抽取的文檔群顯示在畫面上;分類符號(hào)接受部,其接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類符號(hào);選定部,其根據(jù)所述分類符號(hào),將所述抽取的文檔群按分類符號(hào)分類,并解析所述被分類的文檔群中共同出現(xiàn)的關(guān)鍵詞并選定;數(shù)據(jù)庫,其記錄所述選定的關(guān)鍵詞;搜索部,其從所述文檔信息搜索所述數(shù)據(jù)庫中記錄的關(guān)鍵詞;得分計(jì)算部,其利用所述搜索部的搜索結(jié)果和所述選定部的解析結(jié)果,計(jì)算出表示分類符號(hào)和文檔之間的關(guān)聯(lián)性的得分;自動(dòng)分類部,其根據(jù)所述得分的結(jié)果自動(dòng)賦予分類符號(hào)。
【專利說明】文檔分類系統(tǒng)、文檔分類方法及文檔分類程序
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種文檔分類系統(tǒng)、文檔分類方法及文檔分類程序,尤其是涉及與訴 訟相關(guān)文檔信息的文檔分類系統(tǒng)、文檔分類方法及文檔分類程序。
【背景技術(shù)】
[0002] 現(xiàn)有技術(shù)中,已提出一種在發(fā)生非法訪問(illegal access)或機(jī)密信息泄露等與 計(jì)算機(jī)相關(guān)的犯罪或法律糾紛時(shí),對(duì)原因查明或搜查所需的儀器、數(shù)據(jù)或電子記錄進(jìn)行收 集/分析,并明確其法律上的證據(jù)性的裝置或技術(shù)。
[0003] 尤其在美國民事訴訟中,由于需要eDiscovery (電子證據(jù)公開)等,該訴訟的原告 及被告的任何一方均需要承擔(dān)作為證據(jù)提交全部相關(guān)數(shù)字信息的義務(wù)。因此,必須將計(jì)算 機(jī)或服務(wù)器中所記錄的數(shù)字信息作為證據(jù)提交。
[0004] 另一方面,由于隨著IT業(yè)迅速發(fā)展及普及,在當(dāng)今商務(wù)世界中幾乎所有的信息均 由計(jì)算機(jī)制作,因此即使在同一企業(yè)內(nèi)部,也充斥著大量的數(shù)字信息。
[0005] 因此,在為了向法庭提交證據(jù)材料而進(jìn)行準(zhǔn)備工作的過程中,容易產(chǎn)生在證據(jù)材 料中還包含了未必與該訴訟相關(guān)的機(jī)密數(shù)字信息的失誤。存在提交與該訴訟無關(guān)的機(jī)密文 檔?目息的問題。
[0006] 近幾年來,在專利文獻(xiàn)1?專利文獻(xiàn)3中提出一種與取證系統(tǒng)的文檔信息相關(guān)的 技術(shù)。在專利文獻(xiàn)1中公開一種取證系統(tǒng),從使用者信息中所包含的至少1人以上的使用 者中指定特定人,并根據(jù)與被指定的特定人相關(guān)的訪問履歷信息,僅抽取特定人所訪問的 數(shù)字文檔信息,并設(shè)定表示各所抽取的數(shù)字文檔信息的文檔文件是否與訴訟相關(guān)的附帶信 息,并且根據(jù)附帶信息,輸出與訴訟相關(guān)的文檔文件。
[0007] 另外,在專利文獻(xiàn)2中公開一種取證系統(tǒng),顯示所記錄的數(shù)字信息,對(duì)多個(gè)文檔文 件的每一個(gè)設(shè)定表示是否與包含于使用者信息的使用者中任意的使用者相關(guān)的使用者特 定信息,并將該被設(shè)定的使用者特定信息記錄在存儲(chǔ)部中,而進(jìn)行設(shè)定,并指定至少一個(gè)以 上的使用者,對(duì)設(shè)定有與所指定的使用者相對(duì)應(yīng)的使用者特定信息的文檔文件進(jìn)行檢索, 并借助顯示部,設(shè)定表示所檢索的文檔文件是否與訴訟相關(guān)的附帶信息,根據(jù)附帶信息,輸 出與訴訟相關(guān)的文檔文件。
[0008] 另外,在專利文獻(xiàn)3中公開一種取證系統(tǒng),接受數(shù)字文檔信息中所包含的至少一 個(gè)以上的文檔文件的指定,并接受是否將所指定的文檔文件翻譯為任意一種語言的指定, 將接受所指定的文檔文件翻譯為接受指定的語言,從記錄部所記錄的數(shù)字文檔信息抽取與 所指定的文檔文件顯示同一內(nèi)容的共同文檔文件,并生成翻譯關(guān)聯(lián)信息,該翻譯關(guān)聯(lián)信息 表示所抽取的共同的文檔文件因引用被翻譯的文檔文件的翻譯內(nèi)容而被翻譯,根據(jù)翻譯關(guān) 聯(lián)信息輸出與訴訟相關(guān)的文檔文件。
[0009] 專利文獻(xiàn)1 :日本專利特開2011-209930號(hào)公報(bào)
[0010] 專利文獻(xiàn)2 :日本專利特開2011-209931號(hào)公報(bào)
[0011] 專利文獻(xiàn)3 :日本專利特開2012-32859號(hào)公報(bào)
[0012] 然而,例如專利文獻(xiàn)1?3中所公開的取證系統(tǒng),需要使用多臺(tái)計(jì)算機(jī)及服務(wù)器以 收集使用者的龐大的文檔信息。
[0013] 通過被稱為查閱者的用戶閱讀確認(rèn),進(jìn)行分辨將上述的數(shù)字化的龐大的文檔信息 作為訴訟的證據(jù)材料是否合適的操作,必須對(duì)該文檔信息逐個(gè)進(jìn)行分辨,這樣需要消耗大 量的人力。
【發(fā)明內(nèi)容】
[0014] 有鑒于此,本發(fā)明提供一種文檔分類系統(tǒng)、文檔分類方法及文檔分類程序,使在收 集數(shù)字化的文檔信息后,通過對(duì)該文檔信息自動(dòng)賦予分類符號(hào),能夠減輕訴訟中對(duì)所使用 的文檔信息分類作業(yè)的負(fù)擔(dān)。
[0015] 本發(fā)明的文檔辨別系統(tǒng)獲取記錄在多個(gè)計(jì)算機(jī)或服務(wù)器中的數(shù)字信息,并對(duì)該獲 取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后進(jìn)行分類以易于在訴訟中使用,該文檔 辨別系統(tǒng)具有:抽取部,其從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔 群;文檔顯示部,其將所述抽取的文檔群顯示在畫面上;分類符號(hào)接受部,其接受用戶根據(jù) 與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類符號(hào);選定部,其根據(jù)所述分類 符號(hào),按每個(gè)分類符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類,解析并選定在該被分類的文檔群中 共同出現(xiàn)的關(guān)鍵詞;數(shù)據(jù)庫,其記錄所述被選定的關(guān)鍵詞;搜索部,其從所述文檔信息中搜 索記錄在所述數(shù)據(jù)庫中的關(guān)鍵詞;得分計(jì)算部,其利用所述搜索部的搜索結(jié)果和所述選定 部的解析結(jié)果,計(jì)算表示分類符號(hào)和文檔之間的關(guān)聯(lián)性的得分;以及自動(dòng)分類部,其根據(jù)所 述得分的結(jié)果自動(dòng)賦予分類符號(hào)。
[0016] 在本發(fā)明中,"文檔"是指包含1個(gè)以上關(guān)鍵詞的數(shù)據(jù)。例如為電子郵件、企劃案材 料、表計(jì)算材料、商洽材料、合同書、組織圖、事業(yè)企劃書等。
[0017] 在本發(fā)明中,在為某種語言下,"關(guān)鍵詞"是指具有一定意義的語句的概括。例如, 在從"將文檔分類"的文章選定關(guān)鍵詞時(shí),可選"文檔"、"分類"為關(guān)鍵詞。
[0018] 在本發(fā)明中,"分類符號(hào)"為將文檔分類時(shí)使用的標(biāo)識(shí)符。例如,訴訟中將文檔信息 作為證據(jù)使用時(shí),可根據(jù)證據(jù)的種類賦予分類符號(hào)。
[0019] "得分"是指,定量評(píng)價(jià)某個(gè)文檔與特定的分類符號(hào)的聯(lián)系的強(qiáng)度。例如,得分計(jì)算 部根據(jù)出現(xiàn)在文檔群中的關(guān)鍵詞和各關(guān)鍵詞所擁有的權(quán)重計(jì)算得分。作為一個(gè)例子,該權(quán) 重根據(jù)擁有關(guān)鍵詞的、每個(gè)分類符號(hào)的傳遞信息量決定。
[0020] 另外,本發(fā)明的文檔辨別系統(tǒng)中,抽取部從文檔信息中抽取文檔群時(shí),可進(jìn)行隨機(jī) 采樣。
[0021] 本發(fā)明的文檔辨別系統(tǒng)中,所述搜索部從由未被賦予所述分類符號(hào)的文檔構(gòu)成的 文檔信息中搜索所述關(guān)鍵詞,所述得分計(jì)算部利用所述搜索部的搜索結(jié)果和所述選定部的 解析結(jié)果,計(jì)算表示分類符號(hào)和文檔之間關(guān)聯(lián)性的得分,所述自動(dòng)分類部具有抽取未由所 述分類符號(hào)接受部接受到賦予所述分類符號(hào)的文檔,并對(duì)文檔信息自動(dòng)賦予分類符號(hào)的功 能。
[0022] 另外,本發(fā)明的文檔分類系統(tǒng)中,所述數(shù)據(jù)庫還具有抽取并記錄與所述分類符號(hào) 具有關(guān)聯(lián)性的關(guān)聯(lián)用語的功能,所述搜索部還具有從所述文檔信息中搜索所述關(guān)聯(lián)用語的 功能,所述得分計(jì)算部還具有根據(jù)所述搜索部對(duì)所述關(guān)聯(lián)用語進(jìn)行搜索的結(jié)果計(jì)算得分的 功能,所述自動(dòng)分類部還具有根據(jù)使用所述關(guān)聯(lián)用語計(jì)算的得分自動(dòng)賦予分類符號(hào)的功 能。
[0023] 另外,本發(fā)明的文檔分類系統(tǒng)還具有文檔排除部,其在文檔群中的文檔中,選定不 包含由所述選定部選定的所述關(guān)鍵詞、所述關(guān)聯(lián)用語及與所述分類符號(hào)有相關(guān)關(guān)系的關(guān)鍵 詞的文檔,并從所述自動(dòng)分類部的分類對(duì)象中排除所述被選定的文檔。
[0024] 本發(fā)明的文檔分類系統(tǒng)還具有學(xué)習(xí)部,其根據(jù)所述選定部的分析結(jié)果和所述得分 計(jì)算部計(jì)算的得分,對(duì)由所述選定部選定的關(guān)鍵詞、記錄在所述數(shù)據(jù)庫中的與分類符號(hào)有 相關(guān)關(guān)系的關(guān)鍵詞及關(guān)聯(lián)用語進(jìn)行增減。
[0025] 本發(fā)明的文檔分類方法其應(yīng)用于獲取記錄在多個(gè)計(jì)算機(jī)或服務(wù)器中記錄的數(shù)字 信息,并對(duì)該獲取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后分類以易于在訴訟中使 用的文檔分類系統(tǒng),從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群,將 所述抽取的文檔群顯示在畫面上,接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文 檔群賦予的分類符號(hào),根據(jù)所述分類符號(hào),按每個(gè)分類符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類, 解析并選定該被分類的文檔群中共同出現(xiàn)的關(guān)鍵詞,記錄所述被選定的關(guān)鍵詞,從所述文 檔信息搜索所述被記錄的關(guān)鍵詞,利用所述搜索結(jié)果和所述解析結(jié)果,計(jì)算表示分類符號(hào) 和文檔之間的關(guān)聯(lián)性的得分,根據(jù)所述得分的結(jié)果自動(dòng)賦予分類符號(hào)。
[0026] 本發(fā)明的文檔分類程序其應(yīng)用于獲取記錄在多個(gè)計(jì)算機(jī)或服務(wù)器中記錄的數(shù)字 信息,并對(duì)該獲取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后分類以易于在訴訟中使 用的文檔分類系統(tǒng),使計(jì)算機(jī)中實(shí)現(xiàn)如下功能,從所述文檔信息中抽取作為數(shù)據(jù)組而包含 規(guī)定數(shù)量文檔的文檔群,將所述抽取的文檔群顯示在畫面上,接受用戶根據(jù)與所述訴訟之 間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類符號(hào),根據(jù)所述分類符號(hào),按每個(gè)分類符號(hào)對(duì) 所述抽取的文檔群進(jìn)行分類,解析并選定該被分類的文檔群中共同出現(xiàn)的關(guān)鍵詞,記錄所 述被選定的關(guān)鍵詞,從所述文檔信息搜索所述被記錄的關(guān)鍵詞,利用所述搜索結(jié)果和所述 解析結(jié)果,計(jì)算表示分類符號(hào)和文檔之間的關(guān)聯(lián)性的得分,根據(jù)所述得分的結(jié)果自動(dòng)賦予 分類符號(hào)。
[0027] 發(fā)明的效果
[0028] 本發(fā)明的文檔辨別系統(tǒng)、文檔辨別方法及文檔辨別程序從所述文檔信息中抽取作 為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群,將所述抽取的文檔群顯示在畫面上,接受用戶根 據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類符號(hào),根據(jù)所述分類符號(hào),按 每個(gè)分類符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類,解析并選定該被分類的文檔群中共同出現(xiàn)的 關(guān)鍵詞,記錄所述被選定的關(guān)鍵詞,從所述文檔信息搜索所述被記錄的關(guān)鍵詞,利用所述搜 索結(jié)果和所述解析結(jié)果,計(jì)算表示分類符號(hào)和文檔之間的關(guān)聯(lián)性的得分,根據(jù)所述得分的 結(jié)果自動(dòng)賦予分類符號(hào),由此,能夠減輕查閱者分類作業(yè)的負(fù)擔(dān)。
[0029] 另外,本發(fā)明的文檔辨別系統(tǒng)中,所述搜索部從由未被賦予所述分類符號(hào)的文檔 構(gòu)成的文檔信息中搜索所述關(guān)鍵詞,所述得分計(jì)算部利用所述搜索部的搜索結(jié)果和所述選 定部的解析結(jié)果,計(jì)算表示分類符號(hào)和文檔之間關(guān)聯(lián)性的得分,所述自動(dòng)分類部具有抽取 未由所述分類符號(hào)接受部接受到賦予所述分類符號(hào)的文檔,并對(duì)文檔信息自動(dòng)賦予分類符 號(hào)的功能時(shí),對(duì)于未由分類符號(hào)接受部接受賦予分類符號(hào)的文檔信息,根據(jù)查閱者進(jìn)行分 類的規(guī)則性,可自動(dòng)賦予分類符號(hào)。
[0030] 另外,本發(fā)明還具有學(xué)習(xí)部,其根據(jù)所述選定部的分析結(jié)果和所述得分計(jì)算部計(jì) 算的得分,對(duì)由所述選定部選定的關(guān)鍵詞、記錄在所述數(shù)據(jù)庫中的與分類符號(hào)有相關(guān)關(guān)系 的關(guān)鍵詞及關(guān)聯(lián)用語進(jìn)行增減,這種情況下,每重復(fù)分類次數(shù),都可提高分類精度。
[0031] 另外,本發(fā)明從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群, 將所述抽取的文檔群顯示在畫面上,接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的 文檔群賦予的分類符號(hào),根據(jù)所述分類符號(hào),按每個(gè)分類符號(hào)對(duì)所述抽取的文檔群進(jìn)行分 類,解析并選定該被分類的文檔群中共同出現(xiàn)的關(guān)鍵詞,記錄所述被選定的關(guān)鍵詞,從所述 文檔信息搜索所述被記錄的關(guān)鍵詞,利用所述搜索結(jié)果和所述解析結(jié)果,計(jì)算表示分類符 號(hào)和文檔之間的關(guān)聯(lián)性的得分,根據(jù)所述得分的結(jié)果自動(dòng)賦予分類符號(hào),并在文檔群的文 檔中,選定不含與選定部所選定的關(guān)鍵詞、關(guān)聯(lián)用語及分類符號(hào)具有相關(guān)關(guān)系的關(guān)鍵詞的 文檔,而從自動(dòng)分類部的分類對(duì)象排除被選定的文檔,此時(shí),可更高效的進(jìn)行文檔分類。由 此,在訴訟中容易使用所收集的數(shù)字信息。
【專利附圖】
【附圖說明】
[0032] 圖1為本發(fā)明的第1實(shí)施方式的文檔辨別系統(tǒng)的結(jié)構(gòu)圖;
[0033] 圖2為本發(fā)明的實(shí)施方式的表示選定部的解析結(jié)果的坐標(biāo)圖;
[0034] 圖3為本發(fā)明的實(shí)施方式的每個(gè)階段處理的圖表;
[0035] 圖4為本發(fā)明的實(shí)施方式的數(shù)據(jù)庫的處理流程的圖表;
[0036] 圖5為本發(fā)明的實(shí)施方式的搜索部的處理流程的圖表;
[0037] 圖6為本發(fā)明的實(shí)施方式的得分計(jì)算部的處理流程的圖表;
[0038] 圖7為本發(fā)明的實(shí)施方式的自動(dòng)分類部的處理流程的圖表;
[0039] 圖8為本發(fā)明的實(shí)施方式的抽取部的處理流程的圖表;
[0040] 圖9為本發(fā)明的實(shí)施方式的文檔顯示部的處理流程的圖表;
[0041] 圖10為本發(fā)明的實(shí)施方式的分類符號(hào)接受部的處理流程的圖表;
[0042] 圖11為本發(fā)明的實(shí)施方式的選定部的處理流程的圖表;
[0043] 圖12為本發(fā)明的實(shí)施方式的文檔排除部的處理流程的圖表;
[0044] 圖13為本發(fā)明的實(shí)施方式的學(xué)習(xí)部的處理流程的圖表;
[0045] 圖14為本發(fā)明的實(shí)施方式的文檔顯示畫面。
[0046] 符號(hào)說明
[0047] 101文檔分類裝置
[0048] 102抽取部
[0049] 103文檔顯示部
[0050] 104分類符號(hào)接受部
[0051] 105選定部
[0052] 106搜索部
[0053] 107得分計(jì)算部
[0054] 108自動(dòng)分類部
[0055] 109文檔排除部
[0056] 110 學(xué)習(xí)部
[0057] 201數(shù)據(jù)庫
[0058] 301 客戶端
[0059] II 文檔顯示畫面
【具體實(shí)施方式】 [0060] 第1實(shí)施方式
[0061] 下面,參照附圖對(duì)本發(fā)明的實(shí)施方式進(jìn)行說明。圖1表示第1實(shí)施方式的文檔辨 別系統(tǒng)的結(jié)構(gòu)圖。
[0062] 第1實(shí)施方式為,與專利侵權(quán)訴訟的文檔提交指令相對(duì)應(yīng)時(shí),對(duì)與作為被指控產(chǎn) 品的產(chǎn)品A相關(guān)的文檔進(jìn)行分類處理情況的實(shí)施例。
[0063] 本發(fā)明的文檔分類系統(tǒng)包括:抽取部102,其抽取文檔信息中包含所規(guī)定數(shù)量文 檔的數(shù)據(jù)組的文檔群;文檔顯示部103,其將被抽取的文檔群顯示在畫面上;分類符號(hào)接受 部104,其接受被稱為查閱者的用戶根據(jù)與訴訟的關(guān)聯(lián)性對(duì)所顯示的文檔群賦予的分類符 號(hào);選定部105,其根據(jù)分類符號(hào),將抽取的文檔群分類給每個(gè)分類符號(hào),并在該被分類的 文檔群中解析并選定共同出現(xiàn)的關(guān)鍵詞;數(shù)據(jù)庫201,用于記錄所選定的關(guān)鍵詞;搜索部 106,其從文檔信息搜索記錄在數(shù)據(jù)庫201中的關(guān)鍵詞;得分計(jì)算部107,其利用搜索部106 的搜索結(jié)果和選定部105的解析結(jié)果,計(jì)算出表示分類符號(hào)和文檔的關(guān)聯(lián)性的得分;自動(dòng) 分類部108,其根據(jù)得分的結(jié)果,自動(dòng)賦予分類符號(hào);文檔排除部109,其用于從自動(dòng)分類部 108的分類對(duì)象中排除被選定的文檔;學(xué)習(xí)部110,其根據(jù)選定部105的分析結(jié)果及得分計(jì) 算部計(jì)算出的得分,對(duì)由選定部105選定的關(guān)鍵詞、與記錄在數(shù)據(jù)庫201中的分類符號(hào)具相 關(guān)關(guān)系的關(guān)鍵詞及關(guān)聯(lián)用語進(jìn)行增減。
[0064] 在第1實(shí)施方式中,該文檔分類系統(tǒng)包括文檔分類裝置101、數(shù)據(jù)庫201及查閱者 使用的客戶端301構(gòu)成,其中,文檔分類裝置101具有抽取部102、文檔顯示部103、分類符 號(hào)接受部104、選定部105、搜索部106、得分計(jì)算部107、自動(dòng)分類部108、文檔排除部109和 學(xué)習(xí)部110。在1個(gè)文檔辨別系統(tǒng)內(nèi),客戶端301可具有多個(gè)。
[0065] 文檔分類裝置101及客戶端301為計(jì)算機(jī)或服務(wù)器,其根據(jù)各種輸入使CUP實(shí)施 ROM中記錄的程序,進(jìn)行作為各種功能部的動(dòng)作。
[0066] 分類符號(hào)為將文檔分類時(shí)使用的標(biāo)識(shí)符。訴訟中將文檔信息作為證據(jù)使用時(shí),可 根據(jù)證據(jù)的種類賦予分類符號(hào)。第1實(shí)施方式中,分類符號(hào)為"無關(guān)"、"有關(guān)"和"重要"3 種符號(hào),其中"無關(guān)"表示此次的訴訟中無舉證能力的文檔,"有關(guān)"表示需要作為證據(jù)提交 的文檔,"重要"表示與產(chǎn)品A有著特別關(guān)系的文檔,其中,對(duì)賦予"重要"符號(hào)的文檔進(jìn)行分 類。
[0067] 這里所述的文檔是指,訴訟中作為證據(jù)提交的數(shù)字信息,是包含1個(gè)以上單詞的 數(shù)據(jù)。例如為電子郵件、企劃案材料、表計(jì)算材料、商洽材料、合同書、組織圖、事業(yè)企劃書 等。另外,可將掃描數(shù)據(jù)作為文檔處理。這種情況下,可在文檔辨別系統(tǒng)中設(shè)置OCR(光符 閱讀器:〇ptical Character Reader)裝置,以將掃描數(shù)據(jù)轉(zhuǎn)換為文檔數(shù)據(jù)。通過使用OCR 裝置轉(zhuǎn)換為文檔數(shù)據(jù),可從掃描數(shù)據(jù)中解析或搜索關(guān)鍵詞及關(guān)聯(lián)用語。
[0068] 例如,在第1實(shí)施方式中,對(duì)記載有與產(chǎn)品A相關(guān)的商談內(nèi)容的會(huì)議記錄或電子郵 件等賦予"有關(guān)"符號(hào),對(duì)產(chǎn)品A的研發(fā)企劃書或設(shè)計(jì)書等賦予"重要"符號(hào),對(duì)與產(chǎn)品A無 關(guān)的法院、地方定期召開的會(huì)議(日本語"定例會(huì)")等材料賦予"無關(guān)"符號(hào)。
[0069] 另外,在為某種語言下,關(guān)鍵詞為具有一定意義的語句的概括。例如,在從"將文檔 分類"的文章選定關(guān)鍵詞時(shí),可選"文檔"、"分類"為關(guān)鍵詞。在第1實(shí)施方式中,重點(diǎn)選擇 "侵害"、"訴訟"或"專利公報(bào)〇〇號(hào)"為關(guān)鍵詞。
[0070] 數(shù)據(jù)庫201為在電子介質(zhì)上記錄數(shù)據(jù)的記錄裝置,可設(shè)置在文檔分類裝置101的 內(nèi)部,例如也可作為儲(chǔ)存裝置設(shè)置在外部。
[0071] 文檔分類裝置101、數(shù)據(jù)庫201及客戶端301通過有線或無線的網(wǎng)絡(luò)連接。也可使 用云計(jì)算的形式。
[0072] 數(shù)據(jù)庫201記錄各分類符號(hào)的關(guān)鍵詞。另外,可事先登記能夠根據(jù)以往的分類處 理的結(jié)果判斷與產(chǎn)品A關(guān)聯(lián)性高且若包含在文檔中則可直接賦予"重要"符號(hào)的關(guān)鍵詞。例 如像產(chǎn)品A的主要功能名稱或"訴訟"、"警告"、"專利公報(bào)" 一類的關(guān)鍵詞。另外,同樣地, 也可以根據(jù)以往的分類處理的結(jié)果,抽取與如下所述文章群關(guān)聯(lián)性高的一般用語,登記為 關(guān)聯(lián)用語,其中該文章群因與產(chǎn)品A關(guān)聯(lián)性高而被賦予"重要"符號(hào)。
[0073] 對(duì)于已登記于數(shù)據(jù)庫201的關(guān)鍵詞及關(guān)聯(lián)用語,除了根據(jù)學(xué)習(xí)部110的學(xué)習(xí)結(jié)果 進(jìn)行增減,還可以通過手動(dòng)的方式進(jìn)行追加登記及刪除。
[0074] 抽取部102在從文檔信息中抽取文檔群時(shí),可進(jìn)行隨機(jī)采樣。在第1實(shí)施方式中, 隨機(jī)抽取全部文檔信息中兩成(20%)文檔,作為查閱者的分類對(duì)象。抽取部102從全部文 檔信息抽取的文檔的比例可自由設(shè)定。另外,可將抽取源的對(duì)象作為全部文檔信息的一部 分。
[0075] 文檔顯示部103向客戶端301提示如圖14所示的文檔顯示畫面II。文檔顯示畫 面II,如圖14所示,在中間顯示作為分類對(duì)象的文檔,并在左側(cè)顯示分類符號(hào),而以該畫面 結(jié)構(gòu)在1個(gè)畫面內(nèi)顯示分類對(duì)象的文檔和要賦予的分類符號(hào)。其畫面結(jié)構(gòu)也可以使顯示文 檔的部位和顯示分類符號(hào)的部位分別不同。
[0076] 在第1實(shí)施方式中,文檔顯示畫面II中的分類符號(hào)1表示"無關(guān)"符號(hào),分類符號(hào) 2表示"有關(guān)"符號(hào),分類符號(hào)3表示"重要"符號(hào)。另外,在賦予"有關(guān)"符號(hào)的文檔中,小 類1賦予與產(chǎn)品A的價(jià)格相關(guān)的文檔,小類2賦予與產(chǎn)品A的開發(fā)計(jì)劃相關(guān)的文檔。在1 個(gè)分類符號(hào)中可具有多個(gè)小類,也可不具有。
[0077] 分類符號(hào)接受部104,對(duì)文檔顯示部103顯示的文檔信息中由查閱者觀察確認(rèn)并 逐個(gè)決定分類符號(hào)的文檔,根據(jù)該決定賦予分類符號(hào),從而可將該文檔分類。可通過被賦予 的分類符號(hào)進(jìn)行文檔的分類。
[0078] 選定部105對(duì)由分類符號(hào)接受部104分類的文檔信息進(jìn)行解析,并對(duì)被賦予"無 關(guān)"、"有關(guān)"及"重要"的各分類符號(hào)的文檔信息,選定共同頻繁出現(xiàn)的關(guān)鍵詞作為該分類符 號(hào)的關(guān)鍵詞。
[0079] 圖2是表不選定部105對(duì)被賦予"重要"符號(hào)的文檔解析結(jié)果的圖表。
[0080] 圖2中,縱軸R_hot表示,由查閱者賦予"重要"符號(hào)的全部文檔中,包含選定的關(guān) 鍵詞作為附帶在"重要"符號(hào)中的關(guān)鍵詞,且表示被賦予"重要"符號(hào)的文檔的比例。橫軸 表示,查閱者實(shí)施分類處理的全部文檔中,包含由選定部105選定的關(guān)鍵詞的文檔的比例。
[0081] 在第1實(shí)施方式中,選定部105可選定標(biāo)識(shí)于直線R_hot = R_all上部的關(guān)鍵詞 作為其分類符號(hào)的關(guān)鍵詞。
[0082] 搜索部106具有從作為對(duì)象的文檔中搜索特定的關(guān)鍵詞的功能。搜索部106在搜 索包含由選定部105選定的關(guān)鍵詞或由數(shù)據(jù)庫201抽取的包含關(guān)聯(lián)用語的文檔時(shí),由分類 符號(hào)接受部104未接受到賦予分類符號(hào)的文檔構(gòu)成的文檔群為對(duì)象進(jìn)行搜索。
[0083] 得分計(jì)算部107可根據(jù)文檔群中出現(xiàn)的關(guān)鍵詞和各關(guān)鍵詞所擁有的權(quán)重,利用下 式計(jì)算得分。得分是指,定量評(píng)價(jià)某個(gè)文檔與特定的分類符號(hào)的聯(lián)系的強(qiáng)度。
[0084]
【權(quán)利要求】
1. 一種文檔分類系統(tǒng),其獲取記錄在多個(gè)計(jì)算機(jī)或服務(wù)器中的數(shù)字信息,并對(duì)該獲取 的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后進(jìn)行分類以易于在訴訟中使用,其特征在 于,具有: 抽取部,其從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群; 文檔顯示部,其將所述抽取的文檔群顯示在畫面上; 分類符號(hào)接受部,其接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予 的分類符號(hào); 選定部,其根據(jù)所述分類符號(hào),按每個(gè)分類符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類,解析并 選定在該被分類的文檔群中共同出現(xiàn)的關(guān)鍵詞; 數(shù)據(jù)庫,其記錄所述被選定的關(guān)鍵詞; 搜索部,其從所述文檔信息中搜索記錄在所述數(shù)據(jù)庫中的關(guān)鍵詞; 得分計(jì)算部,其利用所述搜索部的搜索結(jié)果和所述選定部的解析結(jié)果,計(jì)算表示分類 符號(hào)和文檔之間的關(guān)聯(lián)性的得分;以及 自動(dòng)分類部,其根據(jù)所述得分的結(jié)果自動(dòng)賦予分類符號(hào)。
2. 根據(jù)權(quán)利要求1所述的文檔分類系統(tǒng),其特征在于, 所述得分計(jì)算部根據(jù)出現(xiàn)在所述文檔群中的所述關(guān)鍵詞和各關(guān)鍵詞所擁有的權(quán)重計(jì) 算得分。
3. 根據(jù)權(quán)利要求1或2中任意一項(xiàng)所述的文檔分類系統(tǒng),其特征在于, 所述權(quán)重根據(jù)擁有所述關(guān)鍵詞的、每個(gè)所述分類符號(hào)的傳遞信息量決定。
4. 根據(jù)權(quán)利要求1?3中任意一項(xiàng)所述的文檔分類系統(tǒng),其特征在于, 所述抽取部具有從所述文檔信息中隨機(jī)采樣而抽取文檔群的功能。
5. 根據(jù)權(quán)利要求1?4中任意一項(xiàng)所述的文檔判別系統(tǒng),其特征在于, 所述搜索部從由未被賦予所述分類符號(hào)的文檔構(gòu)成的文檔信息中搜索所述關(guān)鍵詞, 所述得分計(jì)算部利用所述搜索部的搜索結(jié)果和所述選定部的解析結(jié)果,計(jì)算表示分類 符號(hào)和文檔之間關(guān)聯(lián)性的得分, 所述自動(dòng)分類部具有抽取未由所述分類符號(hào)接受部接受到賦予所述分類符號(hào)的文檔, 并對(duì)文檔信息自動(dòng)賦予分類符號(hào)的功能。
6. 根據(jù)權(quán)利要求1所述的文檔分類系統(tǒng),其特征在于, 所述數(shù)據(jù)庫還具有抽取并記錄與所述分類符號(hào)具有關(guān)聯(lián)性的關(guān)聯(lián)用語的功能, 所述搜索部還具有從所述文檔信息中搜索所述關(guān)聯(lián)用語的功能, 所述得分計(jì)算部還具有根據(jù)所述搜索部對(duì)所述關(guān)聯(lián)用語進(jìn)行搜索的結(jié)果計(jì)算得分的 功能, 所述自動(dòng)分類部還具有根據(jù)使用所述關(guān)聯(lián)用語計(jì)算的得分自動(dòng)賦予分類符號(hào)的功能。
7. 根據(jù)權(quán)利要求6所述的文檔分類系統(tǒng),其特征在于, 所述數(shù)據(jù)庫還具有事先記錄與所述分類符號(hào)有相關(guān)關(guān)系的關(guān)鍵詞的功能, 所述自動(dòng)分類部還具有在對(duì)所述文檔群中包含與分類符號(hào)有相關(guān)關(guān)系的關(guān)鍵詞的文 檔進(jìn)行搜索時(shí),決定所述分類符號(hào)的功能。
8. 根據(jù)權(quán)利要求6或7所述的文檔分類系統(tǒng),其特征在于, 還具有文檔排除部,其在所述文檔群中的文檔中,選定不包含由所述選定部選定的所 述關(guān)鍵詞、所述關(guān)聯(lián)用語及與所述分類符號(hào)有相關(guān)關(guān)系的關(guān)鍵詞的文檔,并從所述自動(dòng)分 類部的分類對(duì)象中排除所述被選定的文檔。
9. 根據(jù)權(quán)利要求6或7所述的文檔分類系統(tǒng),其特征在于, 還具有學(xué)習(xí)部,其根據(jù)所述選定部的分析結(jié)果和所述得分計(jì)算部計(jì)算的得分,對(duì)由所 述選定部選定的關(guān)鍵詞、記錄在所述數(shù)據(jù)庫中的與分類符號(hào)有相關(guān)關(guān)系的關(guān)鍵詞及關(guān)聯(lián)用 語進(jìn)行增減。
10. -種文檔分類方法,其應(yīng)用于獲取記錄在多個(gè)計(jì)算機(jī)或服務(wù)器中記錄的數(shù)字信息, 并對(duì)該獲取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后分類以易于在訴訟中使用的文 檔分類系統(tǒng),其特征在于, 從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群, 將所述抽取的文檔群顯示在畫面上, 接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類符號(hào), 根據(jù)所述分類符號(hào),按每個(gè)分類符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類,解析并選定該被 分類的文檔群中共同出現(xiàn)的關(guān)鍵詞, 記錄所述被選定的關(guān)鍵詞, 從所述文檔信息搜索所述被記錄的關(guān)鍵詞, 利用所述搜索結(jié)果和所述解析結(jié)果,計(jì)算表示分類符號(hào)和文檔之間的關(guān)聯(lián)性的得分, 根據(jù)所述得分的結(jié)果自動(dòng)賦予分類符號(hào)。
11. 一種文檔分類程序,其應(yīng)用于獲取記錄在多個(gè)計(jì)算機(jī)或服務(wù)器中記錄的數(shù)字信息, 并對(duì)該獲取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后分類以易于在訴訟中使用的文 檔分類系統(tǒng),其特征在于, 使計(jì)算機(jī)中實(shí)現(xiàn)如下功能, 從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群, 將所述抽取的文檔群顯示在畫面上, 接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類符號(hào), 根據(jù)所述分類符號(hào),按每個(gè)分類符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類,解析并選定該被 分類的文檔群中共同出現(xiàn)的關(guān)鍵詞, 記錄所述被選定的關(guān)鍵詞, 從所述文檔信息搜索所述被記錄的關(guān)鍵詞, 利用所述搜索結(jié)果和所述解析結(jié)果,計(jì)算表示分類符號(hào)和文檔之間的關(guān)聯(lián)性的得分, 根據(jù)所述得分的結(jié)果自動(dòng)賦予分類符號(hào)。
【文檔編號(hào)】G06F17/30GK104160395SQ201380011864
【公開日】2014年11月19日 申請(qǐng)日期:2013年2月28日 優(yōu)先權(quán)日:2012年2月29日
【發(fā)明者】守本正宏, 白井喜勝, 武田秀樹, 蓮子和巳 申請(qǐng)人:Ubic股份有限公司