本發(fā)明涉及從大量的文件集合中檢索所希望的文件的文件檢索裝置以及文件檢索方法。特別是,本發(fā)明涉及類似文件檢索輔助裝置以及類似文件檢索輔助方法,其中,從將利用者指定的文章或文件作為檢索條件,將與此記載內(nèi)容類似或關(guān)連的文件作為檢索對(duì)象的文件集合中進(jìn)行檢索,并從類似或關(guān)連程度高的文件開始依次輸出。
背景技術(shù):通過互聯(lián)網(wǎng)等通信網(wǎng)絡(luò)或PC/便攜式電話等硬件的普及和低價(jià)格化、CPU的高速化、存儲(chǔ)器或硬盤的大容量化/低價(jià)格化、檢索系統(tǒng)或文件編輯器等軟件的高功能化/高性能化等,一般的人們能夠容易地訪問大量的文件信息。而另一方面,從大量的文件集合中迅速準(zhǔn)確且低勞動(dòng)量地檢索/取得所希望的文件卻變得困難。作為從大量的文件集合中檢索所希望的文件的方式,一般是關(guān)鍵字檢索。在關(guān)鍵字檢索中,利用者制作由與所希望的文件有關(guān)連的一個(gè)以上的關(guān)鍵字和表示關(guān)鍵字間的邏輯關(guān)系性的邏輯運(yùn)算符(AND/OR/NOT等)構(gòu)成的關(guān)鍵字邏輯式。文件檢索裝置接收來自利用者的邏輯式,從檢索對(duì)象文件集合中僅檢索該邏輯式為真的文件,并向利用者示出。但是,在關(guān)鍵字檢索中,經(jīng)常存在利用者想不到為了將檢索結(jié)果文件壓縮至可閱覽的個(gè)數(shù),應(yīng)該制作怎樣的關(guān)鍵字邏輯式的情況。此外,優(yōu)先輸出反映了利用者的檢索意圖的檢索結(jié)果文件的作法,在精度上來講也是困難的。而近來,在關(guān)鍵字檢索的領(lǐng)域中,從將由利用者輸入的任意的文章或指定的任意的文件作為檢索條件,從作為檢索對(duì)象的文件集合中檢索與此記載內(nèi)容類似或關(guān)連的文件,從類似或關(guān)連程度高的文件開始依次 輸出的技術(shù)普及起來。該技術(shù)被稱為類似文件檢索。另外,該技術(shù)也被稱為概念檢索、自然語言檢索、自然語句檢索、模糊檢索、聯(lián)想檢索。類似文件檢索通過以下的處理來實(shí)現(xiàn)。首先,從構(gòu)成作為檢索對(duì)象的文件集合的各檢索對(duì)象文件提取表現(xiàn)記載內(nèi)容的特征的特征詞,此后,對(duì)各特征詞計(jì)算/賦予與其重要度相對(duì)應(yīng)的權(quán)重,由此,生成由一個(gè)以上的加權(quán)特征詞構(gòu)成的特征詞矢量,并預(yù)先存儲(chǔ)于檢索目錄。此外,也通過相同的方法,從利用者所輸入的文章或所指定的文件(以下,統(tǒng)稱為“輸入文件”)提取加權(quán)特征詞并生成特征詞矢量。接著,將通過輸入文件所生成的特征矢量與各檢索對(duì)象文件的特征矢量相對(duì)照,計(jì)算兩者的類似度。特征矢量間的內(nèi)積或特征矢量成角的余弦值經(jīng)常被用作類似度的計(jì)算。此后,將按降序?qū)︻愃贫冗M(jìn)行排序所獲得的順位靠前的文件作為與輸入文件類似的文件輸出?,F(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)1日本特開2002-230032號(hào)公報(bào)專利文獻(xiàn)2日本特開1995-192020號(hào)公報(bào)專利文獻(xiàn)3日本特開2000-311173號(hào)公報(bào)發(fā)明所要解決的課題在類似文件檢索中,能夠?qū)⒆约耗X中想起的任意文章或手頭的文件直接作為檢索條件來進(jìn)行指定,因此,具有無需利用者制作關(guān)鍵字邏輯式的優(yōu)點(diǎn)。此外,能夠從與輸入文件的內(nèi)容類似程度高的文件開始賦予順位地進(jìn)行輸出,因此,也具有利用者能夠迅速找到所希望的文件的優(yōu)點(diǎn)。但是,在類似文件檢索中,通過對(duì)照將大量的加權(quán)特征詞作為要素的特征詞矢量,判斷輸入文件與檢索對(duì)象文件之間的類似性。因此,所具有的缺點(diǎn)是:利用者很難理解檢索依據(jù),即為什么此文件被作為類似文件輸出。更具體地講,在類似文件檢索中存在以下所示的4個(gè)課題。·課題(1):不能理解輸入文件中的哪個(gè)特征詞為類似文件檢索結(jié)果的輸出做出了何種程度的貢獻(xiàn)?!ふn題(2):不能理解類似文件檢索進(jìn)展順利的程度?!ふn題(3):不能理解類似文件檢索進(jìn)展不順利的情況下,其原因是什么?!ふn題(4):不能理解類似文件檢索進(jìn)展不順利的情況下,接下來如何才能獲得更好的檢索結(jié)果。作為與上述課題(1)有關(guān)連的技術(shù)文獻(xiàn),包括專利文獻(xiàn)1以及專利文獻(xiàn)2。這些專利文獻(xiàn)中所記載的發(fā)明通過以檢索結(jié)果和檢索中所使用的項(xiàng)目為軸而構(gòu)成的表或曲線的形態(tài)來顯示檢索結(jié)果。在專利文獻(xiàn)1中,基于多個(gè)判斷基準(zhǔn),計(jì)算按判斷基準(zhǔn)的文件適合值,并計(jì)算將這些值匯總得到的綜合文件適合值。在輸出文件檢索結(jié)果時(shí),將檢索結(jié)果文件和判斷基準(zhǔn)作為2軸,輸出以按檢索結(jié)果文件的綜合文件適合值以及按判斷基準(zhǔn)的文件適合值為值的表。通過該表,利用者能夠理解哪個(gè)判斷基準(zhǔn)為哪個(gè)檢索結(jié)果文件的輸出做出了怎樣的貢獻(xiàn)。在專利文獻(xiàn)2中,對(duì)輸入文件進(jìn)行解析,分為多個(gè)不同的視點(diǎn),按視點(diǎn)變換成檢索命令,分各視點(diǎn)地計(jì)算輸入文件與檢索對(duì)象文件之間的類似度,并將這些綜合起來輸出檢索結(jié)果。在輸出檢查結(jié)果時(shí),使用被指定的視點(diǎn)作為軸,二維或三維地顯示檢索命令與檢索結(jié)果文件的類似程度。通過該顯示,利用者能夠理解基于哪個(gè)視點(diǎn)被輸出了哪個(gè)檢索結(jié)果文件。上述專利文獻(xiàn)1以及2中所記載的發(fā)明使用以檢索結(jié)果和檢索中所使用的項(xiàng)目(視點(diǎn),判斷基準(zhǔn))為軸而構(gòu)成的表或曲線來顯示檢索結(jié)果,由此來解決上述課題(1)。但是,這些發(fā)明并未言及解決其他課題(2)、(3)、(4)的結(jié)構(gòu)。例如,關(guān)于上述課題(2),為了使利用者能夠理解類似文件檢索是否進(jìn)展順利,需要根據(jù)各種要因來解析輸入文件與檢索對(duì)象文件之間的類似性,并以利用者能夠按要因評(píng)價(jià)類似文件檢索的優(yōu)劣的方式提供方案。與該課題(2)有關(guān)聯(lián)的技術(shù)文獻(xiàn)中包括專利文獻(xiàn)3。專利文獻(xiàn)3中 記載了如下的手法:首先,根據(jù)過去的檢索結(jié)果,按已賦予檢索結(jié)果文件的分類預(yù)先計(jì)算與通過類似文件檢索所檢索到的類似文件的類似度的值范圍對(duì)應(yīng)的檢索精度;接著,根據(jù)對(duì)新輸入文件的檢索結(jié)果文件的各類似度以及分類,確定與該分類中的類似度對(duì)應(yīng)的檢索精度;此后,將該檢索結(jié)果文件的類似度的值與該被確定的檢索精度的值置換來作為準(zhǔn)確度,以準(zhǔn)確度由高到低的順序重排列檢索結(jié)果并進(jìn)行顯示,由此,提高檢索精度。但是,專利文獻(xiàn)3中所記載的手法僅基于類似度與檢索精度的對(duì)應(yīng)關(guān)系,將類似度置換為檢索精度,并對(duì)檢索結(jié)果文件的顯示順序進(jìn)行補(bǔ)正(重排列)。因此,通過專利文獻(xiàn)3中所言及的結(jié)構(gòu),利用者不能理解檢索不順利的要因或基于該要因接下來該做什么。在類似文件檢索中,經(jīng)常要求“檢索條件指定→檢索執(zhí)行→把握檢索結(jié)果的傾向或要因→檢索條件修正→再檢索”這樣的檢索作業(yè)處理的循環(huán)高效地運(yùn)轉(zhuǎn),即,使檢索作業(yè)高效化。該檢索作業(yè)的高效化需要以下的結(jié)構(gòu):向利用者示出檢索結(jié)果,并且還示出關(guān)于檢索結(jié)果的依據(jù)/原因/應(yīng)對(duì)方法等的信息,以利用者面對(duì)下次檢索能夠高效且準(zhǔn)確地修正檢索條件的方式進(jìn)行輔助。但是,專利文獻(xiàn)3中所記載的手法僅限于基于類似度與檢索精度的對(duì)應(yīng)關(guān)系的檢索結(jié)果文件的重排列,并未公開把握檢索結(jié)果的傾向或要因來修正檢索條件并進(jìn)行再檢索這樣的用于使檢索作業(yè)處理的循環(huán)高效地運(yùn)轉(zhuǎn)的結(jié)構(gòu)。結(jié)果,通過專利文獻(xiàn)3中所記載的手法,不能解決上述課題(3)、(4)。此外,專利文獻(xiàn)3中所著眼的僅僅是類似度的值本身和檢索結(jié)果文件所屬的分類。但是,定量地表示文件間的類似性的類似度一般是在多個(gè)微觀要因影響之下所計(jì)算的值。作為這里所稱的要因的具體例,可列舉出:用于檢索的輸入文件的特征詞的質(zhì)量和數(shù)量、檢索對(duì)象文件的內(nèi)容/構(gòu)造/文章量的不均、文件執(zhí)筆者的異同數(shù)或不特定性、檢索對(duì)象文件中所使用的特征詞的質(zhì)量或不均等。因此,僅通過對(duì)類似度本身的值與檢索精度之間的關(guān)系性進(jìn)行解 析,并不能確定檢索進(jìn)展不順利的要因。這里的要因確定必須對(duì)更微觀的要因與檢索精度的關(guān)系進(jìn)行解析,很好地識(shí)別出使檢索精度提高的要因和使檢索精度降低的要因,并定量地向利用者示出。但是,在專利文獻(xiàn)3的手法中,并未言及關(guān)于確定檢索進(jìn)展不順利的要因的技術(shù)。因此,通過專利文獻(xiàn)3中所記載的手法不能解決上述課題(3)。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明是對(duì)上述技術(shù)背景和以往技術(shù)進(jìn)行考察之下完成的,其提供一種特別用于解決類似文件檢索所遇到的上述4個(gè)課題中的課題(3)以及(4)的技術(shù)。即,本發(fā)明使得在類似文件檢索進(jìn)展不順利的情況下,利用者能夠理解原因是什么。此外,本發(fā)明使得在類似文件檢索進(jìn)展不順利的情況下,利用者能夠理解接下來做什么能夠獲得較好的檢索結(jié)果。而且,通過解決這些課題,本發(fā)明使得利用者能夠使檢索作業(yè)處理的循環(huán)高效地運(yùn)轉(zhuǎn)。用于解決課題的手段為了解決上述課題(3),本發(fā)明對(duì)影響類似文件檢索的精度的要因進(jìn)行定義,之后,針對(duì)檢索結(jié)果按各要因計(jì)算從各要因看來的檢索精度和/或與精度平均之間的偏離度,并向利用者示出。例如本發(fā)明的類似文件檢索輔助裝置和程序使用硬件資源來執(zhí)行以下的處理。首先,對(duì)過去的輸入文件和正確解答文件對(duì)的集合進(jìn)行關(guān)于各要因的解析,使要因的值范圍與檢索精度建立對(duì)應(yīng),并存儲(chǔ)于表中。接著,對(duì)新輸入文件執(zhí)行相同的要因解析。此后,通過與上述表的對(duì)照,確定對(duì)應(yīng)于與新輸入文件的要因值相應(yīng)的值范圍的檢索精度,向利用者示出檢測(cè)精度和/或與對(duì)于過去的輸入文件整體的檢索精度平均之間的偏離度。此外,為了進(jìn)一步解決上述課題(4),本發(fā)明準(zhǔn)備對(duì)策表,在該對(duì)策表中,從上述要因的各視點(diǎn)出發(fā),按要因組存儲(chǔ)了:記載了應(yīng)該做什么的對(duì)策內(nèi)容、記載了如何進(jìn)行上述對(duì)策內(nèi)容的操作方法、為了進(jìn)行上述操作方法而應(yīng)該遷移的畫面信息,作為用于使利用者獲得更好的類似文件檢索結(jié)果的對(duì)策信息。然后,在向利用者告知檢索結(jié)果文件集合 時(shí),向利用者示出已存儲(chǔ)于精度影響度表的要因值及檢索精度和/或偏離值,并使上述對(duì)策表中所記載的對(duì)策內(nèi)容、操作方法、畫面信息中的至少一個(gè)隨附于要因組來進(jìn)行表示。發(fā)明效果通過本發(fā)明,利用者能夠把握類似文件檢索結(jié)果的依據(jù)。即,利用者能夠理解類似文件檢索進(jìn)展順利的程度、進(jìn)展不順利的情況下的原因是什么。而且,在向利用者示出檢索精度和/或偏離值時(shí),使對(duì)策表中所記載的對(duì)策內(nèi)容、操作方法、畫面信息的至少一個(gè)隨附于要因組來進(jìn)行表示的情況下,利用者能夠理解在類似文件檢索進(jìn)展不順利的情況下,接下來做什么能夠獲得較好的檢索結(jié)果。結(jié)果,能夠使檢索作業(yè)處理的循環(huán)高效地運(yùn)轉(zhuǎn),縮短檢索作業(yè)時(shí)間,并能夠獲得質(zhì)量高的檢索結(jié)果。上述以外的課題、構(gòu)成以及效果通過以下的實(shí)施方式的說明將得以明確。附圖說明圖1為表示輸入文件指定畫面的構(gòu)成例的圖。圖2為表示對(duì)應(yīng)于對(duì)策信息的檢索條件編輯畫面的構(gòu)成例的圖。圖3為表示類似文件檢索結(jié)果的概要顯示畫面的構(gòu)成例的圖。圖4A為表示類似文件檢索結(jié)果的詳細(xì)顯示畫面的構(gòu)成例的圖(畫面上部)。圖4B為表示類似文件檢索結(jié)果的詳細(xì)顯示畫面的構(gòu)成例的圖(畫面下部)。圖5為類似文件檢索輔助裝置的功能塊構(gòu)成的示意圖。圖6為表示檢索目錄505的構(gòu)成例的圖。圖7為表示著錄表507的構(gòu)成例的圖。圖8為表示教師文件表508的構(gòu)成例的圖。圖9為表示特征詞表510的構(gòu)成例的圖。圖10為表示檢索結(jié)果表512的構(gòu)成例的圖。圖11為表示要因表514的構(gòu)成例的圖。圖12為表示特征詞對(duì)照表515的構(gòu)成例的圖。圖13為表示由要因數(shù)據(jù)提取部513執(zhí)行的處理方法的一例的圖。圖14為表示檢索精度表517的構(gòu)成例的圖。圖15為表示由檢索精度解析部516執(zhí)行的處理方法的一例的圖。圖16為表示由檢索精度解析部516執(zhí)行的處理方法的具體例的圖。圖17為表示精度影響度表520的構(gòu)成例的圖。圖18為表示精度影響度計(jì)算部519的處理方法的一例的圖圖19為表示類似文件檢索輔助裝置的硬件的構(gòu)成例的圖。圖20A為表示檢索結(jié)果的詳細(xì)顯示畫面的其他構(gòu)成例的圖(畫面上部)。圖20B為表示檢索結(jié)果的詳細(xì)顯示畫面的其他構(gòu)成例的圖(畫面下部)。圖21為表示對(duì)策信息顯示畫面的構(gòu)成例的圖。圖22為表示對(duì)策表522的構(gòu)成例的圖。圖中:501文件數(shù)據(jù)庫502特征詞提取部503單詞字典504檢索目錄生成部505檢索目錄506著錄提取部507著錄表508教師文件表509特征詞收集部510特征詞表511類似文件檢索部512檢索結(jié)果表513要因數(shù)據(jù)提取部514要因表515特征詞對(duì)照表516檢索精度解析部517檢索精度表518新輸入文件號(hào)碼519精度影響度計(jì)算部520精度影響度表521檢索結(jié)果輸出部522對(duì)策表530輸入裝置540輸出裝置。具體實(shí)施方式以下,基于附圖,對(duì)本發(fā)明的實(shí)施例加以說明。以下的實(shí)施例假定一個(gè)將專利文件作為檢索條件,并對(duì)與被輸入的專利文件的發(fā)明內(nèi)容類似的過去的專利文件進(jìn)行檢索的類似專利檢索系統(tǒng)。具體地講,假定這樣一個(gè)使用例(usecase):在從過去的專利文件中檢索作為審查對(duì)象的專利申請(qǐng)的公知例時(shí),輸入整個(gè)申請(qǐng)文件,并對(duì)與此發(fā)明內(nèi)容類似的專利文件進(jìn)行檢索。但是,本發(fā)明的實(shí)施例并不限于該使用例。此外,在本實(shí)施例中,將專利文件用作檢索對(duì)象,但也可以將論文或新聞報(bào)道、設(shè)計(jì)文件或電子郵件、網(wǎng)頁等的文件作為檢索對(duì)象。在本實(shí)施例中,作為類似文件的檢索結(jié)果的依據(jù),提供對(duì)以下內(nèi)容的理解功能:輸入文件中的哪個(gè)特征詞為檢索結(jié)果的輸出做出了怎樣的貢獻(xiàn);類似文件檢索進(jìn)展順利的程度;類似文件檢索進(jìn)展不順利的情況下的原因是什么;類似文件檢索進(jìn)展不順利的情況下,接下來做什么才能獲得較好的檢索結(jié)果等。首先,使用畫面例,對(duì)本系統(tǒng)的輸入輸出圖像加以說明。圖1中示出本系統(tǒng)的輸入文件指定畫面的構(gòu)成例。在輸入文件指定畫面100中,利用者將作為想要檢索的文件的標(biāo)識(shí)符的專利申請(qǐng)?zhí)栞斎氲捷斎雲(yún)^(qū)域 101。輸入專利申請(qǐng)?zhí)柡螅舭聪隆皺z索”按鈕103,則執(zhí)行類似文件檢索,檢索結(jié)果將被輸出至其他畫面。另外,若按下“清空”按鈕102,則輸入?yún)^(qū)域101的內(nèi)容被消去。在輸入文件指定畫面100中,作為檢索的選項(xiàng),設(shè)有:復(fù)選框104,用于選擇輸入是否在檢索執(zhí)行前進(jìn)行對(duì)從輸入文件提取的特征詞及其權(quán)重的內(nèi)容進(jìn)行確認(rèn)/修正的事先編輯;復(fù)選框105,用于選擇輸入是否在將從輸入文件提取的特征詞展開為同義詞后執(zhí)行檢索。若在復(fù)選框104和/或105被選擇的狀態(tài)下按下檢索按鈕103,則將顯示出對(duì)圖2所示的特征詞或同義語等的檢索條件進(jìn)行編輯的畫面。后面將對(duì)該畫面的詳細(xì)構(gòu)成加以記述。在本實(shí)施例中,假定在指定輸入文件時(shí)輸入申請(qǐng)?zhí)栠@樣的文件ID,但也可以將專利的文本部分復(fù)制粘貼于輸入?yún)^(qū)域,或直接將文本打字輸入到輸入?yún)^(qū)域?;蛘?,也可以以從通過文件檢索結(jié)果等形式一覽顯示的文件中選擇指定任意的文件的形式來指定輸入文件。圖3中示出用于類似文件的檢索結(jié)果的顯示的概要顯示畫面300的構(gòu)成例。在概要顯示畫面300中,作為類似文件被檢索的文件從與輸入文件的類似程度(類似度)高的文件開始被依次顯示。此時(shí),按被檢索的文件來顯示表示檢索順位的順位308、類似度309、申請(qǐng)?zhí)柤次募蘒D310、相當(dāng)于文件名稱的發(fā)明名稱311、申請(qǐng)人312的各項(xiàng)目。當(dāng)然,也可以顯示分類或摘要文章等上述這些以外的著錄信息或文本信息。在本實(shí)施例的情況下,表示通過選擇復(fù)選框307而被選擇的文件的抄錄數(shù)據(jù)的“抄錄”按鈕301和表示正文數(shù)據(jù)的“正文”按鈕302設(shè)于概要顯示畫面300的畫面上部。另外,若按下同樣設(shè)于畫面上部的“返回”按鈕304,則顯示畫面返回到輸入文件指定畫面100。此外,若按下“向后”按鈕306,則顯示下十個(gè)檢索結(jié)果文件,若按下“向前”按鈕305,則顯示前十個(gè)檢索結(jié)果文件。圖4A以及圖4B中示出類似文件檢索結(jié)果的詳細(xì)顯示畫面的構(gòu)成例。本畫面是通過按下設(shè)于概要顯示畫面300(圖3)的畫面上部的“詳細(xì)內(nèi)容”按鈕303來顯示的。鑒于篇幅的限制,在圖4A示出顯示于畫面 上部部分的表400,在圖4B示出顯示于畫面下部部分的表470。表400是表示對(duì)在圖3中被輸出的類似文件檢索的結(jié)果是否順利、若不順利則其原因是什么進(jìn)行解析的結(jié)果。該表400由影響類似文件檢索精度的要因410、相對(duì)于要因的要因值440、按要因獲得的“對(duì)檢索精度的影響度”450構(gòu)成。要因410由各要因所屬的要因分類420、要因名稱430構(gòu)成。要因值440由作為相對(duì)于該輸入文件的要因值的值441、相對(duì)于多個(gè)教師輸入文件的要因值的領(lǐng)域平均442構(gòu)成?!皩?duì)檢索精度的影響度”450由要因的值441所屬的“對(duì)應(yīng)要因組”451、與對(duì)應(yīng)要因組451相對(duì)應(yīng)的檢索精度452、將該要因?qū)︻愃莆募z索精度的影響程度作為與相對(duì)于整個(gè)教師輸入文件的檢索精度平均值的偏離程度來表示的影響度453構(gòu)成。可以視為:影響度453的值為正的要因,其絕對(duì)值越大,越為檢索精度的提高做出貢獻(xiàn),影響度453的值為負(fù)的要因,其絕對(duì)值越大,越成為檢索精度降低的原因。利用者通過確認(rèn)該影響度的值,能夠理解檢索是否進(jìn)展順利、使檢索精度降低的要因是什么。當(dāng)然,還可以考慮僅顯示檢索精度452和影響度453的任一方的情況。表470將從輸入文件提取的加權(quán)特征詞作為縱軸,將檢索結(jié)果文件作為橫軸來進(jìn)行表示。此外,在表470中,根據(jù)各特征詞的權(quán)重值的大小,通過改變了濃度的涂色來表示對(duì)應(yīng)于檢索結(jié)果文件472中的各特征詞的值。在表470中,其縱軸上按權(quán)重從高到低的順序表示出作為從輸入文件提取的所有20個(gè)特征詞,其橫軸上按類似度從高到低的順序表示出檢索結(jié)果文件472的順位靠前30件。關(guān)于輸入文件的特征詞471的數(shù)據(jù)由特征詞的標(biāo)題473、作為特征詞在順位靠前30件的檢索結(jié)果文件472中命中的件數(shù)的“順位靠前命中件數(shù)”474、特征詞在輸入文件內(nèi)的出現(xiàn)頻度475、根據(jù)文件數(shù)據(jù)庫中的特征詞的出現(xiàn)文件數(shù)計(jì)算出的固有度476、根據(jù)出現(xiàn)頻度475以及固有度476計(jì)算出的特征詞的權(quán)重477。在類似度479中,通過對(duì)應(yīng)于檢索結(jié)果文件472的類似度的值的大小而改變了濃度的涂色(日文:塗りつぶし)來對(duì)其進(jìn)行表示。在分類480 中,將賦予輸入文件的分類與賦予檢索結(jié)果文件472的分類進(jìn)行比較,越是直到更下層級(jí)的分類也仍然一致的檢索結(jié)果文件472,越增加濃度進(jìn)行涂色來加以表示。在申請(qǐng)人481中,將輸入文件的申請(qǐng)人/發(fā)明者與賦予檢索結(jié)果文件472的申請(qǐng)人/發(fā)明者進(jìn)行比較,通過濃度更重的涂色來表示發(fā)明者相同的檢索結(jié)果文件472,用濃度稍淺的涂色來表示申請(qǐng)人相同的檢索結(jié)果文件472。另外,若構(gòu)成輸入文件的特征詞471的要素473~477的任一個(gè)被選擇,則對(duì)以被選擇的要素為鍵(key)將表的行降序重排列的內(nèi)容進(jìn)行再表示。區(qū)域482表示通過對(duì)應(yīng)于順位為第j個(gè)的檢索結(jié)果文件中的特征詞i的權(quán)重Wij的值的大小的濃度來涂色的單元格。越是顏色深的單元格,越為該檢索結(jié)果文件中被重視的特征詞,無色的單元格表示此特征詞不包含于此檢索結(jié)果文件中。另外,代替權(quán)重Wij,也可以通過對(duì)應(yīng)于順位為第j個(gè)的檢索結(jié)果文件的類似度Sj中的特征詞i的部分類似度Sij的值的大小的濃度來涂色的單元格。在本實(shí)施例中,將文件與文件之間的類似度作為由加權(quán)特征詞構(gòu)成的矢量成角的余弦的100倍的值來進(jìn)行計(jì)算。因此,部分類似度Sij能夠通過將輸入文件的特征詞i的權(quán)重與檢索結(jié)果文件j的特征詞i的權(quán)重相乘,并除以輸入文件的特征詞矢量的大小與檢索結(jié)果文件j的特征詞矢量的大小的積來計(jì)算。利用者通過參照該表470,能夠視覺上地、直觀地把握哪個(gè)特征詞為檢索結(jié)果的輸出做出了何種程度的貢獻(xiàn)。此外,能夠通過參照該表470(圖4B)來把握表400(圖4A)中示出的影響度的詳細(xì)內(nèi)容。例如在表400中表示出要因“總命中數(shù)”432的值為“166”,而這與表470中被涂色的單元格的總數(shù)一致。因此,通過鳥瞰表470,一眼就能夠把握166個(gè)被涂色的單元格形成怎樣的分布。此外,表示出要因“多命中特征詞數(shù)”436的值為“5”,而這與表470中的順位靠前命中件數(shù)474在閾值(在本實(shí)施例中為相當(dāng)于80%的24件)以上的特征詞的數(shù)量一致。因此,通過鳥瞰表470或者鳥瞰位于以順位靠前命中件數(shù)474為鍵將表470降序排序所獲得的表的順位靠前的特征詞,利用者能夠把握哪個(gè)特征詞相當(dāng)于多命中特征詞。這樣,通過成對(duì)地顯示使表示與類似文件檢索精度有關(guān)的要因及其影響度的表400和表示特征詞與檢索結(jié)果文件間的對(duì)照關(guān)系的表470,利用者能夠通過適當(dāng)?shù)厥箖烧呓?duì)應(yīng),來更準(zhǔn)確且深刻地理解檢索結(jié)果的傾向。接下來,使用圖表,對(duì)圖4A以及圖4B所示的包含計(jì)算按各要因的檢索精度及其影響度(偏離)的處理的類似文件檢索輔助系統(tǒng)的構(gòu)成、數(shù)據(jù)構(gòu)造、處理方法加以說明。圖5中示出本實(shí)施例的類似文件檢索輔助裝置500的功能塊構(gòu)成。作為檢索對(duì)象的專利文件數(shù)據(jù)介由輸入裝置530被存儲(chǔ)于文件數(shù)據(jù)庫501。特征詞提取部502從存儲(chǔ)于文件數(shù)據(jù)庫501的各專利文件提取特征詞和表示其重要度的權(quán)重以及用于計(jì)算權(quán)重的出現(xiàn)頻度和固有度。本實(shí)施例的情況下,特征詞提取部502參照單詞字典503進(jìn)行將文章分割成單詞的形態(tài)素解析,并將詞性為名詞或動(dòng)詞的詞作為特征詞加以提取。檢索目錄生成部504以能夠高效地進(jìn)行類似文書檢索的方式,將通過特征詞提取部502獲得的各文件的特征詞以及關(guān)于權(quán)重的數(shù)值數(shù)據(jù)匯總并存儲(chǔ)于檢索目錄505。著錄提取部506從存儲(chǔ)于文件數(shù)據(jù)庫501的各專利文件提取公開日或申請(qǐng)日、專利分類或申請(qǐng)人、發(fā)明者等的著錄信息,并分為著錄項(xiàng)目名和著錄項(xiàng)目值,按文件存儲(chǔ)于著錄表507。特征詞提取部502、檢索目錄制作部504、著錄提取部506的處理內(nèi)容已經(jīng)在市場(chǎng)上銷售的多數(shù)類似文件檢索系統(tǒng)中被實(shí)現(xiàn),因此,在本實(shí)施例中不再言及。另外,特征詞提取部502、檢索目錄制作部504、著錄提取部506是為了能夠?qū)嶋H指定輸入文件來進(jìn)行類似文件檢索而事先執(zhí)行的處理。圖6中示出檢索目錄505的構(gòu)成例。本實(shí)施例的情況下,檢索目錄505以包含于文件數(shù)據(jù)庫501的文件和特征詞為2軸,由將對(duì)應(yīng)的權(quán)重作為值的權(quán)重目錄600、將對(duì)應(yīng)的出現(xiàn)頻度作為值的出現(xiàn)頻度目錄610、由特征詞及其固有度構(gòu)成的固有度目錄620構(gòu)成。在本實(shí)施例中,通過以下方法計(jì)算文件d中的特征詞T的權(quán)重w。首先,求出文件d中的特征詞w的出現(xiàn)頻度TF的對(duì)數(shù)值logTF。接著,求出特征詞w的固有度IDF存儲(chǔ)于文件數(shù)據(jù)庫501的文件數(shù)N除以包含該特征 詞w的文件數(shù)n所得值的對(duì)數(shù)值log(N/n)。最后,通過計(jì)算(1+logTF)×log(N/n)來計(jì)算權(quán)重w。不過,在TF=0的情況下,w的值設(shè)為0。該方法作為TF-IDF法而廣為人知,因此,不再言及。圖7中示出著錄表507的構(gòu)成例。著錄表507由序號(hào)700、文件ID701、著錄項(xiàng)目名702、著錄項(xiàng)目值703構(gòu)成。在本實(shí)施例中,按文件存儲(chǔ)專利的著錄中的與公開日、申請(qǐng)日、作為專利分類的IPC以及題目、申請(qǐng)人、發(fā)明者有關(guān)的數(shù)據(jù),但也可存儲(chǔ)除此以外的著錄?;氐綀D5的說明。教師文件表508是由多個(gè)對(duì)集合而構(gòu)成的數(shù)據(jù),上述對(duì)是想要檢索的專利文件(以下稱為“正確解答文件(日文:正解文書)”)為已知的輸入文件(以下稱為“教師輸入文件”)與對(duì)應(yīng)于教師輸入文件的正確解答文件的對(duì),該教師文件表508是介由輸入裝置530,由利用者或者系統(tǒng)管理者輸入的數(shù)據(jù)。圖8中示出教師文件表508的構(gòu)成例。教師文件表508由教師數(shù)據(jù)ID801、教師輸入文件ID802、正確解答文件ID803構(gòu)成,以使這些內(nèi)容建立對(duì)應(yīng)的形式存儲(chǔ)有多個(gè)。在本實(shí)施例中,將在對(duì)于專利局過去審查完成的申請(qǐng)專利的審查意見通知書中所引用的專利定義為與教師輸入文件對(duì)應(yīng)的“正確解答文件”。當(dāng)然,可以使用利用者或者系統(tǒng)管理者獨(dú)自以任意的觀點(diǎn)定義正確解答文件,并使教師輸入文件與正確解答文件有關(guān)聯(lián)地進(jìn)行登錄/累積的內(nèi)容,也可以按照其他的定義來規(guī)定正確解答文件。此外,也可以存在多個(gè)相對(duì)于1件教師輸入文件的正確解答文件。此外,可以僅將所存在的多件正確解答文件中與輸入文件最類似的文件作為正確解答,也可以僅將類似文件檢索結(jié)果中最順位靠前的正確解答文件作為正確解答文件來使用。回到圖5的說明。特征詞收集部509通過參照檢索目錄505,提取與存儲(chǔ)于教師文件表508的教師輸入文件或利用者介由輸入裝置530所指定的新輸入文件號(hào)518對(duì)應(yīng)的特征詞,并將所提取的結(jié)果存儲(chǔ)于特征詞表510。在本實(shí)施例中,設(shè)為對(duì)于新輸入文件號(hào)518的特征詞以及著錄的數(shù)據(jù)和對(duì)于教師文件表508內(nèi)的教師輸入文件的特征詞以及著錄的數(shù)據(jù)分 別全部被存儲(chǔ)于檢索目錄505以及著錄表507。因此,在提取對(duì)于這些輸入文件的特征詞時(shí),能夠通過從檢索目錄505中取出對(duì)應(yīng)于輸入文件的特征詞及其權(quán)重、出現(xiàn)頻度的值并存儲(chǔ)于特征詞表510中,容易地進(jìn)行收集。此外,對(duì)于固有度,能夠通過取出與從檢索目錄505所提取的特征詞對(duì)應(yīng)的固有度的值并存儲(chǔ)于特征詞表510中,容易地進(jìn)行收集。不過,在圖1所示的輸入文件指定畫面100中,利用者將任意的文章設(shè)為可輸入的情況下,特征詞未存儲(chǔ)于檢索目錄505,因此,將所輸入的文章交給特征詞提取部502來執(zhí)行提取特征詞并賦予權(quán)重的處理即可。圖9中示出特征詞表510的構(gòu)成例。特征詞表510由文件ID901、標(biāo)題902、出現(xiàn)頻度903、固有度904、權(quán)重905構(gòu)成?;氐綀D5的說明。類似文件檢索部511參照檢索目錄505,通過檢索與特征詞收集部509存儲(chǔ)于特征詞表510的加權(quán)特征詞的集合類似的文件來計(jì)算類似度,并將檢索結(jié)果的順位靠前30件存儲(chǔ)于檢索結(jié)果表512。如上所述,在本實(shí)施例中,將文件與文件之間的類似度作為由加權(quán)特征詞構(gòu)成的矢量成角的余弦的100倍的值來進(jìn)行計(jì)算。因此,類似度取0至100之間的值,并意味著類似度越接近100,類似性越高。將特征詞的集合理解為矢量,通過矢量成角或內(nèi)積來求出兩者的類似性的方法作為矢量空間模型而廣為人知,所以,不再言及。圖10中示出檢索結(jié)果表512的構(gòu)成例。檢索結(jié)果表512由輸入文件ID1001、檢索順位1002、類似度1003、檢索結(jié)果文件ID1004構(gòu)成。另外,在輸出類似文件檢索結(jié)果時(shí),也可以附加如下選項(xiàng):對(duì)輸入文件以及檢索結(jié)果文件的申請(qǐng)日、公開日進(jìn)行比較,僅檢索在輸入文件的申請(qǐng)日以前已被公開的專利。在此,對(duì)存儲(chǔ)于教師文件表508的所有教師輸入文件適用特征詞收集部509以及類似文件檢索部511的處理,由此,形成在特征詞表510以及檢索結(jié)果表512分別存儲(chǔ)與多個(gè)教師輸入文件對(duì)應(yīng)的特征詞以及檢索結(jié)果的狀態(tài)?;氐綀D5的說明。要因數(shù)據(jù)提取部513參照存儲(chǔ)了對(duì)各教師輸入文件適用上述處理所獲得的數(shù)據(jù)的特征詞表510、檢索結(jié)果表512以及著錄表 507中的至少一個(gè)以上,提取與圖4A所示的要因410對(duì)應(yīng)的值441,并存儲(chǔ)于要因表514。此外,為了生成圖4B的表470,要因數(shù)據(jù)提取部513對(duì)特征詞和檢索結(jié)果文件的對(duì)應(yīng)關(guān)系進(jìn)行解析,并與關(guān)于特征詞及其權(quán)重的數(shù)據(jù)一同存儲(chǔ)于特征詞對(duì)照表515。如在圖4A以及圖4B中也示出的那樣,在本實(shí)施例中,作為影響類似文件檢索精度的要因,使用以下的8種。此外,這些要因可以大致分為三個(gè)要因分類。(要因分類1)特征詞命中傾向此為關(guān)于輸入文件的特征詞與檢索結(jié)果文件之間的命中傾向的要因。即,能夠根據(jù)表示圖4B所示的特征詞與檢索結(jié)果文件之間的命中狀況的表470的數(shù)據(jù)(這些數(shù)據(jù)本身被存儲(chǔ)于特征詞對(duì)照表515)進(jìn)行計(jì)算的要因。具體地講,包括以下的6種要因。(要因1)有效特征詞數(shù)表470的順位靠前命中件數(shù)474為預(yù)先指定的閾值(在本實(shí)施例中為4件)以上的特征詞的數(shù)量。若該值小,則作為類似文件檢索的線索的特征詞的數(shù)量變少,存在對(duì)檢索精度造成不良影響的可能性。(要因2)總命中數(shù)此為表470中被涂色的單元格數(shù),換言之,為順位靠前命中件數(shù)474的值的總和。若該值小,則形成特征詞命中的檢索結(jié)果文件少的狀態(tài),存在對(duì)檢索精度造成不良影響的可能性。相反,若值大,則特征詞命中的檢索結(jié)果文件變多,形成無法將類似文件縮小至少數(shù)的狀態(tài),存在對(duì)檢索精度造成不良影響的可能性。(要因3)高命中數(shù)此為表470中被涂色的單元格中具有預(yù)先指定的閾值(在本實(shí)施例中為“20”)以上的值(顏色深)的單元格數(shù)。若該值小,則命中的特征詞在檢索結(jié)果文件中的重要度低,因此,形成難于縮小類似文件范圍的狀態(tài),存在對(duì)檢索精度造成不良影響的可能性。(要因4)高命中率此為上述高命中數(shù)除以上述總命中數(shù)的值。若該值小,則形成檢索 結(jié)果文件中不重要的輸入文件的特征詞多的狀態(tài),存在對(duì)檢索精度造成不良影響的可能性。(要因5)值平均此為表470中被涂色的單元格的值的平均。若該值小,則形成檢索結(jié)果文件中不重要的輸入文件的特征詞多的狀態(tài),存在對(duì)檢索精度造成不良影響的可能性。(要因6)多命中特征詞數(shù)此為檢索結(jié)果文件中,比予先指定的閾值(在本實(shí)施例中為相當(dāng)于80%的24個(gè))多的檢索結(jié)果文件中所包含的輸入文件的特征詞數(shù)。與多命中特征詞相應(yīng)的特征詞多為此技術(shù)領(lǐng)域(分類)中經(jīng)常使用的詞或在一般的文件中也經(jīng)常使用的詞。若多命中特征詞數(shù)大,則能夠大致縮小關(guān)聯(lián)文件的范圍,但未以文件內(nèi)容的要點(diǎn)(在專利上講,為表示發(fā)明的特征(新穎性/創(chuàng)造性)的部分)來縮小范圍的狀態(tài),存在對(duì)檢索精度造成不良影響的可能性。(要因分類2)著錄命中傾向此為關(guān)于輸入文件的著錄信息與檢索結(jié)果文件的著錄信息之間的共通性的要因。著錄信息能夠從著錄表507容易地提取,因此,通過對(duì)這些內(nèi)容進(jìn)行對(duì)照,能夠?qū)餐ㄐ赃M(jìn)行解析。具體地講,包括以下的要因。(要因7)分類命中件數(shù)此為賦予輸入文件的分類與賦予檢索結(jié)果文件的分類共通的檢索結(jié)果文件件數(shù)。在專利文件的情況下,包括多個(gè)分類體系(IPC/FI、題目/Fterm),其分別形成多層構(gòu)成(部、小類、大組等)。在本實(shí)施例中,在IPC的大組的層級(jí)上對(duì)分類共通的檢索結(jié)果文件件數(shù)進(jìn)行計(jì)算,但也可在其他層級(jí)上進(jìn)行計(jì)算。作為關(guān)于著錄命中傾向的其他要因,除了分類命中件數(shù)以外,可列舉出表示發(fā)明者/申請(qǐng)人相同的檢索結(jié)果文件件數(shù)的“申請(qǐng)人命中件數(shù)”、表示申請(qǐng)日間隔閾值以上的檢索結(jié)果文件件數(shù)或間隔值的平均值的“申請(qǐng)日偏離度”等。也可以使用這些要因。(要因分類3)類似度此為與對(duì)于輸入文件的檢索結(jié)果文件的類似度的值有關(guān)的要因。具體地講,包括以下的要因。(要因8)類似度衰減率此為將順位靠前類似檢索結(jié)果文件所具有的類似度隨著順位的下降正在進(jìn)行怎樣的衰減的情況數(shù)值化后的結(jié)果。具體地講,將預(yù)先指定的順位R2(在本實(shí)施例中為30位)的檢索結(jié)果文件的類似度相對(duì)于預(yù)先指定的順位R1(在本實(shí)施例中為1位)的檢索結(jié)果文件的類似度的比例作為該檢索結(jié)果的類似度衰減率。若類似度衰減率低,則形成類似度相對(duì)抗的類似文件大量輸出的狀態(tài),存在對(duì)檢索精度造成不良影響的可能性。圖11中示出要因表514的構(gòu)成例。要因表514由輸入文件ID1101、對(duì)于輸入文件的正確解答文件ID1102、賦予輸入文件的分類1103(在本實(shí)施例中存儲(chǔ)賦予專利文件的題目)、類似文件檢索結(jié)果中的正確解答文件ID1102的檢索順位1104構(gòu)成,從有效特征詞數(shù)1105至類似度衰減率1112對(duì)應(yīng)于上述要因,并存儲(chǔ)按輸入文件ID1101計(jì)算出的值(要因值)。另外,如后所述,在想要分技術(shù)領(lǐng)域計(jì)算各要因?qū)︻愃莆募z索精度的影響度的情況下,分類1103被用于基于分類1103過濾教師輸入文件時(shí)。圖12中示出特征詞對(duì)照表515的構(gòu)成例。特征詞對(duì)照表515分為存儲(chǔ)有與輸入文件特征詞有關(guān)的數(shù)據(jù)的部分1201和存儲(chǔ)有檢索結(jié)果文件中的特征詞的權(quán)重值的部分1210。前者由特征詞的標(biāo)題1202、30件檢索結(jié)果文件中的特征詞的命中件數(shù)1203、輸入文件中的特征詞的出現(xiàn)頻度1204、特征詞的文件數(shù)據(jù)庫501中的固有度1205、特征詞的權(quán)重1206構(gòu)成。另外,在表示圖4B所示的表470時(shí),也參照該特征詞對(duì)照表515。圖13中示出通過要因數(shù)據(jù)提取部513執(zhí)行的處理方法的一例。要因數(shù)據(jù)提取部513由以下處理構(gòu)成:為了高效地進(jìn)行上述要因中與屬于要因分類“特征詞命中傾向”的要因?qū)?yīng)的值的提取,生成存儲(chǔ)了與檢索結(jié)果文件中的輸入文件的特征詞的命中內(nèi)容有關(guān)的數(shù)據(jù)的特征詞對(duì)照表515的特征詞對(duì)照表生成處理1302;以及參照特征詞對(duì)照表515等計(jì)算 各輸入文件中的各要因值的處理1303~1310。在要因數(shù)據(jù)提取部513中執(zhí)行以下的處理。在步驟1301,要因數(shù)據(jù)提取部513判斷是否有未處理的輸入文件,在“沒有”未處理的輸入文件的情況下,結(jié)束處理。另一方面,在“有”未處理的輸入文件的情況下,要因數(shù)據(jù)提取部513執(zhí)行特征詞對(duì)照表生成處理1302。特征詞對(duì)照表生成處理1302由以下所示的處理1351~1356構(gòu)成。在步驟1351,要因數(shù)據(jù)提取部513從特征詞表510取出輸入文件的特征詞的標(biāo)題、出現(xiàn)頻度、固有度、權(quán)重,并分別存儲(chǔ)于特征詞對(duì)照表515的對(duì)應(yīng)區(qū)域。在接下來的步驟1352,要因數(shù)據(jù)提取部513從檢索結(jié)果表512提取預(yù)先指定的M個(gè)(在本實(shí)施例中為30個(gè))對(duì)應(yīng)于該輸入文件的順位靠前檢索結(jié)果文件。在接下來的步驟1353,要因數(shù)據(jù)提取部513從檢索目錄505的權(quán)重目錄600提取與被提取的M個(gè)檢索結(jié)果文件中的每一個(gè)檢索結(jié)果文件對(duì)應(yīng)的特征詞和權(quán)重。在接下來的步驟1354中,要因數(shù)據(jù)提取部513判斷是否存在與該輸入文件有關(guān)的未處理的特征詞。在沒有未處理的特征詞的情況下,要因數(shù)據(jù)提取部513進(jìn)入步驟1303。與此相對(duì),在有未處理的特征詞的情況下,要因數(shù)據(jù)提取部513首先在步驟1355取出M件的檢索結(jié)果文件中包含有該特征詞的檢索結(jié)果文件的該特征詞的權(quán)重,并分別存儲(chǔ)于特征詞對(duì)照表515中的與該檢索結(jié)果文件和該特征詞相應(yīng)的區(qū)域。在接下來的步驟1356中,要因數(shù)據(jù)提取部513對(duì)M件的檢索結(jié)果文件中包含有該特征詞的檢索結(jié)果文件的件數(shù)進(jìn)行計(jì)數(shù),并存儲(chǔ)于特征詞對(duì)照表515(圖12)的“命中件數(shù)1203”的區(qū)域,返回到步驟1354。有效特征詞數(shù)計(jì)算處理1303為對(duì)要因“有效詞特征詞數(shù)”的值進(jìn)行計(jì)算的處理,由步驟1373構(gòu)成。在步驟1373中,要因數(shù)據(jù)提取部513對(duì)特征詞對(duì)照表515(圖12)的“命中件數(shù)1203”在預(yù)先指定的閾值(在本實(shí)施例中為4)以上的特征詞數(shù)進(jìn)行計(jì)數(shù),并存儲(chǔ)于要因表514的有效特征詞數(shù)的區(qū)域??偯袛?shù)計(jì)算處理1304為對(duì)要因“總命中數(shù)”的值進(jìn)行計(jì)算的處理,由步驟1374構(gòu)成。在步驟1374中,要因數(shù)據(jù)提取部513求出特征詞對(duì)照 表515(圖12)的“命中件數(shù)1203”的總和,并存儲(chǔ)于要因表514的總命中數(shù)的區(qū)域。高命中數(shù)計(jì)算處理1305為對(duì)要因“高命中數(shù)”的值進(jìn)行計(jì)算的處理,由步驟1375構(gòu)成。在步驟1375中,要因數(shù)據(jù)提取部513求出在上述步驟1355中被取出并被存儲(chǔ)于特征詞對(duì)照表515的特征詞的權(quán)重在預(yù)先指定的閾值(在本實(shí)施例中為20)以上的特征詞的總數(shù),并存儲(chǔ)于要因表514的高命中數(shù)的區(qū)域。高命中率計(jì)算處理1306為對(duì)要因“高命中率”的值進(jìn)行計(jì)算的處理,由步驟1376構(gòu)成。在步驟1376中,要因數(shù)據(jù)提取部513求出在上述步驟1375中取出的高命中數(shù)除以在上述步驟1374中取出的總命中數(shù)的值,并存儲(chǔ)于要因表514的高命中率的區(qū)域。值平均計(jì)算處理1307為對(duì)要因“值平均”的值進(jìn)行計(jì)算的處理,由步驟1377構(gòu)成。在步驟1377中,要因數(shù)據(jù)提取部513求出在上述步驟1355中被取出并被存儲(chǔ)于特征詞對(duì)照表515的特征詞的權(quán)重大于0的特征詞的權(quán)重的平均,并存儲(chǔ)于要因表514的值平均的區(qū)域。多命中特征詞數(shù)計(jì)算處理1308為對(duì)要因“多命中特征詞數(shù)”的值進(jìn)行計(jì)算的處理,由步驟1378構(gòu)成。在步驟1378中,要因數(shù)據(jù)提取部513對(duì)特征語對(duì)照表515(圖12)的“命中件數(shù)1203”為預(yù)先指定的閾值(在本實(shí)施例中為24)以上的特征詞數(shù)進(jìn)行計(jì)數(shù),并存儲(chǔ)于要因表514的多命中特征詞數(shù)的區(qū)域。分類命中件數(shù)計(jì)算處理1309為對(duì)要因“分類命中件數(shù)”的值進(jìn)行計(jì)算的處理,由步驟1379構(gòu)成。在步驟1379中,要因數(shù)據(jù)提取部513從著錄表507提取對(duì)應(yīng)于各該輸入文件以及M件的檢索結(jié)果文件的IPC大組,求出具有一個(gè)以上的與該輸入文件共通的IPC大組的檢索結(jié)果文件數(shù),并存儲(chǔ)于要因表514的分類命中件數(shù)的區(qū)域。類似度衰減率計(jì)算處理1310為對(duì)要因“類似度衰減率”的值進(jìn)行計(jì)算的處理,由步驟1380構(gòu)成。在步驟1380中,要因數(shù)據(jù)提取部513求出預(yù)先指定的順位R2(在本實(shí)施例中為30位)的檢索結(jié)果文件的類似度相對(duì)于檢索結(jié)果表512的預(yù)先指定的檢索順位R1(在本實(shí)施例中為1位)的 檢索結(jié)果文件的類似度的比例值,并存儲(chǔ)于要因表514的類似度衰減率的區(qū)域。此后,要因數(shù)據(jù)提取部513返回到步驟1301。回到圖5的說明。檢索精度解析部516根據(jù)存儲(chǔ)于要因表514的、與教師文件表508內(nèi)的教師輸入文件集合有關(guān)的要因數(shù)據(jù),計(jì)算對(duì)于各要因的檢索精度,并計(jì)算與整個(gè)教師輸入文件的檢索精度的平均值的差(偏離值)。所計(jì)算出的偏離值作為表示各要因?qū)z索精度的影響度的指標(biāo),之后被示出給利用者。這里所計(jì)算的結(jié)果被存儲(chǔ)于檢索精度表517。在本實(shí)施例中,將檢索精度定義為“正確解答文件的檢索順位在預(yù)先指定的閾值R(在本實(shí)施例中為100位)以內(nèi)的輸入文件件數(shù)的比例”。當(dāng)然,其他的定義亦可。圖14中示出檢索精度表517的構(gòu)成例。檢索精度表517由識(shí)別要因的要因ID1401、將要因分組的要因分類1402、要因名稱1403、對(duì)構(gòu)成各要因的要因組進(jìn)行識(shí)別的要因組ID1404、要因組名稱1405、要因組可取值的下限值1406、要因組可取值的上限值1407、屬于要因組的教師輸入文件的檢索精度1408、作為相對(duì)于整個(gè)教師輸入文件的檢索精度的檢索精度1408的差的“與精度平均之間的偏離1409”構(gòu)成。檢索精度表517中,要因ID1401、要因分類1402、要因名稱1403為預(yù)先被固定的數(shù)據(jù)。關(guān)于將要因分為幾個(gè)組,在本實(shí)施例中分別分為三個(gè),也可以分成由利用者指定的數(shù)量的組。圖15中示出由檢索精度解析部516執(zhí)行的處理方法的一例。此外,圖16中示出本處理方法的具體例。如圖15所示,檢索精度解析部516首先在步驟1501判斷是否存在未處理的要因,在“無”的情況下結(jié)束處理。另一方面,在有未處理的要因的情況下,檢索精度解析部516在步驟1502從要因表514中取出作為解析對(duì)象的輸入文件ID1101、檢索順位1104、與該處理對(duì)象要因?qū)?yīng)的要因值(從1105到1112的任一值),并暫時(shí)存儲(chǔ)成二維陣列。將到目前為止的處理結(jié)果的例子示于圖16的左端的表1600。在本實(shí)施例的情況下,檢索精度解析部516使用存儲(chǔ)于教師文件表508的所有教師輸入文件來生成檢索精度表517。但是,也可以基于要因 表514的分類1103濾出教師輸入文件,僅使用與被賦予了某個(gè)特定的分類的教師輸入文件有關(guān)的數(shù)據(jù)來生成檢索精度表517??梢韵氲剑愃莆募z索精度在很大程度上也被技術(shù)領(lǐng)域所左右。因此,可以想到,僅取出滿足特定的條件的教師輸入文件來進(jìn)行解析是有效的。另外,作為濾出的基準(zhǔn),不僅分類1103,也可以將申請(qǐng)日或申請(qǐng)人等作為基準(zhǔn)。接著,在步驟1503中,檢索精度解析部516將對(duì)應(yīng)于所取出的所有要因值的正確解答文件的檢索順位為預(yù)先指定的閾值R(在本實(shí)施例中為100位)以內(nèi)的輸入文件件數(shù)的比例作為“精度平均”來進(jìn)行計(jì)算。接著,在步驟1504中,檢索精度解析部516以要因值為鍵,按升序?qū)υ谏鲜霾襟E1502中被存儲(chǔ)的輸入文件ID、檢索順位、要因值的二維陣列進(jìn)行排序。將到目前為止的處理結(jié)果的例子示于圖16的中央的表1610。接著,在步驟1505中,檢索精度解析部516基于要因值的大小,將二維陣列分割成預(yù)先指定的要因組的數(shù)量N(在本實(shí)施例中為3)(分組)。將到目前為止的處理結(jié)果的例子示于圖16的右端的表1610中的1612~1614。在圖16的例子中,要因組“低”以及“高”由5個(gè)輸入文件構(gòu)成,“中”由10個(gè)輸入文件構(gòu)成。關(guān)于哪個(gè)要因組中裝有多少數(shù)量/比例的輸入文件,可以在所有的要因組使其一致,也可以按要因組使其可變。此外,也可以由利用者指定。在接下來的步驟1506中,檢索精度解析部516判斷是否存在未處理的要因組。在沒有未處理的要因組的情況下,檢索精度解析部516回到步驟1501并進(jìn)入接下來的要因的處理。另一方面,在有未處理的要因組的情況下,檢索精度解析部516首先在步驟1507求出相對(duì)于該要因組的要因值的上限值和下限值。將該步驟的處理結(jié)果的例子示于圖16的右端的表1610中的1614。作為要因值,包括采取離散值的要因值、采取連續(xù)值的要因值。例如有效特征詞數(shù)為由整數(shù)構(gòu)成的離散值,而類似度衰減率為取實(shí)數(shù)的連續(xù)值。在決定要因組的上限值和下限值的情況下,在相鄰要因組的邊界不 能存在不屬于任何要因組的值。因此,在相鄰要因組的邊界存在不屬于任何要因組的值的情況下,必須決定將該值放入哪個(gè)要因組。例如在圖16的情況下,要因組“低”的上限值為“12”,而要因組“中”的下限值為“14”。因此,在要因值為“13”的情況下,不確定應(yīng)該放入哪里。因此,在本實(shí)施例中,將要因組分為“低”、“中”、“高”三個(gè),并適用上述無歸屬的值全部包含于“中”這樣的啟發(fā)式處理來解決上述問題。如圖16的右端的表1610的1614所示,通過該處理,要因組“中”的下限值不為“14”,而是變?yōu)椤?3”。當(dāng)然,也可以是對(duì)“低”的上限值和“中”的下限值的平均進(jìn)行計(jì)算并進(jìn)行均等分配等的其他方法。在接下來的步驟1508中,檢索精度解析部516通過與步驟1503相同的方法,對(duì)于與該要因組內(nèi)的要因值對(duì)應(yīng)的檢索順位,計(jì)算檢索精度。在接下來的步驟1509中,檢索精度解析部516從在上述步驟1508中計(jì)算出的該要因組的檢索精度減去在上述步驟1503中計(jì)算出的精度平均,由此,對(duì)兩者的值的偏離值(差)進(jìn)行計(jì)算。將到目前為止的處理結(jié)果的例子示于圖16的右端的表1610。圖16的右端的表1610中,在要因組“低”包含有5個(gè)教師輸入文件,其中的2個(gè)檢索順位位于100位以內(nèi)。因此,要因組“低”中的檢索精度為40%(2/5)。教師輸入文件一共有20個(gè),因此,其精度平均(整體的檢索精度)1616為60%(12/20)。因此,與要因組“低”中的檢索精度的精度平均的偏離值1617為-20%(=40%-60%)。同樣地,要因組“中”以及“高”的各偏離值1617分別為0%以及+20%。在接下來的步驟1510中,檢索精度解析部516將與所計(jì)算出的要因組有關(guān)的上限值、下限值、檢索精度、偏離值分別存儲(chǔ)于檢索精度表517的相應(yīng)的要因組的區(qū)域。然后,回到步驟1506?;氐綀D5的說明。精度影響度計(jì)算部519針對(duì)由利用者指定的新輸入文件號(hào)碼518,與教師輸入文件同樣地,將經(jīng)過以下的處理獲得的要因表514與檢索精度表517相對(duì)照。在此,要因表514是通過經(jīng)(1)通過特征詞收集部509進(jìn)行的特征詞及其權(quán)重的收集、(2)通過類似文件檢索部511進(jìn)行的類似文件檢索結(jié)果的取得、(3)通過要因數(shù)據(jù)提取部513 進(jìn)行的要因值的計(jì)算而獲得的。精度影響度計(jì)算部519若通過上述對(duì)照,按要因確定與新輸入文件的要因值相應(yīng)的要因組,則進(jìn)一步確定對(duì)檢索精度的影響度(與精度平均之間的偏離值),并存儲(chǔ)于精度影響度表520。圖17中示出精度影響度表520的構(gòu)成例。精度影響度表520由要因ID1701、要因分類1702、要因名稱1703、要因值1704、相應(yīng)的要因組1705、對(duì)應(yīng)于相應(yīng)要因組的檢索精度1706、檢索精度1706與精度平均的偏離1707構(gòu)成。圖18中示出由精度影響度計(jì)算部519執(zhí)行的處理方法的一例。精度影響度計(jì)算部519在步驟1801中判斷是否存在未處理的要因。在“沒有”未處理的要因的情況下,精度影響度計(jì)算部519結(jié)束處理。在“有”未處理的要因的情況下,精度影響度計(jì)算部519,在步驟1802中,從要因表514提取與新輸入文件的該要因?qū)?yīng)的要因ID和要因值。接著,精度影響度計(jì)算部519,在步驟1803中,將被提取的要因值與檢索精度表517中相應(yīng)的要因的上限值和下限值進(jìn)行對(duì)照,并確定該要因值所屬的要因組。接著,精度影響度計(jì)算部519,在步驟1804中,取出對(duì)應(yīng)于被確定的要因組的要因ID1401、要因分類1402、要因名稱1403、要因組名稱1405、檢索精度1408、與精度平均的偏離1409,并與要因值一同,分別存儲(chǔ)于推定結(jié)果表520的要因ID1701、要因分類1702、要因名稱1703、要因值1704、相應(yīng)的要因組1705、檢索精度1706、與精度平均的偏離1707?;氐綀D5的說明。檢索結(jié)果輸出部521基于特征詞對(duì)照表515以及精度影響度表520,生成圖4A以及圖4B所示的輸出畫面,并介由輸出裝置540向利用者示出。圖4A的表400能夠通過精度影響度表520容易地生成。圖4B的表470能夠通過特征詞對(duì)照表515容易地生成。如后所述,關(guān)于使類似文件檢索精度降低的要因(與精度平均的偏離值為負(fù)的要因),為了從此要因的視點(diǎn)來使類似文件檢索精度提高,對(duì)策表522將對(duì)于接下來要做什么的對(duì)策信息與要因建立對(duì)應(yīng)并存儲(chǔ)用于向利用者示出的對(duì)策信息。如以上那樣,本實(shí)施例的類似文件檢索輔助裝置通過使用圖5所示 的功能塊構(gòu)成,能夠?qū)⒂绊憴z索精度的要因及其影響的程度(與精度平均的偏離)作為類似文件檢索結(jié)果的依據(jù)向利用者示出。圖19中示出本實(shí)施例的類似文件檢索輔助裝置的硬件構(gòu)成例。本裝置大致上分來是由執(zhí)行計(jì)算處理的處理裝置1950、用于利用者輸入操作內(nèi)容或數(shù)據(jù)的輸入裝置1930、向利用者輸出計(jì)算處理結(jié)果的輸出裝置1940、存儲(chǔ)與處理裝置1950中的處理有關(guān)的程序以及數(shù)據(jù)的存儲(chǔ)裝置1960構(gòu)成的。輸入裝置1930由鍵盤1951以及鼠標(biāo)1952構(gòu)成。輸出裝置1940由輸出監(jiān)控器1953構(gòu)成。在與其他的計(jì)算機(jī)之間收發(fā)輸入輸出數(shù)據(jù)的情況下,輸入輸出數(shù)據(jù)介由網(wǎng)絡(luò)1954進(jìn)行信息收發(fā)。記憶裝置1960由暫時(shí)存儲(chǔ)處理裝置1950中的處理數(shù)據(jù)的工作區(qū)域1961、存儲(chǔ)數(shù)據(jù)的文件數(shù)據(jù)庫存儲(chǔ)區(qū)域1962、單詞字典存儲(chǔ)區(qū)域1963、檢索目錄存儲(chǔ)區(qū)域1964、著錄表存儲(chǔ)區(qū)域1965、教師文件表存儲(chǔ)區(qū)域1966、檢索結(jié)果表存儲(chǔ)區(qū)域1967、特征詞表存儲(chǔ)區(qū)域1968、要因表存儲(chǔ)區(qū)域1969、特征詞照合表存儲(chǔ)區(qū)域1970、檢索精度表存儲(chǔ)區(qū)域1971、精度影響度表存儲(chǔ)區(qū)域1972、對(duì)策表存儲(chǔ)區(qū)域1973、存儲(chǔ)程序的特征詞提取部存儲(chǔ)區(qū)域1974、檢索目錄生成部存儲(chǔ)區(qū)域1975、著錄提取部存儲(chǔ)區(qū)域1976、特征詞收集部存儲(chǔ)區(qū)域1977、類似文件檢索部存儲(chǔ)區(qū)域1978、要因數(shù)據(jù)提取部存儲(chǔ)區(qū)域1979、檢索精度解析部存儲(chǔ)區(qū)域1980、精度影響度計(jì)算部存儲(chǔ)區(qū)域1981、檢索結(jié)果輸出部存儲(chǔ)區(qū)域1982構(gòu)成。處理裝置1950從存儲(chǔ)裝置1960加載必要的程序以及數(shù)據(jù),反復(fù)將執(zhí)行后的結(jié)果存儲(chǔ)于存儲(chǔ)裝置1960,并執(zhí)行規(guī)定的處理。接著,說明上述實(shí)施例的變形例。(變形例1)在上述實(shí)施例中,檢索精度解析部516在根據(jù)教師輸入文件計(jì)算相對(duì)于各要因的檢索精度時(shí),將要因分為若干個(gè)要因組并按要因組計(jì)算檢索精度,進(jìn)而,影響度計(jì)算部519對(duì)照從新輸入文件獲得的要因值與要因組,并確定了相應(yīng)要因組的檢索精度。對(duì)此,在本變形例中,并不是確定要因組并確定對(duì)應(yīng)的檢索精度, 而是確定具有從新輸入文件獲得的要因值或其附近值的教師輸入文件,并根據(jù)該教師輸入文件計(jì)算檢索精度。例如,在圖16中,從新輸入文件獲得的要因值為“18”的情況下,在上述的實(shí)施例中,被視為屬于要因組“中”,檢索精度為60%,偏離值為0%。另一方面,在本變形例中,確定要因值具有“18”或其附近值的教師輸入文件。若以要因值“18”為中心,提取相當(dāng)于整體的30%的6個(gè)取其前后的值的教師輸入文件,則獲得6個(gè)(圖16的中央的表1610的#12至#17)要因值具有“17”至“19”的值的教師輸入文件。與該6個(gè)文件對(duì)應(yīng)的檢索精度為67%(4/6),偏離值為+7%(67%-60%)。本變形例能夠通過在影響度計(jì)算部519執(zhí)行從存儲(chǔ)于要因表514的要因數(shù)據(jù)提取一定個(gè)數(shù)的具有上述新輸入文件的要因值或其附近值的教師輸入文件的處理和根據(jù)提取了的教師輸入文件的檢索順位來計(jì)算檢索精度的處理來實(shí)現(xiàn)。(變形例2)在上述實(shí)施例中,關(guān)于8種要因,計(jì)算對(duì)檢索精度的影響度來作為偏離值,而該影響度是在按各要因獨(dú)立的前提下進(jìn)行解析的。對(duì)此,在本變形例中,將2種以上的要因相組合,形成將各要因的要因組組合起來的“統(tǒng)合要因組”。即,在本變形例中,對(duì)于教師輸入文件,按統(tǒng)合要因組來計(jì)算檢索精度,并基于從新輸入文件獲得的要因值的組合,確定相應(yīng)的統(tǒng)合要因組。此后,確定對(duì)應(yīng)的檢索精度以及與精度平均的偏離值,并向利用者示出??梢灶A(yù)先固定哪個(gè)要因與哪個(gè)要因組合,也可以由利用者選擇。例如將要因“總命中數(shù)”與要因“類似度衰減率”組合。該情況中,在分別由3種要因組構(gòu)成的情況下,生成9(=3×3)種統(tǒng)合要因組。檢索精度解析部516在圖15所示的處理方法的步驟1504中,對(duì)要因進(jìn)行分類時(shí),以該要因中的第一個(gè)要因值進(jìn)行分類并分割成3組,進(jìn)而以第二個(gè)要因值對(duì)被分割的各組進(jìn)行分類并分別分割成3組,通過重復(fù)這樣的處理,能夠生成統(tǒng)合要因組。此后的處理能夠通過相同的處理實(shí)現(xiàn)。(擴(kuò)展例1)接著,對(duì)上述實(shí)施例的擴(kuò)展例進(jìn)加以記述。在上述的實(shí)施例中,通過圖4A以及圖4B所示的顯示方案,按要因向利用者示出對(duì)檢索精度的影響度。利用者能夠根據(jù)被示出的內(nèi)容理解哪個(gè)要因使檢索精度提高/降低。但是,不一定所有的利用者都能夠理解為了獲得最好的檢索結(jié)果而具體該怎么做以及該怎樣操作這樣的對(duì)策方法。若不懂得對(duì)策方法,則在這一點(diǎn)上檢索作業(yè)便將中斷,所以,不能迅速且順利地進(jìn)行檢索作業(yè)。因此,在本擴(kuò)展例中,關(guān)于使類似文件檢索精度降低的要因(與精度平均的偏離值為負(fù)的要因),為了從此要因的視點(diǎn)出發(fā)而使類似文件檢索精度提高,將對(duì)于接下來要做什么的對(duì)策信息與要因建立對(duì)應(yīng),并向利用者示出。具體地講,與圖5所示的功能塊構(gòu)成同樣地,具有存儲(chǔ)對(duì)策信息的對(duì)策表522,根據(jù)來自利用者的要求,向利用者示出關(guān)于接下來要該做什么的“對(duì)策內(nèi)容”和與具體該怎樣進(jìn)行有關(guān)的“操作方法”。圖20A以及圖20B中示出本擴(kuò)展例中的類似文件檢索結(jié)果的詳細(xì)顯示畫面的構(gòu)成例。另外,圖20A以及圖20B中,為與圖4A以及圖4B的對(duì)應(yīng)部分賦予同一符號(hào)來加以表示。圖20A表示顯示于畫面上部部分的表400,圖20B表示顯示于畫面下部部分的表470。圖20A所示的表400與圖4A所示的表400的區(qū)別在于表示對(duì)于各要因的對(duì)策方法2001的項(xiàng)目被追加到圖20A所示的表400這一點(diǎn)。例如將影響度453的值設(shè)為負(fù)的值且使其絕對(duì)值大的要因(分類命中件數(shù)437或有效特征詞數(shù)431等)為使檢索精度降低的的要因。為了從該要因的視點(diǎn)出發(fā)來改善檢索精度,在想知道該怎么辦的情況下,利用者按下與該要因相應(yīng)的對(duì)策方法2001的“對(duì)策”鏈接2002。這樣,如圖21所示的一例那樣,對(duì)策內(nèi)容2103以及操作方法2104與要因2101以及要因組2102建立對(duì)應(yīng)地被表示出來。進(jìn)而,在操作方法2104中,若按下“事先編輯畫面”鏈接2105,則顯示如圖2所示的作為用于進(jìn)行該對(duì)策內(nèi)容的畫面的事先編輯畫面。利用者按照這些導(dǎo)航,能夠適當(dāng)?shù)匦拚龣z索條件,并且也不會(huì)為操作感到為難。圖22為表示對(duì)策表522的構(gòu)成的一例的圖。對(duì)策表522由要因 ID2201、要因名稱2202、要因組ID2203、要因組名稱2204、記載了接下來該做什么的對(duì)策內(nèi)容2205、記載了如何操作來實(shí)現(xiàn)對(duì)策內(nèi)容的操作方法2206、為了操作而應(yīng)該遷移的遷移目的地畫面2207構(gòu)成。與圖20A所示的表400中被選擇的對(duì)策相對(duì)應(yīng)的要因和已被記載于對(duì)策表522的數(shù)據(jù)能夠以要因名稱及要因組為鍵建立對(duì)應(yīng),因此,能夠從對(duì)策表522取出與要因一致的數(shù)據(jù),并容易地實(shí)現(xiàn)以圖21所示的形式來進(jìn)行顯示。另外,關(guān)于遷移目的地畫面2207,在圖21中,作為文中的鏈接錨,使得能夠跳至遷移目的地畫面,但也可以另外設(shè)置“畫面遷移”按鈕進(jìn)行顯示,若利用者按下該按鈕,則將跳至由對(duì)策表522所定義的遷移目的地畫面。圖2示出為了使類似文件檢索精度提高而對(duì)檢索條件(特征詞的追加·刪除·權(quán)重修正·同義詞展開,通過著錄進(jìn)行的篩選等)進(jìn)行編輯的檢索條件編輯畫面200的構(gòu)成例。檢索條件編輯畫面200由進(jìn)行特征詞的刪除以及權(quán)重的修正的特征詞編輯子畫面201、進(jìn)行特征詞的追加的特征詞追加子畫面202、進(jìn)行同義詞的展開的同義詞展開子畫面203、基于分類或申請(qǐng)人、申請(qǐng)日等的著錄來篩選或擴(kuò)展檢索結(jié)果的著錄條件編輯子畫面204構(gòu)成。在特征詞編輯子畫面201中顯示關(guān)于用于檢索的特征詞的數(shù)據(jù)。在此,若使選擇復(fù)選框211為選擇狀態(tài)(帶有×的狀態(tài)),則此特征詞被用于檢索,若解除選擇狀態(tài)(不帶有×的狀態(tài)),則此特征詞不被用于檢索。此外,在本子畫面中,能夠?qū)?quán)重212的值變更成任意的值。在特征詞追加子畫面202中,以包含于輸入文件的特征詞來顯示未被用于檢索的特征詞。此外,也能夠顯示包含于檢索結(jié)果文件的特征詞。在此,也能夠通過選擇復(fù)選框221的選擇來追加用于檢索的特征詞。此外,能夠?qū)⒁芳拥奶卣髟~的權(quán)重222變更為任意的值。在同義詞展開子畫面203中顯示對(duì)于被用于檢索的特征詞的同義詞數(shù)據(jù)。關(guān)于同義詞數(shù)據(jù),其可以存儲(chǔ)在單詞字典503,也可以作為同義詞字典存儲(chǔ)為其他數(shù)據(jù)。若從特征詞的列表231選擇任意的特征詞(在此為“通報(bào)”),則在右側(cè)的表232中顯示同義詞的候補(bǔ)及其確信度。 作為同義詞,使適當(dāng)詞的復(fù)選框?yàn)檫x擇狀態(tài),由此,追加被選擇的詞作為特征詞。在著錄條件編輯子畫面204中,進(jìn)行通過著錄進(jìn)行的篩選。若從著錄項(xiàng)目的列表241選擇任意的著錄項(xiàng)目(在此為“分類(IPC)”),則在右側(cè)的表242中以件數(shù)來顯示順位靠前檢索結(jié)果文件的該著錄項(xiàng)目的值的分布。通過選擇復(fù)選框來選擇著錄值,由此,篩選檢索結(jié)果。在該檢索條件編輯畫面200中,利用這按照?qǐng)D21中所示的畫面中所提案(suggest)的內(nèi)容來修正檢索條件,并再執(zhí)行類似文件檢索。例如在圖21中,提案(suggest)了特征詞的追加,并作為操作方法2206顯示為“在特征詞追加畫面追加特征詞”。因此,在特征詞追加子畫面202中,找到并追加適當(dāng)?shù)奶卣髟~,按下檢索按鈕250來再執(zhí)行檢索。另外,在圖2中,多個(gè)子畫面被統(tǒng)一顯示于一個(gè)畫面,但也可以僅向利用者示出必要的子畫面。通過上述實(shí)施例、變形例以及擴(kuò)展例,利用者能夠理解作為檢索結(jié)果的依據(jù),輸入文件中的哪個(gè)特征詞對(duì)類似文件檢索結(jié)果的輸出做出了怎樣的貢獻(xiàn)、類似文件檢索進(jìn)展順利的程度、類似文件檢索進(jìn)展不順利的情況下的原因是什么、類似文件檢索進(jìn)展不順利的情況下,接下里做什么怎么做才能獲得好的檢索結(jié)果,由于能夠順利地移入接下來的行動(dòng),所以,能夠使檢索作業(yè)處理的循環(huán)高效地運(yùn)轉(zhuǎn),并能夠獲得高質(zhì)量的檢索結(jié)果。