文本處理裝置以及文本處理方法
【專利說明】文本處理裝置以及文本處理方法
[0001]本申請享有2013年10月31日前文提出的日本特許申請?zhí)?013 — 227557的優(yōu)先權(quán)利益,并包含有其全部內(nèi)容。
技術(shù)領(lǐng)域
[0002]實(shí)施方式涉及文本處理裝置以及文本處理方法。
【背景技術(shù)】
[0003]以往,作為使對文本的搜索式訪問成為可能的技術(shù),已知有利用被稱作大綱編輯器(Outliner)的軟件來處理文本。大綱編輯器是顯示文本的框架構(gòu)造、若用戶進(jìn)而選擇該構(gòu)造的任意要素則能夠?qū)⑽谋镜南鄳?yīng)之處打開的軟件的通稱。
[0004]但是,以往的大綱編輯器一般情況下將對文本預(yù)先賦予的章或節(jié)等邏輯構(gòu)造作為文本的框架構(gòu)造來對待。因此,很難對不具備邏輯構(gòu)造的文本進(jìn)行處理,需要改善。
【發(fā)明內(nèi)容】
[0005]實(shí)施方式的文本處理裝置具備生成部和列表顯示部。生成部對所輸入的文本進(jìn)行解析,生成話題構(gòu)造信息,該話題構(gòu)造信息包括:表示所述文本中包含的多個話題間的從屬關(guān)系的信息、以及表示所述文本中包含的多個話題間的前后關(guān)系的信息。列表顯示部基于所述話題構(gòu)造信息,使顯示器顯示將多個節(jié)點(diǎn)按照與各節(jié)點(diǎn)對應(yīng)的話題間的前后關(guān)系進(jìn)行排列而成的話題構(gòu)造列表,該多個節(jié)點(diǎn)分別與所述文本中包含的話題對應(yīng),且各節(jié)點(diǎn)具有表示與該節(jié)點(diǎn)對應(yīng)的話題和其他話題之間的從屬關(guān)系的標(biāo)簽。
【附圖說明】
[0006]圖1是表示作為文本處理裝置的輸出而顯示在顯示器上的顯示畫面的畫面結(jié)構(gòu)例的圖。
[0007]圖2 — I是表示樣本文本的圖。
[0008]圖2 — 2是表示樣本文本的圖。
[0009]圖3是表示文本處理裝置的整體結(jié)構(gòu)的框圖。
[0010]圖4是表示話題構(gòu)造模型的一例的圖。
[0011]圖5是表示話題構(gòu)造模型生成器的處理順序的一例的流程圖。
[0012]圖6是表示基于話題構(gòu)造模型生成的話題構(gòu)造列表的初始狀態(tài)的圖。
[0013]圖7是表示初始狀態(tài)生成部的處理順序的一例的流程圖。
[0014]圖8是表示對任意的GUI節(jié)點(diǎn)進(jìn)行了打開操作的情況下的話題構(gòu)造操作部的處理順序的一例的流程圖。
[0015]圖9是表示對任意的⑶I節(jié)點(diǎn)進(jìn)行了關(guān)閉操作的情況下的話題構(gòu)造操作部的處理順序的一例的流程圖。
[0016]圖10是表示進(jìn)行了 GUI節(jié)點(diǎn)的開閉操作的情況下的大綱窗口的畫面遷移的一例的圖。
[0017]圖11是表示概括請求部的處理順序的一例的流程圖。
[0018]圖12是表示對變更在正文窗口中顯示的文本的概括率的操作方法進(jìn)行了總結(jié)的圖。
[0019]圖13是表示基于最密優(yōu)先算法進(jìn)行適用范圍調(diào)整的情況的適用范圍調(diào)整部的處理順序的一例的流程圖。
[0020]圖14是表示基于加權(quán)合成算法進(jìn)行適用范圍調(diào)整的情況的適用范圍調(diào)整部的處理順序的一例的流程圖。
[0021]圖15是表示進(jìn)行語句刪除處理的情況的重要語句選擇部的處理順序的一例的流程圖。
[0022]圖16是表示進(jìn)行語句追加處理的情況的重要語句選擇部的處理順序的一例的流程圖。
[0023]圖17是表示計算語句的分?jǐn)?shù)的情況的重要語句選擇部的處理順序的一例的流程圖。
[0024]圖18是表示話題構(gòu)造模型生成器的處理順序的變形例的流程圖。
[0025]圖19是說明文本處理裝置的硬件結(jié)構(gòu)的圖。
【具體實(shí)施方式】
[0026]以下,參照附圖對實(shí)施方式的文本處理裝置、文本處理方法以及程序進(jìn)行詳細(xì)說明。以下所示的實(shí)施方式是主要以對呼叫中心(call center)的通話應(yīng)對、會議經(jīng)過等進(jìn)行了記錄的文本為處理對象的例子。
[0027]在呼叫中心的通話應(yīng)對中,有時與相同顧客的通話應(yīng)對有多次。該情況下,應(yīng)對相同顧客的操作人員不一定總是相同的,但是顧客有時會說“上次你告訴我的關(guān)于奶過敏的事兒,..?”等,基于之前的通話內(nèi)容的文脈來提問。該情況下,在呼叫中心側(cè),從顧客滿意度的觀點(diǎn)出發(fā),要求對這樣的提問也能夠適當(dāng)?shù)剡M(jìn)行應(yīng)答。因此,應(yīng)對顧客的操作人員需要預(yù)先理解此前的應(yīng)對內(nèi)容。
[0028]作為與這種狀況類似的例子,例如有企業(yè)的開發(fā)例會等分多次來召開的會議。在第二次以后的會議中,多數(shù)情況下是在前次為止的會議中討論過的議題的內(nèi)容的基礎(chǔ)上來展開議題。但是,會存在沒有參加此前的會議的人、雖然參加了會議但是無法清楚地想起議題的內(nèi)容的人等。為了幫助這些人,需要讓這些人預(yù)先理解此前的會議中討論過的議題的內(nèi)容。
[0029]針對這些課題,可以想到如下對策:將過去的交往過程文本化來進(jìn)行記錄(以下,將該記錄稱作過去日志。),在呼叫中心的通話應(yīng)對中和會議中,提示過去日志,以使操作人員或會議參加者能夠隨時閱讀過去日志。該情況下,過去日志優(yōu)選為,操作人員或會議參加者能夠快速地理解必要的“要點(diǎn)”,以避免妨礙通話應(yīng)對或會議的進(jìn)行。
[0030]但是,關(guān)于哪里是要點(diǎn),根據(jù)通話應(yīng)對及會議進(jìn)行的展開、需要信息的操作人員或會議參加者的知識等而不同,無法預(yù)先預(yù)測必要的要點(diǎn)。因此,期待有需要信息的操作人員或會議參加者自身能夠迅速從過去日志中找到必要的要點(diǎn)并能夠快速地理解其內(nèi)容的構(gòu)架。
[0031]在本實(shí)施方式中提出基于使用了文本的話題構(gòu)造的大綱編輯器來進(jìn)行的解決方法。大綱編輯器是顯示文本的框架構(gòu)造、若用戶進(jìn)而選擇其構(gòu)造的任意要素則能夠打開文本的相應(yīng)之處的軟件的通稱。作為現(xiàn)有軟件的例子,有Omn1utliner、Microsoft (R) Word等。但是,這些大綱編輯器基于對文本預(yù)先賦予的章或節(jié)等邏輯構(gòu)造來進(jìn)行處理。對此,在實(shí)施方式中,將呼叫中心或會議等中的人的交往過程文本化了的東西作為處理的對象,因此,不存在章或節(jié)等被預(yù)先賦予的邏輯構(gòu)造。取而代之,使用文本的話題構(gòu)造。
[0032]話題構(gòu)造是無法用眼睛看到的。在本實(shí)施方式中提出一種文本處理裝置,具備:話題構(gòu)造模型,根據(jù)基于假設(shè)而檢測到的話題間的從屬關(guān)系和前后關(guān)系而構(gòu)成;以及大綱編輯器,使用了該話題構(gòu)造模型。
[0033]首先,參照圖1對作為本實(shí)施方式的文本處理裝置的輸出而顯示在顯示器上的顯示畫面的一例進(jìn)行說明。
[0034]圖1是表示作為本實(shí)施方式的文本處理裝置的輸出而在顯示器上顯示的顯示畫面的畫面結(jié)構(gòu)例的圖。圖1(a)中示例的顯示畫面100由大綱窗口 101和正文窗口 102構(gòu)成。大綱窗口 101顯示對所輸入的文本的話題構(gòu)造進(jìn)行表示的話題構(gòu)造列表,進(jìn)而提供能夠?qū)ξ谋镜恼倪M(jìn)行搜索式訪問的交互式的操作。正文窗口 102顯示所輸入的文本的正文。使用該正文窗口 102,能夠顯示文本的概括。
[0035]例如,如圖1(a)所示,若選擇用于表示文本的話題構(gòu)造而顯示在大綱窗口 101中的話題構(gòu)造列表的項(xiàng)目群(以下,將這些各項(xiàng)目稱作GUI節(jié)點(diǎn)。)中的任意一個,則與所選擇的GUI節(jié)點(diǎn)(圖1 (a)的105)所表示的話題有關(guān)的文本的正文被顯示在正文窗口 102中。此時,如果與該GUI節(jié)點(diǎn)所表示的話題有關(guān)的文本的正文的文量比正文窗口 102的尺寸大,則文本的正文被概括后顯示在正文窗口 102中。圖1(a)的正文窗口 102示出了對與所輸入的文本的[過敏]有關(guān)的語句當(dāng)中、不重要的語句被除去后的概括文本進(jìn)行了顯示的例子。此外,在正文窗口 102顯示的文本的概括率通過例如在正文窗口 102的右上設(shè)置的“ + ”按鈕103、“一”按鈕104的操作或鼠標(biāo)輪操作等而能夠變更。
[0036]假定圖1(a)所示的顯示畫面100使用能夠同時顯示大綱窗口 101和正文窗口 102這2個窗口的尺寸的顯示器。但是,有時也使用例如便攜終端的顯示器那樣、由于畫面尺寸較小而僅能確保I個窗口區(qū)域那樣的小型顯示器。在這樣的情況下,可以想到設(shè)為如圖1(b)中示例的顯示畫面200那樣在話題構(gòu)造列表的⑶I節(jié)點(diǎn)之間內(nèi)嵌地顯示文本的正文那樣的畫面結(jié)構(gòu)。但是,以下,作為采用了圖1(a)中示例的顯示畫面100的畫面結(jié)構(gòu)例的情況來繼續(xù)說明。
[0037]圖2 — I以及圖2-2是表示作為本實(shí)施方式的輸入例而使用的樣本文本的圖。該樣本文本以呼叫中心中的操作人員與顧客之間的交往過程為題材。圖的左端所示的數(shù)字是表示在文本內(nèi)各個語句出現(xiàn)的順序的行號。在該樣本文本的例子中示出了:將能夠作為操作人員或顧客進(jìn)行的一次發(fā)言來把握的文本范圍作為I行,按照行號I?44的順序?qū)υ挸掷m(xù)。另外,文本中的行的定義不限于該例。例如,如果是有段落劃分的文本,則也可以將包含在I個段落中的文本范圍作為I行。此外,如果是包含表示行的結(jié)束的符號的文本,則也可以將由該符號劃分的文本范圍來作為I行。
[0038]此外,在圖2 -1以及圖2 — 2所示的樣本文本中,在行號的右側(cè)附加的A、B表示該發(fā)言的說出者,A表示是操作人員的發(fā)言,B表示是顧客的發(fā)言。以下,一邊適當(dāng)?shù)乩迷搱D2 — I以及圖2 — 2所示的樣本文本來示例具體例一邊對本實(shí)施方式的文本處理裝置進(jìn)行說明。
[0039]圖3是表示本實(shí)施方式的文本處理裝置的整體結(jié)構(gòu)的框圖。本實(shí)施方式的文本處理裝置如圖3所示,具備話題構(gòu)造模型生成器10 (生成部)、話題大綱編輯器20 (列表顯示部)、交互式概括器30 (概括顯示部)。話題大綱編輯器20是與圖1(a)所示例的顯示畫面100中的大綱窗口 101對應(yīng)的處理模塊。交互式概括器30是與圖1(a)所示例的顯示畫面100中的正文窗口 102對應(yīng)的處理模塊。話題構(gòu)造模型生成器10是用于生成話題大綱編輯器20中的處理以及交互式概括器30中的處理所使用的話題構(gòu)造模型M(話題構(gòu)造信息)的處理模塊。
[0040]話題構(gòu)造模型生成器10對所輸入的文本T進(jìn)行解析來生成話題構(gòu)造模型M。
[0041 ] 話題構(gòu)造模型M是為了即使不閱讀文本T整體也能夠容易地理解文本T所意思的話題的構(gòu)造而導(dǎo)入的模型。本實(shí)施方式的話題構(gòu)造模型M特別重視的是能夠知曉話題間的從屬關(guān)系和話題間的前后關(guān)系。所謂話題間的從屬關(guān)系,是指某個話題是另外某個話題的一部分這樣的關(guān)系。所謂話題間的前后關(guān)系,是表示什么樣的話題以什么樣的順序來出現(xiàn)的信息。
[0042]話題間的從屬關(guān)系對于文本T的高效跳讀是有效的。這是因?yàn)?,在由話題間的從屬關(guān)系向用戶示出話題Y為話題X的一部分時,用戶在判斷出對話題X沒有興趣時,就能夠確定也沒有必要閱讀與話題Y有關(guān)的描述。此外,話題間的從屬關(guān)系對于理解話題產(chǎn)生的理由是有效的。這是因?yàn)?,在由話題間的從屬關(guān)系向用戶示出話題Y是話題X的一部分時,用戶能夠理解到話題Y是從話題X派生出來的。如果能理解話題產(chǎn)生的理由,那么通過大綱編輯器等從中途閱讀文本T的情況下也能夠容易地理解文脈。
[0043]話題間的前后關(guān)系對于掌握文本T中的話題的走向是有效的。一般而言,即使是不像從屬關(guān)系那樣具有明確關(guān)系的獨(dú)立的話題彼此之間,也會互相有微弱影響,制造走向。通過表示話題間的前后關(guān)系,使得用戶能夠感覺到該話題的走向。這也是在通過大綱編輯器等從中途閱讀文本T的情況下,有助于用戶理解文脈。
[0044]在本實(shí)施方式中,如以下那樣定義實(shí)際的文本T中的話題間的從屬關(guān)系和前后關(guān)系O
[0045]首先,將文本T中出現(xiàn)的事物分別設(shè)為“話題”,將表示話題的事物的字符串(主要為單詞,但也可以是具有多個單詞的短語或語句)設(shè)為“話題語”。在不同的字符串表示相同的事物的情況下,這些不同的字符串為處于共參照關(guān)系的話題語。其中,將具有最簡明的表達(dá)方式的話題語設(shè)為與該話題對應(yīng)的“話題名”。另外