用于自動(dòng)概括電子文檔的內(nèi)容的方法和裝置制造方法
【專利摘要】一種用于概括電子文檔的方法的一個(gè)實(shí)施例,包括將電子文檔分割為多個(gè)項(xiàng),其中多個(gè)項(xiàng)中的每一個(gè)與相應(yīng)長(zhǎng)度、相應(yīng)信息量得分和相應(yīng)一致性得分相關(guān)聯(lián);自動(dòng)地選擇多個(gè)項(xiàng)的子集,以使得該子集的聚合信息量得分最大化而該子集的聚合長(zhǎng)度小于或等于最大長(zhǎng)度;以及將該子集安排為電子文檔的概要。
【專利說(shuō)明】用于自動(dòng)概括電子文檔的內(nèi)容的方法和裝置
[0001]相關(guān)申請(qǐng)的交叉引用
[0002]本申請(qǐng)要求2011年12月7日提交的英國(guó)專利申請(qǐng)N0.1121033.3和2011年12月8日提交的美國(guó)臨時(shí)專利申請(qǐng)序列號(hào)N0.61 / 568,188的權(quán)益,所述兩個(gè)申請(qǐng)的全部?jī)?nèi)容都通過(guò)引用結(jié)合在此。
【技術(shù)領(lǐng)域】
[0003]本發(fā)明一般涉及電子文檔的領(lǐng)域,并且更具體來(lái)說(shuō)涉及電子文檔的概括。
【背景技術(shù)】
[0004]使用萬(wàn)維網(wǎng)上的搜索引擎執(zhí)行的典型搜索生成多個(gè)搜索結(jié)果(例如,包括新故事、網(wǎng)頁(yè)、社會(huì)媒體內(nèi)容等的電子文檔)。然而,至少一部分搜索結(jié)果通常與該搜索無(wú)關(guān)。此夕卜,即使是相關(guān)搜索結(jié)果的內(nèi)容在文檔之間也可以不同。
[0005]另外,社會(huì)媒體允許用戶向其他用戶推薦各種電子文檔。然而,當(dāng)面臨僅統(tǒng)一資源定位符(URL)或標(biāo)題時(shí),可能難以告知所聯(lián)接的電子文檔是否有可能是所關(guān)注的。
[0006]因此,找到內(nèi)容真正相關(guān)或感興趣的文檔涉及一些麻煩和誤差,因?yàn)橛脩艨赡鼙仨殞⒍鄠€(gè)文檔通過(guò)對(duì)其內(nèi)容的極少現(xiàn)有知識(shí)來(lái)逐一分類。這是耗時(shí)的操作,尤其是在所有文檔都長(zhǎng)的情況下(例如,如在書或一些新聞文章的情況下)。如果在移動(dòng)設(shè)備(例如,智能電話)上執(zhí)行,則逐一審閱各種文檔可能花費(fèi)更多時(shí)間,因?yàn)槲臋n可能需要更多時(shí)間來(lái)在設(shè)備上讀取和載入。
【發(fā)明內(nèi)容】
[0007]一種用于概括電子文檔的方法的一個(gè)實(shí)施例包括:將電子文檔分割為多個(gè)項(xiàng),其中多個(gè)項(xiàng)中的每一個(gè)與相應(yīng)長(zhǎng)度、相應(yīng)信息量得分和相應(yīng)一致性得分相關(guān)聯(lián);自動(dòng)地選擇多個(gè)項(xiàng)的子集,以使得該子集的聚合信息量得分最大化而該子集的聚合長(zhǎng)度小于或等于最大長(zhǎng)度;以及將該子集安排為電子文檔的概要。
[0008]在其他實(shí)施例中,子集包括少于所有多個(gè)項(xiàng);所述項(xiàng)中的至少一個(gè)包括語(yǔ)句;根據(jù)與語(yǔ)言無(wú)關(guān)的評(píng)分技術(shù)來(lái)分配用于多個(gè)項(xiàng)中的給定項(xiàng)的相應(yīng)信息量得分;該評(píng)分技術(shù)根據(jù)一組手工編寫的規(guī)則來(lái)向給定項(xiàng)的多個(gè)特征分配權(quán)重;根據(jù)與語(yǔ)言相關(guān)的評(píng)分技術(shù)來(lái)分配用于多個(gè)項(xiàng)中的給定項(xiàng)的相應(yīng)信息量得分;該評(píng)分技術(shù)是使用統(tǒng)計(jì)分類器的監(jiān)督機(jī)器學(xué)習(xí)技術(shù);統(tǒng)計(jì)分類器是支持向量機(jī);該評(píng)分技術(shù)是將給定項(xiàng)表示為有向圖中的加權(quán)節(jié)點(diǎn)的非監(jiān)督機(jī)器學(xué)習(xí)技術(shù);用于多個(gè)項(xiàng)中的每一個(gè)的相應(yīng)信息量得分至少等于閾值;用于多個(gè)項(xiàng)中的每一個(gè)的相應(yīng)一致性得分至少等于閾值;該方法進(jìn)一步包括在分割之后但是在自動(dòng)選擇之前修剪多個(gè)項(xiàng)中的每一個(gè);其中使用組合優(yōu)化器來(lái)執(zhí)行自動(dòng)選擇;自動(dòng)選擇包括單獨(dú)地評(píng)估多個(gè)項(xiàng)中的每一個(gè)以包括在子集中;評(píng)估包括拒絕將多個(gè)項(xiàng)中相應(yīng)長(zhǎng)度超過(guò)該子集的當(dāng)前聚合長(zhǎng)度的那些項(xiàng)包括在子集中;評(píng)估包括對(duì)于多個(gè)項(xiàng)中的給定項(xiàng):計(jì)算第一和,其中第一和是與多個(gè)項(xiàng)中排除該給定項(xiàng)并且具有小于或等于最大長(zhǎng)度的聚合長(zhǎng)度的最大信息量子集相關(guān)聯(lián)的相應(yīng)信息量得分的和;計(jì)算第二和,其中第二和是第一值與第二值的和,其中第一值等于第一和減去給定項(xiàng)的相應(yīng)長(zhǎng)度,并且第二值是給定項(xiàng)的相應(yīng)信息量得分;以及基于第一和與第二和的比較來(lái)確定是否將給定項(xiàng)包括在子集中;確定包括當(dāng)?shù)诙痛笥诘谝缓蜁r(shí)將給定項(xiàng)包括在子集中并且當(dāng)?shù)谝缓痛笥诘诙蜁r(shí)將給定項(xiàng)從子集中排除;根據(jù)多個(gè)項(xiàng)中的每一個(gè)在電子文檔中出現(xiàn)的順序來(lái)安排多個(gè)項(xiàng);該方法進(jìn)一步包括在分割、自動(dòng)選擇和安排之前確定電子文檔是可概括的;確定包括:生成關(guān)于該電子文檔的特征向量,其中特征向量包括電子文檔的多個(gè)特征;對(duì)多個(gè)特征中的每一個(gè)分配權(quán)重;以及根據(jù)分配給多個(gè)特征中的每一個(gè)的權(quán)重來(lái)向電子文檔分配得分,其中得分指示電子文檔是否可概括;權(quán)重是自動(dòng)學(xué)習(xí)的;分配權(quán)重包括對(duì)于多個(gè)特征中的給定特征:當(dāng)給定特征在包括可概括文檔的一組訓(xùn)練示例中以至少限定的頻率出現(xiàn)時(shí)提高權(quán)重并且當(dāng)給定特征在包括可概括文檔的一組訓(xùn)練示例中以至少限定的頻率出現(xiàn)時(shí)提高權(quán)重;并且分配權(quán)重和分配得分是以專用于寫入電子文檔所使用的語(yǔ)言的方式來(lái)執(zhí)行。
[0009]一種包含用于概括電子文檔的可執(zhí)行程序的有形計(jì)算機(jī)可讀介質(zhì)的一個(gè)實(shí)施例包括執(zhí)行包括以下步驟的操作的程序:將電子文檔分割為多個(gè)項(xiàng),其中多個(gè)項(xiàng)中的每一個(gè)與相應(yīng)長(zhǎng)度、相應(yīng)信息量得分和相應(yīng)一致性得分相關(guān);自動(dòng)地選擇多個(gè)項(xiàng)的子集,以使得該子集的聚合信息量得分最大化而該子集的聚合長(zhǎng)度小于或等于最大長(zhǎng)度;以及將該子集安排為電子文檔的概要。
[0010]一種用于概括電子文檔的系統(tǒng)的一個(gè)實(shí)施例包括處理器和包含使該處理器執(zhí)行包括以下步驟的操作的可執(zhí)行程序的計(jì)算機(jī)可讀介質(zhì):將電子文檔分割為多個(gè)項(xiàng),其中多個(gè)項(xiàng)中的每一個(gè)與相應(yīng)長(zhǎng)度、相應(yīng)信息量得分和相應(yīng)一致性得分相關(guān);自動(dòng)地選擇多個(gè)項(xiàng)的子集,以使得該子集的聚合信息量得分最大化而該子集的聚合長(zhǎng)度小于或等于最大長(zhǎng)度;以及將該子集安排為電子文檔的概要。
【專利附圖】
【附圖說(shuō)明】
[0011]本發(fā)明的教導(dǎo)可以通過(guò)結(jié)合附圖考慮以下詳細(xì)描述來(lái)容易地理解,其中:
[0012]圖1是描繪其中可以部署本發(fā)明的實(shí)施例的通信網(wǎng)絡(luò)的一個(gè)示例的框圖;
[0013]圖2是描繪圖1中所示的應(yīng)用服務(wù)器的更詳細(xì)實(shí)施例的框圖;
[0014]圖3是示出根據(jù)本發(fā)明的用于從電子文檔提取內(nèi)容的方法的一個(gè)實(shí)施例的流程圖;
[0015]圖4是示出根據(jù)本發(fā)明的用于確定是否可以概括電子文檔的方法的一個(gè)實(shí)施例的流程圖;
[0016]圖5是示出根據(jù)本發(fā)明的用于概括電子文檔的方法的一個(gè)實(shí)施例的流程圖;
[0017]圖6是示出根據(jù)本發(fā)明的用于選擇一組語(yǔ)句以形成文檔概要的方法的一個(gè)實(shí)施例的流程圖;以及
[0018]圖7是使用通用計(jì)算設(shè)備實(shí)施的本發(fā)明的高階框圖。
【具體實(shí)施方式】
[0019]在一個(gè)實(shí)施例中,本發(fā)明是用于自動(dòng)概括電子文檔的內(nèi)容的方法和裝置。本發(fā)明的實(shí)施例通過(guò)在無(wú)需將電子文檔載入到設(shè)備上的情況下概括電子文檔的內(nèi)容來(lái)促進(jìn)簡(jiǎn)明且有效的內(nèi)容消費(fèi)。在一個(gè)實(shí)施例中,本發(fā)明是作為用于諸如智能電話或平板電腦的移動(dòng)設(shè)備的應(yīng)用來(lái)實(shí)施,其中移動(dòng)設(shè)備通過(guò)網(wǎng)絡(luò)與遠(yuǎn)程服務(wù)器互動(dòng)。
[0020]圖1是描繪其中可以部署本發(fā)明的實(shí)施例的通信網(wǎng)絡(luò)100的一個(gè)示例的框圖。通信網(wǎng)絡(luò)100可以是與本披露有關(guān)的任何類型的通信網(wǎng)絡(luò),諸如像傳統(tǒng)的電路交換網(wǎng)絡(luò)(例如,公共交換電話網(wǎng)絡(luò)(PSTN))或因特網(wǎng)協(xié)議(IP)網(wǎng)絡(luò)(例如,IP多媒體子系統(tǒng)(IMS)網(wǎng)絡(luò)、異步傳輸模式(ATM)網(wǎng)絡(luò)、無(wú)線網(wǎng)絡(luò)、蜂窩網(wǎng)絡(luò)(例如,2G、3G等)、長(zhǎng)期演進(jìn)(LTE)網(wǎng)絡(luò)等)。應(yīng)注意,IP網(wǎng)絡(luò)被廣泛定義為使用因特網(wǎng)協(xié)議來(lái)交換數(shù)據(jù)包的網(wǎng)絡(luò)。另外的示例性IP網(wǎng)絡(luò)包括基于IP的語(yǔ)音(VoIP)網(wǎng)絡(luò)、基于IP的服務(wù)(SoIP)網(wǎng)絡(luò)等。
[0021]在一個(gè)實(shí)施例中,網(wǎng)絡(luò)100可以包括核心網(wǎng)絡(luò)102。核心網(wǎng)絡(luò)102可以與一個(gè)或多個(gè)接入網(wǎng)絡(luò)120和122通信。接入網(wǎng)絡(luò)120和122可以包括無(wú)線接入網(wǎng)絡(luò)(例如,WiFi網(wǎng)絡(luò)等)、蜂窩接入網(wǎng)絡(luò)、PSTN接入網(wǎng)絡(luò)、電纜接入網(wǎng)絡(luò)、有線接入網(wǎng)絡(luò)等。在一個(gè)實(shí)施例中,接入網(wǎng)絡(luò)120和122可以都是不同類型的接入網(wǎng)絡(luò),可以都是相同類型的接入網(wǎng)絡(luò),或者一些接入網(wǎng)絡(luò)可以是相同類型的接入網(wǎng)絡(luò)而其他可以是不同類型的接入網(wǎng)絡(luò)。核心網(wǎng)絡(luò)102和接入網(wǎng)絡(luò)120和122可以由不同的服務(wù)提供商、相同的服務(wù)提供商或其組合操作。
[0022]在一個(gè)實(shí)施例中,核心網(wǎng)絡(luò)102可以包括應(yīng)用服務(wù)器(AS) 104和數(shù)據(jù)庫(kù)(DB) 106。盡管僅示出單個(gè)AS104和單個(gè)DB106,但是應(yīng)注意,可以部署任何數(shù)量的應(yīng)用服務(wù)器104或數(shù)據(jù)庫(kù)106。例如,核心網(wǎng)絡(luò)102可以包括其中以高度分布方式支持服務(wù)和應(yīng)用的云環(huán)境的一部分。
[0023]在一個(gè)實(shí)施例中,AS104可以包括如圖7中所示和以下論述的通用計(jì)算機(jī)。在一個(gè)實(shí)施例中,AS104可以執(zhí)行以下關(guān)于概括電子文檔內(nèi)容所論述的方法和算法。
[0024]在一個(gè)實(shí)施例中,DB106存儲(chǔ)已經(jīng)由AS104獲取和概括的電子文檔的概要。在另一個(gè)實(shí)施例中,DB106可以任選地存儲(chǔ)關(guān)于網(wǎng)絡(luò)100的用戶的配置文件。例如,DB106可以存儲(chǔ)關(guān)于每個(gè)用戶的蜂窩電話號(hào)碼、電子郵件地址、社會(huì)媒體配置文件等。這種個(gè)人信息可以用加密形式存儲(chǔ)以保護(hù)用戶的隱私。此外,可能需要用戶權(quán)限以供DB106存儲(chǔ)任何個(gè)人信息。此外,DB106可以存儲(chǔ)就用戶感興趣的內(nèi)容類型(例如,關(guān)于娛樂(lè)、體育、科學(xué)等的新聞文章)而言的用戶偏好。
[0025]在一個(gè)實(shí)施例中,接入網(wǎng)絡(luò)120可以與一個(gè)或多個(gè)用戶端點(diǎn)設(shè)備(也稱為“端點(diǎn)設(shè)備”或“UE”)108和110通信。在一個(gè)實(shí)施例中,接入網(wǎng)絡(luò)122可以與一個(gè)或多個(gè)用戶端點(diǎn)設(shè)備112和114通信。
[0026]在一個(gè)實(shí)施例中,用戶端點(diǎn)設(shè)備108、110、112和114可以是任何類型的端點(diǎn)設(shè)備,諸如臺(tái)式電腦或諸如蜂窩電話、智能電話、平板電腦、膝上型電腦、上網(wǎng)本、超極本、便攜式媒體設(shè)備(例如,MP3播放器)、游戲控制器、便攜式游戲設(shè)備等的移動(dòng)端點(diǎn)設(shè)備。應(yīng)注意,盡管圖1中示出僅四個(gè)用戶端點(diǎn)設(shè)備,但是可以部署任何數(shù)量的用戶端點(diǎn)設(shè)備。在一個(gè)實(shí)施例中,用戶端點(diǎn)設(shè)備中的任一個(gè)可以具有集成在其中的一個(gè)或多個(gè)傳感器。這些傳感器可以包括例如定位傳感器、環(huán)境傳感器、聲傳感器、位置傳感器、光傳感器、壓力傳感器、接近傳感器等。AS104可以訂購(gòu)這些傳感器的輸出,如以下更詳細(xì)論述。
[0027]應(yīng)注意,已經(jīng)簡(jiǎn)化了網(wǎng)絡(luò)100。例如,網(wǎng)絡(luò)100可以包括其他網(wǎng)絡(luò)元件(未示出),諸如邊界元件、路由器、開關(guān)、策略服務(wù)器、安全設(shè)備、內(nèi)容分布網(wǎng)絡(luò)(⑶N)等。
[0028]圖2是描繪圖1中所示的應(yīng)用服務(wù)器104的更詳細(xì)實(shí)施例的框圖。如圖所示,AS104通常包括自然語(yǔ)言處理(NLP)系統(tǒng)200和總線204。
[0029]總線204從多個(gè)源ZOeiIOen(下文統(tǒng)稱為“源206”)獲取電子文檔。在一個(gè)實(shí)施例中,總線204從源206拉取(pull)這些文檔。因此,文檔可以包括例如網(wǎng)絡(luò)提要(Webfeed)(例如,豐富站點(diǎn)摘要提要(RSS feed)、Atom提要(Atom feed)等)和網(wǎng)頁(yè)(例如,新聞網(wǎng)站、社會(huì)媒體網(wǎng)站等)??偩€204將獲取的文檔轉(zhuǎn)發(fā)給NLP系統(tǒng)200以用于進(jìn)一步處理和概括,如以下更詳細(xì)論述。在一個(gè)實(shí)施例中,總線206是穆勒(Mule)企業(yè)服務(wù)總線(ESB)。
[0030]NLP系統(tǒng)200通常包括提取器208、分類器210和概括器212。提取器208包括從總線204接收所獲取的文檔并且從文檔提取內(nèi)容的第一過(guò)濾器。在一個(gè)實(shí)施例中,所提取出的內(nèi)容包括以下中的一個(gè)或多個(gè):文本、圖像或視頻。所提取的內(nèi)容可以是任何語(yǔ)言。在一個(gè)實(shí)施例中,提取器208使用啟發(fā)式方法來(lái)提取內(nèi)容。
[0031]分類器210包括第二過(guò)濾器,該第二過(guò)濾器接收從提取器208提取的內(nèi)容中的至少一些,并且基于所提取的內(nèi)容來(lái)確定源文檔是否可以被概括。在一個(gè)實(shí)施例中,分類器210是使用訓(xùn)練的(例如,監(jiān)督的)語(yǔ)言模型的統(tǒng)計(jì)分類器。例如,在一個(gè)具體實(shí)施例中,分類器210是線性回歸分類器。
[0032]概括器212接收由分類器確定為可概括的源文檔并且對(duì)這些文檔進(jìn)行概括。在一個(gè)實(shí)施例中,概括器212生成不同長(zhǎng)度的至少兩個(gè)概要。例如,概括器212可以生成“短”概要和“長(zhǎng)”概要,其中長(zhǎng)概要比短概要長(zhǎng)約百分之三十三到百分之五十(例如,短概要可以被限制為約390個(gè)字符 ,而長(zhǎng)概要被限制為約590個(gè)字符)。概括器212向數(shù)據(jù)庫(kù)106輸出這個(gè)或這些概要以供存儲(chǔ)。數(shù)據(jù)庫(kù)106又可以將概要推送(push)到一個(gè)或多個(gè)用戶端點(diǎn)設(shè)備108、110、112和114,如以下更詳細(xì)地論述。
[0033]圖3是示出根據(jù)本發(fā)明的用于從電子文檔提取內(nèi)容的方法300的一個(gè)實(shí)施例的流程圖。方法300可以例如在圖1和圖2中所示的應(yīng)用服務(wù)器104處實(shí)施。這樣,在方法300的論述中參照?qǐng)D2中所示的各個(gè)元件。然而,應(yīng)了解,方法300并不限于通過(guò)圖2中所示的服務(wù)器配置來(lái)實(shí)施,并且進(jìn)行這些參考主要是用來(lái)便于闡述。
[0034]方法300在步驟302中開始。在步驟304中,總線204獲得具有URL和標(biāo)題的電子文檔。如上所述,總線204可以從網(wǎng)絡(luò)100拉取文檔。在一個(gè)實(shí)施例中,文檔是網(wǎng)絡(luò)提要或網(wǎng)頁(yè)。
[0035]在步驟306中,提取器208確定URL是否良好(即,包含適于概括的內(nèi)容)。例如,諸如信件、討論、廣告、聯(lián)系地址等的某些文檔可能不適于概括。在一個(gè)實(shí)施例中,根據(jù)一個(gè)或多個(gè)預(yù)先指定的模式來(lái)進(jìn)行此確定。例如,諸如故事I條目I頁(yè)面I內(nèi)容I文本I主體等的模式可以指示內(nèi)容適于概括,而諸如電子名片I推銷I橫幅I報(bào)頭等的模式可以指示內(nèi)容不適于概括。如果提取器208在步驟306中推斷出URL不良好,則在方法300在步驟320中結(jié)束之前提取器208在步驟308中丟棄該文檔。
[0036]或者,如果提取器208在步驟306中推斷出URL良好,則方法300進(jìn)行到步驟310。在步驟310中,提取器208解析文檔的源代碼(例如,超文本標(biāo)記語(yǔ)言(HTTP)代碼)。在一個(gè)實(shí)施例中,解析源代碼包括收集文檔對(duì)象模型(DOM)樹中的所有段落的列表,其中段落包括由段落標(biāo)簽(即,〈P?或表頭標(biāo)簽(header tag)(例如,<hl>)標(biāo)記的任何元素。每個(gè)這種段落被分配初始(缺省)得分,并且最接近相關(guān)的結(jié)構(gòu)標(biāo)簽分配的得分為與該標(biāo)簽相關(guān)聯(lián)的段落的得分的和。在一個(gè)實(shí)施例中,如果結(jié)構(gòu)標(biāo)簽是具有指示其具有文本內(nèi)容的類別或ID屬性的<div>標(biāo)簽,則認(rèn)為該結(jié)構(gòu)標(biāo)簽與段落相關(guān)。
[0037]在步驟312中,提取器208識(shí)別源代碼中具有最高得分的標(biāo)簽,其中得分基于上述增加方案。此標(biāo)簽表示包含最相關(guān)內(nèi)容的DOM節(jié)點(diǎn)。
[0038]在步驟314中,提取器208從識(shí)別出的標(biāo)簽的源代碼提取文本。在一個(gè)實(shí)施例中,提取器208使用消除在很可能包含不相關(guān)材料的節(jié)點(diǎn)下的文本(例如,圖像說(shuō)明、導(dǎo)航鏈接、作者署名和到社會(huì)媒體網(wǎng)站的鏈接)的提取技術(shù)。
[0039]在步驟316中,提取器208為在文檔中引用的所有圖像集評(píng)分。評(píng)分識(shí)別出最可能相關(guān)(即,與被概括的內(nèi)容直接有關(guān))的圖像。相關(guān)圖像可以包括例如具有諸如與主要文檔內(nèi)容一致的特征的圖像、大于定義的最小尺寸的圖像(例如,最可能與文檔相關(guān)的大圖像)、聯(lián)合圖像專家組(JPEG)格式圖像(例如,諸如圖標(biāo)和標(biāo)志(logo)的不相關(guān)圖像趨于使用不同格式,如便攜式網(wǎng)絡(luò)圖像格式(PNG)和圖形交換格式(GIF)格式)以及與該文檔來(lái)自相同源的圖像(例如,通常從外部源導(dǎo)入的廣告圖像)。不相關(guān)圖像可以包括例如圖標(biāo)、標(biāo)志、導(dǎo)航元素、廣告等。
[0040]在一個(gè)實(shí)施例中,評(píng)分技術(shù)是加權(quán)技術(shù),其中權(quán)重基于圖像的各種特征。這些特征可以包括與圖像以及圖像內(nèi)容有關(guān)(例如,通過(guò)圖像處理技術(shù)獲得)的元數(shù)據(jù)。例如,特征可以包括給定圖像是否是正確尺寸或者圖像以哪種類型的文件格式存儲(chǔ)。隨后,將權(quán)重的線性組合進(jìn)行加和和縮放(例如,從零到一的比例)。例如,一種用于對(duì)圖像評(píng)分的加權(quán)算法可以被定義如下:
【權(quán)利要求】
1.一種用于概括電子文檔的方法,所述方法包括: 將所述電子文檔分割為多個(gè)項(xiàng),其中所述多個(gè)項(xiàng)中的每一個(gè)與相應(yīng)長(zhǎng)度、相應(yīng)信息量得分和相應(yīng)一致性得分相關(guān); 自動(dòng)地選擇所述多個(gè)項(xiàng)的子集,以使得所述子集的聚合信息量得分最大化而所述子集的聚合長(zhǎng)度小于或等于最大長(zhǎng)度;以及 將所述子集安排為所述電子文檔的概要。
2.如權(quán)利要求1所述的方法,其中所述子集包括少于所有所述多個(gè)項(xiàng)。
3.如權(quán)利要求1所述的方法,其中所述項(xiàng)中的至少一個(gè)包括語(yǔ)句。
4.如權(quán)利要求1所述的方法,其中根據(jù)與語(yǔ)言無(wú)關(guān)的評(píng)分技術(shù)來(lái)分配用于所述多個(gè)項(xiàng)中的給定項(xiàng)的所述相應(yīng)信息量得分。
5.如權(quán)利要求4所述的方法,其中所述評(píng)分技術(shù)根據(jù)一組手工編寫的規(guī)則來(lái)向所述給定項(xiàng)的多個(gè)特征分配權(quán)重。
6.如權(quán)利要求1所述的方法,其中根據(jù)與語(yǔ)言相關(guān)的評(píng)分技術(shù)來(lái)分配用于所述多個(gè)項(xiàng)中的給定項(xiàng)的所述相應(yīng)信息量得分。
7.如權(quán)利要求6所述的方法,其中所述評(píng)分技術(shù)是使用統(tǒng)計(jì)分類器的監(jiān)督機(jī)器學(xué)習(xí)技術(shù)。
8.如權(quán)利要求7所述的方法,其中所述統(tǒng)計(jì)分類器是支持向量機(jī)。`
9.如權(quán)利要求6所述的方法,其中所述評(píng)分技術(shù)是將所述給定項(xiàng)表示為有向圖中的加權(quán)節(jié)點(diǎn)的非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)。
10.如權(quán)利要求1所述的方法,其中用于所述多個(gè)項(xiàng)中的每一個(gè)的所述相應(yīng)信息量得分至少等于閾值。
11.如權(quán)利要求1所述的方法,其中所述多個(gè)項(xiàng)中的每一個(gè)的所述相應(yīng)一致性得分至少等于閾值。
12.如權(quán)利要求1所述的方法,其進(jìn)一步包括: 在所述分割之后但是在所述自動(dòng)選擇之前修剪所述多個(gè)項(xiàng)中的每一個(gè)。
13.如權(quán)利要求1所述的方法,其中使用組合優(yōu)化器來(lái)執(zhí)行所述自動(dòng)選擇。
14.如權(quán)利要求1所述的方法,其中所述自動(dòng)選擇包括: 單獨(dú)地評(píng)估所述多個(gè)項(xiàng)中的每一個(gè)以包括在所述子集中。
15.如權(quán)利要求14所述的方法,其中所述評(píng)估包括: 拒絕將所述多個(gè)項(xiàng)中所述相應(yīng)長(zhǎng)度超過(guò)所述子集的當(dāng)前聚合長(zhǎng)度的那些包括在所述子集中。
16.如權(quán)利要求14所述的方法,其中所述評(píng)估包括,對(duì)于所述多個(gè)項(xiàng)中的給定項(xiàng): 計(jì)算第一和,其中所述第一和是與所述多個(gè)項(xiàng)中排除所述給定項(xiàng)并且具有小于或等于所述最大長(zhǎng)度的聚合長(zhǎng)度的最大信息量子集相關(guān)的所述相應(yīng)信息量得分的和;以及 計(jì)算第二和,其中所述第二和是第一值與第二值的和,其中所述第一值等于所述第一和減去所述給定項(xiàng)的所述相應(yīng)長(zhǎng)度,并且所述第二值是所述給定項(xiàng)的所述相應(yīng)信息量得分;以及 基于所述第一和與所述第二和的比較來(lái)確定是否將所述給定項(xiàng)包括在所述子集中。
17.如權(quán)利要求16所述的方法,其中所述確定包括:當(dāng)所述第二和大于所述第一和時(shí)將所述給定項(xiàng)包括在所述子集中;以及 當(dāng)所述第一和大于所述第二和時(shí)將所述給定項(xiàng)從所述子集中排除。
18.如權(quán)利要求1所述的方法,其中根據(jù)所述多個(gè)項(xiàng)中的每一個(gè)在所述電子文檔中出現(xiàn)的順序來(lái)安排所述多個(gè)項(xiàng)。
19.如權(quán)利要求1所述的方法,其進(jìn)一步包括: 在所述分割、所述自動(dòng)選擇和所述安排之前確定所述電子文檔是可概括的。
20.如權(quán)利要求19所述的方法,其中所述確定包括: 生成關(guān)于所述電子文檔的特征向量,其中所述特征向量包括所述電子文檔的多個(gè)特征; 對(duì)所述多個(gè)特征中的每一個(gè)分配權(quán)重;以及 根據(jù)分配給所述多個(gè)特征中的每一個(gè)的所述權(quán)重來(lái)向所述電子文檔分配得分,其中所述得分指示所述電子文檔是否可概括。
21.如權(quán)利要求20所述的方法,其中所述權(quán)重是自動(dòng)學(xué)習(xí)的。
22.如權(quán)利要求21所述的方法,其中所述分配權(quán)重包括對(duì)于所述多個(gè)特征中的給定特征: 當(dāng)所述給定特征在包括可概括 文檔的一組訓(xùn)練示例中以至少限定的頻率出現(xiàn)時(shí)提高所述權(quán)重;以及 當(dāng)所述給定特征在包括不可概括文檔的一組訓(xùn)練示例中以至少限定的頻率出現(xiàn)時(shí)降低所述權(quán)重。
23.如權(quán)利要求19所述的方法,其中所述分配所述權(quán)重和所述分配所述得分是以專用于寫入所述電子文檔所使用的語(yǔ)言的方式來(lái)執(zhí)行。
24.一種包含用于概括電子文檔的可執(zhí)行程序的有形計(jì)算機(jī)可讀介質(zhì),其中所述程序執(zhí)行包括以下步驟的操作: 將所述電子文檔分割為多個(gè)項(xiàng),其中所述多個(gè)項(xiàng)中的每一個(gè)與相應(yīng)長(zhǎng)度、相應(yīng)信息量得分和相應(yīng)一致性得分相關(guān); 自動(dòng)地選擇所述多個(gè)項(xiàng)的子集,以使得所述子集的聚合信息量得分最大化而所述子集的聚合長(zhǎng)度小于或等于最大長(zhǎng)度;以及 將所述子集安排為所述電子文檔的概要。
25.—種用于概括電子文檔的系統(tǒng),包括: 處理器;以及 包含使所述處理器執(zhí)行包括以下步驟的操作的可執(zhí)行程序的計(jì)算機(jī)可讀介質(zhì): 將所述電子文檔分割為多個(gè)項(xiàng),其中所述多個(gè)項(xiàng)中的每一個(gè)與相應(yīng)長(zhǎng)度、相應(yīng)信息量得分和相應(yīng)一致性得分相關(guān); 自動(dòng)地選擇所述多個(gè)項(xiàng)的子集,以使得所述子集的聚合信息量得分最大化而所述子集的聚合長(zhǎng)度小于或等于最大長(zhǎng)度;以及 將所述子集安排為所述電子 文檔的概要。
【文檔編號(hào)】G06F17/21GK103874994SQ201280049625
【公開日】2014年6月18日 申請(qǐng)日期:2012年9月11日 優(yōu)先權(quán)日:2011年10月14日
【發(fā)明者】因德吉特·瑪尼, 歐金尼奧·西烏拉娜, 尼古拉斯·D·阿洛伊西奧·蒙蒂勒, 巴特·K·斯旺森 申請(qǐng)人:雅虎公司