国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于概括文檔的方法

      文檔序號:8548085閱讀:406來源:國知局
      用于概括文檔的方法
      【專利說明】用于概括文檔的方法
      【背景技術】
      [0001] 隨著信息技術W及諸如因特網(wǎng)和內(nèi)聯(lián)網(wǎng)的網(wǎng)絡的發(fā)展,越來越多的信息在線存 在。海量的在線信息可能使想要找到他可能感興趣的某物的用戶不知所措。因此,已經(jīng)付 出更多的注意來過濾掉不必要的信息并且僅接收所需要的信息。對于該樣的目的有用的一 種方法是提供文檔的概括或者概括文檔,使得用戶可W被允許預覽概括并且決定獲得并閱 讀全文檔是否值得。
      【附圖說明】
      [0002] 附圖圖示了本公開的各種方面的各種示例。應理解,在圖中的圖示的元素邊界(例 如,框、框的組或者其他形狀)表示所述邊界的一個示例。應理解,在某些示例中,一個元素 可W被設計為多個元素,或者多個元素可W被設計為一個元素。在某些示例中,被示出為另 一元素的內(nèi)部部件的元素可W被實現(xiàn)為外部部件,并且反之亦然。
      [0003] 圖1是根據(jù)本公開的示例的可W概括文檔的系統(tǒng)的框圖; 圖2是根據(jù)本公開的示例的概括文檔的方法的處理流程圖; 圖3是根據(jù)本公開的示例的概括文檔的方法的更詳細的處理流程圖; 圖4是示出了根據(jù)本公開的示例的、存儲用于概括文檔的代碼的非瞬時計算機可讀介 質的框圖。
      【具體實施方式】
      [0004] 自動概括長期W來是用于自然語言處理的重要任務。文檔的良好概括應該是簡明 并且準確的,換言之,應該能夠捕獲源文檔的重要信息。直至今日,已經(jīng)提出了各種種類的 方法。大致地,存在用于概括生成的兩種方法;提取和抽象(油Straction)。提取方法關注 從單個文檔或多個文檔選擇句子,而抽象方法通過采用釋義的各種技術生成新的句子。
      [0005] 如在本公開中使用的那樣,"文檔"是指自由的、未組織的或半組織的文本的任何 主體。所述文本可W包括文檔在其一般意義上的全部內(nèi)容,諸如書、文章、論文等等,或者傳 統(tǒng)文檔的一部分,諸如摘要、段落、句子或者例如標題的短語。理想地,"文檔"描述相干的話 題。因此,貫穿本公開,術語"文檔"被廣泛使用W表示文本數(shù)據(jù)的單元,其包括文檔的僅一 部分,諸如區(qū)段或者段落。另外,"文檔"可W包含根據(jù)圖像或其他圖形生成的文本,W及從 音頻或視頻格式恢復的文本。文檔一般可W包括多個句子。類似地,貫穿本公開,詞語"術 語"被廣泛使用W表示在話題上設及文檔或者文檔集合的詞語或者詞語的分組。
      [0006] 在下文中,參考附圖詳細地描述了根據(jù)本公開的某些示例。
      [0007] 參考圖1,圖1是根據(jù)本公開的示例的可W概括文檔的系統(tǒng)的框圖。系統(tǒng)一般地由 參考標號100表示。本領域普通技術人員將理解,在圖1中示出的功能塊和設備可W包括 包含電路的硬件元件、包含被存儲在有形的計算機可讀介質上的計算機代碼的軟件元件或 者硬件和軟件元件兩者的組合。附加地,系統(tǒng)100的功能塊和設備僅僅是可W被實現(xiàn)在示 例中的功能塊和設備的一個示例。本領域普通技術人員基于針對特定電子設備的設計考慮 將能夠容易地定義具體的功能塊。
      [000引系統(tǒng)100可W包括服務器102,W及一個或多個客戶端計算機104,通過網(wǎng)絡106 通信。如在圖1中圖示的那樣,服務器102可W包括一個或多個處理器108,其可W通過總 線110連接到顯示器112、鍵盤114、一個或多個輸入設備116W及諸如打印機118的輸出 設備。輸入設備116可W包括諸如鼠標或觸摸屏的設備。處理器108可W包括單個核、多 個核,或者在云計算架構中的核的群集。服務器102還可W通過總線110連接到網(wǎng)絡接口 卡(NIC) 120。NIC120可W將服務器102連接到網(wǎng)絡106。
      [0009] 服務器102可化圍過網(wǎng)絡106和輸入設備116訪問各種文檔。例如,用戶可化圍過 輸入設備116輸入針對其將生成概括的(一個或多個)文檔?;蛘?,服務器102可W通過使 用比如Google的某些捜索引擎從因特網(wǎng)捜索多個文檔。服務器102還具有對概念庫130的 訪問。概念庫130可W是但不限于某些公眾可用的概念庫,諸如W化ipedia、Bai化Baike、 B油elNet等等。用戶還可W定義他自己的概念庫。在W下描述中,W化ipedia將被用作用 于說明的示例。然而,本領域技術人員將理解,W化ipedia僅充當示例,并且本發(fā)明在該點 上不被限制。應注意,W化ipedia包含多于3. 5億人工編輯的概念,并且W化ipedia的概念 被表示為在Wikipedia中的文章頁面。
      [0010] 網(wǎng)絡106可W是局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)或者另一網(wǎng)絡配置。網(wǎng)絡106可W包 括路由器、交換機、調制解調器或者被用于互連的任何其他種類的接口設備。網(wǎng)絡106可W 連接到若干客戶端計算機104。通過網(wǎng)絡106,若干客戶端計算機104可W連接到服務器 102。可W如服務器102那樣類似地組織客戶端計算機104。
      [0011] 服務器102可W具有通過總線110可操作地禪合到處理器108的其他單元。該些 單元可W包括有形的機器可讀存儲介質,諸如記憶裝置122。記憶裝置122可W包括硬盤 驅動器、只讀存儲器(ROM)、隨機訪問存儲器(RAM)、RAM驅動器、閃式驅動器、光驅、高速緩 存存儲器等等的任何組合。記憶裝置122可W包括概念檢測單元124、關聯(lián)性計算單元126 W及圖構造單元128。概念檢測單元124可W檢測在文檔的句子中的(一個或多個)概念。 在句子中的概念被限定為呈現(xiàn)所述句子的某些語義的詞語和短語。概念檢測單元124可W 檢測在文檔的每一個句子中的概念。關聯(lián)性計算單元126可W根據(jù)在句子中檢測到的概念 計算在該些句子之間的關聯(lián)性測量。圖構造單元128可W基于所計算的關聯(lián)性測量構造概 念意識(concept-aware)的圖,其中在所述概念意識圖中的節(jié)點表示在所述文檔中的句子, 并且在兩個節(jié)點之間的邊表示在該兩個句子之間的關聯(lián)性測量。
      [0012] 雖然在圖1中未示出,但是記憶裝置122還可W包括某些其他單元,諸如預處理單 元、分級(ranking)單元W及概括生成單元。預處理單元可W對目標文檔執(zhí)行某個預處理。 例如,所述預處理可W包括從句子移除非法字符,例如在英文文章中的中文字符可能被視 為非法字符并且應該被移除。預處理還可W包括從句子移除比如感嘆詞(interjection)的 詞語,因為該些詞語通常不對句子的含義有貢獻。當然,可W存在某些其他類型的預處理, 本文將不詳細描述。分級單元可W對由圖構造單元128構造的概念意識圖運行分級方法, 并且對每個句子給出得分(即,分級)。句子的得分越高,所述句子就越重要。W該種方式, 在文檔中的所有句子可W根據(jù)它們的得分被排序。分級方法的示例可W包括但不限于HITS 等級、Google的化geRank和manifol化ank。在由分級單元對每個句子評分之后,可W W根 據(jù)它們的等級的次序選擇句子。概括生成單元可W選擇最高等級(top ranking)的句子作 為針對文檔的概括。根據(jù)本公開的示例,當選擇句子時,可w將該句子與已經(jīng)選擇的句子比 較W檢查該句子是否太接近或類似于已經(jīng)選擇的句子中的一個。如果它們太相似,則該句 子將不被選擇到概括中(即,選擇不相似但是重要的那些句子)。所生成的概括可W被顯示 在顯示器112上用于由用戶查看,或者被發(fā)送到打印機118W被打印。
      [0013] 現(xiàn)在參考圖2,圖2圖示了根據(jù)本公開的示例的概括文檔的方法的處理流程圖。 方法一般地由參考標號200表示。在框201處,針對在文檔中的每個句子檢測(一個或多 個)概念。根據(jù)本公開的示例,基于預定義的概念庫來檢測在句子中的概念,所述預定義的 概念庫包
      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1