国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種用于對待分類詞條進(jìn)行分類的方法、裝置與設(shè)備的制作方法

      文檔序號:6499867閱讀:189來源:國知局
      一種用于對待分類詞條進(jìn)行分類的方法、裝置與設(shè)備的制作方法
      【專利摘要】本發(fā)明的目的是提供一種用于對待分類詞條進(jìn)行分類的方法、裝置與設(shè)備。其中,本發(fā)明將待分類詞條與多個(gè)網(wǎng)頁分別進(jìn)行相似度計(jì)算,以獲取所述待分類詞條分別與所述多個(gè)網(wǎng)頁的相似度信息;接著將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁確定為提取網(wǎng)頁;隨后根據(jù)所述提取網(wǎng)頁包括的多個(gè)已分類詞條分別所屬的分類信息的出現(xiàn)頻次,來由所述多個(gè)已分類詞條分別所屬的分類信息中選擇至少一個(gè)分類信息作為所述待分類詞條的分類信息。本方案實(shí)現(xiàn)了自動化地對待分類詞條進(jìn)行分類操作,從而降低人工分類成本,在保證分類質(zhì)量的前提下極大地提升了分類效率,進(jìn)而為擴(kuò)充輸入法詞庫中詞條擴(kuò)充與完善提供了保證。
      【專利說明】—種用于對待分類詞條進(jìn)行分類的方法、裝置與設(shè)備
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種用于對待分類詞條進(jìn)行分類的方法、裝置與設(shè)備。
      【背景技術(shù)】
      [0002]在現(xiàn)有的輸入法技術(shù)中,對輸入法詞庫的詞條擴(kuò)充方式主要為抓取網(wǎng)頁中的待分類詞條,隨后對待分類詞條執(zhí)行人工分類操作,而尚未存在較好的自動分類方式。當(dāng)面對海量的待分類詞條數(shù)據(jù)時(shí),人工分類方式成本較高,且分類效率較低,嚴(yán)重影響輸入法詞庫的詞條擴(kuò)充與完善。
      [0003]因此,如何實(shí)現(xiàn)自動化地對待分類詞條進(jìn)行分類,成為目前亟待解決的問題之一。
      【發(fā)明內(nèi)容】

      [0004]本發(fā)明的目的是提供一種用于對待分類詞條進(jìn)行分類的方法、裝置與設(shè)備。
      [0005]根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于對待分類詞條進(jìn)行分類的方法,該方法包括以下步驟:
      [0006]a將待分類詞條與多個(gè)網(wǎng)頁分別進(jìn)行相似度計(jì)算,以獲取所述待分類詞條分別與所述多個(gè)網(wǎng)頁的相似度信息;
      [0007]b將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁確定為提取網(wǎng)頁;
      [0008]c根據(jù)所述提取網(wǎng)頁包括的多個(gè)已分類詞條分別所屬的分類信息的出現(xiàn)頻次,來由所述多個(gè)已分類詞條分別所屬的分類信息中選擇至少一個(gè)分類信息作為所述待分類詞條的分類信息。
      [0009]根據(jù)本發(fā)明的另一方面,還提供了一種用于對待分類詞條進(jìn)行分類的分類裝置,該分類裝置包括:
      [0010]第一相似度獲取裝置,用于將待分類詞條與多個(gè)網(wǎng)頁分別進(jìn)行相似度計(jì)算,以獲取所述待分類詞條分別與所述多個(gè)網(wǎng)頁的相似度信息;
      [0011]第一網(wǎng)頁確定裝置,用于將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁確定為提取網(wǎng)頁;
      [0012]分類選擇裝置,用于根據(jù)所述提取網(wǎng)頁包括的多個(gè)已分類詞條分別所屬的分類信息的出現(xiàn)頻次,來由所述多個(gè)已分類詞條分別所屬的分類信息中選擇至少一個(gè)分類信息作為所述待分類詞條的分類信息。
      [0013]與現(xiàn)有技術(shù)相比,本發(fā)明與現(xiàn)有技術(shù)的區(qū)別在于:1)基于待分類詞條與多個(gè)網(wǎng)頁的相似度信息來確定多個(gè)網(wǎng)頁中的提取網(wǎng)頁,根據(jù)提取網(wǎng)頁包括的多個(gè)已分類詞條分別所屬的分類信息的出現(xiàn)頻次,從多個(gè)已分類詞條分別所屬的分類信息中選擇至少一個(gè)分類信息作為待分類詞條的分類信息,實(shí)現(xiàn)了自動化地對待分類詞條進(jìn)行分類操作,從而降低人工分類成本,在保證分類質(zhì)量的前提下極大地提升了分類效率,進(jìn)而為擴(kuò)充輸入法詞庫中詞條擴(kuò)充與完善提供了保證;2)重復(fù)地執(zhí)行相似度信息獲取操作、提取網(wǎng)頁確定操作、分類信息選擇操作和待分類詞條確定操作,在滿足預(yù)定的停止條件時(shí)結(jié)束重復(fù)執(zhí)行操作,實(shí)現(xiàn)了自動提取待分類詞條、并對待分類詞條自動進(jìn)行分類的分類循環(huán)操作,進(jìn)一步提升分類效率,適于從海量網(wǎng)頁中提取待分類詞條并對其自動執(zhí)行分類,進(jìn)一步為快速準(zhǔn)確地?cái)U(kuò)充輸入法詞庫提供了有力保證。
      【專利附圖】

      【附圖說明】
      [0014]通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:
      [0015]圖1示出根據(jù)本發(fā)明一個(gè)方面的用于對待分類詞條進(jìn)行分類的分類裝置的裝置示意圖;
      [0016]圖2示出根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于對待分類詞條進(jìn)行分類的分類裝置的裝置示意圖;
      [0017]圖3示出根據(jù)本發(fā)明另一個(gè)方面的用于對待分類詞條進(jìn)行分類的方法流程圖;
      [0018]圖4示出根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于對待分類詞條進(jìn)行分類的方法流程圖。
      [0019]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
      【具體實(shí)施方式】
      [0020]下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。
      [0021]圖1示出根據(jù)本發(fā)明一個(gè)方面的用于對待分類詞條進(jìn)行分類的分類裝置的裝置示意圖。本實(shí)施例的分類裝置包含于網(wǎng)絡(luò)設(shè)備中;該分類裝置包括第一相似度獲取裝置1、第一網(wǎng)頁確定裝置2和分類選擇裝置3。
      [0022]其中,所述網(wǎng)絡(luò)設(shè)備包括一種能夠按照預(yù)先設(shè)定或存儲的指令,自動進(jìn)行數(shù)值計(jì)算和信息處理的電子設(shè)備,其硬件包括但不限于微處理器、專用集成電路(ASIC)、可編程門陣列(FPGA)、數(shù)字處理器(DSP)、嵌入式設(shè)備等。所述網(wǎng)絡(luò)設(shè)備包括但不限于計(jì)算機(jī)、網(wǎng)絡(luò)主機(jī)、單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集或多個(gè)服務(wù)器構(gòu)成的云。在此,云由基于云計(jì)算(Cloud Computing)的大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級虛擬計(jì)算機(jī)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述網(wǎng)絡(luò)設(shè)備僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的網(wǎng)絡(luò)設(shè)備如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
      [0023]首先,第一相似度獲取裝置I將待分類詞條與多個(gè)網(wǎng)頁分別進(jìn)行相似度計(jì)算,以獲取所述待分類詞條分別與所述多個(gè)網(wǎng)頁的相似度信息。
      [0024]其中,所述多個(gè)網(wǎng)頁包括通過網(wǎng)絡(luò)爬蟲等網(wǎng)頁獲取工具從互聯(lián)網(wǎng)隨機(jī)獲取的多個(gè)網(wǎng)頁;優(yōu)選地,所述多個(gè)網(wǎng)頁可包括對從互聯(lián)網(wǎng)隨機(jī)獲取的海量網(wǎng)頁進(jìn)行掃描,并從中提取的包括待分類詞條的多個(gè)網(wǎng)頁。
      [0025]具體地,第一相似度獲取裝置I獲取相似度信息的方式包括但不限于:
      [0026]I)確定待分類詞條分別在多個(gè)網(wǎng)頁中的出現(xiàn)頻次信息,并將該出現(xiàn)頻次作為該待分類詞條分別與該等網(wǎng)頁相似度信息;
      [0027]其中,本發(fā)明所述頻次包括但不限于頻率和/或次數(shù)。[0028]在一示例中,待分類詞條為“桌球”,第一相似度獲取裝置I確定該待分類詞條在網(wǎng)頁A、B、C中的出現(xiàn)頻次分別為5、7、1,則將該等出現(xiàn)頻次作為待分類詞條與網(wǎng)頁A、B、C的相似度信息。
      [0029] 2)優(yōu)選地(參照圖1),所述第一相似度獲取裝置包括切詞裝置(圖未示)、頻次確定裝置(圖未示)和計(jì)算裝置(圖未示);其中,切詞裝置對所述多個(gè)網(wǎng)頁分別進(jìn)行切詞處理,來獲取各個(gè)網(wǎng)頁分別包括的多個(gè)切詞片段;頻次確定裝置確定所述多個(gè)切詞片段分別在每個(gè)網(wǎng)頁中的出現(xiàn)頻次信息;計(jì)算裝置根據(jù)所述出現(xiàn)頻次信息,來計(jì)算所述待分類詞條分別與所述多個(gè)網(wǎng)頁中各個(gè)網(wǎng)頁的相似度。
      [0030]具體地,首先,切詞裝置對多個(gè)網(wǎng)頁的每一個(gè)進(jìn)行切詞處理,來獲取多個(gè)網(wǎng)頁的每個(gè)網(wǎng)頁分別包括的多個(gè)切詞片段;接著,頻次確定裝置確定該多個(gè)切詞片段分別在每個(gè)網(wǎng)頁中的出現(xiàn)頻次信息;隨后,計(jì)算裝置根據(jù)多個(gè)切詞片段分別在每個(gè)網(wǎng)頁中的出現(xiàn)頻次信息,通過TF-1DF算法抽取每個(gè)網(wǎng)頁的特征向量詞,并通過向量空間模型技術(shù)使用特征向量矩陣來表示每一個(gè)網(wǎng)頁,隨后將待分類詞條與該等特征向量矩陣通過例如余弦相關(guān)度或空間距離法等算法進(jìn)行計(jì)算,來獲取待分類詞條與該等網(wǎng)頁的相似度信息。
      [0031]其中,所述TF-1DF算法是信息檢索和數(shù)據(jù)挖掘中使用的一種加權(quán)統(tǒng)計(jì)算法,用以評估一詞條對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度;TF-1DF的計(jì)算方式如下式所示:
      [0032]
      【權(quán)利要求】
      1.一種用于對待分類詞條進(jìn)行分類的方法,該方法包括以下步驟: a將待分類詞條與多個(gè)網(wǎng)頁分別進(jìn)行相似度計(jì)算,以獲取所述待分類詞條分別與所述多個(gè)網(wǎng)頁的相似度信息; b將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁確定為提取網(wǎng)頁;c根據(jù)所述提取網(wǎng)頁包括的多個(gè)已分類詞條分別所屬的分類信息的出現(xiàn)頻次,來由所述多個(gè)已分類詞條分別所屬的分類信息中選擇至少一個(gè)分類信息作為所述待分類詞條的分類信息。
      2.根據(jù)權(quán)利要求1所述的方法,其中,該方法還包括: d根據(jù)所述提取網(wǎng)頁中包括的未分類詞條的出現(xiàn)頻次,來由所述未分類詞條中確定一個(gè)未分類詞條作為待分類詞條; 重復(fù)執(zhí)行步驟a、b、c、d,直至滿足預(yù)定的停止條件。
      3.根據(jù)權(quán)利要求2所述的方法,其中,該方法還包括: w在首次重復(fù)執(zhí)行步驟a、b、C、d前,確定待分類詞條。
      4.根據(jù)權(quán)利要求3所述的方法,其中,所述步驟w包括: -將已分類詞條與所述多個(gè)網(wǎng)頁分別進(jìn)行相似度計(jì)算,以獲取所述已分類詞條分別與所述多個(gè)網(wǎng)頁的相似度信息; -將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁確定為待分類詞條提取網(wǎng)頁; -根據(jù)所述提取網(wǎng)頁包括的多個(gè)未分類詞條的出現(xiàn)頻次,來由所述未分類詞條中確定一個(gè)未分類詞條作為待分類詞條。
      5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其中,所述步驟a包括: -對所述多個(gè)網(wǎng)頁分別進(jìn)行切詞處理,來獲取各個(gè)網(wǎng)頁分別包括的多個(gè)切詞片段; -確定所述多個(gè)切詞片段分別在每個(gè)網(wǎng)頁中的出現(xiàn)頻次信息; -根據(jù)所述出現(xiàn)頻次信息,來計(jì)算所述待分類詞條分別與所述多個(gè)網(wǎng)頁中各個(gè)網(wǎng)頁的相似度。
      6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其中,該方法還包括: -根據(jù)已確定至少一個(gè)分類信息的詞條,更新其所對應(yīng)的至少一個(gè)分類詞表。
      7.一種用于對待分類詞條進(jìn)行分類的分類裝置,該分類裝置包括: 第一相似度獲取裝置,用于將待分類詞條與多個(gè)網(wǎng)頁分別進(jìn)行相似度計(jì)算,以獲取所述待分類詞條分別與所述多個(gè)網(wǎng)頁的相似度信息; 第一網(wǎng)頁確定裝置,用于將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁確定為提取網(wǎng)頁; 分類選擇裝置,用于根據(jù)所述提取網(wǎng)頁包括的多個(gè)已分類詞條分別所屬的分類信息的出現(xiàn)頻次,來由所述多個(gè)已分類詞條分別所屬的分類信息中選擇至少一個(gè)分類信息作為所述待分類詞條的分類信息。
      8.根據(jù)權(quán)利要求7所述的分類裝置,其中,該分類裝置還包括: 第一詞條確定裝置,用于根據(jù)所述提取網(wǎng)頁中包括的未分類詞條的出現(xiàn)頻次,來由所述未分類詞條中確定一個(gè)未分類詞條作為待分類詞條; 控制裝置,用于在滿足預(yù)定的停止條件時(shí),結(jié)束確定所述待分類詞條。
      9.根據(jù)權(quán)利要求8所述的分類裝置,其中,該分類裝置還包括: 第二詞條確定裝置,用于在第一相似度獲取裝置首次獲取相似度信息前,確定待分類詞條。
      10.根據(jù)權(quán)利要求9所述的分類裝置,其中,所述第二詞條確定裝置包括: 第二相似度獲取裝置,用于將已分類詞條與所述多個(gè)網(wǎng)頁分別進(jìn)行相似度計(jì)算,以獲取所述已分類詞條分別與所述多個(gè)網(wǎng)頁的相似度信息; 第二網(wǎng)頁確定裝置,用于將所述相似度信息大于預(yù)定相似度閾值的至少一個(gè)網(wǎng)頁確定為待分類詞條提取網(wǎng)頁; 第三詞條確定裝置,用于根據(jù)所述提取網(wǎng)頁包括的多個(gè)未分類詞條的出現(xiàn)頻次,來由所述未分類詞條中確定一個(gè)未分類詞條作為待分類詞條。
      11.根據(jù)權(quán)利要求7至10任一項(xiàng)所述的分類裝置,其中,所述第一相似度獲取裝置包括: 切詞裝置,用于對所述多個(gè)網(wǎng)頁分別進(jìn)行切詞處理,來獲取各個(gè)網(wǎng)頁分別包括的多個(gè)切詞片段; 頻次確定裝置,用于確定所述多個(gè)切詞片段分別在每個(gè)網(wǎng)頁中的出現(xiàn)頻次信息; 計(jì)算裝置,用于根據(jù)所述出現(xiàn)頻次信息,來計(jì)算所述待分類詞條分別與所述多個(gè)網(wǎng)頁中各個(gè)網(wǎng)頁的相似度。
      12.根據(jù)權(quán)利要求7至11任一項(xiàng)所述的分類裝置,其中,該分類裝置還包括: 更新裝置,用于根據(jù)已確定至少一個(gè)分類信息的詞條,更新其所對應(yīng)的至少一個(gè)分類詞表。
      13.一種網(wǎng)絡(luò)設(shè)備,包括如權(quán)利要求7至12中至少一項(xiàng)所述的分類裝置。
      【文檔編號】G06F17/30GK103984685SQ201310049244
      【公開日】2014年8月13日 申請日期:2013年2月7日 優(yōu)先權(quán)日:2013年2月7日
      【發(fā)明者】何明哲 申請人:百度國際科技(深圳)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1