国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      建立語(yǔ)句編輯模型的方法、語(yǔ)句自動(dòng)編輯方法及對(duì)應(yīng)裝置的制造方法

      文檔序號(hào):10612880閱讀:248來源:國(guó)知局
      建立語(yǔ)句編輯模型的方法、語(yǔ)句自動(dòng)編輯方法及對(duì)應(yīng)裝置的制造方法
      【專利摘要】本發(fā)明提供了一種建立語(yǔ)句編輯模型的方法、語(yǔ)句自動(dòng)編輯方法及對(duì)應(yīng)裝置,具體包括:從搜索日志中獲取搜索關(guān)鍵詞query以及query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的標(biāo)題,構(gòu)成query?title對(duì);將各query?title對(duì)中的title作為待編輯語(yǔ)句,query作為對(duì)應(yīng)的編輯后語(yǔ)句,構(gòu)成訓(xùn)練語(yǔ)料;利用所述訓(xùn)練語(yǔ)料訓(xùn)練翻譯模型和第一語(yǔ)言模型,得到包含所述翻譯模型和第一語(yǔ)言模型的語(yǔ)句編輯模型。獲取到待編輯語(yǔ)句后,將所述待編輯語(yǔ)句輸入語(yǔ)句編輯模型,得到各候選編輯語(yǔ)句的編輯得分;選取編輯得分滿足預(yù)設(shè)要求的候選編輯語(yǔ)句作為編輯后的語(yǔ)句。本發(fā)明能夠?qū)崿F(xiàn)語(yǔ)句的自動(dòng)編輯,提高可讀性,降低人力成本。
      【專利說明】建立語(yǔ)句編輯模型的方法、語(yǔ)句自動(dòng)編輯方法及對(duì)應(yīng)裝置 【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,特別涉及一種建立語(yǔ)句編輯模型的方法、語(yǔ)句自 動(dòng)編輯方法及對(duì)應(yīng)裝置。 【【背景技術(shù)】】
      [0002] 隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,人們通過網(wǎng)絡(luò)能夠獲得多種多樣的信息,各服務(wù)商除 了向用戶提供數(shù)量繁多的信息之外,對(duì)信息的質(zhì)量要求也越來越高。同樣一句話,采用不同 的詞語(yǔ)和表達(dá)方式會(huì)給用戶帶來不同的體驗(yàn)。
      [0003] 在很多場(chǎng)景下,一些信息是自動(dòng)生成的。例如在一些網(wǎng)站或者網(wǎng)絡(luò)服務(wù)中,對(duì)于諸 如人物、動(dòng)物、地點(diǎn)、影視等實(shí)體詞的簡(jiǎn)介,是通過從網(wǎng)絡(luò)上抓取并從中提取主要信息后自 動(dòng)形成的語(yǔ)句。但這種自動(dòng)形成的語(yǔ)句往往可讀性較差,給用戶帶來很差的閱讀體驗(yàn),更談 不上達(dá)到"信、達(dá)、雅"的要求。如果對(duì)于這些語(yǔ)句都由人工參與進(jìn)行編輯,那么人力成本太 尚。 【
      【發(fā)明內(nèi)容】

      [0004] 有鑒于此,本發(fā)明提供了一種建立語(yǔ)句編輯模型的方法、語(yǔ)句自動(dòng)編輯方法及對(duì) 應(yīng)裝置,以便于實(shí)現(xiàn)語(yǔ)句的自動(dòng)編輯,提高可讀性,降低人力成本。
      [0005] 具體技術(shù)方案如下:
      [0006] 本發(fā)明提供了一種建立語(yǔ)句編輯模型的方法,該方法包括:
      [0007 ]從搜索日志中獲取搜索關(guān)鍵詞query以及query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的標(biāo)題,構(gòu) 成query-title對(duì);
      [0008]將各query-title對(duì)中的title作為待編輯語(yǔ)句,query作為對(duì)應(yīng)的編輯后語(yǔ)句,構(gòu) 成訓(xùn)練語(yǔ)料;
      [0009]利用所述訓(xùn)練語(yǔ)料訓(xùn)練翻譯模型和第一語(yǔ)言模型,得到包含所述翻譯模型和第一 語(yǔ)言模型的語(yǔ)句編輯模型。
      [00? 0]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述從搜索日志中獲取搜索關(guān)鍵詞query以及query 對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的標(biāo)題,構(gòu)成query-t i 11 e對(duì)包括:
      [0011]從搜索日志中獲取query;
      [0012]利用預(yù)先訓(xùn)練得到的分類器對(duì)所述query進(jìn)行分類,得到屬于優(yōu)選表達(dá)類別的 query;
      [0013]從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的tit le,構(gòu) 成query-t i 11 一對(duì)。
      [0014] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述分類器的訓(xùn)練包括:
      [0015] 從百科網(wǎng)頁(yè)中獲取詞條對(duì)應(yīng)的優(yōu)選表達(dá)語(yǔ)句,或者利用優(yōu)選表達(dá)語(yǔ)句模板從網(wǎng)頁(yè) 上獲取優(yōu)選表達(dá)語(yǔ)句;
      [0016] 利用獲取的優(yōu)選表達(dá)語(yǔ)句作為正樣本訓(xùn)練所述分類器。
      [0017]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng) 的被點(diǎn)擊搜索結(jié)果的t i 11 e,構(gòu)成query-t i 11 e對(duì)包括:
      [0018]從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的t i 11 e;
      [0019] 將獲取的title拆分為一個(gè)以上的子title;
      [0020] 利用query及其對(duì)應(yīng)的子title,分別構(gòu)成query-title對(duì)。
      [0021 ]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,該方法還包括:在訓(xùn)練語(yǔ)句編輯模型之前,對(duì)所述訓(xùn) 練語(yǔ)料進(jìn)行以下過濾處理中的至少一種:
      [0022] 若query-title對(duì)中query和title沒有任何詞語(yǔ)重疊,貝lj過濾掉該query-title 對(duì);
      [0023] 若query-title對(duì)中query和title完全相同,貝lj過濾掉該query-title對(duì);
      [0024] 若query-title對(duì)中query的長(zhǎng)度不滿足預(yù)設(shè)長(zhǎng)度要求,貝lj過濾掉該query-title 對(duì);
      [0025]若query-title對(duì)中長(zhǎng)度較短者與長(zhǎng)度較長(zhǎng)者之間的長(zhǎng)度比例小于預(yù)設(shè)的比例閾 值,貝過濾掉該query-title對(duì)。
      [0026] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,利用所述訓(xùn)練語(yǔ)料訓(xùn)練翻譯模型包括:
      [0027] 利用訓(xùn)練語(yǔ)料中的待編輯語(yǔ)句及其對(duì)應(yīng)的編輯后語(yǔ)句,訓(xùn)練翻譯模型,所述翻譯 模型用于計(jì)算各待編輯語(yǔ)句對(duì)應(yīng)的編輯后語(yǔ)句的翻譯得分。
      [0028] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,利用所述訓(xùn)練語(yǔ)料訓(xùn)練第一語(yǔ)言模型包括:
      [0029] 利用訓(xùn)練語(yǔ)料中的編輯后語(yǔ)句,訓(xùn)練第一語(yǔ)言模型,所述第一語(yǔ)言模型用于計(jì)算η 元詞組之間的搭配得分,所述η為預(yù)設(shè)的正整數(shù)。
      [0030] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述語(yǔ)句編輯模型還包括長(zhǎng)度模型,所述長(zhǎng)度模型 用于計(jì)算不同長(zhǎng)度的語(yǔ)句的長(zhǎng)度得分。
      [0031] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述語(yǔ)句編輯模型還包括第二語(yǔ)言模型;
      [0032] 該方法還包括:利用新聞標(biāo)題作為訓(xùn)練語(yǔ)料,訓(xùn)練第二語(yǔ)言模型,所述第二語(yǔ)言模 型用于計(jì)算m元詞組之間的搭配得分,所述m為預(yù)設(shè)的正整數(shù)。
      [0033] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述語(yǔ)句編輯模型還包括句法結(jié)構(gòu)模型;
      [0034] 該方法還包括:將人工編輯的語(yǔ)句作為訓(xùn)練樣本,訓(xùn)練句法結(jié)構(gòu)模型,所述句法結(jié) 構(gòu)模型用于計(jì)算各語(yǔ)句與人工編輯的語(yǔ)句在句法結(jié)構(gòu)上的相似度評(píng)分。
      [0035] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述語(yǔ)句編輯模型為其所包含各模型進(jìn)行加權(quán)融合 后得到的模型。
      [0036] 本發(fā)明還提供了一種語(yǔ)句自動(dòng)編輯方法,該方法包括:
      [0037]獲取待編輯語(yǔ)句;
      [0038]將所述待編輯語(yǔ)句輸入語(yǔ)句編輯模型,得到各候選編輯語(yǔ)句的編輯得分;
      [0039]選取編輯得分滿足預(yù)設(shè)要求的候選編輯語(yǔ)句作為編輯后的語(yǔ)句;
      [0040] 其中所述語(yǔ)句編輯模型利用上述建立語(yǔ)句編輯模型的方法建立。
      [0041] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述待編輯語(yǔ)句為針對(duì)實(shí)體詞的描述語(yǔ)句;
      [0042]所述編輯后的語(yǔ)句為:所述實(shí)體詞作為搜索結(jié)果頁(yè)中query對(duì)應(yīng)的推薦實(shí)體詞的 推薦理由。
      [0043]本發(fā)明還提供了一種建立語(yǔ)句編輯模型的裝置,該裝置包括:
      [0044]語(yǔ)料獲取單元,用于從搜索日志中獲取搜索關(guān)鍵詞query以及query對(duì)應(yīng)的被點(diǎn)擊 搜索結(jié)果的標(biāo)題,構(gòu)成query-title對(duì);將各query-title對(duì)中的title作為待編輯語(yǔ)句, query作為對(duì)應(yīng)的編輯后語(yǔ)句,構(gòu)成訓(xùn)練語(yǔ)料;
      [0045] 模型訓(xùn)練單元,用于利用所述訓(xùn)練語(yǔ)料訓(xùn)練翻譯模型和第一語(yǔ)言模型,得到包含 所述翻譯模型和第一語(yǔ)言模型的語(yǔ)句編輯模型。
      [0046] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述語(yǔ)料獲取單元包括:
      [0047]第一獲取子單元,用于從搜索日志中獲取query;
      [0048] 分類子單元,用于利用預(yù)先訓(xùn)練得到的分類器對(duì)所述query進(jìn)行分類,得到屬于優(yōu) 選表達(dá)類別的query;
      [0049] 第二獲取子單元,用于從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn) 擊搜索結(jié)果的title,構(gòu)成query-title對(duì)。
      [0050] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述語(yǔ)料獲取單元還包括:
      [0051] 訓(xùn)練子單元,用于從百科網(wǎng)頁(yè)中獲取詞條對(duì)應(yīng)的優(yōu)選表達(dá)語(yǔ)句,或者利用優(yōu)選表 達(dá)語(yǔ)句模板從網(wǎng)頁(yè)上獲取優(yōu)選表達(dá)語(yǔ)句;利用獲取的優(yōu)選表達(dá)語(yǔ)句作為正樣本訓(xùn)練所述分 類器。
      [0052]根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述第二獲取子單元,具體執(zhí)行:
      [0053 ]從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的t i 11 e;
      [0054] 將獲取的title拆分為一個(gè)以上的子title;
      [0055] 利用query及其對(duì)應(yīng)的子title,分別構(gòu)成query-title對(duì)。
      [0056] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,該裝置還包括:
      [0057] 過濾處理單元,用于對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行以下過濾處理中的至少一種:
      [0058] 若query-title對(duì)中query和title沒有任何詞語(yǔ)重疊,貝IJ過濾掉該query-title 對(duì);
      [0059] 若query-title對(duì)中query和title完全相同,貝lj過濾掉該query-title對(duì);
      [0000] 若query-title對(duì)中query的長(zhǎng)度不滿足預(yù)設(shè)長(zhǎng)度要求,貝lj過濾掉該query-title 對(duì);
      [0061] 若query-title對(duì)中長(zhǎng)度較短者與長(zhǎng)度較長(zhǎng)者之間的長(zhǎng)度比例小于預(yù)設(shè)的比例閾 值,貝過濾掉該query-title對(duì)。
      [0062] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述模型訓(xùn)練單元包括:
      [0063] 翻譯模型訓(xùn)練子單元,用于利用訓(xùn)練語(yǔ)料中的待編輯語(yǔ)句及其對(duì)應(yīng)的編輯后語(yǔ) 句,訓(xùn)練翻譯模型,所述翻譯模型用于計(jì)算各待編輯語(yǔ)句對(duì)應(yīng)的編輯后語(yǔ)句的翻譯得分。
      [0064] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述模型訓(xùn)練單元包括:
      [0065] 第一語(yǔ)言模型訓(xùn)練子單元,用于利用訓(xùn)練語(yǔ)料中的編輯后語(yǔ)句,訓(xùn)練第一語(yǔ)言模 型,所述第一語(yǔ)言模型用于計(jì)算η元詞組之間的搭配得分,所述η為預(yù)設(shè)的正整數(shù)。
      [0066] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述語(yǔ)句編輯模型還包括長(zhǎng)度模型,所述長(zhǎng)度模型 用于計(jì)算不同長(zhǎng)度的語(yǔ)句的長(zhǎng)度得分。
      [0067] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述語(yǔ)句編輯模型還包括第二語(yǔ)言模型;
      [0068]所述模型訓(xùn)練單元包括:
      [0069]第二語(yǔ)言模型訓(xùn)練子單元,用于利用新聞標(biāo)題作為訓(xùn)練語(yǔ)料,訓(xùn)練第二語(yǔ)言模型, 所述第二語(yǔ)言模型用于計(jì)算m元詞組之間的搭配得分,所述m為預(yù)設(shè)的正整數(shù)。
      [0070] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述語(yǔ)句編輯模型還包括句法結(jié)構(gòu)模型;
      [0071] 所述模型訓(xùn)練單元包括:
      [0072] 句法模型訓(xùn)練子單元,用于將人工編輯的語(yǔ)句作為訓(xùn)練樣本,訓(xùn)練句法結(jié)構(gòu)模型, 所述句法結(jié)構(gòu)模型用于計(jì)算各語(yǔ)句與人工編輯的語(yǔ)句在句法結(jié)構(gòu)上的相似度評(píng)分。
      [0073] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述模型訓(xùn)練單元包括:
      [0074] 模型融合子單元,用于將語(yǔ)句編輯模型所包含的各模型進(jìn)行加權(quán)融合,得到語(yǔ)句 編輯模型。
      [0075] 本發(fā)明還提供了一種語(yǔ)句自動(dòng)編輯裝置,該裝置包括:
      [0076] 輸入獲取單元,用于獲取待編輯語(yǔ)句;
      [0077] 得分獲取單元,用于將所述待編輯語(yǔ)句輸入語(yǔ)句編輯模型,得到各候選編輯語(yǔ)句 的編輯得分;
      [0078] 語(yǔ)句輸出單元,用于選取編輯得分滿足預(yù)設(shè)要求的候選編輯語(yǔ)句作為編輯后的語(yǔ) 句;
      [0079] 其中所述語(yǔ)句編輯模型利用上述建立語(yǔ)句編輯模型的裝置建立。
      [0080] 根據(jù)本發(fā)明一優(yōu)選實(shí)施方式,所述待編輯語(yǔ)句為針對(duì)實(shí)體詞的描述語(yǔ)句;
      [0081] 將所述編輯后的語(yǔ)句為:所述實(shí)體詞作為搜索結(jié)果頁(yè)中query對(duì)應(yīng)的推薦實(shí)體詞 的推薦理由。
      [0082]由以上技術(shù)方案可以看出,本發(fā)明能夠從搜索日志獲取由query以及query對(duì)應(yīng)的 被點(diǎn)擊搜索結(jié)果的標(biāo)題構(gòu)成的query-title對(duì),并將其中的title作為待編輯語(yǔ)句,可讀性 較高的query作為對(duì)應(yīng)的編輯后語(yǔ)句進(jìn)行語(yǔ)句編輯模型的訓(xùn)練,并基于該語(yǔ)句編輯模型進(jìn) 行語(yǔ)句的自動(dòng)編輯,提高可讀性,降低人力成本。 【【附圖說明】】
      [0083] 圖1為本發(fā)明實(shí)施例提供的主要方法流程圖;
      [0084] 圖2為本發(fā)明實(shí)施例提供的獲得訓(xùn)練語(yǔ)料的方法流程圖;
      [0085] 圖3為本發(fā)明實(shí)施例提供的建立語(yǔ)句編輯模型的裝置;
      [0086] 圖4為本發(fā)明實(shí)施例提供的一種語(yǔ)句自動(dòng)編輯裝置;
      [0087] 圖5為本發(fā)明實(shí)施例提供的一個(gè)應(yīng)用場(chǎng)景的實(shí)例圖。 【【具體實(shí)施方式】】
      [0088] 為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì) 本發(fā)明進(jìn)行詳細(xì)描述。
      [0089] 在本發(fā)明實(shí)施例中使用的術(shù)語(yǔ)是僅僅出于描述特定實(shí)施例的目的,而非旨在限制 本發(fā)明。在本發(fā)明實(shí)施例和所附權(quán)利要求書中所使用的單數(shù)形式的"一種"、"所述"和"該" 也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。
      [0090] 應(yīng)當(dāng)理解,本文中使用的術(shù)語(yǔ)"和/或"僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示 可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種 情況。另外,本文中字符7",一般表示前后關(guān)聯(lián)對(duì)象是一種"或"的關(guān)系。
      [0091] 取決于語(yǔ)境,如在此所使用的詞語(yǔ)"如果"可以被解釋成為"在……時(shí)"或"當(dāng)…… 時(shí)"或"響應(yīng)于確定"或"響應(yīng)于檢測(cè)"。類似地,取決于語(yǔ)境,短語(yǔ)"如果確定"或"如果檢測(cè) (陳述的條件或事件)"可以被解釋成為"當(dāng)確定時(shí)"或"響應(yīng)于確定"或"當(dāng)檢測(cè)(陳述的條件 或事件)時(shí)"或"響應(yīng)于檢測(cè)(陳述的條件或事件)"。
      [0092] 圖1為本發(fā)明實(shí)施例提供的主要方法流程圖,在本實(shí)施例中主要包括兩個(gè)階段:第 一個(gè)階段是模型建立階段,第二個(gè)階段為語(yǔ)句編輯階段。本發(fā)明通過建立一個(gè)語(yǔ)句編輯模 型來實(shí)現(xiàn)語(yǔ)句的自動(dòng)編輯,如圖1中所示,該方法可以主要包括以下步驟:
      [0093]在101中,從搜索日志中獲取query (搜索關(guān)鍵詞)以及query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié) 果的title(標(biāo)題),構(gòu)成query-title對(duì)。
      [0094]為了訓(xùn)練語(yǔ)句編輯模型,需要一個(gè)大規(guī)模的單語(yǔ)平行語(yǔ)料。所謂平行語(yǔ)料指的是 由兩個(gè)平行對(duì)應(yīng)的語(yǔ)句構(gòu)成的語(yǔ)料,這兩個(gè)語(yǔ)句表達(dá)相同含義,可能采用不同的詞匯或表 達(dá)方式。平行語(yǔ)料可以包括雙語(yǔ)/多語(yǔ)平行語(yǔ)料、單語(yǔ)平行語(yǔ)料。其中,雙語(yǔ)/多語(yǔ)平行語(yǔ)料 多用于不同語(yǔ)言的翻譯,由于本發(fā)明涉及的是同一語(yǔ)言下的語(yǔ)句編輯,因此采用的是單語(yǔ) 平行語(yǔ)料,即語(yǔ)料中兩個(gè)語(yǔ)句是相同的語(yǔ)言。
      [0095]經(jīng)過觀察和研究論證后發(fā)現(xiàn),用戶在搜索引擎進(jìn)行搜索時(shí),往往會(huì)采用較為精簡(jiǎn)、 清楚的query,并且該query是通常是用戶手工輸入的,更接近于人的實(shí)際表達(dá),可讀性往往 很高。當(dāng)用戶獲取到與該query對(duì)應(yīng)的搜索結(jié)果頁(yè)后,點(diǎn)擊的搜索結(jié)果通常是與該query非 常相關(guān)的搜索結(jié)果,該搜索結(jié)果的標(biāo)題所表述的含義可以認(rèn)為與該query非常接近,但并沒 有query簡(jiǎn)明,因此可以將query看做該被點(diǎn)擊搜索結(jié)果的簡(jiǎn)明描述,即可讀性更高的描述。 因此,query-title對(duì)構(gòu)成的語(yǔ)料是很好的單語(yǔ)平行語(yǔ)料源?;谏鲜隼碛桑诒景l(fā)明實(shí)施 例中可以將從搜索引擎的點(diǎn)擊數(shù)據(jù)中獲取的query-t i 11 e對(duì)來生成訓(xùn)練語(yǔ)料。
      [0096]在本發(fā)明實(shí)施例中提供一種本步驟的優(yōu)選實(shí)現(xiàn)方式,如圖2所示,獲得query-title對(duì)可以包括以下步驟:
      [0097]在201中,從搜索日志中獲取query。
      [0098]在202中,利用預(yù)先訓(xùn)練得到的分類器對(duì)201獲取的query進(jìn)行分類,得到屬于優(yōu)選 表達(dá)類別的query。
      [00"]由于query的數(shù)量巨大,且質(zhì)量參差不齊,需要從這些query中進(jìn)行篩選。在篩選時(shí) 可以采用分類器,即預(yù)先訓(xùn)練一個(gè)分類器,該分類器能夠?qū)uery至少分成兩類:優(yōu)選表達(dá) 類別和非優(yōu)選表達(dá)類別。將從搜索日志中獲取的query送入該分類器進(jìn)行分類,然后獲取屬 于優(yōu)選表達(dá)類別的query。
      [0100]對(duì)于分類器的訓(xùn)練,可以預(yù)先選擇一些優(yōu)選表達(dá)的語(yǔ)句作為訓(xùn)練語(yǔ)料來訓(xùn)練。在 選擇訓(xùn)練語(yǔ)料時(shí),可以從百科網(wǎng)頁(yè)中獲取詞條對(duì)應(yīng)的優(yōu)選表達(dá)語(yǔ)句,或者利用優(yōu)選表達(dá)語(yǔ) 句模板從網(wǎng)頁(yè)上獲取與模板匹配的優(yōu)選表達(dá)語(yǔ)句,所述優(yōu)選表達(dá)語(yǔ)句模板可以采用例如: 【實(shí)體詞】是/即/為【優(yōu)選表達(dá)語(yǔ)句】。
      [0101 ]舉個(gè)例子,語(yǔ)句:劉德華是影視歌多棲發(fā)展藝人。
      [0102] 該語(yǔ)句正好與上述模板匹配,那么就可以將"影視歌多棲發(fā)展藝人"作為優(yōu)選表達(dá) 語(yǔ)句提取出來。
      [0103] 在203中,從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的 title,構(gòu)成query-title對(duì)。
      [0104] 在本步驟中,可以直接將query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的title構(gòu)成query-title 對(duì)。但由于模型訓(xùn)練采用的訓(xùn)練樣本越多,訓(xùn)練得到的模型越準(zhǔn)確,因此為了提高語(yǔ)句編輯 模型的準(zhǔn)確性,可以在本步驟中進(jìn)行擴(kuò)展。在從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query 對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的title后,可以將獲取的title拆分成一個(gè)以上的子title,例如基 于標(biāo)點(diǎn)進(jìn)行拆分,利用query及其對(duì)應(yīng)的各子t i 11 e,分別構(gòu)成query-t i 11 e對(duì)。
      [0105] 繼續(xù)參見圖1。
      [0106] 在102中,將各query-title對(duì)中的title作為待編輯語(yǔ)句,query作為對(duì)應(yīng)的編輯 后語(yǔ)句構(gòu)成訓(xùn)練語(yǔ)料。
      [0107] 在執(zhí)行本步驟之前,還可以進(jìn)一步對(duì)得到的query-title對(duì)進(jìn)行過濾,采用的過濾 原則可以包括但不限于以下幾種:
      [0108] 第一種過濾:若title和query沒有任何詞語(yǔ)重疊,則過濾掉該query-title對(duì)。 [0109] 第二種過濾:若title和query完全相同,貝lj過濾掉該query-title對(duì)。
      [0110] 第三種過濾:query的長(zhǎng)度不滿足預(yù)設(shè)要求,則過濾掉該query-title對(duì)。這種過濾 的目的是對(duì)編輯后語(yǔ)句的長(zhǎng)度進(jìn)行限制,使其在一定長(zhǎng)度范圍內(nèi),例如如果query的長(zhǎng)度大 于10個(gè)字符或者小于6個(gè)字符,則過濾掉該query-title對(duì)。
      [0111]第四種過濾:若query和title中長(zhǎng)度較短者與長(zhǎng)度較長(zhǎng)者之間的長(zhǎng)度比例小于預(yù) 設(shè)的比例閾值,例如小于!,則過濾掉該query-title對(duì)。 .3
      [0112] 在103中,利用訓(xùn)練語(yǔ)料訓(xùn)練翻譯模型和第一語(yǔ)言模型,得到包含翻譯模型和語(yǔ)言 模型的語(yǔ)句編輯模型。
      [0113] 本發(fā)明所建立的語(yǔ)句編輯模型可以包括翻譯模型和語(yǔ)言模型,還可以進(jìn)一步包括 長(zhǎng)度模型和吸引力模型,其中翻譯模型用于對(duì)待編輯語(yǔ)句進(jìn)行同義改寫,提高語(yǔ)句的精確 性,語(yǔ)言模型用于提高語(yǔ)句的流暢性,長(zhǎng)度模型用于提高語(yǔ)句的精簡(jiǎn)度,吸引力模型是用于 使語(yǔ)句表達(dá)更加生動(dòng)、有趣,即對(duì)用戶而言更有吸引力。吸引力模型可以具體包括兩個(gè)模 型:語(yǔ)言模型和句法結(jié)構(gòu)模型。上述的兩個(gè)語(yǔ)言模型所采用的訓(xùn)練語(yǔ)料并不相同,因此產(chǎn)生 的效果也不相同,為了對(duì)兩個(gè)語(yǔ)言模型進(jìn)行區(qū)分,將這兩個(gè)語(yǔ)言模型分別稱為第一語(yǔ)言模 型和第二語(yǔ)言模型。下面對(duì)語(yǔ)句編輯模型包含的上述模型進(jìn)行詳細(xì)描述:
      [0114] 1)翻譯模型。
      [0115] 翻譯模型有很多種,本發(fā)明實(shí)施例中優(yōu)選統(tǒng)計(jì)翻譯模型(SMT),SMT是目前非限定 領(lǐng)域翻譯模型中性能較佳的一種。統(tǒng)計(jì)翻譯的基本思想是通過對(duì)大量的平行語(yǔ)料進(jìn)行統(tǒng)計(jì) 分析,構(gòu)建統(tǒng)計(jì)翻譯模型,進(jìn)而使用此模型進(jìn)行翻譯。
      [0116] 本發(fā)明中涉及的是單語(yǔ)的翻譯,即輸入語(yǔ)言和目標(biāo)語(yǔ)言是同一種語(yǔ)言。那么采用 的平行語(yǔ)料也是單語(yǔ)平行語(yǔ)料,在本發(fā)明實(shí)施例中可以利用訓(xùn)練語(yǔ)料中的待編輯語(yǔ)句及其 對(duì)應(yīng)的編輯后語(yǔ)句(即title-query對(duì)),訓(xùn)練翻譯模型,訓(xùn)練得到的翻譯模型包括各待編輯 語(yǔ)句對(duì)應(yīng)的編輯后語(yǔ)句的翻譯得分。
      [0117] 翻譯模型的工作原理是:輸入的句子s(對(duì)應(yīng)于待編輯的語(yǔ)句)被分割成各片段構(gòu) 成的序列艾,然后各片段分別被翻譯后構(gòu)成序列2。將Gij )作為一組翻譯單元,利用函 數(shù)~仏舊;)計(jì)算該翻譯單元的翻譯似然值,然后按照下面的公式得到dPe之間的翻譯得分 PtmU,e[).
      [0118]
      Cl)
      [0119] 其中,i是之中的第i個(gè)片段,&是石對(duì)應(yīng)的翻譯片段,1是語(yǔ)句s被分割得到的片段 數(shù)量,Xtm是翻譯模型的權(quán)重參數(shù)。
      [0120] 2)第一語(yǔ)言模型。
      [0121] 語(yǔ)言模型描述給定詞序列在語(yǔ)言中出現(xiàn)的概率分布,主要用于計(jì)算一個(gè)給定語(yǔ)句 片段成為流暢、通順句子的概率。通??梢泽w現(xiàn)為η元詞組之間的搭配得分,所述η為預(yù)設(shè)的 正整數(shù)。η元詞組即n-gram,指的是η個(gè)詞語(yǔ)按順序組合成的詞組。在本發(fā)明實(shí)施例中,可以 利用訓(xùn)練語(yǔ)料中的編輯后語(yǔ)句,訓(xùn)練第一語(yǔ)言模型,在本發(fā)明實(shí)施例中η優(yōu)選3,即構(gòu)建三元 語(yǔ)言模型,對(duì)于編輯后的語(yǔ)句e的打分得到的搭配得分Pi m(e)可以采用如下公式:
      [0122]
      Γ2)
      [0123] 其中,J為e中的詞語(yǔ)數(shù)量,是e的第j個(gè)詞語(yǔ),λ1η是第一語(yǔ)言模型的權(quán)重參數(shù)。
      [0124] 3)長(zhǎng)度模型。
      [0125] 設(shè)置長(zhǎng)度模型,是為了使得編輯后的語(yǔ)句能夠盡可能在一定長(zhǎng)度范圍內(nèi),從而盡 量精簡(jiǎn)。長(zhǎng)度模型包括不同長(zhǎng)度的語(yǔ)句的長(zhǎng)度得分,在本發(fā)明實(shí)施例中,可以采用長(zhǎng)度懲罰 機(jī)制來實(shí)現(xiàn)長(zhǎng)度模型。長(zhǎng)度模型對(duì)編輯后的語(yǔ)句e進(jìn)行打分得到的長(zhǎng)度得分可以采用如下 公式:
      [0126] (3)
      [0127] 其中,N為e中的字符數(shù)量,Lth為預(yù)設(shè)的長(zhǎng)度閾值,例如選擇10,將編輯后的語(yǔ)句盡 可能控制在10個(gè)中文字符之內(nèi)。
      [0128] 4)第二語(yǔ)言模型。
      [0129] 這里的第二語(yǔ)言模型與第一語(yǔ)言模型的機(jī)制是相同的,都是為了體現(xiàn)語(yǔ)句的搭配 得分,即第二語(yǔ)言模型包括m元詞組之間的搭配得分,m為預(yù)設(shè)的正整數(shù)。不同的是兩者的目 的不同,采用的訓(xùn)練語(yǔ)料不同。第二語(yǔ)言模型也可以計(jì)算一個(gè)給定語(yǔ)句片段成為流暢、通順 的句子的概率,但更偏重于計(jì)算一個(gè)給定語(yǔ)句片段成為有吸引力的句子的概率。對(duì)于上面 的翻譯模型而言,其實(shí)現(xiàn)的是編輯的"信",即精確性,對(duì)于第一語(yǔ)言模型而言,其實(shí)現(xiàn)的是 編輯的"達(dá)",即流暢性,對(duì)于第二語(yǔ)言模型而言,其實(shí)現(xiàn)的是編輯的"雅",即表述的更加優(yōu) 雅,更美,從而能夠吸引用戶進(jìn)行閱讀。因此,在訓(xùn)練第二語(yǔ)言模型時(shí),采用的訓(xùn)練語(yǔ)料應(yīng)該 是表述比較吸引人的語(yǔ)句。經(jīng)過觀察和研究發(fā)現(xiàn),通常新聞編輯人員在編輯新聞標(biāo)題時(shí),會(huì) 盡可能做到新聞標(biāo)題非常精簡(jiǎn)有趣,從而吸引用戶進(jìn)行點(diǎn)擊和閱讀。因此,在本發(fā)明實(shí)施例 中,可以采用新聞標(biāo)題作為訓(xùn)練語(yǔ)料訓(xùn)練第二語(yǔ)言模型。其模型與第一語(yǔ)言模型類似,在本 發(fā)明實(shí)施例中η優(yōu)選3,即構(gòu)建三元語(yǔ)言模型,對(duì)于編輯后的語(yǔ)句e的打分得到的搭配得分p hl (e)可以采用如下公式:
      [0130]
      /=ι '
      [0131] 其中,L為e中的詞語(yǔ)數(shù)量,的是6的第1個(gè)詞語(yǔ),是第二語(yǔ)言模型的權(quán)重參數(shù)。
      [0132] 5)句法結(jié)構(gòu)模型。
      [0133] 句法結(jié)構(gòu)模型同樣是為了實(shí)現(xiàn)編輯的"雅",從而吸引用戶閱讀,通過句法結(jié)構(gòu)模 型能夠?qū)⒄Z(yǔ)句編輯為更符合人表達(dá)方式的句法結(jié)構(gòu)。在訓(xùn)練句法結(jié)構(gòu)模型時(shí),可以將人工 編輯的語(yǔ)句作為訓(xùn)練樣本,例如可以采用眾包的方式將一些待編輯語(yǔ)句提供給編輯者,多 個(gè)編輯者對(duì)同一個(gè)待編輯語(yǔ)句分別進(jìn)行編輯,然后再由多個(gè)編輯者分別對(duì)各編輯后的語(yǔ)句 進(jìn)行評(píng)分,將評(píng)分情況滿足要求的語(yǔ)句作為訓(xùn)練樣本。
      [0134] 最終訓(xùn)練得到的句法結(jié)構(gòu)模型主要用于計(jì)算語(yǔ)句與人工編輯的語(yǔ)句在句法結(jié)構(gòu) 上的相似度評(píng)分。在句法結(jié)構(gòu)模型中,編輯后的語(yǔ)句e與人工編輯的語(yǔ)句在句法結(jié)構(gòu)上的相 似度評(píng)分可以采用如下公式:
      [0135] …. ^
      [0136] 其中,Tx表示語(yǔ)句X的依存句法樹,ti為人工標(biāo)注的推薦理由,K( ·,·)為依存句法 樹的核函數(shù),其體現(xiàn)語(yǔ)句之間的在句法結(jié)構(gòu)上的相似度。
      [0137] 最終得到的語(yǔ)句編輯模型可以為其所包含各模型進(jìn)行加權(quán)融合后得到的模型。若 加權(quán)融合方式采用對(duì)數(shù)線性關(guān)系,則可以得到如下的語(yǔ)句編輯模型:
      [0138]
      [0139] 其中,P(e | s)為e作為語(yǔ)句s的編輯后語(yǔ)句的編輯得分,λΗ是長(zhǎng)度模型的權(quán)重參數(shù), Ass是句法結(jié)構(gòu)模型的權(quán)重參數(shù)。
      [0140] 各模型的權(quán)重參數(shù)人^人^山以^和'可以采用預(yù)設(shè)值沒預(yù)設(shè)值可以是經(jīng)驗(yàn)值、 試驗(yàn)值等,并且可以靈活調(diào)整。在確定權(quán)重參數(shù)時(shí),可以采用最小錯(cuò)誤率訓(xùn)練(MERT, Minimum Error Rate Training)的方式。
      [0141] 以上為模型建立階段的流程,是預(yù)先執(zhí)行的線下過程,也就是說,預(yù)先建立語(yǔ)句編 輯模型。當(dāng)有語(yǔ)句需要進(jìn)行編輯時(shí),可以針對(duì)待編輯語(yǔ)句執(zhí)行以下步驟。
      [0142] 在104中,獲取待編輯語(yǔ)句。
      [0143] 在105中,將待編輯語(yǔ)句輸入語(yǔ)句編輯模型,得到各候選編輯語(yǔ)句的編輯得分。
      [0144] 當(dāng)獲取到待編輯語(yǔ)句后,利用語(yǔ)句編輯模型就能夠得到各候選編輯語(yǔ)句以及各候 選編輯語(yǔ)句的編輯得分。由上述公式(6)可以看出,各候選編輯語(yǔ)句的編輯得分可以由翻譯 模型、第一語(yǔ)言模型、長(zhǎng)度模型、第二語(yǔ)言模型和句法結(jié)構(gòu)模型共同決定,綜合考慮了各候 選編輯語(yǔ)句在準(zhǔn)確度、流暢度、長(zhǎng)度、吸引程度等幾個(gè)因素,得到的綜合評(píng)分。
      [0145] 在106中,選取編輯得分滿足預(yù)設(shè)要求的候選編輯語(yǔ)句作為編輯后的語(yǔ)句。
      [0146] 在選擇編輯后的語(yǔ)句時(shí),可以依據(jù)編輯得分選擇編輯得分超過預(yù)設(shè)閾值的語(yǔ)句, 或者選擇編輯得分排在前N個(gè)的語(yǔ)句,其中N為預(yù)設(shè)的正整數(shù)。例如,選擇編輯得分最高的一 個(gè)候選編輯語(yǔ)句作為編輯后的語(yǔ)句,該編輯后的語(yǔ)句盡可能達(dá)到"信、達(dá)、雅"的要求。
      [0147] 以上是對(duì)本發(fā)明所提供方法進(jìn)行的詳細(xì)描述,下面結(jié)合實(shí)施例對(duì)本發(fā)明所提供的 裝置進(jìn)行詳細(xì)描述。
      [0148]圖3為本發(fā)明實(shí)施例提供的建立語(yǔ)句編輯模型的裝置,如圖3所示,該裝置可以包 括:語(yǔ)料獲取單元〇〇和模型訓(xùn)練單元10,還可以進(jìn)一步包括過濾處理單元20。各單元的組成 和主要功能如下:
      [0149]語(yǔ)料獲取單元00負(fù)責(zé)從搜索日志中獲取搜索關(guān)鍵詞query以及query對(duì)應(yīng)的被點(diǎn) 擊搜索結(jié)果的標(biāo)題,構(gòu)成query-title對(duì);將各query-title對(duì)中的title作為待編輯語(yǔ)句, query作為對(duì)應(yīng)的編輯后語(yǔ)句,構(gòu)成訓(xùn)練語(yǔ)料。
      [0150] 模型訓(xùn)練單元10負(fù)責(zé)利用訓(xùn)練語(yǔ)料訓(xùn)練翻譯模型和第一語(yǔ)言模型,得到包含翻譯 模型和第一語(yǔ)言模型的語(yǔ)句編輯模型。該語(yǔ)言編輯模型還可以進(jìn)一步包含長(zhǎng)度模型、第二 語(yǔ)言模型和/或句法結(jié)構(gòu)模型。
      [0151] 為了訓(xùn)練語(yǔ)句編輯模型,需要一個(gè)大規(guī)模的單語(yǔ)平行語(yǔ)料。其中,語(yǔ)料獲取單元00 可以包括:第一獲取子單元01、分類子單元02和第二獲取子單元03,還可以進(jìn)一步包括訓(xùn)練 子單元04。
      [0152]第一獲取子單元01負(fù)責(zé)從搜索日志中獲取query。
      [0153]分類子單元02負(fù)責(zé)利用預(yù)先訓(xùn)練得到的分類器對(duì)query進(jìn)行分類,得到屬于優(yōu)選 表達(dá)類別的query。對(duì)query進(jìn)行分類的目的在于搜索日志中query的質(zhì)量參差不起,需要對(duì) 作為訓(xùn)練語(yǔ)料的query進(jìn)行篩選,從中找到優(yōu)選表達(dá)的query。
      [0154]第二獲取子單元03負(fù)責(zé)從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn) 擊搜索結(jié)果的title,構(gòu)成query-title對(duì)。
      [0155] 訓(xùn)練子單元04負(fù)責(zé)從百科網(wǎng)頁(yè)中獲取詞條對(duì)應(yīng)的優(yōu)選表達(dá)語(yǔ)句,或者利用優(yōu)選表 達(dá)語(yǔ)句模板從網(wǎng)頁(yè)上獲取與模板匹配的優(yōu)選表達(dá)語(yǔ)句,所述優(yōu)選表達(dá)語(yǔ)句模板可以采用例 如:【實(shí)體詞】是/即/為【優(yōu)選表達(dá)語(yǔ)句】;利用獲取的優(yōu)選表達(dá)語(yǔ)句作為正樣本訓(xùn)練分類器。
      [0156] 由于模型訓(xùn)練采用的訓(xùn)練樣本越多,訓(xùn)練得到的模型越準(zhǔn)確,因此為了提高語(yǔ)句 編輯模型的準(zhǔn)確性,可以通過第二獲取子單元03進(jìn)行擴(kuò)展。第二獲取子單元03,具體執(zhí)行: 從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的title;將獲取的 title拆分為一個(gè)以上的子title;利用query及其對(duì)應(yīng)的子title,分別構(gòu)成query-title 對(duì)。
      [0157]另外,對(duì)于得到的query-title對(duì)可以進(jìn)行進(jìn)一步過濾,由過濾處理單元20將過濾 后的query-title對(duì)作為訓(xùn)練樣本,采用的過濾原則可以包括但不限于以下幾種:
      [0158] 第一種過濾:若title和query沒有任何詞語(yǔ)重疊,則過濾掉該query-title對(duì)。 [0159] 第二種過濾:若title和query完全相同,貝lj過濾掉該query-title對(duì)。
      [0160] 第三種過濾:query的長(zhǎng)度不滿足預(yù)設(shè)要求,貝丨】過濾掉該query-title對(duì)。這種過濾 的目的是對(duì)編輯后語(yǔ)句的長(zhǎng)度進(jìn)行限制,使其在一定長(zhǎng)度范圍內(nèi),例如如果query的長(zhǎng)度大 于10個(gè)字符或者小于6個(gè)字符,則過濾掉該query-title對(duì)。
      [0161]第四種過濾:若query和title中長(zhǎng)度較短者與長(zhǎng)度較長(zhǎng)者之間的長(zhǎng)度比例小于預(yù) 設(shè)的比例閾值,例如小于7,則過濾掉該Query-title對(duì)。 i
      [0162]上述的模型訓(xùn)練單元10可以包括:翻譯模型訓(xùn)練子單元11和第一語(yǔ)言模型訓(xùn)練子 單元12,還可以進(jìn)一步包括:第二語(yǔ)言模型訓(xùn)練子單元13、句法模型訓(xùn)練子單元14和模型融 合子單元15中的一個(gè)或多個(gè)。
      [0163] 翻譯模型訓(xùn)練子單元11負(fù)責(zé)利用訓(xùn)練語(yǔ)料中的待編輯語(yǔ)句及其對(duì)應(yīng)的編輯后語(yǔ) 句,訓(xùn)練翻譯模型,翻譯模型用于對(duì)待編輯語(yǔ)句進(jìn)行同義詞改寫,其用于計(jì)算各待編輯語(yǔ)句 對(duì)應(yīng)的編輯后語(yǔ)句的翻譯得分,翻譯得分可以采用如上述方法實(shí)施例中所述的公式(1)。
      [0164] 第一語(yǔ)言模型訓(xùn)練子單元12負(fù)責(zé)利用訓(xùn)練語(yǔ)料中的編輯后語(yǔ)句,訓(xùn)練第一語(yǔ)言模 型,第一語(yǔ)言模型用于計(jì)算η元詞組之間的搭配得分,η為預(yù)設(shè)的正整數(shù),即主要用于計(jì)算一 個(gè)給定語(yǔ)句片段成為流暢、通順句子的概率。搭配得分可以采用如上述方法實(shí)施例中所述 的公式(2)。
      [0165] 語(yǔ)句編輯模型還可以包括長(zhǎng)度模型,長(zhǎng)度模型用于計(jì)算不同長(zhǎng)度的語(yǔ)句的長(zhǎng)度得 分,長(zhǎng)度得分可以采用如上述方法實(shí)施例中所述的公式(3)。
      [0166] 第二語(yǔ)言模型訓(xùn)練子單元13負(fù)責(zé)利用新聞標(biāo)題作為訓(xùn)練語(yǔ)料,訓(xùn)練第二語(yǔ)言模 型,第二語(yǔ)言模型用于計(jì)算m元詞組之間的搭配得分,m為預(yù)設(shè)的正整數(shù),第二語(yǔ)言模型也可 以計(jì)算一個(gè)給定語(yǔ)句片段成為流暢、通順的句子的概率,但更偏重于計(jì)算一個(gè)給定語(yǔ)句片 段成為有吸引力的句子的概率。搭配得分可以采用如上述方法實(shí)施例中所述的公式(4)。
      [0167] 句法模型訓(xùn)練子單元14負(fù)責(zé)將人工編輯的語(yǔ)句作為訓(xùn)練樣本,訓(xùn)練句法結(jié)構(gòu)模 型,句法結(jié)構(gòu)模型用于計(jì)算各語(yǔ)句與人工編輯的語(yǔ)句在句法結(jié)構(gòu)上的相似度評(píng)分,相似度 評(píng)分可以采用如上述方法實(shí)施例中所述的公式(5)。
      [0168] 模型融合子單元15負(fù)責(zé)將語(yǔ)句編輯模型所包含的各模型進(jìn)行加權(quán)融合,得到語(yǔ)句 編輯模型。加權(quán)融合方式采用對(duì)數(shù)線性關(guān)系,則可以得到如公式(6)的推薦理由生成模型。
      [0169] 圖4為本發(fā)明實(shí)施例提供的一種語(yǔ)句自動(dòng)編輯裝置,該語(yǔ)句自動(dòng)編輯裝置基于上 述語(yǔ)句自動(dòng)編輯模型實(shí)現(xiàn)語(yǔ)句的自動(dòng)編輯。如圖4所示,該裝置可以包括:輸入獲取單元21、 得分獲取單元22和語(yǔ)句輸出單元23,其中各組成單元的主要功能如下:
      [0170] 輸入獲取單元21負(fù)責(zé)獲取待編輯語(yǔ)句。
      [0171]得分獲取單元22負(fù)責(zé)將待編輯語(yǔ)句輸入語(yǔ)句編輯模型,得到各候選編輯語(yǔ)句的編 輯得分。
      [0172] 語(yǔ)句輸出單元23負(fù)責(zé)選取編輯得分滿足預(yù)設(shè)要求的候選編輯語(yǔ)句作為編輯后的 語(yǔ)句。在選擇編輯后的語(yǔ)句時(shí),可以依據(jù)編輯得分選擇編輯得分超過預(yù)設(shè)閾值的語(yǔ)句,或者 選擇編輯得分排在前N個(gè)的語(yǔ)句,其中N為預(yù)設(shè)的正整數(shù)。例如,選擇編輯得分最高的一個(gè)候 選編輯語(yǔ)句作為編輯后的語(yǔ)句。
      [0173] 本發(fā)明提供的方式對(duì)領(lǐng)域和語(yǔ)言并不加以限制,因?yàn)樗捎玫母髂P秃吞卣魇桥c 語(yǔ)言不相關(guān)的。不同語(yǔ)言或不同類型的實(shí)體均適用。在本發(fā)明實(shí)施例中均以中文為例。
      [0174] 本發(fā)明實(shí)施例提供的上述方法和裝置可以應(yīng)用于多種應(yīng)用場(chǎng)景,在此舉一個(gè)上述 方法和裝置的應(yīng)用場(chǎng)景實(shí)例:
      [0175] 在過去的幾年中,網(wǎng)絡(luò)搜索引擎通過向用戶提供實(shí)體推薦極大地豐富和改進(jìn)了用 戶體驗(yàn)。當(dāng)用戶在搜索引擎輸入搜索關(guān)鍵詞時(shí),搜索引擎會(huì)向用戶提供與該搜索關(guān)鍵詞相 關(guān)的實(shí)體推薦,并在搜索結(jié)果的旁邊展示推薦的實(shí)體詞,如圖5中所示。當(dāng)用戶向搜索引擎 輸入搜索關(guān)鍵詞"奧巴馬"時(shí),會(huì)在搜索結(jié)果的右側(cè)(圖中的相關(guān)人物部分)展示一系列人名 作為"奧巴馬"的推薦實(shí)體詞,使得用戶能夠快速訪問其感興趣的推薦實(shí)體詞,從而提高用 戶信息發(fā)現(xiàn)的體驗(yàn)。
      [0176] 實(shí)體推薦已經(jīng)成為當(dāng)今網(wǎng)絡(luò)搜索的關(guān)鍵技術(shù)。盡管推薦實(shí)體詞是與用戶輸入的搜 索關(guān)鍵詞相關(guān)的,但很多情況下,如果用戶沒有對(duì)關(guān)于實(shí)體推薦詞的相關(guān)背景知識(shí)的了解, 很可能會(huì)因?yàn)椴荒軌蛎靼诪楹螘?huì)推薦該實(shí)體詞而產(chǎn)生困惑,并不會(huì)使用該推薦實(shí)體詞。為 了幫助用戶快速獲知推薦實(shí)體詞是否以及如何滿足其興趣,進(jìn)一步向用戶提供推薦實(shí)體詞 的推薦理由是很有必要的。例如圖5中所示,對(duì)于推薦實(shí)體詞"吳韓馬",如果用戶對(duì)其并不 了解,根本不明白為何會(huì)存在該推薦實(shí)體詞,若在"吳韓馬"的下方展示推薦理由"韓國(guó)為奧 巴馬起韓語(yǔ)名",則會(huì)給用戶帶來很好的體驗(yàn)。
      [0177] 目前針對(duì)推薦實(shí)體詞的推薦理由,一種方式是通過人工標(biāo)注,但這種方式工作量 太大,人工成本高;另一種方式是從百科這類頁(yè)面中抽取結(jié)構(gòu)化數(shù)據(jù)作為推薦理由,但這種 方式覆蓋率太低,有很多推薦實(shí)體詞完全無法覆蓋到。但若采用本發(fā)明實(shí)施例中提供的方 式,可以獲取針對(duì)實(shí)體詞的描述語(yǔ)句,采用本發(fā)明提供的上述方法和裝置,可以對(duì)該針對(duì)實(shí) 體詞的描述語(yǔ)句進(jìn)行編輯,得到編輯后的語(yǔ)句。當(dāng)該實(shí)體詞作為搜索結(jié)果頁(yè)中query對(duì)應(yīng)的 推薦實(shí)體詞時(shí),該編輯后的語(yǔ)句就可以作為推薦實(shí)體詞的推薦理由。
      [0178] 通過上述方式得到的推薦實(shí)體詞的推薦理由可以達(dá)到如下效果:1)推薦理由準(zhǔn)確 地描述該實(shí)體詞;2)推薦理由的表達(dá)較為流暢;3)推薦理由足夠簡(jiǎn)明以能夠在有限的區(qū)域 展現(xiàn);4)推薦理由的表達(dá)能夠吸引用戶瀏覽和點(diǎn)擊對(duì)應(yīng)的推薦實(shí)體詞。
      [0179 ]舉個(gè)例子,針對(duì)"吳韓馬"的一個(gè)描述語(yǔ)句為s,將其進(jìn)行編輯后形成e。
      [0180] s:韓國(guó)為美國(guó)第44任總統(tǒng)奧巴馬起的一個(gè)韓語(yǔ)名字。
      [0181] e:韓國(guó)為奧巴馬起韓語(yǔ)名。
      [0182] 可以看出,后者更加簡(jiǎn)明、流暢和吸引人。
      [0183] 在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其 它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅 僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。
      [0184]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè) 網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目 的。
      [0185] 另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以 是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單 元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
      [0186] 上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存 儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī) 設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè) 實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(Read-Only Memory ,R0M)、隨機(jī)存取存儲(chǔ)器 (Random Access Memory ,RAM)、磁碟或者光盤等各種 可以存儲(chǔ)程序代碼的介質(zhì)。
      [0187] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
      【主權(quán)項(xiàng)】
      1. 一種建立語(yǔ)句編輯模型的方法,其特征在于,該方法包括: 從搜索日志中獲取搜索關(guān)鍵詞query以及query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的標(biāo)題,構(gòu)成 query-title對(duì); 將各query-title對(duì)中的title作為待編輯語(yǔ)句,query作為對(duì)應(yīng)的編輯后語(yǔ)句,構(gòu)成訓(xùn) 練語(yǔ)料; 利用所述訓(xùn)練語(yǔ)料訓(xùn)練翻譯模型和第一語(yǔ)言模型,得到包含所述翻譯模型和第一語(yǔ)言 模型的語(yǔ)句編輯模型。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從搜索日志中獲取搜索關(guān)鍵詞query 以及query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的標(biāo)題,構(gòu)成query-t i 11 e對(duì)包括: 從搜索日志中獲取query; 利用預(yù)先訓(xùn)練得到的分類器對(duì)所述query進(jìn)行分類,得到屬于優(yōu)選表達(dá)類別的query; 從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的title,構(gòu)成 query-title對(duì)。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述分類器的訓(xùn)練包括: 從百科網(wǎng)頁(yè)中獲取詞條對(duì)應(yīng)的優(yōu)選表達(dá)語(yǔ)句,或者利用優(yōu)選表達(dá)語(yǔ)句模板從網(wǎng)頁(yè)上獲 取優(yōu)選表達(dá)語(yǔ)句; 利用獲取的優(yōu)選表達(dá)語(yǔ)句作為正樣本訓(xùn)練所述分類器。4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,從搜索日志中獲取屬于優(yōu)選表達(dá)類別的 query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的t i 11 e,構(gòu)成query-t i 11 e對(duì)包括: 從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的t i 11 e; 將獲取的title拆分為一個(gè)以上的子title; 利用query及其對(duì)應(yīng)的子title,分別構(gòu)成query-title對(duì)。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括:在訓(xùn)練語(yǔ)句編輯模型之前, 對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行以下過濾處理中的至少一種: 若query-title對(duì)中query和title沒有任何詞語(yǔ)重疊,則過濾掉該query-title對(duì); 若query-t i 11 e對(duì)中query和title完全相同,貝1J過濾掉該query-t i 11 e對(duì); 若query-title對(duì)中query的長(zhǎng)度不滿足預(yù)設(shè)長(zhǎng)度要求,貝lj過濾掉該query-title對(duì); 若query-title對(duì)中長(zhǎng)度較短者與長(zhǎng)度較長(zhǎng)者之間的長(zhǎng)度比例小于預(yù)設(shè)的比例閾值, 則過濾掉該query-title對(duì)。6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,利用所述訓(xùn)練語(yǔ)料訓(xùn)練翻譯模型包括: 利用訓(xùn)練語(yǔ)料中的待編輯語(yǔ)句及其對(duì)應(yīng)的編輯后語(yǔ)句,訓(xùn)練翻譯模型,所述翻譯模型 用于計(jì)算各待編輯語(yǔ)句對(duì)應(yīng)的編輯后語(yǔ)句的翻譯得分。7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,利用所述訓(xùn)練語(yǔ)料訓(xùn)練第一語(yǔ)言模型包 括: 利用訓(xùn)練語(yǔ)料中的編輯后語(yǔ)句,訓(xùn)練第一語(yǔ)言模型,所述第一語(yǔ)言模型用于計(jì)算η元詞 組之間的搭配得分,所述η為預(yù)設(shè)的正整數(shù)。8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語(yǔ)句編輯模型還包括長(zhǎng)度模型,所述 長(zhǎng)度模型用于計(jì)算不同長(zhǎng)度的語(yǔ)句的長(zhǎng)度得分。9. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語(yǔ)句編輯模型還包括第二語(yǔ)言模型; 該方法還包括:利用新聞標(biāo)題作為訓(xùn)練語(yǔ)料,訓(xùn)練第二語(yǔ)言模型,所述第二語(yǔ)言模型用 于計(jì)算m元詞組之間的搭配得分,所述m為預(yù)設(shè)的正整數(shù)。10. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語(yǔ)句編輯模型還包括句法結(jié)構(gòu)模型; 該方法還包括:將人工編輯的語(yǔ)句作為訓(xùn)練樣本,訓(xùn)練句法結(jié)構(gòu)模型,所述句法結(jié)構(gòu)模 型用于計(jì)算各語(yǔ)句與人工編輯的語(yǔ)句在句法結(jié)構(gòu)上的相似度評(píng)分。11. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語(yǔ)句編輯模型為其所包含各模型進(jìn) 行加權(quán)融合后得到的模型。12. -種語(yǔ)句自動(dòng)編輯方法,其特征在于,該方法包括: 獲取待編輯語(yǔ)句; 將所述待編輯語(yǔ)句輸入語(yǔ)句編輯模型,得到各候選編輯語(yǔ)句的編輯得分; 選取編輯得分滿足預(yù)設(shè)要求的候選編輯語(yǔ)句作為編輯后的語(yǔ)句; 其中所述語(yǔ)句編輯模型利用如權(quán)利要求1至11任一權(quán)項(xiàng)所述的方法建立。13. 根據(jù)權(quán)利要求12所述的方法,其特征在于,所述待編輯語(yǔ)句為針對(duì)實(shí)體詞的描述語(yǔ) 句; 所述編輯后的語(yǔ)句為:所述實(shí)體詞作為搜索結(jié)果頁(yè)中query對(duì)應(yīng)的推薦實(shí)體詞的推薦 理由。14. 一種建立語(yǔ)句編輯模型的裝置,其特征在于,該裝置包括: 語(yǔ)料獲取單元,用于從搜索日志中獲取搜索關(guān)鍵詞query以及query對(duì)應(yīng)的被點(diǎn)擊搜索 結(jié)果的標(biāo)題,構(gòu)成query-title對(duì);將各query-title對(duì)中的title作為待編輯語(yǔ)句,query作 為對(duì)應(yīng)的編輯后語(yǔ)句,構(gòu)成訓(xùn)練語(yǔ)料; 模型訓(xùn)練單元,用于利用所述訓(xùn)練語(yǔ)料訓(xùn)練翻譯模型和第一語(yǔ)言模型,得到包含所述 翻譯模型和第一語(yǔ)言模型的語(yǔ)句編輯模型。15. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述語(yǔ)料獲取單元包括: 第一獲取子單元,用于從搜索日志中獲取query; 分類子單元,用于利用預(yù)先訓(xùn)練得到的分類器對(duì)所述query進(jìn)行分類,得到屬于優(yōu)選表 達(dá)類別的query; 第二獲取子單元,用于從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn)擊搜 索結(jié)果的title,構(gòu)成query-title對(duì)。16. 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述語(yǔ)料獲取單元還包括: 訓(xùn)練子單元,用于從百科網(wǎng)頁(yè)中獲取詞條對(duì)應(yīng)的優(yōu)選表達(dá)語(yǔ)句,或者利用優(yōu)選表達(dá)語(yǔ) 句模板從網(wǎng)頁(yè)上獲取優(yōu)選表達(dá)語(yǔ)句;利用獲取的優(yōu)選表達(dá)語(yǔ)句作為正樣本訓(xùn)練所述分類 器。17. 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述第二獲取子單元,具體執(zhí)行: 從搜索日志中獲取屬于優(yōu)選表達(dá)類別的query對(duì)應(yīng)的被點(diǎn)擊搜索結(jié)果的t i 11 e; 將獲取的title拆分為一個(gè)以上的子title; 利用query及其對(duì)應(yīng)的子title,分別構(gòu)成query-title對(duì)。18. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,該裝置還包括: 過濾處理單元,用于對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行以下過濾處理中的至少一種: 若query-title對(duì)中query和title沒有任何詞語(yǔ)重疊,則過濾掉該query-title對(duì); 若query-t i 11 e對(duì)中query和title完全相同,則過濾掉該query-t i 11 e對(duì); 若query-title對(duì)中query的長(zhǎng)度不滿足預(yù)設(shè)長(zhǎng)度要求,貝lj過濾掉該query-title對(duì); 若query-title對(duì)中長(zhǎng)度較短者與長(zhǎng)度較長(zhǎng)者之間的長(zhǎng)度比例小于預(yù)設(shè)的比例閾值, 則過濾掉該query-title對(duì)。19. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述模型訓(xùn)練單元包括: 翻譯模型訓(xùn)練子單元,用于利用訓(xùn)練語(yǔ)料中的待編輯語(yǔ)句及其對(duì)應(yīng)的編輯后語(yǔ)句,訓(xùn) 練翻譯模型,所述翻譯模型用于計(jì)算各待編輯語(yǔ)句對(duì)應(yīng)的編輯后語(yǔ)句的翻譯得分。20. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述模型訓(xùn)練單元包括: 第一語(yǔ)言模型訓(xùn)練子單元,用于利用訓(xùn)練語(yǔ)料中的編輯后語(yǔ)句,訓(xùn)練第一語(yǔ)言模型,所 述第一語(yǔ)言模型用于計(jì)算η元詞組之間的搭配得分,所述η為預(yù)設(shè)的正整數(shù)。21. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述語(yǔ)句編輯模型還包括長(zhǎng)度模型,所 述長(zhǎng)度模型用于計(jì)算不同長(zhǎng)度的語(yǔ)句的長(zhǎng)度得分。22. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述語(yǔ)句編輯模型還包括第二語(yǔ)言模 型; 所述模型訓(xùn)練單元包括: 第二語(yǔ)言模型訓(xùn)練子單元,用于利用新聞標(biāo)題作為訓(xùn)練語(yǔ)料,訓(xùn)練第二語(yǔ)言模型,所述 第二語(yǔ)言模型用于計(jì)算m元詞組之間的搭配得分,所述m為預(yù)設(shè)的正整數(shù)。23. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述語(yǔ)句編輯模型還包括句法結(jié)構(gòu)模 型; 所述模型訓(xùn)練單元包括: 句法模型訓(xùn)練子單元,用于將人工編輯的語(yǔ)句作為訓(xùn)練樣本,訓(xùn)練句法結(jié)構(gòu)模型,所述 句法結(jié)構(gòu)模型用于計(jì)算各語(yǔ)句與人工編輯的語(yǔ)句在句法結(jié)構(gòu)上的相似度評(píng)分。24. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述模型訓(xùn)練單元包括: 模型融合子單元,用于將語(yǔ)句編輯模型所包含的各模型進(jìn)行加權(quán)融合,得到語(yǔ)句編輯 模型。25. -種語(yǔ)句自動(dòng)編輯裝置,其特征在于,該裝置包括: 輸入獲取單元,用于獲取待編輯語(yǔ)句; 得分獲取單元,用于將所述待編輯語(yǔ)句輸入語(yǔ)句編輯模型,得到各候選編輯語(yǔ)句的編 輯得分; 語(yǔ)句輸出單元,用于選取編輯得分滿足預(yù)設(shè)要求的候選編輯語(yǔ)句作為編輯后的語(yǔ)句; 其中所述語(yǔ)句編輯模型利用如權(quán)利要求14至24任一權(quán)項(xiàng)所述的裝置建立。
      【文檔編號(hào)】G06F17/30GK105975558SQ201610285425
      【公開日】2016年9月28日
      【申請(qǐng)日】2016年4月29日
      【發(fā)明人】黃際洲, 趙世奇, 王海峰
      【申請(qǐng)人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1