国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種實體消歧方法及裝置與流程

      文檔序號:12157949閱讀:652來源:國知局
      一種實體消歧方法及裝置與流程

      本發(fā)明實體消歧技術(shù)領(lǐng)域,特別涉及一種實體消歧方法及裝置。



      背景技術(shù):

      實體消歧是為了解決自然語言中廣泛存在的命名實體(簡稱“實體”)的歧義(一詞多義)問題,屬于詞義消歧的一部分,是自然語言處理中重要的基礎(chǔ)性工作。在視頻搜索引擎中,存在大量的影視劇名的實體,而影視劇名存在大量的歧義,即一個影視劇名對應多個影視劇實體(例如:“非誠勿擾”既是一部電影的名稱,也是一檔綜藝節(jié)目的名稱)。每一個不同概念意義事物的敘述內(nèi)容稱為義項,如果自然語言處理程序能夠?qū)ζ缌x實體消歧,有效的區(qū)分實體的真正義項,對于視頻搜索引擎的優(yōu)化有很大的幫助,例如知道用戶輸入的包含歧義實體詞的查詢中歧義實體的真正義項,搜索返回該義項的結(jié)果,使得搜索更加精準,也能很大程度提高用戶體驗。

      實體消歧可以分為有監(jiān)督學習方法和無監(jiān)督學習方法。前者從標注了義項的大規(guī)模訓練數(shù)據(jù)中抽取歧義詞義項的特征屬性,然后根據(jù)實體詞在文本中出現(xiàn)位置的上下文,給出匹配度最高的歧義詞義項作為消歧的結(jié)果,而后者對大量未標注義項的語料中通過聚類方法將歧義詞聚類出不同的義項,同一聚類類別中的特征作為該義項的特征。

      對于有監(jiān)督學習方法,需要對訓練數(shù)據(jù)做大量地人工標注工作,如:確定歧義詞存在的候選義項,以及標注大量用于抽取歧義詞義項特征的訓練數(shù)據(jù),這無疑需要大量的人工成本,而且有監(jiān)督學習方法無法很好解決沒有出現(xiàn)在標注集中的歧義詞的消歧。而基于聚類的無監(jiān)督學習方法,最終的類別(義項)數(shù)是不確定的,聚類類別與實際義項也無法一一對應,導致基于無監(jiān)督學習方法的消歧準確度不高,進而導致搜索的準確度不高。



      技術(shù)實現(xiàn)要素:

      本發(fā)明實施例的目的在于提供一種實體消歧方法及裝置,以提高搜索的準確度。

      為達到上述目的,本發(fā)明實施例公開了一種實體消歧方法,方法包括:

      針對目標實體,從數(shù)據(jù)庫抽取所述目標實體的不同義項;

      針對每一義項,從所述數(shù)據(jù)庫中抽取該義項的初始特征數(shù)據(jù);

      根據(jù)預先構(gòu)建的用于實體消歧的分類模型以及所述初始特征數(shù)據(jù),對所述目標實體進行消歧。

      較佳的,所述根據(jù)預先構(gòu)建的用于實體消歧的分類模型以及所述初始特征數(shù)據(jù),對所述目標實體進行消歧,包括:

      根據(jù)所述分類模型,對所述數(shù)據(jù)庫中包含所述目標實體的數(shù)據(jù)進行分類,得到不同義項對應的第一數(shù)據(jù);

      根據(jù)預先構(gòu)建的特征抽取模型,對每一義項對應的所述第一數(shù)據(jù)抽取特征;

      根據(jù)所述分類模型、所述初始特征數(shù)據(jù)以及抽取的特征的數(shù)據(jù),確定所述目標實體的類別;

      將所確定的類別對應的義項,確定為所述目標實體的實際義項。

      較佳的,所述根據(jù)預先構(gòu)建的用于實體消歧的分類模型以及所述初始特征數(shù)據(jù),對所述目標實體進行消歧,包括:

      根據(jù)所述分類模型以及所述初始特征數(shù)據(jù),確定所述目標實體的類別;

      將所確定的類別對應的義項,確定為所述目標實體的實際義項。

      較佳的,所述預先構(gòu)建的用于實體消歧的分類模型為:

      向量空間模型。

      較佳的,所述根據(jù)預先構(gòu)建的特征抽取模型,對每一義項對應的所述第一數(shù)據(jù)抽取特征,包括:

      根據(jù)預先構(gòu)建的特征抽取模型,利用卡方檢驗以及用于信息檢索與數(shù)據(jù)挖掘的加權(quán)技術(shù),對每一義項對應的所述第一數(shù)據(jù)抽取特征。

      為達到上述目的,本發(fā)明實施例公開了一種實體消歧裝置,裝置包括:

      第一抽取模塊,用于針對目標實體,從數(shù)據(jù)庫抽取所述目標實體的不同義項;

      第二抽取模塊,用于針對每一義項,從所述數(shù)據(jù)庫中抽取該義項的初始特征數(shù)據(jù);

      消歧模塊,用于根據(jù)預先構(gòu)建的用于實體消歧的分類模型以及所述初始特征數(shù)據(jù),對所述目標實體進行消歧。

      較佳的,所述消歧模塊,包括:

      分類單元,用于根據(jù)所述分類模型,對所述數(shù)據(jù)庫中包含所述目標實體的數(shù)據(jù)進行分類,得到不同義項對應的第一數(shù)據(jù);

      抽取單元,用于根據(jù)預先構(gòu)建的特征抽取模型,對每一義項對應的所述第一數(shù)據(jù)抽取特征;

      第一確定單元,用于根據(jù)所述分類模型、所述初始特征數(shù)據(jù)以及抽取的特征的數(shù)據(jù),確定所述目標實體的類別;

      第二確定單元,用于將所確定的類別對應的義項,確定為所述目標實體的實際義項。

      較佳的,所述消歧模塊,具體用于:

      根據(jù)所述分類模型以及所述初始特征數(shù)據(jù),確定所述目標實體的類別;

      將所確定的類別對應的義項,確定為所述目標實體的實際義項。

      較佳的,所述預先構(gòu)建的用于實體消歧的分類模型為:

      向量空間模型。

      較佳的,所述抽取單元,具體用于:

      根據(jù)預先構(gòu)建的特征抽取模型,利用卡方檢驗以及用于信息檢索與數(shù)據(jù)挖掘的加權(quán)技術(shù),對每一義項對應的所述第一數(shù)據(jù)抽取特征。

      由上述的技術(shù)方案可見,本發(fā)明實施例提供的一種實體消歧方法及裝置,針對目標實體,從數(shù)據(jù)庫抽取所述目標實體的不同義項;針對每一義項,從所述數(shù)據(jù)庫中抽取該義項的初始特征數(shù)據(jù);根據(jù)預先構(gòu)建的用于實體消歧的分類模型以及所述初始特征數(shù)據(jù),對所述目標實體進行消歧。

      可見,利用數(shù)據(jù)庫作為唯一數(shù)據(jù)源,無需進行人工標注訓練數(shù)據(jù),不再需要標注集,解決了沒有出現(xiàn)在標注集中的歧義詞的消歧問題,也節(jié)省了人工成本。而且可以自動抽取目標實體的不同義項,義項類別與實際的義項類別可以一一對應,提高了實體消歧的準確度,進而提高了搜索的準確度。

      當然,實施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時達到以上所述的所有優(yōu)點。

      附圖說明

      為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      圖1為本發(fā)明實施例提供的一種實體消歧方法的流程示意圖;

      圖2為本發(fā)明實施例提供的一種實體消歧裝置的結(jié)構(gòu)示意圖。

      具體實施方式

      下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

      下面首先對本發(fā)明實施例提供的一種實體消歧方法進行詳細說明。

      參見圖1,圖1為本發(fā)明實施例提供的一種實體消歧方法的流程示意圖,可以包括如下步驟:

      S101,針對目標實體,從數(shù)據(jù)庫抽取所述目標實體的不同義項;

      具體的,命名實體(簡稱實體)就是人名、機構(gòu)名、地名以及其他所有以名稱為標識的實體。其中,目標實體可以為音樂實體、影視劇實體等等。

      下面以影視劇實體為例進行說明。針對目標影視劇實體,可以從數(shù)據(jù)庫中獲取該影視劇實體的名稱,抽取該影視劇實體名稱(W)的不同影視劇實體,將抽取得到的不同影視劇實體確定為該影視劇實體名稱的不同義項。例如,W#1表示該影視劇實體名稱W的第一個義項、W#2表示該影視劇實體名稱W的第二個義項,以此類推。其中,數(shù)據(jù)庫可以為視頻數(shù)據(jù)庫。

      具體的,在獲取目標影視劇實體的名稱時,有些影視劇可能存在多個名稱,或者有別名、簡稱等。例如,江蘇衛(wèi)視的綜藝節(jié)目《非誠勿擾》在視頻數(shù)據(jù)庫中的完整名稱為“緣來非誠勿擾”,而人們習慣成為“非誠勿擾”,所以在視頻標題中或者用戶查詢詞中的“非誠勿擾”很多都是指的“緣來非誠勿擾”,這種情況下可以獲取該影視劇實體的別名“非誠勿擾”,確定為目標影視劇實體的名稱。

      具體的,有的影視劇實體名稱包含一些附加信息,例如有一條影視劇實體的名稱為“笑傲江湖呂頌賢版”,而該影視劇實體的別名中沒有“笑傲江湖”,因此如果不做特殊處理,該條實體無法成為一個義項。本發(fā)明實施例可以使用實體識別模塊加模板匹配的方式進行處理。實體識別模塊能對影視劇實體的標題進行分詞并識別其中的影視劇名實體,例如:識別“笑傲江湖呂頌賢版”中的“笑傲江湖”為影視劇名實體,標記為“nz_ALBUM”,“nz”表示詞性為實體,ALBUM表示實體類型為影視劇。本發(fā)明實施例配置了一些模板,例如:“nz_ALBUM+人名(版)”、“nz_ALBUM+年代(版)”、“nz_ALBUM+之**”等等。當影視劇實體的標題匹配某個模板時,將nz_ALBUM部分抽取出確定為該影視劇實體的別名用于義項抽取,例如上文中的“笑傲江湖呂頌賢版”符合實例模板“nz_ALBUM+人名(版)”,所以抽取“笑傲江湖”確定為其別名。

      S102,針對每一義項,從所述數(shù)據(jù)庫中抽取該義項的初始特征數(shù)據(jù);

      具體的,針對目標實體的每一個義項,從數(shù)據(jù)庫中抽取該義項的初始特征數(shù)據(jù),其中,初始特征數(shù)據(jù)可以為字段數(shù)據(jù)。

      示例性的,視頻數(shù)據(jù)庫中所有視頻實體都有豐富的字段信息,包含頻道、導演、演員、角色、上映時間等結(jié)構(gòu)化信息。對于有歧義的影視劇實體的不同義項,這些字段信息是最好的區(qū)分特征。例如:歧義影視劇實體名“非誠勿擾”有兩個義項:其一是葛優(yōu)主演的電影《非誠勿擾》(表示為“非誠勿擾#1”),其二是江蘇衛(wèi)視的一檔綜藝節(jié)目《緣來非誠勿擾》,常被稱為“非誠勿擾”(表示為“非誠勿擾#2”)。前者的字段信息中有“綜藝”(頻道)、“孟非”(主持人)、“黃菡”(嘉賓)、“樂嘉”(嘉賓)、“江蘇衛(wèi)視”(播出頻道)等,后者的字段信息中有“電影”(頻道)、“馮小剛”(導演)、“葛優(yōu)”(演員)、“舒淇”(演員)、“范偉”(演員)等。針對影視劇實體“非誠勿擾”的每個義項,從視頻數(shù)據(jù)庫中抽取該義項的指定字段數(shù)據(jù),確定為該義項的初始特征數(shù)據(jù)。其中,字段是視頻數(shù)據(jù)庫中,根據(jù)影視劇實體數(shù)據(jù)定義的結(jié)構(gòu)化信息的名稱,指定字段是根據(jù)不同字段對于消歧的貢獻大小所指定的字段。在實際應用中,使用的指定字段可以包括“頻道”、“導演”、“演員”、“角色”、“主持人”、“嘉賓”、“播出頻道”等等。

      S103,根據(jù)預先構(gòu)建的用于實體消歧的分類模型以及所述初始特征數(shù)據(jù),對所述目標實體進行消歧。

      具體的,在實際應用中,可以根據(jù)所述分類模型,對所述數(shù)據(jù)庫中包含所述目標實體的數(shù)據(jù)進行分類,得到不同義項對應的第一數(shù)據(jù);根據(jù)預先構(gòu)建的特征抽取模型,對每一義項對應的所述第一數(shù)據(jù)抽取特征;根據(jù)所述分類模型、所述初始特征數(shù)據(jù)以及抽取的特征的數(shù)據(jù),確定所述目標實體的類別;將所確定的類別對應的義項,確定為所述目標實體的實際義項。

      示例性的,以目標影視劇實體“非誠勿擾”為例,該實體有兩個義項:其一是葛優(yōu)主演的電影《非誠勿擾》(表示為“非誠勿擾#1”),其二是江蘇衛(wèi)視的一檔綜藝節(jié)目《緣來非誠勿擾》,常被稱為“非誠勿擾”(表示為“非誠勿擾#2”)??梢岳妙A先構(gòu)建的用于實體消歧的分類模型,例如空間向量模型,對視頻數(shù)據(jù)庫中包含“非誠勿擾”的視頻數(shù)據(jù)進行分類,得到不同義項對應的視頻數(shù)據(jù)。例如,將視頻數(shù)據(jù)“非誠勿擾1_葛優(yōu)胡可相親對白”、“非誠勿擾片段之葛優(yōu)VS范偉”分類到義項“非誠勿擾#1”,將視頻數(shù)據(jù)“《非誠勿擾》女嘉賓情緒失控怒罵樂嘉”、“非誠勿擾被滅24盞燈小伙,變億萬富豪!”分類到義項“非誠勿擾#2”。根據(jù)預先構(gòu)建的特征抽取模型,利用卡方檢驗以及用于信息檢索與數(shù)據(jù)挖掘的加權(quán)技術(shù),對分類后的不同義項對應的視頻數(shù)據(jù)抽取特征,例如對“《非誠勿擾》女嘉賓情緒失控怒罵樂嘉”、“非誠勿擾被滅24盞燈小伙,變億萬富豪!”等視頻數(shù)據(jù)抽取特征“滅燈”、“女嘉賓”、“男嘉賓”、“美女”等等。在實際應用中,用于信息檢索與數(shù)據(jù)挖掘的加權(quán)技術(shù),可以為TF-IDF(term frequency–inverse document frequency)技術(shù)。最后,可以根據(jù)相同的分類模型、各個義項的初始特征數(shù)據(jù)以及抽取的特征的數(shù)據(jù),確定目標實體的類別;將所確定的類別對應的義項,確定為所述目標實體的實際義項。例如,在視頻搜索應用中,接收的用戶查詢文本為“非誠勿擾男嘉賓被滅24盞燈”,其中目標實體為“非誠勿擾”,可以利用諸如空間向量模型的分類模型和抽取的特征的數(shù)據(jù)“男嘉賓”、“滅燈”,確定該實體“非誠勿擾”的類別為“非誠勿擾#2”,對應的義項為江蘇衛(wèi)視的一檔綜藝節(jié)目《緣來非誠勿擾》,常被稱為“非誠勿擾”,則將該義項確定為目標實體的實際義項。

      具體的,在實際應用中,可以根據(jù)所述分類模型以及所述初始特征數(shù)據(jù),確定所述目標實體的類別;將所確定的類別對應的義項,確定為所述目標實體的實際義項。例如,在視頻搜索應用中,接收的用戶查詢文本為“非誠勿擾葛優(yōu)”,其中目標實體為“非誠勿擾”,可以利用諸如空間向量模型的分類模型和初始特征數(shù)據(jù)“葛優(yōu)”(演員),確定該實體“非誠勿擾”的類別為“非誠勿擾#1”,對應的義項為葛優(yōu)主演的電影《非誠勿擾》,則將該義項確定為目標實體的實際義項。

      可見,利用數(shù)據(jù)庫作為唯一數(shù)據(jù)源,無需進行人工標注訓練數(shù)據(jù),不再需要標注集,解決了沒有出現(xiàn)在標注集中的歧義詞的消歧問題,也節(jié)省了人工成本。而且可以自動抽取目標實體的不同義項,義項類別與實際的義項類別可以一一對應,提高了實體消歧的準確度,進而提高了搜索的準確度。

      參見圖2,圖2為本發(fā)明實施例提供的一種實體消歧裝置的結(jié)構(gòu)示意圖,與圖1所示的流程相對應,該消歧裝置可以包括:第一抽取模塊201、第二抽取模塊202、消歧模塊203。

      第一抽取模塊201,用于針對目標實體,從數(shù)據(jù)庫抽取所述目標實體的不同義項;

      第二抽取模塊202,用于針對每一義項,從所述數(shù)據(jù)庫中抽取該義項的初始特征數(shù)據(jù);

      消歧模塊203,用于根據(jù)預先構(gòu)建的用于實體消歧的分類模型以及所述初始特征數(shù)據(jù),對所述目標實體進行消歧。

      具體的,消歧模塊203,可以包括:分類單元、抽取單元、第一確定單元和第二確定單元(圖中未示出);

      分類單元,用于根據(jù)所述分類模型,對所述數(shù)據(jù)庫中包含所述目標實體的數(shù)據(jù)進行分類,得到不同義項對應的第一數(shù)據(jù);

      抽取單元,用于根據(jù)預先構(gòu)建的特征抽取模型,對每一義項對應的所述第一數(shù)據(jù)抽取特征;

      具體的,所述抽取單元,具體可以用于:

      根據(jù)預先構(gòu)建的特征抽取模型,利用卡方檢驗以及用于信息檢索與數(shù)據(jù)挖掘的加權(quán)技術(shù),對每一義項對應的所述第一數(shù)據(jù)抽取特征。

      第一確定單元,用于根據(jù)所述分類模型、所述初始特征數(shù)據(jù)以及抽取的特征的數(shù)據(jù),確定所述目標實體的類別;

      第二確定單元,用于將所確定的類別對應的義項,確定為所述目標實體的實際義項。

      具體的,消歧模塊203,具體可以用于:

      根據(jù)所述分類模型以及所述初始特征數(shù)據(jù),確定所述目標實體的類別;

      將所確定的類別對應的義項,確定為所述目標實體的實際義項。

      具體的,所述預先構(gòu)建的用于實體消歧的分類模型可以為:

      向量空間模型。

      可見,利用數(shù)據(jù)庫作為唯一數(shù)據(jù)源,無需進行人工標注訓練數(shù)據(jù),不再需要標注集,解決了沒有出現(xiàn)在標注集中的歧義詞的消歧問題,也節(jié)省了人工成本。而且可以自動抽取目標實體的不同義項,義項類別與實際的義項類別可以一一對應,提高了實體消歧的準確度,進而提高了搜索的準確度。

      需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

      本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。

      本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述方法實施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于計算機可讀取存儲介質(zhì)中,這里所稱得的存儲介質(zhì),如:ROM/RAM、磁碟、光盤等。

      以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1