一種作者和作者單位對應(yīng)關(guān)系的識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文獻檢索和信息服務(wù)領(lǐng)域,特別是需要提供基于學(xué)術(shù)文獻作者和作者單位準(zhǔn)確對應(yīng)的信息服務(wù)領(lǐng)域。
【背景技術(shù)】
[0002]近年來,隨著大規(guī)模文獻數(shù)據(jù)庫的應(yīng)用和普及,研究人員、高校師生等在科研和學(xué)習(xí)中主要通過互聯(lián)網(wǎng)檢索各類文獻數(shù)據(jù)庫開展項目調(diào)研、科研創(chuàng)新和學(xué)習(xí)。按文獻作者和作者單位進行檢索、分組是文獻數(shù)據(jù)庫提供的重要服務(wù)。但是在文獻出版中,署名的作者和作者單位通常不是一一對應(yīng)的,除了只有唯一作者及作者單位的少數(shù)情況外,大部分是多作者和多作者單位的情況,而且許多文獻在出版時因各種原因,作者和作者單位之間并沒有通過標(biāo)號標(biāo)注對應(yīng)關(guān)系。建設(shè)數(shù)據(jù)庫時,對于這種情況,主要采用多對多、順序分配等簡單方法,存在很大誤差。不能對作者和作者單位進行嚴(yán)格、準(zhǔn)確對應(yīng),就會影響到基于作者和作者單位的檢索服務(wù)質(zhì)量。
【發(fā)明內(nèi)容】
[0003]本發(fā)明旨在提出一種作者和作者單位對應(yīng)關(guān)系的識別方法。該方法基于文獻中標(biāo)注的作者和作者單位對應(yīng)關(guān)系的可靠性分為兩類。第一類是能夠明確對應(yīng)上的,例如文獻中只有一個作者和作者單位,或者在出版時通過標(biāo)號已經(jīng)明確標(biāo)注了作者和作者單位的對應(yīng)關(guān)系,這部分關(guān)系數(shù)據(jù)形成結(jié)果集,在作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項中準(zhǔn)確標(biāo)注。第二類是不能明確對應(yīng)上的多對多關(guān)系,生成所有潛在關(guān)系對,即每個作者對應(yīng)所有作者單位,數(shù)據(jù)庫中作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項中暫時不標(biāo)注。利用結(jié)果集,對潛在關(guān)系集進行自適應(yīng)機器學(xué)習(xí),如果在結(jié)果集中找到對應(yīng)關(guān)系,就在作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項中標(biāo)注。如果在結(jié)果集中找不到對應(yīng)關(guān)系,將潛在關(guān)系標(biāo)注到數(shù)據(jù)庫中的作者和作者單位候選對應(yīng)關(guān)系數(shù)據(jù)項中。在提供基于作者和作者單位的檢索服務(wù)時,同時提供對作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項、作者和作者單位候選對應(yīng)關(guān)系數(shù)據(jù)項兩項內(nèi)容的檢索結(jié)果,前部分作為準(zhǔn)確的檢索結(jié)果,后部分作為候選的檢索結(jié)果。這既保證了檢索服務(wù)的查全率,也提高了檢索的準(zhǔn)確率,提高了用戶的檢索體驗。
【附圖說明】
[0004]圖1是作者和作者單位對應(yīng)關(guān)系識別的功能流程圖
[0005]圖2是根據(jù)本發(fā)明一個實施例的作者和作者單位對應(yīng)關(guān)系的標(biāo)注示意圖
【具體實施方式】
[0006]下面結(jié)合附圖和實施例對本發(fā)明的實施方式進行詳細描述。
[0007]圖1是作者和作者單位對應(yīng)關(guān)系識別的功能流程圖。如圖1所示,首先從文獻數(shù)據(jù)庫中讀取一篇文獻的作者和作者單位數(shù)據(jù)(步驟11),對作者和作者單位對應(yīng)關(guān)系的明確性進行判斷。判斷標(biāo)準(zhǔn)包括:只有唯一的作者和作者單位;作者和作者單位進行了明確的標(biāo)號。
[0008]如果對應(yīng)關(guān)系明確,將該對應(yīng)關(guān)系添加到結(jié)果集中(步驟12),同時,標(biāo)注作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項(步驟13)。
[0009]如果對應(yīng)關(guān)系不明確,生成潛在關(guān)系對(步驟14)。
[0010]基于結(jié)果集對潛在關(guān)系對進行機器學(xué)習(xí)(步驟15)。具體方法包括:對每個潛在關(guān)系對,在結(jié)果集中進行檢索。檢索方法可以根據(jù)業(yè)務(wù)需要,采用精確檢索或模糊檢索,或者采用指定的相似性判斷條件。學(xué)習(xí)的結(jié)果是判斷結(jié)果集中是否存在潛在關(guān)系對。
[0011]如果在結(jié)果集中找到潛在關(guān)系對,則將潛在關(guān)系標(biāo)注到作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項(步驟16)。
[0012]如果在結(jié)果集中沒有找到潛在關(guān)系對,則將潛在關(guān)系標(biāo)注到作者和作者單位候選對應(yīng)關(guān)系數(shù)據(jù)項(步驟17)。
[0013]圖2是根據(jù)本發(fā)明一個實施例的作者和作者單位對應(yīng)關(guān)系的標(biāo)注示意圖。
[0014]在實施例中,文獻作者有三位:劉天,王小東,李文。作者單位有兩個:清華大學(xué)計算機系,北京大學(xué)中文系(步驟21)。出版時,作者和作者單位并沒有標(biāo)注明確的對應(yīng)關(guān)系。
[0015]根據(jù)上述實施例文獻,形成6個潛在關(guān)系對(步驟22),包括:
[0016](劉天,清華大學(xué)計算機系)
[0017](劉天,北京大學(xué)中文系)
[0018](王小東,清華大學(xué)計算機系)
[0019](王小東,北京大學(xué)中文系)
[0020](李文,清華大學(xué)計算機系)
[0021](李文,北京大學(xué)中文系)
[0022]在現(xiàn)有結(jié)果集中,對每個潛在關(guān)系對進行機器學(xué)習(xí)(步驟23)。例如采用精確檢索,得到兩個潛在關(guān)系對:(劉天,清華大學(xué)計算機系)和(李文,北京大學(xué)中文系)。認(rèn)為該潛在關(guān)系對是明確的關(guān)系對。
[0023]將該兩個關(guān)系對標(biāo)注到作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項中(步驟24)。
[0024]將其余4個潛在關(guān)系對標(biāo)到作者和作者單位候選關(guān)系數(shù)據(jù)項中(步驟25)。
[0025]基于以上關(guān)系標(biāo)注,數(shù)據(jù)庫提供基于作者和作者單位相關(guān)的檢索服務(wù)時,將同時對作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項、作者和作者單位候選關(guān)系數(shù)據(jù)項的索引進行檢索。從作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項中返回的結(jié)果作為準(zhǔn)確結(jié)果,從作者和作者單位候選關(guān)系數(shù)據(jù)項中返回的結(jié)果作為候選結(jié)果。這既保證了檢索服務(wù)的查全率,也提高了檢索的準(zhǔn)確率,提高了用戶的檢索體驗。
[0026]雖然本發(fā)明所揭露的實施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本發(fā)明所揭露的精神和范圍的前提下,可以在實施的形式上及細節(jié)上作任何的修改與變化,但本發(fā)明的專利保護范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。
【主權(quán)項】
1.一種作者和作者單位對應(yīng)關(guān)系的識別方法,其特征在于,包括: 將文獻中作者和作者單位對應(yīng)關(guān)系明確的數(shù)據(jù)添加到結(jié)果集,并標(biāo)注作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項,對關(guān)系不明確的數(shù)據(jù)形成多對多的潛在關(guān)系對; 利用結(jié)果集對潛在關(guān)系對進行機器學(xué)習(xí)。對在結(jié)果集中找到的潛在關(guān)系對,就在作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項中標(biāo)注;在結(jié)果集中找不到的潛在關(guān)系對,就在數(shù)據(jù)庫中的作者和作者單位候選對應(yīng)關(guān)系數(shù)據(jù)項中標(biāo)注; 在提供與作者相關(guān)的檢索服務(wù)時,同時提供對作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項、作者和作者單位候選對應(yīng)關(guān)系數(shù)據(jù)項兩項內(nèi)容的檢索結(jié)果,前部分作為準(zhǔn)確的檢索結(jié)果,后部分作為候選的檢索結(jié)果。2.如權(quán)利要求1所述的方法,其特征在于,所述結(jié)果集包括能夠明確確定作者與作者單位對應(yīng)關(guān)系的二元組集合,包括作者和作者單位信息,為便于使用,需要對作者和作者單位數(shù)據(jù)項建立相應(yīng)的全文索引或標(biāo)識索引。3.如權(quán)利要求1所述的方法,其特征在于,所述作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項是指文獻數(shù)據(jù)庫中用于記錄作者和作者單位對應(yīng)關(guān)系的元數(shù)據(jù)項,記錄格式是作者和作者單位信息二元組。4.如權(quán)利要求1所述的方法,其特征在于,所述潛在關(guān)系對包括文獻中不能明確確定作者與作者單位對應(yīng)關(guān)系的數(shù)據(jù),將每個作者與所有單位進行多對多對應(yīng),形成的作者與作者單位信息二元組。5.如權(quán)利要求1所述的方法,其特征在于,所述對潛在關(guān)系對進行機器學(xué)習(xí)是指將每個潛在關(guān)系對在結(jié)果集中進行檢索,確定潛在關(guān)系對在結(jié)果集中是否存在。6.如權(quán)利要求5所述的方法,其特征在于,所述在結(jié)果集中進行檢索包括按潛在關(guān)系對中的作者和作者單位信息在結(jié)果集中進行全文精確檢索,模糊檢索,或者其他相似性判斷操作,以確定潛在關(guān)系對在結(jié)果集中是否存在。7.如權(quán)利要求1所述的方法,其特征在于,所述作者和作者單位候選對應(yīng)關(guān)系數(shù)據(jù)項是指文獻數(shù)據(jù)庫中用于記錄作者和作者單位候選對應(yīng)關(guān)系的元數(shù)據(jù)項,記錄格式是作者和作者單位信息二元組。8.如權(quán)利要求2、3、4和7所述的方法,其特征在于,所述二元組包括作者和作者單位兩部分文本信息,或標(biāo)識信息,為便于使用,需要對二元組中的各數(shù)據(jù)元進行全文索引或標(biāo)識索引。9.如權(quán)利要求1所述的方法,其特征在于,所述與作者相關(guān)的檢索服務(wù)包括在文獻數(shù)據(jù)庫中提供按作者、作者單位進行精確檢索或模糊檢索,返回滿足條件的檢索結(jié)果和記錄數(shù)。
【專利摘要】本發(fā)明旨在提出一種文獻作者和作者單位對應(yīng)關(guān)系的識別方法?;谖墨I著錄中作者和作者單位對應(yīng)關(guān)系的可靠性將對應(yīng)關(guān)系分為兩類:能夠明確對應(yīng)上的,形成結(jié)果集,在作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項中準(zhǔn)確標(biāo)注;不能明確對應(yīng)上的多對多關(guān)系,生成潛在關(guān)系對。在結(jié)果集中檢索每個潛在關(guān)系對,如果找到,就在作者和作者單位對應(yīng)關(guān)系數(shù)據(jù)項中標(biāo)注。如果沒找到,就在作者和作者單位候選對應(yīng)關(guān)系數(shù)據(jù)項中標(biāo)注。在提供作者相關(guān)檢索服務(wù)時,同時對關(guān)系數(shù)據(jù)項和候選對應(yīng)關(guān)系數(shù)據(jù)項進行檢索,前部分作為準(zhǔn)確結(jié)果,后部分作為候選結(jié)果。同時滿足了檢索查全率和準(zhǔn)確率,提高了用戶體驗。
【IPC分類】G06F17/30
【公開號】CN105005626
【申請?zhí)枴緾N201510478088
【發(fā)明人】薛德軍
【申請人】薛德軍
【公開日】2015年10月28日
【申請日】2015年8月7日