文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置的制造方法

文檔序號(hào)：9687630閱讀：496來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置的制造方法
【專利說(shuō)明】
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域，尤其涉及一種文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置。
【【背景技術(shù)】】
[0002]科研工作者在進(jìn)行科學(xué)研究的時(shí)候，需要查找科研文獻(xiàn)做調(diào)查。通常在查找科研文獻(xiàn)時(shí)，需要精確查找到某篇具體的文章，并且盡可能多地找到該文章的電子來(lái)源渠道。但在實(shí)際檢索的時(shí)候會(huì)遇到一些不便。
[0003]由于科研人員眾多，發(fā)表的科研文獻(xiàn)也非常多，存在一些作者相同、標(biāo)題相同的文獻(xiàn)，用戶需要甄別哪些是同一篇文獻(xiàn)，哪些不是，最后確定自己真正所需要的。這個(gè)過(guò)程比較繁瑣，增加了用戶的查找成本。
[0004]如圖1所示，當(dāng)用戶搜索文獻(xiàn)時(shí)，某篇文獻(xiàn)可能會(huì)有多種電子來(lái)源渠道，并且每個(gè)電子來(lái)源渠道的數(shù)據(jù)質(zhì)量不一，用戶無(wú)法獲取同一篇文獻(xiàn)的所有電子來(lái)源，只能檢索看到某條來(lái)源就查看某條來(lái)源，不利于篩選優(yōu)質(zhì)和有權(quán)限的資源，降低了用戶體驗(yàn)。
【
【發(fā)明內(nèi)容】
】
[0005]本發(fā)明提供了一種文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置，以便于實(shí)現(xiàn)相同文獻(xiàn)的歸一化，為提高文獻(xiàn)搜索的效果提供基礎(chǔ)。
[0006]具體技術(shù)方案如下:
[0007]—種文獻(xiàn)歸一方法，包括:
[0008]獲取一個(gè)以上網(wǎng)站來(lái)源的文獻(xiàn)；
[0009]對(duì)所獲取的文獻(xiàn)進(jìn)行標(biāo)準(zhǔn)化；
[0010]根據(jù)標(biāo)準(zhǔn)化后的文獻(xiàn)的標(biāo)題的相似度，將相似標(biāo)題的文獻(xiàn)進(jìn)行聚類得到多個(gè)文獻(xiàn)集合；
[0011]在每個(gè)文獻(xiàn)集合中計(jì)算文獻(xiàn)的相似度，根據(jù)所計(jì)算的文獻(xiàn)的相似度篩選出符合條件的文獻(xiàn)集合；
[0012]對(duì)篩選出的符合條件的文獻(xiàn)集合，進(jìn)行相同文獻(xiàn)的聚類，并將相同的文獻(xiàn)的發(fā)表來(lái)源進(jìn)行匯總。
[0013]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述文獻(xiàn)的標(biāo)題的相似度采用以下方式中的至少一種確定:
[0014]針對(duì)文獻(xiàn)的標(biāo)題計(jì)算簽名，計(jì)算文獻(xiàn)的標(biāo)題簽名之間的相似度；
[0015]計(jì)算文獻(xiàn)的標(biāo)題之間的海明距離，依據(jù)海明距離確定文獻(xiàn)標(biāo)題之間的相似度。
[0016]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，在所述在每個(gè)文獻(xiàn)集合中計(jì)算文獻(xiàn)的相似度之前，該方法還包括:
[0017]根據(jù)標(biāo)準(zhǔn)化后的文獻(xiàn)的作者，發(fā)表來(lái)源和發(fā)表年份中至少一種屬性的相似度，將相似的文獻(xiàn)進(jìn)行聚類得到多個(gè)文獻(xiàn)集合。
[0018]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述根據(jù)標(biāo)準(zhǔn)化后的文獻(xiàn)的作者，發(fā)表來(lái)源和發(fā)表年份中至少一種屬性的相似度采用以下方式中的至少一種確定:
[0019]將標(biāo)準(zhǔn)化后的文獻(xiàn)的作者，發(fā)表來(lái)源及發(fā)表年份合并為字符串，計(jì)算合并后的字符串的簽名，計(jì)算文獻(xiàn)的合并后的字符串的簽名之間的相似度；
[0020]將標(biāo)準(zhǔn)化后的文獻(xiàn)的作者，發(fā)表來(lái)源及發(fā)表年份合并為字符串，計(jì)算合并后的字符串之間的海明距離，依據(jù)海明距離確定文獻(xiàn)的作者，發(fā)表來(lái)源及發(fā)表年份的相似度。
[0021]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，在得到多個(gè)文獻(xiàn)集合之后，且在每個(gè)文獻(xiàn)集合中計(jì)算文獻(xiàn)的相似度之前，該方法還包括:
[0022]基于文獻(xiàn)集合中文獻(xiàn)間的海明距離，篩選出海明距離小于或等于預(yù)設(shè)閾值的文獻(xiàn)隹A
口 O
[0023]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述根據(jù)所計(jì)算的文獻(xiàn)的相似度篩選出符合條件的文獻(xiàn)集合，包括:
[0024]在每一個(gè)文獻(xiàn)集合中，根據(jù)預(yù)先設(shè)置的各文獻(xiàn)屬性所對(duì)應(yīng)的權(quán)重，計(jì)算每個(gè)文獻(xiàn)集合中各文獻(xiàn)間的相似度，將各文獻(xiàn)間的相似度大于預(yù)設(shè)總分的文獻(xiàn)集合確定為符合條件的文獻(xiàn)集合。
[0025]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述對(duì)篩選出的符合條件的文獻(xiàn)集合，進(jìn)行相同文獻(xiàn)的聚類，包括:
[0026]分別針對(duì)篩選出的每個(gè)符合條件的文獻(xiàn)集合執(zhí)行鍵值對(duì)形成過(guò)程，所述鍵值對(duì)形成過(guò)程包括:分別將各文獻(xiàn)作為key，其他文獻(xiàn)作為該key對(duì)應(yīng)的value，從而形成至少兩個(gè)key-value對(duì)；
[0027]依據(jù)得到的所有key-value對(duì)，將key相同的key-value對(duì)聚類到一個(gè)集合；
[0028]分別針對(duì)得到的集合轉(zhuǎn)至執(zhí)行所述鍵值對(duì)形成過(guò)程，直至達(dá)到預(yù)設(shè)的迭代次數(shù)。
[0029]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述標(biāo)準(zhǔn)化包括:
[0030]對(duì)文獻(xiàn)的第一作者的全名進(jìn)行分詞處理，提取每個(gè)單詞的首字母，將提取的首字母組合作為標(biāo)準(zhǔn)化后的文獻(xiàn)作者;或者，
[0031]提取文獻(xiàn)摘要的主體部分中最長(zhǎng)的句子，計(jì)算該最長(zhǎng)句子的簽名;或者，
[0032]統(tǒng)一文獻(xiàn)來(lái)源的格式;或者，
[0033]統(tǒng)一文獻(xiàn)發(fā)表時(shí)間的格式，或者僅提取文獻(xiàn)發(fā)表時(shí)間的年份。
[0034]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述針對(duì)文獻(xiàn)的標(biāo)題計(jì)算簽名，包括:
[0035]將文獻(xiàn)的標(biāo)題切分成多個(gè)子標(biāo)題，計(jì)算每個(gè)子標(biāo)題的長(zhǎng)度，提取子標(biāo)題的長(zhǎng)度大于預(yù)設(shè)長(zhǎng)度的子標(biāo)題；
[0036]確定所提取的子標(biāo)題的n-gram特征，所述η的取值為從I到N的正整數(shù)，所述N為預(yù)設(shè)的正整數(shù)；
[0037]依據(jù)所確定的n-gram特征，計(jì)算文獻(xiàn)的標(biāo)題的簽名。
[0038]一種文獻(xiàn)搜索方法，該方法包括:
[0039]接收用戶輸入的關(guān)鍵詞；
[0040]根據(jù)所述關(guān)鍵詞，搜索與所述關(guān)鍵詞相關(guān)聯(lián)的文獻(xiàn)；
[0041]在搜索結(jié)果中，將相同文獻(xiàn)進(jìn)行聚合展現(xiàn)，并展現(xiàn)各文獻(xiàn)的發(fā)表來(lái)源；
[0042]其中相同文獻(xiàn)采用所述文獻(xiàn)歸一的方法進(jìn)行歸一化。
[0043]—種文獻(xiàn)歸一裝置，包括:
[0044]獲取單元，用于獲取一個(gè)以上網(wǎng)站來(lái)源的文獻(xiàn)；
[0045]標(biāo)準(zhǔn)化單元，用于對(duì)所獲取的文獻(xiàn)進(jìn)行標(biāo)準(zhǔn)化；
[0046]第一聚類單元，用于根據(jù)標(biāo)準(zhǔn)化后的文獻(xiàn)的標(biāo)題的相似度，將相似標(biāo)題的文獻(xiàn)進(jìn)行聚類得到多個(gè)文獻(xiàn)集合；
[0047]第一篩選單元，用于在每個(gè)文獻(xiàn)集合中計(jì)算文獻(xiàn)的相似度，根據(jù)所計(jì)算的文獻(xiàn)的相似度篩選出符合條件的文獻(xiàn)集合；
[0048]第二聚類單元，用于對(duì)篩選出的符合條件的文獻(xiàn)集合，進(jìn)行相同文獻(xiàn)的聚類，并將相同的文獻(xiàn)的發(fā)表來(lái)源進(jìn)行匯總。
[0049]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述第一聚類單元采用以下方式中的至少一種確定文獻(xiàn)的標(biāo)題的相似度:
[0050]針對(duì)文獻(xiàn)的標(biāo)題計(jì)算簽名，計(jì)算文獻(xiàn)的標(biāo)題簽名之間的相似度；
[0051]計(jì)算文獻(xiàn)的標(biāo)題之間的海明距離，依據(jù)海明距離確定文獻(xiàn)標(biāo)題之間的相似度。
[0052]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述第一聚類單元，還用于在所述在每個(gè)文獻(xiàn)集合中計(jì)算文獻(xiàn)的相似度之前，根據(jù)標(biāo)準(zhǔn)化后的文獻(xiàn)的作者，發(fā)表來(lái)源和發(fā)表年份中至少一種屬性的相似度，將相似的文獻(xiàn)進(jìn)行聚類得到多個(gè)文獻(xiàn)集合。
[0053]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述第一聚類單元采用以下方式中的至少一種確定所述至少一種屬性的相似度:
[0054]將標(biāo)準(zhǔn)化后的文獻(xiàn)的作者，發(fā)表來(lái)源及發(fā)表年份合并為字符串，計(jì)算合并后的字符串的簽名，計(jì)算文獻(xiàn)的合并后的字符串的簽名之間的相似度；
[0055]將標(biāo)準(zhǔn)化后的文獻(xiàn)的作者，發(fā)表來(lái)源及發(fā)表年份合并為字符串，計(jì)算合并后的字符串之間的海明距離，依據(jù)海明距離確定文獻(xiàn)的作者，發(fā)表來(lái)源及發(fā)表年份的相似度。
[0056]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，還包括:
[0057]第二篩選單元，用于在得到多個(gè)文獻(xiàn)集合之后，且在每個(gè)文獻(xiàn)集合中計(jì)算文獻(xiàn)的相似度之前，基于文獻(xiàn)集合中文獻(xiàn)間的海明距離，篩選出海明距離小于或等于預(yù)設(shè)閾值的文獻(xiàn)集合。
[0058]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述第一篩選單元具體用于，在每一個(gè)文獻(xiàn)集合中，根據(jù)預(yù)先設(shè)置的各文獻(xiàn)屬性所對(duì)應(yīng)的權(quán)重，計(jì)算每個(gè)文獻(xiàn)集合中各文獻(xiàn)間的相似度，將各文獻(xiàn)間的相似度大于預(yù)設(shè)總分的文獻(xiàn)集合確定為符合條件的文獻(xiàn)集合。
[0059]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述第二聚類單元在對(duì)篩選出的符合條件的文獻(xiàn)集合，進(jìn)行相同文獻(xiàn)的聚類時(shí)，具體執(zhí)行:
[0060]分別針對(duì)篩選出的每個(gè)符合條件的文獻(xiàn)集合執(zhí)行鍵值對(duì)形成過(guò)程，所述鍵值對(duì)形成過(guò)程包括:分別將各文獻(xiàn)作為key，其他文獻(xiàn)作為該key對(duì)應(yīng)的value，從而形成至少兩個(gè)key-value對(duì)；
[0061 ] 依據(jù)得到的所有key-value對(duì)，將key相同的key-value對(duì)聚類到一個(gè)集合；
[0062]分別針對(duì)得到的集合轉(zhuǎn)至執(zhí)行所述鍵值對(duì)形成過(guò)程，直至達(dá)到預(yù)設(shè)的迭代次數(shù)。
[0063]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述標(biāo)準(zhǔn)化單元，具體用于:
[0064]對(duì)文獻(xiàn)的第一作者的全名進(jìn)行分詞處理，提取每個(gè)單詞的首字母，將提取的首字母組合作為標(biāo)準(zhǔn)化后的文獻(xiàn)作者;或者，
[0065]提取文獻(xiàn)摘要的主體部分中最長(zhǎng)的句子，計(jì)算該最長(zhǎng)句子的簽名;或者，
[0066]統(tǒng)一文獻(xiàn)來(lái)源的格式;或者，
[0067 ]統(tǒng)一文獻(xiàn)發(fā)表時(shí)間的格式，或者僅提取文獻(xiàn)發(fā)表時(shí)間的年份。
[0068]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述第一聚類單元在針對(duì)文獻(xiàn)的標(biāo)題計(jì)算簽名時(shí)，具體執(zhí)行:
[0069]將文獻(xiàn)的標(biāo)題切分成多個(gè)子標(biāo)題，計(jì)算每個(gè)子標(biāo)題的長(zhǎng)度，提取子標(biāo)題的長(zhǎng)度大于預(yù)設(shè)長(zhǎng)度的子標(biāo)題；
[0070]確定所提取子標(biāo)題的n-gram特征，所述η的取值為從I到N的正整數(shù)，所述N為預(yù)設(shè)的正整數(shù)
[007? ]依據(jù)所確定的n-gram特征，計(jì)算文獻(xiàn)的標(biāo)題的簽名。
[0072]一種文獻(xiàn)搜索裝置，該裝置包括:
[0073]接收單元，用于接收用戶輸入的關(guān)鍵詞；
[0074]匹配單元，用于根據(jù)所述關(guān)鍵詞，搜索出與所述關(guān)鍵詞相關(guān)聯(lián)的文獻(xiàn)；
[0075]展現(xiàn)單元，用于在搜索結(jié)果中，將相同文獻(xiàn)進(jìn)行聚合展現(xiàn)，并展現(xiàn)各文獻(xiàn)的發(fā)表來(lái)源，其中相同文獻(xiàn)采用所述文獻(xiàn)歸一的裝置進(jìn)行歸一化。
[0076]由以上技術(shù)方案可以看出，本發(fā)明能精確地將相同的文獻(xiàn)聚合在一起，并清晰地提供文獻(xiàn)來(lái)源，當(dāng)用戶搜索文獻(xiàn)時(shí)，能夠?qū)⑼黄墨I(xiàn)的不同發(fā)表來(lái)源匯聚到一起呈現(xiàn)給用戶，提升了用戶體驗(yàn)。
【【附圖說(shuō)明】】
[0077]圖1是現(xiàn)有技術(shù)中搜索文獻(xiàn)的示意圖。
[0078]圖2是本發(fā)明實(shí)施例提供的文獻(xiàn)歸一方法的流程圖。
[0079]圖3是本發(fā)明實(shí)施例中對(duì)作者進(jìn)行標(biāo)準(zhǔn)化的示意圖。
[0080]圖4是本發(fā)明實(shí)施例提供的對(duì)相同的文獻(xiàn)進(jìn)行聚類的示意圖。
[0081 ]圖5是本發(fā)明實(shí)施例提供的一個(gè)搜索結(jié)果展現(xiàn)的示意圖。
[0082]圖6是本發(fā)明實(shí)施例中在reduce階段對(duì)兩個(gè)標(biāo)題的簽名處理的示意圖。
[0083]圖7是本發(fā)明實(shí)施例提供的另一個(gè)文獻(xiàn)歸一的方法流程圖。
[0084]圖8是本發(fā)明實(shí)施例提供的裝置結(jié)構(gòu)示意圖。
[0085]圖9是圖8中第一聚類單元的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
[0086]圖10是圖8中簽名計(jì)算單元的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
[0087]圖11是利用文獻(xiàn)歸一方法進(jìn)行搜索的裝置的結(jié)構(gòu)示意圖。
【【具體實(shí)施方式】】
[0088]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
[0089]圖2是本發(fā)明文獻(xiàn)歸一方法的實(shí)施例一的流程圖。如圖2所示，該文獻(xiàn)歸一方法包括:
[0090]SlO，獲取所有網(wǎng)站來(lái)源的文獻(xiàn)。
[0091]具體地，通過(guò)網(wǎng)絡(luò)爬蟲(chóng)的方式從所有網(wǎng)站獲取文獻(xiàn)。
[0092]Sll，對(duì)所獲取的文獻(xiàn)進(jìn)行標(biāo)準(zhǔn)化。
[0093]在本發(fā)明的實(shí)施例中，所述標(biāo)準(zhǔn)化是對(duì)文件的屬性進(jìn)行標(biāo)準(zhǔn)化，所述文獻(xiàn)的屬性包括，標(biāo)題、作者、摘要、發(fā)表來(lái)源、發(fā)表時(shí)間等。
[0094]具體地，對(duì)標(biāo)題的標(biāo)準(zhǔn)化包括，對(duì)標(biāo)題的切分、半角全角的統(tǒng)一化、去掉標(biāo)題的標(biāo)點(diǎn)等。例如，某篇文獻(xiàn)的標(biāo)題為re:Coagulat1n and--Flocculat1n，經(jīng)過(guò)標(biāo)題的標(biāo)準(zhǔn)化后為re Coagulat1n and—Flocculat1n。
[0095]由于站點(diǎn)的作者可能縮寫(xiě)是不同的，需要對(duì)文獻(xiàn)的作者進(jìn)行標(biāo)準(zhǔn)化。對(duì)作者的標(biāo)準(zhǔn)化的原理是提取文獻(xiàn)的第一作者的全名，將第一作者的全名切分成多個(gè)單詞，提取每個(gè)單詞的首字母，最后將提取的所有首字母排序進(jìn)行排序作為文獻(xiàn)所對(duì)應(yīng)的作

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃岳;馬晉;張顯;張曉婧;曹冰;徐學(xué)睿;李玉鵬;杰藝;
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司;
我是此專利的發(fā)明人

上一篇：一種信息處理方法及電子設(shè)備的制造方法
上一篇：Mp4格式的碎片文件恢復(fù)與重組的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

裝置藝術(shù)參考文獻(xiàn)相關(guān)技術(shù)

推料裝置外文文獻(xiàn)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置的制造方法