專利名稱:一種自動生成網(wǎng)頁的方法及裝置的制作方法
—種自動生成網(wǎng)頁的方法及裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù),特別涉及一種自動生成網(wǎng)頁的方法及裝置。背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的各種信息也越來越豐富,尤其是百科全書類型的網(wǎng)站,給人們查找各類信息提供了極大的便利,例如現(xiàn)有的百度百科、維基百科、互動百科等網(wǎng)站,都是人們獲取各類知識的有力助手。但是英文的百科網(wǎng)站上的網(wǎng)頁內(nèi)容,通常很難讓只懂中文的人閱讀。以往為了把這些目標用戶不能閱讀的信息提供給目標用戶,采用的手段是使用機器翻譯的方法,將這些以目標用戶難以識別的語言形式存在的網(wǎng)頁內(nèi)容翻譯為目標用戶能夠識別的語言形式,但是由于現(xiàn)有的機器翻譯技術(shù)的限制,很難實現(xiàn)在將源語言的網(wǎng)頁翻譯為目標語言的網(wǎng)頁時,保證目標語言網(wǎng)頁的流暢度和可讀性。很多通過機器翻譯得到的目標語言網(wǎng)頁,可讀性都大打折扣,從而極大地影響了用戶對相關(guān)信息的理解。實際上,人們在獲取百科類信息時,并不要求信息的絕對完整性,但是對網(wǎng)頁內(nèi)容的流暢度和可讀性的要求卻較高。也就是說,如果人們希望了解一個介紹歌星邁克爾杰克遜的英文網(wǎng)頁上的內(nèi)容,人們并不是要了解這個英文網(wǎng)頁上每個字詞和句子的含義,而是需要了解這個網(wǎng)頁的主要信息。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種自動生成網(wǎng)頁的方法及裝置,以解決現(xiàn)有技術(shù)在利用源語言的網(wǎng)頁得到目標語言的網(wǎng)頁時存在的難以保證目標語言網(wǎng)頁的流暢度和可讀性的缺陷。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種自動生成網(wǎng)頁的方法,包括根據(jù)第一語言頁面生成第一語言檢索詞;將所述第一語言檢索詞翻譯成第二語言檢索詞,使用所述第二語言檢索詞在第二語言頁面集合中進行檢索,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面;針對所述第一語言頁面中的第一語言句子,從所述第二語言候選頁面中提取與該第一語言句子匹配的第二語言句子,并利用提取的第二語言句子生成最終網(wǎng)頁。根據(jù)本發(fā)明之一優(yōu)選實施例,根據(jù)第一語言頁面生成第一語言檢索詞的步驟包括將第一語言頁面的標題與所述第一語言頁面上各段落的標題名組合形成第一語言檢索詞;或者,將第一語言頁面的標題與所述第一語言頁面上為半結(jié)構(gòu)化數(shù)據(jù)設(shè)置的數(shù)據(jù)標簽名稱組合形成第一語言檢索詞。根據(jù)本發(fā)明之一優(yōu)選實施例,根據(jù)第一語言頁面生成第一語言檢索詞的步驟包括將第一語言頁面中出現(xiàn)頻率最高的N個詞或出現(xiàn)頻率最低的N個詞作為第一語言檢索詞;或者,將第一語言頁面中詞頻-反文檔頻率值最高的N個詞或詞頻-反文檔頻率值最低的N個詞作為第一語言檢索詞;或者,將第一語言頁面中的命名實體作為第一語言檢索詞,其中N為正整數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面的步驟包括將所述第一語言頁面的標題翻譯為第二語言標題;從各個第二語言檢索結(jié)果頁面中選擇標題與所述第二語言標題匹配的第二語言檢索結(jié)果頁面作為第二語言候選頁面。根據(jù)本發(fā)明之一優(yōu)選實施例,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面的步驟包括將所述第一語言頁面的標題翻譯為第二語言標題;分別統(tǒng)計所述第二語言標題在各個第二語言檢索結(jié)果頁面中出現(xiàn)的次數(shù),將所述第二語言標題出現(xiàn)次數(shù)從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面的步驟包括將所述第一語言頁面的標題翻譯為第二語言標題;將所述第二語言標題作為搜索詞進行搜索,得到搜索結(jié)果,并確定各個第二語言檢索結(jié)果頁面在所述搜索結(jié)果中的排名,將排名位于前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面的步驟包括將所述第一語言頁面翻譯為第二語言對比頁面;分別統(tǒng)計各個第二語言檢索結(jié)果頁面包含的與所述第二語言對比頁面相同的詞語的數(shù)量,并將包含的與所述第二語言對比頁面相同的詞語的數(shù)量從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,或者將包含的與所述第二語言對比頁面相同的詞語的數(shù)量占自身頁面所有詞語的數(shù)量的比例從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,在統(tǒng)計各個第二語言檢索結(jié)果頁面包含的與所述第二語言對比頁面相同的詞語的數(shù)量之前進一步包括對所述第二語言對比頁面和各個第二語言檢索結(jié)果頁面進行預(yù)處理,所述預(yù)處理包括分詞、詞形還原或去除停用詞。根據(jù)本發(fā)明之一優(yōu)選實施例,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面的步驟包括分別計算各個第二語言檢索結(jié)果頁面與所述第一語言頁面的主題相似度,將主題相似度排名位于前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,針對所述第一語言頁面中的第一語言句子,從所述第二語言候選頁面中提取與該第一語言句子匹配的第二語言句子的步驟包括針對所述第一語言頁面中的每個第一語言句子,分別計算該第一語言句子與所述第二語言候選頁面中的各個第二語言句子之間的相似度,并判斷該第一語言句子與各個第二語言句子之間的相似度中的最大值是否大于設(shè)定閾值,如果是,則將該最大值對應(yīng)的第二語言句子確定為與該第一語言句子匹配的第二語言句子,其中該第一語言句子與各個第二語言句子之間的相似度由該第一語言句子中的各個可譯詞的權(quán)重之和決定,所述可譯詞是在對應(yīng)的第二語言句子中存在相應(yīng)翻譯詞的詞語。根據(jù)本發(fā)明之一優(yōu)選實施例,在計算包含表示命名實體、時間或數(shù)量的特定可譯詞的第一語言句子與各個第二語言句子之間的相似度時,對所述特定可譯詞的權(quán)重進行加權(quán)。
根據(jù)本發(fā)明之一優(yōu)選實施例,在利用提取的第二語言句子形成最終網(wǎng)頁的步驟中,將提取的各個第二語言句子按照與該第二語言句子對應(yīng)的第一語言句子在所述第一語言頁面中出現(xiàn)的順序排列以形成最終網(wǎng)頁。本發(fā)明還提供了一種自動生成網(wǎng)頁的裝置,包括檢索詞生成單元,用于根據(jù)第一語言頁面生成第一語言檢索詞;檢索單元,用于將所述第一語言檢索詞翻譯成第二語言檢索詞,并使用所述第二語言檢索詞在第二語言頁面集合中進行檢索;候選頁面抽取單元,用于從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面;匹配句子抽取單元,用于針對所述第一語言頁面中的第一語言句子,從所述第二語言候選頁面中提取與該第一語言句子匹配的第二語言句子;網(wǎng)頁生成單元,用于利用提取的第二語言句子生成最終網(wǎng)頁。根據(jù)本發(fā)明之一優(yōu)選實施例,所述檢索詞生成單元將第一語言頁面的標題與所述第一語言頁面上各段落的標題名組合形成第一語言檢索詞;或者,所述檢索詞單元將第一語言頁面的標題與所述第一語言頁面上為半結(jié)構(gòu)化數(shù)據(jù)設(shè)置的數(shù)據(jù)標簽名稱組合形成第一語言檢索詞。根據(jù)本發(fā)明之一優(yōu)選實施例,所述檢索詞生成單元將第一語言頁面中出現(xiàn)頻率最高的N個詞或出現(xiàn)頻率最低的N個詞作為第一語言檢索詞;或者,所述檢索詞生成單元將第一語言頁面中詞頻-反文檔頻率值最高的N個詞或詞頻-反文檔頻率值最低的N個詞作為第一語言檢索詞;或者,所述檢索詞生成單元將第一語言頁面中的命名實體作為第一語言檢索詞,其中N為正整數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,所述候選頁面抽取單元包括第一翻譯子單元,用于將所述第一語言頁面的標題翻譯為第二語言標題;第一確定子單元,用于從各個第二語言檢索結(jié)果頁面中選擇標題與所述第二語言標題匹配的第二語言檢索結(jié)果頁面作為第二語言候選頁面。根據(jù)本發(fā)明之一優(yōu)選實施例,所述候選頁面抽取單元包括第二翻譯子單元,用于將所述第一語言頁面的標題翻譯為第二語言標題;第二確定子單元,用于分別統(tǒng)計所述第二語言標題在各個第二語言檢索結(jié)果頁面中出現(xiàn)的次數(shù),將所述第二語言標題出現(xiàn)次數(shù)從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,所述候選頁面抽取單元包括第三翻譯子單元,用于將所述第一語言頁面的標題翻譯為第二語言標題;第三確定子單元,用于將所述第二語言標題作為搜索詞進行搜索,得到搜索結(jié)果,并確定各個第二語言檢索結(jié)果頁面在所述搜索結(jié)果中的排名,將排名位于前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,所述候選頁面抽取單元包括第四翻譯子單元,用于將所述第一語言頁面翻譯為第二語言對比頁面;第四確定子單元,用于分別統(tǒng)計各個第二語言檢索結(jié)果頁面包含的與所述第二語言對比頁面相同的詞語的數(shù)量,并將包含的與所述第二語言對比頁面相同的詞語的數(shù)量從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,或者將包含的與所述第二語言對比頁面相同的詞語的數(shù)量占自身頁面所有詞語的數(shù)量的比例從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,所述候選頁面抽取單元進一步包括預(yù)處理單元,用于在統(tǒng)計各個第二語言檢索結(jié)果頁面包含的與所述第二語言對比頁面相同的詞語的數(shù)量之前對所述第二語言對比頁面和各個第二語言檢索結(jié)果頁面進行預(yù)處理,所述預(yù)處理包括分詞、詞形還原或去除停用詞。根據(jù)本發(fā)明之一優(yōu)選實施例,所述候選頁面抽取單元包括第一計算子單元,用于分別計算各個第二語言檢索結(jié)果頁面與所述第一語言頁面的主題相似度;第五確定子單元,用于將主題相似度排名位于前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。根據(jù)本發(fā)明之一優(yōu)選實施例,所述匹配句子抽取單元包括第二計算子單元,用于針對所述第一語言頁面上的每個第一語言句子,分別計算該第一語言句子與所述第二語言候選頁面中的各個第二語言句子之間的相似度,其中該第一語言句子與各個第二語言句子之間的相似度由該第一語言句子中的各個可譯詞的權(quán)重之和決定,所述可譯詞是在對應(yīng)的第二語言句子中存在相應(yīng)翻譯詞的詞語;判斷子單元,用于判斷該第一語言句子與各個第 二語言句子之間的相似度中的最大值是否大于設(shè)定閾值,如果是,則將該最大值對應(yīng)的第二語言句子確定為與該第一語言句子匹配的第二語言句子。 根據(jù)本發(fā)明之一優(yōu)選實施例,所述第二計算子單元在計算包含表示命名實體、時間或數(shù)量的特定可譯詞的第一語言句子與各個第二語言句子之間的相似度時,對所述特定可譯詞的權(quán)重進行加權(quán)。根據(jù)本發(fā)明之一優(yōu)選實施例,網(wǎng)頁生成單元將提取的各個第二語言句子按照與該第二語言句子對應(yīng)的第一語言句子在所述第一語言頁面中出現(xiàn)的順序排列以形成最終網(wǎng)頁。由以上技術(shù)方案可以看出,通過本發(fā)明中從目標語言網(wǎng)站上提取與源語言網(wǎng)頁主題相關(guān)的目標語言網(wǎng)頁,并從目標語言網(wǎng)頁中提取出與源語言網(wǎng)頁中的句子含義一致的目標語言句子,可以在保留源語言網(wǎng)頁的主要信息的基礎(chǔ)上,根據(jù)源語言網(wǎng)頁自動生成流暢性高、可讀性強的目標語言網(wǎng)頁。
圖I為本發(fā)明中自動生成網(wǎng)頁的方法的流程示意圖;圖2為本發(fā)明中第一語言網(wǎng)頁的示意圖;圖3為本發(fā)明中數(shù)據(jù)標簽的示意圖;圖4為本發(fā)明中自動生成網(wǎng)頁的裝置的結(jié)構(gòu)示意框圖。
具體實施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述。請參考圖1,圖I為本發(fā)明中自動生成網(wǎng)頁的方法的流程示意圖。如圖I所示,所述方法包括步驟SlOl :根據(jù)第一語言頁面生成第一語言檢索詞。步驟S102 :將第一語言檢索詞翻譯成第二語言檢索詞,使用第二語言檢索詞在第二語言頁面集合中進行檢索,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面。
步驟S103 :針對第一語言頁面中的第一語言句子,從第二語言候選頁面中提取與該第一語言句子匹配的第二語言句子,并利用提取的第二語言句子生成最終網(wǎng)頁。下面對上述步驟進行具體說明。在本發(fā)明的實施例中,第一語言網(wǎng)頁可以是百科類型的網(wǎng)頁。百科類型的網(wǎng)頁是指來源于百科網(wǎng)站或類似于百科網(wǎng)站中的網(wǎng)頁結(jié)構(gòu)的網(wǎng)頁。本發(fā)明中的百科網(wǎng)站是指諸如百度百科、維基百科或互動百科一類的網(wǎng)站。請參考圖2,圖2為本發(fā)明中第一語言網(wǎng)頁的示意圖。圖2中,“阿爾金山脈”是第一語言頁面的標題,該標題表明了網(wǎng)頁的主題,在本發(fā)明的一個實施例中,可以由第一語言頁面的標題與各段落的標題名組合形成第一語言檢索詞。例如圖2中,“地理概述”、“自然特征”及“主要資源”就是各段落的標題名,因此第一檢索詞可以是“阿爾金山脈+地理概述”、“阿爾金山脈+自然特征”或“阿爾金山脈+主要資源”。此外,在另一個實施例中,第一語言檢索詞也可以是第一語言頁面的標題與頁面上為半結(jié)構(gòu)化數(shù)據(jù)設(shè)置的數(shù)據(jù)標簽名稱的組合。百科網(wǎng)站大多對詞條數(shù)據(jù)進行了組織,對一個詞條從各個不同角度進行介紹,這種在一個主題下形成的各個不同維度的數(shù)據(jù)就是半結(jié)構(gòu)化的數(shù)據(jù)。通常百科頁面上為這些半結(jié)構(gòu)化的數(shù)據(jù)設(shè)置有數(shù)據(jù)標簽,數(shù)據(jù)標簽名稱是對半結(jié)構(gòu)化數(shù)據(jù)各個維度的介紹的概括。請參考圖3,圖3為本發(fā)明中數(shù)據(jù)標簽的示意圖。在圖3中的右側(cè)的詞條目錄就是數(shù)據(jù)標簽,“制作方法”、“分辨方法”、“假鈔危害”等等,是數(shù)據(jù)標簽名稱,因此將標題“假鈔”與上述數(shù)據(jù)標簽名稱組合,也可以得到本發(fā)明中的第一語言檢索詞。此外,第一語言檢索詞也可以是第一語言頁面中出現(xiàn)頻率最高的N個詞或出現(xiàn)頻率最低的N個詞,或者是第一語言頁面中詞頻-反文檔頻率(TF-1DF,termfrequency-1nverse document frequency)值最高的N個詞或詞頻-反文檔頻率值最低的N個詞,或者是第一語言頁面中的命名實體,其中N為正整數(shù)。假設(shè)第一語言頁面是一個以歌星“Michael Jackson”為標題的英文頁面,第一語言檢索詞包括“Michael Jackson+Life and career”、“Michael Jackson +Artistry”或“Michael Jackson+Honors and awards”等,那么如果第二語言是中文,則第二語言檢索詞包括“邁克爾杰克遜+生平”、“邁克爾杰克遜+藝術(shù)成就”或“邁克爾杰克遜+榮譽”等。利用上述的第二語言檢索詞在互聯(lián)網(wǎng)上進行檢索,可以得到包含上述第二語言檢索詞的檢索結(jié)果頁面。這些頁面中,有些頁面的內(nèi)容是與希望獲取的歌星“邁克爾杰克遜”的經(jīng)歷相關(guān)的,但是有些頁面雖然包含了“邁克爾杰克遜”,卻很可能只是為了介紹一場音樂演出,因此,本發(fā)明需要從這些檢索結(jié)果頁面中提取出與第一語言頁面主題相關(guān)的頁面作為第二語言候選頁面。在本發(fā)明的一些實施例中,提取第二語言候選頁面的方法首先包括將第一語言頁面的標題翻譯為第二語言標題,例如將“Michael Jackson”翻譯為“邁克爾杰克遜”,然后在一個實施例中,提取第二語言候選頁面的方法進一步包括從各個第二語言檢索結(jié)果頁面中選擇標題與第二語言標題匹配的第二語言檢索結(jié)果頁面作為第二語言候選頁面。例如從上述包含“邁克爾杰克遜”的檢索結(jié)果頁面中選擇那些標題為“邁克爾杰克遜”的頁面為第二語目候選頁面。在本發(fā)明的另一個實施例中,提取第二語言候選頁面的方法還可以是在將第一語言頁面的標題翻譯為第二語言標題后,分別統(tǒng)計第二語言標題在各個第二語言檢索結(jié)果頁面中出現(xiàn)的次數(shù),將第二語言標題出現(xiàn)次數(shù)從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。在本發(fā)明的另一個實施例中,提取第二語言候選頁面的方法還可以是在將第一語言頁面的標題翻譯為第二語言標題后,將第二語言標題作為搜索詞進行搜索,得到搜索結(jié)果,并確定各個第二語言檢索結(jié)果頁面在該搜索結(jié)果中的排名,將排名位于前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。在該實施例中利用了搜索工具的排序功能,根據(jù)搜索工具返回的搜索結(jié)果的排序情況確定各個第二語言檢索結(jié)果頁面與第一語言頁面的主題的相關(guān)度。在本發(fā)明的另一個實施例中,提取第二語言候選頁面的方法還可以是將第一語言頁面翻譯為第二語言對比頁面;分別統(tǒng)計各個第二語言檢索結(jié)果頁面包含的與第二語言對比頁面相同的詞語的數(shù)量,包含與第二語言對比頁面相同的詞語的數(shù)量最高的N個第二語言檢索結(jié)果頁面即為第二語言候選頁面。此外,也可以考慮將第二語言檢索結(jié)果頁面包含的與第二語言對比頁面相同的詞語的數(shù)量占自身網(wǎng)頁所有詞語數(shù)量的比例作為選取第二語言候選頁面的依據(jù),因為這個比例越高,說明這個第二語言檢索結(jié)果頁面與第一語言頁面越相關(guān)。在該實施例中,在統(tǒng)計各個第二語言檢索結(jié)果頁面包含的與第二語言對比頁面相同的詞語的數(shù)量之前還可以進一步對第二語言對比頁面和各個第二語言檢索結(jié)果頁面進行預(yù)處理,包括分詞、詞形還原或去除停用詞等。詞形還原是指將一個語言中同一個詞的各個時態(tài)轉(zhuǎn)變?yōu)樗脑?,而停用詞指的是虛詞一類的無意義詞語,例如“啊”、“嗚呼”等,或者一些常用詞,例如代詞“你”、“我”、“他”等。在本發(fā)明的另一個實施例中,提取第二語言候選頁面的方法還可以是利用概率潛在語義分析(PLSA, Probabilistic latent semantic analysis)或 LDA(LatentDirichlet Allocation)的方法分別計算各個第二語言檢索結(jié)果頁面與第一語言頁面的主題相似度,將主題相似度排名位于前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。PLSA和LDA是目前研究較多而且效果較好的兩個主題模型(topic model)。這些模型旨在找出文檔的主題(topic)。以PLSA方法為例,通過參考文獻Duo ZhangjQiaozhuMei,ChengXiang Zhai. 2010. Cross-Lingual Latent Topic Extraction, Proceedings ofthe 48th Annual Meeting of the Association for Computational Linguistics,pages1128-1137,2010(下稱參考文獻I)介紹的方法從一個雙語語料中找到N個跨語言的主題,因此對每個文檔,可以用跨語言的主題表示為
權(quán)利要求
1.一種自動生成網(wǎng)頁的方法,其特征在于,所述方法包括 根據(jù)第一語言頁面生成第一語言檢索詞; 將所述第一語言檢索詞翻譯成第二語言檢索詞,使用所述第二語言檢索詞在第二語言頁面集合中進行檢索,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面; 針對所述第一語言頁面中的第一語言句子,從所述第二語言候選頁面中提取與該第一語言句子匹配的第二語言句子,并利用提取的第二語言句子生成最終網(wǎng)頁。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,根據(jù)第一語言頁面生成第一語言檢索詞的步驟包括將第一語言頁面的標題與所述第一語言頁面上各段落的標題名組合形成第一語言檢索詞;或者,將第一語言頁面的標題與所述第一語言頁面上為半結(jié)構(gòu)化數(shù)據(jù)設(shè)置的數(shù)據(jù)標簽名稱組合形成第一語言檢索詞;或者,將第一語言頁面中出現(xiàn)頻率最高的N個詞或出現(xiàn)頻率最低的N個詞作為第一語言檢索詞;或者,將第一語言頁面中詞頻-反文檔頻率值最高的N個詞或詞頻-反文檔頻率值最低的N個詞作為第一語言檢索詞;或者,將第一語言頁面中的命名實體作為第一語言檢索詞,其中N為正整數(shù)。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面的步驟包括 將所述第一語言頁面的標題翻譯為第二語言標題; 從各個第二語言檢索結(jié)果頁面中選擇標題與所述第二語言標題匹配的第二語言檢索結(jié)果頁面作為第二語言候選頁面。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面的步驟包括 將所述第一語言頁面的標題翻譯為第二語言標題; 分別統(tǒng)計所述第二語言標題在各個第二語言檢索結(jié)果頁面中出現(xiàn)的次數(shù),將所述第二語言標題出現(xiàn)次數(shù)從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面的步驟包括 將所述第一語言頁面的標題翻譯為第二語言標題; 將所述第二語言標題作為搜索詞進行搜索,得到搜索結(jié)果,并確定各個第二語言檢索結(jié)果頁面在所述搜索結(jié)果中的排名,將排名位于前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面的步驟包括 將所述第一語言頁面翻譯為第二語言對比頁面; 分別統(tǒng)計各個第二語言檢索結(jié)果頁面包含的與所述第二語言對比頁面相同的詞語的數(shù)量,并將包含的與所述第二語言對比頁面相同的詞語的數(shù)量從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,或者將包含的與所述第二語言對比頁面相同的詞語的數(shù)量占自身頁面所有詞語的數(shù)量的比例從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在統(tǒng)計各個第二語言檢索結(jié)果頁面包含的與所述第二語言對比頁面相同的詞語的數(shù)量之前進一步包括對所述第二語言對比頁面和各個第二語言檢索結(jié)果頁面進行預(yù)處理,所述預(yù)處理包括分詞、詞形還原或去除停用詞。
8.根據(jù)權(quán)利要求I所述的方法,其特征在于,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面的步驟包括分別計算各個第二語言檢索結(jié)果頁面與所述第一語言頁面的主題相似度,將主題相似度排名位于前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,針對所述第一語言頁面中的第一語言句子,從所述第二語言候選頁面中提取與該第一語言句子匹配的第二語言句子的步驟包括 針對所述第一語言頁面中的每個第一語言句子,分別計算該第一語言句子與所述第二語言候選頁面中的各個第二語言句子之間的相似度,并判斷該第一語言句子與各個第二語言句子之間的相似度中的最大值是否大于設(shè)定閾值,如果是,則將該最大值對應(yīng)的第二語言句子確定為與該第一語言句子匹配的第二語言句子,其中該第一語言句子與各個第二語言句子之間的相似度由該第一語言句子中的各個可譯詞的權(quán)重之和決定,所述可譯詞是在對應(yīng)的第二語言句子中存在相應(yīng)翻譯詞的詞語。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,在計算包含表示命名實體、時間或數(shù)量的特定可譯詞的第一語言句子與各個第二語言句子之間的相似度時,對所述特定可譯詞的權(quán)重進行加權(quán)。
11.根據(jù)權(quán)利要求I所述的方法,其特征在于,在利用提取的第二語言句子形成最終網(wǎng)頁的步驟中,將提取的各個第二語言句子按照與該第二語言句子對應(yīng)的第一語言句子在所述第一語言頁面中出現(xiàn)的順序排列以形成最終網(wǎng)頁。
12.一種自動生成網(wǎng)頁的裝置,其特征在于,所述裝置包括 檢索詞生成單元,用于根據(jù)第一語言頁面生成第一語言檢索詞; 檢索單元,用于將所述第一語言檢索詞翻譯成第二語言檢索詞,并使用所述第二語言檢索詞在第二語言頁面集合中進行檢索; 候選頁面抽取單元,用于從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面; 匹配句子抽取單元,用于針對所述第一語言頁面中的第一語言句子,從所述第二語言候選頁面中提取與該第一語言句子匹配的第二語言句子; 網(wǎng)頁生成單元,用于利用提取的第二語言句子生成最終網(wǎng)頁。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述檢索詞生成單元將第一語言頁面的標題與所述第一語言頁面上各段落的標題名組合形成第一語言檢索詞;或者,所述檢索詞單元將第一語言頁面的標題與所述第一語言頁面上為半結(jié)構(gòu)化數(shù)據(jù)設(shè)置的數(shù)據(jù)標簽名稱組合形成第一語言檢索詞;或者,所述檢索詞生成單元將第一語言頁面中出現(xiàn)頻率最高的N個詞或出現(xiàn)頻率最低的N個詞作為第一語言檢索詞;或者,所述檢索詞生成單元將第一語言頁面中詞頻-反文檔頻率值最高的N個詞或詞頻-反文檔頻率值最低的N個詞作為第一語言檢索詞;或者,所述檢索詞生成單元將第一語言頁面中的命名實體作為第一語言檢索詞,其中N為正整數(shù)。
14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述候選頁面抽取單元包括 第一翻譯子單元,用于將所述第一語言頁面的標題翻譯為第二語言標題; 第一確定子單元,用于從各個第二語言檢索結(jié)果頁面中選擇標題與所述第二語言標題匹配的第二語言檢索結(jié)果頁面作為第二語言候選頁面。
15.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述候選頁面抽取單元包括 第二翻譯子單元,用于將所述第一語言頁面的標題翻譯為第二語言標題; 第二確定子單元,用于分別統(tǒng)計所述第二語言標題在各個第二語言檢索結(jié)果頁面中出現(xiàn)的次數(shù),將所述第二語言標題出現(xiàn)次數(shù)從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。
16.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述候選頁面抽取單元包括 第三翻譯子單元,用于將所述第一語言頁面的標題翻譯為第二語言標題; 第三確定子單元,用于將所述第二語言標題作為搜索詞進行搜索,得到搜索結(jié)果,并確定各個第二語言檢索結(jié)果頁面在所述搜索結(jié)果中的排名,將排名位于前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。
17.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述候選頁面抽取單元包括 第四翻譯子單元,用于將所述第一語言頁面翻譯為第二語言對比頁面; 第四確定子單元,用于分別統(tǒng)計各個第二語言檢索結(jié)果頁面包含的與所述第二語言對比頁面相同的詞語的數(shù)量,并將包含的與所述第二語言對比頁面相同的詞語的數(shù)量從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,或者將包含的與所述第二語言對比頁面相同的詞語的數(shù)量占自身頁面所有詞語的數(shù)量的比例從大到小排列在前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述候選頁面抽取單元進一步包括預(yù)處理單元,用于在統(tǒng)計各個第二語言檢索結(jié)果頁面包含的與所述第二語言對比頁面相同的詞語的數(shù)量之前對所述第二語言對比頁面和各個第二語言檢索結(jié)果頁面進行預(yù)處理,所述預(yù)處理包括分詞、詞形還原或去除停用詞。
19.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述候選頁面抽取單元包括 第一計算子單元,用于分別計算各個第二語言檢索結(jié)果頁面與所述第一語言頁面的主題相似度; 第五確定子單元,用于將主題相似度排名位于前N位的第二語言檢索結(jié)果頁面確定為第二語言候選頁面,其中N為正整數(shù)。
20.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述匹配句子抽取單元包括 第二計算子單元,用于針對所述第一語言頁面上的每個第一語言句子,分別計算該第一語言句子與所述第二語言候選頁面中的各個第二語言句子之間的相似度,其中該第一語言句子與各個第二語言句子之間的相似度由該第一語言句子中的各個可譯詞的權(quán)重之和決定,所述可譯詞是在對應(yīng)的第二語言句子中存在相應(yīng)翻譯詞的詞語; 判斷子單元,用于判斷該第一語言句子與各個第二語言句子之間的相似度中的最大值是否大于設(shè)定閾值,如果是,則將該最大值對應(yīng)的第二語言句子確定為與該第一語言句子匹配的第二語言句子。
21.根據(jù)權(quán)利要求20所述的裝置,其特征在于,所述第二計算子單元在計算包含表示命名實體、時間或數(shù)量的特定可譯詞的第一語言句子與各個第二語言句子之間的相似度時,對所述特定可譯詞的權(quán)重進行加權(quán)。
22.根據(jù)權(quán)利要求12所述的裝置,其特征在于,網(wǎng)頁生成單元將提取的各個第二語言句子按照與該第二語言句子對應(yīng)的第一語言句子在所述第一語 言頁面中出現(xiàn)的順序排列以形成最終網(wǎng)頁。
全文摘要
本發(fā)明提供了一種自動生成網(wǎng)頁的方法及裝置,其中自動生成網(wǎng)頁的方法包括根據(jù)第一語言頁面生成第一語言檢索詞;將所述第一語言檢索詞翻譯成第二語言檢索詞,使用所述第二語言檢索詞在第二語言頁面集合中進行檢索,從各個第二語言檢索結(jié)果頁面中提取第二語言候選頁面;針對所述第一語言頁面中的第一語言句子,從所述第二語言候選頁面中提取與該第一語言句子匹配的第二語言句子,并利用提取的第二語言句子生成最終網(wǎng)頁。通過上述方式,可根據(jù)源語言網(wǎng)頁自動生成流暢性高、可讀性強的目標語言網(wǎng)頁。
文檔編號G06F17/30GK102982030SQ20111025932
公開日2013年3月20日 申請日期2011年9月2日 優(yōu)先權(quán)日2011年9月2日
發(fā)明者藍翔, 沈文竹, 吳甜, 吳華 申請人:北京百度網(wǎng)訊科技有限公司