專利名稱:歌詞搜索方法及搜索引擎的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索技術(shù),特別是涉及一種歌詞搜索方法及搜索引擎。
背景技術(shù):
歌詞搜索技術(shù)是全文檢索在音樂這個(gè)垂直領(lǐng)域的一種延伸。全文檢索是計(jì)算機(jī)程序通過掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞生成一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。當(dāng)用戶查詢時(shí)根據(jù)建立的索引查找,類似于通過字典的檢索字表查字的過程。全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。歌詞搜索技術(shù)就是將歌曲的歌詞進(jìn)行索引,基于這套索引來提供歌詞搜索服務(wù)。 請(qǐng)參閱圖1所示,其為現(xiàn)有技術(shù)中歌詞搜索方法的示意圖。歌詞搜索引擎將所有庫存歌曲的歌詞進(jìn)行分詞處理并生成索引文件,以供用戶在搜索時(shí)使用,在圖1中,歌曲搜索引擎將歌曲歌詞1生成索引文件2 ;索引文件2中,包括KEY、DOCID、COUNT NO.以及DETAIL POST IONS等參數(shù),其中KEY表示分詞,DOCID表示與分詞對(duì)應(yīng)的歌曲ID,COUNT NO.表示該分詞在歌詞中出現(xiàn)的數(shù)量,DETAIL P0STI0NS表示該分詞在歌詞中的具體位置。用戶想要搜索某一歌詞時(shí),首先執(zhí)行步驟Sl 向歌詞搜索引擎輸入搜索關(guān)鍵字;之后執(zhí)行步驟S2 歌詞搜索引擎對(duì)搜索關(guān)鍵字進(jìn)行分詞處理,并依據(jù)所述歌詞搜索引擎中歌詞分詞對(duì)應(yīng)的索引文件,使分詞獲得對(duì)應(yīng)的索引信息;接下來歌詞搜索引擎基于分詞處理得到的分詞進(jìn)行歌詞搜索,并將搜索結(jié)果返回給用戶。通常,將關(guān)鍵字進(jìn)行分詞處理后,會(huì)得到多個(gè)分詞,每個(gè)分詞又會(huì)對(duì)應(yīng)多個(gè)歌曲 ID,基于分詞進(jìn)行歌詞搜索的步驟具體為將多個(gè)分詞的歌曲ID進(jìn)行“邏輯與”操作,即查找多個(gè)分詞均對(duì)應(yīng)的歌曲ID,最終得到的歌曲ID對(duì)應(yīng)的歌詞即為要搜索的歌詞。例如,用戶輸入關(guān)鍵字“我家大門常打開”,歌詞搜索引擎對(duì)關(guān)鍵字進(jìn)行分詞處理后得到分詞“我家”、“大門”、“?!焙汀按蜷_”,其中“我家”對(duì)應(yīng)的歌曲ID的值(COUNT NO.) 包括“1002”,“大門”、“?!焙汀按蜷_”分別對(duì)應(yīng)的歌曲ID的值也包括“1002”,將這些分詞的歌曲ID進(jìn)行“邏輯與”操作后,得到的歌曲ID值為1002,歌曲ID值1002所對(duì)應(yīng)的歌曲為 “北京歡迎你”,這樣,用戶便可得到其欲搜索的“北京歡迎你”的歌詞。但絕大多數(shù)用戶在進(jìn)行歌詞搜索時(shí),并不能夠準(zhǔn)確記憶歌詞,這導(dǎo)致輸入的搜索關(guān)鍵字中出現(xiàn)了歌詞中沒有的字或詞,例如,用戶輸入關(guān)鍵字“我家大門經(jīng)常打開吧”,歌詞搜索引擎對(duì)關(guān)鍵字進(jìn)行分詞處理后得到分詞“我家”、“大門”、“經(jīng)常”、“打開”和“吧”,其中分詞“我家”、“大門”和“打開”分別對(duì)應(yīng)的歌曲ID的值中包括“1002”,而分詞“經(jīng)常”和 “吧”所對(duì)應(yīng)的歌曲ID值中并不包括“1002”,則將這些分詞的歌曲ID進(jìn)行“邏輯與”操作后,得到的歌曲ID值為“0”,因此,用戶因輸入歌詞并不完全準(zhǔn)確,而導(dǎo)致無法得到其欲搜索的歌詞。也就是說,現(xiàn)有技術(shù)中的歌詞搜索技術(shù),必須準(zhǔn)確輸入關(guān)鍵字,才能得到正確的搜索結(jié)果,其智能化程度較低,從而降低了用戶搜索歌詞的效率
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種歌詞搜索方法,所要解決的技術(shù)問題為在輸入關(guān)鍵字不準(zhǔn)確的情況下,仍能正確搜索到歌詞,從而提高搜索歌詞的效率。與上述方法相對(duì)應(yīng),本發(fā)明還提供一種歌詞搜索引擎。本發(fā)明的目的及解決其技術(shù)問題是采用以下技術(shù)方案來實(shí)現(xiàn)的。依據(jù)本發(fā)明提出的一種歌詞搜索方法,用于歌詞搜索引擎,所述歌詞搜索引擎對(duì)其中歌曲歌詞分詞并生成索引文件,其特征在于,該歌詞搜索方法包括以下步驟S1.接收用戶提交的搜索關(guān)鍵字; S2.對(duì)所述搜索關(guān)鍵字進(jìn)行分詞處理,并依據(jù)所述歌曲歌詞分詞對(duì)應(yīng)的索引文件,獲得搜索關(guān)鍵字分詞處理得到的分詞所對(duì)應(yīng)的索引信息;S3.從分詞處理得到的分詞中提取特征詞匯;S4.根據(jù)特征詞匯獲取搜索結(jié)果。本發(fā)明的目的及解決其技術(shù)問題還可采用以下技術(shù)措施進(jìn)一步實(shí)現(xiàn)。前述的歌詞搜索方法,所述步驟S3中,所述特征詞匯為具有相同的歌曲ID且具有該歌曲ID數(shù)量最多的分詞,其中,所述歌曲ID為所述索引信息中的參數(shù)。前述的歌詞搜索方法,所述步驟S3包括S31.分別判斷每一分詞是否與其相鄰的分詞具有相同的歌曲ID,若是,則將所述分詞與相鄰的分詞聚成一組,若否,則將所述分詞作為單獨(dú)一組,其中,所述歌曲ID為所述索引文件中的參數(shù);S32.將具有相同歌曲ID的組聚成大組,其中含有分詞數(shù)量最多的大組中的分詞為特征詞匯。本發(fā)明的目的及解決其技術(shù)問題另外還采用以下技術(shù)方案來實(shí)現(xiàn)。依據(jù)本發(fā)明提出的一種歌詞搜索引擎,包括分詞及索引文件生成單元,用于對(duì)歌曲歌詞進(jìn)行分詞并生成索引文件;輸入單元,用于接收用戶提交的搜索關(guān)鍵字;分詞處理單元,用于對(duì)所述搜索關(guān)鍵字進(jìn)行分詞處理,并依據(jù)所述分詞及索引文件生成單元中歌詞分詞對(duì)應(yīng)的索引文件,獲得搜索關(guān)鍵字分詞處理得到的分詞所對(duì)應(yīng)的索引信息;特征詞匯提取單元,用于從所述分詞處理單元所得到的分詞中提取特征分詞;以及搜索結(jié)果獲取單元,用于根據(jù)所述特征詞匯獲取搜索結(jié)果。本發(fā)明的目的及解決其技術(shù)問題還可采用以下技術(shù)措施進(jìn)一步實(shí)現(xiàn)。前述的歌詞搜索引擎,所述特征詞匯為具有相同的歌曲ID且具有該歌曲ID數(shù)量最多的分詞,其中,所述歌曲ID為所述索引信息中的參數(shù)。前述的歌詞搜索引擎,所述特征詞匯提取單元包括分詞聚合模塊,用于判斷從所述分詞處理單元得到的每一分詞是否與其相鄰的分詞具有相同的歌曲ID,若是,則將所述分詞與相鄰的分詞聚成一組,若否,則將所述分詞作為單獨(dú)一組,其中,歌曲ID為索引信息中的參數(shù);組聚合模塊,用于將具有相同歌曲ID的組聚成大組,其中含有分詞數(shù)量最多的大組中的分詞為特征詞匯。由上述技術(shù)方案可知,本發(fā)明的實(shí)施例通過從分詞處理得到的分詞中提取特征詞匯,再根據(jù)特征詞匯得出搜索結(jié)果,具有以下有益效果即使用戶輸入歌詞并不準(zhǔn)確,經(jīng)由本發(fā)明提取出準(zhǔn)確的特征詞匯后,也能得到正確的搜索結(jié)果,進(jìn)而提高搜索歌詞的效率,實(shí)現(xiàn)了模糊搜索。通過以下參照附圖對(duì)優(yōu)選實(shí)施例的說明,本發(fā)明的上述以及其它目的、特征和優(yōu)點(diǎn)將更加明顯。
圖1為現(xiàn)有技術(shù)中歌詞搜索方法的示意圖;圖2為本發(fā)明歌詞搜索方法一實(shí)施例的流程圖;圖3為本發(fā)明一具體實(shí)施例中搜索引擎將歌詞分詞后生成的索引文件的結(jié)構(gòu)示意圖;圖4為本發(fā)明一具體實(shí)施例中關(guān)鍵字分詞后得到的索引信息示意圖;圖5為本發(fā)明提取特征詞匯的一實(shí)施例的流程圖;圖6為本發(fā)明一具體實(shí)施例的組聚合示意圖;圖7為本發(fā)明提出的歌詞搜索引擎實(shí)施例的示意圖。
具體實(shí)施例方式下面將詳細(xì)描述本發(fā)明的具體實(shí)施例。應(yīng)當(dāng)注意,這里描述的實(shí)施例只用于舉例說明,并不用于限制本發(fā)明。請(qǐng)參閱圖2所示,其為本發(fā)明一實(shí)施例的歌詞搜索方法的流程圖。該方法用于歌詞搜索引擎,所述歌詞搜索引擎將其包含的歌曲歌詞進(jìn)行分詞并生成索引文件,以供用戶在搜索時(shí)使用,其中,對(duì)歌詞進(jìn)行分詞可采用現(xiàn)有技術(shù)中的方法,例如最大匹配分詞算法, 并為分詞生成索引文件,所生成的索引文件例如為圖1中索引文件的結(jié)構(gòu)。本實(shí)施例中的歌詞搜索方法包括以下步驟步驟Sl 接收用戶提交的搜索關(guān)鍵字;步驟S2 對(duì)搜索關(guān)鍵字進(jìn)行分詞處理,并依據(jù)歌詞搜索引擎中歌曲歌詞分詞對(duì)應(yīng)的索引文件,獲得搜索關(guān)鍵字分詞處理得到的分詞所對(duì)應(yīng)的索引信息;由于歌詞搜索引擎中已存儲(chǔ)有各個(gè)歌曲歌詞的分詞及對(duì)應(yīng)的索引文件,因此,當(dāng)通過對(duì)搜索關(guān)鍵字進(jìn)行分詞處理得到分詞后,可從搜索引擎中獲取每個(gè)分詞所對(duì)應(yīng)的索引 fn息ο需要說明的是,本發(fā)明的歌詞搜索引擎對(duì)其包含的歌曲歌詞分詞和索引文件的生成,以及對(duì)搜索關(guān)鍵字的分詞處理均可采用現(xiàn)有技術(shù)中的方法,本發(fā)明不就具體細(xì)節(jié)加以說明,僅就發(fā)明的改進(jìn)之處加以詳細(xì)描述。步驟S3 從分詞處理得到的分詞中提取特征詞匯;步驟S4 根據(jù)特征詞匯獲取搜索結(jié)果?,F(xiàn)有技術(shù)中,歌詞搜索引擎基于分詞處理得到的分詞進(jìn)行歌詞搜索;而本發(fā)明的實(shí)施例中,需從分詞處理得到的分詞中提取出特征詞匯,再根據(jù)特征詞匯得出搜索結(jié)果,其中,特征詞匯為包含在歌詞中的準(zhǔn)確詞匯,這樣,即使用戶輸入歌詞并不準(zhǔn)確,經(jīng)由本發(fā)明提取出準(zhǔn)確的特征詞匯后,便能得到正確的搜索結(jié)果,進(jìn)而提高搜索歌詞的效率。下面通過一具體實(shí)施例來詳細(xì)介紹本發(fā)明的技術(shù)方案。在本實(shí)施例中,歌詞搜索引擎使用最大匹配分詞算法,將其庫存的所有歌曲的歌詞進(jìn)行分詞并寫入索引文件中,其中,歌曲《北京歡迎你》的歌詞所得到的索引文件結(jié)構(gòu)如圖3所示,這里,索引文件采用哈希Map進(jìn)行存儲(chǔ)。歌詞搜索引擎將歌詞“我家大門常打開, 開放懷抱等你,擁抱過就有了默契,你會(huì)愛上這里……”分成16個(gè)分詞,每個(gè)分詞對(duì)應(yīng)各自的索引參數(shù),參數(shù)可包括歌曲ID、歌曲ID值、分詞在歌詞中出現(xiàn)的次數(shù)以及出現(xiàn)的位置等,圖3中僅列舉了分詞所對(duì)應(yīng)的docid值及該分詞出現(xiàn)的次數(shù)。本領(lǐng)域技術(shù)人員可以理解,分詞所對(duì)應(yīng)的索引文件結(jié)構(gòu)并不以本具體實(shí)施例中列舉的結(jié)構(gòu)為限。當(dāng)用戶想要通過歌曲搜索引擎搜索某一歌詞時(shí),首先向歌詞搜索引擎輸入搜索關(guān)鍵字,例如,輸入關(guān)鍵字“我家大門經(jīng)常打開吧”,搜索引擎對(duì)該關(guān)鍵字進(jìn)行分詞處理后得到分詞“我家”、“大門”、“經(jīng)?!?、“打開”和“吧”,通過查找搜索引擎存儲(chǔ)的哈希Map來得到每個(gè)分詞所對(duì)應(yīng)索引的詳細(xì)參數(shù),上述分詞對(duì)應(yīng)的索引信息參數(shù)如圖4所示?,F(xiàn)有技術(shù)中,基于上述分詞進(jìn)行歌詞搜索,即將多個(gè)分詞的歌曲ID進(jìn)行“邏輯與” 操作,來找出同時(shí)包含這些分詞的歌曲。但如圖4所示,在用戶輸入的歌詞不全正確的情況下,“邏輯與”操作的結(jié)果必然是為空的,結(jié)果導(dǎo)致用戶無法找到自己想要的歌詞。為克服現(xiàn)有技術(shù)的這個(gè)缺陷,本實(shí)施例中,先從分詞中提取出特征詞匯,再根據(jù)特征詞匯得出搜索結(jié)果,請(qǐng)參閱圖5所示,具體步驟包括S31.分別判斷每一分詞是否與其相鄰的分詞具有相同的歌曲ID,若是,則將所述分詞與相鄰的分詞聚成一組,若否,則將所述分詞作為單獨(dú)一組,其中,歌曲ID為索引文件中的參數(shù);判斷的具體過程例如為從第一個(gè)分詞開始依次與相鄰的分詞進(jìn)行“邏輯與”操作,若存在相同的歌曲ID,則聚合為一組,并與下一個(gè)相鄰的分詞進(jìn)行“邏輯與”操作,若不存在相同歌曲ID,則單獨(dú)作為一組。下面以圖4中的分詞為例來進(jìn)行說明,首先,將第一個(gè)分詞結(jié)果進(jìn)行從上往下的“邏輯與”操作,由于“我家”和“大門”兩個(gè)詞有共同的 docid(1002),那么這兩個(gè)詞聚成一個(gè)組group (我家|大門),然后將group (我家|大門) 與“經(jīng)?!边M(jìn)行“邏輯與”操作,發(fā)現(xiàn)他們二者沒有共同的docid,說明兩者沒有關(guān)聯(lián),那么繼續(xù)使用“經(jīng)常”與下一個(gè)分詞“打開”進(jìn)行“邏輯與”操作,發(fā)現(xiàn)仍然沒有共同的docid,那么 “經(jīng)?!背蔀楠?dú)立的group,接下來,同理進(jìn)行“打開”和“吧”的“邏輯與”操作,最終得到如下幾個(gè)group group (我家 | 大門),group (經(jīng)常),group (打開),group (吧)需要說明的是,本發(fā)明中所述的“邏輯與”可以理解為取交集操作,即取共同的歌曲ID。S32.將具有相同歌曲ID的組聚成大組,其中含有分詞數(shù)量最多的大組中的分詞為特征詞匯。判斷的具體過程例如為將分詞聚合模塊741中得到的組兩兩進(jìn)行“邏輯與”操作,若存在相同的歌曲ID則聚成大組。就上述示例而言,是對(duì)上述group進(jìn)行兩兩的“邏輯與”操作,發(fā)現(xiàn)group (我家I大門)和group (打開)有共同的docid(1002),得到大組 GROUP (我家I大門I打開),而group (經(jīng)常)和group (吧)并無其他具有共同docid的組,這樣,在本實(shí)施例中,只得到一個(gè)大組GROUP(我家I大門I打開),如圖6所示,其便是含有分詞數(shù)量最多的大組,其中的分詞即是特征詞匯;上述特征詞匯的docid對(duì)應(yīng)的歌詞即為需搜索的歌詞。雖然上述具體實(shí)施例中通過步驟S31-S32來提取特征詞匯,但該步驟并非限制性,本領(lǐng)域技術(shù)人員可以理解,無論采用何種方法,只要使得到的特征詞匯為具有相同的歌曲ID且具有該歌曲ID數(shù)量最多的分詞即可,例如,直接將具有共同docid的分詞聚為一組,其中含有分詞數(shù)量最多的組中的分詞為特征詞匯。仍以上述圖4中的分詞為例,先將第一個(gè)分詞結(jié)果進(jìn)行從上往下與其他所有的分詞依次進(jìn)行“邏輯與”操作,由于“我家”、“大門”和“打開”具有共同的docid(1002),則將這三個(gè)分詞聚為一組group (我家I大門I打開),再將“經(jīng)?!迸c其后面所有的分詞依次進(jìn)行 “邏輯與”操作,再將“吧”執(zhí)行同樣的操作,最終得到含有分詞數(shù)量最多的組仍為group(我家I大門I打開),其中分詞“我家”、“大門”和“打開”為特征詞匯。但當(dāng)分詞數(shù)量較多時(shí), 采用這種方法,進(jìn)行“邏輯與”的次數(shù)會(huì)較多,因此優(yōu)選步驟S31-S32提取特征詞匯的方法。通過上述特征詞匯,我們就可以得到正確的搜索結(jié)果,從而提高用戶搜索滿意度, 避免用戶二次搜索甚至放棄搜索。另外,本發(fā)明還提出了一種歌詞搜索引擎,其結(jié)構(gòu)參見圖7所示,該歌詞搜索引擎包括分詞及索引文件生成單元71、輸入單元72、分詞處理單元73、特征詞匯提取單元74 和搜索結(jié)果獲取單元75。其中,分詞及索引文件生成單元71,用于將該歌詞搜索引擎中的歌詞分詞并生成索引文件,所生成的索引文件例如為圖1中索引文件的結(jié)構(gòu)。輸入單元72,用于接收用戶提交的搜索關(guān)鍵字。分詞處理單元73,與輸入單元72連接,用于對(duì)輸入到輸入單元72中的搜索關(guān)鍵字進(jìn)行分詞處理,并依據(jù)分詞及索引文件生成單元71中歌詞分詞對(duì)應(yīng)的索引文件,使分詞處理得到的分詞獲得對(duì)應(yīng)的索引信息。由于分詞及索引文件生成單元71中已經(jīng)生成各個(gè)歌詞的分詞及對(duì)應(yīng)的索引文件,因此,當(dāng)通過分詞處理單元73得到分詞后,可從分詞及索引文件生成單元71中獲取每個(gè)分詞所對(duì)應(yīng)的索引信息。特征詞匯提取單元74,用于從分詞處理單元73所得到的分詞中提取特征分詞。優(yōu)選地,特征詞匯為具有相同的歌曲ID且具有該歌曲ID數(shù)量最多的分詞,其中,所述歌曲ID 為所述索引信息中的參數(shù)。搜索結(jié)果獲取單元75,用于根據(jù)所述特征詞匯獲取搜索結(jié)果。優(yōu)選地,特征詞匯提取單元74包括分詞聚合模塊741和組聚合模塊742。分詞聚合模塊741,用于判斷從分詞處理單元73得到的每一分詞是否與其相鄰的分詞具有相同的歌曲ID,若是,則將所述分詞與相鄰的分詞聚成一組,若否,則將所述分詞作為單獨(dú)一組,其中,歌曲ID為索引信息中的參數(shù)。判斷的具體過程例如為從第一個(gè)分詞開始依次與相鄰的分詞進(jìn)行“邏輯與”操作,若存在相同的歌曲ID,則聚合為一組,并與下一個(gè)相鄰的分詞進(jìn)行“邏輯與”操作,若不存在相同歌曲ID,則單獨(dú)作為一組。組聚合模塊742,用于將具有相同歌曲ID的組聚成大組,其中含有分詞數(shù)量最多的大組中的分詞為特征詞匯。判斷的具體過程例如為將分詞聚合模塊741中得到的組兩兩進(jìn)行“邏輯與”操作, 若存在相同的歌曲ID則聚成大組,其中含有分詞數(shù)量最多的大組中的分詞為特征詞匯。雖然已參照幾個(gè)典型實(shí)施例描述了本發(fā)明,但應(yīng)當(dāng)理解,所用的術(shù)語是說明和示例性、而非限制性的術(shù)語。由于本發(fā)明能夠以多種形式具體實(shí)施而不脫離發(fā)明的精神或?qū)嵸|(zhì),所以應(yīng)當(dāng)理解,上述實(shí)施例不限于任何前述的細(xì)節(jié),而應(yīng)在隨附權(quán)利要求所限定的精神和范圍內(nèi)廣泛地解釋,因此落入權(quán)利要求或其等效范圍內(nèi)的全部變化和改型都應(yīng)為隨附權(quán)利要求所涵蓋。
權(quán)利要求
1.一種歌詞搜索方法,用于歌詞搜索引擎,所述歌詞搜索引擎對(duì)其中歌曲歌詞分詞并生成索引文件,其特征在于,該歌詞搜索方法包括以下步驟51.接收用戶提交的搜索關(guān)鍵字;52.對(duì)所述搜索關(guān)鍵字進(jìn)行分詞處理,并依據(jù)所述歌曲歌詞分詞對(duì)應(yīng)的索引文件,獲得搜索關(guān)鍵字分詞處理得到的分詞所對(duì)應(yīng)的索引信息;53.從分詞處理得到的分詞中提取特征詞匯;54.根據(jù)特征詞匯獲取搜索結(jié)果。
2.根據(jù)權(quán)利要求1所述的歌詞搜索方法,其特征在于,所述步驟S3中,所述特征詞匯為具有相同的歌曲ID且具有該歌曲ID數(shù)量最多的分詞,其中,所述歌曲ID為所述索引信息中的參數(shù)。
3.根據(jù)權(quán)利要求1所述的歌詞搜索方法,其特征在于,所述步驟S3包括531.分別判斷每一分詞是否與其相鄰的分詞具有相同的歌曲ID,若是,則將所述分詞與相鄰的分詞聚成一組,若否,則將所述分詞作為單獨(dú)一組,其中,所述歌曲ID為所述索引文件中的參數(shù);532.將具有相同歌曲ID的組聚成大組,其中含有分詞數(shù)量最多的大組中的分詞為特征詞匯。
4.一種歌詞搜索引擎,其特征在于,包括分詞及索引文件生成單元,用于對(duì)歌曲歌詞進(jìn)行分詞并生成索引文件;輸入單元,用于接收用戶提交的搜索關(guān)鍵字;分詞處理單元,用于對(duì)所述搜索關(guān)鍵字進(jìn)行分詞處理,并依據(jù)所述分詞及索引文件生成單元中歌詞分詞對(duì)應(yīng)的索引文件,獲得搜索關(guān)鍵字分詞處理得到的分詞所對(duì)應(yīng)的索引信息;特征詞匯提取單元,用于從所述分詞處理單元所得到的分詞中提取特征分詞;以及搜索結(jié)果獲取單元,用于根據(jù)所述特征詞匯獲取搜索結(jié)果。
5.根據(jù)權(quán)利要求4所述的歌詞搜索引擎,其特征在于,所述特征詞匯為具有相同的歌曲ID且具有該歌曲ID數(shù)量最多的分詞,其中,所述歌曲ID為所述索引信息中的參數(shù)。
6.根據(jù)權(quán)利要求4所述的歌詞搜索引擎,其特征在于,所述特征詞匯提取單元包括分詞聚合模塊,用于判斷從所述分詞處理單元得到的每一分詞是否與其相鄰的分詞具有相同的歌曲ID,若是,則將所述分詞與相鄰的分詞聚成一組,若否,則將所述分詞作為單獨(dú)一組,其中,歌曲ID為索引信息中的參數(shù);組聚合模塊,用于將具有相同歌曲ID的組聚成大組,其中含有分詞數(shù)量最多的大組中的分詞為特征詞匯。
全文摘要
本發(fā)明公開了一種歌詞搜索方法及搜索引擎,該方法用于歌詞搜索引擎,歌詞搜索引擎將其中歌曲歌詞分詞并生成索引文件,該歌詞搜索方法包括以下步驟S1.接收用戶提交的搜索關(guān)鍵字;S2.對(duì)所述搜索關(guān)鍵字進(jìn)行分詞處理,并依據(jù)所述歌曲歌詞分詞對(duì)應(yīng)的索引文件,獲得搜索關(guān)鍵字分詞處理得到的分詞所對(duì)應(yīng)的索引信息;S3.從分詞處理得到的分詞中提取特征詞匯;S4.根據(jù)特征詞匯獲取搜索結(jié)果。即使用戶輸入歌詞并不準(zhǔn)確,經(jīng)由本發(fā)明提取出準(zhǔn)確的特征詞匯后,也能得到正確的搜索結(jié)果,進(jìn)而提高搜索歌詞的效率,實(shí)現(xiàn)了模糊搜索。
文檔編號(hào)G06F17/27GK102314464SQ20101022469
公開日2012年1月11日 申請(qǐng)日期2010年7月7日 優(yōu)先權(quán)日2010年7月7日
發(fā)明者賈海祿 申請(qǐng)人:北京亮點(diǎn)時(shí)間科技有限公司