專利名稱:關(guān)鍵詞匯實時擴展方法、系統(tǒng)及其計算機可擦寫記錄媒體的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是有關(guān)于一種數(shù)據(jù)搜尋方法與系統(tǒng)以及儲存數(shù)據(jù)搜尋程序的計算機可擦 寫存儲媒體,且特別是有關(guān)于一種關(guān)鍵詞匯實時擴展方法與系統(tǒng)以及儲存數(shù)據(jù)搜尋程序的 計算機可擦寫存儲媒體。
背景技術(shù):
在信息高度擴充的現(xiàn)在,人們越來越仰賴網(wǎng)際網(wǎng)絡(luò)所提供的快速數(shù)據(jù)搜尋服務(wù)。 而當(dāng)網(wǎng)際網(wǎng)絡(luò)使用人口越來越多時,在數(shù)據(jù)搜尋結(jié)果與線上展開閱讀文件的同時在網(wǎng)頁上 顯現(xiàn)的廣告所帶來的廣告收益,漸漸成為各網(wǎng)站平臺的收入來源。然而固定版面的廣告模式雖然有一定的曝光程度,但是無法精確的吸引到最主要 的消費層。因此關(guān)鍵詞匯廣告逐漸成為網(wǎng)頁廣告的主流。關(guān)鍵詞匯廣告是根據(jù)使用者使用 搜尋引擎所輸入的查詢詞匯或是詞匯串為基礎(chǔ),或是根據(jù)使用者當(dāng)前所瀏覽的網(wǎng)頁中出現(xiàn) 的特殊詞匯或是標(biāo)題為基礎(chǔ),與廣告商所提供的廣告相關(guān)詞匯媒合之后,選定實時隨著搜 尋結(jié)果或是展開網(wǎng)頁的同時,刊登于網(wǎng)頁上。如此一來,因為隨著使用者的搜尋標(biāo)的或是瀏 覽文件而改變刊登的廣告,將可以有效的吸引相關(guān)產(chǎn)品的消費族群。然而,單單以使用者在搜尋引擎上輸入的搜尋標(biāo)的或是所展開網(wǎng)頁中的特定詞匯 作為所刊登廣告的篩選條件時,而致使可推薦的廣告種類過于特定,不夠廣泛,將會遺失許 多潛在的客戶群。因此如何增進關(guān)鍵詞匯廣告媒合的廣度與精準(zhǔn)度,成為重要的課題。
發(fā)明內(nèi)容
本發(fā)明提供一種關(guān)鍵詞匯實時擴展方法,可根據(jù)查詢詞匯自動搜尋相同概念的關(guān) 鍵詞匯,提供廣告媒合一較精準(zhǔn)且廣泛的關(guān)鍵詞匯集合。本發(fā)明提供一種關(guān)鍵詞匯實時擴展系統(tǒng),可以提高關(guān)鍵詞匯擴展速度。本發(fā)明提供一種儲存關(guān)鍵詞匯實時擴展程序的計算機可擦寫存儲媒體,不受限于 有限容量的數(shù)據(jù)庫,并且對于數(shù)據(jù)搜尋領(lǐng)域無偏移現(xiàn)象。本發(fā)明提出一種關(guān)鍵詞匯實時擴展方法,包括接收一查詢詞匯。之后,根據(jù)該查 詢詞匯,分別于多個搜尋引擎上進行一數(shù)據(jù)搜尋。繼之,分別由每一該些搜尋引擎獲得相關(guān) 于該查詢詞匯的多筆文件片段,其中每一文件片段具有至少一文句。又,分析每一該些文件 片段以建立一相關(guān)詞匯表,其中該相關(guān)詞匯表中,對于每一文件片段列舉出現(xiàn)在該文件片 段中的多個關(guān)鍵詞匯,其中每一關(guān)鍵詞匯具有一語意。接著,根據(jù)該相關(guān)詞匯表中的每一該 些文件片段所相對應(yīng)的每一該些關(guān)鍵詞匯與該查詢詞匯在該文件片段中的一相對應(yīng)位置 關(guān)系,進行一關(guān)聯(lián)計算步驟,以分別賦予每一該些文件片段的每一該些關(guān)鍵詞匯一關(guān)聯(lián)值。 續(xù)之,進行一語意合并步驟,計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中 的該些關(guān)聯(lián)值成一關(guān)聯(lián)指針。最后,根據(jù)每一該些關(guān)鍵詞匯的該關(guān)聯(lián)指針,決定部分該些關(guān) 鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合。在本發(fā)明之一實施例中,上述之關(guān)鍵詞匯實時擴展方法,其中該關(guān)聯(lián)計算步驟根據(jù)一第一等式<formula>formula see original document page 6</formula>其中Query代表該查詢詞匯,Keytermj代表該關(guān)鍵詞匯,score (Query, Keytermj) 代表相關(guān)該查詢詞匯的該關(guān)鍵詞匯的該關(guān)聯(lián)值,NS(Query Π Keytermj)代表該查詢詞 匯與該關(guān)鍵詞匯同時出現(xiàn)在單一該文句中的次數(shù),NS(Query)代表該查詢詞匯的在該 文件片段中出現(xiàn)的次數(shù),NS(Keytermj)代表該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù), NS(Query) U NS(Keytermj)代表該查詢字匯與該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)總 合,dist (Query, Keytermj)代表該查詢字匯與該關(guān)鍵詞匯之間所間隔的一文句數(shù)量。在本發(fā)明的一實施例中,上述的關(guān)鍵詞匯實時擴展方法,其中該語意合并步驟還 包括進行一語意中心計算,計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中 的相對應(yīng)該些關(guān)聯(lián)值成為一中心值。之后,進行一正規(guī)化步驟,以將該些關(guān)鍵詞匯的相對應(yīng) 該些中心值正規(guī)化成該些關(guān)鍵指針,其中該些關(guān)鍵指針的一總和為一。而該語意中心計算 根據(jù)一第二等式<formula>formula see original document page 6</formula>其中,Keyterm代表該關(guān)鍵詞匯,SC (Keyterm)代表該關(guān)鍵詞匯的該中心值, snippet代表文件片段,η代表文件片段的一數(shù)量。另外,該正規(guī)化步驟根據(jù)一第三等式<formula>formula see original document page 6</formula>其中,Keytermk代表該關(guān)鍵詞匯,NSC(Keytermk)代表該關(guān)鍵詞匯的該關(guān)鍵指針, SC(Keytermk)代表關(guān)鍵詞匯的該中心值,w代表該些關(guān)鍵詞匯的一數(shù)量。在本發(fā)明的一實施例中,上述的關(guān)鍵詞匯實時擴展方法,其中建立該相關(guān)詞匯表 包括分析每一該些文件片段,以列舉出每一該些文件片段的多個潛在詞匯,之后,進行一 加權(quán)計算,以從每一該些文件片段的該些潛在詞匯中篩選出相對應(yīng)每一文件片段的關(guān)鍵詞 匯。在本發(fā)明的一實施例中,上述的關(guān)鍵詞匯實時擴展方法,其中該加權(quán)計算包括一 詞步頁率-反向文件步頁率法(term frequency-inverse document frequency)。本發(fā)明另提出一種關(guān)鍵詞匯實時擴展系統(tǒng),包括一使用者接口、一搜尋模塊、一 數(shù)據(jù)聚集模塊、一詞匯分析模塊、一關(guān)聯(lián)分析模塊、一語意合并模塊以及一篩選模塊。其中, 使用者接口用以接收一查詢詞匯。搜尋模塊則根據(jù)該查詢詞匯,分別于多個搜尋引擎上進 行一數(shù)據(jù)搜尋。而數(shù)據(jù)聚集模塊用于收集分別由每一該些搜尋引擎獲得相關(guān)于該查詢詞匯 的多筆文件片段,其中每一文件片段具有至少一文句。另外,詞匯分析模塊用以分析每一 該些文件片段以建立一相關(guān)詞匯表,其中該相關(guān)詞匯表中,對于每一文件片段列舉出現(xiàn)在該文件片段中的多個關(guān)鍵詞匯,其中每一關(guān)鍵詞匯具有一語意。而關(guān)聯(lián)分析模塊用以根據(jù)該相關(guān)詞匯表中的每一該些文件片段所相對應(yīng)的每一該些關(guān)鍵詞匯與該查詢詞匯在該文 件片段中的一相對應(yīng)位置關(guān)系,以分別賦予每一該些文件片段的每一該些關(guān)鍵詞匯一關(guān)聯(lián) 值。又語意合并模塊用以計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的該 些關(guān)聯(lián)值成一關(guān)聯(lián)指針。再者,篩選模塊用以根據(jù)每一該些關(guān)鍵詞匯的該關(guān)聯(lián)指針,決定部 分該些關(guān)鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合。本發(fā)明又提出一種計算機可擦寫記錄媒體,用以儲存一關(guān)鍵詞匯實時擴展程序, 其中該關(guān)鍵詞匯實時擴展程序執(zhí)行多個指令,包括接收一查詢詞匯。之后,根據(jù)該查詢詞 匯,分別于多個搜尋引擎上進行一數(shù)據(jù)搜尋。繼之,分別由每一該些搜尋引擎獲得相關(guān)于該 查詢詞匯的多筆文件片段,其中每一文件片段具有至少一文句。又,分析每一該些文件片段 以建立一相關(guān)詞匯表,其中該相關(guān)詞匯表中,對于每一文件片段列舉出現(xiàn)在該文件片段中 的多個關(guān)鍵詞匯,其中每一關(guān)鍵詞匯具有一語意。接著,根據(jù)該相關(guān)詞匯表中的每一該些文 件片段所相對應(yīng)的每一該些關(guān)鍵詞匯與該查詢詞匯在該文件片段中的一相對應(yīng)位置關(guān)系, 進行一關(guān)聯(lián)計算步驟,以分別賦予每一該些文件片段的每一該些關(guān)鍵詞匯一關(guān)聯(lián)值。續(xù)之, 進行一語意合并步驟,計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的該些 關(guān)聯(lián)值成一關(guān)聯(lián)指針。最后,根據(jù)每一該些關(guān)鍵詞匯的該關(guān)聯(lián)指針,決定部分該些關(guān)鍵詞匯 組成該查詢詞匯的一關(guān)鍵詞匯集合?;谏鲜?,本發(fā)明中,根據(jù)每次的查詢詞匯,實時利用搜尋引擎搜尋獲得文件片段 做為查詢詞匯的語意空間(semantic space),以來取代儲存整份文件,因此相關(guān)于查詢字 匯的關(guān)鍵詞匯的擴展速度提升,加速關(guān)鍵詞匯集合的呈現(xiàn),同時因此無需再另外建立一龐 大數(shù)據(jù)庫儲存所搜尋到的文件,而可以降低所需的內(nèi)存儲存空間。此外,由于無需建立數(shù)據(jù) 庫儲存與查詢詞匯相關(guān)的文件,因此無需進行數(shù)據(jù)庫的維護。另外,由于利用搜尋引擎直接 在網(wǎng)際網(wǎng)絡(luò)上進行數(shù)據(jù)搜尋而不是在固定數(shù)據(jù)庫中進行數(shù)據(jù)搜尋,因此查詢詞匯的相關(guān)數(shù) 據(jù)搜尋結(jié)果不會受限于數(shù)據(jù)庫中的特定數(shù)據(jù)領(lǐng)域,而有搜尋領(lǐng)域偏移導(dǎo)致搜尋結(jié)果出現(xiàn)特 定領(lǐng)域的問題。為讓本發(fā)明的上述特征和優(yōu)點能更明顯易懂,下文特舉實施例,并配合附圖作詳 細(xì)說明如下。
圖1是根據(jù)本發(fā)明一實施例的一種關(guān)鍵詞匯實時擴展方法的流程簡圖。圖2是圖1顯示的關(guān)鍵詞匯實時擴展方法中建立相關(guān)詞匯表的流程示意圖。圖3是根據(jù)本發(fā)明一實施例的一種關(guān)鍵詞匯實時擴展系統(tǒng)的簡圖。
具體實施例方式圖1是根據(jù)本發(fā)明一實施例的一種關(guān)鍵詞匯實時擴展方法的流程簡圖。請參照圖 1,首先于步驟SlOl中,接收一查詢詞匯(Query Term)。之后,于步驟S103中,根據(jù)所接收 的查詢詞匯,分別于數(shù)個不同的搜尋引擎上進行一數(shù)據(jù)搜尋。其中每一搜尋引擎所搜尋的 數(shù)據(jù)標(biāo)的包括網(wǎng)頁、博客(blog)、新聞與論壇。另外,搜尋引擎包括Yahoo !、GOOgle、A0L. com與MSN等。繼之,于步驟S105中,分別由每一搜尋引擎獲得相關(guān)于所接收的查詢詞匯的數(shù)筆文件片段,其中每一文件片段具有至少一文句。此外,于步驟S105中還包括進行一對 比步驟以移除重復(fù)的文件片段,以防止過多重復(fù)的文件片段干擾后續(xù)建立的相關(guān)詞匯表的 關(guān)鍵詞匯的準(zhǔn)確性。
圖2是圖1顯示的關(guān)鍵詞匯實時擴展方法中建立相關(guān)詞匯表的流程示意圖。請參 照圖2,在步驟S105中,將搜尋引擎所搜集到的文件片段(也就是包含有查詢詞匯的文件片 段)合并成如標(biāo)號200所示的文件片段聚集。于此實施例中,例如是以“美食”作為查詢詞 匯,而文件片段1至文件片段8則是由搜尋引擎所搜尋到的在文件中有出現(xiàn)“美食”詞匯的 文件片段。以文件片段聚集200中的文件片段4為例,其中相鄰標(biāo)點符號之間的文字所組 成的文句共有14個。之后,請同時參照圖1與圖2,于步驟S107中,分析每一文件片段以建立一相關(guān)詞 匯表204。其中,相關(guān)詞匯表204中,對于每一文件片段列舉出現(xiàn)在其文件片段中的多個關(guān) 鍵詞匯(亦即相關(guān)詞匯表204中的文件片段關(guān)鍵詞匯列204a),其中每一關(guān)鍵詞匯具有一語 意。于一實施例中,建立相關(guān)詞匯表的步驟還包括分析每一文件片段,以列舉出每一文件片 段的多個潛在詞匯(步驟S109),如圖2中所顯示的潛在詞匯表202中,每一文件片段具有 相對應(yīng)的數(shù)個潛在詞匯。之后,于步驟Slll中,進行一加權(quán)計算,以從每一文件片段的潛在 詞匯中篩選出相對應(yīng)每一文件片段的關(guān)鍵詞匯。其中加權(quán)計算包括一詞頻率-反向文件頻 率法(term frequency-inversedocument frequency)。接著,于步驟S113中,根據(jù)相關(guān)詞匯表204中的每一文件片段所相對應(yīng)的每一關(guān) 鍵詞匯與所接收的查詢詞匯在文件片段中的一相對應(yīng)位置關(guān)系,進行一關(guān)聯(lián)計算步驟,以 分別賦予相對應(yīng)每一文件片段的每一關(guān)鍵詞匯一關(guān)聯(lián)值。值得注意的是,關(guān)聯(lián)計算步驟是 根據(jù)一第一等式計算出在單一文件片段中,每一關(guān)鍵詞匯與查詢詞匯之間的關(guān)聯(lián)值。此第 一等式如下所示
/、 2Ns(Query f) Keytermi)1score\Query, Keyterm,)二 ——-,-r—-7--~t χ-z-r
W1! NS(Query)U NSyKeytermj) \ +(Hst(Query^eytermj)其中Query代表查詢詞匯,Keytermj代表關(guān)鍵詞匯,score (Query, Keytermj)代 表相關(guān)于查詢詞匯之關(guān)鍵詞匯的關(guān)聯(lián)值,NS(Query Π Keytermj)代表查詢詞匯與關(guān)鍵詞 匯同時出現(xiàn)在單一文句中的次數(shù),NS(Query)代表查詢詞匯的在文件片段中出現(xiàn)的次數(shù), NS(Keytermj)代表關(guān)鍵詞匯的在文件片段中出現(xiàn)的次數(shù),NS(Query) U NS(Keytermj)代表 查詢字匯與關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)總合,dist (Query, Keytermj)代表查詢 字匯與該關(guān)鍵詞匯之間所間隔的一文句數(shù)量。續(xù)之,于步驟S115中,進行一語意合并步驟,計算具有相同語意的每一關(guān)鍵詞匯 在全部文件片段中的關(guān)聯(lián)值成為一關(guān)聯(lián)指針。于一實施例中,上述語意合并步驟還包括進 行一語意中心計算(步驟S117),以計算具有相同語意的每一關(guān)鍵詞匯在所有文件片段中 的相對應(yīng)關(guān)聯(lián)值成為一中心值。其中,語意中心計算是根據(jù)一第二等式
η
j Y^snippetiSC(Keyterm) = -χ 丨‘.:1一―
J^snippetf
其中,Keyterm代表該關(guān)鍵詞匯,SC (Keyterm)代表該關(guān)鍵詞匯的該中心值, snippet代表文件片段,η代表文件片段的一數(shù)量。之后,進行一正規(guī)化步驟(步驟S119),以將每一關(guān)鍵詞匯相對應(yīng)的中心值正規(guī)化 成一關(guān)鍵指針。而所有關(guān)鍵詞匯的關(guān)鍵指針的總和為一。而正規(guī)化步驟根據(jù)一第三等式
<formula>formula see original document page 9</formula>其中,Keytermk代表該關(guān)鍵詞匯,NSC(Keytermk)代表該關(guān)鍵詞匯的該關(guān)鍵指針, SC(Keytermk)代表關(guān)鍵詞匯的該中心值,w代表該些關(guān)鍵詞匯的一數(shù)量。最后,于步驟S121中,根據(jù)每一關(guān)鍵詞匯的關(guān)聯(lián)指針,決定部分關(guān)鍵詞匯組成查 詢詞匯的一關(guān)鍵詞匯集合。也就是關(guān)鍵詞匯的關(guān)鍵指針越大,表示此關(guān)鍵詞匯與查詢詞匯 的關(guān)聯(lián)性越大,則此關(guān)鍵詞匯或選入關(guān)鍵詞匯集合的機率就越高。相反的當(dāng)關(guān)鍵詞匯的關(guān) 鍵指針越小,表示此關(guān)鍵詞匯與查詢詞匯的關(guān)聯(lián)性越小,則獲選入關(guān)鍵詞匯集合的機率越 低。圖3是根據(jù)本發(fā)明一實施例的一種關(guān)鍵詞匯實時擴展系統(tǒng)的簡圖。請參照圖3, 本發(fā)明的關(guān)鍵詞匯實時擴展系統(tǒng)300,包括一使用者接口 302、一搜尋模塊304、一數(shù)據(jù)聚集 模塊308、一詞匯分析模塊310、一關(guān)聯(lián)分析模塊318、一語意合并模塊324以及一篩選模塊 330。其中,使用者接口 302用以接收一查詢詞匯。而搜尋模塊304則根據(jù)所接收的查詢詞 匯,分別于數(shù)個搜尋引擎(如圖3所示的搜尋引擎306)上進行一數(shù)據(jù)搜尋。其中,每一搜尋 引擎所搜尋的數(shù)據(jù)標(biāo)的包括網(wǎng)頁、博客(blog)、新聞與論壇。另外,搜尋引擎包括Yahoo !、 Google、AOL. com 與 MSN 等。之后,數(shù)據(jù)聚集模塊308收集分別由每一搜尋引擎搜尋而獲得相關(guān)于查詢詞匯的 數(shù)筆文件片段,其中每一文件片段具有至少一文句。接著,詞匯分析模塊310用以分析每一 文件片段以建立一相關(guān)詞匯表,其中相關(guān)詞匯表中,對于每一文件片段列舉出現(xiàn)在文件片 段中的多個關(guān)鍵詞匯(如圖2中的相關(guān)詞匯表204),其中每一關(guān)鍵詞匯具有一語意。詞匯 分析模塊310還包括一斷詞斷句模塊312與一加權(quán)計算模塊314。斷詞斷句模塊312用以 分析每一文件片段,以列舉出每一文件片段中的數(shù)個潛在詞匯(如圖2所示的潛在詞匯表 202)。而加權(quán)計算模塊314則從每一文件片段的潛在詞匯中篩選出相對應(yīng)每一該些文件片 段的關(guān)鍵詞匯。其中加權(quán)計算模塊314包括執(zhí)行一詞頻率_反向文件頻率計算。而關(guān)聯(lián)分析模塊318用以根據(jù)相關(guān)詞匯表中的每一文件片段所相對應(yīng)的每一關(guān) 鍵詞匯與查詢詞匯在文件片段中的一相對應(yīng)位置關(guān)系,以分別賦予每一文件片段中的每一 關(guān)鍵詞匯一關(guān)聯(lián)值。其中,每一關(guān)鍵詞匯與查詢詞匯在文件片段中的一相對應(yīng)位置關(guān)系包 括一距離參數(shù)320與一文句參數(shù)322,距離參數(shù)320亦即在同一文件片段中,每一關(guān)鍵詞匯 與查詢詞匯之間間隔的文句數(shù)量,當(dāng)文句數(shù)量越大則關(guān)鍵詞匯與查詢詞匯之間的關(guān)聯(lián)性越 低。而文句參數(shù)則是在同一文件片段中,關(guān)鍵詞匯與查詢詞匯同時存在同一文句中的次數(shù) 越多則關(guān)鍵詞匯與查詢詞匯的關(guān)聯(lián)性就越高。而以上述兩參數(shù)分析關(guān)鍵詞匯與查詢詞匯的 關(guān)聯(lián)性成一關(guān)聯(lián)值可根據(jù)上述實施例中所提供的第一等式計算獲得。語意合并模塊324用以計算具有相同語意的每一關(guān)鍵詞匯在所有文件片段中的關(guān)聯(lián)值以成為一關(guān)聯(lián)指針。于一實施例中,語意合并模塊324還包括一語意中心計算模塊 326與一正規(guī)化模塊328。語意中心計算模塊324,用以計算具有相同語意的每一關(guān)鍵詞匯 在所有些文件片段中的相對應(yīng)該些關(guān)聯(lián)值成為一中心值。上述計算在所有文件片段中,相 同語意的關(guān)鍵詞匯的關(guān)聯(lián)值可藉由上述實施例中所提供的第二等式計算獲得。之后正規(guī)化 模塊328,以將關(guān)鍵詞匯的相對應(yīng)中心值正規(guī)化成關(guān)鍵指針。其中關(guān)鍵指針的一總和為一。 而正規(guī)化關(guān)鍵詞匯的關(guān)鍵指針成為關(guān)鍵指針可藉由上述實施例中所提供的第三等式計算 獲得。再者,篩選模塊330用以根據(jù)每一關(guān)鍵詞匯的相對應(yīng)關(guān)聯(lián)指針,決定部分關(guān)鍵詞 匯組成該查詢詞匯的一關(guān)鍵詞匯集合。之后此關(guān)鍵詞匯集合經(jīng)由使用者接口 302提供給使 用者。
于上述兩實施例中,本發(fā)明的關(guān)鍵詞匯實時擴展方法可經(jīng)由執(zhí)行一計算機可讀取 程序而具體實行,而關(guān)鍵詞匯實時擴展系統(tǒng)也可以是上述計算機可讀取程序/關(guān)鍵詞匯實 時擴展程序。而此計算機可讀去程序儲存于一種計算機可擦寫記錄媒體,并且執(zhí)行數(shù)個指 令,以具體實行本發(fā)明的關(guān)鍵詞匯實時擴展方法。所執(zhí)行的關(guān)鍵詞匯實時擴展方法步驟以 于上述實施例中詳細(xì)描述,因此不在此做贅述。綜上所述,于本發(fā)明中,根據(jù)每次的查詢詞匯,實時利用搜尋引擎搜尋獲得文件片 段做為查詢詞匯的語意空間(semantic space),以來取代儲存整份文件,因此無需再另外 建立一龐大數(shù)據(jù)庫儲存所搜尋到的文件,也因此可以降低所需的內(nèi)存儲存空間。此外,由于 無需建立數(shù)據(jù)庫儲存與查詢詞匯相關(guān)的文件,因此無需進行數(shù)據(jù)庫的維護。此外由于利用 搜尋引擎直接在網(wǎng)際網(wǎng)絡(luò)上進行數(shù)據(jù)搜尋而不是在固定數(shù)據(jù)庫中進行數(shù)據(jù)搜尋,因此查詢 詞匯的相關(guān)數(shù)據(jù)搜尋結(jié)果不會受限于數(shù)據(jù)庫中的特定數(shù)據(jù)領(lǐng)域,而有搜尋領(lǐng)域偏移導(dǎo)致搜 尋結(jié)果出現(xiàn)特定領(lǐng)域的問題。由于直接藉由搜尋引擎在網(wǎng)際網(wǎng)絡(luò)上進行搜尋,并且利用搜 尋引擎所展現(xiàn)的搜尋文件片段直接作為查詢詞匯的語意空間,因此相關(guān)于查詢字匯的關(guān)鍵 詞匯的擴展速度提升,加速關(guān)鍵詞匯集合的呈現(xiàn)。雖然本發(fā)明已以實施例揭露如上,然其并非用以限定本發(fā)明,任何所屬技術(shù)領(lǐng)域 中具有通常知識者,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作些許的更動與潤飾,故本發(fā)明 的保護范圍當(dāng)以權(quán)利要求所界定的為準(zhǔn)。
權(quán)利要求
一種關(guān)鍵詞匯實時擴展方法,包括接收一查詢詞匯;根據(jù)該查詢詞匯,分別于多個搜尋引擎上進行一數(shù)據(jù)搜尋;分別由每一該些搜尋引擎獲得相關(guān)于該查詢詞匯的多筆文件片段,其中每一文件片段具有至少一文句;分析每一該些文件片段以建立一相關(guān)詞匯表,其中該相關(guān)詞匯表中,對于每一該些文件片段列舉出現(xiàn)在該文件片段中的多個關(guān)鍵詞匯,其中每一該些關(guān)鍵詞匯具有一語意;根據(jù)該相關(guān)詞匯表中的每一該些文件片段所相對應(yīng)的每一該些關(guān)鍵詞匯與該查詢詞匯在該文件片段中的一相對應(yīng)位置關(guān)系,進行一關(guān)聯(lián)計算步驟,以分別賦予每一該些文件片段的每一該些關(guān)鍵詞匯一關(guān)聯(lián)值;進行一語意合并步驟,計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的該些關(guān)聯(lián)值成一關(guān)聯(lián)指針;以及根據(jù)每一該些關(guān)鍵詞匯的該關(guān)聯(lián)指針,決定部分該些關(guān)鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合。
2.如權(quán)利要求1所述的關(guān)鍵詞匯實時擴展方法,其特征在于,該關(guān)聯(lián)計算步驟根據(jù)一第一等式<formula>formula see original document page 2</formula>其中Query代表該查詢詞匯,Keytermj代表該關(guān)鍵詞匯,score (Query, Keytermj) 代表相關(guān)該查詢詞匯的該關(guān)鍵詞匯的該關(guān)聯(lián)值,NS(Query Π Keytermj)代表該查詢詞 匯與該關(guān)鍵詞匯同時出現(xiàn)在單一該文句中的次數(shù),NS(Query)代表該查詢詞匯的在該 文件片段中出現(xiàn)的次數(shù),NS(Keytermj)代表該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù), NS(Query) U NS(Keytermj)代表該查詢字匯與該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)總 合,dist (Query, Keytermj)代表該查詢字匯與該關(guān)鍵詞匯之間所間隔的一文句數(shù)量。
3.如權(quán)利要求1所述的關(guān)鍵詞匯實時擴展方法,其特征在于,該語意合并步驟還包括 進行一語意中心計算,計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的相對應(yīng)該些關(guān)聯(lián)值成為一中心值;以及進行一正規(guī)化步驟,以將該些關(guān)鍵詞匯的相對應(yīng)該些中心值正規(guī)化成該些關(guān)鍵指針, 其中該些關(guān)鍵指針的一總和為一。
4.如權(quán)利要求3所述的關(guān)鍵詞匯實時擴展方法,其特征在于,該語意中心計算根據(jù)一 第二等式<formula>formula see original document page 2</formula>其中,Keyterm代表該關(guān)鍵詞匯,SC(Keyterm)代表該關(guān)鍵詞匯的該中心值,snippet代 表文件片段,η代表文件片段的一數(shù)量。
5.如權(quán)利要求3所述的關(guān)鍵詞匯實時擴展方法,其特征在于,該正規(guī)化步驟根據(jù)一第三等式<formula>formula see original document page 3</formula>其中,Keytermk代表該關(guān)鍵詞匯,NSC(Keytermk)代表該關(guān)鍵詞匯的該關(guān)鍵指針, SC(Keytermk)代表關(guān)鍵詞匯的該中心值,w代表該些關(guān)鍵詞匯的一數(shù)量。
6.如權(quán)利要求1所述的關(guān)鍵詞匯實時擴展方法,其特征在于,建立該相關(guān)詞匯表包括 分析每一該些文件片段,以列舉出每一該些文件片段的多個潛在詞匯;以及進行一加權(quán)計算,以從每一該些文件片段的該些潛在詞匯中篩選出相對應(yīng)每一該些文 件片段的該些關(guān)鍵詞匯。
7.如權(quán)利要求6所述的關(guān)鍵詞匯實時擴展方法,其特征在于,該加權(quán)計算包括一詞頻 率-反向文件頻率法。
8.—種關(guān)鍵詞匯實時擴展系統(tǒng),包括 一使用者接口,用以接收一查詢詞匯;一搜尋模塊,根據(jù)該查詢詞匯,分別于多個搜尋引擎上進行一數(shù)據(jù)搜尋; 一數(shù)據(jù)聚集模塊,收集分別由每一該些搜尋引擎獲得相關(guān)于該查詢詞匯的多筆文件片 段,其中每一文件片段具有至少一文句;一詞匯分析模塊,用以分析每一該些文件片段以建立一相關(guān)詞匯表,其中該相關(guān)詞匯 表中,對于每一該些文件片段列舉出現(xiàn)在該文件片段中的多個關(guān)鍵詞匯,其中每一該些關(guān) 鍵詞匯具有一語意;一關(guān)聯(lián)分析模塊,用以根據(jù)該相關(guān)詞匯表中的每一該些文件片段所相對應(yīng)的每一該些 關(guān)鍵詞匯與該查詢詞匯在該文件片段中的一相對應(yīng)位置關(guān)系,以分別賦予每一該些文件片 段的每一該些關(guān)鍵詞匯一關(guān)聯(lián)值;一語意合并模塊,用以計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的 該些關(guān)聯(lián)值成一關(guān)聯(lián)指針;以及一篩選模塊,用以根據(jù)每一該些關(guān)鍵詞匯的該關(guān)聯(lián)指針,決定部分該些關(guān)鍵詞匯組成 該查詢詞匯的一關(guān)鍵詞匯集合。
9.如權(quán)利要求8所述的關(guān)鍵詞匯實時擴展系統(tǒng),其特征在于,該關(guān)聯(lián)分析模塊賦予每 一該些文件片段的每一該些關(guān)鍵詞匯該關(guān)聯(lián)值是根據(jù)一第一等式<formula>formula see original document page 3</formula>其中Query代表該查詢詞匯,Keytermj代表該關(guān)鍵詞匯,score (Query, Keytermj) 代表相關(guān)該查詢詞匯的該關(guān)鍵詞匯的該關(guān)聯(lián)值,NS(Query Π Keytermj)代表該查詢詞 匯與該關(guān)鍵詞匯同時出現(xiàn)在單一該文句中的次數(shù),NS(Query)代表該查詢詞匯的在該 文件片段中出現(xiàn)的次數(shù),NS(Keytermj)代表該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù), NS(Query) U NS(Keytermj)代表該查詢字匯與該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)總 合,dist (Query, Keytermj)代表該查詢字匯與該關(guān)鍵詞匯之間所間隔的一文句數(shù)量。
10.如權(quán)利要求8所述的關(guān)鍵詞匯實時擴展系統(tǒng),其特征在于,該語意合并模塊還包括一語意中心計算模塊,用以計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段 中的相對應(yīng)該些關(guān)聯(lián)值成為一中心值;以及一正規(guī)化模塊,以將該些關(guān)鍵詞匯的相對應(yīng)該些中心值正規(guī)化成該些關(guān)鍵指針,其中 該些關(guān)鍵指針的一總和為一。
11.如權(quán)利要求10所述的關(guān)鍵詞匯實時擴展系統(tǒng),其特征在于,該語意中心計算每一 該些中心值是根據(jù)一第二等式<formula>formula see original document page 4</formula>其中,Keyterm代表該關(guān)鍵詞匯,SC(Keyterm)代表該關(guān)鍵詞匯的該中心值,snippet代 表文件片段,η代表文件片段的一數(shù)量。
12.如權(quán)利要求10所述的關(guān)鍵詞匯實時擴展系統(tǒng),其特征在于,該正規(guī)化模塊正規(guī)化 該些中心值是根據(jù)一第三等式<formula>formula see original document page 4</formula>其中,Keytermk代表該關(guān)鍵詞匯,NSC(Keytermk)代表該關(guān)鍵詞匯的該關(guān)鍵指針, SC(Keytermk)代表關(guān)鍵詞匯的該中心值,w代表該些關(guān)鍵詞匯的一數(shù)量。
13.如權(quán)利要求8所述的關(guān)鍵詞匯實時擴展系統(tǒng),其特征在于,該詞匯分析模塊包括 一斷詞斷句模塊,用以分析每一該些文件片段,以列舉出每一該些文件片段的多個潛在詞匯;以及一加權(quán)計算模塊,以從每一該些文件片段的該些潛在詞匯中篩選出相對應(yīng)每一該些文 件片段的該些關(guān)鍵詞匯。
14.如權(quán)利要求13所述的關(guān)鍵詞匯實時擴展系統(tǒng),其特征在于,該加權(quán)計算模塊包括 執(zhí)行一詞頻率_反向文件頻率計算。
全文摘要
本發(fā)明公開了一種關(guān)鍵詞匯實時擴展方法、系統(tǒng)及其計算機可擦寫記錄媒體,包括根據(jù)查詢詞匯,分別于數(shù)個搜尋引擎上進行一數(shù)據(jù)搜尋。繼之,分別由一該些搜尋引擎獲得相關(guān)于該查詢詞匯的數(shù)筆文件片段。分析每一文件片段以建立一相關(guān)詞匯表,每一文件片段列舉相對應(yīng)的數(shù)個關(guān)鍵詞匯。接著,根據(jù)每一文件片段所相對應(yīng)的每一關(guān)鍵詞匯與查詢詞匯的一相對應(yīng)位置關(guān)系,進行一關(guān)聯(lián)計算步驟,以分別賦予每一關(guān)鍵詞匯一關(guān)聯(lián)值。續(xù)之,進行一語意合并步驟,計算具有相同語意的每一關(guān)鍵詞匯在文件片段中的關(guān)聯(lián)值成一關(guān)聯(lián)指針。最后,決定部分該些關(guān)鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合。
文檔編號G06F17/30GK101807183SQ200910006748
公開日2010年8月18日 申請日期2009年2月18日 優(yōu)先權(quán)日2009年2月18日
發(fā)明者周世俊, 楊佳元, 林卓彥, 謝長泰 申請人:財團法人資訊工業(yè)策進會