關(guān)鍵詞匯實時擴展方法、系統(tǒng)及其計算機可擦寫記錄媒體的制作方法

文檔序號：6480752閱讀：201來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：關(guān)鍵詞匯實時擴展方法、系統(tǒng)及其計算機可擦寫記錄媒體的制作方法
技術(shù)領(lǐng)域：
本發(fā)明是有關(guān)于一種數(shù)據(jù)搜尋方法與系統(tǒng)以及儲存數(shù)據(jù)搜尋程序的計算機可擦寫存儲媒體，且特別是有關(guān)于一種關(guān)鍵詞匯實時擴展方法與系統(tǒng)以及儲存數(shù)據(jù)搜尋程序的計算機可擦寫存儲媒體。
背景技術(shù)：
在信息高度擴充的現(xiàn)在，人們越來越仰賴網(wǎng)際網(wǎng)絡(luò)所提供的快速數(shù)據(jù)搜尋服務(wù)。而當(dāng)網(wǎng)際網(wǎng)絡(luò)使用人口越來越多時，在數(shù)據(jù)搜尋結(jié)果與線上展開閱讀文件的同時在網(wǎng)頁上顯現(xiàn)的廣告所帶來的廣告收益，漸漸成為各網(wǎng)站平臺的收入來源。然而固定版面的廣告模式雖然有一定的曝光程度，但是無法精確的吸引到最主要的消費層。因此關(guān)鍵詞匯廣告逐漸成為網(wǎng)頁廣告的主流。關(guān)鍵詞匯廣告是根據(jù)使用者使用搜尋引擎所輸入的查詢詞匯或是詞匯串為基礎(chǔ)，或是根據(jù)使用者當(dāng)前所瀏覽的網(wǎng)頁中出現(xiàn) 的特殊詞匯或是標(biāo)題為基礎(chǔ)，與廣告商所提供的廣告相關(guān)詞匯媒合之后，選定實時隨著搜尋結(jié)果或是展開網(wǎng)頁的同時，刊登于網(wǎng)頁上。如此一來，因為隨著使用者的搜尋標(biāo)的或是瀏覽文件而改變刊登的廣告，將可以有效的吸引相關(guān)產(chǎn)品的消費族群。然而，單單以使用者在搜尋引擎上輸入的搜尋標(biāo)的或是所展開網(wǎng)頁中的特定詞匯作為所刊登廣告的篩選條件時，而致使可推薦的廣告種類過于特定，不夠廣泛，將會遺失許多潛在的客戶群。因此如何增進關(guān)鍵詞匯廣告媒合的廣度與精準(zhǔn)度，成為重要的課題。

發(fā)明內(nèi)容
本發(fā)明提供一種關(guān)鍵詞匯實時擴展方法，可根據(jù)查詢詞匯自動搜尋相同概念的關(guān) 鍵詞匯，提供廣告媒合一較精準(zhǔn)且廣泛的關(guān)鍵詞匯集合。本發(fā)明提供一種關(guān)鍵詞匯實時擴展系統(tǒng)，可以提高關(guān)鍵詞匯擴展速度。本發(fā)明提供一種儲存關(guān)鍵詞匯實時擴展程序的計算機可擦寫存儲媒體，不受限于有限容量的數(shù)據(jù)庫，并且對于數(shù)據(jù)搜尋領(lǐng)域無偏移現(xiàn)象。本發(fā)明提出一種關(guān)鍵詞匯實時擴展方法，包括接收一查詢詞匯。之后，根據(jù)該查詢詞匯，分別于多個搜尋引擎上進行一數(shù)據(jù)搜尋。繼之，分別由每一該些搜尋引擎獲得相關(guān) 于該查詢詞匯的多筆文件片段，其中每一文件片段具有至少一文句。又，分析每一該些文件片段以建立一相關(guān)詞匯表，其中該相關(guān)詞匯表中，對于每一文件片段列舉出現(xiàn)在該文件片段中的多個關(guān)鍵詞匯，其中每一關(guān)鍵詞匯具有一語意。接著，根據(jù)該相關(guān)詞匯表中的每一該些文件片段所相對應(yīng)的每一該些關(guān)鍵詞匯與該查詢詞匯在該文件片段中的一相對應(yīng)位置關(guān)系，進行一關(guān)聯(lián)計算步驟，以分別賦予每一該些文件片段的每一該些關(guān)鍵詞匯一關(guān)聯(lián)值。續(xù)之，進行一語意合并步驟，計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的該些關(guān)聯(lián)值成一關(guān)聯(lián)指針。最后，根據(jù)每一該些關(guān)鍵詞匯的該關(guān)聯(lián)指針，決定部分該些關(guān) 鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合。在本發(fā)明之一實施例中，上述之關(guān)鍵詞匯實時擴展方法，其中該關(guān)聯(lián)計算步驟根據(jù)一第一等式<formula>formula see original document page 6</formula>其中Query代表該查詢詞匯，Keytermj代表該關(guān)鍵詞匯，score (Query, Keytermj) 代表相關(guān)該查詢詞匯的該關(guān)鍵詞匯的該關(guān)聯(lián)值，NS(Query Π Keytermj)代表該查詢詞匯與該關(guān)鍵詞匯同時出現(xiàn)在單一該文句中的次數(shù)，NS(Query)代表該查詢詞匯的在該文件片段中出現(xiàn)的次數(shù)，NS(Keytermj)代表該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)， NS(Query) U NS(Keytermj)代表該查詢字匯與該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)總合，dist (Query, Keytermj)代表該查詢字匯與該關(guān)鍵詞匯之間所間隔的一文句數(shù)量。在本發(fā)明的一實施例中，上述的關(guān)鍵詞匯實時擴展方法，其中該語意合并步驟還包括進行一語意中心計算，計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的相對應(yīng)該些關(guān)聯(lián)值成為一中心值。之后，進行一正規(guī)化步驟，以將該些關(guān)鍵詞匯的相對應(yīng) 該些中心值正規(guī)化成該些關(guān)鍵指針，其中該些關(guān)鍵指針的一總和為一。而該語意中心計算根據(jù)一第二等式<formula>formula see original document page 6</formula>其中，Keyterm代表該關(guān)鍵詞匯，SC (Keyterm)代表該關(guān)鍵詞匯的該中心值， snippet代表文件片段，η代表文件片段的一數(shù)量。另外，該正規(guī)化步驟根據(jù)一第三等式<formula>formula see original document page 6</formula>其中，Keytermk代表該關(guān)鍵詞匯，NSC(Keytermk)代表該關(guān)鍵詞匯的該關(guān)鍵指針， SC(Keytermk)代表關(guān)鍵詞匯的該中心值，w代表該些關(guān)鍵詞匯的一數(shù)量。在本發(fā)明的一實施例中，上述的關(guān)鍵詞匯實時擴展方法，其中建立該相關(guān)詞匯表包括分析每一該些文件片段，以列舉出每一該些文件片段的多個潛在詞匯，之后，進行一加權(quán)計算，以從每一該些文件片段的該些潛在詞匯中篩選出相對應(yīng)每一文件片段的關(guān)鍵詞匯。在本發(fā)明的一實施例中，上述的關(guān)鍵詞匯實時擴展方法，其中該加權(quán)計算包括一詞步頁率-反向文件步頁率法(term frequency-inverse document frequency)。本發(fā)明另提出一種關(guān)鍵詞匯實時擴展系統(tǒng)，包括一使用者接口、一搜尋模塊、一數(shù)據(jù)聚集模塊、一詞匯分析模塊、一關(guān)聯(lián)分析模塊、一語意合并模塊以及一篩選模塊。其中，使用者接口用以接收一查詢詞匯。搜尋模塊則根據(jù)該查詢詞匯，分別于多個搜尋引擎上進行一數(shù)據(jù)搜尋。而數(shù)據(jù)聚集模塊用于收集分別由每一該些搜尋引擎獲得相關(guān)于該查詢詞匯的多筆文件片段，其中每一文件片段具有至少一文句。另外，詞匯分析模塊用以分析每一該些文件片段以建立一相關(guān)詞匯表，其中該相關(guān)詞匯表中，對于每一文件片段列舉出現(xiàn)在該文件片段中的多個關(guān)鍵詞匯，其中每一關(guān)鍵詞匯具有一語意。而關(guān)聯(lián)分析模塊用以根據(jù)該相關(guān)詞匯表中的每一該些文件片段所相對應(yīng)的每一該些關(guān)鍵詞匯與該查詢詞匯在該文件片段中的一相對應(yīng)位置關(guān)系，以分別賦予每一該些文件片段的每一該些關(guān)鍵詞匯一關(guān)聯(lián) 值。又語意合并模塊用以計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的該些關(guān)聯(lián)值成一關(guān)聯(lián)指針。再者，篩選模塊用以根據(jù)每一該些關(guān)鍵詞匯的該關(guān)聯(lián)指針，決定部分該些關(guān)鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合。本發(fā)明又提出一種計算機可擦寫記錄媒體，用以儲存一關(guān)鍵詞匯實時擴展程序，其中該關(guān)鍵詞匯實時擴展程序執(zhí)行多個指令，包括接收一查詢詞匯。之后，根據(jù)該查詢詞匯，分別于多個搜尋引擎上進行一數(shù)據(jù)搜尋。繼之，分別由每一該些搜尋引擎獲得相關(guān)于該查詢詞匯的多筆文件片段，其中每一文件片段具有至少一文句。又，分析每一該些文件片段以建立一相關(guān)詞匯表，其中該相關(guān)詞匯表中，對于每一文件片段列舉出現(xiàn)在該文件片段中的多個關(guān)鍵詞匯，其中每一關(guān)鍵詞匯具有一語意。接著，根據(jù)該相關(guān)詞匯表中的每一該些文件片段所相對應(yīng)的每一該些關(guān)鍵詞匯與該查詢詞匯在該文件片段中的一相對應(yīng)位置關(guān)系，進行一關(guān)聯(lián)計算步驟，以分別賦予每一該些文件片段的每一該些關(guān)鍵詞匯一關(guān)聯(lián)值。續(xù)之，進行一語意合并步驟，計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的該些關(guān)聯(lián)值成一關(guān)聯(lián)指針。最后，根據(jù)每一該些關(guān)鍵詞匯的該關(guān)聯(lián)指針，決定部分該些關(guān)鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合?；谏鲜?，本發(fā)明中，根據(jù)每次的查詢詞匯，實時利用搜尋引擎搜尋獲得文件片段做為查詢詞匯的語意空間(semantic space)，以來取代儲存整份文件，因此相關(guān)于查詢字匯的關(guān)鍵詞匯的擴展速度提升，加速關(guān)鍵詞匯集合的呈現(xiàn)，同時因此無需再另外建立一龐大數(shù)據(jù)庫儲存所搜尋到的文件，而可以降低所需的內(nèi)存儲存空間。此外，由于無需建立數(shù)據(jù) 庫儲存與查詢詞匯相關(guān)的文件，因此無需進行數(shù)據(jù)庫的維護。另外，由于利用搜尋引擎直接在網(wǎng)際網(wǎng)絡(luò)上進行數(shù)據(jù)搜尋而不是在固定數(shù)據(jù)庫中進行數(shù)據(jù)搜尋，因此查詢詞匯的相關(guān)數(shù) 據(jù)搜尋結(jié)果不會受限于數(shù)據(jù)庫中的特定數(shù)據(jù)領(lǐng)域，而有搜尋領(lǐng)域偏移導(dǎo)致搜尋結(jié)果出現(xiàn)特定領(lǐng)域的問題。為讓本發(fā)明的上述特征和優(yōu)點能更明顯易懂，下文特舉實施例，并配合附圖作詳細(xì)說明如下。

圖1是根據(jù)本發(fā)明一實施例的一種關(guān)鍵詞匯實時擴展方法的流程簡圖。圖2是圖1顯示的關(guān)鍵詞匯實時擴展方法中建立相關(guān)詞匯表的流程示意圖。圖3是根據(jù)本發(fā)明一實施例的一種關(guān)鍵詞匯實時擴展系統(tǒng)的簡圖。
具體實施例方式圖1是根據(jù)本發(fā)明一實施例的一種關(guān)鍵詞匯實時擴展方法的流程簡圖。請參照圖 1，首先于步驟SlOl中，接收一查詢詞匯(Query Term)。之后，于步驟S103中，根據(jù)所接收的查詢詞匯，分別于數(shù)個不同的搜尋引擎上進行一數(shù)據(jù)搜尋。其中每一搜尋引擎所搜尋的數(shù)據(jù)標(biāo)的包括網(wǎng)頁、博客(blog)、新聞與論壇。另外，搜尋引擎包括Yahoo ！、GOOgle、A0L. com與MSN等。繼之，于步驟S105中，分別由每一搜尋引擎獲得相關(guān)于所接收的查詢詞匯的數(shù)筆文件片段，其中每一文件片段具有至少一文句。此外，于步驟S105中還包括進行一對比步驟以移除重復(fù)的文件片段，以防止過多重復(fù)的文件片段干擾后續(xù)建立的相關(guān)詞匯表的關(guān)鍵詞匯的準(zhǔn)確性。
圖2是圖1顯示的關(guān)鍵詞匯實時擴展方法中建立相關(guān)詞匯表的流程示意圖。請參照圖2，在步驟S105中，將搜尋引擎所搜集到的文件片段(也就是包含有查詢詞匯的文件片段)合并成如標(biāo)號200所示的文件片段聚集。于此實施例中，例如是以“美食”作為查詢詞匯，而文件片段1至文件片段8則是由搜尋引擎所搜尋到的在文件中有出現(xiàn)“美食”詞匯的文件片段。以文件片段聚集200中的文件片段4為例，其中相鄰標(biāo)點符號之間的文字所組成的文句共有14個。之后，請同時參照圖1與圖2，于步驟S107中，分析每一文件片段以建立一相關(guān)詞匯表204。其中，相關(guān)詞匯表204中，對于每一文件片段列舉出現(xiàn)在其文件片段中的多個關(guān) 鍵詞匯(亦即相關(guān)詞匯表204中的文件片段關(guān)鍵詞匯列204a)，其中每一關(guān)鍵詞匯具有一語意。于一實施例中，建立相關(guān)詞匯表的步驟還包括分析每一文件片段，以列舉出每一文件片段的多個潛在詞匯(步驟S109)，如圖2中所顯示的潛在詞匯表202中，每一文件片段具有相對應(yīng)的數(shù)個潛在詞匯。之后，于步驟Slll中，進行一加權(quán)計算，以從每一文件片段的潛在詞匯中篩選出相對應(yīng)每一文件片段的關(guān)鍵詞匯。其中加權(quán)計算包括一詞頻率-反向文件頻率法(term frequency-inversedocument frequency)。接著，于步驟S113中，根據(jù)相關(guān)詞匯表204中的每一文件片段所相對應(yīng)的每一關(guān) 鍵詞匯與所接收的查詢詞匯在文件片段中的一相對應(yīng)位置關(guān)系，進行一關(guān)聯(lián)計算步驟，以分別賦予相對應(yīng)每一文件片段的每一關(guān)鍵詞匯一關(guān)聯(lián)值。值得注意的是，關(guān)聯(lián)計算步驟是根據(jù)一第一等式計算出在單一文件片段中，每一關(guān)鍵詞匯與查詢詞匯之間的關(guān)聯(lián)值。此第一等式如下所示
/、 2Ns(Query f) Keytermi)1score\Query, Keyterm,)二 ——-,-r—-7--~t χ-z-r
W1! NS(Query)U NSyKeytermj) \ +(Hst(Query^eytermj)其中Query代表查詢詞匯，Keytermj代表關(guān)鍵詞匯，score (Query, Keytermj)代表相關(guān)于查詢詞匯之關(guān)鍵詞匯的關(guān)聯(lián)值，NS(Query Π Keytermj)代表查詢詞匯與關(guān)鍵詞匯同時出現(xiàn)在單一文句中的次數(shù)，NS(Query)代表查詢詞匯的在文件片段中出現(xiàn)的次數(shù)， NS(Keytermj)代表關(guān)鍵詞匯的在文件片段中出現(xiàn)的次數(shù)，NS(Query) U NS(Keytermj)代表查詢字匯與關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)總合，dist (Query, Keytermj)代表查詢字匯與該關(guān)鍵詞匯之間所間隔的一文句數(shù)量。續(xù)之，于步驟S115中，進行一語意合并步驟，計算具有相同語意的每一關(guān)鍵詞匯在全部文件片段中的關(guān)聯(lián)值成為一關(guān)聯(lián)指針。于一實施例中，上述語意合并步驟還包括進行一語意中心計算(步驟S117)，以計算具有相同語意的每一關(guān)鍵詞匯在所有文件片段中的相對應(yīng)關(guān)聯(lián)值成為一中心值。其中，語意中心計算是根據(jù)一第二等式
η
j Y^snippetiSC(Keyterm) = -χ 丨‘.:1一―
J^snippetf
其中，Keyterm代表該關(guān)鍵詞匯，SC (Keyterm)代表該關(guān)鍵詞匯的該中心值， snippet代表文件片段，η代表文件片段的一數(shù)量。之后，進行一正規(guī)化步驟(步驟S119)，以將每一關(guān)鍵詞匯相對應(yīng)的中心值正規(guī)化成一關(guān)鍵指針。而所有關(guān)鍵詞匯的關(guān)鍵指針的總和為一。而正規(guī)化步驟根據(jù)一第三等式
<formula>formula see original document page 9</formula>其中，Keytermk代表該關(guān)鍵詞匯，NSC(Keytermk)代表該關(guān)鍵詞匯的該關(guān)鍵指針， SC(Keytermk)代表關(guān)鍵詞匯的該中心值，w代表該些關(guān)鍵詞匯的一數(shù)量。最后，于步驟S121中，根據(jù)每一關(guān)鍵詞匯的關(guān)聯(lián)指針，決定部分關(guān)鍵詞匯組成查詢詞匯的一關(guān)鍵詞匯集合。也就是關(guān)鍵詞匯的關(guān)鍵指針越大，表示此關(guān)鍵詞匯與查詢詞匯的關(guān)聯(lián)性越大，則此關(guān)鍵詞匯或選入關(guān)鍵詞匯集合的機率就越高。相反的當(dāng)關(guān)鍵詞匯的關(guān) 鍵指針越小，表示此關(guān)鍵詞匯與查詢詞匯的關(guān)聯(lián)性越小，則獲選入關(guān)鍵詞匯集合的機率越低。圖3是根據(jù)本發(fā)明一實施例的一種關(guān)鍵詞匯實時擴展系統(tǒng)的簡圖。請參照圖3，本發(fā)明的關(guān)鍵詞匯實時擴展系統(tǒng)300，包括一使用者接口 302、一搜尋模塊304、一數(shù)據(jù)聚集模塊308、一詞匯分析模塊310、一關(guān)聯(lián)分析模塊318、一語意合并模塊324以及一篩選模塊 330。其中，使用者接口 302用以接收一查詢詞匯。而搜尋模塊304則根據(jù)所接收的查詢詞匯，分別于數(shù)個搜尋引擎(如圖3所示的搜尋引擎306)上進行一數(shù)據(jù)搜尋。其中，每一搜尋引擎所搜尋的數(shù)據(jù)標(biāo)的包括網(wǎng)頁、博客(blog)、新聞與論壇。另外，搜尋引擎包括Yahoo ！、 Google、AOL. com 與 MSN 等。之后，數(shù)據(jù)聚集模塊308收集分別由每一搜尋引擎搜尋而獲得相關(guān)于查詢詞匯的數(shù)筆文件片段，其中每一文件片段具有至少一文句。接著，詞匯分析模塊310用以分析每一文件片段以建立一相關(guān)詞匯表，其中相關(guān)詞匯表中，對于每一文件片段列舉出現(xiàn)在文件片段中的多個關(guān)鍵詞匯(如圖2中的相關(guān)詞匯表204)，其中每一關(guān)鍵詞匯具有一語意。詞匯分析模塊310還包括一斷詞斷句模塊312與一加權(quán)計算模塊314。斷詞斷句模塊312用以分析每一文件片段，以列舉出每一文件片段中的數(shù)個潛在詞匯(如圖2所示的潛在詞匯表 202)。而加權(quán)計算模塊314則從每一文件片段的潛在詞匯中篩選出相對應(yīng)每一該些文件片段的關(guān)鍵詞匯。其中加權(quán)計算模塊314包括執(zhí)行一詞頻率_反向文件頻率計算。而關(guān)聯(lián)分析模塊318用以根據(jù)相關(guān)詞匯表中的每一文件片段所相對應(yīng)的每一關(guān) 鍵詞匯與查詢詞匯在文件片段中的一相對應(yīng)位置關(guān)系，以分別賦予每一文件片段中的每一關(guān)鍵詞匯一關(guān)聯(lián)值。其中，每一關(guān)鍵詞匯與查詢詞匯在文件片段中的一相對應(yīng)位置關(guān)系包括一距離參數(shù)320與一文句參數(shù)322，距離參數(shù)320亦即在同一文件片段中，每一關(guān)鍵詞匯與查詢詞匯之間間隔的文句數(shù)量，當(dāng)文句數(shù)量越大則關(guān)鍵詞匯與查詢詞匯之間的關(guān)聯(lián)性越低。而文句參數(shù)則是在同一文件片段中，關(guān)鍵詞匯與查詢詞匯同時存在同一文句中的次數(shù) 越多則關(guān)鍵詞匯與查詢詞匯的關(guān)聯(lián)性就越高。而以上述兩參數(shù)分析關(guān)鍵詞匯與查詢詞匯的關(guān)聯(lián)性成一關(guān)聯(lián)值可根據(jù)上述實施例中所提供的第一等式計算獲得。語意合并模塊324用以計算具有相同語意的每一關(guān)鍵詞匯在所有文件片段中的關(guān)聯(lián)值以成為一關(guān)聯(lián)指針。于一實施例中，語意合并模塊324還包括一語意中心計算模塊 326與一正規(guī)化模塊328。語意中心計算模塊324，用以計算具有相同語意的每一關(guān)鍵詞匯在所有些文件片段中的相對應(yīng)該些關(guān)聯(lián)值成為一中心值。上述計算在所有文件片段中，相同語意的關(guān)鍵詞匯的關(guān)聯(lián)值可藉由上述實施例中所提供的第二等式計算獲得。之后正規(guī)化模塊328，以將關(guān)鍵詞匯的相對應(yīng)中心值正規(guī)化成關(guān)鍵指針。其中關(guān)鍵指針的一總和為一。而正規(guī)化關(guān)鍵詞匯的關(guān)鍵指針成為關(guān)鍵指針可藉由上述實施例中所提供的第三等式計算獲得。再者，篩選模塊330用以根據(jù)每一關(guān)鍵詞匯的相對應(yīng)關(guān)聯(lián)指針，決定部分關(guān)鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合。之后此關(guān)鍵詞匯集合經(jīng)由使用者接口 302提供給使用者。
于上述兩實施例中，本發(fā)明的關(guān)鍵詞匯實時擴展方法可經(jīng)由執(zhí)行一計算機可讀取程序而具體實行，而關(guān)鍵詞匯實時擴展系統(tǒng)也可以是上述計算機可讀取程序/關(guān)鍵詞匯實時擴展程序。而此計算機可讀去程序儲存于一種計算機可擦寫記錄媒體，并且執(zhí)行數(shù)個指令，以具體實行本發(fā)明的關(guān)鍵詞匯實時擴展方法。所執(zhí)行的關(guān)鍵詞匯實時擴展方法步驟以于上述實施例中詳細(xì)描述，因此不在此做贅述。綜上所述，于本發(fā)明中，根據(jù)每次的查詢詞匯，實時利用搜尋引擎搜尋獲得文件片段做為查詢詞匯的語意空間(semantic space)，以來取代儲存整份文件，因此無需再另外建立一龐大數(shù)據(jù)庫儲存所搜尋到的文件，也因此可以降低所需的內(nèi)存儲存空間。此外，由于無需建立數(shù)據(jù)庫儲存與查詢詞匯相關(guān)的文件，因此無需進行數(shù)據(jù)庫的維護。此外由于利用搜尋引擎直接在網(wǎng)際網(wǎng)絡(luò)上進行數(shù)據(jù)搜尋而不是在固定數(shù)據(jù)庫中進行數(shù)據(jù)搜尋，因此查詢詞匯的相關(guān)數(shù)據(jù)搜尋結(jié)果不會受限于數(shù)據(jù)庫中的特定數(shù)據(jù)領(lǐng)域，而有搜尋領(lǐng)域偏移導(dǎo)致搜尋結(jié)果出現(xiàn)特定領(lǐng)域的問題。由于直接藉由搜尋引擎在網(wǎng)際網(wǎng)絡(luò)上進行搜尋，并且利用搜尋引擎所展現(xiàn)的搜尋文件片段直接作為查詢詞匯的語意空間，因此相關(guān)于查詢字匯的關(guān)鍵詞匯的擴展速度提升，加速關(guān)鍵詞匯集合的呈現(xiàn)。雖然本發(fā)明已以實施例揭露如上，然其并非用以限定本發(fā)明，任何所屬技術(shù)領(lǐng)域中具有通常知識者，在不脫離本發(fā)明的精神和范圍內(nèi)，當(dāng)可作些許的更動與潤飾，故本發(fā)明的保護范圍當(dāng)以權(quán)利要求所界定的為準(zhǔn)。
權(quán)利要求
一種關(guān)鍵詞匯實時擴展方法，包括接收一查詢詞匯；根據(jù)該查詢詞匯，分別于多個搜尋引擎上進行一數(shù)據(jù)搜尋；分別由每一該些搜尋引擎獲得相關(guān)于該查詢詞匯的多筆文件片段，其中每一文件片段具有至少一文句；分析每一該些文件片段以建立一相關(guān)詞匯表，其中該相關(guān)詞匯表中，對于每一該些文件片段列舉出現(xiàn)在該文件片段中的多個關(guān)鍵詞匯，其中每一該些關(guān)鍵詞匯具有一語意；根據(jù)該相關(guān)詞匯表中的每一該些文件片段所相對應(yīng)的每一該些關(guān)鍵詞匯與該查詢詞匯在該文件片段中的一相對應(yīng)位置關(guān)系，進行一關(guān)聯(lián)計算步驟，以分別賦予每一該些文件片段的每一該些關(guān)鍵詞匯一關(guān)聯(lián)值；進行一語意合并步驟，計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的該些關(guān)聯(lián)值成一關(guān)聯(lián)指針；以及根據(jù)每一該些關(guān)鍵詞匯的該關(guān)聯(lián)指針，決定部分該些關(guān)鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合。
2.如權(quán)利要求1所述的關(guān)鍵詞匯實時擴展方法，其特征在于，該關(guān)聯(lián)計算步驟根據(jù)一第一等式<formula>formula see original document page 2</formula>其中Query代表該查詢詞匯，Keytermj代表該關(guān)鍵詞匯，score (Query, Keytermj) 代表相關(guān)該查詢詞匯的該關(guān)鍵詞匯的該關(guān)聯(lián)值，NS(Query Π Keytermj)代表該查詢詞匯與該關(guān)鍵詞匯同時出現(xiàn)在單一該文句中的次數(shù)，NS(Query)代表該查詢詞匯的在該文件片段中出現(xiàn)的次數(shù)，NS(Keytermj)代表該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)， NS(Query) U NS(Keytermj)代表該查詢字匯與該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)總合，dist (Query, Keytermj)代表該查詢字匯與該關(guān)鍵詞匯之間所間隔的一文句數(shù)量。
3.如權(quán)利要求1所述的關(guān)鍵詞匯實時擴展方法，其特征在于，該語意合并步驟還包括進行一語意中心計算，計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的相對應(yīng)該些關(guān)聯(lián)值成為一中心值；以及進行一正規(guī)化步驟，以將該些關(guān)鍵詞匯的相對應(yīng)該些中心值正規(guī)化成該些關(guān)鍵指針，其中該些關(guān)鍵指針的一總和為一。
4.如權(quán)利要求3所述的關(guān)鍵詞匯實時擴展方法，其特征在于，該語意中心計算根據(jù)一第二等式<formula>formula see original document page 2</formula>其中，Keyterm代表該關(guān)鍵詞匯，SC(Keyterm)代表該關(guān)鍵詞匯的該中心值，snippet代表文件片段，η代表文件片段的一數(shù)量。
5.如權(quán)利要求3所述的關(guān)鍵詞匯實時擴展方法，其特征在于，該正規(guī)化步驟根據(jù)一第三等式<formula>formula see original document page 3</formula>其中，Keytermk代表該關(guān)鍵詞匯，NSC(Keytermk)代表該關(guān)鍵詞匯的該關(guān)鍵指針， SC(Keytermk)代表關(guān)鍵詞匯的該中心值，w代表該些關(guān)鍵詞匯的一數(shù)量。
6.如權(quán)利要求1所述的關(guān)鍵詞匯實時擴展方法，其特征在于，建立該相關(guān)詞匯表包括分析每一該些文件片段，以列舉出每一該些文件片段的多個潛在詞匯；以及進行一加權(quán)計算，以從每一該些文件片段的該些潛在詞匯中篩選出相對應(yīng)每一該些文件片段的該些關(guān)鍵詞匯。
7.如權(quán)利要求6所述的關(guān)鍵詞匯實時擴展方法，其特征在于，該加權(quán)計算包括一詞頻率-反向文件頻率法。
8.—種關(guān)鍵詞匯實時擴展系統(tǒng)，包括一使用者接口，用以接收一查詢詞匯；一搜尋模塊，根據(jù)該查詢詞匯，分別于多個搜尋引擎上進行一數(shù)據(jù)搜尋；一數(shù)據(jù)聚集模塊，收集分別由每一該些搜尋引擎獲得相關(guān)于該查詢詞匯的多筆文件片段，其中每一文件片段具有至少一文句；一詞匯分析模塊，用以分析每一該些文件片段以建立一相關(guān)詞匯表，其中該相關(guān)詞匯表中，對于每一該些文件片段列舉出現(xiàn)在該文件片段中的多個關(guān)鍵詞匯，其中每一該些關(guān) 鍵詞匯具有一語意；一關(guān)聯(lián)分析模塊，用以根據(jù)該相關(guān)詞匯表中的每一該些文件片段所相對應(yīng)的每一該些關(guān)鍵詞匯與該查詢詞匯在該文件片段中的一相對應(yīng)位置關(guān)系，以分別賦予每一該些文件片段的每一該些關(guān)鍵詞匯一關(guān)聯(lián)值；一語意合并模塊，用以計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的該些關(guān)聯(lián)值成一關(guān)聯(lián)指針；以及一篩選模塊，用以根據(jù)每一該些關(guān)鍵詞匯的該關(guān)聯(lián)指針，決定部分該些關(guān)鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合。
9.如權(quán)利要求8所述的關(guān)鍵詞匯實時擴展系統(tǒng)，其特征在于，該關(guān)聯(lián)分析模塊賦予每一該些文件片段的每一該些關(guān)鍵詞匯該關(guān)聯(lián)值是根據(jù)一第一等式<formula>formula see original document page 3</formula>其中Query代表該查詢詞匯，Keytermj代表該關(guān)鍵詞匯，score (Query, Keytermj) 代表相關(guān)該查詢詞匯的該關(guān)鍵詞匯的該關(guān)聯(lián)值，NS(Query Π Keytermj)代表該查詢詞匯與該關(guān)鍵詞匯同時出現(xiàn)在單一該文句中的次數(shù)，NS(Query)代表該查詢詞匯的在該文件片段中出現(xiàn)的次數(shù)，NS(Keytermj)代表該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)， NS(Query) U NS(Keytermj)代表該查詢字匯與該關(guān)鍵詞匯的在該文件片段中出現(xiàn)的次數(shù)總合，dist (Query, Keytermj)代表該查詢字匯與該關(guān)鍵詞匯之間所間隔的一文句數(shù)量。
10.如權(quán)利要求8所述的關(guān)鍵詞匯實時擴展系統(tǒng)，其特征在于，該語意合并模塊還包括一語意中心計算模塊，用以計算具有相同該語意的每一該些關(guān)鍵詞匯在該些文件片段中的相對應(yīng)該些關(guān)聯(lián)值成為一中心值；以及一正規(guī)化模塊，以將該些關(guān)鍵詞匯的相對應(yīng)該些中心值正規(guī)化成該些關(guān)鍵指針，其中該些關(guān)鍵指針的一總和為一。
11.如權(quán)利要求10所述的關(guān)鍵詞匯實時擴展系統(tǒng)，其特征在于，該語意中心計算每一該些中心值是根據(jù)一第二等式<formula>formula see original document page 4</formula>其中，Keyterm代表該關(guān)鍵詞匯，SC(Keyterm)代表該關(guān)鍵詞匯的該中心值，snippet代表文件片段，η代表文件片段的一數(shù)量。
12.如權(quán)利要求10所述的關(guān)鍵詞匯實時擴展系統(tǒng)，其特征在于，該正規(guī)化模塊正規(guī)化該些中心值是根據(jù)一第三等式<formula>formula see original document page 4</formula>其中，Keytermk代表該關(guān)鍵詞匯，NSC(Keytermk)代表該關(guān)鍵詞匯的該關(guān)鍵指針， SC(Keytermk)代表關(guān)鍵詞匯的該中心值，w代表該些關(guān)鍵詞匯的一數(shù)量。
13.如權(quán)利要求8所述的關(guān)鍵詞匯實時擴展系統(tǒng)，其特征在于，該詞匯分析模塊包括一斷詞斷句模塊，用以分析每一該些文件片段，以列舉出每一該些文件片段的多個潛在詞匯；以及一加權(quán)計算模塊，以從每一該些文件片段的該些潛在詞匯中篩選出相對應(yīng)每一該些文件片段的該些關(guān)鍵詞匯。
14.如權(quán)利要求13所述的關(guān)鍵詞匯實時擴展系統(tǒng)，其特征在于，該加權(quán)計算模塊包括執(zhí)行一詞頻率_反向文件頻率計算。
全文摘要
本發(fā)明公開了一種關(guān)鍵詞匯實時擴展方法、系統(tǒng)及其計算機可擦寫記錄媒體，包括根據(jù)查詢詞匯，分別于數(shù)個搜尋引擎上進行一數(shù)據(jù)搜尋。繼之，分別由一該些搜尋引擎獲得相關(guān)于該查詢詞匯的數(shù)筆文件片段。分析每一文件片段以建立一相關(guān)詞匯表，每一文件片段列舉相對應(yīng)的數(shù)個關(guān)鍵詞匯。接著，根據(jù)每一文件片段所相對應(yīng)的每一關(guān)鍵詞匯與查詢詞匯的一相對應(yīng)位置關(guān)系，進行一關(guān)聯(lián)計算步驟，以分別賦予每一關(guān)鍵詞匯一關(guān)聯(lián)值。續(xù)之，進行一語意合并步驟，計算具有相同語意的每一關(guān)鍵詞匯在文件片段中的關(guān)聯(lián)值成一關(guān)聯(lián)指針。最后，決定部分該些關(guān)鍵詞匯組成該查詢詞匯的一關(guān)鍵詞匯集合。
文檔編號G06F17/30GK101807183SQ200910006748
公開日2010年8月18日申請日期2009年2月18日優(yōu)先權(quán)日2009年2月18日
發(fā)明者周世俊, 楊佳元, 林卓彥, 謝長泰申請人:財團法人資訊工業(yè)策進會

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝長泰;林卓彥;楊佳元;周世俊
技術(shù)所有人：財團法人資訊工業(yè)策進會
我是此專利的發(fā)明人

上一篇：移動計算裝置用戶打印文檔的系統(tǒng)和方法
上一篇：通信管理系統(tǒng)及方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

關(guān)鍵詞匯實時擴展方法、系統(tǒng)及其計算機可擦寫記錄媒體的制作方法