国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種索引文件生成方法及裝置的制造方法

      文檔序號:10624769閱讀:237來源:國知局
      一種索引文件生成方法及裝置的制造方法
      【專利摘要】本發(fā)明公開了一種索引文件生成方法及裝置,所述方法包括:獲取業(yè)務(wù)數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型;根據(jù)業(yè)務(wù)類型獲取相對應(yīng)的配置文件,配置文件包括對字段預(yù)處理指示以及分詞處理指示;根據(jù)字段預(yù)處理指示,對數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容;根據(jù)分詞處理指示,對預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理,對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的索引文件。本發(fā)明方案可針對多種業(yè)務(wù)類型的數(shù)據(jù)統(tǒng)一建立索引文件,從而可簡化建立過程,并提高效率。
      【專利說明】
      一種索引文件生成方法及裝置
      技術(shù)領(lǐng)域
      [0001]本發(fā)明屬于通信技術(shù)領(lǐng)域,尤其涉及一種索引文件生成方法及裝置。
      【背景技術(shù)】
      [0002]隨著計(jì)算機(jī)及互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,在網(wǎng)絡(luò)設(shè)備中所存儲(chǔ)的信息量也越來越為龐大,為了便于對這些信息進(jìn)行查詢,往往需要通過建立索引文件等方式來協(xié)助用戶對這些信息進(jìn)行訪問。
      [0003]在現(xiàn)有技術(shù)中,一般都需要根據(jù)需要進(jìn)行檢索的數(shù)據(jù)的業(yè)務(wù)類型生成對應(yīng)的順排索引文件,然后對該順排索引文件進(jìn)行倒排處理,得到倒排索引文件,以便用戶根據(jù)該倒排索引文件對該業(yè)務(wù)類型的數(shù)據(jù)進(jìn)行檢索。而對于不同業(yè)務(wù)類型的數(shù)據(jù),由于其所涉及的關(guān)鍵字等因素不同,所以,在現(xiàn)有技術(shù)中,針對不同業(yè)務(wù)類型的數(shù)據(jù),需要獨(dú)立建立一個(gè)索引生成系統(tǒng),以生成索引供用戶進(jìn)行檢索。
      [0004]在對現(xiàn)有技術(shù)的研究和實(shí)踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),現(xiàn)有方案的索引生成系統(tǒng)只能針對一種業(yè)務(wù)類型,所以,在業(yè)務(wù)類型較多的場景下,需要搭建多套索引生成系統(tǒng),而這種系統(tǒng)的建立對操作人員的專業(yè)水平要求較高,整個(gè)建立的過程較為耗時(shí),效率低。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明的目的在于提供一種索引文件生成方法及裝置,可針對多種業(yè)務(wù)數(shù)據(jù)類型建立索引文件,簡化建立過程,提高效率。
      [0006]為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供以下技術(shù)方案:
      [0007]本發(fā)明第一方面提供一種索引文件生成方法,其中所述方法包括:
      [0008]獲取業(yè)務(wù)數(shù)據(jù),所述業(yè)務(wù)數(shù)據(jù)包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型;
      [0009]根據(jù)所述業(yè)務(wù)類型獲取相對應(yīng)的配置文件,所述配置文件包括對字段預(yù)處理指示以及分詞處理指示;
      [0010]根據(jù)所述字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0011]根據(jù)所述分詞處理指示,對所述預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理;
      [0012]對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的索引文件。
      [0013]為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供以下技術(shù)方案:
      [0014]本發(fā)明第二方面提供一種索引文件生成裝置,其中所述裝置包括:
      [0015]第一獲取模塊,用于獲取業(yè)務(wù)數(shù)據(jù),所述業(yè)務(wù)數(shù)據(jù)包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型;
      [0016]第二獲取模塊,用于根據(jù)所述業(yè)務(wù)類型獲取相對應(yīng)的配置文件,所述配置文件包括對字段預(yù)處理指示以及分詞處理指示;
      [0017]預(yù)處理模塊,用于根據(jù)所述字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0018]分詞模塊,用于根據(jù)所述分詞處理指示,對所述預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理;
      [0019]索引生成模塊,用于對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的索引文件。
      [0020]相對于現(xiàn)有技術(shù),本實(shí)施例中,根據(jù)多種業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)類型,獲取相對應(yīng)的配置文件,其后根據(jù)配置文件的字段預(yù)處理指示,對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,根據(jù)配置文件的分詞處理指示,對預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理,從而生成統(tǒng)一數(shù)據(jù)格式的索引文件。本發(fā)明針對不同業(yè)務(wù)類型的數(shù)據(jù)采用相對應(yīng)的配置文件對數(shù)據(jù)進(jìn)行處理,其后采用相同的程序?qū)?shù)據(jù)內(nèi)容進(jìn)行分詞,將不同格式的業(yè)務(wù)數(shù)據(jù)歸一化為統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù),從而可針對多種業(yè)務(wù)數(shù)據(jù)類型統(tǒng)一建立索引文件,簡化建立過程,提高效率。
      【附圖說明】
      [0021]下面結(jié)合附圖,通過對本發(fā)明的【具體實(shí)施方式】詳細(xì)描述,將使本發(fā)明的技術(shù)方案及其它有益效果顯而易見。
      [0022]圖1是本發(fā)明第一實(shí)施例提供的索引文件生成方法的流程示意圖;
      [0023]圖2a為本發(fā)明第二實(shí)施例提供的索引文件生成方法的流程示意圖;
      [0024]圖2b和圖2c為本發(fā)明提供的索引文件生成方法字段的配置界面示意圖;
      [0025]圖3a和圖3b為本發(fā)明第三實(shí)施例提供的索引文件生成方法的流程示意圖;
      [0026]圖4為本發(fā)明第四實(shí)施例提供的索引文件生成裝置的結(jié)構(gòu)示意圖;
      [0027]圖5為本發(fā)明第五實(shí)施例提供的索引文件生成裝置的結(jié)構(gòu)示意圖;
      [0028]圖6為本發(fā)明第六實(shí)施例提供的服務(wù)器的結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0029]請參照圖式,其中相同的組件符號代表相同的組件,本發(fā)明的原理是以實(shí)施在一適當(dāng)?shù)倪\(yùn)算環(huán)境中來舉例說明。以下的說明是基于所例示的本發(fā)明具體實(shí)施例,其不應(yīng)被視為限制本發(fā)明未在此詳述的其它具體實(shí)施例。
      [0030]在以下的說明中,本發(fā)明的具體實(shí)施例將參考由一部或多部計(jì)算機(jī)所執(zhí)行的步驟及符號來說明,除非另有述明。因此,這些步驟及操作將有數(shù)次提到由計(jì)算機(jī)執(zhí)行,本文所指的計(jì)算機(jī)執(zhí)行包括了由代表了以一結(jié)構(gòu)化型式中的數(shù)據(jù)的電子信號的計(jì)算機(jī)處理單元的操作。此操作轉(zhuǎn)換該數(shù)據(jù)或?qū)⑵渚S持在該計(jì)算機(jī)的內(nèi)存系統(tǒng)中的位置處,其可重新配置或另外以本領(lǐng)域測試人員所熟知的方式來改變該計(jì)算機(jī)的運(yùn)作。該數(shù)據(jù)所維持的數(shù)據(jù)結(jié)構(gòu)為該內(nèi)存的實(shí)體位置,其具有由該數(shù)據(jù)格式所定義的特定特性。但是,本發(fā)明原理以上述文字來說明,其并不代表為一種限制,本領(lǐng)域測試人員將可了解到以下所述的多種步驟及操作亦可實(shí)施在硬件當(dāng)中。
      [0031]本發(fā)明的原理使用許多其它泛用性或特定目的運(yùn)算、通信環(huán)境或組態(tài)來進(jìn)行操作。所熟知的適合用于本發(fā)明的運(yùn)算系統(tǒng)、環(huán)境與組態(tài)的范例可包括(但不限于)手持電話、個(gè)人計(jì)算機(jī)、服務(wù)器、多處理器系統(tǒng)、微電腦為主的系統(tǒng)、主架構(gòu)型計(jì)算機(jī)、及分布式運(yùn)算環(huán)境,其中包括了任何的上述系統(tǒng)或裝置。
      [0032]本文所使用的術(shù)語「模塊」可看做為在該運(yùn)算系統(tǒng)上執(zhí)行的軟件對象。本文所述的不同組件、模塊、引擎及服務(wù)可看做為在該運(yùn)算系統(tǒng)上的實(shí)施對象。而本文所述的裝置及方法優(yōu)選的以軟件的方式進(jìn)行實(shí)施,當(dāng)然也可在硬件上進(jìn)行實(shí)施,均在本發(fā)明保護(hù)范圍之內(nèi)。
      [0033]而且本文所使用的詞語“優(yōu)選的”意指用作實(shí)例、示例或例證。奉文描述為“優(yōu)選的”任意方面或設(shè)計(jì)不必被解釋為比其他方面或設(shè)計(jì)更有利。相反,詞語“優(yōu)選的”的使用旨在以具體方式提出概念。如本申請中所使用的術(shù)語“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或從上下文中清楚,“X使用A或B”意指自然包括排列的任意一個(gè)。即,如果X使用A ;X使用B ;或X使用A和B 二者,則“X使用A或B”在前述任一示例中得到滿足。
      [0034]而且,盡管已經(jīng)相對于一個(gè)或多個(gè)實(shí)現(xiàn)方式示出并描述了本公開,但是本領(lǐng)域技術(shù)人員基于對本說明書和附圖的閱讀和理解將會(huì)想到等價(jià)變型和修改。本公開包括所有這樣的修改和變型,并且僅由所附權(quán)利要求的范圍限制。特別地關(guān)于由上述組件(例如元件、資源等)執(zhí)行的各種功能,用于描述這樣的組件的術(shù)語旨在對應(yīng)于執(zhí)行所述組件的指定功能(例如其在功能上是等價(jià)的)的任意組件(除非另外指示),即使在結(jié)構(gòu)上與執(zhí)行本文所示的本公開的示范性實(shí)現(xiàn)方式中的功能的公開結(jié)構(gòu)不等同。此外,盡管本公開的特定特征已經(jīng)相對于若干實(shí)現(xiàn)方式中的僅一個(gè)被公開,但是這種特征可以與如可以對給定或特定應(yīng)用而言是期望和有利的其他實(shí)現(xiàn)方式的一個(gè)或多個(gè)其他特征組合。而且,就術(shù)語“包括”、“具有”、“含有”或其變形被用在【具體實(shí)施方式】或權(quán)利要求中而言,這樣的術(shù)語旨在以與術(shù)語“包含”相似的方式包括。
      [0035]第一實(shí)施例
      [0036]請參閱圖1,圖1是本發(fā)明第一實(shí)施例提供的索引文件生成方法的流程示意圖。所述方法步驟包括:
      [0037]在步驟SlOl中,獲取業(yè)務(wù)數(shù)據(jù),所述業(yè)務(wù)數(shù)據(jù)包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型。
      [0038]其中,所述索引文件生成方法是基于BS (瀏覽器browser,服務(wù)器server)的系統(tǒng)結(jié)構(gòu)的,用戶通過瀏覽器使用該系統(tǒng),該系統(tǒng)支持多種業(yè)務(wù)類型的數(shù)據(jù)在同一平臺(tái)下生成統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù)。
      [0039]在本實(shí)施例中,所述業(yè)務(wù)類型可以包括:視頻、音樂、圖片等,相對應(yīng)的,所述業(yè)務(wù)數(shù)據(jù)可以包括視頻數(shù)據(jù)、音樂數(shù)據(jù)以及圖片數(shù)據(jù)等,此處不作具體限定。
      [0040]可以理解的是,本實(shí)施例中的業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)格式可以分為兩個(gè)部分,其中一個(gè)部分承載指示業(yè)務(wù)類型的信息,另一個(gè)部分承載該業(yè)務(wù)類型對應(yīng)的數(shù)據(jù)內(nèi)容。
      [0041]在步驟S102中,根據(jù)所述業(yè)務(wù)類型獲取相對應(yīng)的配置文件,所述配置文件包括對字段預(yù)處理指示以及分詞處理指示。
      [0042]可以理解的是,每一種業(yè)務(wù)類型會(huì)對應(yīng)一種配置文件,其中,所述配置文件是用戶根據(jù)實(shí)際操作中的業(yè)務(wù)類型的特點(diǎn)預(yù)先配置并存儲(chǔ)在服務(wù)器中的。
      [0043]其中,所述配置文件中包含了對所述數(shù)據(jù)內(nèi)容的字段進(jìn)行預(yù)處理的指示,以及對所述數(shù)據(jù)內(nèi)容的字段進(jìn)行分詞的指示,所述配置文件根據(jù)用戶對各業(yè)務(wù)數(shù)據(jù)的字段的配置來生成,此處對字段的配置不作具體限定。
      [0044]在步驟S103中,根據(jù)所述字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容。
      [0045]在步驟S104中,根據(jù)所述分詞處理指示,對所述預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理;
      [0046]在步驟S105中,對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的索引文件。
      [0047]可以理解的是,所述步驟S103至步驟S105可具體包括:
      [0048]由于每一業(yè)務(wù)類型對應(yīng)一配置文件,即每一業(yè)務(wù)類型對應(yīng)一字段預(yù)處理指示,各個(gè)業(yè)務(wù)類型分別根據(jù)對應(yīng)的字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,可以體現(xiàn)了不同業(yè)務(wù)類型之間的個(gè)性化差異操作;預(yù)處理后,可根據(jù)平臺(tái)預(yù)設(shè)的分詞模板以及預(yù)置好的分詞處理指示進(jìn)行處理,即進(jìn)行歸一化操作,將不同格式的業(yè)務(wù)數(shù)據(jù),送入順排處理單元(FSU,Forward Sort Unit)進(jìn)行順排索引生成,歸一化為統(tǒng)一的數(shù)據(jù)格式,得到了歸一化后的順排數(shù)據(jù),以適應(yīng)多種業(yè)務(wù)類型的數(shù)據(jù)檢索。
      [0049]由上述可知,本實(shí)施例中,根據(jù)多種業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)類型,獲取相對應(yīng)的配置文件,其后根據(jù)配置文件的字段預(yù)處理指示,對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,根據(jù)配置文件的分詞處理指示,對預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理,從而生成統(tǒng)一數(shù)據(jù)格式的索引文件。本發(fā)明針對不同業(yè)務(wù)類型的數(shù)據(jù)采用相對應(yīng)的配置文件對數(shù)據(jù)進(jìn)行處理,其后采用相同的程序?qū)?shù)據(jù)內(nèi)容進(jìn)行分詞,將不同格式的業(yè)務(wù)數(shù)據(jù)歸一化為統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù),從而可針對多種業(yè)務(wù)數(shù)據(jù)類型統(tǒng)一建立索引文件,簡化建立過程,提高效率。
      [0050]第二實(shí)施例
      [0051]請參閱圖2,圖2為本發(fā)明第二實(shí)施例提供的索引文件生成方法的流程示意圖。其中,本發(fā)明提供的索引文件生成方法是基于BS(瀏覽器,服務(wù)器)的系統(tǒng)結(jié)構(gòu)的,用戶通過瀏覽器使用該系統(tǒng),該系統(tǒng)支持多種業(yè)務(wù)類型的數(shù)據(jù)在同一平臺(tái)下生成統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù)。
      [0052]在本發(fā)明實(shí)施例中,主要針對配置文件的生成,即字段的屬性值配置進(jìn)行分析,所述方法步驟包括:
      [0053]在步驟S201中,分別生成對應(yīng)于不同業(yè)務(wù)類型的配置文件。
      [0054]可以理解的是,每一種業(yè)務(wù)類型會(huì)對應(yīng)一種配置文件,其中,所述業(yè)務(wù)類型可以包括:視頻、音樂、圖片等,相對應(yīng)的,所述業(yè)務(wù)數(shù)據(jù)包括視頻數(shù)據(jù)、音樂數(shù)據(jù)以及圖片數(shù)據(jù)。
      [0055]本實(shí)施例中,所述配置文件是用戶根據(jù)實(shí)際操作中的業(yè)務(wù)類型的特點(diǎn)預(yù)先配置并存儲(chǔ)在服務(wù)器中的,所述配置文件中包含了對所述數(shù)據(jù)內(nèi)容的字段進(jìn)行預(yù)處理的指示,以及對所述數(shù)據(jù)內(nèi)容的字段進(jìn)行分詞的指示。
      [0056]在優(yōu)選的實(shí)施方式中,所述配置文件可以基于以下步驟得到:
      [0057]步驟(I)、獲取與業(yè)務(wù)類型對應(yīng)的字段配置信息;
      [0058]所述字段配置信息指示預(yù)置的多個(gè)字段的屬性值,所述字段包括文本域字段、數(shù)值域字段以及分類域字段;
      [0059]可以理解的是,本發(fā)明業(yè)務(wù)數(shù)據(jù)中包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型,所述數(shù)據(jù)內(nèi)容中包括多個(gè)文檔,文檔由多個(gè)字段組成,其中字段的類型可以進(jìn)行預(yù)置,包括文本域字段、數(shù)值域字段以及分類域字段。
      [0060]進(jìn)一步的,所述文本域字段是指純文字信息的字段,比如:“我喜歡這個(gè)歌手”、“這首歌真好聽”的字段等,所述數(shù)值域字段是指代表數(shù)值的數(shù)字或字母信息的字段,比如:
      或“one”、“five”的字段等,所述分類域字段是指指示將數(shù)據(jù)進(jìn)行分類的字段,比如:一首歌曲可以將其分為“搖滾類”、“爵士類”等,一個(gè)視頻可以將其分為“電影”、“綜藝”、“新聞,,等。
      [0061]另外,每個(gè)字段包括至少一個(gè)屬性,也可稱配置項(xiàng),所述屬性值由選擇框的形式進(jìn)行展示,以供用戶進(jìn)行選擇和配置。
      [0062]步驟(2)、根據(jù)所述字段的配置信息的指示對所述多個(gè)字段的屬性值進(jìn)行配置,得到與所述業(yè)務(wù)類型相對應(yīng)的配置文件。
      [0063]根據(jù)用戶對每種類型的字段的屬性的屬性值的配置,得到了與所述業(yè)務(wù)類型相對應(yīng)的配置文件。
      [0064]基于此,在進(jìn)一步優(yōu)選的實(shí)施方式中,可以基于以下具體方式來對所述多個(gè)字段的屬性值進(jìn)行配置,即步驟(2)可以具體包括:
      [0065]步驟(21)、根據(jù)所述字段的配置信息的指示對所述文本域字段的屬性的屬性值進(jìn)行配置,得到配置后的文本域字段。
      [0066]本實(shí)施例中,所述文本域字段主要包含的是文字信息,且希望被用戶搜索到的字段;所述文本域字段的屬性可以包括描述、數(shù)據(jù)長度、主鍵、重要性和分詞方式中的一個(gè)或兩個(gè)以上的組合。
      [0067]可一并參考圖2b和圖2c,圖2b為字段的屬性配置界面示意,圖2c為用戶自定義字段管理界面示意,以下對所述文本域字段的上述各屬性的含義進(jìn)行簡單說明:
      [0068]a、描述:指該字段代表的含義,起提示作用,該屬性對搜索結(jié)果沒有影響。
      [0069]b、數(shù)據(jù)長度:指該字段文本的最大長度。目前根據(jù)字段是否大于256字節(jié)分為兩檔,最大長度大于256字節(jié)的字段稱為長文本字段,其中在整個(gè)文本域中,只有一個(gè)字段可以配置為長文本字段。
      [0070]C、主鍵:也就是主關(guān)鍵字(primary key),用來唯一標(biāo)識(shí)一篇文檔的字段,稱為doc_id0其中,該字段設(shè)置為能轉(zhuǎn)化成數(shù)字的值,具體的,doc_id的值為一個(gè)64位整數(shù)。由于該值應(yīng)當(dāng)在uint64_t的空間中均勾,因此可優(yōu)選采用Hash值等產(chǎn)生,其中,Hash值是根據(jù)數(shù)據(jù)內(nèi)容通過邏輯運(yùn)算得到的數(shù)值,不同的文檔得到的Hash值不同,Hash值就成了每一個(gè)文檔的身份證。
      [0071]d、重要性:是表示該文本字段的重要程度,可以分為重要、一般以及不重要等。
      [0072]e、分詞方式:分為正常分詞和前綴分詞。其中,正常分詞是指按照對自然語義對文本進(jìn)行分詞,一般情況下可默認(rèn)選擇該方式;前綴分詞適用于搜索框提示下拉框的場景。如
      “內(nèi)部搜索平臺(tái)部”會(huì)分成“內(nèi)、內(nèi)部、內(nèi)部搜、內(nèi)部搜索......”等詞,這樣用戶在搜索框中輸入“內(nèi)部”時(shí),就可以提示“內(nèi)部搜索平臺(tái)部”。
      [0073]可以理解的是,可以根據(jù)該分詞方式的配置可以得到分詞處理指示,以根據(jù)分詞處理指示進(jìn)行對數(shù)據(jù)內(nèi)容進(jìn)行分詞處理。
      [0074]步驟(22)、根據(jù)所述字段的配置信息的指示對所述數(shù)值域字段的屬性的屬性值進(jìn)行配置,得到配置后的數(shù)值域字段。
      [0075]本實(shí)施例中,所述數(shù)值域字段的屬性包括描述、數(shù)據(jù)類型、權(quán)威、重要性、主鍵中的一個(gè)或兩個(gè)以上的組合。
      [0076]所述數(shù)值域字段適用于數(shù)值類型的信息。如售價(jià)、下載量等。該字段中的字符串值必須可以轉(zhuǎn)化為數(shù)字。以下對所述數(shù)值域字段的各屬性的含義進(jìn)行簡單說明:
      [0077]a、描述:指該字段代表的含義,起提示作用,該屬性對搜索結(jié)果沒有影響。
      [0078]b、數(shù)據(jù)類型:該實(shí)施例中配置項(xiàng)可以設(shè)置有int8,uint8,intl6,uintl6,int32,uint32,int64,uint64和float幾種類型可供選擇。用戶根據(jù)該數(shù)值可能的最大范圍來選擇,如果提供的數(shù)據(jù)中實(shí)際值超過配置的范圍,將會(huì)出錯(cuò)。
      [0079]c、權(quán)威:用來表示該字段可以體現(xiàn)這篇文檔的權(quán)威性。例如,對于視頻搜索,可以選擇觀看數(shù)作為權(quán)威性字段。只有O或I個(gè)數(shù)值域字段可以指定為權(quán)威性字段。
      [0080]d、重要性:是表示該字段的重要程度,可以分為重要、一般以及不重要等。
      [0081]e、主鍵:與文本域字段的主鍵定義相同,也是指主關(guān)鍵字,用來唯一標(biāo)識(shí)一篇文檔的字段。稱為doc_id。其中,該字段設(shè)置為能轉(zhuǎn)化成數(shù)字的值,具體的,doc_id的值為一個(gè)64位整數(shù);由于該值應(yīng)當(dāng)在uint64_t的空間中均勾,因此優(yōu)選采用Hash值等產(chǎn)生。
      [0082]步驟(23)、根據(jù)所述字段的配置信息的指示對所述分類域字段的屬性進(jìn)行配置,得到配置后的分類域字段;
      [0083]本實(shí)施例中,所述分類域字段的屬性包括檢索指定類別;
      [0084]步驟(24)、根據(jù)所述配置后的文本域字段、配置后的數(shù)值域字段和配置后的分類域字段生成與所述業(yè)務(wù)類型相對應(yīng)的配置文件。
      [0085]在步驟S202中,獲取業(yè)務(wù)數(shù)據(jù)。
      [0086]其中,所述業(yè)務(wù)數(shù)據(jù)包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型;所述業(yè)務(wù)類型可以包括:視頻、音樂、圖片等,相對應(yīng)的,所述業(yè)務(wù)數(shù)據(jù)可以包括視頻數(shù)據(jù)、音樂數(shù)據(jù)以及圖片數(shù)據(jù)等,此處不作具體限定。
      [0087]可以理解的是,在生成對應(yīng)于不同業(yè)務(wù)類型的配置文件后,將所述配置文件預(yù)置于服務(wù)器中,其后,在獲取到用戶數(shù)據(jù)的業(yè)務(wù)數(shù)據(jù)后,觸發(fā)服務(wù)器根據(jù)其業(yè)務(wù)類型,從在預(yù)置的多個(gè)配置文件中調(diào)出與業(yè)務(wù)類型對應(yīng)的配置文件,從而根據(jù)配置文件進(jìn)行處理,生成索引文件。
      [0088]在步驟S203中,根據(jù)所述業(yè)務(wù)類型獲取相對應(yīng)的配置文件。
      [0089]可以理解的是,每一種業(yè)務(wù)類型會(huì)對應(yīng)一種配置文件,其中,所述配置文件是用戶根據(jù)步驟S201中的配置信息預(yù)先生成,并存儲(chǔ)在服務(wù)器中的。
      [0090]在步驟S204中,根據(jù)所述字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容。
      [0091]由于每一業(yè)務(wù)類型對應(yīng)一配置文件,即每一業(yè)務(wù)類型對應(yīng)一字段預(yù)處理指示,各個(gè)業(yè)務(wù)類型分別根據(jù)對應(yīng)的字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,如對業(yè)務(wù)推送數(shù)據(jù)的某些字段進(jìn)行改寫,數(shù)據(jù)清洗,補(bǔ)充數(shù)據(jù)標(biāo)簽等,可以體現(xiàn)不同業(yè)務(wù)類型之間的個(gè)性化差異操作。
      [0092]在步驟S205中,對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析以確定所述數(shù)據(jù)內(nèi)容的屬性信息。
      [0093]在某些實(shí)施方式中,可以獲取預(yù)置的分詞模板,按照所述分詞模板對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析,確定所述數(shù)據(jù)內(nèi)容的屬性信息。其中,所述服務(wù)器中預(yù)先設(shè)置了多個(gè)分詞模塊,可包括多個(gè)業(yè)務(wù)類型的數(shù)據(jù)模板,如音樂的數(shù)據(jù),則數(shù)據(jù)模板中可包括歌手?jǐn)?shù)據(jù)庫、歌名數(shù)據(jù)庫以及流派數(shù)據(jù)庫等,對其進(jìn)行分析,則可獲悉該數(shù)據(jù)內(nèi)容的屬性信息;比如,若該數(shù)據(jù)內(nèi)容屬于音樂的業(yè)務(wù)類型,則屬性信息是指歌曲的下載量、播放量等數(shù)值類型的屬性。
      [0094]在步驟S206中,根據(jù)所述分詞處理指示以及所述屬性信息,對所述預(yù)處理后的業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞,并對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的順排索引文件。
      [0095]預(yù)處理后,可根據(jù)所述屬性信息以及預(yù)置好的分詞處理指示進(jìn)行處理,即進(jìn)行歸一化操作,將不同格式的業(yè)務(wù)數(shù)據(jù),歸一化為統(tǒng)一的數(shù)據(jù)格式,得到了歸一化后的順排數(shù)據(jù),以適應(yīng)多種業(yè)務(wù)類型的數(shù)據(jù)檢索。
      [0096]可以理解的是,在進(jìn)行預(yù)處理后,數(shù)據(jù)會(huì)進(jìn)入順排處理單元FSU,進(jìn)行順排索引生成。通過配置文件中配置好的分詞處理指示,以及根據(jù)內(nèi)置的幾種分詞模板進(jìn)行數(shù)據(jù)處理,計(jì)算出wordid,詞POS信息等搜索需要使用到的數(shù)據(jù)信息,最后將統(tǒng)一格式的順排索引文件輸出。
      [0097]可以理解的是,在生成統(tǒng)一數(shù)據(jù)格式的順排索引文件之后,還可以包括:
      [0098]在步驟S207中,將所述順排索引文件轉(zhuǎn)換為倒排索引文件,以便用戶根據(jù)所述倒排索引文件進(jìn)行檢索。
      [0099]由上述可知,本實(shí)施例中,根據(jù)多種業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)類型,獲取相對應(yīng)的配置文件,其后根據(jù)配置文件的字段預(yù)處理指示,對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,根據(jù)配置文件的分詞處理指示,對預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理,從而生成統(tǒng)一數(shù)據(jù)格式的索引文件。本發(fā)明針對不同業(yè)務(wù)類型的數(shù)據(jù)采用相對應(yīng)的配置文件對數(shù)據(jù)進(jìn)行處理,其后采用相同的程序?qū)?shù)據(jù)內(nèi)容進(jìn)行分詞,將不同格式的業(yè)務(wù)數(shù)據(jù)歸一化為統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù),從而可針對多種業(yè)務(wù)數(shù)據(jù)類型統(tǒng)一建立索引文件,簡化建立過程,提高效率。
      [0100]第三實(shí)施例
      [0101]請參閱圖3a和圖3b,為本發(fā)明第三實(shí)施例提供的索引文件生成方法的流程示意圖。其中,本發(fā)明提供的索引文件生成方法是基于BS(瀏覽器,服務(wù)器)的系統(tǒng)結(jié)構(gòu)的,用戶通過瀏覽器使用該系統(tǒng),該系統(tǒng)支持多種業(yè)務(wù)類型的數(shù)據(jù)在同一平臺(tái)下生成統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù)。
      [0102]在本發(fā)明實(shí)施例中,主要針對數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理的過程進(jìn)行分析,所述方法步驟包括:
      [0103]在步驟S301中,獲取業(yè)務(wù)數(shù)據(jù)。
      [0104]其中,所述業(yè)務(wù)數(shù)據(jù)包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型;所述業(yè)務(wù)類型可以包括:視頻、音樂、圖片等,相對應(yīng)的,所述業(yè)務(wù)數(shù)據(jù)可以包括視頻數(shù)據(jù)、音樂數(shù)據(jù)以及圖片數(shù)據(jù)等,此處不作具體限定。
      [0105]可以理解的是,在生成對應(yīng)于不同業(yè)務(wù)類型的配置文件后,將所述配置文件預(yù)置于服務(wù)器中,其后,在獲取到用戶數(shù)據(jù)的業(yè)務(wù)數(shù)據(jù)后,觸發(fā)服務(wù)器根據(jù)其業(yè)務(wù)類型,從在預(yù)置的多個(gè)配置文件中調(diào)出與業(yè)務(wù)類型對應(yīng)的配置文件,從而根據(jù)配置文件進(jìn)行處理,生成索引文件。
      [0106]在步驟S302中,根據(jù)所述業(yè)務(wù)類型獲取相對應(yīng)的配置文件。
      [0107]可以理解的是,每一種業(yè)務(wù)類型會(huì)對應(yīng)一種配置文件,其中,所述配置文件中包含了配置文件包括對字段預(yù)處理指示以及分詞處理指示,所述配置文件是用戶根據(jù)實(shí)際操作中的業(yè)務(wù)類型的特點(diǎn)預(yù)先配置并存儲(chǔ)在服務(wù)器中的。
      [0108]較為優(yōu)選的,在獲取業(yè)務(wù)數(shù)據(jù)(即步驟S301)之前,還可以包括:分別生成對應(yīng)于不同業(yè)務(wù)類型的配置文件,具體的,可以先獲取與業(yè)務(wù)類型對應(yīng)的字段配置信息,其后根據(jù)所述字段的配置信息的指示對所述多個(gè)字段的屬性值進(jìn)行配置,得到與所述業(yè)務(wù)類型相對應(yīng)的配置文件。
      [0109]其中,本發(fā)明實(shí)施例中,所述字段可以包括文本域字段、數(shù)值域字段和數(shù)值域字段,各個(gè)字段分別包括對應(yīng)的屬性,其后可根據(jù)各字段的配置信息的指示屬性進(jìn)行配置,從而生成配置文件;容易想到的是,生成對應(yīng)于不同業(yè)務(wù)類型的配置文件的內(nèi)容可參考上述實(shí)施例的步驟S201的描述進(jìn)行具體實(shí)現(xiàn),此處不再贅述。
      [0110]可以理解的是,所述服務(wù)器中可以包括一索引數(shù)據(jù)預(yù)處理的動(dòng)態(tài)庫,主要是在獲取到配置文件后,可以根據(jù)配置文件中的字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,從而生成預(yù)處理后的數(shù)據(jù)內(nèi)容。
      [0111]本實(shí)施例中,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理主要包括數(shù)據(jù)清洗以及數(shù)據(jù)改寫,其中對于數(shù)據(jù)清洗以及數(shù)據(jù)改寫的執(zhí)行順序不作限定,即既可以先進(jìn)行數(shù)據(jù)清洗,再進(jìn)行數(shù)據(jù)改寫,也可以先進(jìn)行數(shù)據(jù)改寫,再進(jìn)行數(shù)據(jù)清洗,還可以兩者同時(shí)執(zhí)行,兩者之間互不影響,此處舉例不構(gòu)成對本發(fā)明的限定。
      [0112]在一種可實(shí)施方式中,在獲取到配置文件后,可以執(zhí)行步驟S303A:
      [0113]請參閱圖3a,在步驟S303A中,根據(jù)配置文件中的字段預(yù)處理指示,先進(jìn)行數(shù)據(jù)清洗,再進(jìn)行數(shù)據(jù)改寫;其中步驟S303A可具體包括:
      [0114]步驟A、判斷所述數(shù)據(jù)內(nèi)容中是否存在垃圾字段;
      [0115]根據(jù)判斷結(jié)果,執(zhí)行步驟Al或步驟A2 ;
      [0116]步驟Al、若存在垃圾字段,則將所述垃圾字段從所述數(shù)據(jù)內(nèi)容中刪除,并判斷刪除后的數(shù)據(jù)內(nèi)容是否需要改寫;
      [0117]根據(jù)步驟Al的判斷結(jié)果,執(zhí)行步驟All或步驟A12 ;
      [0118]步驟All、若需要改寫,則將所述刪除后的數(shù)據(jù)內(nèi)容進(jìn)行改寫,將改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0119]步驟A12、若不需要改寫,則將所述刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0120]步驟A2、若不存在垃圾字段,則判斷所述數(shù)據(jù)內(nèi)容是否需要改寫;
      [0121 ] 根據(jù)步驟A2的判斷結(jié)果,執(zhí)行步驟A21或步驟A22 ;
      [0122]步驟A21、若需要改寫,則將所述數(shù)據(jù)內(nèi)容進(jìn)行改寫,將改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的業(yè)務(wù)數(shù)據(jù);是
      [0123]步驟A22、若不需要改寫,則將所述數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容。
      [0124]在另一種可實(shí)施方式中,在獲取到配置文件后,可以執(zhí)行步驟S303B:
      [0125]請參閱圖3b,在步驟S303B中,根據(jù)配置文件中的字段預(yù)處理指示,先進(jìn)行數(shù)據(jù)改寫,再進(jìn)行數(shù)據(jù)清洗;其中步驟S303B可具體包括:
      [0126]B、判斷所述數(shù)據(jù)內(nèi)容是否需要改寫;
      [0127]根據(jù)判斷結(jié)果,執(zhí)行步驟BI或步驟B2 ;
      [0128]B1、若需要改寫,則將所述數(shù)據(jù)內(nèi)容進(jìn)行改寫,并判斷將改寫后的數(shù)據(jù)內(nèi)容中是否存在垃圾字段;
      [0129]根據(jù)步驟BI的判斷結(jié)果,執(zhí)行步驟Bll或步驟B12 ;
      [0130]B11、若存在垃圾字段,則將所述垃圾字段從所述改寫后的數(shù)據(jù)內(nèi)容中刪除,將刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0131]B12、若不存在垃圾字段,則將所述改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0132]B2、若不需要改寫,則判斷所述數(shù)據(jù)內(nèi)容中是否存在垃圾字段;
      [0133]根據(jù)步驟B2的判斷結(jié)果,執(zhí)行步驟B21或步驟B22 ;
      [0134]B21、若存在垃圾字段,則將所述垃圾字段從所述數(shù)據(jù)內(nèi)容中刪除,將刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0135]B22、若不存在垃圾字段,則將所述數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容。
      [0136]進(jìn)一步的,根據(jù)步驟S303A以及步驟S303B可知,數(shù)據(jù)清洗目的是去除數(shù)據(jù)內(nèi)容中的垃圾字段,如標(biāo)點(diǎn)符號等,這些垃圾內(nèi)容會(huì)影響后續(xù)的檢索體驗(yàn),因此應(yīng)該去除;而數(shù)據(jù)改寫的目的是由于數(shù)據(jù)需要進(jìn)行特殊處理,如將某些字段中的中英混合名分離成兩個(gè)名字等,因此需要在索引數(shù)據(jù)生成前進(jìn)行數(shù)據(jù)的預(yù)處理操作。
      [0137]更進(jìn)一步優(yōu)選的,所述服務(wù)器還可以包括一原始數(shù)據(jù)預(yù)處理的動(dòng)態(tài)庫,最主要是對原始的業(yè)務(wù)數(shù)據(jù)進(jìn)行處理,處理完后的數(shù)據(jù)作為上述預(yù)處理操作的數(shù)據(jù)輸入,主要包括數(shù)據(jù)擴(kuò)展、格式檢查等,其中數(shù)據(jù)擴(kuò)展是指部分業(yè)務(wù)推送的數(shù)據(jù)不夠全面,不能滿足用戶的全部搜索要求,通過抓取互聯(lián)網(wǎng)中的其他資源,補(bǔ)充業(yè)務(wù)的數(shù)據(jù)。如對視頻、音樂的搜索,補(bǔ)充大量非默認(rèn)系統(tǒng)自有資源的數(shù)據(jù);格式檢查是指對業(yè)務(wù)推送過來的數(shù)據(jù)進(jìn)行正確性校驗(yàn),檢查是否推送了和配置不符的數(shù)據(jù)類型和字段等,本發(fā)明對原始業(yè)務(wù)數(shù)據(jù)處理的過程不作具體限定。
      [0138]在步驟S304中,對預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析以確定所述數(shù)據(jù)內(nèi)容的屬性信息;
      [0139]在某些實(shí)施方式中,可以獲取預(yù)置的分詞模板,按照所述分詞模板對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析,確定所述數(shù)據(jù)內(nèi)容的屬性信息。其中,所述服務(wù)器中預(yù)先設(shè)置了多個(gè)分詞模塊,可包括多個(gè)業(yè)務(wù)類型的數(shù)據(jù)模板,如音樂的數(shù)據(jù),則數(shù)據(jù)模板中可包括歌手?jǐn)?shù)據(jù)庫、歌名數(shù)據(jù)庫以及流派數(shù)據(jù)庫等,對其進(jìn)行分析,則可獲悉該數(shù)據(jù)內(nèi)容的屬性信息;比如,若該數(shù)據(jù)內(nèi)容屬于音樂的業(yè)務(wù)類型,則屬性信息是指歌曲的下載量、播放量等數(shù)值類型的屬性。
      [0140]在步驟S305中,根據(jù)所述分詞處理指示以及所述屬性信息,對所述預(yù)處理后的業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞,并對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的順排索引文件。
      [0141]預(yù)處理后,可根據(jù)所述屬性信息以及預(yù)置好的分詞處理指示進(jìn)行處理,即進(jìn)行歸一化操作,將不同格式的業(yè)務(wù)數(shù)據(jù),歸一化為統(tǒng)一的數(shù)據(jù)格式,得到了歸一化后的順排數(shù)據(jù),以適應(yīng)多種業(yè)務(wù)類型的數(shù)據(jù)檢索。
      [0142]可以理解的是,在進(jìn)行預(yù)處理后,數(shù)據(jù)會(huì)進(jìn)入順排處理單元FSU進(jìn)行順排索引生成。通過配置文件中配置好的分詞處理指示,以及根據(jù)內(nèi)置的幾種分詞模板進(jìn)行數(shù)據(jù)處理,計(jì)算出wordid,詞POS信息等搜索需要使用到的數(shù)據(jù)信息,最后將統(tǒng)一格式的順排索引文件輸出。
      [0143]可以理解的是,在生成統(tǒng)一數(shù)據(jù)格式的順排索引文件之后,還可以包括:
      [0144]在步驟S306中,將所述順排索引文件轉(zhuǎn)換為倒排索引文件,以便用戶根據(jù)所述倒排索引文件進(jìn)行檢索。
      [0145]結(jié)合上述內(nèi)容,以下以一應(yīng)用場景對通過所述方法生成的索引文件進(jìn)行簡單分析:
      [0146]可以理解的是,該生成方法是基于BS(瀏覽器,服務(wù)器)的系統(tǒng)結(jié)構(gòu)的,該系統(tǒng)支持多種業(yè)務(wù)類型的數(shù)據(jù)在同一平臺(tái)下生成統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù)。首先,該平臺(tái)已實(shí)現(xiàn)頁面化配置,在接入業(yè)務(wù)數(shù)據(jù)后,需要告知平臺(tái)當(dāng)前業(yè)務(wù)數(shù)據(jù)都有哪些數(shù)據(jù)字段,每個(gè)字段的類型及屬性值等,具體實(shí)現(xiàn)可參考第二實(shí)施例中的關(guān)于字段配置的內(nèi)容,此處不再作具體描述。
      [0147]比如:對于小說搜索業(yè)務(wù),共有六個(gè)字段,其中四個(gè)字段作為文本域字段需要建立索引,有兩個(gè)字段作為數(shù)值域字段提供給相關(guān)性打分使用。選擇建立索引的字段將會(huì)對每一個(gè)字段進(jìn)行語義分詞,計(jì)算wordid,最終建立倒排索引,這些字段就是可以被用戶搜索到的字段。
      [0148]其中,分詞方式規(guī)定了建立文本索引時(shí),如何切分每一個(gè)字段中的詞。常用的有正常分詞、前綴分詞、分類索引分詞等。
      [0149]正常分詞就是對文本進(jìn)行正常的語義分詞,如“今天天氣真好”,會(huì)被分成今天/天氣/真/好四個(gè)詞。前綴分詞則將上述句子分成今/今天/今天天/今天天氣/今天天氣真/今天天氣真好六個(gè)詞,這種分詞方式主要用于聯(lián)想詞提示功能。分類索引分詞是一種較高級的用法,對于一些有分類的文本可以使用,如將小說分為武俠、言情、科幻等類別,使用分類索引分詞建立索引之后,業(yè)務(wù)就可按照小說的類別進(jìn)行查詢,如查找名為“三體”且類別為科幻的小說。
      [0150]優(yōu)選的實(shí)施方式中,還可以提供指定域內(nèi)檢索的功能。比如:如果只想搜索書名為“三體”的書,而不想搜索到作者名包含“三體”的書,則可以使用指定域內(nèi)檢索的功能。平臺(tái)會(huì)在索引項(xiàng)中增加特殊的字符,以標(biāo)志這是一個(gè)域內(nèi)檢索的索引項(xiàng)。當(dāng)用戶請求時(shí),也會(huì)加上相應(yīng)的標(biāo)志進(jìn)行檢索,這樣可以直接通過索引求交的方式排除掉其他域中有“三體”這個(gè)詞命中的文檔。
      [0151]由上述可知,本實(shí)施例中,根據(jù)多種業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)類型,獲取相對應(yīng)的配置文件,其后根據(jù)配置文件的字段預(yù)處理指示,對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,根據(jù)配置文件的分詞處理指示,對預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理,從而生成統(tǒng)一數(shù)據(jù)格式的索引文件。本發(fā)明針對不同業(yè)務(wù)類型的數(shù)據(jù)采用相對應(yīng)的配置文件對數(shù)據(jù)進(jìn)行處理,其后采用相同的程序?qū)?shù)據(jù)內(nèi)容進(jìn)行分詞,將不同格式的業(yè)務(wù)數(shù)據(jù)歸一化為統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù),從而可針對多種業(yè)務(wù)數(shù)據(jù)類型統(tǒng)一建立索引文件,簡化建立過程,提高效率。
      [0152]第四實(shí)施例
      [0153]為便于更好的實(shí)施本發(fā)明實(shí)施例提供的索引文件生成方法,本發(fā)明實(shí)施例還提供一種與上述索引文件生成方法相對應(yīng)的索引文件生成裝置。其中名詞的含義與上述索引文件生成方法中相同,具體實(shí)現(xiàn)細(xì)節(jié)可以參考方法實(shí)施例中的說明。
      [0154]請參閱圖4,圖4為本發(fā)明第六實(shí)施例提供的索引文件生成裝置的結(jié)構(gòu)示意圖,其中所述裝置是基于BS (瀏覽器,服務(wù)器)的系統(tǒng)結(jié)構(gòu)的,用戶通過瀏覽器使用該系統(tǒng),該系統(tǒng)支持多種業(yè)務(wù)類型的數(shù)據(jù)在同一平臺(tái)下生成統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù)。
      [0155]所述裝置包括:第一獲取模塊401、第二獲取模塊402、預(yù)處理模塊403、分詞模塊404以及索引生成模塊405。
      [0156]其中所述第一獲取模塊401,用于獲取業(yè)務(wù)數(shù)據(jù),所述業(yè)務(wù)數(shù)據(jù)包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型;所述第二獲取模塊402,用于根據(jù)所述業(yè)務(wù)類型獲取相對應(yīng)的配置文件,所述配置文件包括對字段預(yù)處理指示以及分詞處理指示。
      [0157]可以理解的是,所述業(yè)務(wù)類型可以包括:視頻、音樂、圖片等,相對應(yīng)的,所述業(yè)務(wù)數(shù)據(jù)可以包括視頻數(shù)據(jù)、音樂數(shù)據(jù)以及圖片數(shù)據(jù)等,此處不作具體限定。另外,本實(shí)施例中的業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)格式可以分為兩個(gè)部分,其中一個(gè)部分承載指示業(yè)務(wù)類型的信息,另一個(gè)部分承載該業(yè)務(wù)類型對應(yīng)的數(shù)據(jù)內(nèi)容。
      [0158]其中,每一種業(yè)務(wù)類型會(huì)對應(yīng)一種配置文件,所述配置文件是用戶根據(jù)實(shí)際操作中的業(yè)務(wù)類型的特點(diǎn)預(yù)先配置并存儲(chǔ)在索引文件生成裝置中的。
      [0159]進(jìn)一步的,所述配置文件中包含了對所述數(shù)據(jù)內(nèi)容的字段進(jìn)行預(yù)處理的指示,以及對所述數(shù)據(jù)內(nèi)容的字段進(jìn)行分詞的指示,所述配置文件根據(jù)用戶對各業(yè)務(wù)數(shù)據(jù)的字段的配置來生成,此處對字段的配置不作具體限定。
      [0160]所述預(yù)處理模塊403,用于根據(jù)所述字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容;所述分詞模塊404,用于根據(jù)所述分詞處理指示,對所述預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理;所述索引生成模塊405,用于對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的索引文件。
      [0161]由于每一業(yè)務(wù)類型對應(yīng)一配置文件,即每一業(yè)務(wù)類型對應(yīng)一字段預(yù)處理指示,各個(gè)業(yè)務(wù)類型分別根據(jù)對應(yīng)的字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,可以體現(xiàn)了不同業(yè)務(wù)類型之間的個(gè)性化差異操作;預(yù)處理后,可根據(jù)平臺(tái)預(yù)設(shè)的分詞模板以及預(yù)置好的分詞處理指示進(jìn)行處理,即進(jìn)行歸一化操作,將不同格式的業(yè)務(wù)數(shù)據(jù),送入順排處理單元FSU進(jìn)行順排索引生成,歸一化為統(tǒng)一的數(shù)據(jù)格式,得到了歸一化后的順排數(shù)據(jù),以適應(yīng)多種業(yè)務(wù)類型的數(shù)據(jù)檢索。
      [0162]由上述可知,本實(shí)施例中,根據(jù)多種業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)類型,獲取相對應(yīng)的配置文件,其后根據(jù)配置文件的字段預(yù)處理指示,對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,根據(jù)配置文件的分詞處理指示,對預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理,從而生成統(tǒng)一數(shù)據(jù)格式的索引文件。本發(fā)明針對不同業(yè)務(wù)類型的數(shù)據(jù)采用相對應(yīng)的配置文件對數(shù)據(jù)進(jìn)行處理,其后采用相同的程序?qū)?shù)據(jù)內(nèi)容進(jìn)行分詞,將不同格式的業(yè)務(wù)數(shù)據(jù)歸一化為統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù),從而可針對多種業(yè)務(wù)數(shù)據(jù)類型統(tǒng)一建立索引文件,簡化建立過程,提高效率。
      [0163]第五實(shí)施例
      [0164]請參閱圖5,圖5為本發(fā)明第五實(shí)施例提供的索引文件生成裝置的結(jié)構(gòu)示意圖。需要說明的是,本發(fā)明提供的索引文件生成裝置是基于BS(瀏覽器,服務(wù)器)的系統(tǒng)結(jié)構(gòu)的,用戶通過瀏覽器使用該系統(tǒng),該系統(tǒng)支持多種業(yè)務(wù)類型的數(shù)據(jù)在同一平臺(tái)下生成統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù)。
      [0165]其中所述索引文件生成裝置可以包括:第一獲取模塊501、第二獲取模塊502、預(yù)處理模塊503、分詞模塊504以及索引生成模塊505,可以理解的是,該實(shí)施例中上述各功能模塊的功能作用可對應(yīng)參考第四實(shí)施例中的第一獲取模塊401、第二獲取模塊402、預(yù)處理模塊403、分詞模塊404以及索引生成模塊405的相關(guān)描述,此處不作贅述。
      [0166]所述裝置還包括:配置文件生成模塊506,用于獲取業(yè)務(wù)數(shù)據(jù)之前,分別生成對應(yīng)于不同業(yè)務(wù)類型的配置文件。
      [0167]可以理解的是,每一種業(yè)務(wù)類型會(huì)對應(yīng)一種配置文件,其中,所述業(yè)務(wù)類型可以包括:視頻、音樂、圖片等,相對應(yīng)的,所述業(yè)務(wù)數(shù)據(jù)包括視頻數(shù)據(jù)、音樂數(shù)據(jù)以及圖片數(shù)據(jù)。本實(shí)施例中,所述配置文件是用戶根據(jù)實(shí)際操作中的業(yè)務(wù)類型的特點(diǎn)預(yù)先配置并存儲(chǔ)在服務(wù)器中的,所述配置文件中包含了對所述數(shù)據(jù)內(nèi)容的字段進(jìn)行預(yù)處理的指示,以及對所述數(shù)據(jù)內(nèi)容的字段進(jìn)行分詞的指示。
      [0168]在優(yōu)選的實(shí)施方式中,所述配置文件可以基于以下方式得到:
      [0169]所述配置文件生成模塊506包括:獲取單元5061以及配置單元5062 ;
      [0170]其中所述獲取單元5061,用于獲取與業(yè)務(wù)類型對應(yīng)的字段配置信息,所述字段配置信息指示預(yù)置的多個(gè)字段的屬性值,所述字段包括文本域字段、數(shù)值域字段以及分類域字段。
      [0171]可以理解的是,本發(fā)明業(yè)務(wù)數(shù)據(jù)中包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型,所述數(shù)據(jù)內(nèi)容中包括多個(gè)文檔,文檔由多個(gè)字段組成,其中字段的類型可以進(jìn)行預(yù)置,包括文本域字段、數(shù)值域字段以及分類域字段。另外,每個(gè)字段包括至少一個(gè)屬性,也可稱配置項(xiàng),所述屬性值由選擇框的形式進(jìn)行展示,以供用戶進(jìn)行選擇和配置。
      [0172]所述配置單元5062,用于根據(jù)所述字段的配置信息的指示對所述多個(gè)字段的屬性值進(jìn)行配置,得到與所述業(yè)務(wù)類型相對應(yīng)的配置文件。
      [0173]基于此,在進(jìn)一步優(yōu)選的實(shí)施方式中,可以基于以下具體方式來對所述多個(gè)字段的屬性值進(jìn)行配置;所述配置單元5062可以包括:第一配置子單元、第二配置子單元、第三配置子單元以及生成子單元;
      [0174]所述第一配置子單元,用于根據(jù)所述字段的配置信息的指示對所述文本域字段的屬性的屬性值進(jìn)行配置,得到配置后的文本域字段,所述文本域字段的屬性包括描述、數(shù)據(jù)長度、主鍵、重要性和分詞方式中的一個(gè)或兩個(gè)以上的組合;
      [0175]其中,所述文本域字段的各屬性的含義簡單說明如下:
      [0176]描述是指該字段代表的含義,起提示作用,該屬性對搜索結(jié)果沒有影響;
      [0177]數(shù)據(jù)長度是指該字段文本的最大長度。目前根據(jù)字段是否大于256字節(jié)分為兩檔,最大長度大于256字節(jié)的字段稱為長文本字段,其中在整個(gè)文本域中,只有一個(gè)字段可以配置為長文本字段;
      [0178]主鍵也就是主關(guān)鍵字,用來唯一標(biāo)識(shí)一篇文檔的字段,稱為doc_id。該字段必須為能轉(zhuǎn)化成數(shù)字的值。具體的,doc_id的值為一個(gè)64位整數(shù);由于該值應(yīng)當(dāng)在uint64_t的空間中均勻,因此優(yōu)選采用Hash值等產(chǎn)生,其中,Hash值是根據(jù)數(shù)據(jù)內(nèi)容通過邏輯運(yùn)算得到的數(shù)值,不同的文檔得到的Hash值不同,Hash值就成了每一個(gè)文檔的身份證;
      [0179]重要性是表示該文本字段的重要程度,可以分為重要、一般以及不重要等;
      [0180]分詞方式分為正常分詞和前綴分詞。其中,正常分詞是指按照對自然語義對文本進(jìn)行分詞,一般情況下可默認(rèn)選擇該方式;前綴分詞適用于搜索框提示下拉框的場景。
      [0181]所述第二配置子單元,用于根據(jù)所述字段的配置信息的指示對所述數(shù)值域字段的屬性的屬性值進(jìn)行配置,得到配置后的數(shù)值域字段,所述數(shù)值域字段的屬性包括描述、數(shù)據(jù)類型、權(quán)威、重要性、主鍵中的一個(gè)或兩個(gè)以上的組合;
      [0182]所述數(shù)值域字段適用于數(shù)值類型的信息。如售價(jià)、下載量等。該字段中的字符串值必須可以轉(zhuǎn)化為數(shù)字。其中,所述數(shù)值域字段的各屬性的含義簡單說明如下:
      [0183]描述是指該字段代表的含義,起提示作用,該屬性對搜索結(jié)果沒有影響;
      [0184]數(shù)據(jù)類型是該實(shí)施例中配置項(xiàng)可以設(shè)置有int8,uint8,intl6,uintl6,int32,uint32,int64,uint64和float幾種類型可供選擇。用戶根據(jù)該數(shù)值可能的最大范圍來選擇,如果提供的數(shù)據(jù)中實(shí)際值超過配置的范圍,將會(huì)出錯(cuò);
      [0185]權(quán)威用來表示該字段可以體現(xiàn)這篇文檔的權(quán)威性。例如,對于視頻搜索,可以選擇觀看數(shù)作為權(quán)威性字段。只有O或I個(gè)數(shù)值域字段可以指定為權(quán)威性字段;
      [0186]重要性是表示該字段的重要程度,可以分為重要、一般以及不重要等;
      [0187]主鍵與文本域字段的主鍵定義相同,也是指主關(guān)鍵字,用來唯一標(biāo)識(shí)一篇文檔的字段。稱為doc_id。其中,該字段必須為能轉(zhuǎn)化成數(shù)字的值。具體的,doc_id的值為一個(gè)64位整數(shù);由于該值應(yīng)當(dāng)在uint64_t的空間中均勾,因此優(yōu)選采用Hash值等產(chǎn)生。
      [0188]所述第三配置子單元,用于根據(jù)所述字段的配置信息的指示對所述分類域字段的屬性進(jìn)行配置,得到配置后的分類域字段,所述分類域字段的屬性包括檢索指定類別;所述生成子單元,用于根據(jù)所述配置后的文本域字段、配置后的數(shù)值域字段和配置后的分類域字段生成與所述業(yè)務(wù)類型相對應(yīng)的配置文件。
      [0189]進(jìn)一步優(yōu)選的,所述預(yù)處理模塊503可以根據(jù)配置文件中的字段預(yù)處理指示對數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理主要包括數(shù)據(jù)清洗以及數(shù)據(jù)改寫,其中對于數(shù)據(jù)清洗以及數(shù)據(jù)改寫的執(zhí)行順序不作限定,即既可以先進(jìn)行數(shù)據(jù)清洗,再進(jìn)行數(shù)據(jù)改寫,也可以先進(jìn)行數(shù)據(jù)改寫,再進(jìn)行數(shù)據(jù)清洗,還可以兩者同時(shí)執(zhí)行,兩者之間互不影響,此處舉例不構(gòu)成對本發(fā)明的限定。
      [0190]基于此,在一種可實(shí)施方式中,所述預(yù)處理模塊503先進(jìn)行數(shù)據(jù)清洗,再進(jìn)行數(shù)據(jù)改寫,所述預(yù)處理模塊503可以包括:第一判斷單元5031、第一處理單元5032以及第二處理單元5033 ;
      [0191]其中,所述第一判斷單元5031,用于判斷所述數(shù)據(jù)內(nèi)容中是否存在垃圾字段;
      [0192]所述第一處理單元5032,用于若存在垃圾字段,則將所述垃圾字段從所述數(shù)據(jù)內(nèi)容中刪除,并判斷刪除后的數(shù)據(jù)內(nèi)容是否需要改寫,若需要改寫,則將所述刪除后的數(shù)據(jù)內(nèi)容進(jìn)行改寫,將改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;若不需要改寫,則將所述刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0193]所述第二處理單元5033,用于若不存在垃圾字段,則判斷所述數(shù)據(jù)內(nèi)容是否需要改寫,若需要改寫,則將所述數(shù)據(jù)內(nèi)容進(jìn)行改寫,將改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的業(yè)務(wù)數(shù)據(jù);若不需要改寫,則將所述數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容。
      [0194]在另一種可實(shí)施方式中,所述預(yù)處理模塊503先進(jìn)行數(shù)據(jù)改寫,再進(jìn)行數(shù)據(jù)清洗,所述預(yù)處理模塊503可以包括:第二判斷單元5034、第三處理單元5035以及第四處理單元5036 ;
      [0195]其中,所述第二判斷單元5034,用于判斷所述數(shù)據(jù)內(nèi)容是否需要改寫;
      [0196]所述第三處理單元5035,用于若需要改寫,則將所述數(shù)據(jù)內(nèi)容進(jìn)行改寫,并判斷將改寫后的數(shù)據(jù)內(nèi)容中是否存在垃圾字段,若存在垃圾字段,則將所述垃圾字段從所述改寫后的數(shù)據(jù)內(nèi)容中刪除,將刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容,若不存在垃圾字段,則將所述改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0197]所述第四處理單元5036,用于若不需要改寫,則判斷所述數(shù)據(jù)內(nèi)容中是否存在垃圾字段,若存在垃圾字段,則將所述垃圾字段從所述數(shù)據(jù)內(nèi)容中刪除,將刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容,若不存在垃圾字段,則將所述數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容。
      [0198]更進(jìn)一步的,所述分詞模塊504可以包括:屬性信息確定單元,用于對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析以確定所述數(shù)據(jù)內(nèi)容的屬性信息;分詞單元,用于根據(jù)所述分詞處理指示以及所述屬性信息,對所述預(yù)處理后的業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞,生成分詞處理后的數(shù)據(jù)內(nèi)容。
      [0199]在某些實(shí)施方式中,所述屬性信息確定單元可以包括:獲取子單元,用于獲取預(yù)置的分詞模板;確定子單元,用于按照所述分詞模板對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析,確定所述數(shù)據(jù)內(nèi)容的屬性信息。其中,所述服務(wù)器中預(yù)先設(shè)置了多個(gè)分詞模塊,可包括多個(gè)業(yè)務(wù)類型的數(shù)據(jù)模板,如音樂的數(shù)據(jù),則數(shù)據(jù)模板中可包括歌手?jǐn)?shù)據(jù)庫、歌名數(shù)據(jù)庫以及流派數(shù)據(jù)庫等,對其進(jìn)行分析,則可獲悉該數(shù)據(jù)內(nèi)容的屬性信息。
      [0200]預(yù)處理后,可根據(jù)所述屬性信息以及預(yù)置好的分詞處理指示進(jìn)行處理,即進(jìn)行歸一化操作,將不同格式的業(yè)務(wù)數(shù)據(jù),歸一化為統(tǒng)一的數(shù)據(jù)格式,得到了歸一化后的順排數(shù)據(jù),以適應(yīng)多種業(yè)務(wù)類型的數(shù)據(jù)檢索。
      [0201]可以理解的是,在進(jìn)行預(yù)處理后,數(shù)據(jù)會(huì)進(jìn)入順排處理單元FSU進(jìn)行順排索引生成。通過配置文件中配置好的分詞處理指示,以及根據(jù)內(nèi)置的幾種分詞模板進(jìn)行數(shù)據(jù)處理,計(jì)算出wordid,詞POS信息等搜索需要使用到的數(shù)據(jù)信息,最后將統(tǒng)一格式的順排索引文件輸出。
      [0202]可以理解的是,在生成統(tǒng)一數(shù)據(jù)格式的順排索引文件之后,所述裝置還可以包括:轉(zhuǎn)換模塊507,用于將所述順排索引文件轉(zhuǎn)換為倒排索引文件,以便用戶根據(jù)所述倒排索引文件進(jìn)行檢索。
      [0203]由上述可知,本實(shí)施例中,根據(jù)多種業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)類型,獲取相對應(yīng)的配置文件,其后根據(jù)配置文件的字段預(yù)處理指示,對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,根據(jù)配置文件的分詞處理指示,對預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理,從而生成統(tǒng)一數(shù)據(jù)格式的索引文件。本發(fā)明針對不同業(yè)務(wù)類型的數(shù)據(jù)采用相對應(yīng)的配置文件對數(shù)據(jù)進(jìn)行處理,其后采用相同的程序?qū)?shù)據(jù)內(nèi)容進(jìn)行分詞,將不同格式的業(yè)務(wù)數(shù)據(jù)歸一化為統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù),從而可針對多種業(yè)務(wù)數(shù)據(jù)類型統(tǒng)一建立索引文件,簡化建立過程,提高效率。
      [0204]第六實(shí)施例
      [0205]本發(fā)明實(shí)施例還提供一種服務(wù)器,其中可以集成本發(fā)明實(shí)施例的索引文件生成裝置,如圖6所示,其示出了本發(fā)明實(shí)施例所涉及的服務(wù)器的結(jié)構(gòu)示意圖,具體來講:
      [0206]該服務(wù)器可以包括一個(gè)或者一個(gè)以上處理核心的處理器601、一個(gè)或一個(gè)以上計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的存儲(chǔ)器602、射頻(Rad1 Frequency,RF)電路603、電源604、輸入單元605、以及顯示單元606等部件。本領(lǐng)域技術(shù)人員可以理解,圖6中示出的服務(wù)器結(jié)構(gòu)并不構(gòu)成對服務(wù)器的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
      [0207]處理器601是該服務(wù)器的控制中心,利用各種接口和線路連接整個(gè)服務(wù)器的各個(gè)部分,通過運(yùn)行或執(zhí)行存儲(chǔ)在存儲(chǔ)器602內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲(chǔ)在存儲(chǔ)器602內(nèi)的數(shù)據(jù),執(zhí)行服務(wù)器的各種功能和處理數(shù)據(jù),從而對服務(wù)器進(jìn)行整體監(jiān)控??蛇x的,處理器601可包括一個(gè)或多個(gè)處理核心;優(yōu)選的,處理器601可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信??梢岳斫獾氖?,上述調(diào)制解調(diào)處理器也可以不集成到處理器601中。
      [0208]存儲(chǔ)器602可用于存儲(chǔ)軟件程序以及模塊,處理器601通過運(yùn)行存儲(chǔ)在存儲(chǔ)器602的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理。存儲(chǔ)器602可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)服務(wù)器的使用所創(chuàng)建的數(shù)據(jù)等。此外,存儲(chǔ)器602可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他易失性固態(tài)存儲(chǔ)器件。相應(yīng)地,存儲(chǔ)器602還可以包括存儲(chǔ)器控制器,以提供處理器601對存儲(chǔ)器602的訪問。
      [0209]RF電路603可用于收發(fā)信息過程中,信號的接收和發(fā)送,特別地,將基站的下行信息接收后,交由一個(gè)或者一個(gè)以上處理器601處理;另外,將涉及上行的數(shù)據(jù)發(fā)送給基站。通常,RF電路603包括但不限于天線、至少一個(gè)放大器、調(diào)諧器、一個(gè)或多個(gè)振蕩器、用戶身份模塊(SM)卡、收發(fā)信機(jī)、耦合器、低噪聲放大器(LNA,LowNoise Amplifier)、雙工器等。此外,RF電路603還可以通過無線通信與網(wǎng)絡(luò)和其他設(shè)備通信。所述無線通信可以使用任一通信標(biāo)準(zhǔn)或協(xié)議,包括但不限于全球移動(dòng)通訊系統(tǒng)(GSM,Global System ofMobilecommunicat1n)、通用分組無線服務(wù)(GPRS,General PacketRad1 Service)、碼分多址(CDMA, Code Divis1nMultiple Access)、寬帶碼分多址(WCDMA,Wideband Code Divis1nMultiple Access)、長期演進(jìn)(LTE,Long Term Evolut1n)、電子郵件、短消息服務(wù)(SMS,ShortMessaging Service)等。
      [0210]服務(wù)器還包括給各個(gè)部件供電的電源604 (比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器601邏輯相連,從而通過電源管理系統(tǒng)實(shí)現(xiàn)管理充電、放電、以及功耗管理等功能。電源604還可以包括一個(gè)或一個(gè)以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任意組件。
      [0211]該服務(wù)器還可包括輸入單元605,該輸入單元605可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設(shè)置以及功能控制有關(guān)的鍵盤、鼠標(biāo)、操作桿、光學(xué)或者軌跡球信號輸入。
      [0212]該服務(wù)器還可包括顯示單元606,該顯示單元606可用于顯示由用戶輸入的信息或提供給用戶的信息以及服務(wù)器的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標(biāo)、視頻和其任意組合來構(gòu)成。顯示單元608可包括顯示面板,可選的,可以采用液晶顯不器(LCD,Liquid Crystal Display)、有機(jī)發(fā)光二極管(0LED,Organic Light-EmittingD1de)等形式來配置顯示面板。
      [0213]具體在本實(shí)施例中,服務(wù)器中的處理器601會(huì)按照如下的指令,將一個(gè)或一個(gè)以上的應(yīng)用程序的進(jìn)程對應(yīng)的可執(zhí)行文件加載到存儲(chǔ)器602中,并由處理器601來運(yùn)行存儲(chǔ)在存儲(chǔ)器602中的應(yīng)用程序,從而實(shí)現(xiàn)各種功能,如下:
      [0214]獲取業(yè)務(wù)數(shù)據(jù),所述業(yè)務(wù)數(shù)據(jù)包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型;根據(jù)所述業(yè)務(wù)類型獲取相對應(yīng)的配置文件,所述配置文件包括對字段預(yù)處理指示以及分詞處理指示;根據(jù)所述字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容;根據(jù)所述分詞處理指示,對所述預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理;對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的索引文件。
      [0215]優(yōu)選的,所述處理器601還用于:分別生成對應(yīng)于不同業(yè)務(wù)類型的配置文件。
      [0216]進(jìn)一步的,獲取與業(yè)務(wù)類型對應(yīng)的字段配置信息,所述字段配置信息指示預(yù)置的多個(gè)字段的屬性值,所述字段包括文本域字段、數(shù)值域字段以及分類域字段;根據(jù)所述字段的配置信息的指示對所述多個(gè)字段的屬性值進(jìn)行配置,得到與所述業(yè)務(wù)類型相對應(yīng)的配置文件。
      [0217]優(yōu)選的,所述處理器601還用于:判斷所述數(shù)據(jù)內(nèi)容中是否存在垃圾字段;
      [0218]若存在垃圾字段,則將所述垃圾字段從所述數(shù)據(jù)內(nèi)容中刪除,并判斷刪除后的數(shù)據(jù)內(nèi)容是否需要改寫,若需要改寫,則將所述刪除后的數(shù)據(jù)內(nèi)容進(jìn)行改寫,將改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;若不需要改寫,則將所述刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0219]若不存在垃圾字段,則判斷所述數(shù)據(jù)內(nèi)容是否需要改寫,若需要改寫,則將所述數(shù)據(jù)內(nèi)容進(jìn)行改寫,將改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的業(yè)務(wù)數(shù)據(jù);若不需要改寫,則將所述數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容。
      [0220]優(yōu)選的,所述處理器601還用于:判斷所述數(shù)據(jù)內(nèi)容是否需要改寫;
      [0221]若需要改寫,則將所述數(shù)據(jù)內(nèi)容進(jìn)行改寫,并判斷將改寫后的數(shù)據(jù)內(nèi)容中是否存在垃圾字段,若存在垃圾字段,則將所述垃圾字段從所述改寫后的數(shù)據(jù)內(nèi)容中刪除,將刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容,若不存在垃圾字段,則將所述改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;
      [0222]若不需要改寫,則判斷所述數(shù)據(jù)內(nèi)容中是否存在垃圾字段,若存在垃圾字段,則將所述垃圾字段從所述數(shù)據(jù)內(nèi)容中刪除,將刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容,若不存在垃圾字段,則將所述數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容。
      [0223]優(yōu)選的,所述處理器601還用于:
      [0224]根據(jù)所述字段的配置信息的指示對所述文本域字段的屬性的屬性值進(jìn)行配置,得到配置后的文本域字段,所述文本域字段的屬性包括描述、數(shù)據(jù)長度、主鍵、重要性和分詞方式中的一個(gè)或兩個(gè)以上的組合;
      [0225]根據(jù)所述字段的配置信息的指示對所述數(shù)值域字段的屬性的屬性值進(jìn)行配置,得到配置后的數(shù)值域字段,所述數(shù)值域字段的屬性包括描述、數(shù)據(jù)類型、權(quán)威、重要性、主鍵中的一個(gè)或兩個(gè)以上的組合;
      [0226]根據(jù)所述字段的配置信息的指示對所述分類域字段的屬性進(jìn)行配置,得到配置后的分類域字段,所述分類域字段的屬性包括檢索指定類別;
      [0227]根據(jù)所述配置后的文本域字段、配置后的數(shù)值域字段和配置后的分類域字段生成與所述業(yè)務(wù)類型相對應(yīng)的配置文件。
      [0228]優(yōu)選的,所述處理器601還用于:對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析以確定所述數(shù)據(jù)內(nèi)容的屬性信息;根據(jù)所述分詞處理指示以及所述屬性信息,對所述預(yù)處理后的業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞,生成分詞處理后的數(shù)據(jù)內(nèi)容。
      [0229]進(jìn)一步的,將所述順排索引文件轉(zhuǎn)換為倒排索引文件,以便用戶根據(jù)所述倒排索引文件進(jìn)行檢索。
      [0230]優(yōu)選的,所述處理器601還用于:獲取預(yù)置的分詞模板;按照所述分詞模板對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析,確定所述數(shù)據(jù)內(nèi)容的屬性信息。
      [0231]可以理解的是,在上述的實(shí)施例中,對各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見上文對應(yīng)的索引文件生成方法的詳細(xì)描述,此處不再贅述。
      [0232]由上述可知,本實(shí)施例提供的服務(wù)器,根據(jù)多種業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)類型,獲取相對應(yīng)的配置文件,其后根據(jù)配置文件的字段預(yù)處理指示,對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,根據(jù)配置文件的分詞處理指示,對預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理,從而生成統(tǒng)一數(shù)據(jù)格式的索引文件。本發(fā)明針對不同業(yè)務(wù)類型的數(shù)據(jù)采用相對應(yīng)的配置文件對數(shù)據(jù)進(jìn)行處理,其后采用相同的程序?qū)?shù)據(jù)內(nèi)容進(jìn)行分詞,將不同格式的業(yè)務(wù)數(shù)據(jù)歸一化為統(tǒng)一數(shù)據(jù)格式的索引數(shù)據(jù),從而可針對多種業(yè)務(wù)數(shù)據(jù)類型統(tǒng)一建立索引文件,簡化建立過程,提高效率。
      [0233]本發(fā)明實(shí)施例提供的所述索引文件生成裝置,譬如為計(jì)算機(jī)、平板電腦、具有觸摸功能的手機(jī)等等,所述索引文件生成裝置與上文實(shí)施例中相對應(yīng)的索引文件生成方法屬于同一構(gòu)思,在所述索引文件生成裝置上可以對應(yīng)運(yùn)行所述索引文件生成方法實(shí)施例中提供的任一方法,其具體實(shí)現(xiàn)過程詳見對應(yīng)的所述索引文件生成方法實(shí)施例,此處不再贅述。
      [0234]需要說明的是,對本發(fā)明所述索引文件生成方法而言,本領(lǐng)域普通測試人員可以理解實(shí)現(xiàn)本發(fā)明實(shí)施例所述索引文件生成方法的全部或部分流程,是可以通過計(jì)算機(jī)程序來控制相關(guān)的硬件來完成,所述計(jì)算機(jī)程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,如存儲(chǔ)在終端的存儲(chǔ)器中,并被該終端內(nèi)的至少一個(gè)處理器執(zhí)行,在執(zhí)行過程中可包括如所述索引文件生成方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)器(R0M,Read Only Memory)、隨機(jī)存取記憶體(RAM,RandomAccess Memory)等。
      [0235]對本發(fā)明實(shí)施例的索引文件生成裝置而言,其各功能模塊可以分別集成在一個(gè)處理芯片中,也可以是各個(gè)模塊單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上模塊集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,所述存儲(chǔ)介質(zhì)譬如為只讀存儲(chǔ)器,磁盤或光盤等。
      [0236]以上對本發(fā)明實(shí)施例所提供的一種索引文件生成方法及裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
      【主權(quán)項(xiàng)】
      1.一種索引文件生成方法,其特征在于,所述方法包括: 獲取業(yè)務(wù)數(shù)據(jù),所述業(yè)務(wù)數(shù)據(jù)包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型; 根據(jù)所述業(yè)務(wù)類型獲取相對應(yīng)的配置文件,所述配置文件包括對字段預(yù)處理指示以及分詞處理指示; 根據(jù)所述字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容; 根據(jù)所述分詞處理指示,對所述預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理; 對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的索引文件。2.根據(jù)權(quán)利要求1所述的索引文件生成方法,其特征在于,所述獲取業(yè)務(wù)數(shù)據(jù)之前,還包括: 分別生成對應(yīng)于不同業(yè)務(wù)類型的配置文件。3.根據(jù)權(quán)利要求2所述的索引文件生成方法,其特征在于,所述分別生成對應(yīng)于不同業(yè)務(wù)類型的配置文件,包括: 獲取與業(yè)務(wù)類型對應(yīng)的字段配置信息,所述字段配置信息指示預(yù)置的多個(gè)字段的屬性值,所述字段包括文本域字段、數(shù)值域字段以及分類域字段; 根據(jù)所述字段的配置信息的指示對所述多個(gè)字段的屬性值進(jìn)行配置,得到與所述業(yè)務(wù)類型相對應(yīng)的配置文件。4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的索引文件生成方法,其特征在于,所述根據(jù)所述字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容,包括: 判斷所述數(shù)據(jù)內(nèi)容中是否存在垃圾字段; 若存在垃圾字段,則將所述垃圾字段從所述數(shù)據(jù)內(nèi)容中刪除,并判斷刪除后的數(shù)據(jù)內(nèi)容是否需要改寫,若需要改寫,則將所述刪除后的數(shù)據(jù)內(nèi)容進(jìn)行改寫,將改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;若不需要改寫,則將所述刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容; 若不存在垃圾字段,則判斷所述數(shù)據(jù)內(nèi)容是否需要改寫,若需要改寫,則將所述數(shù)據(jù)內(nèi)容進(jìn)行改寫,將改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的業(yè)務(wù)數(shù)據(jù);若不需要改寫,則將所述數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容。5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的索引文件生成方法,其特征在于,所述根據(jù)所述字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容,包括: 判斷所述數(shù)據(jù)內(nèi)容是否需要改寫; 若需要改寫,則將所述數(shù)據(jù)內(nèi)容進(jìn)行改寫,并判斷將改寫后的數(shù)據(jù)內(nèi)容中是否存在垃圾字段,若存在垃圾字段,則將所述垃圾字段從所述改寫后的數(shù)據(jù)內(nèi)容中刪除,將刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容,若不存在垃圾字段,則將所述改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容; 若不需要改寫,則判斷所述數(shù)據(jù)內(nèi)容中是否存在垃圾字段,若存在垃圾字段,則將所述垃圾字段從所述數(shù)據(jù)內(nèi)容中刪除,將刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容,若不存在垃圾字段,則將所述數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容。6.根據(jù)權(quán)利要求3所述的索引文件生成方法,其特征在于,所述根據(jù)所述字段的配置信息的指示對所述多個(gè)字段的屬性值進(jìn)行配置,得到與所述業(yè)務(wù)類型相對應(yīng)的配置文件,包括: 根據(jù)所述字段的配置信息的指示對所述文本域字段的屬性的屬性值進(jìn)行配置,得到配置后的文本域字段,所述文本域字段的屬性包括描述、數(shù)據(jù)長度、主鍵、重要性和分詞方式中的一個(gè)或兩個(gè)以上的組合; 根據(jù)所述字段的配置信息的指示對所述數(shù)值域字段的屬性的屬性值進(jìn)行配置,得到配置后的數(shù)值域字段,所述數(shù)值域字段的屬性包括描述、數(shù)據(jù)類型、權(quán)威、重要性、主鍵中的一個(gè)或兩個(gè)以上的組合; 根據(jù)所述字段的配置信息的指示對所述分類域字段的屬性進(jìn)行配置,得到配置后的分類域字段,所述分類域字段的屬性包括檢索指定類別; 根據(jù)所述配置后的文本域字段、配置后的數(shù)值域字段和配置后的分類域字段生成與所述業(yè)務(wù)類型相對應(yīng)的配置文件。7.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的索引文件生成方法,其特征在于,所述根據(jù)所述分詞處理指示,對所述預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理的步驟,包括: 對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析以確定所述數(shù)據(jù)內(nèi)容的屬性信息; 根據(jù)所述分詞處理指示以及所述屬性信息,對所述預(yù)處理后的業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞,生成分詞處理后的數(shù)據(jù)內(nèi)容。8.根據(jù)權(quán)利要求7所述的索引文件生成方法,其特征在于,所述對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的順排索引文件之后,還包括: 將所述順排索引文件轉(zhuǎn)換為倒排索引文件,以便用戶根據(jù)所述倒排索引文件進(jìn)行檢索。9.根據(jù)權(quán)利要求7所述的索引文件生成方法,其特征在于,所述對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析以確定所述數(shù)據(jù)內(nèi)容的屬性信息,包括: 獲取預(yù)置的分詞模板; 按照所述分詞模板對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析,確定所述數(shù)據(jù)內(nèi)容的屬性信息。10.一種索引文件生成裝置,其特征在于,所述裝置包括: 第一獲取模塊,用于獲取業(yè)務(wù)數(shù)據(jù),所述業(yè)務(wù)數(shù)據(jù)包括數(shù)據(jù)內(nèi)容和業(yè)務(wù)類型; 第二獲取模塊,用于根據(jù)所述業(yè)務(wù)類型獲取相對應(yīng)的配置文件,所述配置文件包括對字段預(yù)處理指示以及分詞處理指示; 預(yù)處理模塊,用于根據(jù)所述字段預(yù)處理指示,對所述數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理,生成預(yù)處理后的數(shù)據(jù)內(nèi)容; 分詞模塊,用于根據(jù)所述分詞處理指示,對所述預(yù)處理后的數(shù)據(jù)內(nèi)容分別進(jìn)行分詞處理; 索引生成模塊,用于對分詞處理后的數(shù)據(jù)內(nèi)容進(jìn)行順排處理,生成統(tǒng)一數(shù)據(jù)格式的索引文件。11.根據(jù)權(quán)利要求10所述的索引文件生成裝置,其特征在于,所述裝置還包括:配置文件生成模塊,用于獲取業(yè)務(wù)數(shù)據(jù)之前,分別生成對應(yīng)于不同業(yè)務(wù)類型的配置文件。12.根據(jù)權(quán)利要求11所述的索引文件生成裝置,其特征在于,所述配置文件生成模塊包括: 獲取單元,用于獲取與業(yè)務(wù)類型對應(yīng)的字段配置信息,所述字段配置信息指示預(yù)置的多個(gè)字段的屬性值,所述字段包括文本域字段、數(shù)值域字段以及分類域字段中的一種或兩種以上的組合; 配置單元,用于根據(jù)所述字段的配置信息的指示對所述多個(gè)字段的屬性值進(jìn)行配置,得到與所述業(yè)務(wù)類型相對應(yīng)的配置文件。13.根據(jù)權(quán)利要求10至12任一項(xiàng)所述的索引文件生成裝置,其特征在于,所述預(yù)處理豐吳塊,包括: 第一判斷單元,用于判斷所述數(shù)據(jù)內(nèi)容中是否存在垃圾字段; 第一處理單元,用于若存在垃圾字段,則將所述垃圾字段從所述數(shù)據(jù)內(nèi)容中刪除,并判斷刪除后的數(shù)據(jù)內(nèi)容是否需要改寫,若需要改寫,則將所述刪除后的數(shù)據(jù)內(nèi)容進(jìn)行改寫,將改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容;若不需要改寫,則將所述刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容; 第二處理單元,用于若不存在垃圾字段,則判斷所述數(shù)據(jù)內(nèi)容是否需要改寫,若需要改寫,則將所述數(shù)據(jù)內(nèi)容進(jìn)行改寫,將改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的業(yè)務(wù)數(shù)據(jù);若不需要改寫,則將所述數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容。14.根據(jù)權(quán)利要求10至12任一項(xiàng)所述的索引文件生成裝置,其特征在于,所述預(yù)處理豐吳塊,包括: 第二判斷單元,用于判斷所述數(shù)據(jù)內(nèi)容是否需要改寫; 第三處理單元,用于若需要改寫,則將所述數(shù)據(jù)內(nèi)容進(jìn)行改寫,并判斷將改寫后的數(shù)據(jù)內(nèi)容中是否存在垃圾字段,若存在垃圾字段,則將所述垃圾字段從所述改寫后的數(shù)據(jù)內(nèi)容中刪除,將刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容,若不存在垃圾字段,則將所述改寫后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容; 第四處理單元,用于若不需要改寫,則判斷所述數(shù)據(jù)內(nèi)容中是否存在垃圾字段,若存在垃圾字段,則將所述垃圾字段從所述數(shù)據(jù)內(nèi)容中刪除,將刪除后的數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容,若不存在垃圾字段,則將所述數(shù)據(jù)內(nèi)容作為預(yù)處理后的數(shù)據(jù)內(nèi)容。15.根據(jù)權(quán)利要求12所述的索引文件生成裝置,其特征在于,所述配置單元,包括: 第一配置子單元,用于根據(jù)所述字段的配置信息的指示對所述文本域字段的屬性的屬性值進(jìn)行配置,得到配置后的文本域字段,所述文本域字段的屬性包括描述、數(shù)據(jù)長度、主鍵、重要性和分詞方式中的一個(gè)或兩個(gè)以上的組合; 第二配置子單元,用于根據(jù)所述字段的配置信息的指示對所述數(shù)值域字段的屬性的屬性值進(jìn)行配置,得到配置后的數(shù)值域字段,所述數(shù)值域字段的屬性包括描述、數(shù)據(jù)類型、權(quán)威、重要性、主鍵中的一個(gè)或兩個(gè)以上的組合; 第三配置子單元,用于根據(jù)所述字段的配置信息的指示對所述分類域字段的屬性進(jìn)行配置,得到配置后的分類域字段,所述分類域字段的屬性包括檢索指定類別; 生成子單元,用于根據(jù)所述配置后的文本域字段、配置后的數(shù)值域字段和配置后的分類域字段生成與所述業(yè)務(wù)類型相對應(yīng)的配置文件。16.根據(jù)權(quán)利要求10至12任一項(xiàng)所述的索引文件生成裝置,其特征在于,所述分詞模塊,包括: 屬性信息確定單元,用于對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析以確定所述數(shù)據(jù)內(nèi)容的屬性信息; 分詞單元,用于根據(jù)所述分詞處理指示以及所述屬性信息,對所述預(yù)處理后的業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞,生成分詞處理后的數(shù)據(jù)內(nèi)容。17.根據(jù)權(quán)利要求16所述的索引文件生成裝置,其特征在于,所述裝置還包括: 轉(zhuǎn)換模塊,用于將所述順排索引文件轉(zhuǎn)換為倒排索引文件,以便用戶根據(jù)所述倒排索引文件進(jìn)行檢索。18.根據(jù)權(quán)利要求16所述的索引文件生成裝置,其特征在于,所述屬性信息確定單元,包括: 獲取子單元,用于獲取預(yù)置的分詞模板; 確定子單元,用于按照所述分詞模板對所述預(yù)處理后的數(shù)據(jù)內(nèi)容進(jìn)行分析,確定所述數(shù)據(jù)內(nèi)容的屬性信息。
      【文檔編號】G06F17/30GK105988996SQ201510039519
      【公開日】2016年10月5日
      【申請日】2015年1月27日
      【發(fā)明人】朱鍇
      【申請人】騰訊科技(深圳)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1