一種句向量的融合方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及網(wǎng)絡安全技術領域,尤其涉及一種句向量的融合方法和裝置。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)及移動網(wǎng)絡的迅速發(fā)展,借由網(wǎng)絡傳播消息的快捷性,越來越多的用 戶選擇通過互聯(lián)網(wǎng)平臺與他人交流,共享信息,如可以通過網(wǎng)站或終端應用軟件等方式。伴 隨而來也會產(chǎn)生許多不符合互聯(lián)網(wǎng)安全使用環(huán)境,甚至是違反國家法律法規(guī)的內(nèi)容,如政 治敏感、淫穢色情的內(nèi)容等等,導致相關的網(wǎng)站存在安全運營風險;某些商販為了提升自身 店鋪/商品的曝光度,會在各互聯(lián)網(wǎng)環(huán)境下,瘋狂宣傳自家產(chǎn)品,使得網(wǎng)站或應用軟件的用 戶體驗極差,甚至出現(xiàn)利用廣告信息進行詐騙等不良現(xiàn)象,給互聯(lián)網(wǎng)安全管理工作帶來了 非常大的壓力。因此,為了保證網(wǎng)絡環(huán)境的安全以及用戶的良好體驗,有必要采用技術手段 對目標信息(典型的,廣告類信息)進行識別。
[0003] 文本作為信息傳播的主要數(shù)據(jù)類型之一,對文本數(shù)據(jù)中的目標信息進行識別顯得 尤為重要,文本中目標信息的識別通常采用由詞向量融合生成的句向量,作為文本特征,進 行識別。
[0004] 現(xiàn)有的句向量融合方法通常采用對文本詞向量直接進行加權累加來實現(xiàn),會破壞 多個詞向量的語義,其僅適用于較短的文本處理,當待處理的文本較長時,該方法會隨著詞 向量數(shù)據(jù)的增加,生成的詞向量分類辨析能力下降,對句向量對文本特征的表述能力產(chǎn)生 較大影響。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明實施例提供一種句向量的融合方法和裝置,以解決現(xiàn)有的句向 量融合技術會破壞多個詞向量的語義,影響對文本特征的表述能力的問題。
[0006] 第一方面,本發(fā)明實施例提供了一種句向量的融合方法,包括:
[0007] 提取待處理文本中包括的文本詞向量;
[0008] 在設定語料庫中對所述文本詞向量進行查找,生成第二詞向量;
[0009] 根據(jù)所述文本詞向量與所述第二詞向量之間的空間相似度,確定與所述文本詞向 量對應的文本句向量。
[0010] 第二方面,本發(fā)明實施例提供了一種句向量的融合裝置,包括:
[0011] 文本詞向量提取模塊,用于提取待處理文本中包括的文本詞向量;
[0012] 第二詞向量生成模塊,用于在設定語料庫中對所述文本詞向量進行查找,生成第 二詞向量;
[0013] 文本句向量生成模塊,用于根據(jù)所述文本詞向量與所述第二詞向量之間的空間相 似度,確定與所述文本詞向量對應的文本句向量。
[0014] 本發(fā)明實施例所提供的技術方案,通過根據(jù)文本詞向量與第二詞向量之間的空間 相似度,將文本中多組詞向量融合為句向量,可以有效避免破壞單獨詞向量的內(nèi)在語義信 息,實現(xiàn)了根據(jù)文本具體的應用場景,結(jié)合上下句的語義進行句向量融合的技術效果,提升 了句向量對待處理文本的表述能力。
【附圖說明】
[0015] 通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它 特征、目的和優(yōu)點將會變得更明顯:
[0016]圖1是本發(fā)明實施例一提供的一種句向量的融合方法的流程圖;
[0017] 圖2是本發(fā)明實施例二提供的一種句向量的融合裝置的結(jié)構示意圖。
【具體實施方式】
[0018] 下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。可以理解的是,此處所描 述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便 于描述,附圖中僅示出了與本發(fā)明相關的部分而非全部內(nèi)容。
[0019] 實施例一
[0020] 圖1為本發(fā)明實施例一提供的一種句向量的融合方法的流程圖。本實施例的方法 具體可用于終端或服務器內(nèi)對待處理文本進行句向量的融合,提取文本句向量的情況,還 適用于對文本中目標信息的識別。本實施例的方法可以由句向量的融合裝置來執(zhí)行,該裝 置可獨立的配置在終端或者服務器中,也可分布式配置在終端和服務器中,兩者配合實現(xiàn) 本實施例的方法。
[0021] 本實施例的方法包括:
[0022] S110、提取待處理文本中包括的文本詞向量;
[0023] -般來說,對文本特征最簡單直接的表示就是單個的詞,但由于文本數(shù)據(jù)中包含 很多的詞,而且有些詞的出現(xiàn)頻率很高,卻與文本所傳達信息并不相關,或者說是噪音數(shù) 據(jù),因此,提取文本詞向量的目的是找出有用的詞特征集,剔除無用的特征集,從而提高分 類效率和分類精度。
[0024] 其中,由于獲取的文本數(shù)據(jù)量較大,而用于表示文本的特征理論上應該數(shù)量上盡 量少,出現(xiàn)頻率適中,冗余少,噪音少,且與其所屬類別語義相關,含義盡量明確,因此,為了 降低計算量,在提取文本中包括的文本詞向量之前,優(yōu)選是對待處理文本進行預處理,為文 本詞向量的提取做好準備。其中,預處理的方法可以包括文本排重,中文分詞,去停用詞等。
[0025] 在本實施例中,可以采取各種方式提取待處理文本中包括的文本詞向量,優(yōu)選的, 可以基于將單詞轉(zhuǎn)換成向量形式的word2VeC工具,提取所述文本的詞向量,通過上述工具 進行詞向量提取后,每條文本,分詞后會有多個關鍵詞,每個關鍵詞會有一個詞向量。
[0026]S120、在設定語料庫中對所述文本詞向量進行查找,生成第二詞向量;
[0027] 語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現(xiàn)的書 面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經(jīng)過科學選材和標注、具有 適當規(guī)模的語料庫能夠反映和記錄語言的實際使用情況。人們通過語料庫觀察和把握語言 事實,分析和研究語言系統(tǒng)的規(guī)律。
[0028] 語料庫根據(jù)采集的原則和方式的不同,可以分為:異質(zhì)的(Heterogeneous):沒有 特定的語料收集原則,廣泛收集并原樣存儲各種語料;同質(zhì)的(Homogeneous):只收集同一 類內(nèi)容的語料;系統(tǒng)的(Systematic):根據(jù)預先確定的原則和比例收集語料,使語料具有 平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語言事實;專用的(Specialized):只收集用于某 一特定用途的語料。除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、 雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫又可以分為 語篇的、語句的、短語的等。
[0029] 在本實施例中,可以根據(jù)提取的文本詞向量的類型選擇相應的語料庫作為設定語 料庫,在設定語料庫的總的詞向量中對所述文本詞向量進行查找,生成第二詞向量。
[0030]S130、根據(jù)所述文本詞向量與所述第二詞向量之間的空間相似度,確定與所述文 本詞向量對應的文本句向量。
[0031] 向量空間上的相似度可以用來表示文本語義上的相似度。在本實施例的一個優(yōu)選 實施方式中,根據(jù)所述文本詞向量與所述第二詞向量之間的空間相似度,確定與所述文本 詞向量對應的文本句向量優(yōu)選是包括:
[0032] 通過計算所述文本詞向量中各個向量元素與所述第二詞向量中各個向量元素之 間的余弦距離,確定與所述文本詞向量對應的文本句向量。
[0033] 余弦距離,也稱為余弦相似度,是用向量空間中兩個向量夾角的余弦值作為衡量 兩個個體間差異的大小的度量;向量,是多維空間中有方向的線段,如果兩個向量的方向一 致,即夾角接近零,那么這兩個向量就相近。當兩個詞向量的夾角余弦等于1時,表示這兩 個詞向量完全重復;當兩個詞向量的夾角的余弦值接近于1時,表示這兩個詞向量相似;兩 個詞向量的夾角的余弦越小,表示兩個詞向量的相似度越低。
[0034] 采用計算余弦距離確定文本詞向量與第二詞向量之間的空間相似度,進而生成文 本句向量,可以有效避免破壞單獨詞向量的內(nèi)在語義信息,根據(jù)文本具體的應用場景,結(jié)合 上下句的語義進行句向量融合,提升句向量對待處理文本的表述能力;上述技術方案,除了 適用于短文本處理,尤其適用于對長文本進行處理,相對于現(xiàn)有技術,本實施例所提供的技 術方案,具有更好的文本分類辨析力,可以更好的表述文本特征。
[0035] 例如,假設某一語料庫提取所述第一文本信息中包括的詞向量后,產(chǎn)生N個詞向 量D=他,D2,. . .,DJ,且每一個詞向量為Μ維,即Di={VVi2,. . .,ViM},1 彡i彡N; - 條文本經(jīng)過分詞并搜尋詞向量D后,有η個詞在語料庫中被找到,其詞向量分別為d= {山,d2, · · ·,dj,且每個詞向量為Μ維,SPdj={d.n,dj2, · · ·,djM},1彡j彡n,同時每個詞出 現(xiàn)頻率與逆向文件頻率,分別為tf= {tA,tf2,. . .,tfn},idf= {idf^,idf2,. ..,idfj;其 中,逆向文件頻率idf主要用于分析詞的類別區(qū)分能力,如果包含設定詞的文本越少,idf 越大,則說明該設定詞具有很好的類別區(qū)分能力,反之,就說明該設定詞的類別區(qū)分能力相 對較差。
[0036] 通過對詞向量每個維度進行加權求和生成Μ維的句向量為S= {SdS2, . . .,SM},取 句向量中某一維Sk,1 <k<M,其表述公式為:
[0037]
[0038]由于每個詞向量是單獨的個體,具體數(shù)值具有語義信息,上述公式的缺陷在于,其 會直接破壞多個詞向量的語義,不能根據(jù)待識別文本數(shù)據(jù)的具體應用場景,結(jié)合上下句語 義進行句向量融合,使得最終對文本特征的表述能力產(chǎn)生較大影響,為了解決該問題,在本 優(yōu)選實施方式中,通過所述文本詞向量中各個向量元素與所述第二詞向量中各個向量元素 之間的余弦距離,確定與所述文本詞向量對應的文本句向量具體包括:
[0039] 根據(jù)公式:
[0040]
[0041] 計算第一句向量;其中:
[0