本發(fā)明屬于通信技術領域,更為具體地講,涉及一種基于雙譜和EMD融合特征的手機個體識別方法。
背景技術:
通信輻射源個體識別通過對接收信號特征測量,確定產(chǎn)生信號的輻射源個體,其定義為“將輻射源惟一電磁特征與輻射源個體關聯(lián)能力”。輻射源個體特征一般是由于其內(nèi)部元器件之間也存在著微小差異(如器件的非線性、頻率源的不穩(wěn)定性以及雜散輸出等),這種特征也稱為通信信號的“指紋”,是指通信信號中用于標識發(fā)送該信號的通信設備身份的特征,對每個個體來說,這種特征是唯一的。目前,通信輻射源個體識別技術已經(jīng)成為通信信號處理領域里的一個研究熱點。通信輻射源個體識別的目標是通過利用通信號信號中的能夠標識輻射源個體的細微特征集(一般稱為信號細微特征)與數(shù)據(jù)庫中的細微特征集進行匹配,從而達到輻射源個體識別的目的。
隨著通信技術的發(fā)展,無線網(wǎng)絡紛繁復雜,為保證無線網(wǎng)絡的安全性,需要對網(wǎng)絡的用戶進行身份驗證,原有的身份驗證方式主要是密鑰驗證,但是非法用戶若竊取到了密鑰,仍然可以入侵無線網(wǎng)絡。若同時采取密鑰身份驗證和硬件個體身份驗證兩種方式,無線網(wǎng)絡的安全性就可大大提高。如在認知無線電領域,移動通信設備如手機,通過感知所在無線網(wǎng)絡內(nèi)的頻譜環(huán)境,找到注冊手機的空閑時段進行通信,在頻譜越來越緊張的今天,認知無線電技術大大提高了頻譜利用率。然而,這種技術的缺陷在于,目前采用的通過軟件認證的方式很容易模仿,這個漏洞也容易被惡意攻擊方利用,發(fā)動PUE(Primary User Emulation)攻擊,從而造成信息泄露或頻譜被長期非法占用,給網(wǎng)絡管理帶來了極大的麻煩。通過本發(fā)明手機輻射源個體的識別技術,從物理層進行認證,這種認證方式是個體唯一、極難被模仿的,通過設備被動認證,不需要設備間的協(xié)作,實施方便,可以有效的阻止PUE攻擊,增強認知無線電網(wǎng)絡的安全性。
技術實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術的不足,提供一種基于雙譜和EMD融合特征的手機個體識別方法,利用手機設備個體特征的唯一性、不可模仿性,極大地增強無線電網(wǎng)絡的安全性。
為實現(xiàn)上述發(fā)明目的,本發(fā)明一種基于雙譜和EMD融合特征的手機個體識別方法,其特征在于,包括以下步驟:
(1)、對待識別的手機個體采樣
在手機通話階段,使用AD9361軟件無線電平臺對待識別的手機個體采樣,采樣頻段為a~bMHz,采樣頻率為fsMHz,其中,設待識別的手機個體共C個,每個手機個體采樣M組采樣數(shù)據(jù),則待識別的手機個體共計采樣出C×M組采樣數(shù)據(jù);
(2)、采樣數(shù)據(jù)預處理
將C×M組采樣數(shù)據(jù)依次通過PCIE實時傳輸?shù)絇C機上,再通過對采樣數(shù)據(jù)進行解幀和重組,得到I、Q兩路數(shù)據(jù)信號;
(3)、獲取數(shù)據(jù)樣本集
計算I、Q兩路數(shù)據(jù)信號的模值,將采樣數(shù)據(jù)的長度等于L且模值大于預設閾值的采樣數(shù)據(jù)保存在數(shù)據(jù)樣本集S{n}中,n表示數(shù)據(jù)樣本集中采樣數(shù)據(jù)的個數(shù),n≤C×M;
(4)、求取樣本特征集X
計算每個數(shù)據(jù)樣本的雙譜,再求取其矩形圍線積分作為雙譜特征,最后利用多分類Fisher判別雙譜特征,將雙譜特征分離度最大的k個特征作為樣本特征集X;
(5)、求取樣本特征集Y
計算每個數(shù)據(jù)樣本的經(jīng)驗模態(tài)分解,再去除主分量和噪聲后計算出雜散成分的功率譜,最后利用主成分分析法對雜散成分的功率譜進行降維,將降維后最大的前p個主成分分量作為樣本特征集Y;
(6)、利用典型相關分析法對樣本特征集X和樣本特征集Y進行特征融合,得到融合后的特征集Z,對Z按m%:n%的比例做水平切分,其中,m%作為訓練集ZTrain,剩下的為測試集ZTest;
(7)、構建隨機森林分類器,用訓練集ZTrain訓練該分類器,并利用訓練好的分類器對測試集ZTest進行分類決策,最終輸出手機個體識別結(jié)果。
其中,所述步驟(4)中,求取雙譜的矩形圍線積分作為雙譜特征的具體方法為:
(2.1)、將每一個長度為L的樣本數(shù)據(jù)分成K段,保持相鄰數(shù)據(jù)段重疊部分為T%,每段數(shù)據(jù)長度為表示下取整,并對每段數(shù)據(jù)去均值;
(2.2)、第i段數(shù)據(jù)的DFT系數(shù)Y(i)(λ):
其中,是去均值后的第i段數(shù)據(jù),λ是DFT變換后的頻點;
(2.3)、計算DFT系數(shù)的三階相關:
其中,L1的取值滿足是在雙譜區(qū)域沿水平和垂直方向上所要求的兩頻率采樣點之間的間隔,λ1,λ2是頻域的相關變量;
(2.4)、計算數(shù)據(jù)樣本的雙譜
其中,
(2.5)、對雙譜求模得到B(ω1,ω2),再求取B(ω1,ω2)的矩形圍線積分,得到積分后的雙譜特征B(l):
其中,Rl表示以零點為中心,在第一、四象限的一組矩形的積分路徑,l=1,2,…,Pl,Pl是積分路徑的條數(shù);
(2.6)、重復上述步驟(2.1)~(2.5),計算得到特征集S{n}中每一個樣本的矩形圍線積分雙譜特征。
進一步的,所述步驟(5)中,計算雜散成分的功率譜的具體方法為:
(3.1)、計算每個樣本x(n)的EMD:
其中,J表示EMD分解層數(shù),x(n)表示數(shù)據(jù)樣本集S{n}中的數(shù)據(jù)樣本,cj(n)表示第j個成分分量,r(n)表示信號分解后的殘差;
(3.2)、去除信號的主要成分和噪聲成分c1(n)、cJ(n),將余下的分量求和,得到雜散信號成分
(3.3)、對雜散成分xo(n)進行FFT變換,得到功率譜Xo(ω);
(3.4)、重復上述步驟(3.1)~(3.3),計算得到樣本集S{n}中的每一個樣本雜散成分的功率譜系數(shù)。
所述步驟(6)中,利用典型相關分析法對樣本特征集X和樣本特征集Y進行特征融合的具體方法為:
(4.1)、令Sxx∈Rp×p,Syy∈Rq×q分別表示特征集X和Y的方差,Sxy∈Rp×q表示特征集X和Y的協(xié)方差,Syx是Sxy的對稱矩陣,其中p,q分別是特征集X和特征集Y中的樣本個數(shù);
(4.2)、構造協(xié)方差矩陣S:
(4.3)、構造一組線性變換Wx,Wy,使其滿足使得在兩個特征集X和Y之間的特征對之間的相關性最大,即:
其中
(4.4)、令cov(X*)=cov(Y*)=1,使用拉格朗日乘子法求解上式的目標函數(shù)max{cov(X*,Y*)},即求解關于兩個方程的廣義特征值問題,可以得到Wx,Wy:
其中,R2是特征根對角矩陣,其中非零特征值的個數(shù)為d=rank(Sxy)≤min(n,p,q),并且按降序排列λ1≥λ2≥…λd,Wx,Wy分別是和非零特征值對應的特征向量空間;
(4.5)、由上式得到Wx,Wy的對X和Y兩個特征集做特征融合,得到融合后的特征集合:
更進一步的,所述步驟(7)中,利用隨機森林分類器對特征集Z進行分類決策的方法為:
基于隨機森林分類(RFC)的決策模型,由多個決策樹{ht(z,θt)},z∈ZTrain組成的分類器;θt是相互獨立且同分布的隨機向量,表示每棵決策樹的決策參量;z是輸入的訓練特征向量;首先用ZTrain訓練隨機森林分類器,然后對ZTest做分類預測,最終由所有決策樹綜合決定輸入特征向量的最終類別標簽,決策樹的棵數(shù)為NT,采用多數(shù)投票法決策:
其中,H(z)表示組合分類模型,O表示輸出的手機個體類別。
本發(fā)明的發(fā)明目的是這樣實現(xiàn)的:
本發(fā)明一種基于雙譜和EMD融合特征的手機個體識別方法,通過分別對所有樣本通過計算雙譜,再利用PCA降維,得到特征集X;同時計算樣本經(jīng)驗模態(tài)分解,得到信號雜散成分的功率譜,再通過Fisher判別分析得到特征集Y;對特征集X和Y做CCA特征融合得到融合特征集Z;對Z按m%:n%的比例做水平切分得到訓練集ZTrain和測試集ZTest,用訓練集ZTrain訓練隨機森林分類器,并利用訓練好的分類器對測試集ZTest進行分類決策,最終輸出手機個體識別結(jié)果。
同時,本發(fā)明一種基于雙譜和EMD融合特征的手機個體識別方法還具有以下有益效果:
(1)、提取的手機個體特征穩(wěn)定度較好,融合后的特征具有較強的區(qū)分性,從而提高了手機個體的識別率,并且該發(fā)明所使用的方法適用且很容易推廣到3G、4G頻段的手機個體識別,可以增強混合認知無線電網(wǎng)絡的安全性。
(2)、平臺可以采用分布式部署,從特征提取、融合、分類器的訓練、個體識別很容易部署在分布式平臺上,采用并行計算,極大地提高了運算能力,實現(xiàn)計算資源的靈活配置。
(3)、本發(fā)明為輻射源識別個體識別提供了一種新的思路,本發(fā)明中采用的特征提取和特征融合的方法對其他輻射源個體識別,如電臺、雷達、WiFi、路由等也具有很好借鑒意義。
附圖說明
圖1是本發(fā)明一種基于雙譜和EMD融合特征的手機個體識別方法流程圖;
圖2是GSM手機信號采樣接收設備連接實物及示意圖;
圖3是I路信號部分截圖和暫態(tài)、穩(wěn)態(tài)部分展示;
圖4是SIB積分路徑示意圖;
圖5是6部手機的雙譜等高線圖;
圖6是手機雙譜信號的SIB特征圖;
圖7是EMD分解后的時頻分布圖;
圖8是手機雜散分量的功率譜分布圖;
圖9是CCA特征融合后的二維特征分布圖;
圖10是6部手機個體的分類是識別結(jié)果。
具體實施方式
下面結(jié)合附圖對本發(fā)明的具體實施方式進行描述,以便本領域的技術人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當已知功能和設計的詳細描述也許會淡化本發(fā)明的主要內(nèi)容時,這些描述在這里將被忽略。
實施例
為了方便描述,先對具體實施方式中出現(xiàn)的相關專業(yè)術語進行說明:
AGC(Automatic Gain Control):自動增益控制;
SIB(Square Integrated Bispectra):矩形圍線積分雙譜;
PCA(Principal Component Analysis):主成分分析;
FDA(Fisher Discriminant Analysis):Fisher判別分析;
EMD:(Empirical Mode Decomposition)經(jīng)驗模態(tài)分解;
IMFs:(Intrinsic Mode Functions)本征模態(tài)函數(shù);
DFT:(Discrete Fourier Transform)離散傅里葉變換;
FFT:(Fast Fourier Transformation)快速傅里葉變換;
RFC:(Random Forest Classifier)隨機森林分類器;
圖1是本發(fā)明一種基于雙譜和EMD融合特征的手機個體識別方法流程圖。
在本實施例中,如圖1所示,本發(fā)明一種基于雙譜和EMD融合特征的手機個體識別方法,包括以下步驟:
(1)、對待識別的手機個體采樣
在手機通話階段,使用AD9361軟件無線電平臺對待識別的手機個體采樣,采樣頻段設為888~908MHz,采樣頻率設置為56MHz;其中,設待識別的手機個體共6個,分別對每個手機進行采樣;
在本實施例中,如圖2所示,AD9361平臺對上行GSM頻段手機個體進行采樣,采樣對象為兩個手機品牌,Nokia手機3部,型號為1682C,福中福手機3部,型號為F688D,GSM天線作為采樣平臺的信號接收端,采樣數(shù)據(jù)保存成二進制文件,每次采樣2G數(shù)據(jù),每部手機分時采樣5次,最終得到60G的原始樣本數(shù)據(jù),再從60G的原始樣本數(shù)據(jù)中抽取6000組采樣數(shù)據(jù),其中每部手機抽取1000組采樣數(shù)據(jù);
(2)、采樣數(shù)據(jù)預處理
將6000組采樣數(shù)據(jù)依次通過PCIE實時傳輸?shù)絇C機上,再通過對采樣數(shù)據(jù)進行解幀和重組,得到I、Q兩路數(shù)據(jù)信號;
(3)、獲取數(shù)據(jù)樣本集
計算I、Q兩路數(shù)據(jù)信號的模值,將采樣數(shù)據(jù)的長度等于L=5000且模值大于預設閾值1000的采樣數(shù)據(jù)保存在數(shù)據(jù)樣本集S{n}中,n表示數(shù)據(jù)樣本集中采樣數(shù)據(jù)的個數(shù),n≤C×M;
在本實施例中,由步驟(2)得到I、Q兩路數(shù)據(jù)信號,如圖3所示為I路信號部分截圖,信號可以分為噪聲部分、暫態(tài)信號部分,穩(wěn)態(tài)信號部分,本實施例的目的是提取信號的穩(wěn)態(tài)部分,其中閾值1000的取值是根據(jù)AD9361采樣設備的AGC設置得到,具體實施應該根據(jù)采樣設備的增益大小做適當?shù)恼{(diào)整。
(4)、求取樣本特征集X
計算每個數(shù)據(jù)樣本的雙譜,再求取其矩形圍線積分作為雙譜特征,最后利用多分類Fisher判別雙譜特征,將雙譜特征分離度最大的k個特征作為樣本特征集X;
在本實施例中,求取雙譜的矩形圍線積分作為雙譜特征的具體方法為:
(4.1)、將每一個長度為5000的樣本數(shù)據(jù)分成98段,保持相鄰數(shù)據(jù)段重疊部分為8%,每段數(shù)據(jù)長度為64,長度不足64的后面補零,并對每段數(shù)據(jù)去均值;
(4.2)、第i段數(shù)據(jù)的DFT系數(shù)Y(i)(λ):
其中,是去均值后的第i段數(shù)據(jù),λ是DFT變換后的頻點;
(4.3)、計算DFT系數(shù)的三階相關:
其中,L1的取值滿足L1=128,是在雙譜區(qū)域沿水平和垂直方向上所要求的兩頻率采樣點之間的間隔,λ1,λ2是頻域的相關變量;
(4.4)、計算數(shù)據(jù)樣本的雙譜
其中,
在本實施例中,手機個體1~6的雙譜如圖4所示,圖中所示為等高線圖,從圖中可以看出經(jīng)過雙譜變換后的手機信號在不同個體之間差異不是特別明顯,特別在相同型號之間,特征分離度判別不夠明顯;
(4.5)、對雙譜求模得到B(ω1,ω2),再求取B(ω1,ω2)的SIB,得到積分后的雙譜特征B(l):
其中,Rl表示以零點為中心,在第一、四象限的一組矩形的積分路徑,l=1,2,…,64;
在本實施例中,如圖5,圖中每個黑點代表一個雙譜值,按照SIB得到個體的特征向量,手機1到手機6的SIB個體特征如圖6所示。
(4.6)、重復上述步驟(4.1)~(4.5),計算得到特征集S{n}中每一個樣本的矩形圍線積分雙譜特征。
在本實施例中,為了提取分離度最大的k個特征,需要采用Fisher線性判別分析。對多類別(C>2)的情形,選擇使得分離度最大的k個向量,k的取值由交叉驗證得到。這就需要推廣投影方程、類間散布矩陣SB和類內(nèi)散步矩陣SW。對C個手機信號(C=6),需要將SIB積分后的64維雙譜特征空間向k維空間投影。
設y=[y1,y2,…,yk]T,W=[ω1,ω2,…,ωk],k個方程可以表示成:y=WTx,這里的表示第個類別的樣本集,y為第類別的樣本的投影向量集。
類間散度矩陣SB和類內(nèi)散度矩陣SW可以由總體散度矩陣ST和總體均值向量得到,其中n=n1+n1+…nC,表示第個類別的手機個體樣本數(shù)。
分別計算類間散度矩陣SB和類內(nèi)散度矩陣SW:
其中,分別表示樣本總均值和第i個類別的均值。
對矩陣束{SB,SW}進行特征值分解,并對特征值降序排列λ1≥λ2≥…≥λC-1,然后取前k個值對應的歸一化特征向量對W=[ω1,ω2,…,ωk]為得到的k維投影子空間。
由此求出的投影矩陣W,利用y=WTx,分別求出使每個手機個體分離度最大的k個特征,由此作為樣本特征集X。
(5)、求取樣本特征集Y
計算每個數(shù)據(jù)樣本的經(jīng)驗模態(tài)分解,再去除主分量和噪聲后計算出雜散成分的功率譜,最后利用主成分分析法對雜散成分的功率譜進行降維,將降維后最大的前p個主成分分量作為樣本特征集Y;
在本實施例中,計算雜散成分的功率譜的具體方法為:
(5.1)、計算每個樣本x(n)的EMD:
其中,J表示EMD分解層數(shù),x(n)表示數(shù)據(jù)樣本集S{n}中的數(shù)據(jù)樣本,cj(n)表示第j個成分分量,r(n)表示信號分解后的殘差;
(5.2)、去除信號的主要成分和噪聲成分c1(n)、cJ(n),將余下的分量求和,得到雜散信號成分如圖7所示,手機個體1~6的EMD分解后,得到歸一化頻譜,本步驟的目的即是去除圖中高頻和低頻成分,保留的則是手機個體的雜散信號,可以作為后續(xù)譜特征提??;
(5.3)、對雜散成分xo(n)進行FFT變換,得到功率譜Xo(ω);如圖8所示,為6個手機個體的雜散特征,經(jīng)過譜分析去除主分量和噪聲分量后的信號,使得不同手機個體的區(qū)分性明顯增強;
(5.4)、重復上述步驟(5.1)~(5.3),計算得到樣本集S{n}中的每一個樣本雜散成分的功率譜系數(shù);
在本實施例中,基于主成分分析法PCA降維,是利用PCA對基于EMD分解的頻譜構成的特征矢量進行降維,得到
Y=UT[r1,r2,…rN]T
式中,是一個長為的全1行矢量,U為前p個主成分分量對應的特征向量組成的矩陣,矩陣Y的規(guī)模是變換后的矢量即為矩陣Xo(ω)的主成分,并作為樣本特征集Y。
(6)、利用典型相關分析法對樣本特征集X和樣本特征集Y進行特征融合,得到融合后的特征集Z;
其中,利用典型相關分析法對樣本特征集X和樣本特征集Y進行特征融合的具體方法為:
(6.1)、令Sxx∈Rp×p,Syy∈Rq×q分別表示特征集X和Y的方差,Sxy∈Rp×q表示特征集X和Y的協(xié)方差,Syx是Sxy的對稱矩陣,其中p,q分別是特征集X和特征集Y中的樣本個數(shù);
(6.2)、構造協(xié)方差矩陣S:
(6.3)、構造一組線性變換Wx,Wy,使其滿足使得在兩個特征集X和Y之間的特征對之間的相關性最大,即:
其中
(6.4)、令cov(X*)=cov(Y*)=1,使用拉格朗日乘子法求解上式的目標函數(shù)max{cov(X*,Y*)},即求解關于兩個方程的廣義特征值問題,可以得到Wx,Wy:
其中,R2是特征根對角矩陣,其中非零特征值的個數(shù)為d=rank(Sxy)≤min(n,p,q),并且按降序排列λ1≥λ2≥…λd,Wx,Wy分別是和非零特征值對應的特征向量空間;
(6.5)、由上式得到Wx,Wy的對X和Y兩個特征集做特征融合,得到融合后的特征集合:
如圖9所示,經(jīng)過特征融合后6個手機個體的二維特征和三維特征分布,由圖中可以看出,不同手機個體特征明顯呈現(xiàn)類簇分布,相同個體特征分布較為緊密,不同個體特征的類間距較遠,為下一步準確分類奠定了良好的條件。
在本實施例中,對融合后的特征集Z按照3:2的比例切分訓練集和測試集,即特征集Z的3/5作為訓練集ZTrain,剩下的為測試集ZTest,步驟(1)中抽取了6000組采樣數(shù)據(jù),那么特征集Z中也共有6000組采樣數(shù)據(jù),通過3:2的比例切分后,ZTrain有3600組采樣數(shù)據(jù),ZTest有2400組采樣數(shù)據(jù)
(7)、構建隨機森林分類器,并利用該分類器對特征集Z進行分類決策,最終輸出手機個體識別結(jié)果。
在本實施例中,利用隨機森林分類器對特征集ZTest進行分類決策的方法為:
基于隨機森林分類(RFC)的決策模型,由多個決策樹{ht(z,θt)},z∈ZTrain組成的分類器;θt是相互獨立且同分布的隨機向量,表示每棵決策樹的決策參量;z是輸入的訓練特征向量;首先用ZTrain訓練隨機森林分類器,然后對ZTest做分類預測,最終由所有決策樹綜合決定輸入特征向量的最終類別標簽,決策樹的棵數(shù)為NT,采用多數(shù)投票法決策:
其中,H(z)表示組合分類模型,O表示輸出的手機個體類別。
具體實現(xiàn)步驟如下:
(7.1)、應用bootstrap法從ZTrain中有放回的抽取200個新的自助樣本集,并由此構建200棵分類樹,每次未被抽到的樣本組成了200個袋外數(shù)據(jù),用來估計當前模型性能。
(7.2)、對每個樣本的64個屬性,在決策樹的每個節(jié)點需要分裂時,隨機從這64個屬性中不放回抽取m*個屬性,在整個隨機森林構造過程中m*是一個常數(shù),本發(fā)明中取m*=8;
(7.3)、從這8個屬性中采用Gini系數(shù)來選擇一個1個屬性作為該節(jié)點的分裂屬性,每棵樹按最大限度地生長,且不做任何的剪枝;
(7.4)、將生成的多顆分類樹組成隨機森林,用隨機森林分類器對新的預測數(shù)據(jù)進行判別和分析,分類結(jié)果按樹分類器的投票結(jié)果的眾數(shù)決定。
圖10是6個手機個體的分類識別結(jié)果,結(jié)果表明,經(jīng)過多次試驗,平均識別率達到95%左右,驗證了本發(fā)明提出識別方案的正確性和有效性,這也為增強認知無線電網(wǎng)絡安全性從物理層認證提供了實用方案。
本發(fā)明中,手機個體信號采集過程是一個非常重要的環(huán)節(jié)。由于提取的個體細微的雜散特征,為保證較高的個體識別準確率,需要注意三點,一是采樣設備本身最好不要引入太多噪聲,因此較高精度的采樣設備是必須的;二是采樣率要保證是信號帶寬的3~5倍;三是保證提取的是信號的雜散特征,而非信號本身,因此去除信號的信息承載部分和背景噪聲也是必須的,這可以通過EMD分解剔除無關分量來實現(xiàn)。
盡管上面對本發(fā)明說明性的具體實施方式進行了描述,以便于本技術領域的技術人員理解本發(fā)明,但應該清楚,本發(fā)明不限于具體實施方式的范圍,對本技術領域的普通技術人員來講,只要各種變化在所附的權利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見的,一切利用本發(fā)明構思的發(fā)明創(chuàng)造均在保護之列。