基于模糊k均值的宏基因組片段聚類方法
【專利摘要】一種基于模糊k均值的宏基因組片段聚類方法,屬于涉及生物信息學(xué)分析【技術(shù)領(lǐng)域】。本發(fā)明的目的是在不對宏基因組片段進行組裝的條件下,利用宏基因組片段本身的特征,實現(xiàn)宏基因組片段的聚類,從而得出其所包含的物種個數(shù)以及各物種豐度比的基于模糊k均值的宏基因組片段聚類方法。本發(fā)明的步驟是:宏基因組片段的獲取、特征向量的建立、利用模糊k均值方法進行聚類、根據(jù)聚類結(jié)果計算宏基因組數(shù)據(jù)中包含的物種個數(shù)和物種的豐度比。本發(fā)明所述的方法具有直接、方便的特點。
【專利說明】基于模糊k均值的宏基因組片段聚類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于涉及生物信息學(xué)分析【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]傳統(tǒng)的基因測序技術(shù)必須先將微生物在實驗室環(huán)境中進行培養(yǎng),然后才能完成測序工作,而且只能對單一物種進行基因測序。然而,地球上只有極少數(shù)的微生物可以在實驗環(huán)境下培養(yǎng),這就意味著利用傳統(tǒng)的基因測序技術(shù)所得到的基因數(shù)據(jù)十分不完整,無法描繪微生物世界的真實面貌。另外,地球上幾乎不存在僅含有單一物種的微生物群落,且物種之間相互作用關(guān)系十分復(fù)雜。因此,僅對單一物種進行基因測序而忽視與之相互作用的物種,顯然是不合理的。
[0003]隨著基因測序技術(shù)的發(fā)展,使得從環(huán)境中直接獲取DNA序列而無需經(jīng)過實驗室培養(yǎng)成為了可能,這便稱之為宏基因組學(xué)。宏基因組學(xué)的出現(xiàn)很好的克服了傳統(tǒng)基因測序技術(shù)的局限。宏基因組數(shù)據(jù)的特點是片段數(shù)量多,但片段長度短。因此,如何對宏基因組數(shù)據(jù)進行聚類分析,以獲取一個宏基因組數(shù)據(jù)集中諸如包含的物種個數(shù)、物種豐度比等信息,便成了現(xiàn)在亟待解決的問題。
[0004]模糊k均值方法作為一種無監(jiān)督機器學(xué)習(xí)方法,是用模糊理論對重要數(shù)據(jù)分析和建模的方法,建立了樣本類屬的不確定性描述,能比較客觀地反映現(xiàn)實世界,它已經(jīng)有效地應(yīng)用在大規(guī)模數(shù)據(jù)分析、數(shù)據(jù)挖掘、矢量量化、圖像分割、模式識別等領(lǐng)域,具有重要的理論與實際應(yīng)用價值。
[0005]中國專利號為201110439198.X、名稱為《基于宏基因組16S高可變區(qū)V3的分類方法和裝置》的發(fā)明專利公開了一種宏基因組數(shù)據(jù)的分類方法,但這種方法是利用16SrDNA對宏基因組數(shù)據(jù)進行分類,16SrDNA鑒定是基于PCR的鑒定方法,與其它PCR鑒定方法一樣存在容易污染;且該方法在分類之前依舊DNA序列的重疊關(guān)系對其進行組裝,這就不可避免的帶來了誤差,并最終影響分類結(jié)果的準確性。
[0006]碩士論文《基于k-mer頻率統(tǒng)計的物種分類方法》中介紹了利用k_mer頻率進行物種分類的方法,但其只選用了六種細菌的DNA序列作為數(shù)據(jù)集,且每個序列的長度均在IOOObp以上,無法體現(xiàn)出宏基因組數(shù)據(jù)的物種數(shù)量多、序列較短的特點。另外,其在分類過程中,僅以特征向量間的歐式距離作為物種分類的依據(jù),容易造成錯誤分類。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的是在不對宏基因組片段進行組裝的條件下,利用宏基因組片段本身的特征,實現(xiàn)宏基因組片段的聚類,從而得出其所包含的物種個數(shù)以及各物種豐度比的基于模糊k均值的宏基因組片段聚類方法。
[0008]本發(fā)明的步驟是:
a、宏基因組片段的獲取:微生物全基因序列利用宏基因組模擬軟件MetaSim合成一個宏基因組片段集;b、特征向量的建立:使用DNA片段的k-mer頻率作為特征向量:
①計算每個片段的k-mer頻率,即用一個列向量來表示一個DNA片段;
②對步驟I)中計算得到的特征向量進行歸一化,歸一化方法為:特征向量中每一個元素都除以該特征向量中元素的最大值,即:
【權(quán)利要求】
1.一種基于模糊k均值的宏基因組片段聚類方法,其特征在于: a、宏基因組片段的獲取:微生物全基因序列利用宏基因組模擬軟件MetaSim合成一個宏基因組片段集; b、特征向量的建立:使用DNA片段的k-mer頻率作為特征向量: ①計算每個片段的k-mer頻率,即用一個列向量來表示一個DNA片段; ②對步驟I)中計算得到的特征向量進行歸一化,歸一化方法為:特征向量中每一個元素都除以該特征向量中元素的最大值,即:
2.根據(jù)權(quán)利要求1所述的基于模糊k均值的宏基因組片段聚類方法,其特征在于:讀取的宏基因組片段中四種核苷酸A、T、G、C轉(zhuǎn)換為數(shù)字O、1、2、3。
3.根據(jù)權(quán)利要求1所述的基于模糊k均值的宏基因組片段聚類方法,其特征在于:聚類過程是: a、給定聚類所需的初始條件:聚類個數(shù)免、最小迭代誤差e,模糊度f和初始隸屬度矩陣,其元素~表示第i個片段屬于第J個類的概率,初始隸屬度矩陣,滿足:
【文檔編號】G06F19/20GK103955629SQ201410053807
【公開日】2014年7月30日 申請日期:2014年2月18日 優(yōu)先權(quán)日:2014年2月18日
【發(fā)明者】劉富, 劉云, 侯濤, 張瀟, 王珂, 康冰, 薛建 申請人:吉林大學(xué)