基于模糊k均值的宏基因組片段聚類方法

文檔序號：6537906閱讀：185來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于模糊k均值的宏基因組片段聚類方法
【專利摘要】一種基于模糊k均值的宏基因組片段聚類方法，屬于涉及生物信息學(xué)分析【技術(shù)領(lǐng)域】。本發(fā)明的目的是在不對宏基因組片段進行組裝的條件下，利用宏基因組片段本身的特征，實現(xiàn)宏基因組片段的聚類，從而得出其所包含的物種個數(shù)以及各物種豐度比的基于模糊k均值的宏基因組片段聚類方法。本發(fā)明的步驟是：宏基因組片段的獲取、特征向量的建立、利用模糊k均值方法進行聚類、根據(jù)聚類結(jié)果計算宏基因組數(shù)據(jù)中包含的物種個數(shù)和物種的豐度比。本發(fā)明所述的方法具有直接、方便的特點。
【專利說明】基于模糊k均值的宏基因組片段聚類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于涉及生物信息學(xué)分析【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]傳統(tǒng)的基因測序技術(shù)必須先將微生物在實驗室環(huán)境中進行培養(yǎng)，然后才能完成測序工作，而且只能對單一物種進行基因測序。然而，地球上只有極少數(shù)的微生物可以在實驗環(huán)境下培養(yǎng)，這就意味著利用傳統(tǒng)的基因測序技術(shù)所得到的基因數(shù)據(jù)十分不完整，無法描繪微生物世界的真實面貌。另外，地球上幾乎不存在僅含有單一物種的微生物群落，且物種之間相互作用關(guān)系十分復(fù)雜。因此，僅對單一物種進行基因測序而忽視與之相互作用的物種，顯然是不合理的。
[0003]隨著基因測序技術(shù)的發(fā)展，使得從環(huán)境中直接獲取DNA序列而無需經(jīng)過實驗室培養(yǎng)成為了可能，這便稱之為宏基因組學(xué)。宏基因組學(xué)的出現(xiàn)很好的克服了傳統(tǒng)基因測序技術(shù)的局限。宏基因組數(shù)據(jù)的特點是片段數(shù)量多，但片段長度短。因此，如何對宏基因組數(shù)據(jù)進行聚類分析，以獲取一個宏基因組數(shù)據(jù)集中諸如包含的物種個數(shù)、物種豐度比等信息，便成了現(xiàn)在亟待解決的問題。
[0004]模糊k均值方法作為一種無監(jiān)督機器學(xué)習(xí)方法，是用模糊理論對重要數(shù)據(jù)分析和建模的方法，建立了樣本類屬的不確定性描述，能比較客觀地反映現(xiàn)實世界，它已經(jīng)有效地應(yīng)用在大規(guī)模數(shù)據(jù)分析、數(shù)據(jù)挖掘、矢量量化、圖像分割、模式識別等領(lǐng)域，具有重要的理論與實際應(yīng)用價值。
[0005]中國專利號為201110439198.X、名稱為《基于宏基因組16S高可變區(qū)V3的分類方法和裝置》的發(fā)明專利公開了一種宏基因組數(shù)據(jù)的分類方法，但這種方法是利用16SrDNA對宏基因組數(shù)據(jù)進行分類，16SrDNA鑒定是基于PCR的鑒定方法，與其它PCR鑒定方法一樣存在容易污染；且該方法在分類之前依舊DNA序列的重疊關(guān)系對其進行組裝，這就不可避免的帶來了誤差，并最終影響分類結(jié)果的準確性。
[0006]碩士論文《基于k-mer頻率統(tǒng)計的物種分類方法》中介紹了利用k_mer頻率進行物種分類的方法，但其只選用了六種細菌的DNA序列作為數(shù)據(jù)集，且每個序列的長度均在IOOObp以上，無法體現(xiàn)出宏基因組數(shù)據(jù)的物種數(shù)量多、序列較短的特點。另外，其在分類過程中，僅以特征向量間的歐式距離作為物種分類的依據(jù)，容易造成錯誤分類。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的是在不對宏基因組片段進行組裝的條件下，利用宏基因組片段本身的特征，實現(xiàn)宏基因組片段的聚類，從而得出其所包含的物種個數(shù)以及各物種豐度比的基于模糊k均值的宏基因組片段聚類方法。
[0008]本發(fā)明的步驟是:
a、宏基因組片段的獲取:微生物全基因序列利用宏基因組模擬軟件MetaSim合成一個宏基因組片段集；b、特征向量的建立:使用DNA片段的k-mer頻率作為特征向量:
①計算每個片段的k-mer頻率，即用一個列向量來表示一個DNA片段；
②對步驟I)中計算得到的特征向量進行歸一化，歸一化方法為:特征向量中每一個元素都除以該特征向量中元素的最大值，即:
【權(quán)利要求】
1.一種基于模糊k均值的宏基因組片段聚類方法，其特征在于: a、宏基因組片段的獲取:微生物全基因序列利用宏基因組模擬軟件MetaSim合成一個宏基因組片段集； b、特征向量的建立:使用DNA片段的k-mer頻率作為特征向量: ①計算每個片段的k-mer頻率，即用一個列向量來表示一個DNA片段； ②對步驟I)中計算得到的特征向量進行歸一化，歸一化方法為:特征向量中每一個元素都除以該特征向量中元素的最大值，即:
2.根據(jù)權(quán)利要求1所述的基于模糊k均值的宏基因組片段聚類方法，其特征在于:讀取的宏基因組片段中四種核苷酸A、T、G、C轉(zhuǎn)換為數(shù)字O、1、2、3。
3.根據(jù)權(quán)利要求1所述的基于模糊k均值的宏基因組片段聚類方法，其特征在于:聚類過程是: a、給定聚類所需的初始條件:聚類個數(shù)免、最小迭代誤差e，模糊度f和初始隸屬度矩陣,其元素~表示第i個片段屬于第J個類的概率，初始隸屬度矩陣，滿足:

【文檔編號】G06F19/20GK103955629SQ201410053807
【公開日】2014年7月30日申請日期:2014年2月18日優(yōu)先權(quán)日:2014年2月18日
【發(fā)明者】劉富, 劉云, 侯濤, 張瀟, 王珂, 康冰, 薛建申請人:吉林大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉富;劉云;侯濤;張瀟;王珂;康冰;薛建
技術(shù)所有人：吉林大學(xué)
我是此專利的發(fā)明人

上一篇：通用串行總線設(shè)備以及其數(shù)據(jù)傳輸方法
上一篇：一種大數(shù)據(jù)存儲系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

模糊c均值聚類相關(guān)技術(shù)

模糊c均值聚類算法相關(guān)技術(shù)

模糊均值聚類算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于模糊k均值的宏基因組片段聚類方法