一種將生物基因以特定的性狀進行分類與自我識別的方法
【專利摘要】本發(fā)明涉及生物信息技術(shù)領(lǐng)域,具體涉及一種將生物基因以特定的性狀進行分類與自我識別的方法,它采用如下的方法步驟;步驟一:Caffe深度學習框架運行環(huán)境的搭建;步驟二:生物基因信息數(shù)據(jù)的準備;步驟三:生物基因性狀識別模型的建立;步驟四:生物基因性狀識別模型的訓練;步驟五:對未知性狀基因信息進行識別;它采用深度學習算法,構(gòu)建一個對生物基因信息識別并找出與對應性狀之間聯(lián)系的模型,然后使用這個模型對未知性狀的基因信息進行識別,它具有能夠更方便及智能的進行基因的對應性狀分類,對未知性狀的基因進行自我識別的優(yōu)點。
【專利說明】-種將生物基因從特定的性狀進行分類與自我識別的方法 【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及生物信息技術(shù)領(lǐng)域,具體設(shè)及一種將生物基因 W特定的性狀進行分類 與自我識別的方法。 【【背景技術(shù)】】
[0002] 人類基因組計劃奠定了從基因切入研究疾病的基礎(chǔ),人們希望找到人類發(fā)病與基 因之間的關(guān)系。全基因組關(guān)聯(lián)研究(GWAS,-Wide Association Study)的基本原理是在同層 人群中選擇滿足一定統(tǒng)計學數(shù)量的病例組和對照組樣本,比較全基因組范圍內(nèi)SNP位點在 病例組與對照組中的頻率差異,若某個SNP位點在病例組中出現(xiàn)的頻率明顯高于或低于對 照組,則認為該SNP位點與復雜疾病存在某種關(guān)聯(lián)。雖然,GWAS已經(jīng)發(fā)現(xiàn)了很多與復雜疾病 相關(guān)的SNP位點,但是GWAS仍然存在很多問題,其成果與人們的預期差距甚遠。
[0003] 在基因的間接識別法化Xtrinsic Approach)中,人們利用已知的mRNA或蛋白質(zhì)序 列為線索在DNA序列中捜尋所對應的片段。由給定的mRNA序列確定唯一的作為轉(zhuǎn)錄源的DNA 序列;而由給定的蛋白質(zhì)序列,也可W由密碼子反轉(zhuǎn)確定一族可能的DNA序列。因此,在線索 的提示下捜尋工作相對較為容易,捜尋算法的關(guān)鍵在于提高效率,并能夠容忍由于測序不 完整或者不精確所帶來的誤差。BLAST是目前W此為目的最廣泛使用的軟件之一。
[0004] BLAST(Basic Local Alignment Search Tool)是一套在DNA數(shù)據(jù)庫或蛋白質(zhì)數(shù)據(jù) 庫中進行相似性比較的分析工具。BLAST程序能迅速使目標基因序列與公開數(shù)據(jù)庫進行相 似性序列比較。BLAST采用一種局部的算法獲得兩個序列中具有相似性的序列,并且對一條 或多條序列(可W是任何形式的序列)在一個或多個核酸或蛋白序列庫中進行比對。然而, BLAST卻也存在一定的局限性,并不能進行深度學下的依照對應性狀進行基因分類和自我 識別,而且對于大數(shù)據(jù)量的基因數(shù)據(jù)集進行智能化的對應性狀分類和自我識別顯得無能為 力。
[0005] Caffe是一個清晰而高效的深度學習框架。它是純粹的C++/CUDA架構(gòu),支持命令 行、P^hon和MTLAB接口;可W在CPU和GPU直接無縫切換,用于研究機器視覺的開源卷積神 經(jīng)網(wǎng)絡(luò)框架,并且主要應用于圖像領(lǐng)域處理。它的特點是:快速搭建網(wǎng)絡(luò)結(jié)構(gòu),代碼可擴展, 計算速度快等。利用化ffe開源深度學習框架,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)學習模型,W生物基因數(shù) 據(jù)信息進行推算,從而獲得識別基因及其對應性狀的模型,有助于更加高效的進行基因性 狀識別和自我分類。 【
【發(fā)明內(nèi)容】
】
[0006] 本發(fā)明的目的在于針對現(xiàn)有技術(shù)的缺陷和不足,提供一種結(jié)構(gòu)簡單,設(shè)計合理、使 用方便的一種將生物基因 W特定的性狀進行分類與自我識別的方法,它采用深度學習算 法,構(gòu)建一個對生物基因信息識別并找出與對應性狀之間聯(lián)系的模型,然后使用運個模型 對未知性狀的基因信息進行識別,它具有能夠更方便及智能的進行基因的對應性狀分類, 對未知性狀的基因進行自我識別的優(yōu)點。
[0007]本發(fā)明所述的一種將生物基因 W特定的性狀進行分類與自我識別的方法,它采用 如下的技術(shù)方案:
[000引步驟一:搭建一個適合化ffe深度學習運行的軟硬件環(huán)境;
[0009] 步驟二:生物基因信息數(shù)據(jù)的準備,使其適用于Caffe的訓練數(shù)據(jù),對原始基因信 息進行預處理,預處理包括更改原始數(shù)據(jù)維數(shù),統(tǒng)一到固定大小,并歸一化;
[0010] 步驟根據(jù)識別任務(wù)目標,采用深度學習算法構(gòu)建一個適用于生物基因性狀識 別的模型;
[0011] 步驟四:在化ffe運行環(huán)境上,使用準備的生物基因數(shù)據(jù),按照基因性狀識別模型 描述文件和求解描述文件對所建立的識別模型進行訓練,求解模型中各層的參數(shù),達到預 期性能停止訓練并保存各層參數(shù);
[0012] 步驟五:利用建立的識別模型結(jié)合訓練得到的模型參數(shù)對未知性狀的基因信息進 行識別。
[0013] 進一步地,步驟一中搭建一個適合化ffe深度學習運行的軟硬件環(huán)境如下:硬件為 一臺內(nèi)存32GB,帶一個內(nèi)存為12GB的NVIDIA GeForce GTX Ti化n X獨立顯卡的服務(wù)器或更 高配置;軟件的操作系統(tǒng)為化un化15.10,64位系統(tǒng),W及caffe依賴的其它第S方庫。
[0014] 進一步地,步驟二中準備的生物基因信息數(shù)據(jù)是經(jīng)過二進制字節(jié)流表示和可視化 圖像轉(zhuǎn)換后的基因信息,其基因信息數(shù)據(jù)W圖像的格式表現(xiàn);其次使用Caffe提供的 conve;rt_imageset工具將基因數(shù)據(jù)集轉(zhuǎn)化為數(shù)據(jù)庫文件,數(shù)據(jù)庫文件可W是Ieveldb或者 InKlb,優(yōu)選Indb;進一步地,使用化f f e提供的compute_image_mean命令對上面的數(shù)據(jù)庫文 件計算基因信息的均值,并將生成的數(shù)據(jù)拆分成訓練數(shù)據(jù)集和測試數(shù)據(jù)集。
[0015] 進一步地,步驟S的特征在于構(gòu)建一個基于化ffe深度學習算法的生物基因性狀 識別模型進行目標訓練,根據(jù)基因性狀識別任務(wù),確定基因性狀識別模型的結(jié)構(gòu)W及模型 中每一層的超參數(shù);其次,編寫適用于化ffe的模型描述文件和模型求解描述文件。
[0016] 進一步地,步驟四中:生物基因性狀識別模型的訓練,其特征是在化ffe運行環(huán)境 上,使用準備的生物基因數(shù)據(jù),按照基因性狀識別模型描述文件和求解描述文件對所建立 的識別模型進行訓練,求解模型中各層的參數(shù);在訓練過程中,利用訓練數(shù)據(jù)集采用梯度下 降算法在每一個迭代過程中更新各層參數(shù),并使用測試集對訓練完的模型進行性能評估, 達到預期性能停止訓練并保存各層參數(shù)。
[0017] 進一步地,步驟五中:利用建立的識別模型結(jié)合訓練得到的模型參數(shù)對未知性狀 的基因信息進行識別,輸入的未知性狀的基因信息需要按照步驟B進行數(shù)據(jù)準備,將原始基 因信息轉(zhuǎn)化為適用于化ffe的輸入數(shù)據(jù)。識別模型對輸入數(shù)據(jù)的輸出是一個歸屬于某一對 應性狀的概率數(shù)值,并認為概率最大的性狀標簽作為待識別基因?qū)男誀睢?br>[0018] 采用上述結(jié)構(gòu)后,本發(fā)明有益效果為:本發(fā)明所述的一種將生物基因 W特定的性 狀進行分類與自我識別的方法,它采用深度學習算法,構(gòu)建一個對生物基因信息識別并找 出與對應性狀之間聯(lián)系的模型,然后使用運個模型對未知性狀的基因信息進行識別,它具 有能夠更方便及智能的進行基因的對應性狀分類,對未知性狀的基因進行自我識別的優(yōu) 點。 【【附圖說明】】
[0019] 此處所說明的附圖是用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,但 并不構(gòu)成對本發(fā)明的不當限定,在附圖中:
[0020] 圖1是本發(fā)明技術(shù)方案的實施流程圖。
[0021] 圖2是本發(fā)明實施中生物基因信息數(shù)據(jù)的準備流程圖。
[0022] 圖3是本發(fā)明實施中生物基因性狀識別模型的網(wǎng)絡(luò)結(jié)構(gòu);
[0023] 圖4是本發(fā)明實施中生物基因性狀識別模型的各層網(wǎng)絡(luò)參數(shù)表;
[0024] 圖5是本發(fā)明實施中生物基因性狀識別模型訓練流程圖。
[0025] 圖6是本發(fā)明實施中生物基因性狀識別模型對未知性狀基因信息識別流程圖; 【【具體實施方式】】
[0026] 下面將結(jié)合附圖W及具體實施例來詳細說明本發(fā)明,其中的示意性實施例W及說 明僅用來解釋本發(fā)明,但并不作為對本發(fā)明的限定。
[0027] 如圖1-圖6所示,本【具體實施方式】所述的一種將生物基因 W特定的性狀進行分類 與自我識別的方法,它采用如下的技術(shù)方案:
[00%]步驟一:化ffe深度學習框架運行環(huán)境的搭建;
[0029] 步驟二:生物基因信息數(shù)據(jù)的準備;
[0030] 步驟生物基因性狀識別模型的建立;
[0031 ]步驟四:生物基因性狀識別模型的訓練;
[0032] 步驟五:對未知性狀基因信息進行識別;
[0033] 步驟一中:在于搭建一個適合化ffe深度學習運行的軟硬件環(huán)境,硬件為一臺內(nèi)存 32GB,帶一個內(nèi)存為12GB的NVIDIA GeForce GTX Titan X獨立顯卡的服務(wù)器或更高配置。 軟件的操作系統(tǒng)為化un化15.10,64位系統(tǒng),W及caffe依賴的其它第S方庫。
[0034] 步驟二中:生物基因信息數(shù)據(jù),是經(jīng)過二進制字節(jié)流表示和可視化圖像轉(zhuǎn)換后的 基因信息,其基因信息數(shù)據(jù)W圖像的格式表現(xiàn)。
[0035] 較佳地,步驟二的生物基因信息數(shù)據(jù)的準備是要使其適用于化ffe的訓練數(shù)據(jù)。對 原始基因信息進行預處理,預處理包括更改原始數(shù)據(jù)維數(shù),統(tǒng)一到固定大小,并歸一化。
[0036] 使用化ffe提供的conve;rt_imageset工具將基因數(shù)據(jù)集轉(zhuǎn)化為數(shù)據(jù)庫文件,數(shù)據(jù) 庫文件可W是level化或者InKlb,優(yōu)選Indb。
[0037] 進一步地,使用化ffe提供的compute_image_mean命令對上面的數(shù)據(jù)庫文件計算 基因信息的均值,并將生成的數(shù)據(jù)拆分成訓練數(shù)據(jù)集和測試數(shù)據(jù)集。
[0038] 步驟=中:生物基因性狀識別模型建立是根據(jù)識別任務(wù)目標,采用深度學習算法 構(gòu)建一個適用于生物基因性狀識別的模型。
[0039] 第一步,根據(jù)基因性狀識別任務(wù),確定基因性狀識別模型的結(jié)構(gòu)W及模型中每一 層的超參數(shù);第二步,編寫適用于化ffe的模型描述文件和模型求解描述文件。
[0040] 模型描述文件是一種適用于化ffe框架的用于描述基因性狀識別模型結(jié)構(gòu)W及網(wǎng) 絡(luò)參數(shù)的描述文件;模型求解描述文件是一種適用于化ffe框架的用于描述基因性狀識別 模型關(guān)于求解的描述文件。
[0041] 步驟四中:是在Caffe運行環(huán)境上,使用準備的生物基因數(shù)據(jù),按照基因性狀識別 模型描述文件和求解描述文件對所建立的識別模型進行訓練,求解模型中各層的參數(shù);在 訓練過程中,利用訓練數(shù)據(jù)集采用梯度下降算法在每一個迭代過程中更新各層參數(shù),并使 用測試集對訓練完的模型進行性能評估,達到預期性能停止訓練并保存各層參數(shù)。
[0042] 步驟五中:是利用建立的識別模型結(jié)合訓練得到的模型參數(shù)對未知性狀的基因信 息進行識別。
[0043] 輸入的未知性狀的基因信息需要按照步驟B進行數(shù)據(jù)準備,將原始基因信息轉(zhuǎn)化 為適用于Caffe的輸入數(shù)據(jù)。識別模型對輸入數(shù)據(jù)的輸出是一個歸屬于某一對應性狀的概 率數(shù)值,并認為概率最大的性狀標簽作為待識別基因?qū)男誀睢?br>[0044] 本【具體實施方式】是基于化ffe深度學習框架,構(gòu)建一個卷積神經(jīng)網(wǎng)絡(luò)的基因性狀 識別模型。在實施方式中,生物基因信息數(shù)據(jù)準備是將已知對應性狀的基因信息處理成用 于訓練模型的樣本數(shù)據(jù)。運里定義(X,Y)為樣本數(shù)據(jù),其中X代表樣本數(shù)據(jù)中的基因信息,Y 代表樣本數(shù)據(jù)中的性狀標簽。
[0045] X=(xi,X2,. . . ,Xn) ,Y=(yi,Y2,. . . ,yn)
[0046] 進一步地,Xi是用來描述基因信息的一種類似圖像的二維矩陣,即XiGrXs;yi是用 來描述基因不同性狀的標簽的向量yiGRnxi。同時定義識別模型為:
[0047] y = f (x; 0)
[0048] 運里,X是某一性狀對應的基因信息,y是該基因?qū)男誀睿?是識別模型的參數(shù)。
[0049] 卷積神經(jīng)網(wǎng)絡(luò)模型主要包括卷積層、池化層(下采樣層)、非線性層W及用于構(gòu)造 監(jiān)督學習模型的全連接層和用于構(gòu)建模型損失函數(shù)的SOftmax識別器?;诰矸e神經(jīng)網(wǎng)絡(luò) 的識別的一般網(wǎng)絡(luò)結(jié)構(gòu)為若干個交替出現(xiàn)的卷積層、池化層,然后連接若干個全連接層,最 后是一個用于識別的SOftmax層。每一層都有若干參數(shù)。
[0050] 卷積層:每一個卷積層由若干個權(quán)值共享的卷積核對整個圖像進行卷積操作來提 取特征,并將特征作為輸出。卷積層最主要的參數(shù)是卷積核的大小W及卷積核的個數(shù)。另 夕h卷積核參數(shù)還有卷積核移動的步幅和填充大小。卷積層輸出與卷積核個數(shù)相同的特征 圖,運些特征圖的大小由卷積核的大小和卷積核移動的步幅W及填充大小有關(guān)。
[0051] 卷積核表示為kmxn,大小為mXn。卷積核移動步幅表示為S,填充大小表示為P。卷積 操作用數(shù)學公式描述為:
[0化2]
[005;3]運里,X,"是1-1層網(wǎng)絡(luò)第i個卷積核的輸出,作為1層網(wǎng)絡(luò)的輸入,是當前層第j個 卷積核的輸出,^為的第j個卷積核的參數(shù),6;為該卷積層對應卷積核的偏置參數(shù)。fnnnlinear 是對卷積數(shù)據(jù)進行非線性操作,運個函數(shù)一般為sigmoid,化nh或者ReLU。
[0054]池化層:池化層是利用一個池化核對前一層卷積層的輸出進行降采樣。所謂降采 樣就是減小卷積層輸出的維數(shù),W降低模型參數(shù)規(guī)模。池化層的主要參數(shù)是池化核的大小, 池化核移動步幅W及池化方式。池化方式一般為最大池化和均值池化。最大池化是將池化 核范圍內(nèi)最大的數(shù)值作為輸出;均值池化是將池化核范圍內(nèi)所有數(shù)值的均值作為輸出。池 化層用數(shù)學公式描述為:
[0化5]
[0化6]同樣地,運里的fnonlinear是對池化層輸出做非線性操作,公j是該池化層的核參數(shù), 6;;是對應的偏置參數(shù)。down(x)代表對輸入進行降采樣。降采樣方式一般有均值采樣和最大 化采樣。
[0057]池化層的核表示為kmXn,大小為m X n,移動步幅表示為S,填充大小表示為P。用MAX 表示使用最大池化方式,AVE表示使用均值池化方式。
[005引非線性層:非線性層是對輸入的數(shù)據(jù)逐元素進行非線性操作,W增加網(wǎng)絡(luò)的復雜 性。常見的非線性操作有sigmoid、1:anh、ReLU等。
[0化9]
[0060]
[0061]
[0062] 全連接層:全連接層是前一層網(wǎng)絡(luò)與下一層網(wǎng)路每個神經(jīng)元都進行連接。最后一 個全連接層的輸出個數(shù)與數(shù)據(jù)中類別個數(shù)相同,也就是最后一個全連接層的輸出對應的是 每一個類別標簽。運個全連接層用于構(gòu)建一個有監(jiān)督的識別。
[0063] SOftmax層:SOftmax層是用來構(gòu)建一個用于訓練網(wǎng)絡(luò)模型的目標函數(shù),運個函數(shù) 是一種評估模型輸出類別與真實類別之間差別的度量。
[0064] 編寫適用于化ffe的模型結(jié)構(gòu)描述文件即是將上面確定的各層超參數(shù)依照化ffe 描述文件的格式保存在描述文件里。
[0065] 卷積神經(jīng)網(wǎng)絡(luò)模型分為前向過程和后向過程。前向過程是從輸入數(shù)據(jù),經(jīng)過若干 個卷積操作,池化操作,非線性操作,全連接,到輸出一個類別標簽,并與真實類別標簽做比 較得到一個誤差,作為loss。后向過程是誤差向后傳播的過程,從得到的誤差開始,反向逐 層計算誤差相對于全連接層,非線性層,池化層,卷積層各層參數(shù)的梯度。
[0066] 卷積神經(jīng)網(wǎng)絡(luò)模型的訓練就是根據(jù)誤差后向傳播,采用梯度下降算法,對各層的 誤差求梯度,沿著能使梯度下降最快的方向更新各層的參數(shù),最終達到收斂。訓練過程中, W多大的權(quán)重來調(diào)整權(quán)重更新就是所謂的學習速率。
[0067] W卷積操作為例,第1層第j個特征圖的殘差為:
[006引
[0069] 其中,啡(?)表示上述采樣過程。
[0070] 那么對應卷積層的偏置參數(shù)的梯度為:
[0071]
[0072] 梯度為:
[0073]
[0074] 運里的E是后面一層網(wǎng)絡(luò)傳遞過來的誤差。
[0075] 得到各層誤差相對于參數(shù)的梯度之后,可W根據(jù)學習規(guī)則,對各層參數(shù)進行更新 操作。
[0076] 更新規(guī)則為:
[0077]
[0078] 運里,0是包含該層權(quán)值和偏置的參數(shù);n為學習速率;心0為誤差相對于參數(shù)的梯 度;J(e)是關(guān)于參數(shù)的誤差函數(shù)。
[0079] 在每一次迭代訓練中,對于每一個樣本輸入,首先按照前向過程,計算每一層網(wǎng)絡(luò) 的輸出W及誤差,并向后一層網(wǎng)絡(luò)傳遞;在后向過程中,計算誤差對每一層每一個參數(shù)的梯 度,并向前一層網(wǎng)絡(luò)傳播,然后根據(jù)參數(shù)更新規(guī)則更新參數(shù)值,直到訓練結(jié)束。
[0080] 根據(jù)確定的卷積神經(jīng)網(wǎng)絡(luò)識別模型的網(wǎng)絡(luò)結(jié)構(gòu)W及各層網(wǎng)絡(luò)的參數(shù),編寫適用于 Caffe的網(wǎng)絡(luò)結(jié)構(gòu)描述文件。網(wǎng)絡(luò)結(jié)構(gòu)見圖基于卷積神經(jīng)網(wǎng)絡(luò)的生物基因性狀識別模型網(wǎng) 絡(luò)結(jié)構(gòu)。各層參數(shù)見基于卷積神經(jīng)網(wǎng)絡(luò)的生物基因性狀識別模型各層網(wǎng)絡(luò)參數(shù)表。
[0081] 對未知性狀的基因信息進行數(shù)據(jù)預處理,并輸入到已訓練好的識別模型,模型輸 出該基因信息歸屬于某一性狀的概率值,認為概率最大的性狀標簽作為待識別基因的對應 性狀,即為模型識別的結(jié)果。
[0082] 本發(fā)明所述的一種將生物基因 W特定的性狀進行分類與自我識別的方法,它采用 深度學習算法,構(gòu)建一個對生物基因信息識別并找出與對應性狀之間聯(lián)系的模型,然后使 用運個模型對未知性狀的基因信息進行識別,它具有能夠更方便及智能的進行基因的對應 性狀分類,對未知性狀的基因進行自我識別的優(yōu)點。
[0083] W上所述僅是本發(fā)明的較佳實施方式,故凡依本發(fā)明專利申請范圍所述的構(gòu)造、 特征及原理所做的等效變化或修飾,均包括于本發(fā)明專利申請范圍內(nèi)。
【主權(quán)項】
1. 一種將生物基因以特定的性狀進行分類與自我識別的方法,其特征在于:它采用如 下的技術(shù)方案: 步驟一:搭建一個適合Caff e深度學習運行的軟硬件環(huán)境; 步驟二:生物基因信息數(shù)據(jù)的準備,使其適用于Caffe的訓練數(shù)據(jù),對原始基因信息進 行預處理,預處理包括更改原始數(shù)據(jù)維數(shù),統(tǒng)一到固定大小,并歸一化; 步驟三:根據(jù)識別任務(wù)目標,采用深度學習算法構(gòu)建一個適用于生物基因性狀識別的 豐旲型; 步驟四:在Caffe運行環(huán)境上,使用準備的生物基因數(shù)據(jù),按照基因性狀識別模型描述 文件和求解描述文件對所建立的識別模型進行訓練,求解模型中各層的參數(shù),達到預期性 能停止訓練并保存各層參數(shù); 步驟五:利用建立的識別模型結(jié)合訓練得到的模型參數(shù)對未知性狀的基因信息進行識 別。2. 根據(jù)權(quán)利要求1所述的一種將生物基因以特定的性狀進行分類與自我識別的方法, 其特征在于:步驟一中搭建一個適合Caffe深度學習運行的軟硬件環(huán)境如下:硬件為一臺內(nèi) 存32GB,帶一個內(nèi)存為12GB的NVIDIA GeForce GTX Titan X獨立顯卡的服務(wù)器或更高配 置;軟件的操作系統(tǒng)為Ubuntul5.10,64位系統(tǒng),以及caff e依賴的其它第三方庫。3. 根據(jù)權(quán)利要求1所述的一種將生物基因以特定的性狀進行分類與自我識別的方法, 其特征在于:步驟二中準備的生物基因信息數(shù)據(jù)是經(jīng)過二進制字節(jié)流表示和可視化圖像轉(zhuǎn) 換后的基因信息,其基因信息數(shù)據(jù)以圖像的格式表現(xiàn);其次使用Caffe提供的convert# imageset工具將基因數(shù)據(jù)集轉(zhuǎn)化為數(shù)據(jù)庫文件,數(shù)據(jù)庫文件可以是leveldb或者lmdb,優(yōu)選 lmdb〇4. 根據(jù)權(quán)利要求3所述的一種將生物基因以特定的性狀進行分類與自我識別的方法, 其特征在于:使用Caffe提供的compute_image_mean命令對上面的數(shù)據(jù)庫文件計算基因信 息的均值,并將生成的數(shù)據(jù)拆分成訓練數(shù)據(jù)集和測試數(shù)據(jù)集。5. 根據(jù)權(quán)利要求1所述的一種將生物基因以特定的性狀進行分類與自我識別的方法, 其特征在于:步驟三的特征在于構(gòu)建一個基于Caffe深度學習算法的生物基因性狀識別模 型進行目標訓練,根據(jù)基因性狀識別任務(wù),確定基因性狀識別模型的結(jié)構(gòu)以及模型中每一 層的超參數(shù);其次,編寫適用于Caffe的模型描述文件和模型求解描述文件。6. 根據(jù)權(quán)利要求1所述的一種將生物基因以特定的性狀進行分類與自我識別的方法, 其特征在于:步驟四中:生物基因性狀識別模型的訓練,其特征是在Caffe運行環(huán)境上,使用 準備的生物基因數(shù)據(jù),按照基因性狀識別模型描述文件和求解描述文件對所建立的識別模 型進行訓練,求解模型中各層的參數(shù);在訓練過程中,利用訓練數(shù)據(jù)集采用梯度下降算法在 每一個迭代過程中更新各層參數(shù),并使用測試集對訓練完的模型進行性能評估,達到預期 性能停止訓練并保存各層參數(shù)。7. 根據(jù)權(quán)利要求1所述的一種將生物基因以特定的性狀進行分類與自我識別的方法, 其特征在于:步驟五中:利用建立的識別模型結(jié)合訓練得到的模型參數(shù)對未知性狀的基因 信息進行識別,輸入的未知性狀的基因信息需要按照步驟B進行數(shù)據(jù)準備,將原始基因信息 轉(zhuǎn)化為適用于Caffe的輸入數(shù)據(jù)。識別模型對輸入數(shù)據(jù)的輸出是一個歸屬于某一對應性狀 的概率數(shù)值,并認為概率最大的性狀標簽作為待識別基因?qū)男誀睢?br>【文檔編號】G06F19/24GK106021990SQ201610399253
【公開日】2016年10月12日
【申請日】2016年6月7日
【發(fā)明人】閆磊, 謝清祿, 余孟春
【申請人】廣州麥侖信息科技有限公司