本申請要求2014年5月30日提交的美國臨時申請第62/005,571號和2014年9月3日提交的美國臨時申請第62/045,507號的權(quán)益和優(yōu)先權(quán),所述美國臨時申請中的每一者以引用的方式并入本文中。本專利公開內(nèi)容含有受版權(quán)保護的材料。版權(quán)所有者不反對任何人傳真復(fù)制所述專利文件或?qū)@_內(nèi)容在美國專利與商標局的專利文件或記錄中出現(xiàn)的內(nèi)容,但其它方面保留任何和所有版權(quán)。本文中引用的全部專利、專利申請和公開都以全文引用的方式并入本文中。以其全文引用的這些公開的公開內(nèi)容特此以引用的方式并入本申請中,以便較充分地描述截至本文所描述發(fā)明的如本領(lǐng)域技術(shù)人員所已知的現(xiàn)有技術(shù)水平。
背景技術(shù):
::重組多肽的過度表達是當代生物化學(xué)、結(jié)構(gòu)生物學(xué)和生物技術(shù)中的中心方法。許多重組多肽在表達系統(tǒng)中產(chǎn)生時以低水平表達或根本不表達。工業(yè)應(yīng)用(如藥物發(fā)現(xiàn)和疫苗制備)經(jīng)常需要制備大量的多肽。許多類型的表達系統(tǒng)可以用以合成蛋白質(zhì),包括哺乳動物、真菌和細菌表達系統(tǒng)。然而,目標重組多肽的過度表達可能成問題,其中低表達量由不良轉(zhuǎn)錄和翻譯產(chǎn)生。重組多肽表達的這種固有限制給此類系統(tǒng)的使用帶來了一個問題,其中表達策略的目標是獲得給定重組多肽的有用表達量。盡管存在解決這種變異性的實驗和計算方法,但影響多肽表達的生理化學(xué)參數(shù)和過程仍未得到充分理解,并且重組多肽的表達仍是一個相當大的實驗挑戰(zhàn)(makrides(1996)microbiologyandmolecularbiologyreviews60:512;sorensen和mortensen(2005)journalofbiotechnology115:113-128;christen等人(2009)polypeptideexpressionandpurification)。人們需要有方法能鑒別出細胞表達系統(tǒng)中以較高概率高水平表達的多肽。人們也需要適用于增加多肽表達的方法。本發(fā)明針對的就是這些需要。技術(shù)實現(xiàn)要素:在某些方面,本發(fā)明涉及一種通過引入一個或多個同義取代重組多肽在表達系統(tǒng)中表達的方法,所述方法包含提供包含編碼所述多肽的編碼序列和包含核糖體結(jié)合位點的5'utr的核酸序列,并且其中所述5'utr功能性地連接到所述編碼序列,以及(a)在所述5'utr中引入一個或多個取代或在基本上由所述編碼序列的前48個核酸組成的頭序列中引入一個或多個同義核酸取代,其中所述5'utr中的所述一個或多個取代和所述一個或多個同義核酸取代增加對應(yīng)于所述頭序列和功能性地連接到所述編碼序列的所述5'utr的rna序列的預(yù)測折疊自由能(即,降低其折疊的穩(wěn)定性);(b)在基本上由所述頭序列下游的編碼序列組成的尾序列中引入一個或多個同義核酸取代,其中所述一個或多個同義核酸取代改變對應(yīng)于所述尾序列內(nèi)的一個或多個尾序列窗中的每一者的rna序列的預(yù)測折疊自由能,使其在約(-0.32*(w-18))kcal/mol減10kcal/mol或加5kcal/mol范圍內(nèi),其中w是所述尾序列窗中的核苷酸數(shù)目;(c)在所述頭序列的前18個核酸中引入一個或多個同義核酸取代,以便在可能時用具有更低鳥嘌呤含量或更高腺嘌呤含量的同義密碼子置換密碼子2、3、4、5和6中的每一者;(d)根據(jù)選自以下任一者的子方法優(yōu)化所述編碼序列中的密碼子:6aa方法、31c-fo方法、模型m(modelm)方法、chglir方法或blogit方法;(e)在所述編碼序列中引入一個或多個取代,以便置換由0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15個間插密碼子間隔開的相同重復(fù)密碼子對,以便將所述重復(fù)密碼子中的至少一者改變成不同同義密碼子;(f)取代所述編碼序列內(nèi)的ataata雙密碼子重復(fù)序列中的至少一個核酸,以便引入不是ataata序列的同義雙密碼子重復(fù)序列;和(g)用以a或t結(jié)束的同義密碼子取代所述編碼序列中的至少一個以g或c結(jié)束的密碼子。在某些方面,本發(fā)明涉及一種通過引入一個或多個同義取代增加重組多肽在表達系統(tǒng)中表達的方法,所述方法包含提供包含編碼所述多肽的編碼序列和包含核糖體結(jié)合位點的5'utr的核酸序列,并且其中所述5'utr功能性地連接到所述編碼序列,并且進一步包含以下中的一者或多者:(a)在所述5'utr中引入一個或多個取代或在基本上由所述編碼序列的前48個核酸組成的頭序列中引入一個或多個同義核酸取代,其中所述5'utr中的所述一個或多個取代和所述一個或多個同義核酸取代增加對應(yīng)于所述頭序列和功能性地連接到所述編碼序列的所述5'utr的rna序列的預(yù)測折疊自由能;(b)在基本上由所述頭序列下游的編碼序列組成的尾序列中引入一個或多個同義核酸取代,其中所述一個或多個同義核酸取代改變對應(yīng)于所述尾序列內(nèi)的一個或多個尾序列窗中的每一者的rna序列的預(yù)測折疊自由能,使其在約(-0.32*(w-18))kcal/mol減10kcal/mol或加5kcal/mol范圍內(nèi),其中w是所述尾序列窗中的核苷酸數(shù)目;(c)在所述頭序列的前18個核酸中引入一個或多個同義核酸取代,以便在可能時用具有更低鳥嘌呤含量或更高腺嘌呤含量的同義密碼子置換密碼子2、3、4、5和6中的每一者;(d)根據(jù)選自以下任一者的子方法優(yōu)化所述編碼序列中的密碼子:6aa方法、31c-fo方法、模型m方法、chglir方法或blogit方法;(e)在所述編碼序列中引入一個或多個取代,以便置換由0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15個間插密碼子間隔開的相同重復(fù)密碼子對,以便將所述重復(fù)密碼子中的至少一者改變成不同同義密碼子;(f)取代所述編碼序列內(nèi)的ataata雙密碼子重復(fù)序列中的至少一個核酸,以便引入不是ataata序列的同義雙密碼子重復(fù)序列;和(g)用以a或t結(jié)束的同義密碼子取代所述編碼序列中的至少一個以g或c結(jié)束的密碼子。在某些方面,本發(fā)明涉及一種通過引入一個或多個同義取代增加重組多肽在表達系統(tǒng)中表達的方法,所述方法包含提供包含編碼所述多肽的編碼序列的核酸序列,以及(a)在基本上由所述編碼序列的前48個核酸組成的頭序列中引入一個或多個取代,其中所述一個或多個同義核酸取代增加對應(yīng)于所述頭序列的rna序列的預(yù)測折疊自由能;(b)在基本上由所述頭序列下游的編碼序列組成的尾序列中引入一個或多個同義核酸取代,其中所述一個或多個同義核酸取代改變對應(yīng)于所述尾序列內(nèi)的一個或多個尾序列窗中的每一者的rna序列的預(yù)測折疊自由能,使其在約(-0.32*(w-18))kcal/mol減10kcal/mol或加5kcal/mol范圍內(nèi),其中w是所述尾序列窗中的核苷酸數(shù)目;(c)在所述頭序列的前18個核酸中引入一個或多個同義核酸取代,以便在可能時用具有更低鳥嘌呤含量或更高腺嘌呤含量的同義密碼子置換密碼子2、3、4、5和6中的每一者;(d)根據(jù)選自以下任一者的子方法優(yōu)化所述編碼序列中的密碼子:6aa方法、31c-fo方法、模型m方法、chglir方法或blogit方法;(e)在所述編碼序列中引入一個或多個取代,以便置換由0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15個間插密碼子間隔開的相同重復(fù)密碼子對,以便將所述重復(fù)密碼子中的至少一者改變成不同同義密碼子;(f)取代所述編碼序列內(nèi)的ataata雙密碼子重復(fù)序列中的至少一個核酸,以便引入不是ataata序列的同義雙密碼子重復(fù)序列;和(g)用以a或t結(jié)束的同義密碼子取代所述編碼序列中的至少一個以g或c結(jié)束的密碼子。在某些方面,本發(fā)明涉及一種通過引入一個或多個同義取代增加重組多肽在表達系統(tǒng)中表達的方法,所述方法包含提供包含編碼所述多肽的編碼序列的核酸序列,并且進一步包含以下中的一者或多者:(a)在基本上由所述編碼序列的前48個核酸組成的頭序列中引入一個或多個取代,其中所述一個或多個同義核酸取代增加對應(yīng)于所述頭序列的rna序列的預(yù)測折疊自由能;(b)在基本上由所述頭序列下游的編碼序列組成的尾序列中引入一個或多個同義核酸取代,其中所述一個或多個同義核酸取代改變對應(yīng)于所述尾序列內(nèi)的一個或多個尾序列窗中的每一者的rna序列的預(yù)測折疊自由能,使其在約(-0.32*(w-18))kcal/mol減10kcal/mol或加5kcal/mol范圍內(nèi),其中w是所述尾序列窗中的核苷酸數(shù)目;(c)在所述頭序列的前18個核酸中引入一個或多個同義核酸取代,以便在可能時用具有更低鳥嘌呤含量或更高腺嘌呤含量的同義密碼子置換密碼子2、3、4、5和6中的每一者;(d)根據(jù)選自以下任一者的子方法優(yōu)化所述編碼序列中的密碼子:6aa方法、31c-fo方法、模型m方法、chglir方法或blogit方法;(e)在所述編碼序列中引入一個或多個取代,以便置換由0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15個間插密碼子間隔開的相同重復(fù)密碼子對,以便將所述重復(fù)密碼子中的至少一者改變成不同同義密碼子;(f)取代所述編碼序列內(nèi)的ataata雙密碼子重復(fù)序列中的至少一個核酸,以便引入不是ataata序列的同義雙密碼子重復(fù)序列;和(g)用以a或t結(jié)束的同義密碼子取代所述編碼序列中的至少一個以g或c結(jié)束的密碼子。在某些實施例中,根據(jù)權(quán)利要求2或4所述的方法,其中所述方法由以下中任一者組成:步驟a;步驟b;步驟c;步驟;步驟d;步驟e;步驟f;步驟g;步驟ab;步驟ac;步驟ad;步驟ae;步驟af;步驟ag;步驟bc;步驟bd;步驟be;步驟bf;步驟bg;步驟cd;步驟ce;步驟cf;步驟cg;步驟de;步驟df;步驟dg;步驟ef;步驟eg;步驟fg;步驟abc;步驟abd;步驟abe;步驟abf;步驟abg;步驟acd;步驟ace;步驟acf;步驟acg;步驟ade;步驟adf;步驟adg;步驟aef;步驟aeg;步驟afg;步驟bcd;步驟bce;步驟bcf;步驟bcg;步驟bde;步驟bdf;步驟bdg;步驟bef;步驟beg;步驟bfg;步驟cde;步驟cdf;步驟cdg;步驟cef;步驟ceg;步驟cfg;步驟def;步驟deg;步驟dfg;步驟efg;步驟abcd;步驟abce;步驟abcf;步驟abcg;步驟abde;步驟abdf;步驟abdg;步驟abef;步驟abeg;步驟abfg;步驟acde;步驟acdf;步驟acdg;步驟acef;步驟aceg;步驟acfg;步驟adef;步驟adeg;步驟adfg;步驟aefg;步驟bcde;步驟bcdf;步驟bcdg;步驟bcef;步驟bceg;步驟bcfg;步驟bdef;步驟bdeg;步驟bdfg;步驟befg;步驟cdef;步驟cdeg;步驟cdfg;步驟cefg;步驟defg;步驟abcde;步驟abcdf;步驟abcdg;步驟abcef;步驟abceg;步驟abcfg;步驟abdef;步驟abdeg;步驟abdfg;步驟abefg;步驟acdef;步驟acdeg;步驟acdfg;步驟acefg;步驟adefg;步驟bcdef;步驟bcdeg;步驟bcdfg;步驟bcefg;步驟bdefg;步驟cdefg;步驟abcdef;步驟abcdeg;步驟abcdfg;步驟abcefg;步驟abdefg;步驟acdefg;步驟bcdefg;或步驟abcdefg。在某些實施例中,所述優(yōu)化所述編碼序列中的密碼子包含(i)用具有更高chglir斜率的同義密碼子取代所述頭序列中的至少一個密碼子;(ii)用具有更高chglir斜率的同義密碼子取代所述頭序列中的所有密碼子;(iii)用具有更低chglir斜率的同義密碼子取代所述頭序列中的至少一個密碼子并且用具有更高chglir斜率的同義密碼子取代所述頭序列中的至少一個密碼子;(iv)用具有更高blogit系數(shù)的同義密碼子取代所述頭序列中的至少一個密碼子;(v)用具有更高blogit系數(shù)的同義密碼子取代所述頭序列中的所有密碼子;(vi)用具有更低blogit系數(shù)的同義密碼子取代所述頭序列中的至少一個密碼子并且用具有更高blogit系數(shù)的同義密碼子取代所述頭序列中的至少一個密碼子;(vii)用具有更高chglir斜率的同義密碼子取代所述尾序列中的至少一個密碼子;(viii)用具有更高chglir斜率的同義密碼子取代所述尾序列中的所有密碼子;(ix)用具有更低chglir斜率的同義密碼子取代所述尾序列中的至少一個密碼子并且用具有更高chglir斜率的同義密碼子取代所述尾序列中的至少一個密碼子;(x)用具有更高blogit系數(shù)的同義密碼子取代所述尾序列中的至少一個密碼子;(xi)用具有更高blogit系數(shù)的同義密碼子取代所述尾序列中的所有密碼子;(xii)用具有更低blogit系數(shù)的同義密碼子取代所述尾序列中的至少一個密碼子并且用具有更高blogit系數(shù)的同義密碼子取代所述尾序列中的至少一個密碼子。在某些實施例中,步驟(a)的所述取代不改變所述5'utr的所述核糖體結(jié)合位點。在某些實施例中,所述核糖體結(jié)合位點是kozak序列或夏因達爾加諾(shinedalgarno)序列。在某些實施例中,所述5'utr進一步包含5'cap序列。在某些實施例中,步驟(a)的所述取代不改變所述5'cap序列。在某些實施例中,步驟(a)的所述取代不干擾對應(yīng)于所述編碼序列或所述5'utr的所述rna的功能加工。在某些實施例中,步驟(a)包含將所述預(yù)測折疊自由能增加到至少約-35kcal/mol。在某些實施例中,步驟(a)包含將預(yù)測折疊自由能增加到至少約-39kcal/mol。在某些實施例中,步驟(a)包含將預(yù)測折疊自由能增加到至少約-5kcal/mol。在某些實施例中,步驟(a)包含最大化預(yù)測折疊自由能。在某些實施例中,當所述尾序列窗在96個核酸中時,步驟(b)的所述預(yù)測折疊自由能在約-20kcal/mol到約-40kcal/mol范圍內(nèi)。在某些實施例中,所述預(yù)測折疊自由能使用默認參數(shù)對rna結(jié)構(gòu)計算。在某些實施例中,所述預(yù)測折疊自由能用unafold、viennarna、mfold、sfold、bindigo或bindigonet使用默認參數(shù)計算。在某些實施例中,步驟(a)或步驟(b)的所述一個或多個同義核酸取代選自包含以下的清單:(i)用gca密碼子取代gct密碼子,或用gct密碼子取代gca密碼子;(ii)用cga密碼子取代cgt密碼子,或用cgt密碼子取代cga密碼子;(iii)用cag密碼子取代caa密碼子,或用caa密碼子取代cga密碼子;(iv)用cac密碼子取代cat密碼子,或用cat密碼子取代cac密碼子;(v)用atc密碼子取代att密碼子,或用att密碼子取代atc密碼子;(vii)將tta密碼子取代成ttg密碼子或cta密碼子,或?qū)tg密碼子取代成tta密碼子或cta密碼子,或?qū)ta密碼子取代成tta密碼子或ttg密碼子;(viii)用cca密碼子取代cct密碼子,或用cct密碼子取代cca密碼子;(ix)用tca密碼子取代agt密碼子,或用agt密碼子取代tca密碼子;(x)用act密碼子取代aca密碼子,或用aca密碼子取代act密碼子;(xi)用gta密碼子取代gtt密碼子,或用gtt密碼子取代gta密碼子。在某些實施例中,步驟(b)的所述尾序列內(nèi)的所述一個或多個尾序列窗是重疊序列窗。在某些實施例中,步驟(b)的所述一個或多個重疊序列窗重疊25個核酸。在某些實施例中,步驟(b)的所述尾序列內(nèi)的所述一個或多個尾序列窗不重疊。在某些實施例中,步驟(b)的所述尾序列內(nèi)的所述一個或多個尾序列窗具有48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143或144個核酸的長度。在某些實施例中,步驟(b)的所述尾序列內(nèi)的所述一個或多個尾序列窗具有至少約145個核酸、至少約150個核酸、至少約160個核酸、至少約170個核酸、至少約180個核酸、至少約190個核酸、至少約200個核酸、至少約220個核酸、至少約240個核酸、至少約260個核酸、至少約280個核酸、至少約300個核酸、至少約340個核酸、至少約380個核酸、至少約420個核酸、至少約460個核酸、至少約500個核酸、至少約600個核酸、至少約700個核酸、至少約800個核酸、至少約900個核酸、至少約1000個或更多個核酸的長度。在某些實施例中,步驟(b)的所述尾序列內(nèi)的所述一個或多個尾序列窗具有47個或更少個核酸的長度。在某些實施例中,步驟(b)的所述尾序列內(nèi)的所述一個或多個尾序列窗具有145個或更多個核酸的長度。在某些實施例中,所述6aa方法包含:(i)將所述編碼序列中編碼精氨酸殘基的所有密碼子改變成cgt;(ii)將所述編碼序列中編碼天冬氨酸的所有密碼子改變成gat;(iii)將所述編碼序列中編碼谷氨酰胺的所有密碼子改變成caa;(iv)將所述編碼序列中編碼谷氨酸的所有密碼子改變成gaa;(v)將所述編碼序列中編碼組氨酸殘基的所有密碼子改變成cat;和(vi)將所述編碼序列中編碼異亮氨酸的所有密碼子改變成att。在某些實施例中,所述6aa方法包含以下中任一者:(i)將所述編碼序列中編碼精氨酸殘基的任何密碼子中的至少一者改變成cgt;(ii)將所述編碼序列中編碼天冬氨酸的任何密碼子中的至少一者改變成gat;(iii)將所述編碼序列中編碼谷氨酰胺的任何密碼子中的至少一者改變成caa;(iv)將所述編碼序列中編碼谷氨酸的任何密碼子中的至少一者改變成gaa;(v)將所述編碼序列中編碼組氨酸殘基的任何密碼子中的至少一者改變成cat;或(vi)將所述編碼序列中編碼異亮氨酸的任何密碼子中的至少一者改變成att。在某些實施例中,所述31c-fo方法包含用具有更高二元邏輯回歸斜率的同義密碼子取代至少一個密碼子。在某些實施例中,所述31c-fo方法包含用具有更高二元邏輯回歸斜率的同義密碼子取代所有密碼子。在某些實施例中,所述31c-fo方法包含用具有更低二元邏輯回歸斜率的同義密碼子取代至少一個密碼子并且用具有更高二元邏輯回歸斜率的同義密碼子取代至少一個密碼子。在某些實施例中,所述31c-fo方法包含用具有更高序數(shù)邏輯回歸斜率的同義密碼子取代至少一個密碼子。在某些實施例中,所述31c-fo方法包含用具有更高序數(shù)邏輯回歸斜率的同義密碼子取代所有密碼子。在某些實施例中,所述31c-fo方法包含用具有更低序數(shù)邏輯回歸斜率的同義密碼子取代至少一個密碼子并且用具有更高序數(shù)邏輯回歸斜率的同義密碼子取代至少一個密碼子。在某些實施例中,所述31c-fo方法包含以下中任一者:(i)將所述編碼序列中編碼丙氨酸的任何密碼子中的至少一者改變成gct或gca;(ii)將所述編碼序列中編碼精氨酸的任何密碼子中的至少一者改變成cgt或cga;(iii)將所述編碼序列中編碼天冬酰胺的任何密碼子中的至少一者改變成aat;(iv)將所述編碼序列中編碼天冬氨酸的任何密碼子中的至少一者改變成gat;(v)將所述編碼序列中編碼半胱氨酸的任何密碼子中的至少一者改變成tgt;(vi)將所述編碼序列中編碼谷氨酰胺的任何密碼子中的至少一者改變成caa或cag;(vii)將所述編碼序列中編碼谷氨酸的任何密碼子中的至少一者改變成gaa;(viii)將所述編碼序列中編碼甘氨酸的任何密碼子中的至少一者改變成ggt;(ix)將所述編碼序列中編碼組氨酸的任何密碼子中的至少一者改變成cat或cac;(x)將所述編碼序列中編碼異亮氨酸的任何密碼子中的至少一者改變成att或atc;(xi)將所述編碼序列中編碼亮氨酸的任何密碼子中的至少一者改變成tta、ttg或cta中任一者;(xii)將所述編碼序列中編碼賴氨酸的任何密碼子中的至少一者改變成aaa;(xiii)將所述編碼序列中編碼甲硫氨酸的任何密碼子中的至少一者改變成atg;(xiv)將所述編碼序列中編碼苯丙氨酸的任何密碼子中的至少一者改變成ttt;(xv)將所述編碼序列中編碼脯氨酸的任何密碼子中的至少一者改變成cct或cca;(xvi)將所述編碼序列中編碼絲氨酸的任何密碼子中的至少一者改變成agt或tca;(xvii)將所述編碼序列中編碼蘇氨酸的任何密碼子中的至少一者改變成aca或act;(xviii)將所述編碼序列中編碼色氨酸的任何密碼子中的至少一者改變成tgg;(xix)將所述編碼序列中編碼酪氨酸的任何密碼子中的至少一者改變成tat;或(xx)將所述編碼序列中編碼纈氨酸的任何密碼子中的至少一者改變成gtt或gta。在某些實施例中,所述31c-fo方法包含(i)將所述編碼序列中編碼丙氨酸的所有密碼子改變成gct或gca;(ii)將所述編碼序列中編碼精氨酸的所有密碼子改變成cgt或cga;(iii)將所述編碼序列中編碼天冬酰胺的所有密碼子改變成aat;(iv)將所述編碼序列中編碼天冬氨酸的所有密碼子改變成gat;(v)將所述編碼序列中編碼半胱氨酸的所有密碼子改變成tgt;(vi)將所述編碼序列中編碼谷氨酰胺的所有密碼子改變成caa或cag;(vii)將所述編碼序列中編碼谷氨酸的所有密碼子改變成gaa;(viii)將所述編碼序列中編碼甘氨酸的所有密碼子改變成ggt;(ix)將所述編碼序列中編碼組氨酸的所有密碼子改變成cat或cac;(x)將所述編碼序列中編碼異亮氨酸的所有密碼子改變成att或atc;(xi)將所述編碼序列中編碼亮氨酸的所有密碼子改變成tta、ttg或cta中任一者;(xii)將所述編碼序列中編碼賴氨酸的所有密碼子改變成aaa;(xiii)將所述編碼序列中編碼甲硫氨酸的所有密碼子改變成atg;(xiv)將所述編碼序列中編碼苯丙氨酸的所有密碼子改變成ttt;(xv)將所述編碼序列中編碼脯氨酸的所有密碼子改變成cct或cca;(xvi)將所述編碼序列中編碼絲氨酸的所有密碼子改變成agt或tca;(xvii)將所述編碼序列中編碼蘇氨酸的所有密碼子改變成aca或act;(xviii)將所述編碼序列中編碼色氨酸的所有密碼子改變成tgg;(xix)將所述編碼序列中編碼酪氨酸的所有密碼子改變成tat;和(xx)將所述編碼序列中編碼纈氨酸的所有密碼子改變成gtt或gta。在某些實施例中,所述模型m方法包含以下中任一者:(i)進行同義密碼子改變,所述改變增加模型m的等式的值θ=4.38+0.0451guh+23.6/<gt>96-0.00117l-489/l+6.55ah-6.30ah2+0.753u3h-1.85gh2-1.50(guh*<--9)(gch>10/15)-11.7r-1.82i+0.077s7-16+0.059s17-32+0.878∑cβcfc,(ii)增加關(guān)于所述編碼序列中密碼子6下游的某一組密碼子計算的chglir斜率的平均值;(iii)增加關(guān)于所述編碼序列中密碼子6下游的所有密碼子計算的chglir斜率的平均值;(iv)增加關(guān)于所述編碼序列中密碼子6下游的某一組密碼子計算的chglir斜率的平均值;(v)增加關(guān)于所述編碼序列中密碼子6下游的所有密碼子計算的chglir斜率的平均值。在某些實施例中,本文所描述方法可以用于針對蛋白質(zhì)于任何生物體中的表達而優(yōu)化基因序列。在某些實施例中,用以產(chǎn)生模型“m”或其衍生物的計算方法的輸出可以應(yīng)用于所述生物體的蛋白質(zhì)表達譜數(shù)據(jù)或mrna分布數(shù)據(jù)。在某些實施例中,所述blogit方法包含以下中任一者:(i)增加關(guān)于所述編碼序列中密碼子6下游的所有密碼子計算的blogit斜率的平均值;(ii)增加關(guān)于所述編碼序列中密碼子6下游的某一組密碼子計算的blogit斜率的平均值;或(iii)增加關(guān)于所述編碼序列中密碼子6下游的所有密碼子計算的blogit斜率的平均值。在某些實施例中,所述blogit方法包含(i)將所述編碼序列中密碼子6下游的編碼丙氨酸的所有密碼子改變成gct或gca;(ii)將所述編碼序列中密碼子6下游的編碼精氨酸的所有密碼子改變成cgt或cga;(iii)將所述編碼序列中密碼子6下游的編碼天冬酰胺的所有密碼子改變成aat;(iv)將所述編碼序列中密碼子6下游的編碼天冬氨酸的所有密碼子改變成gat;(v)將所述編碼序列中密碼子6下游的編碼半胱氨酸的所有密碼子改變成tgt;(vi)將所述編碼序列中密碼子6下游的編碼谷氨酰胺的所有密碼子改變成caa或cag;(vii)將所述編碼序列中密碼子6下游的編碼谷氨酸的所有密碼子改變成gaa;(viii)將所述編碼序列中密碼子6下游的編碼甘氨酸的所有密碼子改變成ggt;(ix)將所述編碼序列中密碼子6下游的編碼組氨酸的所有密碼子改變成cat或cac;(x)將所述編碼序列中密碼子6下游的編碼異亮氨酸的所有密碼子改變成att或atc;(xi)將所述編碼序列中密碼子6下游的編碼亮氨酸的所有密碼子改變成tta、ttg或cta中任一者;(xii)將所述編碼序列中密碼子6下游的編碼賴氨酸的所有密碼子改變成aaa;(xiii)將所述編碼序列中密碼子6下游的編碼甲硫氨酸的所有密碼子改變成atg;(xiv)將所述編碼序列中密碼子6下游的編碼苯丙氨酸的所有密碼子改變成ttt;(xv)將所述編碼序列中密碼子6下游的編碼脯氨酸的所有密碼子改變成cct或cca;(xvi)將所述編碼序列中密碼子6下游的編碼絲氨酸的所有密碼子改變成agt或tca;(xvii)將所述編碼序列中密碼子6下游的編碼蘇氨酸的所有密碼子改變成aca或act;(xviii)將所述編碼序列中密碼子6下游的編碼色氨酸的所有密碼子改變成tgg;(xix)將所述編碼序列中密碼子6下游的編碼酪氨酸的所有密碼子改變成tat;和(xx)將所述編碼序列中密碼子6下游的編碼纈氨酸的所有密碼子改變成gtt或gta;(xxi)用ctc密碼子、ctg密碼子或可能tta密碼子取代至少一個編碼亮氨酸殘基的密碼子;(xxii)用att密碼子或可能atc密碼子取代至少一個編碼異亮氨酸殘基的密碼子;(xxiii)用gaa密碼子取代至少一個編碼谷氨酸殘基的密碼子;或(xxiv)用gat密碼子取代至少一個編碼天冬氨酸殘基的密碼子。在某些實施例中,所述chglir方法包含用具有更高chglir斜率的同義密碼子取代至少一個密碼子。在某些實施例中,所述chglir方法包含用具有更高chglir斜率的同義密碼子取代所有密碼子。在某些實施例中,所述chglir方法包含用具有更低chglir斜率的同義密碼子取代至少一個密碼子并且用具有更高chglir斜率的同義密碼子取代至少一個密碼子。在某些實施例中,所述chglir方法包含:(i)用gcg密碼子取代至少一個編碼丙氨酸殘基的密碼子;(ii)用cgc密碼子、aga密碼子或agg密碼子取代至少一個編碼精氨酸殘基的密碼子;(iii)用caa密碼子取代至少一個編碼谷氨酰胺殘基的密碼子;(iv)用ttt密碼子取代至少一個編碼苯丙氨酸殘基的密碼子;(v)用ccg密碼子或ccc密碼子取代至少一個編碼脯氨酸殘基的密碼子;(vi)用agc密碼子或tca密碼子取代至少一個編碼絲氨酸殘基的密碼子;(vii)用aca密碼子或acc密碼子取代至少一個編碼蘇氨酸殘基的密碼子;(viii)用tat密碼子取代至少一個編碼酪氨酸殘基的密碼子;(ix)用gtt密碼子、gtg密碼子或gta密碼子取代至少一個編碼纈氨酸殘基的密碼子;(x)用ctc密碼子、ctg密碼子或可能tta密碼子取代至少一個編碼亮氨酸殘基的密碼子;(xi)用att密碼子或可能atc密碼子取代至少一個編碼異亮氨酸殘基的密碼子;(xii)用gaa密碼子取代至少一個編碼谷氨酸殘基的密碼子;(xiii)用cat密碼子取代至少一個編碼組氨酸殘基的密碼子;(xiv)用gat密碼子取代至少一個編碼天冬氨酸殘基的密碼子;(xv)用aac密碼子取代至少一個編碼天冬酰胺殘基的密碼子;或(xvi)用gga或ggt密碼子取代至少一個編碼甘氨酸殘基的密碼子。在某些實施例中,所述chglir方法包含:(i)用gcg密碼子取代編碼丙氨酸殘基的所有密碼子;(ii)用cgc密碼子、aga密碼子或agg密碼子取代編碼精氨酸殘基的所有密碼子;(iii)用caa密碼子取代編碼谷氨酰胺殘基的所有密碼子;(iv)用ttt密碼子取代編碼苯丙氨酸殘基的所有密碼子;(v)用ccg密碼子或ccc密碼子取代編碼脯氨酸殘基的所有密碼子;(vi)用agc密碼子或tca密碼子取代編碼絲氨酸殘基的所有密碼子;(vii)用aca密碼子或acc密碼子取代編碼蘇氨酸殘基的所有密碼子;(viii)用tat密碼子取代編碼酪氨酸殘基的所有密碼子;(ix)用gtt密碼子、gtg密碼子或gta密碼子取代編碼纈氨酸殘基的所有密碼子;(x)用ctc密碼子、ctg密碼子或可能tta密碼子取代至少一個編碼亮氨酸殘基的密碼子;(xi)用att密碼子或可能atc密碼子取代至少一個編碼異亮氨酸殘基的密碼子;(xii)用gaa密碼子取代至少一個編碼谷氨酸殘基的密碼子;(xiii)用cat密碼子取代至少一個編碼組氨酸殘基的密碼子;(xiv)用gat密碼子取代至少一個編碼天冬氨酸殘基的密碼子;(xv)用aac密碼子取代至少一個編碼天冬酰胺殘基的密碼子;或(xvi)用gga或ggt密碼子取代至少一個編碼甘氨酸殘基的密碼子。在某些實施例中,所述blogit方法包含用具有更高blogit系數(shù)的同義密碼子取代至少一個密碼子。在某些實施例中,所述blogit方法包含用具有更高blogit系數(shù)的同義密碼子取代所有密碼子。在某些實施例中,所述blogit方法包含用具有更低blogit系數(shù)的同義密碼子取代至少一個密碼子并且用具有更高blogit系數(shù)的同義密碼子取代至少一個密碼子。在某些實施例中,所述blogit方法包含:(i)用gct密碼子取代編碼丙氨酸殘基的所有密碼子,或用選自以下的取代來取代編碼丙氨酸殘基的所有密碼子:gcc到gcg、gca或gct中任一者;gcg到gca或gct;或gca到gct;(ii)用aat密碼子取代編碼天冬酰胺殘基的所有密碼子;(iii)用cgt密碼子取代編碼精氨酸殘基的所有密碼子,或用選自以下的取代來取代編碼精氨酸殘基的所有密碼子:cgg到agg、cgc、aga、cga或cgt中任一者;agg到cgc、aga、cga或cgt中任一者;cgc到aga、cga或cgt中任一者;aga到cga或cgt;或cga到cgt;(iv)用gat密碼子取代編碼天冬氨酸殘基的所有密碼子;(v)用tgt密碼子取代編碼半胱氨酸殘基的所有密碼子;(vi)用caa密碼子取代編碼谷氨酰胺殘基的所有密碼子;(vii)用gaa密碼子取代編碼谷氨酸殘基的所有密碼子;(viii)用ggt密碼子取代編碼甘氨酸殘基的所有密碼子,或用選自以下的取代來取代編碼甘氨酸殘基的所有密碼子:ggg到ggc、gga或ggt中任一者;ggc到gga或ggt;或gga到ggt;(ix)用cat密碼子取代編碼組氨酸殘基的所有密碼子;(x)用att密碼子取代編碼異亮氨酸殘基的所有密碼子,或用選自以下的取代來取代編碼異亮氨酸殘基的所有密碼子:ata到atc或att;或atc到att;(xi)用tta密碼子取代編碼亮氨酸殘基的所有密碼子,或用選自以下的取代來取代編碼亮氨酸殘基的所有密碼子:ctc到ctg、cta、ctt、ttg或tta中任一者;ctg到cta、ctt、ttg或tta中任一者;cta到ctt、ttg或tta中任一者;ctt到ttg或tta;或ttg到tta;(xii)用aaa密碼子取代編碼賴氨酸殘基的所有密碼子;(xiii)用ttt密碼子取代編碼苯丙氨酸殘基的所有密碼子;(xiv)用cca密碼子取代編碼脯氨酸殘基的所有密碼子,或用選自以下的取代來取代編碼脯氨酸殘基的所有密碼子:ccc到ccg、cct或cca中任一者;ccg到cct或cca;或cct到cca;(xv)用tca密碼子取代編碼絲氨酸殘基的所有密碼子,或用選自以下的取代來取代編碼絲氨酸殘基的所有密碼子:tcc到tcg、agc、tct、agt或tca中任一者;tcg到agc、tct、agt或tca中任一者;agc到tct、agt或tca中任一者;tct到agt或tca;或agt到tca;(xvi)用aca密碼子取代編碼蘇氨酸殘基的所有密碼子,或用選自以下的取代來取代編碼蘇氨酸殘基的所有密碼子:acc到acg、act或aca中任一者;acg到act或aca;或act到aca;(xvii)用tat密碼子取代編碼酪氨酸殘基的所有密碼子;(xviii)用gta密碼子取代編碼纈氨酸殘基的所有密碼子,或用選自以下的取代來取代編碼纈氨酸殘基的所有密碼子:gtg到gtc、gtt或gta中任一者;gtc到gtt或gta;或gtt到gta;和(xviii)用tga密碼子取代編碼終止密碼子的所有密碼子,或用選自以下的取代來取代編碼終止密碼子的所有密碼子:tag到taa或tga;或taa到tga。在某些實施例中,步驟(e)包含:(i)將所述編碼序列中的gctgct重復(fù)密碼子改變成gctgca或gcagct序列;(ii)將所述編碼序列中的gcagca重復(fù)密碼子改變成gctgca或gcagct序列;(iii)將所述編碼中的cgtcgt重復(fù)密碼子改變成cgtcga或cgacgt序列;(iv)將所述編碼中的cgacga重復(fù)密碼子改變成cgtcga或cgacgt序列;(v)將所述編碼中的caacaa重復(fù)密碼子改變成caacag或cagcaa序列;(vi)將所述編碼中的cagcag重復(fù)密碼子改變成caacag或cagcaa序列;(vii)將所述編碼中的catcat重復(fù)密碼子改變成catcac或caccat序列;(viii)將所述編碼中的caccac重復(fù)密碼子改變成catcac或caccat序列;(ix)將所述編碼中的attatt重復(fù)密碼子改變成attatc或atcatt序列;(x)將所述編碼中的atcatc重復(fù)密碼子改變成attatc或atcatt序列;(xi)將所述編碼中的ttatta重復(fù)密碼子改變成ttattg、ttacta、ttgtta、ttgcta、ctatta或ctattg序列中任一者;(xii)將所述編碼中的ttgttg重復(fù)密碼子改變成ttattg、ttacta、ttgtta、ttgcta、ctatta或ctattg序列中任一者;(xiii)將所述編碼中的ctacta重復(fù)密碼子改變成ttattg、ttacta、ttgtta、ttgcta、ctatta或ctattg序列中任一者;(xiv)將所述編碼中的cctcct重復(fù)密碼子改變成cctcca或ccacct序列;(xv)將所述編碼中的ccacca重復(fù)密碼子改變成cctcca或ccacct序列;(xvi)將所述編碼中的agtagt重復(fù)密碼子改變成agttca或tcaagt序列;(xvii)將所述編碼中的tcatca重復(fù)密碼子改變成agttca或tcaagt序列;(xviii)將所述編碼中的acaaca重復(fù)密碼子改變成acaact或actaca序列;(xix)將所述編碼中的actact重復(fù)密碼子改變成acaact或actaca序列;(xx)將所述編碼中的gttgtt重復(fù)密碼子改變成gttgta或gtagtt序列;或(xxi)將所述編碼中的gtagta重復(fù)密碼子改變成gttgta或gtagtt序列。在某些實施例中,步驟(e)包含:(i)在第一與第二gct密碼子由一到五個間插密碼子間隔開時,用gca密碼子置換所述第一或第二gct密碼子;(ii)在第一與第二gca密碼子由一到五個間插密碼子間隔開時,用gct密碼子置換所述第一或第二gca密碼子;(iii)在第一與第二cgt密碼子由一到五個間插密碼子間隔開時,用cga密碼子置換所述第一或第二cgt密碼子;(iv)在第一與第二cga密碼子由一到五個間插密碼子間隔開時,用gct密碼子置換所述第一或第二cga密碼子;(v)在第一與第二caa密碼子由一到五個間插密碼子間隔開時,用cag密碼子置換所述第一或第二caa密碼子;(vi)在第一與第二cag密碼子由一到五個間插密碼子間隔開時,用caa密碼子置換所述第一或第二cag密碼子;(vii)在第一與第二cat密碼子由一到五個間插密碼子間隔開時,用cac密碼子置換所述第一或第二cat密碼子;(viii)在第一與第二cac密碼子由一到五個間插密碼子間隔開時,用cat密碼子置換所述第一或第二cac密碼子;(ix)在第一與第二att密碼子由一到五個間插密碼子間隔開時,用atc密碼子置換所述第一或第二att密碼子;(x)在第一與第二atc密碼子由一到五個間插密碼子間隔開時,用att密碼子置換所述第一或第二atc密碼子;(xi)在第一與第二tta密碼子由一到五個間插密碼子間隔開時,用ttg密碼子或cta密碼子置換所述第一或第二tta密碼子;(xii)在第一與第二ttg密碼子由一到五個間插密碼子間隔開時,用tta密碼子或cta密碼子置換所述第一或第二ttg密碼子;(xiii)在第一與第二cta密碼子由一到五個間插密碼子間隔開時,用tta密碼子或ttg密碼子置換所述第一或第二cta密碼子;(xiv)在第一與第二cct密碼子由一到五個間插密碼子間隔開時,用cca密碼子置換所述第一或第二cct密碼子;(xv)在第一與第二cca密碼子由一到五個間插密碼子間隔開時,用cct密碼子置換所述第一或第二cca密碼子;(xvi)在第一與第二agt密碼子由一到五個間插密碼子間隔開時,用tca密碼子置換所述第一或第二agt密碼子;(xvii)在第一與第二tca密碼子由一到五個間插密碼子間隔開時,用agt密碼子置換所述第一或第二tca密碼子;(xviii)在第一與第二aca密碼子由一到五個間插密碼子間隔開時,用act密碼子置換所述第一或第二aca密碼子;(xix)在第一與第二act密碼子由一到五個間插密碼子間隔開時,用aca密碼子置換所述第一或第二act密碼子;(xx)在第一與第二gtt密碼子由一到五個間插密碼子間隔開時,用gta密碼子置換所述第一或第二gtt密碼子;或(xxi)在第一與第二gta密碼子由一到五個間插密碼子間隔開時,用gtt密碼子置換所述第一或第二gta密碼子。在某些實施例中,所述編碼序列功能性地連接到5'utr。在某些實施例中,所述編碼序列功能性地連接到3'utr。在某些實施例中,所述核酸是rna序列。在某些實施例中,所述包含編碼所述多肽的編碼序列的核酸序列是細菌序列。在某些實施例中,所述包含編碼所述多肽的編碼序列的核酸序列是古細菌序列。在某些實施例中,所述包含編碼所述多肽的編碼序列的核酸序列是真核序列。在某些實施例中,所述包含編碼所述多肽的編碼序列的核酸序列是合成來源的序列。在某些實施例中,所述表達系統(tǒng)是體外表達系統(tǒng)。在某些實施例中,所述表達系統(tǒng)是細菌表達系統(tǒng)。在某些實施例中,所述表達系統(tǒng)是真核表達系統(tǒng)。在某些實施例中,所述體外表達系統(tǒng)是無細胞轉(zhuǎn)錄/翻譯系統(tǒng)。在某些實施例中,所述表達系統(tǒng)是體內(nèi)表達系統(tǒng)。在某些實施例中,所述體內(nèi)表達系統(tǒng)是細菌表達系統(tǒng)或真核表達系統(tǒng)。在某些實施例中,體內(nèi)表達系統(tǒng)是大腸桿菌(e.coli)細胞。在某些實施例中,所述體內(nèi)表達系統(tǒng)是哺乳動物細胞。在某些實施例中,所述重組多肽是人類多肽或其片段。在某些實施例中,所述重組多肽是病毒多肽或其片段。在某些實施例中,所述重組多肽是抗體、抗體片段、抗體衍生物、雙功能抗體、三功能抗體、四功能抗體、抗體二聚體、抗體三聚體或微抗體。在某些實施例中,所述抗體片段是fab片段、fab'片段、f(ab)2片段、fd片段、fv片段或scfv片段。在某些實施例中,所述重組多肽是細胞因子、炎癥分子、生長因子、細胞因子受體、炎癥分子受體、生長因子受體、致癌基因產(chǎn)物或其任何片段。在某些方面,本發(fā)明涉及一種根據(jù)本文所描述方法產(chǎn)生的重組多肽。在某些方面,本發(fā)明涉及一種藥物組合物,其包含根據(jù)本文所描述方法產(chǎn)生的重組多肽。在某些方面,本發(fā)明涉及一種免疫原性組合物,其包含根據(jù)本文所描述方法產(chǎn)生的重組多肽。附圖說明圖1展示了含有5'-utr加編碼序列的前50個堿基的計算窗。圖2展示了與多肽表達水平相關(guān)的折疊能閾值。圖3展示了由“100%一致”標靶的表達值分區(qū)的自由能(載體50相較于50)。圖4展示了pet21+前50個核苷酸的rna折疊能。圖5展示了前50個核苷酸的rna折疊能。圖6展示了pet21+50堿基的e5/e0比。圖7展示了前50個核苷酸的e5/e0比。圖8展示了滑動窗的e5/e0比。圖9a-9j展示了大規(guī)模數(shù)據(jù)集中的不同蛋白質(zhì)表達類別中的代表性rna序列參數(shù)的分布。圖9a和圖9b是展示兩種glu密碼子(圖9a中的gaa和圖9b中的gag)的頻率的直方圖。圖9c和圖9d是展示兩種ile密碼子(圖9c中的auu和圖9d中的aua)的頻率的直方圖。圖9f是展示表達載體的5'-utr加每個基因的初始16個密碼子或“頭端”中的配分函數(shù)折疊自由能(δguh)的直方圖。圖9g是展示每個基因的剩余部分或“尾端”中在具有長度w的寬度的50%重疊窗中的平均配分函數(shù)折疊自由能(<δgt>96)的直方圖。圖9i是展示核苷酸中的蛋白質(zhì)編碼序列長度的直方圖。e=0和e=5類別中的參數(shù)分布分別以淺色和深色展示,而e=1-4區(qū)段中的參數(shù)以灰色陰影展示。圖9e、9h和9j展示了參數(shù)值的區(qū)段中e5相較于e0類別中的蛋白質(zhì)數(shù)目比的對數(shù)的“對數(shù)優(yōu)勢”曲線圖。實線展示了單一變量二元邏輯回歸(即,數(shù)據(jù)以此形式的線性最小二乘擬合)的結(jié)果,其得出圖11b中展示的密碼子斜率值。圖10展示了對于在位置3-96處在其編碼序列中由指定核苷酸堿基編碼的蛋白質(zhì),e5相較于e0類別中的蛋白質(zhì)數(shù)目比的對數(shù)。g、c、a和u分別代表鳥嘌呤、胞苷、腺嘌呤和尿嘧啶堿基。位置從aug起始密碼子的a開始編號?;疑摼€指示受70s起始復(fù)合物中的核糖體保護的近似區(qū)域。圖11a-11e展示了大規(guī)模數(shù)據(jù)集中的密碼子對蛋白質(zhì)表達的影響。圖11a展示了e=0加e=5類別(深灰色)和e=0-5類別(淺灰色)中的基因中的每種非終止密碼子的頻率的曲線圖。誤差條代表頻率分布的樣本方差。圖11b展示了e=0相較于e=5類別中的蛋白質(zhì)的單一參數(shù)二元邏輯回歸分析(深灰色)、e=0-5類別中的蛋白質(zhì)的單一參數(shù)序數(shù)邏輯回歸分析(淺灰色)和圖34a-34b中的模型m的e=0相較于e=5類別中的蛋白質(zhì)的同時多參數(shù)二元邏輯回歸分析(彩色標志)的每種非終止密碼子的斜率。藍色標志代表堿性殘基,紅色標志代表酸性殘基,洋紅色標志代表極性不帶電殘基,深綠色標志代表疏水性殘基,淺綠色標志代表甘氨酸和脯氨酸殘基,橙色標志代表甲硫氨酸,并且黃色標志代表半胱氨酸。星形(★)代表β-支鏈的殘基,六角形代表芳香族殘基,圓形代表脯氨酸(●),并且三角形(δ)代表所有其它殘基。圖11c、11d和11e展示了相對于大腸桿菌bl21的基因組中的密碼子使用頻率(圖11c)、相應(yīng)氨基酸的kyte-doolittle疏水性(圖11d)和密碼子中的三個位置中每一者處的核苷酸堿基(圖11e)繪制的多參數(shù)二元邏輯回歸分析的密碼子斜率。圖12展示了將針對其對同義密碼子使用效應(yīng)的影響進行評估的代表性候選基因。這些非必需基因的基因敲除株可在由耶魯大學(xué)(yaleuniversity)的大腸桿菌遺傳儲備中心(e.coligeneticstockcenter)分支的keiocollection獲得?;蛎Q之后圓括號中的數(shù)值給出了相應(yīng)基因敲除株于lb液體培養(yǎng)基中的對數(shù)期生長速率,表示為匹配的野生型株在相同條件下的速率的分數(shù)。圖13a-13d展示了經(jīng)設(shè)計以增強蛋白質(zhì)表達的合成基因表達的實驗評估。圖13a-13d展示了低效翻譯的天然(wt)基因與在頭端或尾端或這兩者中使用6aa、31c折疊優(yōu)化(31c-fo)或31c折疊去優(yōu)化(31c-fd)方法重新設(shè)計的同義基因的體內(nèi)和體外表達特性的比較。頭端中的序列類型(下標h)與尾端中的序列類型(下標t)分開指示,并且目的蛋白的名稱在每一行上在左側(cè)指示。體內(nèi)實驗的未經(jīng)誘導(dǎo)的對照標記為“n.ind.”。圖13a展示了在時間零點誘導(dǎo)標靶基因之后在室溫下的大腸桿菌bl21(de3)宿主細胞生長曲線。圖13b展示了全細胞在18℃下過夜誘導(dǎo)之后的考馬斯藍(coomasieblue)染色的sds-page凝膠。在收集時將每個泳道中負載的量針對培養(yǎng)物的od600標準化。具有分子量標記的最左側(cè)泳道中的黑色箭頭指示目的蛋白的遷移位置。圖13c展示了在[35s]-甲硫氨酸存在下使用完全純化的翻譯組件的體外翻譯反應(yīng)的sds-page凝膠的放射自顯影圖。每個反應(yīng)含有等量的使用t7rna聚合酶體外轉(zhuǎn)錄的經(jīng)純化mrna。與目的蛋白相比在更高分子量下的條帶代表抗sds寡聚物。圖13d展示了在誘導(dǎo)體內(nèi)表達之后對目的蛋白的mrna的rna印跡(northernblot)分析。等量的總rna負載于每個泳道中,并且印跡用匹配5'utr的探針進行雜交。圖14展示了邏輯回歸分析的密碼子影響與大腸桿菌中的內(nèi)源mrna和蛋白質(zhì)水平兩者之間的相關(guān)性。關(guān)于大腸桿菌中的所有基因計算密碼子影響(圖11a中展示的邏輯回歸斜率)的平均值,所述基因根據(jù)此值進行分區(qū)。對于每個所得區(qū)段,曲線圖展示了對化學(xué)成分確定的液體培養(yǎng)基中生長的對數(shù)期大腸桿菌細胞進行的先前基因組規(guī)模體內(nèi)分布研究中觀察到的頂部相較于底部三分之一水平中基因/蛋白質(zhì)的數(shù)目比的自然對數(shù)。青色、洋紅色和紅色跡線分別展示了mrna濃度的微陣列分析、mrna序列核糖體占用的深度測序分析和蛋白質(zhì)濃度的質(zhì)譜分析的數(shù)據(jù)。左側(cè)上的曲線圖展示了大腸桿菌基因組中編碼的所有蛋白質(zhì)的數(shù)據(jù),而右側(cè)上的曲線圖限于由程序lipop預(yù)測局限于細胞溶質(zhì)中的蛋白質(zhì)。圖15展示了大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集中存在的蛋白質(zhì)的系統(tǒng)發(fā)生分布。進化分支圖中的色彩編碼來自每種生物體的蛋白質(zhì)的數(shù)目,如由圖例指示。數(shù)據(jù)集包括來自真核生物的47種(來自人類的45種和來自小鼠的2種)、來自古細菌的809種和來自大腸桿菌的96種,剩余部分來自其它真細菌。向數(shù)據(jù)集貢獻最大數(shù)目蛋白質(zhì)的生物體是真細菌多形擬桿菌(bacteroidesthetaiotaomicron)(150種蛋白質(zhì))。圖16a-16j展示了大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集中的額外mrna序列參數(shù)在不同表達水平下的分布。參數(shù)分布由數(shù)據(jù)集中所包括的6,348個基因計算。圖16a是展示總g+c頻率的直方圖,圖16g是展示所有閱讀框中agga序列頻率的直方圖,并且圖16i是展示密碼子重復(fù)率r頻率的直方圖。e=0和e=5類別中的參數(shù)分布分別以深藍色和淺藍色展示于圖16a中,并且分別以紅色和黑色展示于圖16g和圖16i中。對于每個圖,用于中間表達得分的直方圖的標志指示于圖例中。圖16b-16f、16h和圖16j展示了參數(shù)值的區(qū)段中e5相較于e0類別中的蛋白質(zhì)數(shù)目比的對數(shù)。圖16b展示了四種個別核苷酸堿基的總頻率以及組合g+c頻率(標記為gc)的數(shù)據(jù),而圖16c-16e分別單獨地展示了基因中的密碼子的第1、第2和第3位置的等效數(shù)據(jù)。圖16f展示了不含有或含有至少出現(xiàn)一次的ata·ata雙密碼子的基因的數(shù)據(jù)。此圖中的誤差條代表從靴帶式(bootstrapping)計算的95%置信界限(不出現(xiàn)任何此雙密碼子的基因的誤差條小于標志的大小)。圖16j展示了密碼子重復(fù)率r的數(shù)據(jù)。圖17a-17c展示了大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集中所包括的基因的序列參數(shù)之間的相關(guān)性。corrgram代表了數(shù)據(jù)集中所包括的基因的不同mrna序列參數(shù)之間的帶正負號的皮爾遜相關(guān)系數(shù)(pearsoncorrelationcoefficient)。色彩編碼示意性地定義于圖17a的左側(cè),藍色用于正相關(guān)變量,紅色用于負相關(guān)變量,并且白色用于不相關(guān)變量。在圖17a中,e代表二元類別(0,5)中的表達得分,s全部代表整個基因(不具有l(wèi)ehhhhh標簽)內(nèi)新密碼子影響度量值(圖11b中的彩色標志)的平均值,s7-16和s17-32分別代表密碼子7-16和17-32的此度量值的平均值,δguh代表pet21表達載體的5'-utr加基因中的前48個核苷酸的預(yù)測mrna折疊自由能,<δgt>96代表基因的剩余部分中96個核苷酸的50%重疊窗中的預(yù)測折疊自由能的平均值,i代表在(δguh<-39kcal/mol)和(%gc2-6>0.65)時假定0或1的值的指示變量,daua在至少出現(xiàn)一次ata.ata雙密碼子時假定0或1的值,r代表密碼子重復(fù)率(參看在線方法(onlinemethods)),并且%gc代表基因中g(shù)加c堿基的含量百分比。變量ah、ah2、gh2和u3h代表密碼子2-6中的a、g和u堿基含量的單項式函數(shù)。圖17b展示了與e正相關(guān)的密碼子的頻率的數(shù)據(jù),而圖17c展示了與e正相關(guān)的密碼子的頻率的數(shù)據(jù)。圖18a-18d展示了說明大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集中的結(jié)果與序列參數(shù)對的相依性的二維直方圖。每個方形的色彩編碼所述區(qū)段中的e=5相較于e=0類別中的蛋白質(zhì)的過量分數(shù)(即,(#e5-#e0)/(#e5+#e0)),如通過右側(cè)上的比例尺校準。每個方形的面積與每個區(qū)段中所包括的蛋白質(zhì)數(shù)目的平方根成比例,其大致追蹤數(shù)據(jù)點的統(tǒng)計顯著性。變量s全部、s7-16和s尾代表整個基因、密碼子7到16和基因下游的所有剩余密碼子的新密碼子影響度量值(圖11b中的彩色標志)的平均值。δguh代表pet21表達載體的5'-utr加基因中的前48個核苷酸的預(yù)測mrna折疊自由能,<δgt>96代表基因的剩余部分中96個核苷酸的50%重疊窗中的預(yù)測折疊自由能的平均值,并且r代表密碼子重復(fù)率。高通量蛋白質(zhì)表達數(shù)據(jù)集中存在的蛋白質(zhì)的2d分布。圖19展示了參數(shù)影響相較于mrna中的位置。圖20a-20c展示了具有使用31c-fo方法優(yōu)化的序列的合成基因的體內(nèi)表達。(圖20a)比較大腸桿菌yacq基因的wt(wth/wtt)相較于優(yōu)化(31c-foh/31c-fot)變異體的表達特性。左圖展示了全大腸桿菌bl21(de3)pmgk細胞在18℃下過夜誘導(dǎo)之后的考馬斯藍染色的sds-page凝膠;在收集時將凝膠上負載的細胞提取物的量針對培養(yǎng)物的od600標準化。中圖展示了在[35s]-甲硫氨酸存在下使用完全純化的翻譯組件的體外翻譯反應(yīng)的sds-page凝膠的放射自顯影圖;每個反應(yīng)含有等量的使用t7rna聚合酶體外轉(zhuǎn)錄的經(jīng)純化mrna。右圖展示了在誘導(dǎo)體內(nèi)表達之后對目的蛋白的mrna的rna印跡法;等量的總rna負載于每個泳道中,并且印跡用匹配5'utr的探針進行雜交。(圖20b)對于17種不同蛋白質(zhì),使用31c-foh方法設(shè)計的合成基因在18℃下過夜誘導(dǎo)之后的全細胞提取物的考馬斯藍染色的sds-page凝膠。所有基因與c末端六聚組氨酸標簽同框克隆于用以產(chǎn)生大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集的相同pet21質(zhì)體衍生物中(acton,t.b.等人(2005)methodsenzymol394,210-243)。等量的誘導(dǎo)培養(yǎng)物負載于所有泳道中。圖20c對于大腸桿菌麥芽糖結(jié)合蛋白(mbp),在基因的c末端處同框融合的14種相同合成基因在18℃下過夜誘導(dǎo)之后的全細胞提取物(頂部)和相應(yīng)可溶部分(底部)的考馬斯藍染色的sds-page凝膠。圖20b-20c中表達的蛋白質(zhì)序列來自以下源生物體:lcabl_04230來自干酪乳桿菌(lactobacilluscasei)bl23;viparp466_2889來自副溶血性弧菌(vibrioparahaemolyticus);am1_4824來自acaryochlorismarinambic11017;clo_0718來自肉毒梭菌(clostridiumbotulinum)e1;esag_04692來自埃希氏菌屬(escherichiasp.)3_2_53faa;ftcg_00666和ftcg_01175來自土拉弗朗西斯菌新兇手亞種(francisellatularensissubsp.novicida)ga99-3549;fte_1275、fte_1608、fte_0420和fte_1020來自土拉弗朗西斯菌新兇手亞種fte;franowbtg和a1ds62_frano來自新兇手弗朗西斯菌(francisellanovicida)l;ftbg_00988和a7jeh2_fratl來自土拉弗朗西斯菌土拉亞種fsc033;ftn_1238來自土拉弗朗西斯菌新兇手亞種u112;o1o_09285來自綠膿假單胞菌(pseudomonasaeruginosa)mpao1/p1;sthe_2331來自嗜熱球形桿菌(sphaerobacterthermophilus)dsm20745/s6022;sevcu126_0606來自表皮葡萄球菌(staphylococcusepidermidis)vcu126;并且y007_20720來自腸道沙門氏菌腸道血清變型蒙特維多亞種(salmonellaentericasubsp.entericaserovarmontevideo)507440-20-c。圖21展示了在t7體外翻譯之后獲得的純mrna的產(chǎn)率。圖21是代表每種天然或優(yōu)化基因在體外t7翻譯合成后針對2個獨立者獲得的純mrna的平均產(chǎn)率的柱形圖。圖22a-22c展示了東北結(jié)構(gòu)基因組學(xué)(nesg)協(xié)會數(shù)據(jù)集,其中表達從e0(無)到e5(最高)評分。在圖22a中,計算前50個編碼堿基的自由能。高自由能區(qū)段(具有相對小的二級結(jié)構(gòu))具有比較低自由能區(qū)段更大的高表達分數(shù)。在圖22b中,對于前50個編碼堿基和編碼堿基201-250,高表達概率(e3+e4+e5)繪制為自由能的函數(shù)。更后的窗的表達水平的變化更小,但在圖22b中在-10kcal/mol≤g≤-5kcal/mol下觀察到峰,并且在圖22c中在一系列96聚體窗中觀察到拋物線趨勢,表明太小的結(jié)構(gòu)也可能是有害的。圖23a-23b展示了原始序列(呈紅色)與使用本文所描述方法產(chǎn)生的工程化同義序列(呈藍色)之間的比較。圖23a展示了原型網(wǎng)絡(luò)應(yīng)用的樣本輸出,其中增加前50個編碼堿基的自由能增加了基因?qū)⑹歉叨缺磉_的e5/(e0+e1+...+e5)的概率。在圖23b中,二級結(jié)構(gòu)的差異用rna弓圖描繪。獨特堿基和堿基對著色為紅色或藍色;共同堿基和對呈黑色。圖24a-24b展示了(24a)密碼子效應(yīng)與基因組密碼子使用頻率不相關(guān)和(24b)密碼子效應(yīng)與trna水平或“密碼子適應(yīng)指數(shù)”無關(guān)。圖25a-25d展示了對(a)ape_0230.1、(b)rsp_2139、(c)sru_1983和(d)sco1897基因進行的實驗,從尾端去除最差密碼子(6aa,綠色)相對于wt(黑色)增加了表達。wt非誘導(dǎo)和誘導(dǎo)是對照。在頭端中,密碼子優(yōu)化在所有情況下都增加表達。在sco1897中,具有低自由能的31c-fd頭端可以切斷表達。在其它基因中,31c-fd自由能不是很低。wt:野生型序列;6aa:優(yōu)化六個最重要密碼子(d→gat、e→gaa、h→cat、i→att、q→caa、r→cgt);31c-fo:其中自由能僅使用良好密碼子優(yōu)化;31c-fd:其中自由能僅使用良好密碼子而變得盡可能穩(wěn)定。圖26a-26b顯示,6aa(綠色)尾端降低(26a)ape_0230.1和(26b)rsp_2139的毒性。細胞質(zhì)量的增加意味著蛋白質(zhì)產(chǎn)生的增加。圖27顯示,組合31c-fo優(yōu)化頭端與尾端導(dǎo)致先前研究的所有四個基因的表達都有大的增加。具有31c-fo優(yōu)化的內(nèi)源大腸桿菌蛋白質(zhì)er449(泳道21.1與21.2)展示出相對于野生型(wt)增加的表達。圖28展示了1000個偽隨機序列的最小自由能,用rnastructure計算的長度100、200、300、400或500的mrna二核苷酸相關(guān)性與以下相比較:(28a)二參數(shù)模型g2和(28b)五參數(shù)模型g5,取決于堿基組成。平方殘差以(kcal/mol)2單位給出。圖29a-29c展示了蛋白質(zhì)編碼序列的物理化學(xué)因素和區(qū)域?qū)Φ鞍踪|(zhì)表達水平的多參數(shù)二元邏輯回歸模型的貢獻。不同因素的貢獻的量值使用漏失(drop-out)計算來定量,其中個別項或項集在于最終模型m中重優(yōu)化剩余項之前省略(圖34a-34b)。條形圖展示了δaic(赤池信息準則(akaikeinformationcriterion)的變化)的量值的所得減小分數(shù),與基于其自由度數(shù)值的隨機期望值相比,其定量模型預(yù)測能力(參看在線方法)。圖29a展示了漏失每個個別項的計算的匯總。圖29b展示了漏失項組合的計算的匯總。與mrna折疊穩(wěn)定性相關(guān)的以藍色和青色展示于圖29a中,而與密碼子使用相關(guān)的以紅色、橙色、黃色和洋紅色展示。頭端相較于非頭端項分別展示于圖29a中的左側(cè)和右側(cè)。圖29c展示了一示意圖,其中當計算相應(yīng)序列參數(shù)時,圖29a中的色彩用以代表所包括的蛋白質(zhì)編碼序列的區(qū)域。aug起始密碼子開始于核苷酸(nt)位置1。圖30a-30c顯示,多參數(shù)二元邏輯回歸模型的平均密碼子影響與大腸桿菌中的內(nèi)源mrna和蛋白質(zhì)水平相關(guān)。圖30a展示了,先前微陣列分析中檢測的大腸桿菌中的每種預(yù)測細胞質(zhì)蛋白質(zhì)的mrna水平繪制為s全部,新密碼子影響度量值(圖11b中的彩色標志)平均值的函數(shù)。青色點代表個別基因,而藍色標志和垂直條指示具有相等群體的s全部的20個區(qū)段中的中值和第25到第75百分點。圖30b-30c展示了對數(shù)優(yōu)勢曲線圖,其展示先前基因組規(guī)模體內(nèi)分布研究中的頂部相較于底部30%群體中的大腸桿菌基因/蛋白質(zhì)的數(shù)目比的自然對數(shù)作為s全部的函數(shù)。圖30b中的紅色、洋紅色和青色曲線分別代表蛋白質(zhì)濃度的質(zhì)譜分析(ishihama,y.等人(2008)bmcgenomics9,102)(n=825)、mrna上的核糖體分布的深度測序分析(li,g.w.,burkhardt,d.,gross,c.與weissman,j.s.(2014)cell157,624-635)(n=2,597)和圖30a中展示的mrna濃度的相同微陣列分析(n=2,817)的數(shù)據(jù)。圖30b展示了大腸桿菌中的所有預(yù)測細胞質(zhì)蛋白質(zhì)(如實例中所描述而鑒別)的結(jié)果,而圖30c展示了限于質(zhì)譜分析中檢測到的蛋白質(zhì)的這些結(jié)果(n=825)。圖30c中的綠色曲線展示了這些蛋白質(zhì)的蛋白質(zhì)比mrna比,經(jīng)計算為質(zhì)譜分析與微陣列分析的值的商。所有分布研究都對化學(xué)成分確定的培養(yǎng)基中生長的對數(shù)期細胞進行。圖31a-31e展示了密碼子影響度量值與先前文獻中假定為影響翻譯效率的參數(shù)的關(guān)系。同時多參數(shù)二元邏輯回歸分析的密碼子斜率(圖11b中的彩色標志)繪制于所有這些圖中的縱坐標上。標志的色彩編碼和形狀與圖11b-11e中相同。圖31a展示了相較于大腸桿菌bl21中的相對同義密碼子使用(rscu)的曲線圖。圖31b展示了相較于大腸桿菌k12中的密碼子適應(yīng)指數(shù)的曲線圖(sharp,p.m.與li,w.h.(1987)nucleicacidsres15,1281-1295)。圖31c展示了相較于大腸桿菌k12中的密碼子敏感性的曲線圖(elf,j.,nilsson,d.,tenson,t.與ehrenberg,m.(2003)science300,1718-1722)。圖31d展示了相較于大腸桿菌k12中的trna適應(yīng)指數(shù)的曲線圖(tuller,t.等人(2010)cell141,344-354)。圖31e展示了相較于大腸桿菌k12中的精確同源trna的濃度的曲線圖(dong,h.,nilsson,l.與kurland,c.g.(1996)journalofmolecularbiology260,649-663)。圖32展示了密碼子影響的變化作為在編碼序列中的位置的函數(shù)。曲線圖展示了通過以下方式產(chǎn)生的計算模型的偏差的減?。涸跈M坐標上指定的位置處開始添加代表在5(藍色)、10(紅色)或16(洋紅色)密碼子寬的窗中的密碼子斜率(圖11b中的彩色標志)的平均值的項。偏差的減小相對于堿基模型計算,其含有密碼子頻率、頭端核苷酸組成項(ah、ah2、u3h、gh2)、頭端加5'-utr中的預(yù)測rna折疊自由能(δguh)、頭端折疊效應(yīng)的二元指示變量i、指示auaaua雙密碼子的出現(xiàn)率的二元變量daua和密碼子重復(fù)率r。密碼子2-6的平均斜率推測起來不改進模型,因為頭端組成項而非密碼子含量主導(dǎo)著此區(qū)對蛋白質(zhì)表達水平的影響。此效應(yīng)還有可能考慮開始于密碼子7處的窗的sc-(c+9)和sc-(c+15)曲線圖中的峰。為了參考,向模型m添加s7-16和s16-32項分別貢獻了模型偏差的30個點(p=5×10-8)和10個點(p=0.001)(圖34a-34b和圖29a)?;趯⒖蓺w于此區(qū)中的密碼子的總偏差減小除以其數(shù)目[(30+(2.4*10))/10=5.4/密碼子]與整個基因中每密碼子的平均偏差減小[(637.5/270)=2.4/密碼子]比較,頭端中位置7-16處的個別密碼子的影響力大于尾端中的下游的密碼子約2.3倍。圖33a-33e展示了來自使用經(jīng)純化t7rna聚合酶體外轉(zhuǎn)錄的mrna的產(chǎn)率。圖33a展示了,mrna如下文所描述而純化并且其最終產(chǎn)率基于260nm下的光密度定量。(圖33b-33d)t7體外轉(zhuǎn)錄反應(yīng)在于變性甲醛-瓊脂糖凝膠上運行的0、5、10和30分鐘時的時間點樣品。反應(yīng)通過添加針對以下的wt或31c-foh/31c-fot(31c-foh/t)線性化質(zhì)體開始:sru_1983(圖33b)、ape_0230.1(c)、sco1897(圖33d)和eco-ycaq(圖33e)。對于每個反應(yīng),1μg相應(yīng)的經(jīng)純化mrna負載于凝膠上作為標準物以評估(asset)每種mrna的溴化乙錠染色。圖34a-34b展示了模型開發(fā)和向最終計算模型m添加項的效應(yīng)的表。圖34a展示了模型開發(fā)的表。似然比(lr)χ2測量相對于零模型(5153.8)的偏差差異。偏差在下文定義。對于添加到模型的既定自由度數(shù)值(d.f.),由(lrχ2-2*d.f.)給出的δaic代表了赤池信息準則的變化。最佳模型m是此表中如上文所定義的指定參數(shù)的總和??紤]了許多組成、自由能和其它項后,100的因子用以校正多假設(shè)測試,并且僅當在p<0.05/100(5×10-4)的邦弗朗尼(bonferroni)校正水平下顯著時在最終模型中包括參數(shù)。圖34b展示了向最終計算模型m添加項的效應(yīng)。圖35展示了用于基因設(shè)計的密碼子的表。在同義序列的設(shè)計中,減少遺傳密碼的自然簡并以消除不良密碼子和消除最差密碼子。在6aa方法中,一特定密碼子用于六種氨基酸,而其它14種氨基酸與其野生型序列相比無變化。在31c-fo(和fd)方法中,自由能僅使用指定子組的密碼子優(yōu)化(或去優(yōu)化)。圖36展示了同義密碼子改變mrna降解的機制的模型。翻譯低效密碼子的trna在此說明為占據(jù)核糖體上的a位點,因為在一些情形下帶電同源trna的濃度可以影響翻譯效率。然而,p位點和e位點處的效應(yīng)也是可能的。圖37展示了大腸桿菌基因組中編碼的所有預(yù)測細胞質(zhì)相較于膜蛋白的新密碼子影響度量值的平均值。程序lipop和tmhmm用以分析所有蛋白質(zhì)編碼序列。經(jīng)預(yù)測不具有信號序列或跨膜α-螺旋的蛋白質(zhì)指定為細胞質(zhì)的,而經(jīng)預(yù)測具有至少兩個跨膜α-螺旋的蛋白質(zhì)指定為跨膜的。圖38展示了從6,348個獨立蛋白質(zhì)表達實驗推斷的密碼子影響與使用等效多參數(shù)邏輯回歸建模方法從單一mrna微陣列法推斷的密碼子影響的比較。白色背景突顯了從正面到強負面影響的密碼子或反之亦然。圖39a-39b展示了葡萄糖基本培養(yǎng)基中的對數(shù)期大腸桿菌mg1655中δetta對體內(nèi)蛋白質(zhì)表達的影響。(圖39a)展示比較wt與δetta的差異蛋白質(zhì)組分析中最強烈變化的蛋白質(zhì)的表。(圖39b)具有yfp與編碼aceb的染色體基因的c末端的同框融合物的株;含有etta表達質(zhì)體或空對照質(zhì)體的細胞的od600(黑色)和yfp熒光(綠色)的實時分析。圖40展示了所提出的報告基因結(jié)構(gòu)的示意圖。aug是起始密碼子,并且rbs表示核糖體結(jié)合位點。圖41a-41d展示了在生理表達水平下基因優(yōu)化的效應(yīng)。sru_1983、ape_0230.1和eco-ycaq的wt和31c-foh/31c-fot(31c-foh/t)基因在pbad質(zhì)體(lifetechnologies)中用orf的5'的6his標簽再克隆。此質(zhì)體中克隆的基因由天然大腸桿菌的rna聚合酶在阿拉伯糖誘導(dǎo)型啟動子下表達。攜有pbad質(zhì)體的bl21pmgk細胞生長于具有100μg/ml氨芐青霉素(ampicillin)和30μg/ml卡那霉素(kanamycin)的lb培養(yǎng)基中。非誘導(dǎo)對照生長于具有0.4%葡萄糖的培養(yǎng)基中(泳道+glc)。在0.6的od600下,細胞用對于ape_0230.1為0.001%并且對于sru_1983和eco-ycaq為0.01%的最終濃度的阿拉伯糖誘導(dǎo)1小時(泳道+ara)。(圖41a,41c)誘導(dǎo)和非誘導(dǎo)細胞如在線方法中所描述而加工,并且在sds-page凝膠上運行。平行凝膠運行用于蛋白質(zhì)印跡(westernblot)分析。(圖41b,41d)蛋白質(zhì)印跡與1:2,000稀釋度的四-his抗體(34670,qiagen)一起孵育,在驢抗兔二級抗體與irdye680(926-32223,li-cor)的結(jié)合物存在下發(fā)育,并且掃描于odysseyclx掃描儀(li-cor)上。黑色箭頭展示了誘導(dǎo)蛋白質(zhì)在凝膠上的位置。對于ycaq_31c-foh/t(圖41d),樣品,較小分子量的其它蛋白質(zhì)與四-his抗體反應(yīng),更可能其歸因于ycaq_31c-foh/t序列中的獨立于阿拉伯糖誘導(dǎo)型啟動子的內(nèi)部轉(zhuǎn)錄/翻譯起始。具體實施方式本文中引用的授權(quán)專利、申請和其它公開特此以引用的方式并入,其程度如同每一者具體并且獨立地指定為以引用的方式并入一般。除非內(nèi)容另外明確規(guī)定,否則單數(shù)形式“一”和“所述”包括復(fù)數(shù)個指示物。因此,舉例來說,提及一“病毒”包括多個此類病毒。重組多肽的過度表達是多種生物技術(shù)應(yīng)用中的重要步驟,然而對于多肽相關(guān)應(yīng)用來說,不良重組多肽表達可能成問題。舉例來說,如食品生產(chǎn)、藥物發(fā)現(xiàn)和藥物生產(chǎn)等工業(yè)和商業(yè)應(yīng)用通常需要多肽以高水平表達。本文所描述方法部分基于來自數(shù)千種表達于超過6,348個表達實驗中的獨特多肽的大規(guī)模統(tǒng)計數(shù)據(jù)挖掘。在某些實施例中,本文所描述的發(fā)明涉及一種密碼子效率度量值,其可以定性和定量地描述個別密碼子對蛋白質(zhì)表達水平的影響。在某些方面,本文所描述方法涉及使用邏輯回歸分析利用細菌噬菌體t7聚合酶驅(qū)動大腸桿菌中的mrna合成的6,348個蛋白質(zhì)表達實驗。在某些實施例中,本文所描述方法顯示,基因的(a)頭端(初始約16個密碼子)和(b)尾端(剩余部分)對蛋白質(zhì)表達施加大致相同影響。本文所描述方法顯示,雖然mrna折疊效應(yīng)主導(dǎo)著頭端的影響,但密碼子使用有助于其影響并且主導(dǎo)著尾端的影響。不希望受理論所束縛,本文所描述的密碼子效率度量值分析可以展示出與大腸桿菌中的基因組密碼子使用頻率的弱相關(guān)性和與基因組規(guī)模分布研究中測量的蛋白質(zhì)和mrna濃度兩者的強相關(guān)性?;诒疚乃枋龇椒ㄖ匦略O(shè)計的基因可以在不變的效率下體外轉(zhuǎn)錄,并且仍產(chǎn)生在實質(zhì)上更高效率下體外翻譯的mrna。在某些方面,本文所描述方法可以用以產(chǎn)生更大的體內(nèi)蛋白質(zhì)表達增加。在某些實施例中,根據(jù)本文所描述方法獲得的蛋白質(zhì)表達增加部分是由于mrna水平的增加。在此所描述的方法可以用以鑒別影響蛋白質(zhì)翻譯的生物物理因素。不希望受理論所束縛,本文所描述方法涉及如下發(fā)現(xiàn):翻譯效率是大腸桿菌中的生理mrna水平的主要但在此以前未被認識的決定因素。在某些實施例中,本文所描述的發(fā)明涉及一種定量方法,其經(jīng)開發(fā)適用于預(yù)測mrna折疊能對蛋白質(zhì)表達水平的效應(yīng)。在某些方面,本文所描述方法涉及使用大規(guī)模實驗蛋白質(zhì)表達數(shù)據(jù)集的統(tǒng)計分析。在某些實施例中,本文所描述方法集中于同時評估多種多樣的局部和整體mrna序列特性的影響。在某些方面,本文所描述方法涉及通過生物化學(xué)分析來測試機制性推斷(例如由多種多樣的局部和整體mrna序列特性的影響產(chǎn)生的推斷)。如本文所描述,這些組合計算和實驗研究可以用以測定和鑒別mrna序列特征對蛋白質(zhì)表達水平的影響。在一些方面,本文所描述方法可以用以測定密碼子翻譯效率相較于mrna折疊能的相對影響以及在蛋白質(zhì)編碼序列的不同區(qū)域中這些因素的影響的變化。本文所描述方法還提供了一種密碼子效率度量值。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):翻譯起始和延長的序列相依性瓶頸可以降低穩(wěn)態(tài)mrna水平。在某些方面,歸因于翻譯起始和延長的序列相依性瓶頸的穩(wěn)態(tài)mrna水平降低擴大了其對蛋白質(zhì)表達的影響。本文所描述的發(fā)明還部分基于如下發(fā)現(xiàn):低表達可能與編碼多肽的核酸序列的編碼區(qū)的開始處的低折疊自由能強相關(guān)。因此,在某些實施例中,本文所描述方法可以用于評估是否對于既定基因,其可以評估由核酸序列編碼的多肽是否有可能由于核酸的強折疊效應(yīng)而不良地表達。因此,在某些方面,本文所描述方法可以利用遺傳密碼的簡并來產(chǎn)生能夠編碼相同多肽的同義核酸序列,并且其中同義核酸序列包含同義變化以產(chǎn)生相對于不變的序列具有相應(yīng)rna序列的高預(yù)測折疊自由能的核酸序列,并且因此產(chǎn)生更高的蛋白質(zhì)表達。雖然dna由沃森-克里克(watson-crick)互補堿基對構(gòu)建,但rna的堿基組成不受通用互補性限定,因此應(yīng)對rna計算比(g+c)含量更復(fù)雜的近似值。四種堿基具有不同平均折疊自由能,這一事實可以用于設(shè)計具有最優(yōu)特性的序列。因此,本文所描述方法和組合物可以適用于鑒別具有更高或更低的以高水平表達于基因表達系統(tǒng)中的概率的多肽,改進既定基因的表達。這些方法可以具有降低用于多種應(yīng)用(包括研究、生物技術(shù)和商業(yè)應(yīng)用)的蛋白質(zhì)表達的成本的益處。因此,本文所描述的發(fā)現(xiàn)可以用以通過向核酸序列引入改進由其編碼的多肽的翻譯效率的同義變化而提供改進的蛋白質(zhì)表達,所述蛋白質(zhì)否則的話并不從其天然序列充分表達。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):密碼子2-6中的堿基組成與對應(yīng)于編碼多肽的核酸的頭區(qū)的rna序列的預(yù)測折疊自由能組合的影響影響了由其編碼的多肽的表達。在某些實施例中,本文所描述方法涉及評估編碼多肽的核酸序列的第一個密碼子的堿基對組成以及對應(yīng)于編碼多肽的核酸的頭區(qū)的rna序列的預(yù)測折疊自由能以確定多肽是否有可能充分表達。在某些實施例中,本文所描述方法涉及評估編碼多肽的核酸序列的前兩個密碼子的堿基對組成以及對應(yīng)于編碼多肽的核酸的頭區(qū)的rna序列的預(yù)測折疊自由能以確定多肽是否有可能充分表達。在某些實施例中,本文所描述方法涉及評估編碼多肽的核酸序列的前三個密碼子的堿基對組成以及對應(yīng)于編碼多肽的核酸的頭區(qū)的rna序列的預(yù)測折疊自由能以確定多肽是否有可能充分表達。在某些實施例中,本文所描述方法涉及評估編碼多肽的核酸序列的前四個密碼子的堿基對組成以及對應(yīng)于編碼多肽的核酸的頭區(qū)的rna序列的預(yù)測折疊自由能以確定多肽是否有可能充分表達。在某些實施例中,本文所描述方法涉及評估編碼多肽的核酸序列的前五個密碼子的堿基對組成以及對應(yīng)于編碼多肽的核酸的頭區(qū)的rna序列的預(yù)測折疊自由能以確定多肽是否有可能充分表達。在某些實施例中,本文所描述方法涉及評估編碼多肽的核酸序列的前六個密碼子的堿基對組成以及對應(yīng)于編碼多肽的核酸的頭區(qū)的rna序列的預(yù)測折疊自由能以確定多肽是否有可能充分表達。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):核酸序列的尾區(qū)可以對由其編碼的多肽序列起作用。在一個實施例中,用以評估頭區(qū)對多肽表達的效應(yīng)的自由能項通過測定“密碼子斜率”和“密碼子重復(fù)率”項(r)的效應(yīng)而包含在內(nèi)。在某些實施例中,編碼多肽的核酸的尾區(qū)中的最小密碼子重復(fù)(如通過密碼子重復(fù)率項測定)指示,由核酸編碼的多肽有可能以比由在其尾區(qū)中具有更高密碼子重復(fù)量的核酸序列編碼的多肽更高的水平表達。在某些實施例中,多肽的表達可以通過在優(yōu)化序列之前消除會減弱表達的密碼子(例如ata、cgg、cga、cua、uug)而改進。因此,在某些方面,本發(fā)明涉及一種改進由核酸編碼的多肽表達的方法,所述方法包含(a)產(chǎn)生評估可以通過改變每個密碼子獲得的改進表達的潛在益處的清單,作為(i)密碼子斜率和(ii)對密碼子重復(fù)率的影響的函數(shù);(b)分選所述清單并且在經(jīng)預(yù)測可導(dǎo)致由核酸編碼的多肽表達的最大增加的密碼子中進行取代;和(c)重復(fù)步驟(a)和(b)直到多肽表達不可能有或不再期望有進一步改進。在某些實施例中,經(jīng)預(yù)測可導(dǎo)致蛋白質(zhì)產(chǎn)生的第二大增加的密碼子可以代替經(jīng)預(yù)測可導(dǎo)致由核酸編碼的多肽表達的最大增加的密碼子而使用。在某些實施例中,進行步驟(c)重復(fù),同時保持密碼子重復(fù)率在期望的范圍內(nèi)。本文所描述方法可以應(yīng)用于大腸桿菌的整體mrna分布數(shù)據(jù)以產(chǎn)生等效基因優(yōu)化算法,如圖30中所指示。在某些實施例中,本文所描述方法可以包括(但不限于)用以產(chǎn)生本文所描述模型m的計算方法。因此,在某些實施例中,本文所描述方法可以應(yīng)用于任何生物體的整體mrna分布數(shù)據(jù)以產(chǎn)生特定針對于所述生物體的基因優(yōu)化算法,并且可以應(yīng)用于可以產(chǎn)生整體mrna分布的任何生物體。在某些實施例中,本文所描述方法(例如用以產(chǎn)生模型“m”的計算方法)可以用以從大腸桿菌的任何mrna分布數(shù)據(jù)產(chǎn)生大腸桿菌的等效基因優(yōu)化算法。在某些實施例中,本文所描述方法(例如用以產(chǎn)生模型“m”的計算方法)可以用以從任何生物體的任何mrna分布數(shù)據(jù)或蛋白質(zhì)表達譜數(shù)據(jù)產(chǎn)生所述生物體的等效基因優(yōu)化算法,所述生物體包括(但不限于)細菌生物體、古細菌生物體或真核生物體,包括(但不限于)圖15中展示的生物體。在某些實施例中,適用于本文所描述方法(例如模型“m”或應(yīng)用于蛋白質(zhì)表達譜數(shù)據(jù)或mrna分布數(shù)據(jù)的用以產(chǎn)生模型“m”的計算方法的輸出)的生物體可以是包含一個或多個來自不同生物體或來自合成來源的基因的轉(zhuǎn)基因或遺傳工程化生物體。在某些實施例中,適用于本文所描述方法(例如模型“m”或應(yīng)用于蛋白質(zhì)表達譜數(shù)據(jù)或mrna分布數(shù)據(jù)的用以產(chǎn)生模型“m”的計算方法的輸出)的表達系統(tǒng)可以是包含一個或多個來自細菌、古細菌或真核生物的轉(zhuǎn)錄或翻譯組件的體外表達系統(tǒng)或重建表達系統(tǒng)。在某些實施例中,適用于本文所描述方法(例如模型“m”或應(yīng)用于蛋白質(zhì)表達譜數(shù)據(jù)或mrna分布數(shù)據(jù)的用以產(chǎn)生模型“m”的計算方法的輸出)的表達系統(tǒng)可以是包含一個或多個來自圖15中展示生物體的轉(zhuǎn)錄或翻譯組件的體外表達系統(tǒng)或重建表達。在某些實施例中,適用于本文所描述方法(例如模型“m”或應(yīng)用于蛋白質(zhì)表達譜數(shù)據(jù)或mrna分布數(shù)據(jù)的用以產(chǎn)生模型“m”的計算方法的輸出)的表達系統(tǒng)可以是包含一個或多個來自圖15中展示生物體的轉(zhuǎn)錄或翻譯組件的體外表達系統(tǒng)或重建表達。在某些實施例中,模型m可以是多參數(shù)廣義線性邏輯回歸模型。在某些實施例中,本文所描述方法向mrna分布數(shù)據(jù)的應(yīng)用可以是邏輯或非邏輯的。因此,在某些實施例中,本文所描述方法向mrna分布數(shù)據(jù)的應(yīng)用可以是多參數(shù)廣義線性線性回歸模型。遺傳密碼的簡并(僅20種不同氨基酸的61個不同核苷酸三聯(lián)體密碼子直接聚合的事實)使得相同蛋白質(zhì)序列能夠由大量的不同但同義的mrna序列編碼。蛋白質(zhì)編碼序列中的同義變化(單核苷酸多態(tài)性)可以改變?nèi)祟悓Υ蠓秶募膊〉囊赘行?kimchi-sarfaty,c.等人(2007)science315,525-528;huntrc等人,(2014)trendsingenetics:tig,doi:10.1016/j.tig.2014.04.006)。分子生物研究已經(jīng)提供了mrna序列中的導(dǎo)致蛋白質(zhì)表達水平細微和劇烈變化兩種情況的同義變化的許多實例(steinthorsdottirv等人,(2007)naturegenetics39,770-775;huntrc等人,(2014)trendsingenetics:tig,doi:10.1016/j.tig.2014.04.006;zhangf.等人(2010)science329,1534-1537)。mrna序列中的變異可以在調(diào)節(jié)蛋白質(zhì)于從大腸桿菌到人類的生物體中的表達方面起重要作用,并且在不同實驗系統(tǒng)中介導(dǎo)這些效應(yīng)已經(jīng)牽涉到多種不同機制性因素(spencerps等人,(2012)jmolbiol422,328-335;plotkinjb等人,(2011)naturereviews.genetics12,32-42;gingold,h.(2011)molsystbiol7,481)。然而,對于不同因素在控制任何既定系統(tǒng)中的蛋白質(zhì)表達水平方面的相對貢獻的理解有限,并且關(guān)于這些因素中的一些的影響的沖突報道仍然未解決。在控制mrna的翻譯效率中已經(jīng)牽涉到mrna特征。蛋白質(zhì)編碼序列中5'區(qū)而非下游中的穩(wěn)定mrna折疊可以減弱大腸桿菌中的翻譯(goodmandb等人,(2013)science,doi:10.1126/science.1241934;kudlag等人,(2009)science324,255-258;bentelek等人,(2013)molecularsystemsbiology9,675;tuller,t.等人(2010)procnatlacadsciusa107,3645-3650)。此效應(yīng)可以反映70s核糖體起始復(fù)合物向mrna中的aug起始密碼子上的組裝的抑制。盡管存在與起始密碼子重疊的穩(wěn)定mrna折疊的調(diào)節(jié)介導(dǎo)蛋白質(zhì)翻譯的生理學(xué)上重要的調(diào)節(jié)的情況(shakin-eshlemansh等人,(1988)biochemistry27,3975-3982(1988);kozakm(2005)gene361,13-37;castillo-mendez,m.a.等人(2012)biochimie94,662-672),但mrna折疊能與蛋白質(zhì)翻譯效率之間的關(guān)系仍不確定。在某些方面,本文所描述方法和組合物涉及mrna折疊能與蛋白質(zhì)翻譯效率之間的關(guān)系。同義密碼子的翻譯效率的差異可以影響蛋白質(zhì)表達水平,但還缺乏對這些效應(yīng)的系統(tǒng)性定量。許多關(guān)于密碼子使用的文獻集中于大腸桿菌基因組中的一組不常使用的密碼子的低效翻譯,所述密碼子尤其是異亮氨酸的aua密碼子(caskeyct等人,(1968)jmolbiol37,99-118;muramatsut等人,(1988)nature336,179-181)以及精氨酸的aga、agg和cgg密碼子(chengt等人,(1994)genes&development8,2641-2652;vivanco-dominguezs等人,(2012)jmolbiol417,425-439)。關(guān)于以下存在不確定性:同義密碼子對翻譯效率的影響(goodmandb等人,(2013)science,doi:10.1126/science.1241934;kudlag.等人(2009)science324,255-258;bentelek.等人(2013)molsystbiol9,675;cannarozzi,g.等人(2010)cell141,355-367;li,g.w.等人(2014)cell157,624-635;chen,g.t.等人(1994)genesdev8,2641-2652;caskey,c.t.等人(1968)jmolbiol37,99-118;price,w.n.等人(2011)microbialinformaticsandexperimentation1,6;wallace,e.w.等人(2013)molbiolevol30,1438-1453;li,g.-w.等人(2012)nature484,538-541;elf,j.等人(2003)science300,1718-1722;ran,w.等人(2014)mbio5,e00956-00914;quax,t.e.等人(2013)cellrep4,938-944);此類效應(yīng)的機制性基礎(chǔ);和其與mrna折疊效應(yīng)的關(guān)系(shakin-eshlemansh等人,(1988)biochemistry27,3975-3982(1988);kozakm(2005)gene361,13-37;castillo-mendez,m.a.等人(2012)biochimie94,662-672;goodmandb等人,(2013)science,doi:10.1126/science.1241934;kudlag等人,(2009)science324,255-258;bentelek等人,(2013)molecularsystemsbiology9,675;tuller,t.等人(2010)procnatlacadsciusa107,3645-3650)。核糖體分布研究(ingolia,n.t.等人(2009)science324,218-223)推斷,凈翻譯延長速率對于大腸桿菌mrna實際上恒定,無關(guān)于密碼子使用(li,g.w.等人(2014)cell157,624-635;li,g.-w.等人(2012)nature484,538-541)。此發(fā)現(xiàn)挑戰(zhàn)了同義密碼子的翻譯率的差異影響蛋白質(zhì)表達的假定,所述假定是許多密碼子使用文獻的基礎(chǔ)(zhang,f.等人(2010)science329,1534-1537;spencer,p.s.等人(2012)jmolbiol422,328-335;gingold,h.等人(2011)molsystbiol7,481;tuller,t.等人(2010)procnatlacadsciusa107,3645-3650;quax,t.e.等人(2013)cellrep4,938-944;dana,a.等人(2014)nucleicacidsres42,9171-9181;sharp,p.m.等人(1987)nucleicacidsres15,1281-1295),但尚未提出解釋密碼子使用的變化導(dǎo)致蛋白質(zhì)表達劇烈變化的許多實驗的替代性機制(gingold,h.等人(2011)molsystbiol7,481)。此外,關(guān)于哪些密碼子相關(guān)特性對于蛋白質(zhì)表達有益相較于有害,存在不確定性(gingold,h.等人(2011)molsystbiol7,481)。舉例來說,已經(jīng)替代性地提出了更均質(zhì)的密碼子使用以增強(cannarozzi,g.等人(2010)cell141,355-367;quax,t.e.等人(2013)cellrep4,938-944)或降低(zhang,g.等人(2010)nucleicacidsres38,4778-4787)翻譯效率。許多密碼子使用文獻集中于大腸桿菌基因組中的一組稀有密碼子(zhang,s.p.等人(1991)gene105,61-72)的低效翻譯(sharp,p.m.等人(1987)nucleicacidsres15,1281-1295;zhang,s.p.等人(1991)gene105,61-72;ikemura,t.等人(1981)jmolbiol151,389-409),所述密碼子尤其ile的aua密碼子(caskey,c.t.等人(1968)jmolbiol37,99-118;muramatsu,t.等人(1988)nature336,179-181)以及arg的aga、agg和cgg密碼子(chen,g.t.等人(1994)genesdev8,2641-2652;vivanco-dominguez,s.等人(2012)jmolbiol417,425-439)。在此基礎(chǔ)上,普遍認為,平行于trna庫水平的基因組密碼子使用頻率(ikemura,t.等人(1981)jmolbiol151,389-409;dong,h.等人(1996)journalofmolecularbiology260,649-663)影響翻譯效率,并且不常見密碼子低效地翻譯(chen,g.t.等人(1994)genesdev8,2641-2652;caskey,c.t.等人(1968)jmolbiol37,99-118)。然而,當基因的頭端含有最多地列舉為翻譯的屏障的稀有密碼子時,熒光報告蛋白的表達增加(goodmandb等人,(2013)science,doi:10.1126/science.1241934)。此效應(yīng)解釋為反映頭端中的低效密碼子使用的耐受性以防止將減弱翻譯的穩(wěn)定mrna折疊(goodmandb等人,(2013)science,doi:10.1126/science.1241934)。然而,未進行操控任一參數(shù)來驗證此推斷或剖析其相互作用的實驗,并且替代性理論提出稀有密碼子可以增強翻譯效率(elf,j.等人(2003)science300,1718-1722;dittmar,k.a.等人(2005)emborep6,151-157;tuller,t.等人(2010)cell141,344-354)。進化生物學(xué)文獻集中于基因組密碼子使用頻率的不同相關(guān),其是蛋白質(zhì)合成中的準確性(wallace,e.w.等人(2013)molbiolevol30,1438-1453;bulmer,m.(1991)genetics129,897-907;akashi,h.(1994)genetics136,927-935)。生物化學(xué)研究提出,更常見的密碼子應(yīng)更準確地翻譯,因為其同源trna的水平系統(tǒng)地更高,并且來自近同源trna的競爭是翻譯錯誤的主要原因(ikemura,t.等人(1981)jmolbiol151,389-409;dong,h.等人(1996)journalofmolecularbiology260,649-663;kramer,e.b.等人(2007)rna13,87-96;zaher,h.s.等人(2011)cell147,396-408)。更常見密碼子的使用在蛋白質(zhì)中的更為保守的位點處會增加(ran,w.等人(2014)mbio5,e00956-00914;akashi,h.(1994)genetics136,927-935),大概是因為此類位點處的更準確翻譯(ninio,j.(1986)febslett196,1-4)促成了更大的進化適合性(wallace,e.w.等人(2013)molbiolevol30,1438-1453;drummond,d.a.等人(2008)cell134,341-352)。雖然不太常見的密碼子也可以不太高效地翻譯(dana,a.等人(2014)nucleicacidsres42,9171-9181;rocha,e.p.(2004)genomeres14,2279-2286),但這些參數(shù)之間的系統(tǒng)性相關(guān)性仍有待展現(xiàn)。使針對mrna序列對蛋白質(zhì)表達的影響的研究變復(fù)雜的一個因素是,序列中的同義變化可以同時影響多種與蛋白質(zhì)翻譯相關(guān)的機制性因素,即密碼子一致性、密碼子均質(zhì)性和mrna折疊以及從密碼子對效應(yīng)到總體a/u/c/g含量的其它可能有影響的局部和整體序列特征。先前的實驗和理論研究已經(jīng)集中于局部mrna區(qū)中的個別參數(shù)或參數(shù)對(goodmandb等人,(2013)science,doi:10.1126/science.1241934;kudlag等人,(2009)science324,255-258;bentelek等人,(2013)molecularsystemsbiology9,675;cannarozzig等人,(2010)cell141,355-367;li,gw等人,(2012)nature484,538-541),并且少數(shù)來自這些研究的機制性推斷已經(jīng)使用生物化學(xué)方法測試。舉例來說,若干公開已經(jīng)檢驗了翻譯效率與(a)密碼子使用頻率、(b)蛋白質(zhì)翻譯準確性、(c)帶電同源trna的濃度、(d)基因內(nèi)密碼子使用的均質(zhì)性和非均質(zhì)性(多樣性)、(e)基因組規(guī)模研究、(f)接近核糖體處同源trna和氨?;鵷rna合成酶的局部濃度之間的關(guān)系(goodmandb等人,(2013)science,doi:10.1126/science.1241934;elf,j等人,(2003)science300,1718-1722;bulmerm等人,(1991)genetics129,897-907;cannarozzig等人,(2010)cell141,355-367)。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):精氨酸、天冬氨酸、谷氨酸、谷氨酰胺、組氨酸和異亮氨酸的密碼子可以經(jīng)如通過密碼子頻率和蛋白質(zhì)表達水平的線性回歸分析所測定為具有高“密碼子斜率”的同義密碼子取代。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):使用單一參數(shù)邏輯回歸測定的密碼子斜率顯示,結(jié)束于a或u的密碼子在基因中系統(tǒng)地增濃,在當前數(shù)據(jù)集中提供最高蛋白質(zhì)表達水平,而結(jié)束于g或c的同義密碼子在這些基因中系統(tǒng)地耗盡。因此,在某些方面,所述發(fā)現(xiàn)向工程化合成基因提供了指南,所述合成基因通過模擬當前數(shù)據(jù)集中的最佳表達基因的特性來增強蛋白質(zhì)表達。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):對于每個密碼子位置處的總體堿基組成,同框密碼子模型優(yōu)于非閱讀框模型或拋物線模型。在某些實施例中,自由度數(shù)值(d.f.)是小于非終止密碼子數(shù)目者,因為頻率的總和等于一。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):對于密碼子2-6(核糖體起始位點),堿基組成變量比密碼子頻率描述性更大。與組成和對應(yīng)于頭端rna序列預(yù)測折疊自由能的相互作用項突顯了此區(qū)中不穩(wěn)定折疊的重要性。在某些實施例中,在本文所描述方法中,如果對密碼子7-16的平均斜率給出額外權(quán)重并且對密碼子16-32較輕微程度地給出額外權(quán)重,那么即使在對于密碼子2-6添加平均密碼子斜率變量統(tǒng)計上不顯著時,表達也會增加。在某些方面,在任何框中包括夏因-達爾加諾共有agga頻率的變量在5%顯著性水平下不改進模型。在某些方面,頭區(qū)和尾區(qū)在本文所描述的模型中具有類似的總體重要性。在某些實施例中,密碼子1-6(起始)到對蛋白質(zhì)表達有影響并且由其組成和二級結(jié)構(gòu)傾向決定。在某些實施例中,密碼子7-32斜率的影響力是尾端中更后的密碼子的斜率的約三倍。本文所描述方法的迭代應(yīng)用可以用以增加或減弱多肽在表達系統(tǒng)中的表達,所述表達系統(tǒng)包括(但不限于)體內(nèi)表達系統(tǒng)和體外表達系統(tǒng)。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):降低包含緊靠著3'到5'utr的編碼序列的約前48個核苷酸的計算窗內(nèi)rna序列的rna去折疊能可以用于當多肽在表達系統(tǒng)表達時改進由rna編碼的多肽的表達。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):降低包含5'utr和包含緊靠著3'到5'utr的編碼序列的約前48個核苷酸的計算窗內(nèi)rna序列的rna去折疊能可以用于當多肽在表達系統(tǒng)表達時改進由rna編碼的多肽的表達。因此,在某些方面,本文所描述方法提供了一種預(yù)測定量度量值,其適用于確定rna二級結(jié)構(gòu)何時影響表達系統(tǒng)中(例如大腸桿菌細胞中)的蛋白質(zhì)翻譯。本文所描述方法的迭代應(yīng)用可以用以增加或減弱多肽在表達系統(tǒng)中的表達,所述表達系統(tǒng)包括(但不限于)體內(nèi)表達系統(tǒng)和體外表達系統(tǒng)。在某些實施例中,蛋白質(zhì)基于結(jié)構(gòu)獨特性而選自多種多樣的源生物體。在某些實施例中,在選擇時,具有大于30%氨基酸一致性的序列不將實驗確定的結(jié)構(gòu)保藏到蛋白質(zhì)數(shù)據(jù)庫(proteindatabank)中。在某些實施例中,過濾數(shù)據(jù)集以將任兩種蛋白質(zhì)之間的氨基酸一致性降低到小于60%。所分析的數(shù)據(jù)集包括來自171種生物體的6,348個基因,如圖15中的進化分支圖中詳述。其含有95個內(nèi)源大腸桿菌基因,包括在生物化學(xué)實驗中檢驗的ycaq;和來自異源來源的6,253個基因,包括來自哺乳動物的47個、來自古細菌的809個和來自151種不同真細菌生物體的剩余者。數(shù)據(jù)集中異源基因的主導(dǎo)地位相對于使用大規(guī)模實驗探測生物化學(xué)機制具有若干優(yōu)點。在某些實施例中,中心前提是,一種理解生理過程潛在的基本機制的方式是用既定生物體中的尚未在選擇性壓力下進化的序列攻擊所述生物體中的生物化學(xué)機構(gòu)。進化過程將趨于對生理途徑中的連續(xù)步驟施加平行選擇性效應(yīng),其可以產(chǎn)生替代效應(yīng),即不反映直接機制性效應(yīng)的顯著序列相關(guān)性。蛋白質(zhì)表達的調(diào)節(jié)最低限度地涉及轉(zhuǎn)錄、翻譯、rna降解和蛋白質(zhì)降解的相互作用。內(nèi)源大腸桿菌基因有可能具有影響這些互連過程中的一些而非其它的序列特征,其可以產(chǎn)生替代效應(yīng),并且其表達也可能受基因/蛋白質(zhì)特異性調(diào)節(jié)系統(tǒng)影響。這些問題通過評估由使用定義明確的計算算法設(shè)計的合成基因序列編碼的不具有大腸桿菌直系同源物的異源蛋白質(zhì)的表達,用內(nèi)源大腸桿菌基因進行規(guī)避。然而,基因設(shè)計算法的開發(fā)需要某一起點,并且據(jù)推斷,對于大腸桿菌中的生理系統(tǒng)的基本生物化學(xué)特性的訊問,來自異源生物體的基因提供比內(nèi)源大腸桿菌基因更有效的試劑。就源生物體的生物化學(xué)和生理特性與大腸桿菌相比存在差異來說,評估異源來源的基因的表達降低了上文論述的進化交叉相關(guān)性和替代效應(yīng)的程度。僅在多樣源生物體之中普遍保守的生物化學(xué)效應(yīng)可以產(chǎn)生強替代效應(yīng),這歸因于影響表達途徑中的連續(xù)步驟的序列特征的平行選擇。普遍保守的生物化學(xué)機制將影響檢驗凈蛋白質(zhì)表達水平的對任何數(shù)據(jù)集進行的統(tǒng)計分析,無關(guān)于基因序列的來源。然而,利用來自多樣系統(tǒng)發(fā)生來源的異源蛋白質(zhì)的實驗設(shè)計可以抑制本文所描述的此種統(tǒng)計分析的替代效應(yīng)。來自異源生物體的基因具有減小或消除基因/蛋白質(zhì)特異性調(diào)節(jié)系統(tǒng)的效應(yīng)的額外優(yōu)點。來自異源來源的基因具有如下額外優(yōu)點:在于密碼子空間中抽樣時提供比僅僅使用來自大腸桿菌或任何其它單一生物體的基因可能的多樣性更大的多樣性。此外,其提供比使用合成基因檢驗密碼子使用效應(yīng)的先前研究中所實現(xiàn)的多樣性更大的多樣性。重要的是驗證一些內(nèi)源大腸桿菌基因展現(xiàn)與來源于對異源基因進行的實驗的推斷一致的特性。在某些實施例中,大腸桿菌基因ycaq包括于機制性分辨研究中。此內(nèi)源基因/蛋白質(zhì)在所有分析中都與來自異源來源的基因/蛋白質(zhì)類似地表現(xiàn)。解決此問題的另一方式是比較預(yù)測高相較于無表達的計算模型當在大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集中應(yīng)用于大腸桿菌基因或異源基因時的性能(圖41)。此分析顯示,計算模型對兩組基因類似地執(zhí)行,證實了使用異源基因序列訊問大腸桿菌中的生理系統(tǒng)的基本生物化學(xué)特性的方法的有效性。途徑中連續(xù)步驟中的間接進化偶合和平行選擇操作可以產(chǎn)生不反映直接機制性效應(yīng)的顯著序列相關(guān)性。大規(guī)模數(shù)據(jù)集中異源基因的主導(dǎo)地位應(yīng)減少但可能不消除替代效應(yīng)的影響。這些考慮因素突顯了使用本文呈現(xiàn)的經(jīng)純化組件的體外轉(zhuǎn)錄和翻譯分析的重要性。在某些實施例中,分析代表了可能用以驗證本文論述的統(tǒng)計分析中鑒別的強密碼子效應(yīng)對蛋白質(zhì)翻譯效率具有機制性效應(yīng)的最嚴格的方法。相比之下,關(guān)于此主題的廣泛先前文獻中使用的密碼子效率度量值未曾在此種生物化學(xué)實驗中驗證,意味著其有可能部分或甚至完全來源于間接相關(guān)性和平行選擇性效應(yīng)。此現(xiàn)象的一個實例由presnyak等人發(fā)表的論文(cell160:1111)提供。這些作者聲稱,酵母釀酒酵母(saccharomycescerevisiae)中的蛋白質(zhì)翻譯效率強烈影響mrna穩(wěn)定性。雖然此斷言由于其與本文呈現(xiàn)的大腸桿菌研究的重要結(jié)論的強烈共鳴而有可能是準確的,但他們的斷言是基于稱為trna適應(yīng)指數(shù)(tai)的翻譯效率理論度量值,其在關(guān)于任何生物體的先前文獻中從未經(jīng)驗證可影響蛋白質(zhì)翻譯效率。在某些實施例中,大腸桿菌的tai僅與密碼子度量值微弱相關(guān)(圖31d)。此經(jīng)展現(xiàn)可體內(nèi)和體外強烈影響蛋白質(zhì)翻譯效率。因此,tai自身以及由presnyak等人報道的效應(yīng)有可能完全或部分來源于平行選擇現(xiàn)象。presnyak等人此外呈現(xiàn)了對mrna壽命與密碼子頻率之間的關(guān)系的單一變量回歸分析,但圖17展現(xiàn)了,對數(shù)據(jù)集的此種單一變量分析關(guān)于個別密碼子的效應(yīng)產(chǎn)生誤導(dǎo)性結(jié)論,因為其受基因的密碼子內(nèi)容物中的交叉相關(guān)性控制,即間接進化相關(guān)性。在此情形下,由presnyak等人報道的密碼子度量值(其尚未經(jīng)實驗上展現(xiàn)可影響體外蛋白質(zhì)翻譯效率)可以主要測量mrna降解效應(yīng)(這是他們已經(jīng)測量的全部),并且其與閱讀框的明顯相依性可以來源于平行進化選擇。在某些實施例中,天然和重新設(shè)計的基因明確經(jīng)歷體外轉(zhuǎn)錄分析和體外翻譯分析。相比之下,這顯示,據(jù)推斷可影響mrna向蛋白質(zhì)中的翻譯的序列特征直接調(diào)節(jié)此生物化學(xué)過程。必需有此種機制性分辨的體外實驗來嚴格地表明,從對天然進化基因的分析推斷的序列特征影響特定生物化學(xué)過程并且不來源于可歸于平行選擇性壓力的替代效應(yīng)。在某些實施例中,本文所描述的體外分析(其顯示,基于計算模型重新設(shè)計的基因?qū)Ψg具有預(yù)測影響)代表了本文所描述發(fā)明的極重要組件。關(guān)于生物化學(xué)機制的可靠結(jié)論在沒有其的情況下是不可能的。盡管實驗設(shè)計中有這些優(yōu)點,但復(fù)雜的進化和生理因素可能影響對天然存在的基因進行的此類統(tǒng)計分析的結(jié)果。因此,進行實驗以直接評估具有基于統(tǒng)計推斷設(shè)計的序列的合成基因的實驗特性。使用機制性分辨的生物化學(xué)分析獲自這些序列的結(jié)果已經(jīng)通過在大腸桿菌rna聚合酶的控制下在生理表達水平下進行的新體內(nèi)分析顯著強化。如本文所用,折疊rna分子可以是在不存在變性條件下天然構(gòu)象的rna分子。折疊rna還可以是呈其最低吉布斯自由能態(tài)(gibbsfreeenergystate)的rna分子。折疊rna還可以是如通過基于配分函數(shù)的方法所測定以相對概率處于熱平衡的結(jié)構(gòu)集合中的rna分子。不希望受理論所束縛,rna分子可以展現(xiàn)一個或多個具有相同或類似吉布斯自由能態(tài)的替代性折疊狀態(tài)。此類狀態(tài)可以取決于分析的環(huán)境和實驗條件,包括(但不限于)緩沖液、溫度、配體的存在等。當計算或比較rna折疊模式時,本領(lǐng)域技術(shù)人員將能夠容易考慮環(huán)境和實驗條件的差異。本領(lǐng)域技術(shù)人員將了解,存在指數(shù)數(shù)目的使rna分子折疊的方式。這些指數(shù)數(shù)目可以表示為1.8n,其中n是分子中核酸的數(shù)目。rna分子的折疊狀態(tài)由分子內(nèi)堿基配對模式以及通過共價或非共價鍵結(jié)穩(wěn)定化的高階結(jié)構(gòu)確定。rna分子的折疊在層級過程中進行,其中二級結(jié)構(gòu)元件的折疊指示rna分子內(nèi)的三級接觸的形成(brion等人,“hierarchyanddynamicsofrnafolding”,annu.rev.biophys.biomol.struct.26:113-137(1997))。rna分子包含四個不同雜環(huán)芳香族堿基殘基。盡管rna沃森-克里克g-c和a-u對很強,但眾所周知gu擺動堿基對可以形成。rna分子中的二級結(jié)構(gòu)形成部分由鄰接堿基對之間的堆疊驅(qū)動。此堆疊過程涉及比三級相互作用形成所涉及能量更大的能量(tinoco等人,“howrnafolds”,j.mol.biol.293:271-281(1999))。rna折疊能部分取決于rna分子中二級結(jié)構(gòu)的存在(flamm等人,“rnafoldingatelementarystepresolution”,rna6:325-338(2000))。經(jīng)設(shè)計以確定整體最小和接近最優(yōu)的結(jié)構(gòu)以及定量折疊能的算法可以結(jié)合本文所描述方法使用(zuker,m.(1989)science244,48-52)。已經(jīng)開發(fā)了若干軟件平臺用于預(yù)測核酸分子的三級結(jié)構(gòu)。因此,適用于本文所描述方法的計算rna折疊能的方法可以是本領(lǐng)域中已知的任何方法,包括(但不限于)適用于確定既定結(jié)構(gòu)的最小自由吉布斯能的算法和/或適用于確定既定rna分子結(jié)構(gòu)的配分函數(shù)的算法。已經(jīng)開發(fā)了許多工具用于通過使用熱力學(xué)方法(吉布斯自由能)預(yù)測rna的二級結(jié)構(gòu)。不希望受理論所束縛,基于熱力學(xué)的結(jié)構(gòu)預(yù)測依賴于如下推測:最小吉布斯自由能(mfe)結(jié)構(gòu)(即其中rna分子具有最低自由能的結(jié)構(gòu))是所述rna分子的最可能的構(gòu)象,盡管rna分子的次優(yōu)折疊本質(zhì)上可能另外存在。舉例來說,熱力學(xué)計算方法可以并非始終準確地考慮潛在三級相互作用,因此rna分子的真實結(jié)構(gòu)可以是次優(yōu)折疊模式。存在兩種基于熱力學(xué)的算法方法:(1)鑒別根據(jù)特納模型(turnermodel)具有最小自由能(mfe)的一種結(jié)構(gòu)(mathews等人,j.mol.biol.,288,911-940(1999);turner和mathews,nucleicacidsresearch,38,d280-d283(2009));或(2)計算涉及全部結(jié)構(gòu)的配分函數(shù)。根據(jù)本文所描述方法,在某些實施例中,rna分子的最小自由能結(jié)構(gòu)(即最穩(wěn)定結(jié)構(gòu))用以代表既定rna序列的總體構(gòu)象能量學(xué)。根據(jù)本文所描述方法,在某些實施例中,配分函數(shù)方法用以代表既定rna序列的總體構(gòu)象能量學(xué)。在最小自由能方法中,最小自由能可以遞歸地計算。因為特納模型是加性的,所以總自由能是子結(jié)構(gòu)的自由能的總和。因此,子結(jié)構(gòu)的最小自由能可以經(jīng)計算和組裝以遞歸地得到更大的子結(jié)構(gòu)的最小自由能。rna分子的最小自由能結(jié)構(gòu)可以使用本領(lǐng)域中已知的任何方法計算,所述方法包括(但不限于)mfold算法。mfold程序通過探查核酸序列中的所有可能堿基對確定最小自由能構(gòu)象(最穩(wěn)定)(zuker和stiegler,nucleicacidsres.9(1)(1981),133-148;zuker,science,244,48-52,(1989);jaeger等人,procnatlacadsciusa,biochemistry,86:7706-7710(1989);jaeger等人,predictingoptimalandsuboptimalsecondarystructureforrna.“molecularevolution:computeranalysisofproteinandnucleicacidsequences”,r.f.doolittle編,methodsinenzymology,183,281-306(1989);全部以引用的方式并入本文中)。適用于本文所描述方法的評估rna折疊的其它方法包括基于配分函數(shù)的方法。配分函數(shù)給出了二級結(jié)構(gòu)的玻爾茲曼集(boltzmannensemble)的堿基配對概率。在基于配分函數(shù)的方法中,所有可能的二級結(jié)構(gòu)構(gòu)象和其對應(yīng)的能量中的每一者經(jīng)計算以通過基于配分函數(shù)計算產(chǎn)生既定堿基配對的概率確定最普遍的構(gòu)象。因此,rna分子的最普遍的構(gòu)象可能與存在多個次優(yōu)構(gòu)象的最小吉布斯自由能(mfe)結(jié)構(gòu)不相同。如果既定rna分子不具有次優(yōu)折疊,那么配分結(jié)構(gòu)將等效于最小吉布斯自由能結(jié)構(gòu)。在配分函數(shù)方法中,所有狀態(tài)(并非僅一個mfe狀態(tài))的自由能都有貢獻。g=-ktlog[sum_sexp{-g_s/kt}]。指數(shù)是涉及每個狀態(tài)的熱概率的玻爾茲曼權(quán)重。所有玻爾茲曼權(quán)重的總和稱為配分函數(shù)。平均熱能kt=(玻爾茲曼因子)(絕對溫度)。配分函數(shù)g考慮了所有狀態(tài)的混合熵。配分函數(shù)計算可以依賴于與用以計算mfe相同的動態(tài)程序化算法方法(mccaskill(1990))。在某些實施例中,根據(jù)本文所描述方法的rna序列的總預(yù)測折疊自由能通過基于配分函數(shù)的方法計算。示例性基于配分函數(shù)的方法包括mccaskillbiopolymers,29,1105-1119(1990)中描述的方法。適用于本文所描述方法的另一基于配分函數(shù)的方法包括rna二級結(jié)構(gòu)預(yù)測程序rnastructure(參看proc.natl.acad.sci.,101,7287-7292(2004))。rnastructure是使用體外測量的經(jīng)驗?zāi)芰恐殿A(yù)測rna構(gòu)象和其相對自由能的折疊算法。mfe和配分函數(shù)方法兩者都以rnastructure代碼實施。算法可以用以預(yù)測rna序列的最低自由能結(jié)構(gòu)和堿基配對概率,并且可以使用實驗數(shù)據(jù)(包括形狀、酶裂解和化學(xué)改性可行性)限定。適用于本文所描述方法的另一基于配分函數(shù)的方法包括sfold算法(ding和lawrence(2003)nucleicacidsres.31(24):7280-301;ding等人,(2004)nucleicacidsres.32(網(wǎng)絡(luò)服務(wù)器期號):w135-41;ding等人,(2005)rna.11(8):1157-66;chan等人,bioinformatics21(20):3926-8)。sfold算法使用通過配分函數(shù)概率加權(quán)的所有可能結(jié)構(gòu)的統(tǒng)計抽樣,其不取決于自由能最小化。能夠計算最小吉布斯自由能(mfe)結(jié)構(gòu)和基于配分函數(shù)的結(jié)構(gòu)兩者的算法也是本領(lǐng)域中已知的。舉例來說,viennarna封裝通過使用兩種動態(tài)程序化算法預(yù)測二級結(jié)構(gòu):zuker和stiegler的最小自由能算法(nucl.acid.res.9:133-148(1981))和mccaskill的配分函數(shù)算法(biopolymers29,1105-1119(1990))。參看hofacker等人,jmolbiol319,1059(2002年6月21日).適用于本文所描述方法的其它rna折疊算法包括(但不限于)kinefold(xayaphoummine等人,(2003)proc.natl.acad.sci.u.s.a.100(26):15310-5;xayaphoummine等人,(2005)nucleicacidsres.33(網(wǎng)絡(luò)服務(wù)器期號):w605-10)、centroifold(hamada等人(2009))、contrafold(do等人,(2006)bioinformatics22(14):90-8)、cylofold(bindewald等人,(2010)nucleicacidsres.增刊(w):368-72)、pknotsrg(reeder等人,(2007)nucleicacidsres.35(網(wǎng)絡(luò)服務(wù)器期號):w320-4;bompfünewerer等人,(2008)j.mathbiol.,56(1-2):129-144)、rnashapes(giegerich等人,(2004)nucleicacidsres.32(16):4843-4851;voβb等人,(2006).bmcbiol.4:5)和unafold(markhamnr和zukerm(2008)methodsmol.biol453:3-31)。適用于本文所描述方法的其它rna折疊算法包括以下文獻中描述的方法:dirks和pierce(2003)j.comput.chem.24,1664-1677;dirks和pierce(2004)j.comput.chem.25,1295-1304;han和byun(2003)nucleicacidsres.31,3432-3440。在某些方面,rna折疊算法可以用以計算rna分子的部分或全部的折疊能。舉例來說,在某些實施例中,本文所描述方法涉及如下發(fā)現(xiàn):編碼多肽的mrna的5'端處或附近的計算窗中的二級結(jié)構(gòu)的更大穩(wěn)定性與多肽在表達系統(tǒng)中的降低表達相關(guān)。因此,在某些實施例中,本文所描述的rna折疊算法可以應(yīng)用于rna序列的計算窗以確定由rna編碼的多肽的表達是否可以通過降低計算窗內(nèi)rna結(jié)構(gòu)的穩(wěn)定性而增加。計算窗可以具有任何大小,并且對于既定rna序列,可以計算多個計算窗的折疊能。在使用多個計算窗時,窗可以是沿著rna序列連續(xù)、非連續(xù)或重疊的。本領(lǐng)域技術(shù)人員將了解,本文所描述方法可以適于任何表達系統(tǒng)、多肽或表達載體,并且其它表達系統(tǒng)、多肽或表達載體的定量閾值可以不同于本文所描述的定量閾值。在某些方面,本發(fā)明涉及如下發(fā)現(xiàn):當rna序列的預(yù)測折疊能低于閾值水平時,折疊能決定了由rna序列編碼的多肽的降低表達。因此,在某些實施例中,本文所描述方法適用于預(yù)測rna去折疊能何時抑制由rna編碼的多肽的表達。本文所描述方法還適用于確定降低編碼多肽的rna的rna去折疊能何時可以適用于增加由rna編碼的多肽的表達。rna分子的二級結(jié)構(gòu)的穩(wěn)定性可以定量為在堿基對形成后釋放或使用的自由能的量。因為自由能是加性的,所以rna二級結(jié)構(gòu)的總自由能可以通過累加結(jié)構(gòu)中的組件自由能確定。rna分子的自由能的測量單位可以以kcal/mol的單位定義。在一個實施例中,以基本上由編碼多肽的核酸序列的編碼序列的前48個堿基加功能性地連接到編碼序列的5'utr序列約90個核酸組成的計算窗內(nèi)測量,約-39kcal/mol或更高的rna序列的預(yù)測折疊自由能閾值將預(yù)示由核酸編碼的多肽將以合適的水平在表達系統(tǒng)中表達。在某些實施例中,以基本上由編碼多肽的核酸序列的編碼序列的前48個堿基加功能性地連接到編碼序列的5'utr序列約90個核酸組成的計算窗內(nèi)測量,約-35kcal/mol或更高的rna序列的預(yù)測折疊自由能閾值將預(yù)示由核酸編碼的多肽將以合適的水平在表達系統(tǒng)中表達。在某些實施例中,以基本上由編碼多肽的核酸序列的編碼序列的前48個堿基加功能性地連接到編碼序列的5'utr序列約90個核酸組成的計算窗內(nèi)測量,約-30kcal/mol或更高的rna序列的預(yù)測折疊自由能閾值將預(yù)示由核酸編碼的多肽將以合適的水平在表達系統(tǒng)中表達。在某些實施例中,以基本上由編碼多肽的核酸序列的編碼序列的前48個堿基加功能性地連接到編碼序列的5'utr序列約90個核酸組成的計算窗內(nèi)測量,約-25kcal/mol或更高的rna序列的預(yù)測折疊自由能閾值將預(yù)示由核酸編碼的多肽將以合適的水平在表達系統(tǒng)中表達。在某些實施例中,以基本上由編碼多肽的核酸序列的編碼序列的前48個堿基加功能性地連接到編碼序列的5'utr序列約90個核酸組成的計算窗內(nèi)測量,約-20kcal/mol或更高的rna序列的預(yù)測折疊自由能閾值將預(yù)示由核酸編碼的多肽將以合適的水平在表達系統(tǒng)中表達。在某些實施例中,以基本上由編碼多肽的核酸序列的編碼序列的前48個堿基組成的計算窗內(nèi)測量,約-10kcal/mol或更高的rna序列的預(yù)測折疊自由能閾值將預(yù)示由核酸編碼的多肽將以合適的水平在表達系統(tǒng)中表達。在某些實施例中,以基本上由編碼多肽的核酸序列的編碼序列的前48個堿基組成的計算窗內(nèi)測量,至少約-5kcal/mol的rna序列的預(yù)測折疊自由能閾值將預(yù)示由核酸編碼的多肽將以合適的水平在表達系統(tǒng)中表達。在一個實施例中,如在編碼序列的前48個堿基下游的核酸序列內(nèi)所測量,rna序列的預(yù)測折疊自由能范圍可以預(yù)示由核酸編碼的多肽將在表達系統(tǒng)中表達。更具體地說,在某些實施例中,編碼序列的前48個堿基下游的核酸序列的rna序列的預(yù)測折疊自由能范圍可以在一個或多個計算窗中測量以便覆蓋編碼序列的前48個堿基下游的序列的長度。在某些實施例中,在尾序列中的一個或多個窗內(nèi)計算的rna序列的預(yù)測折疊自由能閾值可以預(yù)示由核酸編碼的多肽將以適合水平在表達系統(tǒng)中表達。在某些實施例中,窗在尾序列的長度內(nèi)不重疊。在某些實施例中,窗重疊。尾序列中的窗的重疊可以選自長度為1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、2930、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或多于50個核酸的重疊。在某些實施例中,窗的長度是144個核酸。在某些實施例中,窗的長度是96個核酸。在某些實施例中,窗的長度是48個核酸。在某些實施例中,對應(yīng)于尾序列內(nèi)的一個或多個尾序列窗中的每一者的rna序列的預(yù)測折疊自由能范圍在約(-0.32*(w-18))kcal/mol減10kcal/mol或加5kcal/mol范圍內(nèi),其中w是尾序列窗中的核苷酸數(shù)目,將預(yù)示由核酸編碼的多肽將以適合水平在表達系統(tǒng)中表達。在某些實施例中,當尾區(qū)的窗是大致約96個核酸長時,本文所描述方法涉及增加編碼序列中的前48個核酸下游的序列窗中的rna序列預(yù)測折疊自由能將在約-40kcal/mol到約-20kcal/mol范圍內(nèi)。在某些實施例中,本文所描述方法因此,應(yīng)了解,降低基本上包含少于前48個堿基的rna計算窗的去折疊能的誘變技術(shù)可以用以改進由rna編碼的多肽的表達。在某些方面,本發(fā)明是針對產(chǎn)生經(jīng)修飾rna序列的方法,所述rna序列能夠通過降低包含rna的編碼序列中的約前48個核酸的序列窗內(nèi)的一種或多種rna結(jié)構(gòu)的穩(wěn)定性來引導(dǎo)與相應(yīng)野生型rna序列相比更高的多肽表達。舉例來說,本文所描述方法可以經(jīng)實施以基于編碼特定多肽的rna分子的rna折疊能預(yù)測性地對表達分級?;蛘撸疚乃枋龇椒梢杂靡詢?yōu)化或設(shè)計適用于在表達系統(tǒng)中產(chǎn)生多肽的改進的表達載體。在某些方面,本文所描述方法可以用以根據(jù)rna折疊能對由rna編碼的多肽表達的效應(yīng)的相關(guān)性降低rna折疊能。在一個方面,本發(fā)明是針對一種編碼重組多肽的核酸,其已經(jīng)經(jīng)過突變以降低編碼多肽的核酸序列的5'非翻譯和/或編碼區(qū)序列的折疊能。在另一實施例中,本文所描述方法是針對產(chǎn)生此類突變的方法。本領(lǐng)域技術(shù)人員將了解,如本文所述的增加多肽表達的方法可能受編碼多肽的rna分子固有的某些結(jié)構(gòu)特征限制。舉例來說,應(yīng)理解,夏因-達爾加諾和起始密碼子序列的功能完整性可以維持以用于蛋白質(zhì)表達。因此,在某些實施例中,根據(jù)本文所描述方法增加多肽表達的修飾僅僅在rna分子中的編碼序列區(qū)上進行。在某些實施例中,根據(jù)本文所描述方法增加多肽表達的修飾在不包括夏因-達爾加諾序列的區(qū)上進行。在某些實施例中,根據(jù)本文所描述方法增加多肽表達的修飾在不包括翻譯起始序列的區(qū)上進行。在某些實施例中,根據(jù)本文所描述方法增加多肽表達的修飾在不包括轉(zhuǎn)錄啟動子序列的區(qū)上進行。rna結(jié)構(gòu)的預(yù)測折疊自由能取決于多種與結(jié)構(gòu)中的配對配置相關(guān)的參數(shù)。此類參數(shù)包括(但不限于)堿基對堆疊和內(nèi)部堿基對、內(nèi)部、凸出和發(fā)夾環(huán)以及限定的基序。這些參數(shù)中的每一者對rna結(jié)構(gòu)穩(wěn)定性的效應(yīng)也是本領(lǐng)域中已知的。舉例來說,已知影響rna結(jié)構(gòu)穩(wěn)定性的參數(shù)包括gc相較于au和gu堿基對的數(shù)目、莖區(qū)中堿基對的數(shù)目、發(fā)夾環(huán)區(qū)中堿基對的數(shù)目、內(nèi)部環(huán)中非配對堿基的數(shù)目和凸出中非配對堿基的數(shù)目。因此,本領(lǐng)域技術(shù)人員將容易了解,本文所描述方法可以與降低rna計算窗內(nèi)的rna結(jié)構(gòu)的穩(wěn)定性以便增加由rna編碼的多肽在表達系統(tǒng)中表達的已知方法結(jié)合使用。因此,在某些實施例中,本文所描述方法可以用以通過相對于au和gu堿基對數(shù)目減少窗內(nèi)gc堿基對數(shù)目或?qū)c數(shù)目減少到(并且包括)零gc對來降低rna計算窗中的rna結(jié)構(gòu)的穩(wěn)定性。在某些實施例中,本文所描述方法可以用以通過增加窗內(nèi)內(nèi)部環(huán)中的非配對堿基的數(shù)目來降低rna計算窗中的rna結(jié)構(gòu)的穩(wěn)定性。在某些實施例中,本文所描述方法可以用以通過增加窗內(nèi)凸出中的非配對堿基的數(shù)目來降低rna計算窗中的rna結(jié)構(gòu)的穩(wěn)定性。在某些實施例中,本文所描述方法可以用以通過減少窗內(nèi)莖區(qū)中的堿基對的數(shù)目以便產(chǎn)生較大環(huán)或凸出來降低rna計算窗中的rna結(jié)構(gòu)的穩(wěn)定性。在某些實施例中,本文所描述方法可以用以通過增加窗內(nèi)環(huán)區(qū)中的堿基對的數(shù)目來降低rna計算窗中的rna結(jié)構(gòu)的穩(wěn)定性。在一個實施例中,rna結(jié)構(gòu)的穩(wěn)定性可以通過引入具有8個或更多個堿基的環(huán)或凸出而降低。本文所描述的改進多肽表達的方法還可以與本領(lǐng)域已知適用于改進多肽產(chǎn)生的任何其它方法組合。舉例來說,本文所描述方法可以用以通過用編碼多肽的rna的編碼序列引入一個或多個修飾來改進多肽表達。在此類情況下,可能適用的是在不改變多肽的氨基酸序列的情況下這樣做。在改變表達的修飾處于rna序列的編碼區(qū)中的實施例中,改變表達的修飾可以置換密碼子序列,以便修飾不改變由核酸編碼的氨基酸。舉例來說,在增加表達的修飾是ctg密碼子的情況下,通過突變置換的編碼序列可以是aga、agg、cga、cgc或cgg密碼子中任一者,其中的每一者還編碼精氨酸。在增加表達的修飾是gcg密碼子的情況下,通過突變置換的編碼序列可以是gct、gca或gcc密碼子中任一者,其中的每一者還編碼丙氨酸。在增加表達的修飾是ggg密碼子的情況下,通過突變置換的編碼序列可以是ggt、gga或ggc密碼子中任一者,其中的每一者還編碼甘氨酸。本領(lǐng)域技術(shù)人員可以容易通過參考遺傳密碼或rna或dna密碼子表,確定如何改變密碼子內(nèi)的一個或多個核苷酸位置而不改變所編碼的氨基酸。典型氨基酸以及其三字母和一字母縮寫是丙氨酸(ala)a、谷氨酰胺(gln)q、亮氨酸(leu)l、絲氨酸(ser)s、精氨酸(arg)r、谷氨酸(glu)e、賴氨酸(lys)k、蘇氨酸(thr)t、天冬酰胺(asn)n、甘氨酸(gly)g、甲硫氨酸(met)m、色氨酸(trp)w、天冬氨酸(asp)d、組氨酸(his)h、苯丙氨酸(phe)f、酪氨酸(tyr)y、半胱氨酸(cys)c、異亮氨酸(ile)i、脯氨酸(pro)p、纈氨酸(val)v。在其它實施例中,本文所描述方法適用于通過在多肽的氨基酸序列中進行一個或多個保守取代來改變重組多肽的表達。此類突變可以導(dǎo)致一個或多個不同氨基酸經(jīng)編碼,或可以導(dǎo)致一個或多個氨基酸對于氨基酸序列缺失或添加到氨基酸序列。如果改變表達的修飾的確影響所編碼的氨基酸,那么有可能作出一個或多個不會不利地影響所編碼的多肽的結(jié)構(gòu)、功能或免疫原性的氨基酸改變。舉例來說,由突變核酸編碼的突變多肽可以具有與野生型多肽實質(zhì)上相同的結(jié)構(gòu)和/或功能和/或免疫原性。一些氨基酸改變有可能導(dǎo)致改變的免疫原性,并且本領(lǐng)域技術(shù)人員將認識到此類修飾何時適當或不適當。本領(lǐng)域技術(shù)人員已知,具有一個或多個保守氨基酸取代的多肽未必會導(dǎo)致多肽相對于野生型多肽具有顯著不同活性、功能或免疫原性。當一個氨基酸殘基經(jīng)具有類似側(cè)鏈的另一氨基酸殘基置換時,保守氨基酸取代發(fā)生。具有類似側(cè)鏈的氨基酸殘基的家族已經(jīng)在本領(lǐng)域中定義,包括堿性側(cè)鏈(例如,賴氨酸、精氨酸、組氨酸)、酸性側(cè)鏈(例如,天冬氨酸、谷氨酸)、不帶電極性側(cè)鏈(例如,甘氨酸、天冬酰胺、谷氨酰胺、絲氨酸、蘇氨酸、酪氨酸、半胱氨酸)、非極性側(cè)鏈(例如,丙氨酸、纈氨酸、亮氨酸、異亮氨酸、脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸)、β-支鏈的側(cè)鏈(例如,蘇氨酸、纈氨酸、異亮氨酸)、芳香族側(cè)鏈(例如,酪氨酸、苯丙氨酸、色氨酸、組氨酸)、脂肪族側(cè)鏈(例如,甘氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨酸)和含硫側(cè)鏈(甲硫氨酸、半胱氨酸)。取代還可以在酸性氨基酸與其對應(yīng)的酰胺(例如,天冬酰胺與天冬氨酸,或谷氨酰胺與谷氨酸)之間進行。舉例來說,用異亮氨酸置換亮氨酸對經(jīng)修飾重組多肽相對于未經(jīng)修飾重組多肽的特性可能不具有重大效應(yīng)。本文所描述方法還可以與題目為改變多肽表達和溶解性的方法(methodsforalteringpolypeptideexpressionandsolubility)的國際專利申請pct/us11/24251中公開的方法結(jié)合使用,所述申請以全文引用的方式并入?;谕x密碼子可以對蛋白質(zhì)產(chǎn)生具有差異性效應(yīng)的發(fā)現(xiàn),pct/us11/24251描述了通過使用密碼子置換策略來改變多肽的表達或溶解性的方法。因此,在某些實施例中,本文所描述方法可以用以通過根據(jù)本文所描述方法降低rna分子的二級結(jié)構(gòu)和改變rna的編碼序列中的一個或多個密碼子以便進一步增加蛋白質(zhì)的溶解性或表達,來增加由rna編碼的多肽的表達。在另一實施例中,出于根據(jù)本文所描述方法降低編碼序列中的rna結(jié)構(gòu)的穩(wěn)定性的目的產(chǎn)生突變可以通過使誘變策略偏倚以選擇增加溶解性或表達的密碼子來進行,如pct/us11/24251中所闡述。舉例來說,在經(jīng)設(shè)計以根據(jù)本文所描述方法降低rna結(jié)構(gòu)穩(wěn)定性的誘變策略中,其中所述方法涉及在包含rna的編碼序列的rna計算窗中進行以下中任一者:(a)相對于au和gu堿基對數(shù)目減少gc堿基對數(shù)目、(b)減少莖區(qū)中的堿基對的數(shù)目、(c)改變發(fā)夾環(huán)區(qū)中的堿基對的數(shù)目、(d)引入具有多于8個核苷酸的發(fā)夾環(huán)、(e)增加內(nèi)部環(huán)中的非配對堿基的數(shù)目或(f)增加凸出中的非配對堿基的數(shù)目,如果密碼子的誘變還降低序列窗內(nèi)的rna結(jié)構(gòu)的穩(wěn)定性,那么誘變策略可以涉及用ctg密碼子置換選自aga、agg、cga或cgc中任一者的精氨酸密碼子。pct/us11/24251中提供的其它增加表達和溶解性的密碼子取代可以與本文所描述方法結(jié)合使用。本領(lǐng)域中已知用于改變重組多肽在表達系統(tǒng)中的表達(例如人類多肽于細菌細胞中的表達)的任何技術(shù)也適用于本文所描述方法,包括如國際專利申請pct/us11/24251中所描述的增加或降低多肽的表達或溶解性的方法。已經(jīng)開發(fā)用以促進表達的技術(shù)通常集中于優(yōu)化目的多肽自身以外的因素(makrides(1996)microbiologyandmolecularbiologyreviews60:512;sorensen和mortensen(2005)journalofbiotechnology115:113-128)。改變表達的技術(shù)是本領(lǐng)域中已知的,包括(但不限于)融合伴侶(包括mbp(kapust和waugh(1999)prs8:1668-1674)、smt(lee等人(2008)polypeptidesci.17:1241-1248)和mistic(kefala等人(2007)journalofstructuralandfunctionalgenomics8:167-172))的共表達、密碼子增強(carstens(2003)methodsinmolecularbiology205:225-234;christen等人(2009)polypeptideexpressionandpurification)或優(yōu)化(gustafsson等人(2004)trendsinbiotechnology22:346-353;kim等人(1997)gene199:293-301;hatfieldgw,rothda(2007)biotechnolannurev13:27-42)(包括去除5'rna二級結(jié)構(gòu)(etchegaray和inouye(1999)journalofbiologicalchemistry274:10079-10085))和使用蛋白酶缺陷株(gottesman(1990)methodsinenzymology185:119)。已經(jīng)開發(fā)具體地用以改進重組多肽的溶解性的技術(shù)包括伴侶蛋白共表達(tresaugues等人(2004)journalofstructuralandfunctionalgenomics5:195-204;mogk等人2002chembiochem3,807;buchner,fasebj.199610,10;beissinger和buchner,1998.j.biol.chem.379,245))、與增強溶解性的標簽或多肽域的融合(kapust和waugh(1999)prs8:1668-1674;davis等人(1999)biotechnologyandbioengineering65)、在較低溫度下表達(makrides(1996)microbiologyandmolecularbiologyreviews60:512)、熱休克(chen等人(2002)journalofmolecularmicrobiologyandbiotechnology4:519-524)、于不同生長培養(yǎng)基中表達(makrides(1996)microbiologyandmolecularbiologyreviews60:512;georgiou和valax(1996)currentopinioninbiotechnology7:190-197)、降低多肽表達水平(例如,通過使用較少誘導(dǎo)子或較弱啟動子(wagner等人(2008)proc.natl.acad.sci.u.s.a105:14371-14376))、定向進化(pédelacq等人(2002)naturebiotechnology20:927-932;waldo(2003)currentopinioninchemicalbiology7:33-38)和合理誘變(dale等人(1994)polypeptideengineeringdesignandselection7:933-939)。大腸桿菌已經(jīng)充當表征基礎(chǔ)細胞生物化學(xué)的模型系統(tǒng)超過50年,并且對包括人類的其它生物體的生物化學(xué)的深刻理解來源于在大腸桿菌中進行的研究。因此,獲自本文所描述的大腸桿菌數(shù)據(jù)挖掘研究的結(jié)果也可以適用于任何活細胞中或基于核糖體的體外翻譯系統(tǒng)中的蛋白質(zhì)表達。另外,所述方法還涉及從頭設(shè)計合成基因和增強其編碼多肽或多肽產(chǎn)物于宿主細胞中的積聚的方法。本文所描述方法可以用以增加或降低表達于本領(lǐng)域中已知的任何類型的表達系統(tǒng)中的多肽的表達。適用于本文所描述方法的表達系統(tǒng)包括(但不限于)體外表達系統(tǒng)和體內(nèi)表達系統(tǒng)。例示性體外表達系統(tǒng)包括(但不限于)無細胞轉(zhuǎn)錄/翻譯系統(tǒng)(例如,基于核糖體的蛋白質(zhì)表達系統(tǒng))。若干此類系統(tǒng)是本領(lǐng)域中已知的(參看例如,tymms(1995)invitrotranscriptionandtranslationprotocols:methodsinmolecularbiology第37卷,garlandpublishing,ny)。例示性體內(nèi)表達系統(tǒng)包括(但不限于)原核表達系統(tǒng),如細菌(例如,大腸桿菌和枯草芽孢桿菌(b.subtilis));和真核表達系統(tǒng),包括酵母表達系統(tǒng)(例如,釀酒酵母)、蠕蟲表達系統(tǒng)(例如秀麗隱桿線蟲(caenorhabditiselegans))、昆蟲表達系統(tǒng)(例如sf9細胞)、植物表達系統(tǒng)、兩棲動物表達系統(tǒng)(例如黑色素細胞)、脊椎動物(包括人體)組織培養(yǎng)物細胞和遺傳工程化或病毒感染的完整動物。在另一實施例中,本發(fā)明是針對一種具有基因組的突變細胞,其已經(jīng)經(jīng)過突變以包含一個或多個如本文所述的改變表達的修飾。在另一實施例中,本發(fā)明是針對一種重組細胞(例如原核細胞或真核細胞),其含有包含一個或多個如本文所述的改變表達的修飾的核酸序列。本文所描述方法可以適用于生產(chǎn)用于商業(yè)應(yīng)用的多肽,包括(但不限于)生產(chǎn)疫苗、藥學(xué)上有價值的重組多肽(例如生長因子或其它醫(yī)學(xué)上有用的多肽)、能夠在藥物發(fā)現(xiàn)研究和基礎(chǔ)蛋白質(zhì)組研究中實現(xiàn)推進的試劑。根據(jù)本文所描述方法產(chǎn)生的多肽可以含有一個或多個經(jīng)修飾氨基酸。在某些非限制性實施例中,經(jīng)修飾氨基酸可以包括于根據(jù)本文所描述方法產(chǎn)生的多肽中,以便(a)增加多肽的血清半衰期、(b)降低多肽的抗原性、(c)增加多肽的儲存穩(wěn)定性或(d)改變多肽的活性或功能。氨基酸可以在重組產(chǎn)生期間例如共翻譯或翻譯后地修飾(例如,在于哺乳動物細胞中表達期間n-x-s/t基序處的n-連接糖基化)或通過合成手段修飾。適用于本文所描述方法的經(jīng)修飾氨基酸的實例包括(但不限于)糖基化氨基酸、硫酸化氨基酸、異戊二烯化(例如,法呢基化、香葉基香葉基化)氨基酸、乙酰化氨基酸、peg化氨基酸、生物素化氨基酸、羧化氨基酸、磷酸化氨基酸等。例示性方案和其它氨基酸可以見于walker(1998)proteinprotocolsoncd-romhumanpress,towata,n.j.中。本發(fā)明涵蓋編碼重組多肽的任何和所有核酸,其已經(jīng)經(jīng)過突變以包含如本文所述改變表達的修飾;以及產(chǎn)生此類突變的任何和所有方法,無關(guān)于所述核酸存在于病毒、質(zhì)體、表達載體中、以自由核酸分子形式存在還是存在于別處。本發(fā)明涵蓋任何和所有類型的由包含一個或多個如本文所述改變表達的修飾的核酸編碼的重組多肽。本發(fā)明不限于本文所描述的任何特定類型的重組多肽。實際上,其涵蓋由包含一個或多個如本文所述表達修飾的核酸編碼的任何和所有重組多肽??梢允褂帽疚乃枋龇椒óa(chǎn)生的多肽可以來自任何來源或起源,并且可以包括見于原核生物、病毒和真核生物(包括真菌、植物、酵母、昆蟲和動物(包括哺乳動物(例如,人類)))中的多肽??梢允褂帽疚乃枋龇椒óa(chǎn)生的多肽包括(但不限于)可以使用共同序列儲存庫鑒別的已知或假想或未知的任何多肽序列。此類序列儲存庫的實例包括(但不限于)genbankembl、ddbj和ncbi。其它儲存庫可以容易通過在因特網(wǎng)上搜尋而鑒別。可以使用本文所描述方法產(chǎn)生的多肽還包括與任何已知或可用多肽(例如,治療性多肽、診斷性多肽、工業(yè)酶或其部分等)具有至少約30%或更大一致性的多肽??梢允褂帽疚乃枋龇椒óa(chǎn)生的多肽還包括包含一個或多個非天然氨基酸的多肽。如本文所用,非天然氨基酸可以是(但不限于)包含一個部分的氨基酸,其中連接化學(xué)部分,如醛或酮衍生的氨基酸;或包括化學(xué)部分的非天然氨基酸。非天然氨基酸還可以是包含一個部分的氨基酸,其中可以連接糖部分;或包括糖部分的氨基酸??梢允褂帽疚乃枋龇椒óa(chǎn)生的例示性多肽包括(但不限于)細胞因子、炎癥分子、生長因子、其受體和致癌基因產(chǎn)物或其部分。細胞因子、炎癥分子、生長因子、其受體和致癌基因產(chǎn)物的實例包括(但不限于)例如α-1抗胰蛋白酶、血管抑制素、抗溶血因子、抗體(包括選自以下的抗體或其功能片段或衍生物:fab、fab'、f(ab)2、fd、fv、scfv、雙功能抗體、三功能抗體、四功能抗體、二聚體、三聚體或微抗體)、血管生成分子、血管抑制性分子、阿樸脂多肽(apolipopolypeptide)、阿樸多肽(apopolypeptide)、天冬酰胺酶、腺苷脫氨酶、心房利鈉因子、心房利鈉多肽、心房肽、血管收縮素家族成員、骨形態(tài)發(fā)生多肽(bmp-1、bmp-2、bmp-3、bmp-4、bmp-5、bmp-6、bmp-7、bmp-8a、bmp-8b、bmp-10、bmp-15等);c--x--c趨化因子(例如,t39765、nap-2、ena-78、gro-a、gro-b、gro-c、ip-10、gcp-2、nap-4、sdf-1、pf4、mig)、降血鈣素(calcitonin)、cc趨化因子(例如,單核細胞趨化多肽-1、單核細胞趨化多肽-2、單核細胞趨化多肽-3、單核細胞炎癥多肽-1α、單核細胞炎癥多肽-1β、rantes、1309、r83915、r91733、hcc1、t58847、d31065、t64262)、cd40配體、c-kit配體、睫狀神經(jīng)營養(yǎng)因子、膠原蛋白、菌落刺激因子(csf)、補體因子5a、補體抑制劑、補體受體1、細胞因子(例如,上皮嗜中性活化肽-78、groα/mgsa、groβ、groγ、mip-1α、mip-1δ、mcp-1)、脫氧核糖核酸、表皮生長因子(egf)、促紅細胞生成素(“epo”,代表通過并入一個或多個非天然氨基酸的修飾的優(yōu)選標靶)、剝脫性毒素a和b、因子ix、因子vii、因子viii、因子x、成纖維細胞生長因子(fgf)、纖維蛋白原、纖維結(jié)合蛋白、g-csf、gm-csf、葡糖腦苷脂酶、促性腺激素、生長因子、刺猬多肽(例如,聲音、印度、沙漠)、血紅蛋白、肝細胞生長因子(hgf)、肝炎病毒、水蛭素、人血清白蛋白、hyalurin-cd44、胰島素、胰島素樣生長因子(igf-i、igf-ii)、干擾素(例如,干擾素-α、干擾素-β、干擾素-γ、干擾素-ε、干擾素-ζ、干擾素-η、干擾素-κ、干擾素-λ、干擾素-t、干擾素-ζ、干擾素-ω)、胰高血糖素樣肽(glp-1)、glp-2、glp受體、胰高血糖素、glp-1r的其它激動劑、利鈉肽(anp、bnp和cnp)、fuzeon和hiv融合物的其它抑制劑、hurudin和相關(guān)抗凝血肽、前動力蛋白和相關(guān)激動劑,包括黑曼巴蛇(blackmambasnake)毒液、trail、rank配體和其拮抗劑的類似物、降血鈣素、淀粉素和其它葡糖調(diào)節(jié)性肽激素和fc片段、艾生丁(exendin)(包括艾生丁-4)、艾生丁受體、白介素(例如,il-1、il-2、il-3、il-4、il-5、il-6、il-7、il-8、il-9、il-10、il-11、il-12等)、i-cam-1/lfa-1、角質(zhì)細胞生長因子(kgf)、乳鐵傳遞蛋白、白血病抑制因子、熒光素酶、神經(jīng)營養(yǎng)因子、嗜中性粒細胞抑制因子(nif)、抑瘤素m、成骨性多肽、副甲狀腺激素、pd-ecsf、pdgf、肽激素(例如,人類生長激素)、致癌基因產(chǎn)物(mos、rel、ras、raf、met等)、多效生長因子、多肽a、多肽g、致熱外毒素a、b和c、松弛素、腎素、核糖核酸、scf/c-kit、信號轉(zhuǎn)錄活化劑和抑制劑(p53、tat、fos、myc、jun、myb等)、可溶補體受體1、可溶i-cam1、可溶白介素受體(il-1、2、3、4、5、6、7、9、10、11、12、13、14、15)、可溶粘附分子、可溶tnf受體、生長調(diào)節(jié)素、生長抑素、促生長素、鏈激酶、超抗原,即葡萄球菌腸毒素(sea、seb、sec1、sec2、sec3、sed、see)、類固醇激素受體(如用于雌激素、孕酮、睪酮、醛固酮、ldl受體配體和皮質(zhì)酮的類固醇激素受體)、超氧化歧化酶(sod)、toll樣受體(如鞭毛蛋白)、中毒性休克綜合癥毒素(tsst-1)、胸腺素a1、組織纖溶酶原活化劑、轉(zhuǎn)型生長因子(tgf-α、tgf-β)、腫瘤壞死因子β(tnfβ)、腫瘤壞死因子受體(tnfr)、腫瘤壞死因子-α(tnfα)、轉(zhuǎn)錄調(diào)節(jié)劑(例如,調(diào)節(jié)細胞生長、分化和/或細胞調(diào)節(jié)的基因和轉(zhuǎn)錄模塊化多肽)、血管內(nèi)皮生長因子(vegf)、病毒樣粒子、vla-4/vcam-1、尿激酶、信號轉(zhuǎn)導(dǎo)分子、雌激素、孕酮、睪酮、醛固酮、ldl、皮質(zhì)酮??梢允褂帽疚乃枋龇椒óa(chǎn)生的其它多肽包括(但不限于)酶(例如,工業(yè)酶)或其部分。酶的實例包括(但不限于)酰胺酶、氨基酸消旋酶、?;浮⒚擕u素酶、雙加氧酶、二芳基丙烷過氧化物酶、表異構(gòu)酶、環(huán)氧化物水解酶、酯酶、異構(gòu)酶、激酶、葡萄糖異構(gòu)酶、糖苷酶、糖基轉(zhuǎn)移酶、鹵過氧化物酶、單加氧酶(例如,p450s)、脂肪酶、木質(zhì)素過氧化物酶、腈水合酶、腈水解酶、蛋白酶、磷酸酶、枯草桿菌蛋白酶、轉(zhuǎn)氨酶和核酸酶??梢允褂帽疚乃枋龇椒óa(chǎn)生的其它多肽包括(但不限于)農(nóng)業(yè)上相關(guān)的多肽,如昆蟲抗性多肽(例如,cry多肽)、淀粉和脂質(zhì)生產(chǎn)酶、植物和昆蟲毒素、毒素抗性多肽、霉菌毒素解毒多肽、植物生長酶(例如,核酮糖1,5-二磷酸羧化酶/加氧酶)、脂肪加氧酶和磷酸烯醇丙酮酸羧化酶??梢允褂帽疚乃枋龇椒óa(chǎn)生的多肽包括(但不限于)抗體、抗體的免疫球蛋白域和其片段。抗體的實例包括(但不限于)抗體、抗體片段、抗體衍生物、fab片段、fab'片段、f(ab)2片段、fd片段、fv片段、單鏈fv片段(scfv)、雙功能抗體、三功能抗體、四功能抗體、二聚體、三聚體和微抗體??梢允褂帽疚乃枋龇椒óa(chǎn)生的多肽可以是預(yù)防性疫苗或治療性疫苗多肽。預(yù)防性疫苗是向未感染疫苗經(jīng)設(shè)計以防御的病況的受試者投與的疫苗。在某些實施例中,預(yù)防性疫苗將在已接種疫苗的受試者中預(yù)防病毒確立感染,即其將提供全面保護性免疫。然而,即使其不提供全面保護性免疫,預(yù)防性疫苗仍可以賦予受試者一定的保護。舉例來說,預(yù)防性疫苗可以減少疾病的癥狀、降低嚴重程度和/或縮短持續(xù)時間。治療性疫苗經(jīng)投與以減小病毒感染在已感染所述病毒受試者中的影響。治療性疫苗可以減少疾病的癥狀、降低嚴重程度和/或縮短持續(xù)時間。如本文所述,疫苗多肽包括來自以下的多肽或多肽片段:傳染性真菌(例如,曲霉屬(aspergillus)、假絲酵母屬(candida))細菌(例如大腸桿菌、金黃色葡萄球菌(staphylococciaureus))或鏈球菌屬(streptococci)(例如,肺炎(pneumoniae));原生動物,如孢子蟲(例如,瘧原蟲(plasmodia))、根足蟲(例如,內(nèi)阿米巴屬(entamoeba))和鞭毛蟲(錐蟲屬(trypanosoma)、利什曼原蟲屬(leishmania)、毛滴蟲屬(trichomonas)、梨形鞭毛蟲屬(giardia)等);病毒,如(+)rna病毒(實例包括痘病毒,例如牛痘;小核糖核酸病毒,例如脊髓灰質(zhì)炎;披衣病毒,例如風(fēng)疹;黃病毒,例如hcv;和冠狀病毒)、(-)rna病毒(例如,棒狀病毒,例如vsv;副粘病毒,例如rsv;正粘病毒,例如流感;布尼亞病毒;和沙粒病毒)、dsdna病毒(例如呼腸孤病毒)、rna到dna病毒(即逆轉(zhuǎn)錄病毒,例如hiv和htlv)和某些dna到rna病毒(如b型肝炎)。在另一方面,本文所描述方法涉及一種使受試者針對病毒免疫的方法,其包含向受試者投與有效量的由包含一個或多個本文所述改變表達的修飾核酸序列編碼的重組多肽。在一個實施例中,本發(fā)明是針對一種使受試者針對病毒免疫的方法,其包含向受試者投與有效量的由包含一個或多個本文所述改變表達的修飾核酸序列編碼的重組多肽。在另一實施例中,本發(fā)明是針對一種組合物,其包含由包含一個或多個本文所述改變表達的修飾的核酸序列編碼的重組多肽,和選自由醫(yī)藥學(xué)上可接受的稀釋劑、載劑、賦形劑和佐劑組成的群組的另一組分??梢允褂帽疚乃枋龇椒óa(chǎn)生的多肽還可以進一步包含選自由以下組成群組的化學(xué)部分:細胞毒素、藥物、染料或熒光標記、親核或親電基團、酮或醛、疊氮化物或炔烴化合物、光籠鎖基團、標簽、肽、多肽、多肽、寡糖、具有任何分子量并且呈任何幾何形狀的聚乙二醇、聚乙烯醇、金屬、金屬絡(luò)合物、多元胺、咪唑、碳水化合物、脂質(zhì)、生物聚合物、粒子、固體載體、聚合物、靶向劑、親和基團、互補反應(yīng)性化學(xué)基團可以連接的任何試劑、生物物理或生物化學(xué)探針、同種型標記的探針、自旋標記氨基酸、熒光團、芳基碘化物和溴化物。包含一個或多個如本文所述改變表達的修飾的核酸序列還可以并入到適用于使重組多肽在表達系統(tǒng)中表達的載體中。包含一個或多個如本文所述表達改變修飾的核酸序列可以可操作地連接到任何類型的重組多肽,包括(但不限于)免疫原性多肽、抗體、激素、受體、配體等以及其片段、變異體、同源物和衍生物。改變表達的修飾可以通過本領(lǐng)域中已知的任何適合基因合成或誘變方法作出,包括(但不限于)定點誘變、寡核苷酸定向誘變、陽性抗生素選擇方法、獨特限制位點消除(use)、脫氧尿苷并入、硫代磷酸并入和基于pcr的誘變方法。此類方法的細節(jié)可以見于例如lewis等人(1990)nucl.acidsres.18,第3439頁;bohnsack等人(1996)meth.mol.biol.57,第1頁;vavra等人(1996)promeganotes58,30;alteredsitesiiinvitromutagenesissystemstechnicalmanual#tm001,promegacorporation;deng等人.(1992)anal.biochem.200,第81頁;kunkel等人(1985)proc.natl.acad.sci.usa82,第488頁;kunke等人(1987)meth.enzymol.154,第367頁;taylor等人(1985)nucl.acidsres.13,第8764頁;nakamaye等人(1986)nucl.acidsres.14,第9679頁;higuchi等人(1988)nucl.acidsres.16,第7351頁;shimada等人(1996)meth.mol.biol.57,第157頁;ho等人(1989)gene77,第51頁;horton等人(1989)gene77,第61頁;和sarkar等人(1990)biotechniques8,第404頁。用于進行定點誘變的眾多試劑盒是可商購的,如來自stratgeneinc.的quikchangeii定點誘變試劑盒和來自promegainc.的alteredsitesii體外誘變系統(tǒng)。此類可商購的試劑盒還可以用以使agg基序突變?yōu)榉莂gg序列。可以用以產(chǎn)生包含一個或多個如本文所述表達改變修飾的核酸序列的其它技術(shù)為本領(lǐng)域技術(shù)人員所熟知。參看例如sambrook等人(2001)molecularcloning:alaboratorymanual,第3版,coldspringharborlaboratory,coldspringharbor,n.y(“sambrook”)。任何質(zhì)體或表達載體可以用以表達本文所述重組多肽。本領(lǐng)域技術(shù)人員將能夠容易產(chǎn)生或鑒別含有啟動子以引導(dǎo)重組多肽于所期望的表達系統(tǒng)中表達的適合表達載體。舉例來說,如果多肽在細菌或人類細胞中產(chǎn)生,那么可以分別使用能夠引導(dǎo)于細菌或人類細胞中表達的啟動子。還可以使用已經(jīng)含有適合啟動子和用于添加外源核酸的克隆位點的可商購表達載體。本領(lǐng)域技術(shù)人員可以容易選擇適合載體并且將本發(fā)明的突變核酸插入到此類載體中。突變核酸可以在適合啟動子的控制下以引導(dǎo)重組多肽在表達系統(tǒng)中的表達。可以使用已經(jīng)存在于載體中的啟動子。或者,可以使用外源啟動子。適合啟動子的實例包括本領(lǐng)域中已知能夠引導(dǎo)重組多肽在表達系統(tǒng)中表達的任何啟動子。舉例來說,在細菌系統(tǒng)中,可以使用任何適合啟動子,包括t7啟動子、細菌噬菌體λ的pl、plac、ptrp、ptac(ptrp-lac混合啟動子)等。對于來自表達載體的重組多肽的表達重要的其它元件包括(但不限于)在表達載體上存在最小復(fù)制起點、轉(zhuǎn)錄終止元件(例如在原核細胞中,富g-c片段繼而聚t序列)、可選標記(例如對于原核宿主細胞,氨芐青霉素、四環(huán)素、氯霉素或卡那霉素)、核糖體結(jié)合元件(例如在原核生物中,夏因-達爾加諾序列)。本領(lǐng)域技術(shù)人員將能夠容易構(gòu)筑包含足以引導(dǎo)重組多肽在表達系統(tǒng)中表達的元件的表達載體。用表達載體轉(zhuǎn)型細胞的方法經(jīng)充分表征,并且包括(但不限于)磷酸鈣沉淀方法和或電穿孔方法。適用于表達本文所描述的重組多肽的例示性宿主細胞包括(但不限于)多種大腸桿菌菌株(例如,bl21、hb101、jm109、dh5α、dh10和mc1061)和脊椎動物組織培養(yǎng)細胞。本文所描述方法可以在硬件或軟件或兩者的組合中實施。在某些實施例中,本文所描述的折疊能計算方法可以在于可編程計算機上執(zhí)行的計算機程序中實施,所述可編程計算機各自包含處理器、數(shù)據(jù)存儲系統(tǒng)(包括易失性和非易失性存儲器和/或存儲元件)、至少一個輸入裝置和至少一個輸出裝置。程序代碼可以應(yīng)用于輸入數(shù)據(jù)以執(zhí)行本文所描述的功能和產(chǎn)生輸出信息。輸出信息可以以已知方式應(yīng)用于一個或多個輸出裝置。計算機可以是例如個人計算機、微型計算機、工作站、常規(guī)設(shè)計或布置的計算機簇群或大型主機。在某些實施例中,本文所描述方法可以以程序語言或面向?qū)ο蟮木幊陶Z言實施以與計算機系統(tǒng)通信。本文所描述方法還可以以匯編語言或機器語言實施。本文所描述方法可以存儲于通用或?qū)S每删幊逃嬎銠C可讀的存儲媒體或裝置(例如,rom、zip或磁盤)上,以便當存儲媒體或裝置由計算機讀取時配置和操作計算機以執(zhí)行本文所描述方法。由本文所描述方法產(chǎn)生的數(shù)據(jù)也可以包括于計算機可讀存儲器中并且可以在數(shù)據(jù)庫中管理。本文所描述方法還可以在并行計算機或處理器中處理以使得處理時間減少并且有助于所述方法的高通量應(yīng)用。以下實例說明本發(fā)明,并且闡述以幫助理解本發(fā)明,并且不應(yīng)理解為以任何方式限制如隨后的權(quán)利要求書中所定義的本發(fā)明范圍。實例1:控制大腸桿菌中的蛋白質(zhì)表達水平的mrna特征評估來自多種多樣的系統(tǒng)發(fā)生來源的6,348個蛋白質(zhì)編碼基因的表達(圖15)。使蛋白質(zhì)編碼基因在pet21中從細菌噬菌體t7啟動子轉(zhuǎn)錄,所述pet21是具有氨芐青霉素抗性標記的5.4kbpbr322衍生質(zhì)體(acton,t.b.等人(2005)methodsenzymol394,210-243)。此數(shù)據(jù)集歸因于不同生物體中密碼子使用頻率的變化而提供了密碼子空間的廣泛抽樣。細菌噬菌體聚合酶用以驅(qū)動轉(zhuǎn)錄以最小化因天然大腸桿菌rna聚合酶而使翻譯與轉(zhuǎn)錄偶合的可能混雜效應(yīng)(iost,i.等人(1995)emboj14,3252-3261;iost,i.等人(1992)jbacteriol174,619-622)。在18℃下在大腸桿菌菌株bl21λ(de3)中誘導(dǎo)蛋白質(zhì)表達過夜(acton,t.b.等人(2005)methodsenzymol394,210-243)。大腸桿菌菌株bl21λ(de3)在iptg誘導(dǎo)型啟動子的控制下在其染色體中編碼t7聚合酶的基因的單一拷貝。此菌株還含有pmgk,具有卡那霉素抗性標記的5.4kbpacyc177衍生質(zhì)體;laci基因的單一拷貝和編碼與精氨酸的aga密碼子同源的trna的argu基因的單一拷貝。所有蛋白質(zhì)都用相同八殘基c末端延伸(具有序列l(wèi)ehhhhh的親和標簽)表達。編碼此延伸的此dna序列在計算分析中省略。包括于本文所描述的大規(guī)模表達數(shù)據(jù)集中的蛋白質(zhì)共用小于60%序列一致性。在從0(無表達)到5(最高表達)的整數(shù)標度下對相同質(zhì)體的兩個分離株的蛋白質(zhì)表達水平評分。評分基于對全細胞溶解物的考馬斯藍染色的sds-page凝膠的目視檢查。評分還可以通過本領(lǐng)域中已知的任何適合方法進行,包括(但不限于)測量密度測定法、比色法、熒光法或放射性法。兩個分離株之間的得分變化很少超過±1。約30%蛋白質(zhì)給出得分0(1,754個蛋白質(zhì))或5(1,973個蛋白質(zhì)),而約40%給出中間得分(2,621個蛋白質(zhì))(price,w.n.等人(2011)microbialinformaticsandexperimentation1,6)。評估在大規(guī)模數(shù)據(jù)集中給出每個表達得分的基因中的多種mrna序列參數(shù)的分布(圖9與16)。此評估展現(xiàn)了提供高相較于低蛋白質(zhì)表達的基因之間的許多系統(tǒng)性差異。檢驗給出每個得分的基因的參數(shù)分布的直方圖(圖9a-d,f,g-i與16a,g,i)。參數(shù)分布的直方圖展示了隨得分增加的相對單調(diào)變化。還檢驗給出得分5相較于0的基因的數(shù)目比的自然對數(shù)作為每個參數(shù)值的函數(shù)的“對數(shù)優(yōu)勢比”曲線圖(圖9e,h,j與16b-f,h,j)。此檢驗可以用以提供直方圖中觀察到的趨勢的圖形化匯總。這些曲線圖還可以用于對大規(guī)模數(shù)據(jù)集中的mrna序列參數(shù)與蛋白質(zhì)表達水平之間的關(guān)系進行邏輯回歸建模,如下文所進行。雖然最高度表達的蛋白質(zhì)由具有大致相等含量的a、u、g和c堿基的mrna編碼(圖16b),但最優(yōu)堿基含量在基因中的密碼子中的三個不同位置處各異(圖16c-e)。此閱讀框相依性證實,密碼子翻譯特性顯著影響蛋白質(zhì)表達水平。增加一些密碼子的頻率與更高或更低蛋白質(zhì)表達水平相關(guān)。展示最強表達增強效應(yīng)的密碼子是谷氨酸的gaa密碼子。同義gag密碼子對于所有表達得分展示等效頻率分布(圖9a,b,e)。展示最強表達減弱效應(yīng)之一的密碼子是異亮氨酸的aua密碼子。同義auc和auu密碼子分別展示了中立和微弱表達增強效應(yīng)(圖9c-e)。同義auc密碼子對于所有表達得分展示等效頻率分布。雖然這些趨勢可以以其它方式指示這些密碼子的翻譯效率之間的差異,但本文呈現(xiàn)的多變量統(tǒng)計分析和生物化學(xué)分析指示其來源更為復(fù)雜。異亮氨酸的相鄰aua密碼子對具有極強的表達減弱效應(yīng)(圖16f),其基于下文呈現(xiàn)的分析很可能反映此序列的低效翻譯。相比之下,agga基序的頻率(ingolia,n.t.等人(2009)science324,218-223)(圖16g-h)(其匹配夏因-達爾加諾序列)對蛋白質(zhì)表達水平似乎不具有顯著影響。mrna轉(zhuǎn)錄物的預(yù)測配分函數(shù)折疊自由能的分布(reuter,j.s.等人(2010)bmcbioinformatics11,129)也展示了具有不同表達得分的蛋白質(zhì)之間的系統(tǒng)性差異。表達因蛋白質(zhì)編碼序列中的前48個核苷酸中的越來越穩(wěn)定的折疊(即,降低折疊自由能)而減弱(圖9h)(shakin-eshlemansh等人,(1988)biochemistry27,3975-3982(1988);kozakm(2005)gene361,13-37;castillo-mendez,m.a.等人(2012)biochimie94,662-672)。本文所描述的結(jié)果提供了對減弱表達作為頭端中的預(yù)測折疊自由能(δgh)的函數(shù)的概率的穩(wěn)定校準。在某些方面,當δgh<-15kcal/mol時,本文所描述的結(jié)果展示了高表達優(yōu)勢的<1/e減小。在某些實施例中,當計算頭端的折疊自由能δguh時,與表達水平的相關(guān)性的強度通過包括mrna的5'非翻譯區(qū)(utr)適度地增加(圖9f,h)。在某些實施例中,此參數(shù)可以用于對本文所描述的表達結(jié)果進行整體建模。出乎意料地,基因的尾端(核苷酸49到終止密碼子)中的預(yù)測折疊自由能的平均值對表達水平展示出非線性影響,<δgt>的極高和極低值系統(tǒng)地減弱表達(圖9g,h)。當在具有48、96或144個核苷酸寬度的50%重疊窗中計算平均值時,觀察到等效趨勢。同時這些觀察結(jié)果指示,尾端中的過度穩(wěn)定或不穩(wěn)定mrna折疊都減弱蛋白質(zhì)表達。本文所描述的結(jié)果還指示這些效應(yīng)還具有更復(fù)雜的來源。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):觀察到若干額外整體序列參數(shù)與蛋白質(zhì)表達水平具有系統(tǒng)性關(guān)系。在某些實施例中,密碼子重復(fù)率(例如相同密碼子再次出現(xiàn)于mrna序列中的平均頻率)的增加值與更低表達水平相關(guān)(圖16i-j)。在某些實施例中,序列中的更高統(tǒng)計熵與更低表達水平相關(guān)。在這兩個相互相關(guān)的參數(shù)中,重復(fù)率的影響力比熵更大,表明相同密碼子的冗余使用可以減弱蛋白質(zhì)表達。在某些方面,本文所描述方法涉及如下發(fā)現(xiàn):標靶mrna/蛋白質(zhì)的長度對表達水平展示出非線性影響,極長和極短序列展示系統(tǒng)地更低的表達水平(圖9i-j)。檢驗蛋白質(zhì)編碼序列開始處的個別位置處的核苷酸一致性對給出得分5相較于0的基因的對數(shù)優(yōu)勢比的影響(圖10)。觀察到此區(qū)中的核苷酸組成對蛋白質(zhì)表達具有強烈影響。在某些實施例中,此影響的量值在第六密碼子之后實質(zhì)上降低,其對應(yīng)于mrna的物理上受70s起始復(fù)合物(ic)中的核糖體保護的區(qū),其中起始密碼子對接到其肽基-trna結(jié)合(p)位點中。在保護區(qū)內(nèi),g堿基一致地降低高表達概率,而a堿基一致地增加其,并且c和u堿基具有中間效應(yīng)(圖10)。這些效應(yīng)的評級次序匹配大折疊rna結(jié)構(gòu)集中的每種核苷酸的堿基配對的概率,表明所觀察到的趨勢可以反映此區(qū)中的mrna堿基為非配對以用于高效核糖體對接的需求。圖10中三者的周期性與富at基因中的參數(shù)交叉相關(guān)性相關(guān)。使用邏輯回歸檢驗不同mrna序列參數(shù)對蛋白質(zhì)表達水平的相對影響。在某些方面,邏輯回歸可以利用廣義線性模型來定量連續(xù)變量對二元或序數(shù)結(jié)果的影響??梢约俣▋蓚€互斥結(jié)果(例如在數(shù)據(jù)集中,5相較于0得分)的對數(shù)優(yōu)勢比隨連續(xù)變量的某一函數(shù)的值(例如,密碼子頻率)線性增加,來對二元結(jié)果建模。在某些方面,假定所有連續(xù)整數(shù)結(jié)果(例如在數(shù)據(jù)集中,5-0得分)之間的對數(shù)優(yōu)勢比以完全相同方式增加,來對序數(shù)結(jié)果建模。圖9e說明了二元邏輯回歸的最簡單形式,其中對數(shù)優(yōu)勢比假定為連續(xù)變量的線性函數(shù)。如果具有5相較于0表達得分的蛋白質(zhì)的密碼子頻率與對數(shù)優(yōu)勢比之間存在線性關(guān)系,那么此圖中的實線展示了最可能斜率。此簡單線性模型準確地描述了gaa密碼子對蛋白質(zhì)表達的有益影響(圖9e中的綠色),而其在描述aua密碼子的更復(fù)雜有害影響方面不太準確。邏輯回歸可以使用連續(xù)變量的不同數(shù)學(xué)函數(shù)對此種更復(fù)雜特性建模來進行,如下文所進行。盡管如此,線性邏輯回歸分析(如這些)的“密碼子斜率”提供了定性并且定量適用的度量值以描述個別密碼子對蛋白質(zhì)表達水平的影響。使用二元(5相較于0得分)或序數(shù)(5-0得分)線性邏輯回歸對所有61個非終止密碼子進行單一變量分析,分別是圖11b中的深灰色和淺灰色。數(shù)據(jù)集中基因中的密碼子頻率的相對均勻方差(圖11a)使得所有密碼子的回歸參數(shù)能夠以類似精確度確定。二元和序數(shù)回歸產(chǎn)生等效密碼子斜率,表明在數(shù)據(jù)集中密碼子含量對蛋白質(zhì)表達水平具有通常單調(diào)影響。此外,當將僅具有0相較于5表達得分的蛋白質(zhì)與還包括具有中間得分蛋白質(zhì)時觀察到的蛋白質(zhì)比較時,所觀察到結(jié)果的等效表明部分減弱表達的相同mrna特征可以完全使其終止。此效應(yīng)可能歸因于阻礙翻譯的還會導(dǎo)致mrna降解的因素,所述效應(yīng)當檢驗給出不同表達得分的蛋白質(zhì)的參數(shù)直方圖時也很明顯(圖9a-d,f-g,i與16a,i)。使用單一參數(shù)邏輯回歸測定的密碼子斜率(圖11b,e)顯示,結(jié)束于a或u的密碼子在于數(shù)據(jù)集中提供最高蛋白質(zhì)表達水平的基因中系統(tǒng)地增濃,而結(jié)束于g或c的同義密碼子在這些基因中系統(tǒng)地耗盡。這些結(jié)果向工程化合成基因提供了指南,所述合成基因通過模擬數(shù)據(jù)集中的最佳表達基因的特性來增強蛋白質(zhì)表達。然而,此計算方法不提供關(guān)于每個密碼子的機制性影響的可靠信息,因為在數(shù)據(jù)集中結(jié)束于a或u的大多數(shù)密碼子的頻率在基因中與彼此強烈相關(guān)(圖17a-c),至少部分由于源生物體的基因組的dna中的at相較于gc頻率的實質(zhì)性變化。在提供不同蛋白質(zhì)表達水平的基因之間系統(tǒng)地變化的許多參數(shù)(包括<δgt>96和密碼子重復(fù)率r)也相互相關(guān)(圖17a和18)。盡管如此,不直接影響結(jié)果的參數(shù)在其值與有直接影響的參數(shù)的值相關(guān)時在單一參數(shù)回歸中呈現(xiàn)為有影響。因此,為了理解不同參數(shù)的相對機制性貢獻,對表達數(shù)據(jù)集進行多參數(shù)邏輯回歸建模。此方法同時分析所有相關(guān)參數(shù)以描繪其對結(jié)果的相對影響。在某些實施例中,可以定量差異的可靠性取決于數(shù)據(jù)集中基因中的兩個參數(shù)獨立地變化的程度,不管其總體相互相關(guān)性。在一個方面,本發(fā)明涉及一種二元邏輯回歸模型,其在消除了影響由其它相關(guān)變量捕獲的解釋變量后合并了圖9、10與16中獨立探索的解釋變量。(參看實例。)觀察最高表達水平相較于無表達的優(yōu)勢的對數(shù)通過以下方程式給出:在此方程式中,δguh是基因的頭端加5'-utr的預(yù)測折疊自由能(以kcal/mol為單位),i是二元指示變量(其在δguh<-39kcal并且核苷酸2-6的gc含量大于62%時是1(并且否則的話是零)),ah和gh分別是密碼子2-6中的腺嘌呤和鳥嘌呤的頻率,u3h是密碼子2-6中的第3位置處尿苷的頻率,s7-16和s17-32分別是密碼子7-16和17-32的平均斜率(圖11b),βc和fc分別是基因中的每個非終止密碼子的斜率和頻率,daua是在存在任何aua-aua雙密碼子時假定值1的二元變量,r是密碼子重復(fù)率,并且l是序列長度。計算當省略一個或多個項時預(yù)測能力的損失提供了對模型中的不同項和基因中的不同區(qū)的相對影響的最佳估算(圖29a-b)。頭端的影響由折疊能和堿基組成項與s7-16項一起的組合捕獲,所述折疊能和堿基組成項很可能反映用于核糖體對接的翻譯起始位點的可行性(duval,m.等人(2013)plosbiol11,e1001731)。尾端的影響由s17-32項與整體項一起捕獲,因為尾端主導(dǎo)著這些參數(shù)(總體密碼子影響、daua、r和l)。計算建模指示,有影響的mrna折疊能效應(yīng)限于頭端,并且這些效應(yīng)顯著,但其總體影響比密碼子相關(guān)效應(yīng)更弱(圖29b)。密碼子相關(guān)效應(yīng)在編碼序列的5'端附近是約2.3倍更強,并且在密碼子約32之后下降到恒定水平(圖32),其大致匹配填充核糖體出口通道所需的殘基的數(shù)目(lu,j.等人(2008)jmolbiol384,73-86)。然而,因為數(shù)據(jù)集中的基因具有遠遠長于頭端的尾端,所以平均尾端中的密碼子含量的影響力大于頭端中的密碼子含量約7倍。實例中描述的計算顯示,同框密碼子模型優(yōu)于非同框密碼子模型或在每個密碼子位置處具有拋物線堿基組成的模型。其還顯示,當包括密碼子斜率和密碼子重復(fù)率r時,尾端中的平均預(yù)測mrna折疊自由能(即,<gt>96)對模型有不顯著貢獻,表明<gt>96對表達的明顯影響很可能可歸于其與這些影響力更大的參數(shù)的相關(guān)性。最佳多元邏輯回歸模型的密碼子斜率(圖11b中下圖中的紅色)提供了對于大腸桿菌中個別密碼子對蛋白質(zhì)翻譯效率的影響的理解。由不尋常非同源trna解碼的異亮氨酸的aua密碼子(wallace,e.w.等人(2013)molbiolevol30,1438-1453;vivanco-dominguez,s.等人(2012)jmolbiol417,425-439)迄今為止具有最強的表達減弱效應(yīng),并且相鄰aua密碼子對具有比兩個非相鄰aua密碼子顯著更強的表達減弱效應(yīng)(圖16f)。異亮氨酸的其它兩個密碼子對表達具有大致中立的影響,表明aua的表達抑制效應(yīng)可歸于密碼子結(jié)構(gòu)而非氨基酸結(jié)構(gòu)。類似地,精氨酸的cgg和cga密碼子具有強表達抑制效應(yīng),而四個同義密碼子對表達具有弱正面或負面影響。在先前文獻中強調(diào)為對蛋白質(zhì)表達有害的八個密碼子之中(price,w.n.等人(2011)microbialinformaticsandexperimentation1,6;wallace,e.w.等人(2013)molbiolevol30,1438-1453;quax,t.e.等人(2013)cellrep4,938-944;muramatsu,t.等人(1988)nature336,179-181;duval,m.等人(2013)plosbiol11,e1001731;lu,j.(2008)jmolbiol384,73-86),在數(shù)據(jù)集中僅四個密碼子減弱表達(以上列舉的aua/cgg/cga密碼子和leu的cua密碼子),而其它四個密碼子是中立的(arg的aga密碼子和甘氨酸的gga密碼子)或微弱地增強表達(arg的agg密碼子和pro的ccc密碼子)。aga的明顯影響和可能agg的明顯影響可以通過與aga同源的argutrna的過度表達而偏倚。忽略在大腸桿菌中具有最低頻率的這兩個密碼子,下三個最不常見的密碼子減弱表達(圖11c與31a)。然而,其影響的量值存在廣泛變化,并且具有稍高頻率的密碼子是中立的或微弱地增強表達。此外,剩余56個非終止密碼子的頻率與其對表達的影響之間不存在顯著相關(guān)性(圖11c與31a)。類似地,所有61個非終止密碼子的影響與密碼子適應(yīng)指數(shù)(sharp,p.m.等人(1987)nucleicacidsres15,1281-1295)(圖31b)、密碼子敏感性(elf,j.等人(2003)science300,1718-1722)(圖31c)、trna適應(yīng)指數(shù)(tuller,t.等人(2010)cell141,344-354)(圖31d)或同源trna濃度估算值(dong,h.等人(1996)journalofmolecularbiology260,649-663)(圖31e)任一者之間不存在顯著相關(guān)性。圖11b中的最強表達增強密碼子對應(yīng)于三種具有可以充當通用堿基催化劑的側(cè)鏈的氨基酸(谷氨酸、天冬氨酸和組氨酸)。對于這三種氨基酸,結(jié)束于a或u的密碼子具有比結(jié)束于g或c的同義密碼子更強的表達增強效應(yīng),表明密碼子結(jié)構(gòu)很可能調(diào)節(jié)其翻譯效率。然而,繪制多元邏輯回歸模型中的密碼子斜率相對于氨基酸疏水性展現(xiàn)了強相關(guān)性(圖11d),帶電氨基酸具有比極性或疏水性氨基酸系統(tǒng)地更高的斜率。分析表明,翻譯效率隨氨基酸結(jié)構(gòu)系統(tǒng)地變化。分析密碼子斜率作為每個密碼子位置處核苷酸堿基的一致性的函數(shù)展現(xiàn)了一些系統(tǒng)性趨勢(圖11e)。然而,這些趨勢很可能反映由在其前兩個位置處具有相同堿基的密碼子編碼的氨基酸的物理化學(xué)特性的保守。同義密碼子的翻譯效率的差異(圖11b)不大可能與堿基含量具有系統(tǒng)性關(guān)系。通過評估一組合成基因的表達特性來測試以上呈現(xiàn)的分析的有效性和預(yù)測值(圖13與20)。使用兩種不同方法設(shè)計序列,所述方法模擬在大規(guī)模數(shù)據(jù)集中提供最高蛋白質(zhì)表達水平的基因的密碼子使用和mrna折疊特性。在“六氨基酸”(6aa)方法中,精氨酸、天冬氨酸、谷氨酸、谷氨酰胺、組氨酸和異亮氨酸的所有密碼子經(jīng)在圖11b中的單一變量邏輯回歸中具有最高斜率的同義密碼子取代。所得mrna的結(jié)束于a或u堿基(所述堿基具有比g或c堿基更低的平均折疊能)的密碼子增濃,并且其趨于具有匹配在數(shù)據(jù)集中提供最高蛋白質(zhì)表達水平的基因的特性的mrna折疊特性和其它特性,提供圖17a-c中展示的參數(shù)交叉相關(guān)性的來源的一具體實例。在“31密碼子折疊優(yōu)化”(31c-fo)方法中,僅使用在圖11b中的單一變量邏輯回歸中對于每種氨基酸具有最高斜率的31個密碼子優(yōu)化計算的mrna折疊自由能;最大化頭端中的折疊能(δguh)(即,最小化折疊結(jié)構(gòu)的穩(wěn)定性),而將尾端中的折疊能(<δgt>48)調(diào)節(jié)為接近-10kcal/mol。在一些實驗中,工程化的是基因的頭序列而非尾序列,反之亦然,以評估來自關(guān)于其對表達的相對貢獻的多參數(shù)計算建模的這些推斷的可靠性。對于五種在大規(guī)模數(shù)據(jù)集中不良表達的細菌蛋白質(zhì)(圖13和圖20)和17種與先前表征的蛋白質(zhì)無關(guān)的額外蛋白質(zhì)(圖20b),合成在頭端和尾端均使用31c-fo方法優(yōu)化的基因。這些基因提供了均勻地高的蛋白質(zhì)表達(對于長度<500個氨基酸的所有蛋白質(zhì),得分是4或5)。雖然其中一些使用標準誘導(dǎo)方案產(chǎn)生了不溶蛋白質(zhì)產(chǎn)物,但當在大腸桿菌麥芽糖結(jié)合蛋白的c末端處同框融合時,其均勻地產(chǎn)生高水平的可溶蛋白質(zhì)(圖20c)。為了研究尾端中的密碼子使用是否可以影響蛋白質(zhì)表達,保留天然頭序列,并且使用6aa方法僅僅針對四個基因優(yōu)化尾端中的密碼子(圖13b中的wth/6aat)。尾端優(yōu)化增加了這些目的蛋白全部四者的表達,但改進程度實質(zhì)上變化。還測試頭端中的密碼子使用相較于mrna折疊的相對影響。通過構(gòu)筑具有相同尾端但不同頭端的基因進行此測試,使用31c方法密碼子優(yōu)化所述基因,同時優(yōu)化(31c-foh,具有最大化δguh)或去優(yōu)化(31c-fdh,具有最小化δguh)其計算折疊自由能(圖13b)?;騼?yōu)化實驗證實,頭端中的折疊效應(yīng)、頭端中的密碼子使用和尾端中的密碼子使用都對蛋白質(zhì)表達具有顯著影響,證實了我們的計算推斷的有效性(圖29)。對于來自大規(guī)模數(shù)據(jù)集的天然細菌基因和其優(yōu)化對應(yīng)物,在于大腸桿菌中體內(nèi)誘導(dǎo)之后,比較細胞生長速率(圖13a)、蛋白質(zhì)表達水平(圖13b)和mrna水平(圖13d)。還比較體外轉(zhuǎn)錄(圖33)和翻譯(圖13c)反應(yīng)的產(chǎn)物。對于一種標靶(ape_0230.1),在誘導(dǎo)蛋白質(zhì)表達后細胞生長的抑制通過優(yōu)化基因序列而消除,盡管其極大地增加了蛋白質(zhì)表達(圖13a-b)。此結(jié)果表明,阻礙翻譯的一些mrna序列特征在大腸桿菌中導(dǎo)致生理毒性。盡管天然或使用經(jīng)純化t7rna優(yōu)化的基因的體外轉(zhuǎn)錄產(chǎn)生等效量的mrna(圖33),但使用經(jīng)純化核糖體和翻譯因子所得的mrna的體外翻譯對于所有經(jīng)優(yōu)化序列都產(chǎn)生實質(zhì)上更高水平的蛋白質(zhì)合成(圖13c)。值得注意的是,內(nèi)部翻譯暫停的位點在一些經(jīng)優(yōu)化mrna中與相應(yīng)天然mrna相比不同(例如,對于ape_0230.1)。這些觀察結(jié)果顯示,大腸桿菌中的蛋白質(zhì)翻譯效率通過來源于對大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集進行的計算分析的密碼子優(yōu)化方法改進(圖11與29)??紤]到這些體外生物化學(xué)結(jié)果,與經(jīng)優(yōu)化基因相比在誘導(dǎo)低效翻譯的天然序列之后在體內(nèi)觀察到的顯著更低的mrna水平(圖13d)表明,至少一些mrna序列相依性翻譯障礙可以強烈影響穩(wěn)態(tài)mrna水平。注意到,在誘導(dǎo)之后5min,對于所有經(jīng)優(yōu)化基因都檢測到全長mrna,但天然基因無一者檢測到全長mrna。此表明低效翻譯的天然mrna快速降解,因為t7聚合酶在體外以等效效率轉(zhuǎn)錄其(圖33)。為了進一步評估這些實驗中觀察到的翻譯效率與mrna穩(wěn)定性之間的偶合的生理相關(guān)性,將多變量二元邏輯回歸結(jié)果(圖11b中的紅色)用以計算s全部,編碼細胞質(zhì)蛋白質(zhì)的所有內(nèi)源大腸桿菌基因的平均密碼子斜率。來源于大規(guī)模表達數(shù)據(jù)集的此參數(shù)與使用質(zhì)譜分析定量的大腸桿菌中的體內(nèi)蛋白質(zhì)水平強烈相關(guān)(圖30b),證實了新密碼子影響度量值的有效性。引人注目地,s全部與所有預(yù)測細胞質(zhì)蛋白質(zhì)的體內(nèi)mrna水平幾乎同樣強烈地相關(guān)(圖30a-b),表明密碼子含量顯著影響穩(wěn)態(tài)mrna濃度。對于質(zhì)譜分布中檢測的通常豐度更高的蛋白質(zhì)集,s全部與其mrna水平和蛋白質(zhì)/mrna比兩者相關(guān)(圖30c),其可以反映翻譯效率。這些整體相關(guān)性證實,密碼子含量不僅對mrna翻譯效率而且對mrna穩(wěn)定性施加重要影響。如本文所述,將對6,348個獨立蛋白質(zhì)表達實驗的結(jié)果進行的同時多參數(shù)計算建模用以剖析控制大腸桿菌中的蛋白質(zhì)表達水平的mrna序列特征(圖10、11、29)。本文還描述了在追蹤實驗中使用生物化學(xué)方法驗證此計算研究(圖13),包括使用完全純化的組件的體外翻譯實驗(圖13c)。基于計算結(jié)果重新設(shè)計的mrna更高效地翻譯(圖13b-c),驗證了整個基因中的密碼子使用和頭端(前約16個密碼子)中的mrna折疊穩(wěn)定性兩者都有助于控制翻譯的推斷(圖29)。重新設(shè)計的基因產(chǎn)生比低效翻譯的天然基因高得多的體內(nèi)mrna水平(圖13d),其導(dǎo)致檢驗新密碼子影響度量值與大腸桿菌中的全基因組蛋白質(zhì)和mrna濃度之間的關(guān)系。內(nèi)源大腸桿菌基因中的密碼子影響度量值的平均值(s全部)與體內(nèi)相應(yīng)蛋白質(zhì)濃度強烈相關(guān)(圖30b-c)。其還與mrna濃度(圖30a-c)和蛋白質(zhì)/mrna比(圖30c)強烈相關(guān)。這些基因組規(guī)模相關(guān)性指示,密碼子含量是翻譯效率和大腸桿菌中的mrna穩(wěn)定性兩者的重要決定因素,并且這些參數(shù)緊密偶合(duval,m.等人(2013)plosbiol11,e1001731;li,x.等人(2007)molmicrobiol63,116-126;shoemaker,c.j.等人(2012)natstructmolbiol19,594-601;shoemaker,c.j.等人(2010)science330,369-372;becker,t.等人(2012)nature482,501-506)。雖然對mrna穩(wěn)定性的效應(yīng)可以解釋密碼子使用可以如何改變蛋白質(zhì)表達水平而不顯著調(diào)節(jié)凈蛋白質(zhì)延長率,但所觀察到的密碼子影響度量值與蛋白質(zhì)/mrna比的相關(guān)性的最簡單解釋是,密碼子含量對此延長率具有重要效應(yīng),與最近在大腸桿菌中進行的核糖體分布實驗的解釋相反(li,g.w.等人(2014)cell157,624-635;li,g.-w.等人(2012)nature484,538-541)。如本文所述,密碼子含量與穩(wěn)態(tài)mrna濃度的偶合可以通過若干分子機制解釋。其有可能由蛋白質(zhì)延長與mrna降解之間的通過核糖體延長動力學(xué)調(diào)節(jié)的動力學(xué)競爭介導(dǎo)(即,氨基-酰基-trna選擇、肽鍵合成和trna/mrna易位中所涉及的連續(xù)結(jié)合和構(gòu)象過程)。本文所描述的實驗中所用的細菌噬菌體t7rna聚合酶太快地合成mrna使得翻譯核糖體跟不上,使所得轉(zhuǎn)錄物對轉(zhuǎn)錄-翻譯偶合不敏感但對核酸內(nèi)切酶裂解更敏感(iost,i.等人(1995)emboj14,3252-3261;cardinale,c.j.等人(2008)science320,935-938)。因此,有可能的是,經(jīng)片段化并且具有更低體內(nèi)濃度的通過t7聚合酶產(chǎn)生的低效翻譯的mrna(圖13d)反映了增強的降解。此推理以及在大規(guī)模數(shù)據(jù)集中表達減弱密碼子完全消除蛋白質(zhì)表達的趨勢(圖9a-d)指示,mrna降解部分受核糖體延長動力學(xué)控制(zaher,h.s.等人(2011)cell147,396-408;li,x.等人(2007)molmicrobiol63,116-126;deana,a.等人(1996)jbacteriol178,2718-2720;nogueira,t.等人(2001)jmolbiol310,709-722;li,x.等人(2006)rna12,248-255;leroy,a.等人(2002)molecularmicrobiology45,1231-1243;dosreis,m.(2003)nucleicacidsresearch31,6976-6985)。若干生物化學(xué)系統(tǒng)介導(dǎo)由于蛋白質(zhì)合成/折疊問題而停止的核糖體的再循環(huán)(li,x.等人(2006)rna12,248-255;richards,j.等人(2008)biochimbiophysacta1779,574-582)或mrna截短(shoemaker,c.j.等人(2012)natstructmolbiol19,594-601;christensen,s.k.等人(2003)molecularmicrobiology48,1389-1400)。在真核生物中,此“不通過(no-go)”衰減途徑涉及dom34、hbs1(shoemaker,c.j.等人(2012)natstructmolbiol19,594-601;shoemaker,c.j.等人(2010)science330,369-372)和abce1(becker,t.等人(2012)nature482,501-506)蛋白質(zhì),而在大腸桿菌中,類似活性由包括tmrna途徑(vivanco-dominguez,s.等人(2012)jmolbiol417,425-439;richards,j.等人(2008)biochimbiophysacta1779,574-582;ivanova,n.等人(2005)jmolbiol350,897-905;christensen,s.k.等人(2003)molecularmicrobiology48,1389-1400)、arfa、yaej(chadani,y.等人(2011)molmicrobiol80,772-785)和rf3(vivanco-dominguez,s.等人(2012)jmolbiol417,425-439;zaher,h.s.等人(2011)cell147,396-408)的無關(guān)系統(tǒng)介導(dǎo)。這些原核mrna品質(zhì)對照系統(tǒng)(shoemaker,c.j.等人(2012)natstructmolbiol19,594-601)是參與mrna衰減過程的候選物,所述過程可能在核糖體延長動力學(xué)中與密碼子相依性變化偶合。與先前關(guān)于同義密碼子對大腸桿菌中的蛋白質(zhì)表達的影響的推斷相比,通過本文所描述的多參數(shù)計算模型確立的密碼子影響度量值(圖11b)具有實質(zhì)性差異。本文所描述的結(jié)果顯示,氨基酸一致性影響翻譯效率,但盡管有長期存在的假定(li,g.w.等人(2014)cell157,624-635;li,g.-w.等人(2012)nature484,538-541),但基因組密碼子使用頻率不直接相關(guān)。大腸桿菌中的頻率第3、第4和第5低的密碼子在大規(guī)模數(shù)據(jù)集中對表達具有最有害的影響(圖11c與31a)。然而,這些密碼子在廣泛變化的程度上減弱表達,并且稍更常見的密碼子具有中立或表達增強影響(圖11b)。此外,其它58個非終止密碼子的頻率不與表達水平顯著相關(guān)(圖11c與31a)。密碼子使用頻率已經(jīng)假定為影響體內(nèi)翻譯,因為其與同源trna的濃度相關(guān)(caskey,c.t.等人(1968)jmolbiol37,99-118;ikemura,t.(1981)jmolbiol151,389-409;muramatsu,t.等人(1988)nature336,179-181;dong,h.等人(1996)journalofmolecularbiology260,649-663),其可以明顯影響體外蛋白質(zhì)延長率(wallace,e.w.等人(2013)molbiolevol30,1438-1453;spencer,p.s.等人(2012)jmolbiol422,328-335)和體內(nèi)蛋白質(zhì)產(chǎn)率(chen,g.t.等人(1994)genesdev8,2641-2652;vivanco-dominguez,s.等人(2012)jmolbiol417,425-439;deana,a.等人(1996)jbacteriol178,2718-2720;li,x.等人(2006)rna12,248-255)。實際上,如本文所述,argutrna過度表達以促進aga/agg密碼子增濃的蛋白質(zhì)的更高表達(chen,g.t.等人(1994)genesdev8,2641-2652),其可以使數(shù)據(jù)集中的這些密碼子的影響偏倚(圖11b)。將需要進一步研究來理解確定trna濃度何時影響核糖體延長動力學(xué)的因素。盡管如此,本文所描述的分析表明,核糖體延長動力學(xué)對蛋白質(zhì)表達施加比同源trna濃度更強的影響。此推斷與翻譯因子efp有助于富脯氨酸序列的延長的證實一致(ude,s.等人(2013)science339,82-85)。此外,這表明翻譯調(diào)節(jié)效應(yīng)可以經(jīng)由修飾核糖體延長動力學(xué)來操作,所述動力學(xué)例如由trna或核糖體的共價修飾介導(dǎo)(muramatsu,t.等人(1998)nature336,179-181)。使相關(guān)機制性研究變復(fù)雜(iost,i.等人(1995)emboj14,3252-3261;deana,a.等人(1996)jbacteriol178,2718-2720;nogueira,t.等人(2001)jmolbiol310,709-722;dosreis,m.(2003)nucleicacidsresearch31,6976-6985),本文所描述的結(jié)果還表明,此類調(diào)節(jié)效應(yīng)可以經(jīng)由mrna水平的變化而顯現(xiàn)。實例2:預(yù)測rna序列的高蛋白質(zhì)表達水平的概率的模型m密碼子重復(fù)率定義為r=<d_i^-1>:,其中di是到密碼子ci下一次出現(xiàn)的距離。舉例來說,“aaa.cgt.ccg.cgt.aaa”r=平均值(1/4,1/2,0,0,0)=3/20。二元多元邏輯回歸是高表達的對數(shù)優(yōu)勢的解釋變量xi的線性模型,θ=log[e_5/e_0]=a+∑iβixi。預(yù)測高表達概率是:密碼子變量的自由度數(shù)值是由于限定1=σfc而小于密碼子數(shù)目者。在圖11中的多元邏輯分析中,去除atg,使得斜率βatg=0,其貢獻被吸收到常數(shù)a中。r統(tǒng)計程序[rcoreteam(2013).r是用于統(tǒng)計計算的語言和環(huán)境。rfoundationforstatisticalcomputing,vienna,austria.http://www.r-project.org/]用以計算模型參數(shù)(a,β)。邏輯回歸斜率β>0指示高表達的優(yōu)勢隨著相關(guān)變量增加。為了優(yōu)化蛋白質(zhì)表達,進行了同義突變,其增加了良好密碼子的使用(朝具有更大斜率β的密碼子使用),同時還將自由能向最優(yōu)值調(diào)節(jié),最終試圖最大化θ,繼而使π最大化。最終模型m是:θ=4.38+0.0451guh+23.6/<gt>96-0.00117l-489/l+6.55ah-6.30ah2+0.753u3h-1.85gh2-1.50(guh*<-39)(gch>10/15)-11.7r-1.82i+0.077s7-16+0.059s17-32+0.878∑cβcfc。實例3:構(gòu)建同義序列的方法用兩種方法設(shè)計同義序列,并且然后實驗地測試。在6aa方法中,使六種氨基酸的密碼子變?yōu)楸?中的規(guī)定密碼子。盡管用6aa方法未進行明確自由能優(yōu)化,但在測試的基因中平均自由能密度也更有利。在31c-fo方法中,僅使用下表1中列出的子組的密碼子,將頭端+pet21表達載體的自由能優(yōu)化為盡可能高(即,具有最弱的mrna二級結(jié)構(gòu)),并且對于48聚體核苷酸窗將尾端的自由能優(yōu)化為接近-10kcal/mol。在31c-fd中,用一子組密碼子將自由能去優(yōu)化為盡可能低(具有最強mrna二級結(jié)構(gòu))。表1:實例4:評估基因的前約50個編碼堿基和其余部分的蛋白質(zhì)表達與mrna折疊自由能之間的相關(guān)性研究具有定量基因表達的多樣多肽序列(來自東北結(jié)構(gòu)基因組學(xué)協(xié)會)的數(shù)據(jù)集。以類別e0(無表達)到e5(最高表達)獨立地定量多肽。多肽序列數(shù)據(jù)集含有超過7000種具有小于60%氨基酸一致性的mrna序列。這些多肽序列從nesg(東北結(jié)構(gòu)基因組學(xué)協(xié)會)管線中的以一致方式表達和純化的約20,000者獲取。評估多肽的表達和溶解性以便確定與高表達相關(guān)的特征(actontb等人(2005)roboticcloningandpolypeptideproductionplatformofthenortheaststructuralgenomicsconsortium.methodsinenzymology394:210-243;pricewn等人(2009)nat.biotechnol27:51-57)。計算編碼區(qū)中的前50個堿基(頭端)和5'-utr表達載體+前50個堿基的折疊自由能。同樣評估范圍介于40到150的其它窗大小。最小自由能和配分函數(shù)自由能兩者都與每個基因的表達水平相關(guān)。圖22a中展示的代表性數(shù)據(jù)清楚顯示,當折疊自由能最穩(wěn)定時,高表達概率(e3+e4+e5)降低。前50個編碼堿基的折疊自由能與表達水平極高度相關(guān)(表2)。在某些方面,基于序數(shù)邏輯回歸的p值,包括5'-utr表達載體加前50個產(chǎn)生更強相關(guān)性??梢允褂眯驍?shù)邏輯回歸研究e0與e5之間的有序表達類別,并且可以使用標準邏輯回歸研究二元結(jié)果(brantr(1990)biometrics46:1171-1178;hosmerdw和lemeshows(2004)appliedlogisticregression(wiley-interscience))。表2:表2中的相關(guān)性的顯著性是自由能在翻譯效率中的重要性的強有力的證據(jù)。將獨立和組合地探索密碼子和自由能效應(yīng)。在某些方面,對于前50個編碼堿基高于或低于約-20kcal/mol的自由能將隔開較高和較低表達方案(圖22b)。隨著前50個堿基的自由能降低,觀察到朝低表達的單調(diào)降低。此趨勢表明,使用同義突變增加前50者的折疊自由能可以增加多肽的表達。計算基因的后半部分(尾端)的自由能。對于整個mrna尾端(即,約50堿基頭端之后的編碼區(qū))中的其它窗位置和大小,也觀察到表達相較于自由能曲線(圖22c)的拋物線形狀(在中間折疊能處有最大值),并且表明太小的結(jié)構(gòu)可能是有害的。尾端效應(yīng)與前50個編碼堿基中相比不太顯著。在某些方面,尾端中不需要每個窗含有限制高表達的瓶頸。將研究最差窗對于整體表達是否是速率限制性的或其是否取決于平均自由能。在尾端中,低自由能與更低表達相關(guān)。當自由能很低時的更低表達與前50者的結(jié)果一致,并且與穩(wěn)定二級結(jié)構(gòu)將抑制核糖體起始或可加工性的直覺一致。在某些方面,當編碼堿基201-250的自由能不過高(例如,對于50聚體g不高于-5kcal/mol或?qū)τ?6聚體g不高于-15kcal/mol)時,基因表達最高。極高自由能(即,最小二級結(jié)構(gòu))對于基因表達可以是次優(yōu)的特征可以提供對其它生物過程的新穎理解。將通過在將折疊自由能密度限定于不同范圍中之后測試同義序列的表達,來探索圖22c中觀察到的拋物線相依性。將編寫用以工程化具有所期望特性的同義序列的程序。這些合成基因?qū)⑽胁⑶姨峁┙onesg管線以評估表達水平。實例5:基于折疊自由能和密碼子度量值評估基因表達的可能性將基因序列上傳到原型網(wǎng)絡(luò)應(yīng)用中,并且計算基因序列的折疊自由能。所得自由能用以估算高表達概率(圖23a中的樣本輸出)。為了使天然與工程化序列之間的差異清楚,使用rnabows視覺化工具繪制配對概率(樣本輸出展示于圖23b中)(aalbertsdp和jannenwk(2013)rna19,475-478)。差異rnabow圖呈現(xiàn)了原始和同義序列,任何取代用色彩突顯。配對堿基用圓弧連接,所述圓弧的粗細與所述配對的概率成比例。獨特堿基對具有與所述序列相同的色彩突顯,以使得可看一眼即可比較。實例6:創(chuàng)建算法以工程化具有改進表達的序列。如果序列的自由能足夠穩(wěn)定以使得高表達不大可能,那么可以工程化具有更高自由能和更大高表達可能性的同義序列。對1000個序列的簡單抽樣可以典型地鑒別具有比平均值高出約3個標準差的自由能的序列。基于原型網(wǎng)絡(luò)的工具當前使用同義序列的簡單抽樣并且從樣本當中選擇最佳者??梢詮乃忻艽a子或具有正表達的“良好”密碼子當中進行抽樣(參看例如,圖24)?!懊艽a子斜率”經(jīng)由序數(shù)邏輯回歸使nesg數(shù)據(jù)集中的表達與密碼子使用相關(guān)。簡單抽樣1000是可行的,但計算上相對昂貴。偏倚抽樣方法可以提高抽樣速度。圖23b突顯了配對堿基并且展示一些對可以如何在同義序列中消除。穩(wěn)定雙螺旋的中心中的一個錯配可以使結(jié)構(gòu)的自由能增加多達7kcal/mol。為了增加自由能,將破壞高配對區(qū)。用于頭端的偏倚抽樣算法如下。(1)將天然翻譯為密碼子優(yōu)化序列和預(yù)計算堿基位置,其中同義突變可以用良好密碼子進行。(2)計算自由能和鑒別序列的堿基對。保存具有改進的自由能的任何序列。(3)在作出配對并且可以進行突變的位置處,使用偏倚到密碼子斜率的隨機抽樣來置換密碼子。重復(fù)(2)直到滿意。(4)報告具有最高自由能的同義序列。在某些方面,此偏倚抽樣策略可以減少使自由能劇烈變化所需的迭代的數(shù)目。在非配對區(qū)中,密碼子使用保持最優(yōu)。改進的用于序列尾端的抽樣方法將靶向既不過高也不過低的最優(yōu)自由能。既定窗內(nèi)的優(yōu)化是直接的,但鄰近窗可能會具有可能遠非最優(yōu)的非故意的互補。當前尾端優(yōu)化程序如下。(1)使用良好密碼子的簡單抽樣以產(chǎn)生同義子序列:在峰表達值附近針對自由能進行選擇。將這些片段組裝成完整尾序列。(2)評估重疊窗中的尾端(跨越相鄰設(shè)計窗)。(3)手動微調(diào)或從頭開始再抽樣。如果步驟(2)的重疊區(qū)中存在不可接受的自由能,那么可以改進尾端算法。如果這樣,那么通過對所述窗再抽樣和重復(fù)步驟(2)來修復(fù)。實例7:優(yōu)化密碼子使用和自由能最優(yōu)自由能密度在頭端(前約50個編碼堿基)中應(yīng)盡可能高并且在尾端中應(yīng)既不過低也不過高??梢酝ㄟ^評估具有不同密碼子使用與折疊自由能組合的若干基因的表達,來理清密碼子和折疊自由能的作用??梢允褂盟忻艽a子或子組用所期望的自由能工程化序列??梢栽u估nesg管線中的合成序列的表達。關(guān)于若干基因,研究密碼子和自由能效應(yīng)。比較以下各者:(1)wt野生型序列;(2)6aa序列,其中優(yōu)化六個最重要的密碼子(用gat優(yōu)化天冬氨酸的密碼子、用gaa優(yōu)化谷氨酸的密碼子、用cat優(yōu)化組氨酸的密碼子、用att優(yōu)化異亮氨酸的密碼子、用caa優(yōu)化谷氨酰胺的密碼子和用cgt優(yōu)化精氨酸的密碼子);(3)31c-fo,其中僅使用良好密碼子優(yōu)化自由能;(4)31c-fd,其中僅使用良好密碼子使自由能盡可能穩(wěn)定。使wt或6aa尾端與wt、31c-fo或31c-fd頭端配對。在所有4種情況下,6aa尾端(圖25)都比wt更高度表達。優(yōu)化的尾端(6aa)相對于wt增加了表達。wt非誘導(dǎo)和誘導(dǎo)是對照。在頭端中,密碼子優(yōu)化在所有情況下都增加表達。在sco1897中,具有低自由能的31c-fd頭端可以切斷表達。在其它基因中,31c-fd自由能不是很低(表3)。ape_0230.1是膜蛋白,因此具有低溶解性。表3:對于ape_0230.1、rsp_2139、sru_1983和sco1897基因的頭端構(gòu)筑體,以kcal/mol為單位的載體加前51個編碼堿基的自由能gvec+51和密碼子斜率列于表3中。明顯有可能在序列限定的界限內(nèi)同時設(shè)計自由能和密碼子特性。6aa尾序列不僅具有更好的密碼子度量值得分,而且具有更接近31c-fo標靶的自由能值:ape_0230.1:gwt=-311.1kcal/mol,g6aa=-297.5kcal/mol,g標靶=-295.2kcal/mol;sru_1983:gwt=-362.6kcal/mol,g6aa=-331.0kcal/mol,g標靶=-223.0kcal/mol;rsp_2139:gwt=-406.3kcal/mol,g6aa=-353.5kcal/mol,g標靶=-241.9kcal/mol;sco1897:gwt=-195.2kcal/mol,g6aa=-158.4kcal/mol,g標靶=-138.5kcal/mol。在這些研究中比較頭端的效應(yīng),觀察到當wt頭端良好(ape_0230.1)時,全部是高度表達的。當wt頭端具有不良密碼子使用(rsp_2139)時,31c-fo和31c-fd增加了表達。即使在良好密碼子使用下,極穩(wěn)定的頭端自由能也可能會消除蛋白質(zhì)表達(sco1897-31c-fd)。在6aa優(yōu)化的尾端觀察到毒性降低(圖26)。還產(chǎn)生31c-fo頭端和尾端。在所有五個測試基因(sru_1983、ape_0230.1、sco1897、rsp_2139和er449)中,表達都顯著改進(圖27)。從48聚體片段構(gòu)建31c-fo尾端。31c-fo優(yōu)化頭端與31c-fo優(yōu)化尾端的組合導(dǎo)致蛋白質(zhì)表達有大的增加。具有31c-fo優(yōu)化的內(nèi)源大腸桿菌蛋白質(zhì)er449(圖27,泳道21.1與21.2)展示了相對于野生型(wt)增加的表達。實例8:開發(fā)更有預(yù)測性的度量值rna折疊減小和良好密碼子使用的組合增加了所測試標靶中的表達。可以改進建模和算法以增加對翻譯的生物學(xué)的理解和產(chǎn)生用于預(yù)測構(gòu)筑體是否將高度表達的更好度量值。度量值然后可以用于優(yōu)化序列設(shè)計。對一個較大組的不良表達基因測試當前31c-fo方法。確定瓶頸是否是具有最低自由能或更整體的特性(如平均尾端自由能)的窗。針對nesg數(shù)據(jù)集測試模型。優(yōu)化窗大小以用于自由能優(yōu)化。比較不同窗大小的p值。在控制密碼子斜率的同時,設(shè)計自由能密度從高跨越到低的序列以探測所述相依性??梢杂?1c-fo到31c-fd構(gòu)筑進行此種設(shè)計。在控制自由能密度的同時,設(shè)計密碼子斜率從高到低變動的序列以探測所述相依性。查看sru_1983(圖25c),31c-fo和31c-fd兩者都很好地表達,但31c-fd具有更大溶解性。這可以是稍微降低翻譯速率可增加蛋白質(zhì)產(chǎn)物的可用性的一實例。確定是否存在核糖體暫停促進應(yīng)工程化到序列中的蛋白質(zhì)折疊的情況(watts等人,(2009)nature,460,711-719)。測試特定密碼子的相對性能(例如,測試與trna豐度的相關(guān)性)。挖掘nesg數(shù)據(jù)集以研究密碼子-密碼子相關(guān)性。評估長距離對是否產(chǎn)生自由能瓶頸,參看以下實例9。探索夏因-達爾加諾序列如何影響翻譯,參看以下實例10。使蛋白質(zhì)由宿主生物體過度表達,參看圖27,以嘗試更好地理解大腸桿菌生理學(xué)和調(diào)節(jié)。可以通過設(shè)計合成同義序列和使其在nesg管線中評估而系統(tǒng)地探索這些問題。實例9:鑒別長距離對因為初步指示是高折疊穩(wěn)定性與低基因表達相關(guān),所以將開發(fā)鑒別比窗大小相隔更遠的互補區(qū)的高效方法。如果前50者與表達載體5'-utr或尾端很好地配對,那么可以抑制起始?;蛑袆e處的特別穩(wěn)定的莖可以減慢核糖體和降低翻譯效率。鑒別長距離對不必使用o(n3)rna折疊算法。實際上,可以使用o(n2)bindigo的變化形式(hodasno和aalbertsdp(2004)nucleicacidsres.,32,6636-6642)和bindigonet算法來鑒別mrna內(nèi)的最穩(wěn)定互補區(qū)??梢酝ㄟ^鑒別多個局部最小值和基于預(yù)期自由能密度和泊松統(tǒng)計(poissonstatistics)設(shè)定顯著性閾值,來變更bindigo。bindigo型運行時間將比折疊算法快數(shù)百倍。適用于結(jié)合本文所描述方法計算自由能值的例示性程序包括(但不限于)rnastructure、unafold、viennarna、mfold和sfold??梢越Y(jié)合本文所描述方法使用這些程序中的每一者的默認參數(shù)執(zhí)行計算。將研究整體表達與基因尾端的窗中的折疊預(yù)測的相關(guān)性。有可能最穩(wěn)定窗是最限制表達者。將使用序數(shù)邏輯回歸和p值鑒別最佳模型,并且然后實驗地測試。將通過使用神經(jīng)網(wǎng)和其它數(shù)據(jù)挖掘技術(shù)評估不同窗的折疊自由能的組合以搜尋高表達的關(guān)鍵因素,來研究其它整體效應(yīng)。實例10:定位夏因-達爾加諾互補序列夏因-達爾加諾序列參與起始(etchegarayjp和inouyem(1999)journalofbiologicalchemistry274:10079-10085;freischmidta等人,(2012)proteinexpressionpurif.,82,26-31)和翻譯暫停(ligw等人,(2012)nature484,538-541)。可以使用bindigonet算法使用凈結(jié)合自由能評估基因的與夏因-達爾加諾序列的親和力。bindigo還可以允許監(jiān)測在其它方面最優(yōu)的序列是否含有潛在翻譯暫停位點,然后可以設(shè)計得不含所述位點。同樣,為了促進nesg表達系統(tǒng)中的實施,將監(jiān)測同義序列以確保常用的限制位點等不會呈現(xiàn)。實例11:對堿基組成如何影響rna自由能建模基于平均折疊自由能取決于序列長度的觀察結(jié)果(hodasno和aalbertsdp(2004)nucleicacidsres.,32,6636-6642),研究折疊自由能與rna組成的相依性。經(jīng)常建議(g+c)含量作為rna折疊穩(wěn)定性的代理(biro,j.c.(2008)theorbiolmedmodel,5:14;gustafssonc等人,(2012)proteinexpressionpurif.,83,37-46)。對rna可以進行更好近似化,rna不限定為如dna所需相等地配對g和c??紤]二、三和五參數(shù)模型:g2=g0-gnngg+c=g0+g(g+c)n(g+c)+g(a-u)n(a-u)(方程1)g5=g0+gana+gcnc+ggng+gunu。所有模型都包括罰分g0以起始折疊或非配對區(qū),加取決于類型x的堿基的計數(shù)nx的項。方程式(1)模型因此探索(g+c)組成或全部5種堿基的組成的長度單獨的效應(yīng)。從人類外顯子內(nèi)含子數(shù)據(jù)庫以及trna、核糖體rna和其它類型的其它專用數(shù)據(jù)庫提取二核苷酸和三核苷酸相關(guān)性。使用這些相關(guān)性創(chuàng)建具有固定長度100、200、300、400、500nt的合成序列。計算折疊和非配對自由能,并且然后使其與序列的組成關(guān)聯(lián)。對于非配對研究,禁止k聚體(k=3到21)在更長序列中配對。nx對受禁止k聚體中的x堿基的數(shù)目計數(shù),并且其中g(shù)現(xiàn)在等于施加限定的自由能成本(即,受限定與不受限定折疊自由能之間的差異)。將模型預(yù)測與顯式折疊計算相比較(zuker,m.(2003)nucleicacidsres.,31,3406-3415;mathewsdh等人,(2004)proc.natl.acad.sci.usa,101,7287-7292;hofackeril(2003)nucleicacidsres.,31,3429-3431)。使計算折疊能與模型之間的平方偏差最小化以獲得最優(yōu)模型參數(shù)。表4列出了經(jīng)優(yōu)化g5參數(shù)。基于計算數(shù)千個三核苷酸,模型g5=g0+gana+gcnc+ggng+gunu的參數(shù)關(guān)聯(lián)隨機序列。折疊是指最小折疊自由能,而非配對是指禁止k聚體中的配對的自由能成本。腺嘌呤和鳥嘌呤的大每堿基自由能差異值得注意,腺嘌呤的去穩(wěn)定化效應(yīng)也值得注意。表4:在圖28中,繪制顯式計算與模型之間的散布,并且列出平均平方殘差。組成相依性模型g5顯著減小殘差,反射了g與c堿基的平均自由能不同,a與u也不同。在模型g5的情況下,有可能捕獲折疊自由能的大部分變化并且對o(n)時間作出相當準確的預(yù)測,而不借助o(n3)折疊計算。包括每種堿基的不同每堿基能量的模型g5的結(jié)果顯示,鳥嘌呤和腺嘌呤的平均穩(wěn)定性相差大于1kcal/mol(表4)。nesg數(shù)據(jù)集的密碼子斜率清單中值得注意的是,典型地,最高表達通常在腺嘌呤處于擺動位置時出現(xiàn)并且在鳥嘌呤處于擺動位置時最小。用于去除區(qū)中的二級結(jié)構(gòu)的平均自由能成本g5可能適用作非配對成本的更禁止的顯式計算的代理。為了顯式地計算非配對成本,花費o(n3)時間,但平均去折疊成本僅花費o(k)時間,其中受禁止區(qū)的長度k遠小于基因的長度n。使用具有mrna相關(guān)性的隨機化序列開發(fā)這些方法。接著的步驟是在nesg數(shù)據(jù)集的天然序列上測試模型以再次研究顯式自由能計算與方程式(1)模型相關(guān)的程度。以此方式,可以探索g5是否是適用于對核糖體結(jié)合位點的可行性或局部自由能成本作為沿著基因的核糖體過程建模的近似值。g5還可以用以對凈trna-mrna結(jié)合自由能和翻譯動力學(xué)建模。這可以確定凈trna-密碼子結(jié)合自由能是否與密碼子斜率充分相關(guān)。模型g5測量了堿基的平均特性并且不包括任何相關(guān)性。具有大于平均值的互補性的區(qū)將最可能結(jié)合。使用bindigonet,可以在o(n2)時間中鑒別特定序列內(nèi)的強互補子串。對去配對子序列的成本的bindigonet估算可能比單獨使用g5更準確,因為包括了所討論序列的特定特征。bindigonet計算將比單獨使用g5更昂貴,但相對于完整o(n3)折疊計算僅花費一部分時間。實例12:克隆、產(chǎn)生和檢測將大腸桿菌菌株dh5α用于克隆,其它實驗使用發(fā)育的菌株bl21(λde3)pmgk,其是用于高通量蛋白質(zhì)表達的相同菌株(acton,2005)。將細菌在lb培養(yǎng)基(affymetrix/usb)中培養(yǎng)。對于具有基于pet21的質(zhì)體的培養(yǎng)物,以100μg/ml添加氨芐青霉素。以25μg/ml添加卡那霉素以維持pmgk質(zhì)體。在用以產(chǎn)生高通量蛋白質(zhì)表達數(shù)據(jù)集(acton,2005)的相同的培養(yǎng)基中以及條件下進行細菌生長以用于蛋白質(zhì)表達和rna印跡實驗:基礎(chǔ)培養(yǎng)基,在250rpm攪拌下,在誘導(dǎo)之前在37℃下和在誘導(dǎo)之后在17℃下。從nesg獲得基因ape_0230.1(來自敏捷氣熱菌(aeropyrumpernix)k1)、rsp_2139(來自類球紅細菌(rhodobactersphaeroides))、sru_1983(來自紅色嗜鹽菌(salinibacterruber))、sco1897(來自天藍色鏈霉菌(streptomycescoelicolor))和ycaq(來自大腸桿菌)的pet-21克隆株(克隆株分別稱為nesg標靶:xr92、rhr13、srr141、rr162和er449)。通過genscriptdna合成基因的6aat和31c-foh/31c-fot變異體。通過pcr擴增使用包含ncoi位點的長正向引物產(chǎn)生頭端變異體31c-foh和31c-foh,新的頭序列和在構(gòu)筑體的頭端擴增之后雜交的序列。使用頭端必須經(jīng)置換的構(gòu)筑體的質(zhì)體作為用相應(yīng)長正向引物和反向引物(其在包括xhoi位點的構(gòu)筑體的3'端處雜交)的pcr的dna模板。在經(jīng)ncoi和xhoi線性化的pet-21質(zhì)體中用in-fusion試劑盒克隆pcr產(chǎn)物。通過dna測序驗證所有質(zhì)體并且在需要時使用quikchangeii定點誘變試劑盒校正。將來自單一菌落的起始培養(yǎng)物接種到含有100μg/ml氨芐青霉素和30μg/ml卡那霉素的6mllb培養(yǎng)基中。使培養(yǎng)物在37℃下生長直到高度混濁(4-6小時)。將40μl混濁培養(yǎng)基用以接種2mlnesgmj9基本培養(yǎng)基。使此mj9預(yù)培養(yǎng)物在37c下生長過夜。第二天,獲取混濁mj9預(yù)培養(yǎng)物的1:10稀釋物的od600讀數(shù)。將此讀數(shù)用以計算針對6ml培養(yǎng)基中0.1的起始培養(yǎng)物讀數(shù)標準化所有細胞樣品所需的預(yù)培養(yǎng)物量。將此計算量接種到6ml新鮮mj9培養(yǎng)基中,并且使細胞在37℃下生長直到od600達到0.5-0.7。然后用1mmiptg誘導(dǎo)細胞,每種標靶wt保留一個一式兩份管非誘導(dǎo)以充當陰性對照。在誘導(dǎo)之后,移出200μl×2的每種培養(yǎng)物,并且將其放置到無菌96孔板中用于生長曲線監(jiān)測。然后將剩余5.6ml經(jīng)誘導(dǎo)樣品轉(zhuǎn)移到17℃并且震蕩過夜。第二天,將樣品管從震蕩器移出并且放置在冰上。使用(在此插入儀器名稱)獲取最終od600測量值。使細胞在14ml圓底falcon管中在4krpm下離心10分鐘,并且舍棄上清液。將細胞再懸浮于1.2ml溶解緩沖液(50mmnah2po4ph8.0,30mmnacl,10mm2-巰基乙醇)中,并且然后轉(zhuǎn)移到冰上的1.5mleppendorf管。通過使用40v設(shè)定(約12瓦脈沖)和脈沖1sec繼而2sec靜止持續(xù)總共40個脈沖在冰上進行聲處理,來實現(xiàn)溶解。將120μl每種溶解樣品與40μl4xlaemmli緩沖液混合。然后使樣品在具有bio-radprecisionplusallbluestandard標記的sds-page(bio-rad,readygel,15%tris-hcl)上運行。將最終od600測量值用以計算每種個別樣品的負載量,針對每種獨特標靶的最少混濁的密度標準化所有樣品。通過將200μl每種誘導(dǎo)培養(yǎng)物轉(zhuǎn)移到96孔無菌板(在此插入板類型)并且用50μl無菌石蠟油覆蓋,測量過夜細胞生長。對于每種標靶wt,負載陰性對照非誘導(dǎo)樣品。負載一式兩份的每種樣品以用于任何自然或人類變異。將板在室溫下放置到(在此插入儀器名稱)中,并且震蕩30秒。獲取起始od600讀數(shù),并且然后是30分鐘震蕩直到下一od讀數(shù)。再重復(fù)讀數(shù)27次,以用于總共14.5小時的生長分析。將含有優(yōu)化或未優(yōu)化插入序列的pet21質(zhì)體用blpi消化,苯酚-氯仿純化,并且通過乙醇沉淀濃縮。在經(jīng)消化樣品中,添加2μg到ribomax試劑盒制備物,并且根據(jù)方案體外轉(zhuǎn)錄。在反應(yīng)完成后,將體外轉(zhuǎn)錄樣品用dna酶處理,然后異丙醇沉淀,并且再懸浮于thernastoragesolution中。通過瓊脂糖凝膠電泳用溴化乙錠染色驗證轉(zhuǎn)錄物大小和純度。用purexpress系統(tǒng)使用優(yōu)質(zhì)l-[9]35s]甲硫氨酸對經(jīng)純化mrna進行體外翻譯分析。每一25μl反應(yīng)物含有10μl溶液a、7.5μl溶液b和2μl[11]35s]甲硫氨酸(10μci)。通過添加2μl經(jīng)純化mrna(4μg/μl)和在37℃下孵育而起始反應(yīng)。在15、30、60和90min從反應(yīng)物抽取5μl的等分試樣,通過添加10μl2xlaemmli并且在60℃下加熱2min而終止。然后使14μl的每個等分試樣在具有bio-radprecisionplusallbluestandard標記的4-20%sds-page上運行。使凝膠在whathman上干燥以及經(jīng)歷放射自顯影,其呈現(xiàn)于此圖上。將rna印跡探針設(shè)計為pet21載體的5'utr的71nt的反向互補序列,并且通過eurofins合成。將探針使用brightstar補骨脂素-生物素非同位素標記試劑盒用生物素標記。使含有所關(guān)注質(zhì)體的bl21pmgk大腸桿菌在lb中在37℃下在震蕩下生長過夜。將培養(yǎng)物1:50稀釋到mj9培養(yǎng)基中,并且使其在37℃下在震蕩下生長過夜。第二天,將培養(yǎng)物稀釋到0.15的od600到mj9培養(yǎng)基中,并且使其生長到0.6-0.7的od600,隨后用1mmiptg誘導(dǎo)。在指定時間點獲取樣品,并且在2體積的rnaprotectbacteriareagent中穩(wěn)定化rna。在?;?,使樣品溶菌酶消化(15mg/ml)15分鐘,并且使用direct-zolrnaminiprepkit和tri-reagent純化rna。在1.2%甲醛-瓊脂糖凝膠上在mops-甲醛緩沖液中每樣品分離約1-2μg總rna。通過溴化乙錠染色驗證rna完整性。然后將rna在室溫下持續(xù)2h使用毛細管下行轉(zhuǎn)移法用堿性轉(zhuǎn)移緩沖液(1mnacl,10mmnaoh,ph9)轉(zhuǎn)移到帶正電尼龍膜。將rna使用1200μjuv交聯(lián)到膜。使膜在雜交爐中在42℃下在ultrahyb雜交緩沖液中預(yù)雜交1h。然后添加熱變性的經(jīng)生物素標記的探針到10-20pm最終濃度,并且在42℃下雜交過夜。在洗滌緩沖液(0.2xssc,0.5%sds)中洗滌膜兩次,并且在暴露于薄膜的情況下根據(jù)方案使用brightstarbiodetect試劑盒檢測探針信號。實例13:chglir密碼子取代在某些方面,本文所描述方法涉及通過根據(jù)chglir斜率取代編碼多肽的序列中的一個或多個密碼子來優(yōu)化多肽的表達。在一個實施例中,蛋白質(zhì)的表達可以通過用具有更高chglir斜率得分的同義密碼子取代編碼序列中的至少一個密碼子而增加。在一個實施例中,蛋白質(zhì)的表達可以通過用具有更高chglir斜率得分的同義密碼子取代編碼序列中的所有密碼子而增加。在一個實施例中,蛋白質(zhì)的表達可以通過用具有更高平均chglir斜率得分(即,在編碼序列中的某一窗內(nèi)平均化的chglir斜率得分)的同義密碼子取代編碼序列中的一些或所有密碼子而增加。chglir斜率得分展示于表5中。表5:chglir斜率得分實例14:blogit密碼子取代在某些方面,本文所描述方法涉及通過根據(jù)blogit系數(shù)或強烈相關(guān)的ologit系數(shù)取代編碼多肽的序列中的一個或多個密碼子來優(yōu)化多肽的表達。在一個實施例中,蛋白質(zhì)的表達可以通過用具有更高blogit系數(shù)的同義密碼子取代編碼序列中的至少一個具有更低blogit系數(shù)的密碼子而增加。在一個實施例中,蛋白質(zhì)的表達可以通過用具有更高blogit系數(shù)的同義密碼子取代編碼序列中的所有具有更低blogit系數(shù)的密碼子而增加。在一個實施例中,蛋白質(zhì)的表達可以通過用具有更高平均blogit或ologit斜率得分(即,在編碼序列中的某一窗內(nèi)平均化的blogit或ologit斜率得分)的同義密碼子取代編碼序列中的一些或所有密碼子而增加。blogit和ologit系數(shù)展示于表6中。表6:blogit系數(shù)實例15:密碼子對大規(guī)模蛋白質(zhì)表達的影響與大腸桿菌mrna水平相關(guān)為了研究尾端中的密碼子使用是否可以影響蛋白質(zhì)表達,保留天然頭序列,并且使用6aa方法僅僅優(yōu)化四個基因的尾端中的密碼子(圖13b中的wth/6aat)。尾端優(yōu)化增加了這些目的蛋白全部四者的表達,但改進程度實質(zhì)上變化。對于兩者(rsp_2139和sco1897),在誘導(dǎo)后蛋白質(zhì)表達歸因于降低的毒性而適度地改進,其增加既定量的培養(yǎng)物中的細胞質(zhì)量而不增加針對總細胞蛋白質(zhì)標準化的目的蛋白的產(chǎn)率。然而,其它兩種目的蛋白展示了針對總細胞蛋白質(zhì)標準化表達的顯著(sru_1983)或極大(ape_0230.1)增加,驗證了來自計算分析的如下推斷:尾端中的密碼子含量可以對蛋白質(zhì)表達水平具有有力的影響。還通過構(gòu)筑具有相同尾端但不同頭端的基因,測試頭端中的密碼子使用相較于mrna折疊的相對影響,使用31c方法密碼子優(yōu)化所述基因,同時優(yōu)化(31c-foh,具有最大化δguh)或去優(yōu)化(31c-fdh,具有最小化δguh)其計算折疊自由能。31c-fo頭端改進所評估的所有四種蛋白質(zhì)的表達(圖13b)。rsp_2139和sco1897(當其尾端經(jīng)優(yōu)化時僅適度地改進表達的蛋白質(zhì))的改進最大,表明其天然基因的高效翻譯的主要障礙存在于其頭端中。與此推斷一致,這些蛋白質(zhì)的31c-fo頭端與天然或6aa優(yōu)化尾端組合產(chǎn)生類似地高的表達水平(圖13b)。對于四種目的蛋白,去優(yōu)化頭端折疊得到平行于其計算自由能的不同結(jié)果(圖13b)。這些蛋白質(zhì)之間在使用富a/u的31c密碼子設(shè)定構(gòu)筑的同義頭端中可以實現(xiàn)的最低δguh方面存在很大差異,提供密碼子使用與mrna序列的更整體的物理化學(xué)特性之間的偶合的另一實例。最穩(wěn)定折疊的31c-fd頭端(rsp_2139,具有δguh=-47kcal/mol)消除了由同義31c-fo頭端(δguh=-37kcal/mol)產(chǎn)生的極高表達,驗證了建模研究(圖29)和先前文獻的如下結(jié)論:穩(wěn)定頭端折疊可以阻斷蛋白質(zhì)表達。sru_1983的31c-fd頭端(δguh=-41kcal/mol)與同義31c-fo頭端(δguh=-34kcal/mol)相比也降低了表達,而ape_0230.1的31c-fd頭端(δguh=-32kcal/mol)產(chǎn)生與同義31c-fo頭端(δguh=-30kcal/mol)等效的表達。然而,這些密碼子優(yōu)化的頭端與具有類似折疊能(對于sru_1983wt頭端δguh=-34kcal/mol,并且對于sru_198331c-fo頭端是-34kcal/mol)的天然頭端相比增加了表達,證實了如下計算推斷(圖29),頭端中的密碼子含量可以強烈影響蛋白質(zhì)表達。如本文所述,驗證來自計算建模的推斷。多參數(shù)計算建模是有力的工具,因為其原則上可以解決交叉相關(guān)參數(shù)(例如,密碼子含量和預(yù)測rna折疊能(reuter,j.s.等人(2010)bmcbioinformatics11,129)以及圖17-18中評估的其它參數(shù))的相對影響。然而,這些估算值中可能存在噪聲,并且一些參數(shù)的明顯影響可以反映未包括在分析中的交叉相關(guān)參數(shù)的“隱藏”影響。舉例來說,如果進化將更高度表達的蛋白質(zhì)限定得更可溶,那么蛋白質(zhì)表達水平與針對溶解性增強氨基酸的密碼子的頻率之間可以存在正相關(guān)性,即使這些氨基酸不增加蛋白質(zhì)翻譯效率。因此,必需使用機制性信息性實驗驗證計算推斷。本文所描述的體外翻譯實驗(圖13c)重要地驗證了,多參數(shù)計算模型(圖29)中鑒別的最有影響的mrna序列特征直接調(diào)節(jié)翻譯,排除來自統(tǒng)計噪聲的實質(zhì)性干擾、隱藏變量、替代效應(yīng)或其它潛在系統(tǒng)性誤差。此論文中呈現(xiàn)的實驗數(shù)據(jù)強烈支持計算建模研究的主要結(jié)論;然而,這些研究的細節(jié)需要進一步驗證,以便既確保其定量準確性也闡明基礎(chǔ)分子機制。此領(lǐng)域中的高優(yōu)先級將是評估新密碼子影響度量值(圖11b中的彩色標志)是否準確地描述不同氨基酸和相同氨基酸的同義密碼子的相對翻譯效率。通過此度量值與大腸桿菌中體內(nèi)整體生理蛋白質(zhì)和mrna水平的強相關(guān)性驗證其廣泛特征(圖30),但一些同義密碼子對的值的差異自身并不是統(tǒng)計顯著的。將需要體內(nèi)蛋白質(zhì)表達實驗和體外蛋白質(zhì)合成的高分辨率酶學(xué)研究(caliskan,n.等人(2014)cell157,1619-1631;ieong,k.w.等人(2012)jamchemsoc134,17955-17962;johansson,m.等人(2012)procnatlacadsciusa109,131-136;zaher,h.s.等人(2009)nature457,161-166)來批評性地評估新密碼子度量值的定量細節(jié)和闡明其機制性來源。本文所描述的結(jié)果對于密碼子含量對大腸桿菌中的蛋白質(zhì)表達的影響產(chǎn)生了相干模型,以及若干相關(guān)機制性假設(shè)。體外等效地轉(zhuǎn)錄(圖33)但體外低效翻譯(圖13c)的具有次優(yōu)密碼子使用的mrna具有劇烈降低的體內(nèi)濃度(圖13d)。此外,來源于大腸桿菌中的大規(guī)模體內(nèi)蛋白質(zhì)表達實驗(圖11、29、34a)的新密碼子影響度量值與整體蛋白質(zhì)水平、蛋白質(zhì)/mrna比和此生物體中的在生理條件下的體內(nèi)mrna水平相關(guān)(圖30)。因此,有可能的是,低效翻譯的密碼子以兩種不同但相關(guān)的方式減弱蛋白質(zhì)表達,第一者通過降低翻譯效率和繼而的mrna分子蛋白質(zhì)產(chǎn)率,并且第二者通過增強所述mrna分子的降解速率(chevrier-miller,m.等人(1990),nucleicacidsres18,5787-5792;dosreis,m.(2003)nucleicacidsresearch31,6976-6985;leroy,a.等人(2002)molecularmicrobiology45,1231-1243;marchand,i.等人(2001)molmicrobiol42,767-776;nogueira,t.等人(2001)jmolbiol310,709-722;iost,i.等人(1995)emboj14,3252-3261;deana,a.等人(1996)jbacteriol178,2718-2720)。低效翻譯的密碼子還可能促進通過大腸桿菌rna聚合酶合成的mrna的提前終止(cardinale,c.j.等人(2008)science320,935-938;proshkin,s.等人(2010)science328,504-508),這也將導(dǎo)致穩(wěn)態(tài)濃度降低。總的來說,每種mrna的轉(zhuǎn)錄起始速率(其不應(yīng)直接取決于密碼子使用)與其提前終止和衰減速率(其顯著取決于密碼子使用)之間的平衡控制其穩(wěn)態(tài)水平。此動力在大腸桿菌中的生理mrna水平與密碼子含量之間產(chǎn)生了本文所描述的強相關(guān)性(圖30)。翻譯效率與mrna水平之間的反饋將擴大密碼子使用的影響和可能還有對蛋白質(zhì)表達水平的其它翻譯調(diào)節(jié)現(xiàn)象,在翻譯效率與mrna轉(zhuǎn)錄/降解之間產(chǎn)生了生理學(xué)上重要但此前未曾了解的聯(lián)系。將模型與在最近在大腸桿菌中進行的體內(nèi)核糖體分布實驗中獲得的結(jié)果比較已經(jīng)引發(fā)了關(guān)于密碼子使用對蛋白質(zhì)表達的影響的重大問題。這很可能是因為其展示了每個開放閱讀框(orf)內(nèi)均質(zhì)的mrna占用以及核糖體占用的orf的水平與所編碼蛋白質(zhì)的濃度之間的強相關(guān)性(li,g.-w.等人(2012)nature484,538-541;li,g.w.等人(2014)cell157,624-635),意味著在大多數(shù)mrna模板上核糖體以類似速率延長蛋白質(zhì),無關(guān)于密碼子使用。然而,同義密碼子使用的變化可以明顯地調(diào)節(jié)體內(nèi)蛋白質(zhì)表達水平(nogueira,t.等人(2001)jmolbiol310,709-722;deana,a.等人(1996)jbacteriol178,2718-2720;chen,g.t.等人(1994)genesdev8,2641-2652;dana,a.等人(2014)nucleicacidsres42,9171-9181;gingold,h.等人(2011)molsystbiol7,481;goodman,d.b.等人(2013)science;kimchi-sarfaty,c.等人(2007)science315,525-528;li,x.等人(2006)rna12,248-255;plotkin,j.b.等人(2011)natrevgenet12,32-42;quax,t.e.等人(2013)cellrep4,938-944;spencer,p.s.等人(2012)jmolbiol422,328-335;tuller,t.等人(2010)cell141,344-354;tuller,t.等人(2010)procnatlacadsciusa107,3645-3650;vivanco-dominguez,s.等人(2012)jmolbiol417,425-439;zhang,f.等人(2010)science329,1534-1537;chen,g.f.等人(1990)nucleicacidsres18,1465-1473;chiba,s.等人(2012)molcell47,863-872;letzring,d.p.等人(2013)rna19,1208-1217;ramu,h.等人(2011)molcell41,321-330;sorensen,m.a.等人(2005)jmolbiol354,16-24,(2005)),并且此現(xiàn)象在先前文獻中已經(jīng)歸于mrna翻譯速率因核糖體所致的密碼子相依性變化(chen,g.t.等人(1994)genesdev8,2641-2652;li,x.等人(2006)rna12,248-255;vivanco-dominguez,s.等人(2012)jmolbiol417,425-439;chiba,s.等人(2012)molcell47,863-872;gao,w.等人(1997)molmicrobiol25,707-716;ito,k.等人(2013)annurevbiochem82,171-202;ivanova,n.等人(2005)jmolbiol350,897-905,(2005))。當代基因組規(guī)模實驗與分子生物學(xué)的許多先前文獻之間的此明顯不一致仍然未解決。以上呈現(xiàn)的機制性模型有助于解決此難題,因為密碼子使用對穩(wěn)態(tài)mrna水平的影響可以導(dǎo)致mrna分子的蛋白質(zhì)表達降低,無關(guān)于其翻譯延長速率。只要大多數(shù)orf在經(jīng)歷導(dǎo)致極快速進行性mrna降解的內(nèi)部密碼子相依性事件之前多次翻譯,就可能在每個orf內(nèi)存在相對均質(zhì)的核糖體占用,如核糖體分布實驗中所觀察(li,g.-w.等人(2012)nature484,538-541;li,g.w.等人(2014)cell157,624-635)。因為每個核糖體占用的orf的水平捕獲翻譯起始速率與相應(yīng)mrna穩(wěn)態(tài)濃度的組合影響,所以每種蛋白質(zhì)的濃度與核糖體占用的orf的水平之間存在緊密對應(yīng)性(li,g.-w.等人(2012)nature484,538-541;li,g.w.等人(2014)cell157,624-635),但此水平因mrna濃度的密碼子相依性降低而降低。另一方面,大腸桿菌中的新密碼子影響度量值與整體蛋白質(zhì)/mrna比之間的相關(guān)性(圖30c)引發(fā)了關(guān)于核糖體分布結(jié)果的準確性的問題。密碼子含量對蛋白質(zhì)/mrna比(其應(yīng)反映每mrna分子合成的蛋白質(zhì)分子的平均數(shù)目)的所觀察影響的最直接解釋是翻譯延長速率存在顯著的密碼子相依性變化。此解釋與用于密碼子使用對蛋白質(zhì)合成的影響的長期存在的模型一致但與核糖體分布結(jié)果的一些解讀不一致(li,g.-w.等人(2012)nature484,538-541;li,g.w.等人(2014)cell157,624-635)??赡苄愿〉v得通的替代性解釋是大腸桿菌中的密碼子使用與orf的翻譯起始速率之間存在強進化性聯(lián)系,在所述情況下密碼子含量與蛋白質(zhì)/mrna比之間的相關(guān)性可以代表間接效應(yīng)而非直接機制性偶合。雖然此類進化聯(lián)系是可能的,但因為密碼子使用和翻譯起始共同地調(diào)節(jié)蛋白質(zhì)表達水平,所以在數(shù)據(jù)集中在基因的頭端中密碼子含量與mrna折疊特性之間僅存在弱相關(guān)性(圖17a),并且這些特性很可能是翻譯起始速率的關(guān)鍵決定因素。一大組來自多樣生物體的天然進化基因(圖15)中此相關(guān)性的微弱減小了其間接引起大腸桿菌中的新密碼子影響度量值與整體蛋白質(zhì)/mrna比之間的相關(guān)性的概率(圖30c)。此外,降低的翻譯起始速率應(yīng)歸因于增強的降解速率而導(dǎo)致降低的穩(wěn)態(tài)mrna濃度(chevrier-miller,m.等人(1990),nucleicacidsres18,5787-5792;nogueira,t.等人(2001)jmolbiol310,709-722;iost,i.等人(1995)emboj14,3252-3261;deana,a.等人(1996)jbacteriol178,2718-2720),進一步使對所觀察相關(guān)性的分析變復(fù)雜。盡管這些考慮因素表明翻譯延長速率存在顯著的密碼子相依性變化,但考慮到影響mrna翻譯的生物化學(xué)和進化過程的復(fù)雜性,將需要小心控制的和體內(nèi)體外實驗來實現(xiàn)對同義密碼子使用的變化如何改變翻譯效率和mrna穩(wěn)定性的可靠理解。先前文獻中普遍認為,這些變化可歸于細胞中以更低濃度存在的trna在核糖體上的更慢適應(yīng)(chen,g.t.等人(1994)genesdev8,2641-2652;dana,a.等人(2014)nucleicacidsres42,9171-9181;caskey,c.t.等人(1968)jmolbiol37,99-118;dong,h.等人(1996)journalofmolecularbiology260,649-663;ikemura,t.(1981)jmolbiol151,389-409),其導(dǎo)致相應(yīng)密碼子的翻譯延長循環(huán)的更慢執(zhí)行。新密碼子影響度量值與trna庫水平之間缺乏顯著相關(guān)性(圖31c-e)引發(fā)了關(guān)于此機制性模型的問題并且表明,密碼子-trna相互作用的立體化學(xué)特征和變構(gòu)后果很可能對翻譯效率的密碼子相依性變化作出重要貢獻。將需要未來的研究來闡明這些效應(yīng)并且還確定mrna水平的密碼子相依性變化是否通過mrna的通過翻譯核糖體或?qū)嶋H上通過使rna酶直接募集到與低效翻譯的密碼子相互作用的核糖體(tsai,y.c.等人(2012)nucleicacidsres40,10417-10431)或可能甚至通過活化核糖體自身中的固有rna酶活性(dreyfus,m.(2009)第11章killerandprotectiveribosomes,85,423-466)所致的變化的保護介導(dǎo)。因此,除了向處于分子生物學(xué)的中心法則的核心附近的此類研究提供新穎理解和新穎工具之外,本文所描述的結(jié)果還突顯了待研究的新問題。實例16:剖析同義密碼子使用的生物學(xué)遺傳密碼的中心特征是其簡并。使用61個不同三聯(lián)體核苷酸密碼子引導(dǎo)20種氨基酸的合成使得大量的同義dna/rna序列能夠編碼相同蛋白質(zhì)序列,并且此簡并假定為用以控制生物系統(tǒng)中的蛋白質(zhì)表達水平。然而,關(guān)于此控制的基本原理和機制存在不確定性。普遍認為,平行于同源trna的生理濃度的基因組密碼子使用頻率(ikemurat.journalofmolecularbiology(1981)151(3):389-409;dongh.等人journalofmolecularbiology(1996)260(5):649-63)追蹤所編碼氨基酸的相對翻譯速率,并且同義密碼子的翻譯速率的所得差異控制蛋白質(zhì)合成效率(caskeyct等人journalofmolecularbiology(1968)37(1):99-118;chengt等人genes&development(1994)8(21):2641-52)。然而,最近使用目前先進技術(shù)基因組學(xué)技術(shù)的“核糖體分布”顯示,大腸桿菌中的所有蛋白質(zhì)編碼mrna序列都以大致相同的速率翻譯(lig-w等人,ohe,weissmanjsnature2012;484(7395):538-41;ligw等人cell2014;157(3):624-35)。其它最近基因組學(xué)研究已經(jīng)顯示,大腸桿菌中的使用頻率最低(最稀有)的密碼子(其在一些情形下減弱蛋白質(zhì)表達)(caskeyct等人journalofmolecularbiology(1968)37(1):99-118;chengt等人genes&development(1994)8(21):2641-52;muramatsut等人nature1988;336(6195):179-81;vivanco-dominguezs等人journalofmolecularbiology2012;417(5):425-39;zhangsp等人gene1991;105(1):61-72)當在蛋白質(zhì)編碼序列的起始處附近使用時實際上增加蛋白質(zhì)表達(goodmandb等人science.2013.doi:10.1126/science.1241934)。呈現(xiàn)這些結(jié)果的文獻(lig-w等人,ohe,weissmanjsnature2012;484(7395):538-41;ligw等人cell2014;157(3):624-35;goodmandb等人science2013.doi:10.1126/science.1241934)已經(jīng)避免論述其與先前文獻的矛盾,并且在別處仍尚未提出調(diào)和這些矛盾的假設(shè)。因此,盡管向蛋白質(zhì)中的rna翻譯處于分子生物學(xué)的中心法則核心是事實,但關(guān)于此過程的基本生物化學(xué)和生理學(xué)特征存在不確定性。相關(guān)問題涉及共價修飾翻譯機構(gòu)的組件的許多非必需但進化上保守的酶的生物功能,所述組件包括trna(elyacoubib等人annualreviewofgenetics2012;46:69-95;novoaem等人cell2012;149(1):202-13)、核糖體rna(spenkuchf等人rnabiology2015:0.epub2015/01/27.doi:10.4161/15476286.2014.992278;dunkleja等人procnatlacadsciusa.2014;111(17):6275-80;popovaam等人journaloftheamericanchemicalsociety2014;136(5):2058-69;sergievpv等人nucleicacidsresearch2012.doi:10.1093/nar/gks219)和核糖體蛋白(stradermb等人molecular&cellularproteomics:mcp2011;10(3):m110.005199.epub2010/12/21.doi:10.1074/mcp.m110.005199;forouharf等人naturechemicalbiology2013;9(5):333-8)。許多此種酶表達于大腸桿菌中,其中的一些具有人類基因組中編碼的直系同源物,但生理功能對于其中的大多數(shù)是未知的,盡管已經(jīng)闡明了其生物化學(xué)活性(arragains等人jbiolchem.2010;285(37):28425-33)。已經(jīng)假設(shè),這些酶中的一些通過改變同義密碼子的相對翻譯效率(muramatsut等人nature1988;336(6195):179-81;krugermk等人jmolbiol.1998;284(3):621-31)調(diào)節(jié)蛋白質(zhì)翻譯(elyacoubib等人annualreviewofgenetics2012;46:69-95;novoaem等人cell2012;149(1):202-13;sergievpv等人nucleicacidsresearch2012.doi:10.1093/nar/gks219;fernandez-vazquezj等人plosgenetics2013;9(7):e1003647;kirchners等人naturereviewsgenetics2015;16(2):98-112)。然而,支持此種調(diào)節(jié)活性的數(shù)據(jù)僅對酵母中的一種trna“高修飾”酶呈現(xiàn)(phizickyem等人genes&development2010;24(17):1832-60;laxmans等人cell2013;154(2):416-29)。因此,對于催化翻譯機構(gòu)的共價修飾的絕大多數(shù)酶,生理功能仍然不確定。重要的是闡明mrna翻譯/蛋白質(zhì)合成的一些“暗物質(zhì)”。最近得出了大腸桿菌的基于對大規(guī)模實驗蛋白質(zhì)過度表達數(shù)據(jù)集的數(shù)學(xué)分析的新密碼子影響度量值(g等人nature提交(審查中))。與先前文獻相比具有實質(zhì)性差異的此度量值與基因組密碼子使用頻率僅極弱地相關(guān),但與大腸桿菌基因組中編碼的所有基因的生理mrna水平極強烈地相關(guān)(g等人nature提交(審查中))。進行多個生物化學(xué)和分子生物學(xué)研究以驗證所述新度量值和開始剖析基礎(chǔ)分子機制。這些研究顯示,低效翻譯的密碼子增濃的mrna與從相同啟動子轉(zhuǎn)錄但高效翻譯的密碼子增濃的同義mrna相比具有系統(tǒng)地降低的濃度,表明大腸桿菌中的mrna翻譯效率與衰減速率之間有緊密偶合(g等人nature提交(審查中))。此偶合的強度(其解釋了新密碼子影響度量值與整體mrna水平之間展現(xiàn)的相關(guān)性)很可能已經(jīng)遮蔽了對大腸桿菌中的一些翻譯調(diào)節(jié)現(xiàn)象的分析,因為對mrna水平的強烈影響的觀察結(jié)果通常已經(jīng)假定為反映基因表達的轉(zhuǎn)錄調(diào)節(jié)而非與mrna翻譯的調(diào)節(jié)相關(guān)的任何內(nèi)容。還研究了mrna水平的整體測量值推斷密碼子效率的影響。這將開放經(jīng)由分析可容易獲得的微陣列或rnaseq數(shù)據(jù)表征影響和調(diào)節(jié)翻譯的因素的另一方法。將經(jīng)開發(fā)以分析大規(guī)模蛋白質(zhì)過度表達數(shù)據(jù)集的相同數(shù)學(xué)模型應(yīng)用于單一微陣列數(shù)據(jù)集概括了密碼子影響度量值的關(guān)鍵特征,證實此方法的效用。將獲得對分子機制的進一步理解,同義密碼子使用的變化通過所述分子機制通過以下方式控制和調(diào)節(jié)mrna翻譯過程:(1)評估替代性熒光蛋白方法對于表征大腸桿菌中的體內(nèi)同義基因序列的相對表達效率的功效;(2)使用現(xiàn)有生物化學(xué)方法和在(1)下開發(fā)的方法測試新大腸桿菌密碼子影響度量值的細節(jié);(3)分析來自敲除假設(shè)可調(diào)節(jié)同義密碼子使用的基因(包括共價修飾翻譯機構(gòu)的基因)的大腸桿菌菌株的rnaseq數(shù)據(jù),以評估其在所選生長條件下對相對密碼子效率的影響;和(4)通過定量大腸桿菌中的所有非必需基因?qū)τ稍谕x密碼子使用方面具有所定義差異的基因編碼的蛋白質(zhì)的相對表達水平的影響來闡明控制同義密碼子效應(yīng)的生物化學(xué)系統(tǒng)。翻譯(分子生物學(xué)的中心法則中的最后階段)涉及核糖體解碼mrna以合成蛋白質(zhì)。因為蛋白質(zhì)介導(dǎo)大多數(shù)基因的生物化學(xué)效應(yīng),所以翻譯是細胞的功能狀態(tài)的關(guān)鍵決定因素。翻譯的關(guān)鍵特征是遺傳密碼的簡并,其使用61個不同三聯(lián)體核苷酸密碼子編碼僅20種不同氨基酸。此簡并使得相同蛋白質(zhì)序列能夠從大量的同義mrna序列翻譯。臨床基因組學(xué)研究已經(jīng)展現(xiàn)了改變?nèi)祟惣膊∫赘行缘耐x密碼子變化的許多實例(kimchi-sarfatyc等人science2007;315(5811):525-8;huntrc等人trendsingenetics:tig2014.epub2014/06/24.doi:10.1016/j.tig.2014.04.006),并且分子生物學(xué)研究已經(jīng)顯示,mrna序列的同義變化可以導(dǎo)致蛋白質(zhì)表達水平的細微和劇烈變化兩者(huntrc等人trendsingenetics:tig2014.epub2014/06/24.doi:10.1016/j.tig.2014.04.006;steinthorsdottirv等人naturegenetics2007;39(6):770-5;zhangf等人science2010;329(5998):1534-7)。雖然mrna序列的變異明顯在調(diào)節(jié)從大腸桿菌到人類的生物體中的蛋白質(zhì)表達方面起重要作用,但已經(jīng)提出了許多不同機制性假設(shè)來解釋這些效應(yīng)(spencerps等人journalofmolecularbiology2012;422(3):328-35),并且其對翻譯效率的影響仍然不清楚并且在一些情況下是有爭論的。雖然普遍認同,基因的5'區(qū)(頭端)中的穩(wěn)定mrna折疊(goodmandb等人science2013.doi:10.1126/science.1241934;kozakm.gene2005;361:13-37;shakin-eshlemansh等人biochemistry1988;27(11):3975-82;castillo-mendezma等人biochimie2012;94(3):662-72;kudlag等人science2009;324(5924):255-8;bentelek等人molecularsystemsbiology2013;9:675;tullert等人proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica2010;107(8):3645-50)可以減弱大腸桿菌中的翻譯,但關(guān)于同義密碼子對翻譯效率的影響(caskeyct等人journalofmolecularbiology(1968)37(1):99-118;chengt等人genes&development(1994)8(21):2641-52;goodmandb等人science2013.doi:10.1126/science.1241934;kudlag等人science2009;324(5924):255-8;bentelek等人molecularsystemsbiology2013;9:675;cannarozzig等人cell2010;141(2):355-67;pricewn等人microbialinformaticsandexperimentation2011;1(1):6;wallaceew等人molecularbiologyandevolution2013;30(6):1438-53;elfj等人science2003;300(5626):1718-22;ranw等人mbio2014;5(2):e00956-14;quaxte等人cellreports2013;4(5):938-44)、此類效應(yīng)的機制性基礎(chǔ)和其與mrna折疊效應(yīng)的關(guān)系(goodmandb等人science2013.doi:10.1126/science.1241934;kozakm.gene2005;361:13-37;shakin-eshlemansh等人biochemistry1988;27(11):3975-82;castillo-mendezma等人biochimie2012;94(3):662-72;kudlag等人science2009;324(5924):255-8;bentelek等人molecularsystemsbiology2013;9:675;tullert等人proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica2010;107(8):3645-50)存在相當大的不確定性。核糖體分布研究(ingoliant等人science2009;324(5924):218-23)推斷,凈翻譯延長速率對于大腸桿菌mrna實際上恒定,無關(guān)于密碼子使用(lig-w等人,ohe,weissmanjsnature2012;484(7395):538-41;ligw等人cell2014;157(3):624-35)。此發(fā)現(xiàn)挑戰(zhàn)了同義密碼子翻譯速率的差異影響蛋白質(zhì)表達的假定,所述假定是許多密碼子使用文獻的基礎(chǔ)(zhangf等人science2010;329(5998):1534-7;spencerps等人journalofmolecularbiology2012;422(3):328-35;gingoldh等人molecularsystemsbiology2011;7:481.doi:10.1038/msb.2011.14;tullert等人proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica2010;107(8):3645-50;quaxte等人cellreports2013;4(5):938-44;danaa等人nucleicacidsres.2014;42(14):9171-81;sharppm等人nucleicacidsres.1987;15(3):1281-95),但尚未提出解釋密碼子使用的變化導(dǎo)致蛋白質(zhì)表達劇烈變化的許多實驗的替代性機制(gingoldh等人molecularsystemsbiology2011;7:481.doi:10.1038/msb.2011.14)。此外關(guān)于哪些密碼子相關(guān)特性對于蛋白質(zhì)表達有益相較于有害,存在不確定性(gingoldh等人molecularsystemsbiology2011;7:481.doi:10.1038/msb.2011.14)。舉例來說,已經(jīng)替代性地提出了更均質(zhì)的密碼子使用以增強(cannarozzig等人cell2010;141(2):355-67;quaxte等人cellreports2013;4(5):938-44)或降低(zhangg等人nucleicacidsres.2010;38(14):4778-87)翻譯效率。許多密碼子使用文獻集中于大腸桿菌基因組中的一組稀有密碼子(zhangsp等人gene1991;105(1):61-72)的低效翻譯(ikemurat.journalofmolecularbiology1981;151(3):389-409;zhangsp等人gene1991;105(1):61-72;sharppm等人nucleicacidsres.1987;15(3):1281-95),所述密碼子尤其是ile的aua密碼子(caskeyct等人journalofmolecularbiology1968;37(1):99-118;muramatsut等人nature1988;336(6195):179-81)以及arg的aga、agg和cgg密碼子(chengt等人genes&development1994;8(21):2641-52;vivanco-dominguezs等人journalofmolecularbiology2012;417(5):425-39)。在此基礎(chǔ)上,普遍認為,平行于trna庫水平的基因組密碼子使用頻率影響翻譯效率,并且不常見密碼子低效地翻譯(ikemurat.journalofmolecularbiology1981;151(3):389-409;dongh等人journalofmolecularbiology1996;260(5):649-63;caskeyct等人journalofmolecularbiology1968;37(1):99-118;chengt等人genes&development1994;8(21):2641-52;danaa等人nucleicacidsres.2014;42(14):9171-81)。體外翻譯研究已經(jīng)展現(xiàn),帶電trna的濃度可以影響蛋白質(zhì)延長速率,更低濃度導(dǎo)致核糖體上的適應(yīng)更慢。蛋白質(zhì)延長速率的所得降低被認為可導(dǎo)致不常使用的密碼子體內(nèi)低效地翻譯,因為其同源trna的濃度通常與其密碼子使用頻率成比例(ikemurat.journalofmolecularbiology1981;151(3):389-409;dongh等人journalofmolecularbiology1996;260(5):649-63)。然而,當基因的頭端含有以上列舉為翻譯的屏障的稀有密碼子時,熒光報告蛋白的表達增加11。此效應(yīng)解釋為反映頭端中的低效密碼子使用的耐受性以防止將減弱翻譯的穩(wěn)定mrna折疊11。然而,未進行操控任一參數(shù)來驗證此推斷或剖析其相互作用的實驗,并且替代性理論提出稀有密碼子在一些情形下可以直接增強翻譯效率(elfj等人science2003;300(5626):1718-22;dittmarka等人emboreports2005;6(2):151-7;tullert等人cell2010;141(2):344-54)。進化生物學(xué)文獻集中于基因組密碼子使用頻率的不同相關(guān),其是蛋白質(zhì)合成中的準確性(wallaceew等人molecularbiologyandevolution2013;30(6):1438-53;bulmerm.genetics1991;129(3):897-907;akashih.genetics1994;136(3):927-35)。生物化學(xué)研究提出,更常見的密碼子應(yīng)更準確地翻譯,因為其同源trna的水平系統(tǒng)地更高,并且來自近同源trna的競爭是翻譯錯誤的主要原因(ikemurat.journalofmolecularbiology1981;151(3):389-409;dongh等人journalofmolecularbiology1996;260(5):649-63;kramereb等人rna2007;13(1):87-96.doi:10.1261/rna.294907;zaherhs等人cell2011;147(2):396-408)。更常見密碼子的使用在蛋白質(zhì)中的更為保守的位點處會增加(ranw等人mbio.2014;5(2):e00956-14;akashih.genetics1994;136(3):927-35),大概是因為此類位點處的更準確翻譯(ninioj.febsletters.1986;196(1):1-4)促成了更大的適合性(wallaceew等人molecularbiologyandevolution2013;30(6):1438-53;drummondda等人cell2008;134(2):341-52)。雖然不太常見的密碼子也可以不太高效地翻譯(danaa等人nucleicacidsres.2014;42(14):9171-81;rochaep.genomeresearch.2004;14(11):2279-86),但這些參數(shù)之間的系統(tǒng)性相關(guān)性仍有待展現(xiàn)。使針對mrna序列對蛋白質(zhì)表達的影響的研究變復(fù)雜的一個因素是,同義序列變化同時影響多種與翻譯相關(guān)的機制性因素,即密碼子一致性、密碼子均質(zhì)性和mrna折疊以及從密碼子對效應(yīng)到總體a/u/c/g含量的其它可能有影響的局部和整體序列特征。大多數(shù)先前研究已經(jīng)集中于局部mrna區(qū)中的個別參數(shù)或參數(shù)對(lig-w等人nature2012;484(7395):538-41;goodmandb等人science2013.doi:10.1126/science.1241934;kudlag等人science2009;324(5924):255-8;bentelek等人molecularsystemsbiology2013;9:675;cannarozzig等人cell2010;141(2):355-67),并且少數(shù)來自這些研究的機制性推斷已經(jīng)使用生物化學(xué)方法測試。為了解決這些限制,在當前審查中的手稿中26,如本文所述對大規(guī)模實驗蛋白質(zhì)表達數(shù)據(jù)集進行統(tǒng)計分析,集中于同時評估多種多樣的局部和整體mrna序列特性的影響,并且所得機制性推斷使用生物化學(xué)實驗測試。本文所描述的組合計算與實驗研究已經(jīng)提供了對大腸桿菌中的mrna序列特征對蛋白質(zhì)表達的影響的新的理解,包括密碼子含量相較于mrna折疊能的相對影響和這些因素在蛋白質(zhì)編碼序列中的不同區(qū)中的影響的變化(g,letsor,neelyh,pricewn,sum,luffj,valecham,everettjk,actont,xiaor,montelionegt,aalbertsdp,huntjf.nature提交(審查中))。其還提供了一種密碼子影響度量值,所述度量值對于工程化高水平蛋白質(zhì)表達有效但與過去的估算值相比具有重大差異(lig-w等人nature2012;484(7395):538-41;ligw等人cell2014;157(3):624-35;goodmandb等人science2013.doi:10.1126/science.1241934;kudlag等人science2009;324(5924):255-8;cannarozzig等人cell2010;141(2):355-67;sharppm等人nucleicacidsres.1987;15(3):1281-95)。此外,生物化學(xué)實驗和計算分析顯示,密碼子使用對大腸桿菌中的體內(nèi)mrna水平具有極強影響,平行于在最近的會議中已經(jīng)對酵母報道的結(jié)果58。結(jié)果顯示,核糖體延長循環(huán)的動力學(xué)對mrna穩(wěn)定性施加關(guān)鍵影響,其有助于同義密碼子使用的變化的生物效應(yīng)。將探索此關(guān)系的程度并且闡明其生物化學(xué)機制(g,letsor,neelyh,pricewn,sum,luffj,valecham,everettjk,actont,xiaor,montelionegt,aalbertsdp,huntjf.nature提交(審查中))。密碼子使用與mrna穩(wěn)定性之間的此關(guān)系向上文提及的在最近的基因組規(guī)模翻譯研究(lig-w等人nature2012;484(7395):538-41;ligw等人cell2014;157(3):624-35;goodmandb等人science2013.doi:10.1126/science.1241934;kudlag等人science2009;324(5924):255-8)與長期存在的基于核糖體解碼速率的差異解釋同義密碼子使用的變化的效應(yīng)的假設(shè)(zhangf等人science2010;329(5998):1534-7;spencerps等人journalofmolecularbiology2012;422(3):328-35;gingoldh,pilpely.molecularsystemsbiology2011;7:481;tullert等人proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica.2010;107(8):3645-50;quaxte等人cellreports2013;4(5):938-44;danaa等人nucleicacidsres.2014;42(14):9171-81;sharppm等人nucleicacidsres.1987;15(3):1281-95)之間的不符提供了可能解釋。雖然已經(jīng)證實難以使此類差異與翻譯調(diào)節(jié)過程或體內(nèi)蛋白質(zhì)表達水平的功能變化嚴格地相關(guān),但核糖體分布研究(lig-w等人nature2012;484(7395):538-41;ligw等人cell2014;157(3):624-35)已經(jīng)對這些假設(shè)產(chǎn)生了更嚴重的攻擊。核糖體分布45使用深度測序技術(shù)來使核糖體位置全面地映射于活細胞中的mrna的完全互補序列上。核糖體分布數(shù)據(jù)顯示,蛋白質(zhì)延長速率對于所有mrna實際上恒定(lig-w等人nature2012;484(7395):538-41;ligw等人cell2014;157(3):624-35),無關(guān)于密碼子使用。此外,其在編碼既定蛋白質(zhì)的mrna內(nèi)的不同位置處的延長速率方面展示出最多微小的差異(lig-w等人nature2012;484(7395):538-41;ligw等人cell2014;157(3):624-35),并且其無法展示特定密碼子處延長速率的任何一致差異(lig-w等人nature2012;484(7395):538-41;ligw等人cell2014;157(3):624-35),與基于先前文獻(zhangf等人science2010;329(5998):1534-7;spencerps等人journalofmolecularbiology2012;422(3):328-35;gingoldh,pilpely.molecularsystemsbiology2011;7:481;tullert等人proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica.2010;107(8):3645-50;quaxte等人cellreports2013;4(5):938-44;danaa等人nucleicacidsres.2014;42(14):9171-81;sharppm等人nucleicacidsres.1987;15(3):1281-95)的期望相反。此外,其無法向密碼子使用的變化可以如何影響蛋白質(zhì)表達提供任何替代性解釋,盡管此現(xiàn)象存在許多充分記載的實例(dongh等人journalofmolecularbiology1996;260(5):649-63;chengt等人genes&development1994;8(21):2641-52;vivanco-dominguezs等人journalofmolecularbiology2012;417(5):425-39;chevrier-millerm等人nucleicacidsres.1990;18(19):5787-92;deanaa等人journalofbacteriology1996;178(9):2718-20;iosti等人theembojournal1995;14(13):3252-61;rosanogl等人microbialcellfactories.2009;8:41;chengf等人nucleicacidsres.1990;18(6):1465-73;goldmane等人jmolbiol.1995;245(5):467-73;itok等人plosone.2011;6(12):e28413;itok等人annualreviewofbiochemistry2013;82:171-202;sorensenma等人jmolbiol.2005;354(1):16-24)。如果限制蛋白質(zhì)表達的密碼子相依性翻譯障礙充分地觸發(fā)mrna的快速降解(圖36)以防止其在核糖體分布中被觀察到(lig-w等人nature2012;484(7395):538-41;ligw等人cell2014;157(3):624-35),那么由本文所描述的結(jié)果和酵母中的平行研究展現(xiàn)的在密碼子使用與mrna穩(wěn)定性之間的聯(lián)系(vladimirpresnyaky-hc等人cshltranslationalcontrol;cshl2014)可以解決此難題。實際上在先前文獻(deanaa等人journalofbacteriology1996;178(9):2718-20;iosti等人theembojournal1995;14(13):3252-61;dreyfusm.第11章killerandprotectiveribosomes2009;85:423-66;richardsj等人biochimicaetbiophysicaacta.2008;1779(9):574-82;dosreism.nucleicacidsresearch2003;31(23):6976-85)中存在個別基因中的此類效應(yīng)的實例。然而,最常用以解釋這些效應(yīng)的模型假定,其在核糖體密度歸因于上游翻譯路障而下降時由mrna的增強的對降解的敏感性介導(dǎo)(圖36的頂部)。預(yù)期此機制將導(dǎo)致核糖體密度降低,并且mrna的起始與末端之間的核糖體占用經(jīng)歷此類密碼子相依性降解效應(yīng)。然而,核糖體分布不展示如大腸桿菌或酵母中的趨勢。此外,此機制可以在基因的整個長度中漸進地降低低效密碼子的表達抑制影響,并且本文所描述的結(jié)果不展示任何此類效應(yīng)。這些觀察結(jié)果顯示,密碼子品質(zhì)與mrna降解之間可能存在更直接的關(guān)系,并且一些密碼子可以使mrna降解系統(tǒng)直接募集到翻譯核糖體以介導(dǎo)與其結(jié)合mrna的降解偶合的其快速再循環(huán)(圖36的底部)。如果介導(dǎo)核糖體上的此過程的變構(gòu)偶合受trna適應(yīng)過程影響,那么此機制可以解釋與trna濃度無關(guān)的翻譯效率的密碼子相依性變化以及受trna濃度影響的變化。本文所描述的研究經(jīng)設(shè)計以擴大和深化對處于分子生物學(xué)的中心法則核心附近的相關(guān)分子機制的理解。已經(jīng)產(chǎn)生了針對大腸桿菌中的密碼子對蛋白質(zhì)表達的影響的全面并且客觀的度量值。如本文所述,已經(jīng)驗證了與先前文獻(lig-w等人nature2012;484(7395):538-41;goodmandb等人science2013.doi:10.1126/science.1241934;kudlag等人science2009;324(5924):255-8;bentelek等人molecularsystemsbiology2013;9:675;cannarozzig等人cell2010;141(2):355-67)相比具有實質(zhì)性差異的此度量值的廣泛特征。度量值挑戰(zhàn)了關(guān)于密碼子使用的同義變化影響蛋白質(zhì)表達的機制的普遍假定。本文所描述的實例經(jīng)設(shè)計以提供對基礎(chǔ)生物化學(xué)機制的理解。已經(jīng)開發(fā)了從具有同時影響多個參數(shù)的相關(guān)序列特征的大規(guī)模數(shù)據(jù)集提取有影響的rna序列參數(shù)的數(shù)學(xué)方法。本文所描述的結(jié)果顯示,廣義多元邏輯回歸建模在去卷積大rna序列數(shù)據(jù)集中的特征之間的復(fù)雜關(guān)系方面是有效的。已經(jīng)展現(xiàn)了大腸桿菌中的密碼子含量與穩(wěn)態(tài)mrna濃度之間的強烈偶合,表明mrna衰減速率與翻譯效率密切地偶合。雖然在先前文獻中已經(jīng)對于個別基因展現(xiàn)了此種偶合,但由分析展現(xiàn)的強烈全基因組偶合表明,mrna穩(wěn)定性的變化對介導(dǎo)密碼子使用的同義變化的效應(yīng)作出重要機制性貢獻(g,letsor,neelyh,pricewn,sum,luffj,valecham,everettjk,actont,xiaor,montelionegt,aalbertsdp,huntjf.nature提交(審查中))。此緊密偶合可以解釋在表征翻譯調(diào)節(jié)現(xiàn)象時遇到的許多困難。本文所描述的數(shù)學(xué)模型可以從mrna分布數(shù)據(jù)推斷密碼子效率,開放闡明密碼子相關(guān)翻譯調(diào)節(jié)的新方法。已經(jīng)展現(xiàn)了來自對單一mrna微陣列數(shù)據(jù)集的數(shù)學(xué)分析的全面密碼子影響度量值的關(guān)鍵特征,并且提供了新的并且極其簡單的表征體內(nèi)基于密碼子的翻譯調(diào)節(jié)效應(yīng)的方法(g,letsor,neelyh,pricewn,sum,luffj,valecham,everettjk,actont,xiaor,montelionegt,aalbertsdp,huntjf.nature提交(審查中))。還已經(jīng)闡明了經(jīng)由定量全基因組研究影響大腸桿菌中的同義密碼子使用的生物化學(xué)系統(tǒng)的完全互補序列。實例17:高通量蛋白質(zhì)表達數(shù)據(jù)集評估來自多種多樣的系統(tǒng)發(fā)生來源的6,348個蛋白質(zhì)編碼基因的表達,所述基因在pet21中從細菌噬菌體t7啟動子轉(zhuǎn)錄,所述pet21是具有氨芐青霉素抗性標記的5.4kbpbr322衍生質(zhì)體(actontb,gunsaluskc,xiaor,malc,araminij,baranmc,chiangyw,climentt,cooperb,denissovang等人methodsenzymol.2005;394:210-43)。歸功于不同生物體中密碼子使用頻率的變化,此數(shù)據(jù)集提供了密碼子空間的廣泛抽樣。細菌噬菌體聚合酶用以驅(qū)動轉(zhuǎn)錄以最小化因天然大腸桿菌rna聚合酶而使翻譯與轉(zhuǎn)錄偶合的可能混雜效應(yīng)(iosti,dreyfusm.theembojournal.1995;14(13):3252-61;iosti,guillerezj,dreyfusm.journalofbacteriology1992;174(2):619-22)。在大腸桿菌菌株bl21(de3)中在18℃下在成分確定的培養(yǎng)基中誘導(dǎo)蛋白質(zhì)表達過夜(actontb,gunsaluskc,xiaor,malc,araminij,baranmc,chiangyw,climentt,cooperb,denissovang等人methodsenzymol.2005;394:210-43),所述菌株含有用于t7聚合酶的單一iptg誘導(dǎo)型基因。此菌株還含有pmgk,具有卡那霉素抗性基因的5.4kbpacyc177衍生質(zhì)體;laci基因的單一拷貝和編碼與arg的稀有aga密碼子同源的trna的argu基因的單一拷貝。蛋白質(zhì)都用八殘基c末端親和標簽(具有序列l(wèi)ehhhhh)表達,所述標簽在計算分析中省略。數(shù)據(jù)集中的蛋白質(zhì)共用小于60%序列一致性。如先前所描述,基于在考馬斯藍染色的sds-page凝膠上對全細胞溶解物的目視檢查,在從0(無表達)到5(最高表達)的整數(shù)標度下對相同質(zhì)體的兩個分離株的蛋白質(zhì)表達水平評分。分離株之間的得分變化很少超過±1(pricewn,handelmans,everettj,tongs,bracica,luffj,naumovv,actont,manorp,xiaor,rostb,montelioneg,huntj.microbialinformaticsandexperimentation2011;1(1):6中的圖s1)。約30%蛋白質(zhì)給出得分0(1,754個蛋白質(zhì))或5(1,973個蛋白質(zhì)),而約40%給出中間得分(2,621個蛋白質(zhì))(pricewn,handelmans,everettj,tongs,bracica,luffj,naumovv,actont,manorp,xiaor,rostb,montelioneg,huntj.microbialinformaticsandexperimentation2011;1(1):6)。實例18:高度表達基因的特征評估基因(在大規(guī)模數(shù)據(jù)集中給出每個表達得分)中的多種多樣的mrna序列參數(shù)的分布,展現(xiàn)了提供高相較于低表達的基因之間的許多差異。檢驗給出每個得分的基因的參數(shù)分布的直方圖(例如,如圖9a,f中所示),其展示了隨得分增加的相對單調(diào)變化。還檢驗給出得分5相較于0的基因的數(shù)目比的自然對數(shù)作為每個參數(shù)值的函數(shù)的“對數(shù)優(yōu)勢比”曲線圖(例如,如圖9e,h中所示),其提供了直方圖中觀察到的趨勢的圖形化匯總。這些曲線圖還向mrna序列參數(shù)與蛋白質(zhì)表達之間的關(guān)系的數(shù)學(xué)建模提供了指南。增加一些密碼子的頻率與更高或更低表達水平相關(guān)。谷氨酸的gaa密碼子展示了最強表達增強效應(yīng)(圖9a,e),而同義gag密碼子對于所有表達得分展示等效頻率分布(圖9e)。ile的aua密碼子展示了最強表達減弱效應(yīng)之一,而同義auc和auu密碼子分別展示了中立和微弱表達增強效應(yīng)(圖9e)。雖然這些趨勢單純地提出了這些密碼子的翻譯效率之間的差異,但下文呈現(xiàn)的多變量統(tǒng)計分析和生物化學(xué)分析指示其來源更為復(fù)雜。然而,ile的相鄰aua密碼子對具有極強的表達減弱效應(yīng),其很可能反映低效翻譯。相比之下,agga基序的頻率(ingoliant,ghaemmaghamis,newmanjr,weissmanjs.science2009;324(5924):218-23)(其匹配夏因-達爾加諾核糖體結(jié)合序列)對蛋白質(zhì)表達水平似乎不具有顯著影響。mrna轉(zhuǎn)錄物的預(yù)測配分函數(shù)折疊自由能的分布(reuterjs,mathewsdh.bmcbioinformatics.2010;11:129)也展示了具有不同表達得分的蛋白質(zhì)之間的系統(tǒng)性差異。表達因編碼序列中的前48個核苷酸(其稱為基因的頭端)中的越來越穩(wěn)定的折疊(即,降低折疊自由能)而減弱(kozakm.gene.2005;361:13-37;shakin-eshlemansh,liebhabersabiochemistry1988;27(11):3975-82;castillo-mendezma,jacinto-loezae,olivares-trejojj,guarneros-penag,hernandez-sanchezj.biochimie.2012;94(3):662-72)。盡管此效應(yīng)與先前研究中進行的觀察結(jié)果一致,但數(shù)據(jù)提供了對減弱表達作為頭端中的預(yù)測折疊自由能(δgh)的函數(shù)的概率的穩(wěn)定校準,并且在δgh=-15kcal/mol下其展示了高表達優(yōu)勢的約1/e減小。當計算頭端的折疊自由能δguh時,相關(guān)性的強度通過包括mrna的5'非翻譯區(qū)(utr)適度地增加(圖9f)。出乎意料地,<δgt>,基因的尾端(即,核苷酸49到終止密碼子)中的預(yù)測折疊自由能的平均值對表達水平展示出非線性影響,高和低值兩者都系統(tǒng)地減弱表達(圖9h)。當在具有48、96或144個核苷酸寬度的50%重疊窗中計算平均值時,觀察到大致等效趨勢(圖9h)。盡管這些觀察結(jié)果顯示尾端中的過度穩(wěn)定或不穩(wěn)定mrna折疊減弱表達,但下文分析指示這些效應(yīng)還具有更復(fù)雜的來源。在大規(guī)模數(shù)據(jù)集中若干額外整體序列參數(shù)與蛋白質(zhì)表達水平具有系統(tǒng)性關(guān)系(g,letsor,neelyh,pricewn,sum,luffj,valecham,everettjk,actont,xiaor,montelionegt,aalbertsdp,huntjf.nature提交(審查中))。檢驗蛋白質(zhì)編碼序列開始處的個別位置處的核苷酸一致性對觀察得分5相較于0的對數(shù)優(yōu)勢比的影響。此區(qū)中的核苷酸組成對蛋白質(zhì)表達具有極強影響,但其影響在第六密碼子之后實質(zhì)上降低,其大致對應(yīng)于mrna的物理上受70s起始復(fù)合物中的核糖體保護的區(qū)。在保護區(qū)內(nèi),g堿基降低高表達概率,而a堿基增加其,并且c和u堿基具有中間效應(yīng)。這些效應(yīng)的評級次序匹配大折疊rna結(jié)構(gòu)集中的每種核苷酸的堿基配對的概率(d.p.aalberts,準備中的手稿),表明所觀察到的趨勢反映了此區(qū)中的mrna堿基為非配對以用于高效核糖體對接的需求。實例19:對影響蛋白質(zhì)表達水平的mrna特征的多參數(shù)二元邏輯回歸分析使用邏輯回歸檢驗大規(guī)模數(shù)據(jù)集中不同mrna序列參數(shù)對蛋白質(zhì)表達水平的相對影響,其利用廣義線性模型來定量連續(xù)變量對二元或序數(shù)結(jié)果的影響。假定兩個互斥結(jié)果(例如在數(shù)據(jù)集中,5相較于0得分)的對數(shù)優(yōu)勢比隨連續(xù)變量的某一函數(shù)的值(例如,密碼子頻率)線性增加,來對結(jié)果建模。圖9e,h說明了二元邏輯回歸的最簡單形式,其中對數(shù)優(yōu)勢比假定為連續(xù)變量的線性函數(shù)。實線展示了具有5相較于0表達得分的蛋白質(zhì)的頻率與對數(shù)優(yōu)勢比之間的線性關(guān)系的最可能斜率。此線性模型準確地描述了gaa密碼子的有益影響(圖9e中的綠色),而其在描述aua密碼子的有害影響方面不太準確(圖9e中的紅色)。邏輯回歸可以使用連續(xù)變量的不同數(shù)學(xué)函數(shù)對此種更復(fù)雜特性建模來進行。盡管如此,線性邏輯回歸分析(如這些)的“密碼子斜率”提供了適用的度量值以定量個別密碼子對蛋白質(zhì)表達的影響。使用二元(5相較于0得分)或序數(shù)(5-0得分)線性邏輯回歸對所有61個非終止密碼子進行此類單一變量分析。數(shù)據(jù)集中基因中的密碼子頻率的相對均勻方差使得所有密碼子的回歸參數(shù)能夠以類似精確度確定。以此方式測定的密碼子斜率顯示,結(jié)束于a或u的密碼子在提供最高蛋白質(zhì)表達水平的基因中系統(tǒng)地增濃,而結(jié)束于g或c的同義密碼子系統(tǒng)地耗盡。這些結(jié)果向工程化合成基因提供了指南(下文展現(xiàn)為成功的策略),所述合成基因通過模擬最佳表達基因的特性來增強蛋白質(zhì)表達。然而,此計算方法不提供關(guān)于每個密碼子的影響的可靠信息,因為在數(shù)據(jù)集中結(jié)束于a或u的大多數(shù)密碼子的頻率在基因中與彼此相關(guān),至少部分由于源生物體的基因組中的at相較于gc頻率的變化。在提供不同蛋白質(zhì)表達水平的基因之間系統(tǒng)地變化的許多參數(shù),包括<δgt>96。不直接影響結(jié)果的參數(shù)在其值與有直接影響的參數(shù)的值相關(guān)時在單一參數(shù)回歸中呈現(xiàn)為有影響。因此,為了剖析參數(shù)的機制性貢獻,進行多參數(shù)邏輯回歸建模。此方法同時分析所有參數(shù)的影響,但可以定量相關(guān)參數(shù)之間的差異的可靠性取決于數(shù)據(jù)集中基因中的參數(shù)獨立地變化的程度。最終多參數(shù)二元邏輯回歸模型在消除影響由其它相關(guān)變量捕獲的解釋變量之后組合獨立探索的解釋變量。觀察最高表達水平相較于無表達的優(yōu)勢的對數(shù)通過以下方程式給出:在此方程式中,δguh是基因的頭端加5'-utr的預(yù)測折疊自由能(以kcal/mol為單位),i是二元指示變量(其在δguh<-39kcal并且核苷酸2-6的gc含量大于62%時是1(并且否則的話是零)),ah和gh分別是密碼子2-6中的腺嘌呤和鳥嘌呤的頻率,u3h是密碼子2-6中的第3位置處尿苷的頻率,s7-16和s17-32分別是密碼子7-16和17-32的平均斜率,‘c和fc分別是基因中的每個非終止密碼子的斜率和頻率,daua是在存在任何aua-aua雙密碼子時假定值1的二元變量,r是密碼子重復(fù)率,并且l是序列長度。計算當省略項時預(yù)測能力的損失提供了對模型中的和基因中的不同區(qū)的其相對影響的最佳估算(圖29a,b)。頭端的影響由折疊能與堿基組成項與s7-16一起的組合捕獲,所述折疊能和堿基組成項很可能反映用于核糖體對接的翻譯起始位點的可行性(duvalm,korepanova,fuchsbauero,fechterp,hallera,fabbrettia,choulierl,micurar,klaholzbp,rombyp,springerm,marzis.plosbiology2013;11(12):e1001731)。尾端的影響由s17-32項與整體項一起捕獲,因為尾端主導(dǎo)著這些參數(shù)(總體密碼子影響、daua、r和l)。計算建模指示,有影響的mrna折疊能效應(yīng)限于頭端,并且這些效應(yīng)顯著,但總體影響比密碼子相關(guān)效應(yīng)更弱(圖29b)。密碼子相關(guān)效應(yīng)在編碼序列的5'端附近是約2.3倍更強,并且在密碼子約32之后下降到恒定水平(未展示),其大致匹配填充核糖體出口通道的殘基的數(shù)目(luj,deutschc.journalofmolecularbiolog.2008;384(1):73-86)81。然而,因為數(shù)據(jù)集中的基因具有遠遠長于頭端的尾端,所以平均尾端中的密碼子含量的影響力大于頭端中約7倍。對照計算顯示,同框密碼子模型優(yōu)于非同框密碼子模型。其還顯示,當包括密碼子斜率和密碼子重復(fù)率r時,尾端中的平均預(yù)測mrna折疊自由能(即,<gt>96)對模型有不顯著貢獻,表明<gt>96對表達的明顯影響(圖9h)很可能可歸于其與這些影響力更大的參數(shù)的相關(guān)性。實例20:新密碼子影響度量值多參數(shù)邏輯回歸模型(圖11b)的密碼子斜率提供了一種新密碼子影響度量值,其定量大腸桿菌中每個密碼子對翻譯效率的平均效應(yīng)。雖然此度量值的一些特征匹配先前文獻中的結(jié)論,但總體趨勢不匹配。由不尋常非同源trna解碼的ile的aua密碼子(forouharf,arragains,attam,gambarellis,mouescajm,hussainm,xiaor,kieffer-jaquinods,seetharamanj,actontb,montelionegt,mullieze,huntjf,fontecavem.naturechemicalbiology2013;9(5):333-8;spencerps,sillere,andersonjf,barraljm.silentsubstitutionspredictablyaltertranslationelongationratesandproteinfoldingefficiencies.journalofmolecularbiology.2012;422(3):328-35)迄今為止具有最強的表達減弱效應(yīng),并且相鄰aua密碼子對具有比兩個非相鄰aua密碼子顯著更強的減弱效應(yīng)。ile的其它兩個密碼子具有大致中立的影響,表明aua的表達減弱效應(yīng)可歸于密碼子一致性而非氨基酸結(jié)構(gòu)。類似地,arg的cgg和cga密碼子具有強表達減弱效應(yīng),而四個同義密碼子具有方向上不同的較弱效應(yīng)。在先前文獻中強調(diào)為對表達有害的八個稀有密碼子之中(stradermb,costantinon,elkinsca,chency,pateli,makuskyaj,choyjs,courtdl,markeysp,kowalakja.molecular&cellularproteomics:mcp.2011;10(3):m110.005199;forouharf,arragains,attam,gambarellis,mouescajm,hussainm,xiaor,kieffer-jaquinods,seetharamanj,actontb,montelionegt,mullieze,huntjf,fontecavem.naturechemicalbiology2013;9(5):333-8;krugermk,pedersens,hagervalltg,sorensenma.jmolbiol.1998;284(3):621-31;zhangf,sahas,shabalinasa,kashinaa.science2010;329(5998):1534-7;danaa,tullert.nucleicacidsres.2014;42(14):9171-81;sharppm,liwh.nucleicacidsres.1987;15(3):1281-95),在數(shù)據(jù)集中僅四個密碼子減弱表達(以上列舉的aua/cgg/cga密碼子和leu的cua密碼子),而其它四個密碼子是中立的(arg的aga密碼子和甘氨酸的gga密碼子)或微弱地增強表達(arg的agg密碼子和pro的ccc密碼子)。aga的明顯影響和可能agg的明顯影響可以通過與aga同源的argutrna的實驗中的過度表達而偏倚。忽略在大腸桿菌中具有最低頻率的這兩個密碼子,下三個最不常見的密碼子減弱表達(圖11c)。然而,其影響的量值存在廣泛變化,并且具有稍高頻率的密碼子是中立的或微弱地增強表達。此外,剩余56個非終止密碼子的頻率與其對表達的影響之間不存在顯著相關(guān)性(圖11c)。類似地,所有61個非終止密碼子的影響與密碼子適應(yīng)指數(shù)(sharppm,liwh.nucleicacidsres.1987;15(3):1281-95)、密碼子敏感性(elfj,nilssond,tensont,ehrenbergm.science2003;300(5626):1718-22)、trna適應(yīng)指數(shù)(tullert,carmia,vestsigiank,navons,dorfany,zaborskej,pant,dahano,furmani,pilpely.cell2010;141(2):344-54)或同源trna濃度估算值(dongh,nilssonl,kurlandcg.journalofmolecularbiology1996;260(5):649-63)任一者之間不存在顯著相關(guān)性。圖11b中的最強表達增強密碼子對應(yīng)于三種具有可以充當通用堿基催化劑的側(cè)鏈的氨基酸(glu、asp和his)。對于這三種氨基酸,結(jié)束于a或u的密碼子具有比結(jié)束于g或c的同義密碼子更強的表達增強效應(yīng),表明密碼子結(jié)構(gòu)很可能調(diào)節(jié)其翻譯效率。然而,繪制多參數(shù)邏輯回歸模型中的密碼子斜率相對于氨基酸疏水性展現(xiàn)了強相關(guān)性(圖11d),帶電氨基酸具有比極性或疏水性氨基酸系統(tǒng)地更高的斜率。因此,分析表明,翻譯效率隨氨基酸結(jié)構(gòu)系統(tǒng)地變化。新密碼子影響度量值與疏水性的相關(guān)性如此強,使得大腸桿菌中的整體膜蛋白可以基于其基因序列中的其平均值在約80%準確性下鑒別(圖37)。此觀察結(jié)果顯示,核糖體的解碼特性的進化可能受膜蛋白的生物合成所涉及的與可溶蛋白質(zhì)相比更大的挑戰(zhàn)影響。相比之下,分析密碼子斜率作為每個密碼子位置處核苷酸堿基的一致性的函數(shù)表明,同義密碼子的翻譯效率的差異(圖11b)不大可能與堿基含量具有系統(tǒng)性關(guān)系。實例21:設(shè)計和測試高效翻譯的基因通過評估編碼22種無關(guān)蛋白質(zhì)的合成基因的表達特性來測試以上呈現(xiàn)的分析的有效性和預(yù)測值(圖13)。使用兩種不同方法設(shè)計序列,所述方法模擬在大規(guī)模數(shù)據(jù)集中提供最高蛋白質(zhì)表達水平的基因的密碼子使用和mrna折疊特性。在“六氨基酸”(6aa)方法中,arg、asp、glu、gln、his和ile的所有密碼子經(jīng)在圖11b中具有最高斜率的同義密碼子取代。所得mrna的結(jié)束于a或u堿基(所述堿基具有比g或c堿基更低的平均折疊能)的密碼子增濃,并且其趨于具有匹配在數(shù)據(jù)集中提供最高蛋白質(zhì)表達的基因的特性的mrna折疊特性和其它特性,提供參數(shù)交叉相關(guān)性的影響的一具體實例。在“31密碼子折疊優(yōu)化”(31c-fo)方法中,僅使用在圖11b中的單一變量邏輯回歸中對于每種氨基酸具有最高斜率的31個密碼子顯式地優(yōu)化計算的mrna折疊自由能。最大化頭端中的折疊能(δguh)(即,最小化折疊穩(wěn)定性),而將尾端中的折疊能(<δgt>48)調(diào)節(jié)為接近-10kcal/mol。在一些實驗中,工程化的是頭端而非尾端,反之亦然,以評估來自關(guān)于其相對貢獻的多參數(shù)計算建模的推斷的可靠性。簡單來說,這些實驗證實,頭端中的折疊效應(yīng)、頭端中的密碼子使用和尾端中的密碼子使用都對蛋白質(zhì)表達具有顯著影響,證實了計算推斷的有效性(圖29、11b-d)。實例22:對經(jīng)優(yōu)化合成基因的生物化學(xué)分析展示了密碼子效率與mrna水平之間的強聯(lián)系對于來自大規(guī)模數(shù)據(jù)集的五個天然相較于優(yōu)化細菌基因,在于大腸桿菌中體內(nèi)誘導(dǎo)之后,比較細胞生長速率(圖13a)、蛋白質(zhì)表達水平(圖13b)和mrna水平(圖13d)。還比較體外轉(zhuǎn)錄和翻譯(圖13c)反應(yīng)的產(chǎn)物。對于一種標靶,在誘導(dǎo)蛋白質(zhì)表達后細胞生長的抑制通過優(yōu)化基因序列而消除,盡管其極大地增加了蛋白質(zhì)表達(圖13a-b),表明阻礙翻譯的mrna特征可以在大腸桿菌中導(dǎo)致生理毒性。盡管天然或使用經(jīng)純化t7rna優(yōu)化的基因的體外轉(zhuǎn)錄產(chǎn)生等效量的mrna,但使用經(jīng)純化核糖體和翻譯因子所得的mrna的體外翻譯對于所有經(jīng)優(yōu)化序列都產(chǎn)生實質(zhì)上更高水平的蛋白質(zhì)合成(圖13c)。值得注意的是,翻譯暫停的位點在一些經(jīng)優(yōu)化mrna中相較于天然mrna不同。當所有這些實驗對其它四種蛋白質(zhì)的天然相較于優(yōu)化變異體進行時,觀察到基本上等效的結(jié)果(g,letsor,neelyh,pricewn,sum,luffj,valecham,everettjk,actont,xiaor,montelionegt,aalbertsdp,huntjf.nature提交(審查中))。這些觀察結(jié)果顯示,大腸桿菌中的翻譯效率通過來源于對大規(guī)模表達數(shù)據(jù)集進行的計算分析的密碼子優(yōu)化方法改進(圖29、11b-d)。與經(jīng)優(yōu)化基因相比在誘導(dǎo)低效翻譯的天然基因之后觀察到一致地更低的體內(nèi)mrna水平(圖13d),表明mrna序列相依性翻譯障礙可以強烈影響穩(wěn)態(tài)mrna水平。值得注意的是,在誘導(dǎo)之后5min,對于所有經(jīng)優(yōu)化基因都檢測到全長mrna,但天然基因無一者檢測到全長mrna。此觀察結(jié)果表明低效翻譯的天然mrna快速降解,因為t7聚合酶在體外以等效效率轉(zhuǎn)錄其。為了評估此推斷的生理相關(guān)性,將多參數(shù)邏輯回歸模型的結(jié)果用以計算s全部,大腸桿菌中的每個內(nèi)源基因的平均密碼子斜率(圖11b)。來源于大規(guī)模表達數(shù)據(jù)集的此參數(shù)與使用質(zhì)譜分析定量的大腸桿菌中的體內(nèi)蛋白質(zhì)水平強烈相關(guān)(圖30b),證實了新密碼子影響度量值的有效性。引人注目地,s全部與所有預(yù)測細胞質(zhì)蛋白質(zhì)的體內(nèi)mrna水平幾乎同樣強烈地相關(guān)(圖30a-b),表明密碼子含量顯著影響穩(wěn)態(tài)mrna濃度。對于質(zhì)譜分布中檢測的通常豐度更高的蛋白質(zhì),s全部與其mrna水平和蛋白質(zhì)/mrna比兩者相關(guān),其可以反映翻譯效率。這些整體相關(guān)性證實,密碼子含量不僅對mrna翻譯效率而且對mrna穩(wěn)定性施加重要影響。實例23:對單一mrna微陣列數(shù)據(jù)集的多參數(shù)邏輯回歸分析產(chǎn)生了與大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集類似的密碼子影響度量值基于大腸桿菌中的新密碼子影響度量值與整體mrna濃度之間觀察到的強相關(guān)性(圖30),研究類似多參數(shù)回歸方法以確定其是否可以應(yīng)用于從對mrna微陣列數(shù)據(jù)的計算分析直接推斷密碼子影響(即,不包括與蛋白質(zhì)表達水平相關(guān)的任何數(shù)據(jù))。將優(yōu)化所述方法,但從關(guān)于mrna微陣列值的多參數(shù)邏輯回歸分析測定的密碼子斜率與從大規(guī)模表達數(shù)據(jù)集推斷的密碼子斜率強烈相關(guān)(圖38)。此分析使用與上文所述類似的計算模型,其應(yīng)用于預(yù)測可編碼細胞質(zhì)蛋白質(zhì)的2,817個基因中的最強和弱地表達的30%。所分析的微陣列數(shù)據(jù)集來自大腸桿菌mg1655而非用以產(chǎn)生大規(guī)模數(shù)據(jù)集的過度表達argutrna的bl21(de3)菌株,并且生長條件也存在實質(zhì)性差異。因此,從這兩個分析推斷的密碼子影響之間的差異可以是實際的。雖然將評估此分析的細節(jié),但顯而易見的是,其對于密碼子效應(yīng)產(chǎn)生某種可靠信息。大規(guī)模數(shù)據(jù)集中對于蛋白質(zhì)表達最有益(gaa)和有害(aua)的密碼子在微陣列分析中給出極類似斜率(圖38)。值得注意的是,在從蛋白質(zhì)表達相較于微陣列數(shù)據(jù)集推斷的其斜率之間展示最強差異的四個密碼子中的三者編碼精氨酸(如通過圖38中的白色區(qū)域突顯)。值得注意的是,aga和agg密碼子(其與argutrna同源)的影響在微陣列數(shù)據(jù)集中是強負面的但在蛋白質(zhì)表達數(shù)據(jù)集中是適度正面的,如顯示“密碼子補充”改進其翻譯效率的先前文獻所預(yù)期。有趣的是,在相對方向上展示出最強變化的密碼子是精氨酸的cgu密碼子,表明其同源trna的帶電動力學(xué)或影響其翻譯效率的一些其它因素受來自argutrna的競爭擾動。雖然將對分析方法和結(jié)果分析,但圖38中的數(shù)據(jù)顯示,對mrna濃度水平的多參數(shù)回歸分析提供了關(guān)于密碼子效應(yīng)的重大信息。此新的并且便捷的表征密碼子對蛋白質(zhì)表達的影響的方法值得進一步探索。實例24:基因組規(guī)模相關(guān)性上文所述的基因組規(guī)模相關(guān)性指示,密碼子含量是翻譯效率和大腸桿菌中的mrna穩(wěn)定性兩者的重要決定因素,并且這些參數(shù)緊密偶合,如一些先前文獻中所提出(danaa,tullert.nucleicacidsres.2014;42(14):9171-81;dittmarka,sorensenma,elfj,ehrenbergm,pantemboreports.2005;6(2):151-7;drummondda,wilkeco.cell2008;134(2):341-52;rochaep.genomeresearch2004;14(11):2279-86;vladimirpresnyaky-hc,sophiemartin,najwaalhusaini,davidweinberg,saraolson,kristiane.baker,brentongraveley,jeffcoller.cshltranslationalcontrol;cshl2014)。若干分子機制可以解釋密碼子含量與穩(wěn)態(tài)mrna濃度的所觀察偶合。其有可能由蛋白質(zhì)延長與mrna降解之間的通過核糖體延長動力學(xué)調(diào)節(jié)的動力學(xué)競爭介導(dǎo)(即,氨基-?;?trna選擇、肽鍵合成和trna/mrna易位中所涉及的連續(xù)結(jié)合和構(gòu)象過程)。實驗中所用的細菌噬菌體t7rna聚合酶太快地合成mrna使得翻譯核糖體跟不上,使所得轉(zhuǎn)錄物對轉(zhuǎn)錄-翻譯偶合不敏感但對核酸內(nèi)切酶裂解更敏感(iosti,dreyfusm.theembojournal1995;14(13):3252-61;cardinalecj,washburnrs,tadigotlavr,brownlm,gottesmanme,nudlere.science2008;320(5878):935-8)。因此,通過t7聚合酶產(chǎn)生的低效翻譯的mrna經(jīng)片段化并且具有更低體內(nèi)濃度(圖13d)的觀察結(jié)果很可能反映增強的降解。此推理以及在大規(guī)模數(shù)據(jù)集中表達減弱密碼子完全消除蛋白質(zhì)表達的趨勢(圖9a,f)表明,mrna降解部分受核糖體延長動力學(xué)控制(zaherhs,greenr.cell2011;147(2):396-408;deanaa,ehrlichr,reissc.journalofbacteriology1996;178(9):2718-20;dosreism.nucleicacidsresearch2003;31(23):6976-85;lix,yokotat,itok,nakamuray,aibahmolecularmicrobiology2007;63(1):116-26;nogueirat,desmitm,graffem,springerm.journalofmolecularbiology2001;310(4):709-22;lix,hiranor,tagamih,aibahrna2006;12(2):248-55;leroya,vanzonf,sousas,dreyfusm,carpousisaj.molecularmicrobiology.2002;45(5):1231-43)。若干生物化學(xué)系統(tǒng)介導(dǎo)由于蛋白質(zhì)合成/折疊問題而停止的核糖體的再循環(huán)(richardsj,sundermeiert,svetlanova,karzaiaw.biochimicaetbiophysicaacta.2008;1779(9):574-82;lix,hiranor,tagamih,aibah.rna.2006;12(2):248-55)或mrna截短(drummondda,wilkeco.cell2008;134(2):341-52;deanaa,ehrlichr,reissc.journalofbacteriology1996;178(9):2718-20)。在真核生物中,此“不通過”衰減途徑涉及dom34、hbs1(shoemakercj,greenr.natstructmolbiol.2012;19(6):594-601;shoemakercj,eylerde,greenr.science2010;330(6002):369-72)和abce1(beckert,franckenbergs,wickless,shoemakercj,angeram,armachejp,sieberh,ungewickellc,berninghauseno,daberkowi等人nature2012;482(7386):501-6)蛋白質(zhì),而在大腸桿菌中,類似活性由包括tmrna途徑(vivanco-dominguezs,bueno-martinezj,leon-avilag,iwakuran,kajia,kajih,guarnerosg.journalofmolecularbiology2012;417(5):425-39;richardsj,sundermeiert,svetlanova,karzaiaw.biochimicaetbiophysicaacta.2008;1779(9):574-82;ivanovan,pavlovmy,ehrenbergm.journalofmolecularbiology2005;350(5):897-905;christensensk,gerdesk.molecularmicrobiology2003;48(5):1389-400)、arfa、yaej(chadaniy,onok,kutsukakek,abot.molecularmicrobiology2011;80(3):772-85)和rf3(vivanco-dominguezs,bueno-martinezj,leon-avilag,iwakuran,kajia,kajih,guarnerosg.journalofmolecularbiology2012;417(5):425-39;zaherhs,greenr.cell2011;147(2):396-408)的無關(guān)系統(tǒng)介導(dǎo)。這些原核mrna品質(zhì)對照系統(tǒng)(shoemakercj,greenr.natstructmolbiol.2012;19(6):594-601)是參與mrna衰減過程的候選物,所述過程經(jīng)假設(shè)可在核糖體延長動力學(xué)中與密碼子相依性變化偶合。與先前推斷相比,密碼子影響度量值(圖11b)具有顯著差異。據(jù)顯示,氨基酸一致性影響翻譯效率(圖11d與37),但盡管有長期存在的假定(lig-w,ohe,weissmanjs.nature2012;484(7395):538-41;ligw,burkhardtd,grossc,weissmanjs.cell2014;157(3):624-35),但基因組密碼子使用頻率不直接相關(guān)。大腸桿菌中的頻率第3、第4和第5低的密碼子在大規(guī)模數(shù)據(jù)集中對表達具有最有害的影響(圖11b)。然而,這些密碼子在廣泛變化的程度上減弱表達,并且稍更常見的密碼子具有中立或表達增強影響(圖11b)。此外,其它58個非終止密碼子的頻率不與表達水平顯著相關(guān)(圖11b)。密碼子使用頻率已經(jīng)假定為影響體內(nèi)翻譯,因為其與同源trna的濃度相關(guān)(ikemurat.journalofmolecularbiology1981;151(3):389-409;dongh,nilssonl,kurlandcg.journalofmolecularbiology1996;260(5):649-63;caskeyct,beaudeta,nirenbergm.journalofmolecularbiology1968;37(1):99-118;muramatsut,nishikawak,nemotof,kuchinoy,nishimuras,miyazawat,yokoyamas.nature1988;336(6195):179-81),其可以明顯影響體外蛋白質(zhì)延長率(forouharf,arragains,attam,gambarellis,mouescajm,hussainm,xiaor,kieffer-jaquinods,seetharamanj,actontb,montelionegt,mullieze,huntjf,fontecavem.naturechemicalbiology.2013;9(5):333-8;spencerps,sillere,andersonjf,barraljm.journalofmolecularbiology2012;422(3):328-35)和體內(nèi)蛋白質(zhì)產(chǎn)率(chengt,inouyem.genes&development1994;8(21):2641-52;vivanco-dominguezs,bueno-martinezj,leon-avilag,iwakuran,kajia,kajih,guarnerosg.journalofmolecularbiology2012;417(5):425-39;deanaa,ehrlichr,reissc.journalofbacteriology1996;178(9):2718-20;lix,hiranor,tagamih,aibah.rna2006;12(2):248-55)。實際上,實驗中的argutrna過度表達以促進aga/agg密碼子增濃的蛋白質(zhì)的更高表達(chengt,inouyem.genes&development1994;8(21):2641-52),其可以使數(shù)據(jù)集中的這些密碼子的影響偏倚(圖11b)。將需要進一步研究來理解確定trna濃度何時影響核糖體延長動力學(xué)的因素。盡管如此,分析表明,核糖體延長動力學(xué)對蛋白質(zhì)表達施加比同源trna濃度更強的影響。此推斷與翻譯因子efp有助于富脯氨酸序列的延長的證實一致(udes,lassakj,starostaal,kraxenbergert,wilsondn,jungk.science2013;339(6115):82-5)。此外,這表明翻譯調(diào)節(jié)效應(yīng)可以經(jīng)由修飾核糖體延長動力學(xué)來操作,所述動力學(xué)例如由trna或核糖體的共價修飾介導(dǎo)(muramatsut,nishikawak,nemotof,kuchinoy,nishimuras,miyazawat,yokoyamas.nature1988;336(6195):179-81)。使相關(guān)機制性研究變復(fù)雜(deanaa,ehrlichr,reissc.journalofbacteriology1996;178(9):2718-20;iosti,dreyfusm.theembojournal1995;14(13):3252-61;dosreism.nucleicacidsresearch2003;31(23):6976-85;nogueirat,desmitm,graffem,springerm.journalofmolecularbiology2001;310(4):709-22),結(jié)果還表明此類調(diào)節(jié)效應(yīng)可以經(jīng)由mrna水平的變化而顯現(xiàn)。以下實例經(jīng)設(shè)計以(i)更廣泛地驗證圖11b中的新密碼子影響度量值的細節(jié),(ii)闡明這些效應(yīng)和所觀察到的其它效應(yīng)的基礎(chǔ)分子機制,和(iii)對同義密碼子使用變化的生物影響產(chǎn)生更深刻理解。實例25:評估替代性熒光蛋白方法對于表征大腸桿菌中的體內(nèi)同義基因序列的相對表達效率的功效將開發(fā)快速定量同義密碼子變化對體內(nèi)蛋白質(zhì)表達的影響的熒光蛋白方法。將使用熒光方法,其包括使用遺傳編碼的熒光蛋白。將使用的基因組學(xué)工具包括含有黃色熒光蛋白(yfp)(kitagawam,arat,arifuzzamanm,ioka-nakamichit,inamotoe,toyonagah,morih.dnaresearch:aninternationaljournalforrapidpublicationofreportsongenesandgenomes.2005;12(5):291-9;rajagopalasv,yamamoton,zweifelae,nakamichit,huanghk,mendez-riosjd,franca-kohj,boorgulamp,fujitak,suzukik,hujc,wannerbl,morih,uetzp.bmcgenomics.2010;11:470;nakahigashik,toyay,ishiin,sogat,hasegawam,watanabeh,takaiy,honmam,morih,tomitam.molecularsystemsbiology2009;5:306)與大腸桿菌中的幾乎每個蛋白質(zhì)編碼基因的同框翻譯融合物的質(zhì)體集合。此集合的衍生物已經(jīng)用以定量在大腸桿菌細胞中對數(shù)期生長期間特定蛋白質(zhì)表達的約1.5倍變化,其中etta翻譯因子被遺傳阻斷(datsenkoka,wannerbl.proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica.2000;97(12):6640-5;babat,arat,hasegawam,takaiy,okumuray,babam,datsenkoka,tomitam,wannerbl,morih.molecularsystemsbiology.2006;2:20060008.doi:10.1038/msb4100050;otsukay,mutoa,takeuchir,okadac,ishikawam,nakamurak,yamamoton,doseh,nakahigashik,tanishimas等人nucleicacidsres.2015;43(數(shù)據(jù)庫期號):d606-17.epub2014/11/17.doi:10.1093/nar/gku1164)(圖39)。此實驗利用在針對所述蛋白質(zhì)的內(nèi)源大腸桿菌啟動子的控制下表達的與aceb(nakahigashik,toyay,ishiin,sogat,hasegawam,watanabeh,takaiy,honmam,morih,tomitammolecularsystemsbiology.2009;5:306)蛋白的染色體地編碼的同框翻譯融合物。圖39中的數(shù)據(jù)顯示,體內(nèi)熒光融合蛋白表達使用微量板讀取器所得的實時測量值提供了對生理水平下蛋白質(zhì)表達的極敏感的準確定量。此技術(shù)將用于對同義密碼子使用變化對大腸桿菌中的蛋白質(zhì)表達的效應(yīng)進行穩(wěn)定定量。將系統(tǒng)地評估使用熒光蛋白定量體內(nèi)同義密碼子效應(yīng)的替代性技術(shù)方法的功效。這些研究將對使用候選熒光蛋白方法中的每一者獲得的結(jié)果與在本文關(guān)于同義基因的蛋白質(zhì)表達所描述的結(jié)果中獲得的結(jié)果進行比較。將使經(jīng)由考馬斯藍染色或sds-page凝膠或定量免疫印跡法定量的蛋白質(zhì)水平與體內(nèi)熒光發(fā)射強度信號相比較,并且將使用rna印跡或?qū)崟rpcr(rt-pcr)檢驗相應(yīng)mrna水平。將使這些熒光蛋白系統(tǒng)的結(jié)果與在本文所描述的結(jié)果中由相同同義基因?qū)Λ@得的哪些相比較。待檢驗的關(guān)鍵變量包括以下:(1)針對其在定量體內(nèi)蛋白質(zhì)表達差異中的穩(wěn)定性和準確性,比較單相較于雙熒光報告基因方法:圖39中展示的數(shù)據(jù)顯示,小心控制的實驗中單熒光報告蛋白的發(fā)射的觀察結(jié)果可以可靠地定量約1.5倍的表達差異。這些數(shù)據(jù)表明,單熒光報告基因可以足以表征許多重要密碼子效應(yīng)。然而,在一些實驗中可以使用雙熒光蛋白報告基因系統(tǒng)實現(xiàn)增加的穩(wěn)定性,使得能夠同時測量兩種具有不同光譜特征的蛋白質(zhì)的發(fā)射。將基于對信噪特征建模,來評估此種系統(tǒng)的比率熒光測量值以確定其是否提供優(yōu)于一種報告基因的單通道測量值的性能。還將比較使用gfp(heimr,cubittab,tsienry.nature.1995;373(6516):663-4)、superfoldergfp(pedelacqjd,cabantouss,trant,terwilligertc,waldogs.natbiotechnol.2006;24(1):79-88)和superfastgfp(fisherac,delisamp.plosone.2008;3(6):e2351)的不同彩色變異體構(gòu)筑的比率系統(tǒng)的性能(chudakovdm,lukyanovs,lukyanovka.trendsinbiotechnology.2005;23(12):605-13)(即,具有藍色相較于青色相較于綠色相較于黃色發(fā)射)。(2)比較兩種構(gòu)筑熒光報告基因的方法(圖40):一種方法將涉及在測試蛋白與熒光報告蛋白之間產(chǎn)生共價融合的同框翻譯融合物,而另一種方法將涉及其中兩種蛋白質(zhì)從相同多順反子消息獨立地翻譯的轉(zhuǎn)錄或“操縱子”融合物。在后一種方法中,測試蛋白將具有終止密碼子,終止密碼子后面將是短連接子(約5-25個核苷酸),短連接子后面將是熒光蛋白的編碼序列開始處的aug起始密碼子。將比較在連接子區(qū)中具有(如圖40中底部所展示)或不具有核糖體結(jié)合位點(夏因達爾加諾序列)情況下此類操縱子融合物的結(jié)果。將在于熒光蛋白中無n末端甲硫氨酸的情況下工程化共價融合蛋白構(gòu)筑體以避免內(nèi)部翻譯再起始。(3)比較用從t7rna聚合酶(如關(guān)于本文所描述的結(jié)果所使用)或從大腸桿菌rna聚合酶轉(zhuǎn)錄的相同同義基因和報告基因獲得的結(jié)果(其用于g,letsor,neelyh,pricewn,sum,luffj,valecham,everettjk,actont,xiaor,montelionegt,aalbertsdp,huntjf.nature提交(審查中)中關(guān)于大腸桿菌中的整體膜蛋白過度表達的生理學(xué)的研究)。在后一種情況下,將在iptg控制下由lac衍生啟動子獲得的結(jié)果控制到在阿拉伯糖控制下用變異誘導(dǎo)型ara衍生啟動子獲得的結(jié)果。(4)比較當報告基因表達于高拷貝數(shù)pbr322衍生質(zhì)體、低拷貝數(shù)pacyc184衍生質(zhì)體上或使用crim質(zhì)體方法或λ紅色重組方法插入于染色體上的單一拷貝中時獲得的結(jié)果(datsenkoka,wannerbl.proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica.2000;97(12):6640-5)。(5)比較當?shù)刃x密碼子變化直接引入到gfp變異體而非上游融合伴侶中時獲得的結(jié)果。這些研究將與上文所述的翻譯和轉(zhuǎn)錄融合系統(tǒng)評估平行進行,因為此方法可以實現(xiàn)所述方法的技術(shù)捷徑簡化實施。密碼子效應(yīng)具有一定程度的情境相依性,因此此較簡單的方法可能無法起作用。為了評估其是否起作用,將使用相同的一組生物化學(xué)和分子生物學(xué)分析方法,進行與上文所述等效的基因優(yōu)化研究。系統(tǒng)性研究將確定定量同義密碼子變化對大腸桿菌中的蛋白質(zhì)表達水平的影響的最穩(wěn)定并且高效的光學(xué)方法。實例26:使用現(xiàn)有生物化學(xué)方法和經(jīng)開發(fā)用以測試新大腸桿菌密碼子影響度量值的細節(jié)的方法已經(jīng)實驗地驗證了新密碼子影響度量值的廣泛特征,但將在后續(xù)研究中探索細節(jié)。對于許多同義密碼子對,來源于多元邏輯回歸分析的其影響得分之間的差異并不大到足以在獨立地考慮時是統(tǒng)計顯著的。然而,基于度量值對平均密碼子影響得分的許多分析的高預(yù)測值表明,這些差異中許多很可能是實際并且機制性顯著的。工具和分析將用以分析新密碼子度量值和相關(guān)機制性現(xiàn)象的細節(jié)。待進行的實驗的實例包括以下:(1)合成同義基因組,其中一種特定氨基酸在每次出現(xiàn)時都由相同密碼子、由兩個擺動相關(guān)密碼子的隨機混合物、由兩個非擺動相關(guān)密碼子的隨機混合物或由所有密碼子的隨機混合物編碼。將使定量每個同義密碼子的相對翻譯效率的所得數(shù)據(jù)與密碼子影響度量值的值相比較,并且此實驗設(shè)計還將批評性地評估先前文獻中的如下斷言:密碼子使用的均質(zhì)性或非均質(zhì)性可以對蛋白質(zhì)表達水平具有顯著影響。在亮氨酸的情況下,作為一個特定實例,度量值指示,cug和cuc密碼子是最高效的并且大致等效于彼此,cuu和uug和uua是中間的并且大致等效于彼此,并且cua是最低效的。在此情況下,將合成至少兩種不同蛋白質(zhì)的八種變異體。六種變異體將各自使用恰好一種密碼子,一種變異體將使用cug和cuc密碼子的隨機混合物,并且一種變異體將使用cuu和uug和uua密碼子的隨機混合物。這些研究中所用的蛋白質(zhì)最初將從包括于本文所描述的結(jié)果中的組獲取,但如果校準研究顯示其展現(xiàn)等效特性,那么相同實驗設(shè)計可以直接應(yīng)用于gfp變異體。(2)在觀察到兩個同義密碼子對表達的影響的顯著差異的情況下,可以測試同源trna的過度表達以確定其是否顯著調(diào)節(jié)所觀察到的差異。這些研究將利用pmgk質(zhì)體的變異體,其中argu基因(saxenap,walkerjr.journalofbacteriology.1992;174(6):1956-64)經(jīng)編碼相關(guān)trna的基因的一個或多個拷貝置換。類似實驗將探索所選trna合成酶的過度表達是否(krishnakumarr,lingj.febsletters.2014;588(3):383-8)影響觀察到的效應(yīng)。這些研究將更深入地探索trna庫水平對蛋白質(zhì)表達效率的影響。還將探索補充具有相應(yīng)氨基酸的培養(yǎng)基的可能效應(yīng)。將比較體內(nèi)和體外通過同義基因產(chǎn)生的蛋白質(zhì)表達水平以及經(jīng)由rna印跡或rt-pcr分析的相應(yīng)體內(nèi)mrna的穩(wěn)態(tài)水平。以此方式,將評估密碼子對體外翻譯的影響以確定其是否始終平行于其對mrna水平的影響或一些密碼子是否區(qū)別地影響這兩種特性。實例27:生成/分析來自敲除假設(shè)可調(diào)節(jié)同義密碼子使用的基因(包括共價修飾翻譯機構(gòu)的基因)的大腸桿菌菌株rnaseq數(shù)據(jù),以評估其在所選生長條件下對相對密碼子效率的影響。將評估以上結(jié)果中以及實例26進行的研究中鑒別的一組候選基因/蛋白質(zhì)(圖12)對所選同義密碼子效應(yīng)的影響。這些研究最初將集中于已知參與mrna降解、翻譯品質(zhì)控制和翻譯機構(gòu)共價修飾的蛋白質(zhì)。結(jié)果指示,至少一些mrna序列相依性翻譯障礙與大腸桿菌中的mrna降解緊密偶合。已知大腸桿菌中的若干生物化學(xué)系統(tǒng)有助于歸因于蛋白質(zhì)合成/折疊問題而停止的核糖體的再循環(huán)(richardsj,sundermeiert,svetlanova,karzaiaw.biochimicaetbiophysicaacta.2008;1779(9):574-82;dosreism.nucleicacidsresearch.2003;31(23):6976-85;lix,hiranor,tagamih,aibah.rna.2006;12(2):248-55;leroya,vanzonf,sousas,dreyfusm,carpousisaj.molecularmicrobiology.2002;45(5):1231-43),包括tmrna途徑(vivanco-dominguezs,bueno-martinezj,leon-avilag,iwakuran,kajia,kajih,guarnerosg.journalofmolecularbiology.2012;417(5):425-39;richardsj,sundermeiert,svetlanova,karzaiaw.biochimicaetbiophysicaacta.2008;1779(9):574-82;ivanovan,pavlovmy,ehrenbergm.journalofmolecularbiology.2005;350(5):897-905;christensensk,gerdesk.molecularmicrobiology.2003;48(5):1389-400)和arfa、yaej(chadaniy,onok,ozawas,takahashiy,takaik,nanamiyah,tozaway,kutsukakek,abot.molecularmicrobiology.2010;78(4):796-808)和rf3(vivanco-dominguezs,bueno-martinezj,leon-avilag,iwakuran,kajia,kajih,guarnerosg.journalofmolecularbiology.2012;417(5):425-39;zaherhs,greenr.nature.2009;457(7226):161-6)蛋白。這些系統(tǒng)可以潛在地幫助使密碼子相依性翻譯障礙和核糖體上的變構(gòu)信號與mrna降解相關(guān)。最終,翻譯機構(gòu)的共價修飾、尤其trna的非必需修飾(arragains,handelmansk,forouharf,weify,tomizawak,huntjf,doukit,fontecavem,mullieze,attam.jbiolchem.2010;285(37):28425-33;phizickyem,hopperak.genes&development.2010;24(17):1832-60.;sergeevaov,bogdanovaa,sergievpv.biochimie.2014.epub2014/12/17.doi:10.1016/j.biochi.2014.11.019)可以有助于同義密碼子的差異影響。將對構(gòu)筑有個別候選基因的基因敲除的一組菌株進行多個分析(babat,arat,hasegawam,takaiy,okumuray,babam,datsenkoka,tomitam,wannerbl,morih.molecularsystemsbiology.2006;2:20060008;morih,babat,yokoyamak,takeuchir,nomuraw,makishik,otsukay,doseh,wannerblmethodsinmolecularbiology.2015;1279:45-65;otsukay,mutoa,takeuchir,okadac,ishikawam,nakamurak,yamamoton,doseh,nakahigashik,tanishimas等人nucleicacidsres.2015;43(數(shù)據(jù)庫期號):d606-17.epub2014/11/17.doi:10.1093/nar/gku1164)。這些分析將集中于表征和定量基因敲除對在上文所述研究中展示強烈表達水平差異的同義基因?qū)Φ男?yīng)。分析將利用上文所述生物化學(xué)方法以及實例25下開發(fā)的熒光方法。平行地,將使用rnaseq轉(zhuǎn)錄組學(xué)分布來探測這些大腸桿菌基因敲除菌株中同義密碼子對mrna水平的影響的整體變化(sharmacm,hoffmanns,darfeuillef,reignierj,findeisss,sittkaa,chabass,reichek,hackermullerj,reinhardtr,stadlerpf,vogelj.nature.2010;464(7286):250-5)。上文所述廣義線性多參數(shù)邏輯回歸建模方法的改善形式(圖38)將應(yīng)用于評估大腸桿菌中特定密碼子與整體mrna水平之間的相關(guān)性是否存在變化。將在后續(xù)實驗中評估個別密碼子的影響的統(tǒng)計顯著變化,其中將標準生物化學(xué)和熒光分析應(yīng)用于一個那樣的密碼子含量不同的同義基因?qū)?。將收集和分析轉(zhuǎn)錄組學(xué)數(shù)據(jù)(conwayt,creecyjp,maddoxsm,grissomje,conkletl,shadidtm,teramotoj,sanmiguelp,shimadat,ishihamaa,morih,wannerbl.mbio.2014;5(4):e01442-14)。實例28:通過定量大腸桿菌中的所有非必需基因?qū)τ稍谕x密碼子使用方面具有所定義差異的基因編碼的蛋白質(zhì)的相對表達水平的影響來闡明控制同義密碼子效應(yīng)的生物化學(xué)系統(tǒng)將與實例25下開發(fā)的熒光報告蛋白系統(tǒng)結(jié)合使用基因組學(xué)工具(babat,arat,hasegawam,takaiy,okumuray,babam,datsenkoka,tomitam,wannerbl,morih.molecularsystemsbiology.2006;2:20060008.doi:10.1038/msb4100050;morih,babat,yokoyamak,takeuchir,nomuraw,makishik,otsukay,doseh,wannerblmethodsinmolecularbiology.2015;1279:45-65;otsukay,mutoa,takeuchir,okadac,ishikawam,nakamurak,yamamoton,doseh,nakahigashik,tanishimas等人nucleicacidsres.2015;43(數(shù)據(jù)庫期號):d606-17.epub2014/11/17.doi:10.1093/nar/gku1164;takeuchir,tamurat,nakayashikit,tanakay,mutoa,wannerbl,morihbmcmicrobiology.2014;14:171)來整體地定量所有非必需大腸桿菌基因?qū)λx同義密碼子效應(yīng)的影響。這些研究將利用分子“條形碼化的”單基因的基因敲除集合(otsukay,mutoa,takeuchir,okadac,ishikawam,nakamurak,yamamoton,doseh,nakahigashik,tanishimas等人nucleicacidsres.2015;43(數(shù)據(jù)庫期號):d606-17.epub2014/11/17.doi:10.1093/nar/gku1164;yonght,yamamoton,takeuchir,hsiehyj,conradtm,datsenkoka,nakayashikit,wannerbl,morih.genes&geneticsystems.2013;88(4):233-40),其中每種突變菌株具有獨特可pcr擴增的核苷酸序列標簽。將就特定同義密碼子變化作出報告的熒光蛋白構(gòu)筑體引入到含有此全面基因敲除集合中的每種菌株的混合細胞群體中(babat,arat,hasegawam,takaiy,okumuray,babam,datsenkoka,tomitam,wannerbl,morih.molecularsystemsbiology.2006;2:20060008.doi:10.1038/msb4100050)。將評估將報告基因構(gòu)筑體引入到這些混合群體中的若干方法,包括將實例25中描述的高或低拷貝數(shù)質(zhì)體以及攜有報告基因的crim質(zhì)體的單拷貝整合(haldimanna,wannerbl.journalofbacteriology.2001;183(21):6384-93)轉(zhuǎn)型到大腸桿菌染色體中。在誘導(dǎo)在同義密碼子使用方面具有特定變化的蛋白質(zhì)的表達之后,將熒光激活細胞分揀器(facs)用以測量混合群體中的單一大腸桿菌細胞的單通道或雙通道熒光發(fā)射強度(franciscoja,campbellr,iversonbl,georgioug.proceedingsofthenationalacademyofsciences.1993;90(22):10444-8;mazory,vanblarcomt,mabryr,iversonbl,georgioug.naturebiotechnology.2007;25(5):563-5;yooth,pogsonm,iversonbl,georgioug.chembiochem.2012;13(5):649-53)。將分離在同義密碼子變化的影響方面展示最大變化的細胞并且使其生長以用于對其遺傳條形碼測序,這將鑒別每種菌株中基因敲除的單一基因。條形碼化技術(shù)如此高效,使得可直接使用此方法來表征在同義密碼子對蛋白質(zhì)表達的影響(如經(jīng)由facs分析所定量)方面產(chǎn)生所定義變化的數(shù)百種菌株。將使用確定的生物化學(xué)和分子生物學(xué)分析以及實例25-27中所描述的方法深入地驗證和表征以此方式鑒別的菌株。實例29:大規(guī)模蛋白質(zhì)表達方法和數(shù)據(jù)集先前已經(jīng)描述了用于大規(guī)模蛋白質(zhì)表達實驗的方法(acton,t.b.等人(2005)methodsenzymol394,210-243;xiao,r.等人(2010)jstructbiol172,21-33;acton,t.b.等人(2011)methodsenzymol493,21-60),并且其類似于下文用于體內(nèi)蛋白質(zhì)表達描述的方法,但其中在96孔板中在0.5ml培養(yǎng)物中進行誘導(dǎo)。從分析氨基酸序列與蛋白質(zhì)表達/溶解性水平之間的相關(guān)性的先前報道中描述的數(shù)據(jù)集挑選出本文所分析的數(shù)據(jù)集(price,w.n.等人(2011)microbialinformaticsandexperimentation1,6)。新數(shù)據(jù)集限于與c末端lehhhhhh標簽一起表達的非冗余蛋白質(zhì),所述蛋白質(zhì)由不含有受源生物體中的替代性翻譯表影響的任何密碼子的基因編碼。通過迭代程序挑選出同源序列,所述迭代程序?qū)⑷魏螌χg的氨基酸序列一致性的水平降低到小于60%,導(dǎo)致核酸序列一致性的水平實質(zhì)上更低。在每個步驟,將共用至少60%一致氨基酸序列一致性的所有蛋白質(zhì)對過渡地歸并為一個組,并且從每個組消除最短序列,隨后對所有剩余蛋白質(zhì)重新起始相同組分配程序。實例30:計算建模二元多參數(shù)邏輯回歸模型給出θ,獲得大規(guī)模數(shù)據(jù)集中mrna序列的最高蛋白質(zhì)表達水平(pe5)相較于無(pe0)的概率比的對數(shù),作為廣義變量xi的線性函數(shù):θ=ln[pe5/pe0]=a+σiβixi獲得既定序列的最高水平(e=5)相較于無(e=0)蛋白質(zhì)表達的概率因此通過以下方程式給出:為了捕獲mrna序列參數(shù)與結(jié)果之間的非線性關(guān)系,廣義變量xi可以代表mrna序列參數(shù)的數(shù)學(xué)函數(shù)以及這些參數(shù)自身。將r統(tǒng)計程序(team,r.c.r:alanguageandenvironmentforstatisticalcomputing.(2012))用以計算模型參數(shù)的最可能值(a,βi)。邏輯回歸斜率βi>0指示,高表達概率隨相關(guān)變量數(shù)值的增加而增加。因為δg數(shù)值隨著折疊穩(wěn)定性降低而增加,所以自由能項的正斜率指示高表達概率隨預(yù)測折疊穩(wěn)定性降低而增加,而這些項的負斜率指示高表達概率隨預(yù)測折疊穩(wěn)定性增加而增加。稱為m的最終模型(圖34a和圖29)在正文中給出,并且此模型的密碼子斜率βc描繪于圖11b中。原則上,可以通過使用來自模型m的參數(shù)(a,βi)最大化以上方程式中的θ,繼而使π的值最大化來操控mrna序列特性,以增加高蛋白質(zhì)表達概率。通過概率比檢驗和赤池信息準則(akaike,h.(1974)automaticcontrol,ieeetransactionson19,716-723)(aic)指導(dǎo)此模型中參數(shù)的入選,赤池信息準則是模型品質(zhì)的改進是否超過增加自由度數(shù)值(d.f.)隨機預(yù)期改進的標準量度。似然比χ2(lrχ2)漸近于χ2分布,并且定義為從模型的預(yù)測觀察到數(shù)據(jù)與僅含有常數(shù)項a的零模型(如上文所定義)相比偏差d的減小。偏差定義為:對大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集中的6,348個蛋白質(zhì)之中給出表達得分0或5的n=3,727個蛋白質(zhì)求此總和,并且變量ej在蛋白質(zhì)j分別以e=0或e=5水平表達時假定0或1的值。變量πj=π(θj)根據(jù)以上給出描述多參數(shù)二元邏輯模型的方程式給出了獲得e=5而非e=0水平的蛋白質(zhì)j表達的預(yù)測概率。對于本文所分析的數(shù)據(jù)集,偏差對零模型和最終模型m分別具有5,154和3,952的值(圖34a)。還使用‘rms’套裝在r中進行靴帶式驗證以確保最終模型不是過度擬合。模型開發(fā)(圖34)過程中探索的序列參數(shù)包括基因長度、在整個基因中同框或非同框的個別密碼子頻率、在頭端和尾端中單獨地同框的個別密碼子頻率、雙密碼子頻率、密碼子序列的統(tǒng)計熵、密碼子重復(fù)率(下文定義)、在整個基因中和在其序列內(nèi)的所定義窗中每個密碼子位置處的核苷酸堿基的頻率以及多個預(yù)測mrna折疊能參數(shù)(包括圖9與16中展示的參數(shù)),其獨立地和以統(tǒng)計聚集體形式評估。密碼子重復(fù)率定義為r=<di-1>,其中di是朝基因的3'端移動,從任何密碼子到下一次出現(xiàn)相同密碼子的距離。di-1的值在密碼子不再次出現(xiàn)時設(shè)定為零,因此序列aaa.cgt.ccg.cgt.aaa的r的值是(1/4,1/2,0,0,0)的平均值=3/20。密碼子變量的自由度數(shù)值比非終止密碼子的數(shù)值少一,因為其在序列中的頻率fc必須總計是1(即∑fc=1)。因此,對于圖11和29中展示的分析,去除atg,實際上迫使其斜率βatg=0和其對模型的貢獻被吸收到常數(shù)a中在模型m中包括平均密碼子斜率變量s7-16和s17-32將個別密碼子斜率βc均勻地減小到其在無平均斜率項包括于模型中時的值的約86%,反映了5'末端附近的密碼子與基因其余部分中的密碼子相比的不成比例影響(圖32)。測試了包括個別密碼子加下一堿基或前一堿基頻率等變量的更復(fù)雜模型,但其基于靴帶式驗證準則而被排除。還檢驗了將額外變量引入到模型m中(圖34b)。添加密碼子2-6的平均斜率不產(chǎn)生統(tǒng)計顯著改進,并且在此區(qū)中使用此項代替堿基組成項產(chǎn)生較差結(jié)果,與圖32中展示的分析一致。添加任何框中的夏因-達爾加諾共有agga的頻率(圖16g-h中的fagga)也未能產(chǎn)生統(tǒng)計顯著改進。類似地,添加尾端中的預(yù)測mrna折疊自由能的平均值的項不顯著改進模型,盡管尾端中的不穩(wěn)定折疊與降低的蛋白質(zhì)表達相關(guān)(圖9g-h)。此相關(guān)性以及基因中的總體a、t、g和c含量的相關(guān)性(圖16a-e)必須通過包括于模型中的交叉相關(guān)序列參數(shù)(圖17-18)來更有效地捕獲,表明這些其它參數(shù)機制性影響力更大實例31:設(shè)計同義mrna序列在6aa方法中,使六種氨基酸的密碼子變?yōu)閳D35中規(guī)定的單一密碼子,其斜率比單一參數(shù)二元邏輯回歸分析(圖11b中的深灰色標志)中的任何同義密碼子的斜率更大。盡管6aa方法不進行顯式自由能優(yōu)化,但其產(chǎn)生預(yù)測mrna折疊自由能比天然存在的起始序列更有利的基因。在31c-fo方法中,優(yōu)化預(yù)測mrna折疊能,同時從圖35中列出的31者選擇斜率大于單一參數(shù)二元邏輯回歸分析(圖11b中的深灰色標志)中的零的密碼子。數(shù)值上最大化頭端加5'utr的預(yù)測折疊自由能(δguh)(即,以得到最不穩(wěn)定的折疊),同時使尾端中的預(yù)測折疊自由能優(yōu)化為在48個核苷酸的窗中接近-10kcal/mol。31c-fd使用相同密碼子組以產(chǎn)生其中數(shù)值上最小化預(yù)測折疊自由能(即,以得到最穩(wěn)定的折疊)的基因。實例32:細菌菌株和生長培養(yǎng)基將大腸桿菌菌株dh5α用于克隆。表達實驗使用大腸桿菌菌株bl21(de3)pmgk(acton,t.b.等人(2005)methodsenzymol394,210-243)。將細菌在lb培養(yǎng)基(affymetrix/usb)中培養(yǎng)。對于具有基于pet21的質(zhì)體的培養(yǎng)物,以100μg/ml添加氨芐青霉素。以25μg/ml添加卡那霉素以維持pmgk質(zhì)體。在用以產(chǎn)生高通量蛋白質(zhì)表達數(shù)據(jù)集(acton,t.b.等人(2005)methodsenzymol394,210-243)的相同的培養(yǎng)基中以及條件下進行細菌生長以用于蛋白質(zhì)表達和rna印跡實驗(即,mj9基礎(chǔ)培養(yǎng)基(jansson,m.等人(1996)jbiomolnmr7,131-141),在250rpm攪拌下在37℃下,隨后在17℃下誘導(dǎo))。實例33:質(zhì)體從羅格斯大學(xué)(rutgersuniversity)東北結(jié)構(gòu)基因組學(xué)協(xié)會的蛋白質(zhì)生產(chǎn)實驗室(www.nesg.org)獲得基因ape_0230.1(敏捷氣熱菌k1)、rsp_2139(類球紅細菌)、sru_1983(紅色嗜鹽菌)、sco1897(天藍色鏈霉菌)和ycaq(大腸桿菌)的pet-21克隆株(分別是nesg標靶xr92、rhr13、srr141、rr162和er449)。通過genscriptdna合成基因的6aat和31c-foh/31c-fot變異體。通過pcr擴增使用包含ncoi限制位點的長正向引物產(chǎn)生頭端變異體31c-foh和31c-foh,新的頭序列和與標靶基因中的下游區(qū)互補的序列。使用含有起始構(gòu)筑體的質(zhì)體作為用相應(yīng)長正向引物和反向引物(其在包括xhoi限制位點的構(gòu)筑體的3'端處雜交)的pcr的dna模板。將所得pcr產(chǎn)物使用in-fusion試劑盒(clontech)克隆到經(jīng)ncoi和xhoi線性化的pet-21衍生物中。通過dna測序(genewiz和etonbioscience)驗證每種質(zhì)體中的全蛋白編碼序列,并且在需要時使用quikchangeii定點誘變試劑盒(agilenttechnologies)校正。最終構(gòu)筑體的dna序列提供于補充信息文件boeletal2014sequencedata.csv中。實例34:大腸桿菌生長曲線通過將200μl每種誘導(dǎo)培養(yǎng)物轉(zhuǎn)移到96孔無菌板(greinerbio-one)并且用50μl無菌石蠟油覆蓋,測量過夜細胞生長。對于每種標靶wt,負載陰性對照非誘導(dǎo)樣品。負載一式兩份的每種樣品以用于任何自然或人類變異。將板在室溫下放置到板讀取器(bioteksynergy)中,并且震蕩30秒。獲取起始od600讀數(shù),并且然后是30分鐘震蕩直到下一od讀數(shù)。重復(fù)讀數(shù)以用于總共9小時的生長分析。實例35:分析體內(nèi)蛋白質(zhì)表達將來自單一菌落的起始培養(yǎng)物接種到含有100μg/ml氨芐青霉素和30μg/ml卡那霉素的6mllb培養(yǎng)基中。使培養(yǎng)物在37℃下生長直到高度混濁(4-6小時)。將40μl混濁培養(yǎng)基用以接種2mlmj9基本培養(yǎng)基(jansson,m.等人(1996)jbiomolnmr7,131-141)。使此mj9預(yù)培養(yǎng)物在37℃下生長過夜。第二天,獲取混濁mj9預(yù)培養(yǎng)物的1:10稀釋物的od600讀數(shù)。將此讀數(shù)用以計算針對6ml培養(yǎng)基中0.1的起始培養(yǎng)物讀數(shù)標準化所有細胞樣品所需的預(yù)培養(yǎng)物量。將此計算量接種到6ml新鮮mj9培養(yǎng)基中,并且使細胞在37℃下生長直到od600達到0.5-0.7。然后用1mmiptg誘導(dǎo)細胞,每種標靶wt保留一個一式兩份管非誘導(dǎo)以充當陰性對照。在誘導(dǎo)之后,移出200μl×2的每種培養(yǎng)物,并且將其放置到無菌96孔板中用于生長曲線監(jiān)測(參看上文)。然后將剩余5.6ml經(jīng)誘導(dǎo)樣品轉(zhuǎn)移到17℃并且震蕩過夜。第二天,將樣品管從震蕩器移出并且放置在冰上。獲取最終od600測量值。使細胞在14ml圓底falcon管中在4krpm下離心10分鐘,并且舍棄上清液。將細胞再懸浮于1.2ml溶解緩沖液(50mmnah2po4ph8.0,30mmnacl,10mm2-巰基乙醇)中,并且然后轉(zhuǎn)移到冰上的1.5mleppendorf管。通過使用40v設(shè)定(約12瓦脈沖)和脈沖1sec繼而2sec靜止持續(xù)總共40個脈沖在冰上進行聲處理,來實現(xiàn)溶解。將120μl每種溶解樣品與40μl4xlaemmli緩沖液混合。然后使樣品在具有bio-radprecisionplusallbluestandard標記的sds-page(bio-rad,readygel,15%tris-hcl)上運行。將最終od600測量值用以計算每種個別樣品的負載量,針對每種獨特標靶的最少混濁的密度標準化所有樣品。在生長和通過dna測序(genewiz和etonbioscience)誘導(dǎo)之后驗證質(zhì)體的完整性。實例36:體外轉(zhuǎn)錄和翻譯將含有優(yōu)化或未優(yōu)化插入序列的pet21質(zhì)體用blpi消化,苯酚-氯仿純化,并且通過乙醇沉淀濃縮。在經(jīng)消化樣品中,添加2μg到ribomax試劑盒(promega)制備物,并且根據(jù)方案體外轉(zhuǎn)錄。在反應(yīng)完成后,將體外轉(zhuǎn)錄樣品用dna酶(promega)處理,然后異丙醇沉淀,并且再懸浮于thernastoragesolution(ambion)中。通過瓊脂糖凝膠電泳用溴化乙錠染色驗證轉(zhuǎn)錄物大小和純度。為獲得時間點動力學(xué),組裝20μlt7反應(yīng)物,并且以1μgdna模板起始。在時間0、5、10和30分鐘,使4.5μl每個反應(yīng)物在變性甲醛-瓊脂糖凝膠上運行。用purexpress系統(tǒng)(newenglandbiolabs)使用優(yōu)質(zhì)l-[3]35s]甲硫氨酸(perkinelmer)對經(jīng)純化mrna進行體外翻譯分析。每一25μl反應(yīng)物含有10μl溶液a、7.5μl溶液b和2μl[5]35s]甲硫氨酸(10μci)。通過添加2μl經(jīng)純化mrna(4μg/μl)和在37℃下孵育而起始反應(yīng)。在15、30、60和90min從反應(yīng)物抽取5μl的等分試樣,通過添加10μl2xlaemmli并且在60℃下加熱2min而終止。然后使14μl的每個等分試樣在具有bio-radprecisionplusallbluestandard標記的4-20%sds-page(bio-rad)上運行。使凝膠在whathman上干燥以及經(jīng)歷放射自顯影。實例37:rna印跡分析將rna印跡探針設(shè)計為pet21載體的5'utr的71nt的反向互補序列,并且通過eurofins合成。將探針使用brightstar補骨脂素-生物素非同位素標記試劑盒用生物素標記。使含有所關(guān)注質(zhì)體的bl21(de3)pmgk大腸桿菌在lb中在37℃下在震蕩下生長過夜。將培養(yǎng)物1:50稀釋到mj9培養(yǎng)基中,并且使其在37℃下在震蕩下生長過夜。第二天,將培養(yǎng)物稀釋到0.15的od600到mj9培養(yǎng)基中,并且使其生長到0.6-0.7的od600,隨后用1mmiptg誘導(dǎo)。在指定時間點獲取樣品,并且在2體積的rnaprotectbacteriareagent中穩(wěn)定化rna。在?;螅箻悠啡芫赶?15mg/ml)15分鐘,并且使用direct-zolrnaminiprepkit和tri-reagent純化rna。在1.2%甲醛-瓊脂糖凝膠上在mops-甲醛緩沖液中每樣品分離約1-2μg總rna。通過溴化乙錠染色驗證rna完整性。然后將rna在室溫下持續(xù)2h使用毛細管下行轉(zhuǎn)移法用堿性轉(zhuǎn)移緩沖液(1mnacl,10mmnaoh,ph9)轉(zhuǎn)移到帶正電尼龍膜。將rna使用1200μjuv(stratalinker)交聯(lián)到膜。使膜在雜交爐中在42℃下在ultrahyb雜交緩沖液中預(yù)雜交1h。然后添加熱變性的經(jīng)生物素標記的探針到10-20pm最終濃度,并且在42℃下雜交過夜。在洗滌緩沖液(0.2xssc,0.5%sds)中洗滌膜兩次,并且在暴露于薄膜的情況下根據(jù)方案使用brightstarbiodetect試劑盒檢測探針信號。實例38:rna提取和微陣列分析將大腸桿菌mg1655細胞在m90.4%葡萄糖基本培養(yǎng)基中培養(yǎng)到1.0的最終od600。將細胞用rnaprotectbacteriareagent(qiagen)處理,并且將使用rneasyminikit(qiagen)提取的rna使用superscriptii逆轉(zhuǎn)錄酶(invitrogen)逆轉(zhuǎn)錄,繼而用rnaseh(invitrogen)和rnasea(epicentre)處理。將所得cdna制備物使用minelutepurificationkit(qiagen)純化,并且然后使用dnasei(epicentre)片段化成50-200bp片段。biotinylationwasperformed用末端脫氧核苷酸轉(zhuǎn)移酶(newenglandbiolabs)和生物素-n6-ddatp(enzolifesciences)進行生物素化。通過威斯康星大學(xué)生物技術(shù)中心(universityofwisconsinbiotechnologycenter)的基因表達中心(geneexpressioncenter)使生物素化cdna在affymetrix大腸桿菌2.0陣列上雜交。在affymetrixexpressionconsole使用穩(wěn)定多芯片平均(robustmulti-chipaverage,rma)算法分析原始數(shù)據(jù)(.cel)文件。實例39:對大腸桿菌mg1655中的細胞質(zhì)蛋白質(zhì)分類使用程序lipop(juncker,a.s.等人(2003)proteinsci12,1652-1662)和tmhmm(krogh,a.,larsson,b.,vonheijne,g.與sonnhammer,e.l.(2001)jmolbiol305,567-580)分析ecocyc數(shù)據(jù)庫(keseler,i.m.等人(2013)nucleicacidsresearch41,d605-d612)中基因組形式中所有的預(yù)測蛋白質(zhì),將不具有預(yù)測跨膜螺旋或預(yù)測信號肽的預(yù)測蛋白質(zhì)歸類為細胞質(zhì)蛋白質(zhì)并包括在圖30中的分析中。實例40:分析相關(guān)數(shù)據(jù)集重新分析從一組重新編碼的egfp基因的表達定量大腸桿菌中觀察到的體內(nèi)熒光水平的plotkin數(shù)據(jù)集。此數(shù)據(jù)集中的序列相關(guān)性通常與基于本文所描述的結(jié)果的期望值一致。為了正確地看待所觀察到的趨勢,關(guān)于用以產(chǎn)生plotkin數(shù)據(jù)集的實驗設(shè)計,重要的是注意兩個因素。首先,為了避免被認為使mrna易于因rnasee而裂解的序列特征,plotkin和同事使用了有限的一組同義密碼子取代而非對密碼子空間系統(tǒng)地抽樣。他們嘗試避免的序列特征經(jīng)證實在最近由xie和同事所報道和本文所重新分析的大腸桿菌mrna衰減數(shù)據(jù)集中不具有顯著影響。他們施加于密碼子取代的不必要的限制阻止了他們對從本文所描述的數(shù)據(jù)集推斷的許多最強同義密碼子取代效應(yīng)抽樣,所述抽樣提供了比他們的抽樣實質(zhì)上更寬并且更深的密碼子空間抽樣。因此,預(yù)期密碼子含量對他們的數(shù)據(jù)集的影響實質(zhì)上弱于對本文所描述的數(shù)據(jù)集的影響。為plotkin數(shù)據(jù)集的基礎(chǔ)的關(guān)于實驗設(shè)計的第二因素是其經(jīng)由天然折疊egfp的熒光發(fā)射強度定量蛋白質(zhì)表達,盡管已知此gfp變異體具有凝集傾向并且在一些條件下在大腸桿菌中體內(nèi)低效地折疊。兩個不同群組的后續(xù)論文已經(jīng)報道了,分離改進此變異體的折疊并且在升高的[4]大腸桿菌[5]中[2]體內(nèi)[3]egfp表達水平下防止歸因于蛋白質(zhì)凝集的熒光產(chǎn)率損失的突變。plotkin和同事使用其它方法對蛋白質(zhì)表達進行了少量驗證,并且未提供確立egfp表達水平的范圍的任何校準,熒光產(chǎn)率在所述范圍內(nèi)隨合成的蛋白質(zhì)的量線性地按比例調(diào)整。因此,報道了分離大腸桿菌中的穩(wěn)定化egfp變異體的較晚的論文提升了如下可能性:可以通過一些增加egfp表達的方案中的增加的錯折疊與凝集的偶合來遮蔽plotkin數(shù)據(jù)集中的一些表達增強效應(yīng)。使用與用以對大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集建模的方法類似的方法對plotkin數(shù)據(jù)集進行同時多參數(shù)線性回歸建模。這些分析顯示,基因的頭端中的預(yù)測mrna折疊自由能和堿基組成在plotkin數(shù)據(jù)集中對egfp熒光水平具有顯著影響,所述影響平行于其在蛋白質(zhì)表達數(shù)據(jù)集中的影響。plotkin和同事檢測到了前一效應(yīng)但未檢測到后一效應(yīng),后一效應(yīng)是本文呈現(xiàn)的研究的新穎發(fā)現(xiàn)。雖然從plotkin數(shù)據(jù)集推斷的堿基組成效應(yīng)在一些細節(jié)方面不同于從本文所描述的數(shù)據(jù)集推斷的效應(yīng)(其似乎可能源于其egfp表達構(gòu)筑體中的特定序列情境),但總體趨勢匹配。觀察到s全部(新密碼子影響度量值的平均值)在plotkin數(shù)據(jù)集中對egfp熒光水平具有弱但顯著的影響,但從蛋白質(zhì)表達數(shù)據(jù)集中觀察到的影響可知此效應(yīng)呈相對方向??紤]到egfp的低效體內(nèi)折疊特性,所觀察到效應(yīng)的最可能解釋是,增加的翻譯效率由于包括于plotkin數(shù)據(jù)集中的一些基因中的增加的錯折疊與凝集的偶合而導(dǎo)致egfp熒光產(chǎn)率降低。將需要進一步研究來嚴格地剖析此效應(yīng)。還重新分析了goodman等人從與變化的序列的10殘基n末端延伸(即,包含所表達基因的密碼子2-11)融合的單一superfoldergfp(sfgfp)基因序列的表達定量大腸桿菌中觀察到的體內(nèi)熒光水平的數(shù)據(jù)集。值得注意的是,此gfp變異體是上文所提及的與plotkin和同事所用的egfp蛋白質(zhì)相比經(jīng)分離以在大腸桿菌中更高效地體內(nèi)折疊的兩者之一(ref?)?;谒龇治?,goodman數(shù)據(jù)集中變化的基因的區(qū)僅含有其中同義取代影響表達水平的五個密碼子(即,密碼子7-11),因為對于密碼子2-6來說堿基組成效應(yīng)主導(dǎo)著密碼子使用效應(yīng),因此并不預(yù)期強密碼子使用效應(yīng)。使用與用以對大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集建模的方法類似的方法對goodman數(shù)據(jù)集進行同時多參數(shù)線性回歸建模。這些分析的結(jié)果與計算模型和本文呈現(xiàn)的定性結(jié)論兩者一致?;虻念^端中的預(yù)測mrna折疊自由能和堿基組成在goodman數(shù)據(jù)集中對sfgfp熒光水平具有顯著影響,所述影響平行于其在本文所描述的蛋白質(zhì)表達數(shù)據(jù)集中的影響。如plotkin和同事一樣,goodman等人檢測到了前一效應(yīng)但未檢測到后一效應(yīng)。從goodman數(shù)據(jù)集推斷的堿基組成效應(yīng)在一些細節(jié)方面不同于從本文所描述的數(shù)據(jù)集推斷的效應(yīng)(其似乎可能源于其sfgfp表達構(gòu)筑體中的特定序列情境),但總體趨勢再次匹配。觀察到,s全部對sfgfp熒光水平具有弱但顯著的影響,其方向與蛋白質(zhì)表達數(shù)據(jù)集中觀察到的相同但與plotkin數(shù)據(jù)集中觀察到的相對。此差異很可能反映了goodman等人所用的sfgfp構(gòu)筑體與plotkin和同事所用的egfp構(gòu)筑體相比的更高效體內(nèi)折疊。還重新分析了最近發(fā)表的定量大腸桿菌mrna衰減速率的實驗數(shù)據(jù)集。xie和同事發(fā)表的此論文將rnaseq用于在lb培養(yǎng)基中的對數(shù)期或早期生長停滯期的生長期間在通過抗生素利福平(rifampicin)抑制轉(zhuǎn)錄起始之后,整體定量mrna衰減速率。雖然這些數(shù)據(jù)集對大腸桿菌中的mrna衰減提供了迄今為止最全面的表征,但其覆蓋了大腸桿菌中的相對小部分的基因(<25%),并且所覆蓋的一組基因朝具有高穩(wěn)態(tài)濃度的豐富mrna強烈偏倚,這是使得對這些數(shù)據(jù)集的分析非平凡的若干因素之一。初始分析支持本文所描述的結(jié)果中提出的若干解讀:在xie和同事報道的指數(shù)期和停滯期數(shù)據(jù)集兩者中,mrna壽命與穩(wěn)態(tài)水平之間存在顯著正相關(guān)性。換句話說,較高豐度mrna具有比較低豐度mrna系統(tǒng)地更慢的衰減速率。據(jù)推斷存在此類關(guān)系以解釋大腸桿菌中具有更高s全部值或平均密碼子影響得分的mrna的系統(tǒng)地更高的穩(wěn)態(tài)水平,其據(jù)假設(shè)可反映具有更好密碼子使用的mrna的更慢衰減。xie和同事的mrna衰減數(shù)據(jù)集展現(xiàn)的豐度-壽命關(guān)系支持了解釋此效應(yīng)的基礎(chǔ)邏輯。此外,兩個不同計算分析顯示,測量衰減速率的mrna系統(tǒng)地耗盡了與降低的蛋白質(zhì)表達相關(guān)的密碼子。s全部的分布對于大腸桿菌中的測量了mrna衰減速率的基因顯著高于對于未測量其的基因。第二,具有從大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集推斷的更低密碼子影響得分(s)的密碼子在測量了衰減速率的mrna組中具有與大腸桿菌基因組整體中相比系統(tǒng)地更低的頻率。這些觀察結(jié)果與mrna壽命與穩(wěn)態(tài)水平之間的顯著正相關(guān)性的觀察結(jié)果組合向如下假設(shè)提供了實驗支持:大腸桿菌中s全部與全基因組生理穩(wěn)態(tài)mrna濃度之間的相關(guān)性至少部分反映了具有次優(yōu)密碼子使用的mrna的優(yōu)先降解。因此,基于本文所描述的對通過t7聚合酶轉(zhuǎn)錄的mrna的實驗,由另一群組在大腸桿菌中在生理條件下應(yīng)用正交方法產(chǎn)生的大規(guī)模數(shù)據(jù)集支持所述推斷。額外分析顯示,密碼子影響得分與xie和同事測量的mrna壽命具有所預(yù)測種類的顯著關(guān)系。首先,每個密碼子的從大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集推斷的密碼子影響得分(s)展示出與所述密碼子的頻率與實驗地測量的mrna壽命之間的斯皮爾曼(spearman)評級次序相關(guān)系數(shù)(即,根據(jù)度量值更優(yōu)的密碼子使用與更長的測量mrna壽命相關(guān))的顯著正相關(guān)性。第二,同時多參數(shù)線性回歸建模顯示,s全部即使當與其它序列參數(shù)(包括核苷酸堿基組成)同時考慮時也是所測量mrna壽命的顯著預(yù)測子。此分析的其它值得注意的特征是,先前經(jīng)推斷可控制對rnasee的易感性的堿基偏好實際上與壽命不相關(guān),所述堿基偏好被認為是大腸桿菌中的mrna壽命的主要決定因素。類似地,plotkin和同事在其密碼子取代流程中避免的特征實際上與壽命不相關(guān),如上文所提及。最終,trna適應(yīng)指數(shù)(tai)與所測量mrna壽命不具有顯著關(guān)系,而密碼子適應(yīng)指數(shù)(cai)具有捕獲s全部的一些但非全部影響的影響。值得注意的是,當與s全部同時考慮時,反映了編碼在生理條件下表達的豐度最大的蛋白質(zhì)的mrna的序列特征的cai對大規(guī)模蛋白質(zhì)表達數(shù)據(jù)集不具有顯著影響。因此,歷史上假定為反映翻譯效率的此度量值實際上可以主要反映mrna衰減效應(yīng)。將需要未來的研究來嚴格地去卷積和定量大腸桿菌中的mrna序列特征對轉(zhuǎn)錄相較于翻譯相較于mrna衰減的相對影響。然而,最近xie和同事發(fā)表的對mrna衰減數(shù)據(jù)集的眾多分析一致支持如下假設(shè):如通過新密碼子影響度量值所測量的次優(yōu)密碼子使用與大腸桿菌中的更快速mrna衰減相關(guān)。參考文獻aalbertsdp和jannenwk(2013)rnabows:使rna二級結(jié)構(gòu)可視化的直觀工具(rnabows:anintuitivetoolforvisualizingrnasecondarystructures).rna19,475-478。actontb等人東北結(jié)構(gòu)基因組學(xué)協(xié)會的自動式克隆和多肽生產(chǎn)平臺(roboticcloningandpolypeptideproductionplatformofthenortheaststructuralgenomicsconsortium).酶學(xué)方法(methodsinenzymology)394:210-243。akaikeh(1974)統(tǒng)計模型鑒別的新面目(anewlookatthestatisticalmodelidentification).自動控制的ieee會刊(ieeetransactionsonautomaticcontrol)19:716-723。appelrd,bairocha,hochstrasserdf(1994)生物學(xué)家的新一代信息檢索工具:expasywww服務(wù)器的實例(anewgenerationofinformationretrievaltoolsforbiologists:theexampleoftheexpasywwwserver).生物化學(xué)趨勢(trendsinbiochemicalsciences)19:258。bentelek,saffertp,rauscherr,ignatovaz,bluthgenn(2013)高效翻譯起始指示了基因起點處的密碼子使用(efficienttranslationinitiationdictatescodonusageatgenestart).分子系統(tǒng)生物學(xué)(molecularsystemsbiology)9,675。bertonep等人(2001)spine:用于鑒別高通量結(jié)構(gòu)蛋白質(zhì)組研究中的可行標靶的整合的追蹤數(shù)據(jù)庫和數(shù)據(jù)挖掘方法(spine:anintegratedtrackingdatabaseanddataminingapproachforidentifyingfeasibletargetsinhigh-throughputstructuralproteomics).核酸研究(nucleicacidsresearch)29:2884。biro,j.c.(2008)編碼序列的核苷酸組成與折疊能之間的相關(guān)性,特別注意擺動堿基(correlationbetweennucleotidecompositionandfoldingenergyofcodingsequenceswithspecialattentiontowobblebases).理論生物學(xué)與醫(yī)學(xué)建模(theorbiolmedmodel),5:14。brantr(1990)評估用于序數(shù)邏輯回歸的相稱優(yōu)勢模型中的比例性(assessingproportionalityintheproportionaloddsmodelforordinallogisticregression).生物統(tǒng)計學(xué)(biometrics)46:1171-1178。bulmerm(1991)同義密碼子使用的選擇-突變-偏移理論(theselection-mutation-drifttheoryofsynonymouscodonusage).遺傳學(xué)(genetics)129,897-907。campbelljw等人(1972)對糖酵解途徑中的酶的x射線衍射研究(x-raydiffractionstudiesonenzymesintheglycolyticpathway).定量生物學(xué)冷泉港座談會(coldspringharb.symp.quant.biol)36:165-170。cannarozzig等人(2010)密碼子次序在翻譯動力學(xué)中的作用(aroleforcodonorderintranslationdynamics).細胞(cell)141,355-367。caskeyct,beaudeta,nirenbergm(1968)rna密碼子和蛋白質(zhì)合成(rnacodonsandproteinsynthesis).15.哺乳動物和細菌轉(zhuǎn)移rna部分對信使rna密碼子的相異反應(yīng)(dissimilarresponsesofmammalianandbacterialtransferrnafractionstomessengerrnacodons).分子生物學(xué)雜志(jmolbiol)37,99-118。carstenscp(2003)使用補充trna的宿主菌株使異源基因表達于大腸桿菌中(useoftrna-supplementedhoststrainsforexpressionofheterologousgenesine.coli).分子生物學(xué)方法(methodsinmolecularbiology)205:225-234。chengt,inouyem(1994)aga/agg密碼子,大腸桿菌中的整體基因表達中的最稀有密碼子的作用(roleoftheaga/aggcodons,therarestcodonsinglobalgeneexpressioninescherichiacoli).基因與發(fā)育(genes&development)8,2641-2652。chenj,actontb,basusk,montelionegt,inouyem(2002)通過熱休克增強過度表達于大腸桿菌中的多肽的溶解性(enhancementofthesolubilityofpolypeptidesoverexpressedinescherichiacolibyheatshock).分子微生物學(xué)與生物技術(shù)雜志(journalofmolecularmicrobiologyandbiotechnology)4:519-524。chenl,oughtredr,bermanhm,westbrookj(2004)targetdb:用于結(jié)構(gòu)基因組學(xué)項目的標靶注冊數(shù)據(jù)庫(targetdb:atargetregistrationdatabaseforstructuralgenomicsprojects)(牛津大學(xué)出版社(oxfordunivpress))。christeneh等人(2009)用于在大腸桿菌中生產(chǎn)難以表達的誘導(dǎo)子相依性細菌抑制子多肽的通用策略(ageneralstrategyfortheproductionofdifficult-to-expressinducer-dependentbacterialrepressorpolypeptidesinescherichiacoli).多肽表達與純化(polypeptideexpressionandpurification)。creamertp(2000)多肽去折疊狀態(tài)中的側(cè)鏈構(gòu)象熵(side-chainconformationalentropyinpolypeptideunfoldedstates).多肽:結(jié)構(gòu)、功能與遺傳學(xué)(polypeptides:structure,function,andgenetics)40。crombiet,swaffieldjc,brownaj(1992)細胞內(nèi)的多肽折疊受受控多肽延長速率影響(polypeptidefoldingwithinthecellisinfluencedbycontrolledratesofpolypeptideelongation).分子生物學(xué)雜志(j.mol.biol)228:7-12。dalege,brogerc,langenh,arcyad,stüberd(1994)通過合理地設(shè)計的氨基酸置換改進多肽溶解性:甲氧芐氨嘧啶抗性型s1二氫葉酸還原酶的溶解(improvingpolypeptidesolubilitythroughrationallydesignedaminoacidreplacements:solubilizationofthetrimethoprim-resistanttypes1dihydrofolatereductase).多肽工程設(shè)計與選擇(polypeptideengineeringdesignandselection)7:933-939。davisgd,eliseec,newhamdm,harrisonrg(1999)經(jīng)設(shè)計以提供于大腸桿菌中的可溶表達的新融合多肽系統(tǒng)(newfusionpolypeptidesystemsdesignedtogivesolubleexpressioninescherichiacoli).生物技術(shù)與生物工程(biotechnologyandbioengineering)65。debernardezclarke(1998)重組多肽的再折疊(refoldingofrecombinantpolypeptides).生物技術(shù)新見(currentopinioninbiotechnology)9:157-163。derewendazs(2004)通過突變表面工程化的合理多肽結(jié)晶(rationalpolypeptidecrystallizationbymutationalsurfaceengineering).結(jié)構(gòu)(structure)12:529-535。elfj,nilssond,tensont,ehrenbergm(2003)trna同功受體的選擇性帶電解釋了密碼子使用的模式(selectivechargingoftrnaisoacceptorsexplainspatternsofcodonusage).科學(xué)(science)300,1718-1722。etchegarayjp,inouyem大腸桿菌中通過起始密碼子下游的元件的翻譯增強(translationalenhancementbyanelementdownstreamoftheinitiationcodoninescherichiacoli).生物化學(xué)雜志(journalofbiologicalchemistry)274:10079-10085。freischmidta,lissm,wagnerr,kalbitzerhr,horng(2012)rna二級結(jié)構(gòu)和體外翻譯效率(rnasecondarystructureandinvitrotranslationefficiency).蛋白質(zhì)表達與純化(proteinexpressionpurif.),82,26-31。georgioug,valaxp(1996)正確折疊的多肽于大腸桿菌中的表達(expressionofcorrectlyfoldedpolypeptidesinescherichiacoli).生物技術(shù)新見(currentopinioninbiotechnology)7:190-197。gohcs等人(2003)spine2:聯(lián)合數(shù)據(jù)庫構(gòu)架內(nèi)用于協(xié)同結(jié)構(gòu)蛋白質(zhì)組研究的系統(tǒng)(spine2:asystemforcollaborativestructuralproteomicswithinafederateddatabaseframework).核酸研究31:2833。gohcs等人(2004)挖掘結(jié)構(gòu)基因組學(xué)管線:鑒別影響高通量實驗分析的多肽特性(miningthestructuralgenomicspipeline:identificationofpolypeptidepropertiesthataffecthigh-throughputexperimentalanalysis).分子生物學(xué)雜志(journalofmolecularbiology)336:115-130。goodmandb,churchgm,kosuris(2013)細菌基因中的n末端密碼子偏倚的原因和效應(yīng)(causesandeffectsofn-terminalcodonbiasinbacterialgenes).科學(xué),doi:10.1126/science.1241934。gottesmans(1990)最小化大腸桿菌中的蛋白水解:遺傳解決方案(minimizingproteolysisinescherichiacoli:geneticsolutions).酶學(xué)方法185:119。gustafssonc,govindarajans,minshullj(2004)密碼子偏倚和異源多肽表達(codonbiasandheterologouspolypeptideexpression).生物技術(shù)趨勢(trendsinbiotechnology)22:346-353。gustafssonc,minshullj,govindarajans,nessj,villalobosa和welchm(2012)用于可預(yù)測蛋白質(zhì)表達的工程化基因(engineeringgenesforpredictableproteinexpression).蛋白質(zhì)表達與純化,83,37-46。hatfieldgw,rothda(2007)優(yōu)化多肽生產(chǎn)的按比例擴大產(chǎn)率計算優(yōu)化的dna匯編(coda)和翻譯工程化(optimizingscaleupyieldforpolypeptideproduction:computationallyoptimizeddnaassembly(coda)andtranslationengineering).生物技術(shù)年度評論(biotechnolannurev)13:27-42。hodasno和aalbertsdp.(2004)最優(yōu)寡-rna結(jié)合的高效計算(efficientcomputationofoptimaloligo-rnabinding).核酸研究(nucleicacidsres.),32,6636-6642。hofackeril(2003)維也納rna二級結(jié)構(gòu)服務(wù)器(viennarnasecondarystructureserver).核酸研究,31,3429-3431。hosmerdw,lemeshows(2004)應(yīng)用邏輯回歸(appliedlogisticregression)(威利國際科學(xué)(wiley-interscience))。huntrc,simhadrivl,iandolim,saunaze,kimchi-sarfatyc(2014)暴露同義突變(exposingsynonymousmutations).遺傳學(xué)趨勢(trendsingenetics):tig,doi:10.1016/j.tig.2014.04.006。idicula-thomass,balajipv(2005)理解多肽的一級結(jié)構(gòu)與其可溶于過度表達于大腸桿菌中的傾向之間的關(guān)系(understandingtherelationshipbetweentheprimarystructureofpolypeptidesanditspropensitytobesolubleonoverexpressioninescherichiacoli).多肽科學(xué):多肽協(xié)會出版物(polypeptidescience:apublicationofthepolypeptidesociety)14:582。idicula-thomass,kulkarniaj,kulkarnibd,jayaramanvk,balajipv(2006)用于預(yù)測多肽可溶于或形成大腸桿菌中的過度表達上的包涵體的傾向的基于支持向量機的方法(asupportvectormachine-basedmethodforpredictingthepropensityofapolypeptidetobesolubleortoforminclusionbodyonoverexpressioninescherichiacoli).生物信息學(xué)(bioinformatics)22:278-284。kapustrb,waughds(1999)大腸桿菌麥芽糖結(jié)合多肽通常不有效促進其融合的多肽的溶解性(escherichiacolimaltose-bindingpolypeptideisuncommonlyeffectiveatpromotingthesolubilityofpolypeptidestowhichitisfused).prs8:1668-1674。kefalag,kwiatkowskiw,esquiviesl,maslennikovi,choes(2007)應(yīng)用mistic改進大腸桿菌的組氨酸激酶受體的表達和膜整合(applicationofmistictoimprovingtheexpressionandmembraneintegrationofhistidinekinasereceptorsfromescherichiacoli).結(jié)構(gòu)與功能基因組學(xué)雜志(journalofstructuralandfunctionalgenomics)8:167-172。kimch,ohy,leeth(1997)用于人類促紅細胞生成素(epo)于哺乳動物細胞中的高水平表達的密碼子優(yōu)化(codonoptimizationforhigh-levelexpressionofhumanerythropoietin(epo)inmammaliancells).基因(gene)199:293-301。komaraa(2009)沿著共翻譯折疊途徑的暫停思考(apauseforthoughtalongtheco-translationalfoldingpathway).生物化學(xué)趨勢(trendsbiochem.sci)34:16-24。kozakm(2005)經(jīng)由mrna結(jié)構(gòu)調(diào)節(jié)原核生物和真核生物中的翻譯(regulationoftranslationviamrnastructureinprokaryotesandeukaryotes).基因(gene)361,13-37。krogha,larssonb,vonheijneg,sonnhammerell(2001)用隱馬爾可夫模型預(yù)測跨膜多肽拓撲:應(yīng)用于全基因組(predictingtransmembranepolypeptidetopologywithahiddenmarkovmodel:applicationtocompletegenomes).分子生物學(xué)雜志305:567-580。krügermk,pedersens,hagervalltg,sorensenma(1998)修飾trnaglu的擺動堿基可調(diào)節(jié)體內(nèi)谷氨酸密碼子的翻譯速率(themodificationofthewobblebaseoftrnaglumodulatesthetranslationrateofglutamicacidcodonsinvivo).分子生物學(xué)雜志284:621-631。kudlag,murrayaw,tollerveyd,plotkinjb(2009)大腸桿菌中的基因表達的編碼序列決定因素(coding-sequencedeterminantsofgeneexpressioninescherichiacoli).科學(xué)324:255。kytej,doolittlerf(1982)呈遞多肽的親水特征的簡單方法(asimplemethodfordisplayingthehydropathiccharacterofapolypeptide).分子生物學(xué)雜志157:105。leec等人(2008)用于有效生產(chǎn)天然多肽的改進的sumo融合多肽系統(tǒng)(animprovedsumofusionpolypeptidesystemforeffectiveproductionofnativepolypeptides).多肽科學(xué)(polypeptidesci.)17:1241-1248。lewisha等人(2005)人類囊性纖維化跨膜傳導(dǎo)調(diào)節(jié)蛋白的第一核苷酸結(jié)合結(jié)構(gòu)域中的δf508突變對結(jié)構(gòu)域折疊和結(jié)構(gòu)的影響(impactofthe{delta}f508mutationinfirstnucleotide-bindingdomainofhumancysticfibrosistransmembraneconductanceregulatorondomainfoldingandstructure).生物化學(xué)雜志280:1346-1353。ligw,ohe,weissmanjs(2012)抗夏因-達爾加諾序列驅(qū)動細菌中的翻譯暫停和密碼子選擇(theanti-shine-dalgarnosequencedrivestranslationalpausingandcodonchoiceinbacteria).自然(nature)484,538-541。liug等人(2005)用于高通量多肽結(jié)構(gòu)測定的nmr數(shù)據(jù)采集和分析方案(nmrdatacollectionandanalysisprotocolforhigh-throughputpolypeptidestructuredetermination).美國國家科學(xué)院院刊紀要(proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica)102:10487。luftjr等人(2003)篩選生物大分子的初始結(jié)晶條件的有意方法(adeliberateapproachtoscreeningforinitialcrystallizationconditionsofbiologicalmacromolecules).結(jié)構(gòu)生物學(xué)雜志(journalofstructuralbiology)142:170-179。magnancn,randalla,baldip(2009)solpro:多肽溶解性的準確的基于序列的預(yù)測(solpro:accuratesequence-basedpredictionofpolypeptidesolubility).生物信息學(xué)。makridessc(1996)實現(xiàn)基因于大腸桿菌中的高水平表達的策略(strategiesforachievinghigh-levelexpressionofgenesinescherichiacoli).微生物學(xué)與分子生物學(xué)評論(microbiologyandmolecularbiologyreviews)60:512。mathewsdh,disneymd,childsjl,schroedersj,zukerm和turnerdh(2004)將化學(xué)修飾限定并入用于預(yù)測rna二級結(jié)構(gòu)的動態(tài)程序化算(incorporatingchemicalmodificationconstraintsintoadynamicprogrammingalgorithmforpredictionofrnasecondarystructure).美國國家科學(xué)院院刊(proc.natl.acad.sci).usa,101,7287-7292。muramatsut等人(1988)轉(zhuǎn)移rna的密碼子和氨基酸特異性都通過單一轉(zhuǎn)錄后修飾而轉(zhuǎn)換(codonandamino-acidspecificitiesofatransferrnaarebothconvertedbyasinglepost-transcriptionalmodification).自然336,179-181。nakamuray,gojoborit,ikemurat(2000)國際dna序列數(shù)據(jù)庫列表的密碼子使用:2000年的狀態(tài)(codonusagetabulatedfrominternationaldnasequencedatabases:statusfortheyear2000).核酸研究28:292。pédelacqjd等人(2002)用于結(jié)構(gòu)基因組學(xué)的工程化可溶多肽(engineeringsolublepolypeptidesforstructuralgenomics).自然·生物技術(shù)(naturebiotechnology)20:927-932。pedersens(1984)體內(nèi)以可變速率的大腸桿菌核糖體翻譯(escherichiacoliribosomestranslateinvivowithvariablerate).embo雜志(theembojournal)3:2895。plotkinjb,kudlag(2011)同義但不相同:密碼子偏倚的原因和后果(synonymousbutnotthesame:thecausesandconsequencesofcodonbias).自然綜述(naturereviews).遺傳學(xué)12,32-42。pricewn等人(2009)通過分析大規(guī)模實驗數(shù)據(jù)理解控制多肽結(jié)晶的物理特性(understandingthephysicalpropertiesthatcontrolpolypeptidecrystallizationbyanalysisoflarge-scaleexperimentaldata).自然·生物技術(shù)(nat.biotechnol)27:51-57。ricep,longdeni,bleasbya(2000)emboss:歐洲分子生物學(xué)開放軟件包(emboss:theeuropeanmolecularbiologyopensoftwaresuite).遺傳學(xué)趨勢16:276-277。rostb(2005)如何使用通過profphd預(yù)測的多肽1d結(jié)構(gòu)(howtousepolypeptide1dstructurepredictedbyprofphd).蛋白質(zhì)組研究方案手冊(theproteomicsprotocolshandbook).特圖瓦(totowa)(新澤西州(newjersey)):胡馬納(humana):875-901。rostb,yachdavg,liuj(2004)預(yù)測多肽服務(wù)器(thepredictpolypeptideserver).核酸研究32:w321。sanbonmatsuky,josephs,tungc(2005)模擬在解碼期間trna向核糖體中的移動(simulatingmovementoftrnaintotheribosomeduringdecoding).美國國家科學(xué)院院刊紀要(proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica)102:15854-15859。schauderb和mccarthyjeg(1989)夏因-達爾加諾區(qū)上游和編碼序列中的堿基在控制大腸桿菌中的基因表達中的作用:體內(nèi)信使rna的翻譯和穩(wěn)定性(theroleofbasesupstreamoftheshine-dalgarnoregionandinthecodingsequenceinthecontrolofgene-expressioninescherichiacoli:translationandstabilityofmessenger-rnasinvivo).基因,78,59-72。shakin-eshlemansh,liebhabersa(1988)mrna起始密碼子的3'的雙螺旋體對單體形成的效率的影響(influenceofduplexes3'tothemrnainitiationcodonontheefficiencyofmonosomeformation).生物化學(xué)(biochemistry)27,3975-3982。slabinski,l.,l.jaroszewski等人(2007).“多肽結(jié)構(gòu)測定的挑戰(zhàn)--結(jié)構(gòu)基因組學(xué)的教訓(xùn)(thechallengeofpolypeptidestructuredetermination--lessonsfromstructuralgenomics)”.多肽科學(xué)(polypeptidesci)16(11):2472-82。smialowskip等人(2007)多肽溶解性:基于序列的預(yù)測和實驗驗證(polypeptidesolubility:sequencebasedpredictionandexperimentalverification).生物信息學(xué)23:2536。sorensenhp,mortensenkk(2005)用于重組多肽于大腸桿菌中的表達的先進遺傳策略(advancedgeneticstrategiesforrecombinantpolypeptideexpressioninescherichiacoli).生物技術(shù)雜志(journalofbiotechnology)115:113-128。spencerps,sillere,andersonjf,barraljm(2012)沉默取代可預(yù)測地改變翻譯延長速率和蛋白質(zhì)折疊效率(silentsubstitutionspredictablyaltertranslationelongationratesandproteinfoldingefficiencies).分子生物學(xué)雜志422,328-335。steinthorsdottirv等人(2007)cdkal1的變異體影響2型糖尿病的胰島素響應(yīng)和風(fēng)險(avariantincdkal1influencesinsulinresponseandriskoftype2diabetes).自然·遺傳學(xué)(naturegenetics)39,770-775。tanhaj等人(2006)通過新穎突變方法改進人類v(h)的溶解性和再折疊效率(improvingsolubilityandrefoldingefficiencyofhumanv(h)sbyanovelmutationalapproach).多肽工程化、設(shè)計與選擇(polypeptideeng.des.sel)19:503-509。tartagliagg,pechmanns,dobsoncm,vendruscolom(2009)大腸桿菌中的mrna表達水平與多肽溶解性之間的關(guān)系(arelationshipbetweenmrnaexpressionlevelsandpolypeptidesolubilityine.coli).分子生物學(xué)雜志(journalofmolecularbiology)。tresauguesl等人(2004)結(jié)構(gòu)基因組學(xué)項目中的包涵體的再折疊策略(refoldingstrategiesfrominclusionbodiesinastructuralgenomicsproject).結(jié)構(gòu)與功能基因組學(xué)雜志(journalofstructuralandfunctionalgenomics)5:195-204。trevinosr,scholtzjm,pacecn(2007)氨基酸對多肽溶解性的貢獻:asp、glu和ser比rnasesa中的其它親水氨基酸更有利地貢獻(aminoacidcontributiontopolypeptidesolubility:asp,glu,andsercontributemorefavorablythantheotherhydrophilicaminoacidsinrnasesa).分子生物學(xué)雜志366:449-460。vivanco-dominguezs等人(2012)蛋白質(zhì)合成因子(rf1、rf2、rf3、rrf和tmrna)和肽基-trna水解酶拯救有意義密碼子處的停止核糖體(proteinsynthesisfactors(rf1,rf2,rf3,rrf,andtmrna)andpeptidyl-trnahydrolaserescuestalledribosomesatsensecodons).分子生物學(xué)雜志417,425-439。wagners等人(2008)調(diào)節(jié)大腸桿菌用于膜多肽過度表達(tuningescherichiacoliformembranepolypeptideoverexpression).美國國家科學(xué)院院刊105:14371-14376。waldogs(2003)多肽溶解性的遺傳篩選和定向進化(geneticscreensanddirectedevolutionforpolypeptidesolubility).化學(xué)生物學(xué)新見(currentopinioninchemicalbiology)7:33-38。wang和dunbrack,jr.(2003).“pisces:多肽序列挑選服務(wù)器(pisces:apolypeptidesequencecullingserver)”.生物信息學(xué)19:1589-1591。wardjj,mcguffinlj,brysonk,buxtonbf,jonesdt(2004)用于預(yù)測多肽無序的disopred服務(wù)器(thedisopredserverforthepredictionofpolypeptidedisorder)(牛津大學(xué)出版社(oxfordunivpress))。wattsjm,dangkk,gorelickrj,leonardcw,bessjw,jr.,swanstromr,burchcl,weeks,km(2009)完整hiv-1rna基因組的架構(gòu)和二級結(jié)構(gòu)(architectureandsecondarystructureofanentirehiv-1rnagenome).自然,460,711-719。wigleywc,stidhamrd,smithnm,huntjf,thomaspj(2001)通過遺傳標記多肽的結(jié)構(gòu)互補體內(nèi)監(jiān)測的多肽溶解性和折疊(polypeptidesolubilityandfoldingmonitoredinvivobystructuralcomplementationofageneticmarkerpolypeptide).自然·生物技術(shù)19:131-136。wilkinsondl,harrisonrg(1991)預(yù)測重組多肽于大腸桿菌中的溶解性(predictingthesolubilityofrecombinantpolypeptidesinescherichiacoli).自然·生物技術(shù)9:443-448。wux,h,berndtkd,oppermannu(2004)密碼子優(yōu)化顯示了兩種稀有密碼子基因于大腸桿菌中的高水平表達的關(guān)鍵因素:rna穩(wěn)定性和二級結(jié)構(gòu)但非trna豐度(codonoptimizationrevealscriticalfactorsforhighlevelexpressionoftworarecodongenesinescherichiacoli:rnastabilityandsecondarystructurebutnottrnaabundance).生物化學(xué)與生物物理學(xué)研究通訊(biochemicalandbiophysicalresearchcommunications)313:89-96。yadavaa,ockenhousecf(2003)密碼子優(yōu)化對功能折疊的瘧疾疫苗候選物于原核和真核表達系統(tǒng)中的表達水平的效應(yīng)(effectofcodonoptimizationonexpressionlevelsofafunctionallyfoldedmalariavaccinecandidateinprokaryoticandeukaryoticexpressionsystems)編輯:wapetri,jr.感染與免疫(infectionandimmunity)71:4961-4969。zuker,m.(2003)用于核酸折疊和雜交預(yù)測的mfold網(wǎng)絡(luò)服務(wù)器(mfoldwebserverfornucleicacidfoldingandhybridizationprediction).核酸研究,31,3406-3415。當前第1頁12當前第1頁12